Я новичок в Pig, и я пытаюсь написать программу подсчета слов.WordCount с пользовательскими разделителями слов в Pig?
Одним из способов получения слова из текста использовать TOKENIZE
функции:
WORDS = foreach INPUT generate flatten(TOKENIZE(text)) AS word;
Но я только хочу разделить на пробельном, в то время как TOKENIZE
расщепляется на таких вещах, как запятые, тоже. Как мне это сделать? Я попытался использовать STRSPLIT(text, ' ')
, но STRSPLIT
, кажется, возвращает кортеж, тогда как TOKENIZE
возвращает сумку, поэтому я не уверен, как использовать STRSPLIT
для этого.