Я пытаюсь следовать этому примеру, где термин частота и обратная частота документа рассчитывается в улье: https://github.com/myui/hivemall/wiki/TFIDF-calculationразметить Функция в улье
У меня есть таблица под названием pigoutputhive, где у меня есть следующие поля:
В колонке «тело» содержится строка слов [az AZ & 0-9 только], разделенная пробелами.
Я хотел бы сделать токенизацию тела так, чтобы я мог генерировать отношение с owneruserid и body tuple, чтобы выполнить алгоритм TF-IDF.
Я получаю сообщение об ошибке, связанной с функцией токенизации, может ли кто-нибудь сказать мне, где я ошибаюсь?
Моя ошибка выглядит следующим образом: Ошибка при компиляции оператор: FAILED: SemanticException [Error 10011]: Строка 8:37 Invalid функция 'разметить' [ERROR_STATUS]
create or replace view pigoutputhive_exploded
as
select
owneruserid,
body,
score
from
pigoutputhive LATERAL VIEW explode(tokenize(body,true)) t as word
where
not is_stopword(word);