2016-03-27 2 views
0

Я пытаюсь следовать этому примеру, где термин частота и обратная частота документа рассчитывается в улье: https://github.com/myui/hivemall/wiki/TFIDF-calculationразметить Функция в улье

У меня есть таблица под названием pigoutputhive, где у меня есть следующие поля:

Hive Schema

В колонке «тело» содержится строка слов [az AZ & 0-9 только], разделенная пробелами.

Я хотел бы сделать токенизацию тела так, чтобы я мог генерировать отношение с owneruserid и body tuple, чтобы выполнить алгоритм TF-IDF.

Я получаю сообщение об ошибке, связанной с функцией токенизации, может ли кто-нибудь сказать мне, где я ошибаюсь?

Моя ошибка выглядит следующим образом: Ошибка при компиляции оператор: FAILED: SemanticException [Error 10011]: Строка 8:37 Invalid функция 'разметить' [ERROR_STATUS]

create or replace view pigoutputhive_exploded 
as 
select 
owneruserid, 
body, 
score 
from 
pigoutputhive LATERAL VIEW explode(tokenize(body,true)) t as word 
where 
not is_stopword(word); 

ответ

0

Функция tokenize является расширением Hivemall для Hive.

Итак, сначала вам необходимо установить Hivemall.

Для загрузки функций Hivemall в Hive см. Следующую страницу. https://github.com/myui/hivemall/wiki/Installation

0

разметить не работает в улье и имел использовать функцию sentences().

Смежные вопросы