У меня в настоящее время огромный файл csv. который содержит reddit заголовки сообщений. Я хотел бы создать вектор функций для каждого сообщения.Сумка слов для каждой строки
Предположим, что после плитки "to be or not to be"
и она принадлежит "some_category"
. Файл csv находится в следующем формате.
"some_category1", "some title1"
"some_category2", "some title2"
"some_category1", "some title3"
Я хотел бы создать вектор функций, как показано ниже.
"some_category" : to(2) be(2) or(1) not(1).
Мне нужно сделать все это на hadoop. Я застрял на первом шаге. Как преобразовать каждую строку в вектор функции (я чувствую, что он похож на число слов, но как я применяю его для каждой строки).
Мои первоначальные мысли по отношению к этой проблеме были ключевыми для каждой строки (то есть названия и категории каждого сообщения) - это категория сообщения, а значение - это вектор функции заголовка (т. Е. Количество слов названия).
Любая помощь приветствуется в отношении того, как подойти к этой проблеме.
ли это быть программа Hadoop Java, или вы можете использовать другие инструменты Hadoop как [Apache Pig] (https://pig.apache.org)? –