2013-05-03 5 views
0

У меня есть программа анализа настроений с использованием NLTK, которая читает текст из TXT-файла, размещенного на моей локальной машине. Теперь я хотел бы прочитать txt-файл, размещенный в Hadoop HDFS, и выполнить такой же анализ настроений.Как интегрировать NLTK с Hadoop HDFS?

Как я могу это достичь?

Любые указатели на эту тему были бы очень благодарны !!!

ответ

0

Так что это будет невозможно, если nltk не сможет распознать HDFS. Но большинство таких программ, как NLTK, позволят вам передавать данные непосредственно в программу. Предполагая, что это так, вы можете использовать то, что я предлагаю в этом другом ответе, How to run external program within mapper or reducer giving HDFS files as input and storing output files in HDFS?. Вы по существу пишете небольшой адаптер Java, который открывает входной поток файла HDFS и передает его программе, которую вы хотите запустить.

Если это звучит слишком много, или просто по какой-то причине не возможно в вашем случае, вы всегда можете просто использовать HDFS, чтобы поместить файл в локальный адрес.

Смежные вопросы