Я создаю сайт в django, который должен извлекать ключевые слова из коротких (твиттер-подобных) сообщений.Удаление ключевых слов в Python
Я посмотрел на пакеты, такие как topia.textextract и nltk, - но оба кажутся чрезмерными для того, что мне нужно делать. Все, что мне нужно сделать, это фильтровать слова типа «и», «или», «не», сохраняя существительные и глаголы, которые не являются конъюнктами или другими частями речи. Есть ли там «более простые» пакеты, которые могут это сделать?
РЕДАКТИРОВАТЬ: Это необходимо сделать в режиме реального времени на веб-сайте производства, поэтому использование службы извлечения ключевых слов, по-видимому, не может быть основано на их времени отклика и требовании дросселирования.
Спасибо за ваш ответ. Есть ли способ, который я могу извлечь из файла nltk из пакета stopwords без использования * nltk? – oliland
Конечно, вы просто загрузите его, например http://nltk.googlecode.com/svn/trunk/nltk_data/packages/corpora/stopwords.zip. Это всего лишь zipfile текстовых файлов с именем english, russian, german и т. Д. - каждый имеет по одному слову в строке. Нелегко было получить. –