Я приступаю к проекту NLP для анализа настроений.Анализ настроений с использованием python NLTK для предложений с использованием данных примера или webservice?
Я успешно установил NLTK для python (для этого похоже большое программное обеспечение). Однако мне трудно понять, как это можно использовать для выполнения моей задачи.
Вот моя задача:
- Я начинаю с одной длинной части данных (позволяет сказать несколько сотен твитов на тему выборов в Великобритании от их WebService)
- Я хотел бы разорвать этот вверх в предложения (или информация не более 100 символов) (я думаю, я могу просто сделать это в python?)
- Затем выполнить поиск по всем предложениям для конкретных экземпляров в этом предложении, например «Дэвид Кэмерон»
- Тогда я хотел бы проверить для положительного/отрицательного настроения в каждом предложении, и сосчитать их соответственно
NB: Я не очень беспокоюсь слишком много о точности, потому что мои наборы данных велики, а также не слишком беспокоился о сарказме.
Вот проблемы я имеющие:
Все наборы данных можно найти, например, данные просмотра фильма корпуса, которые поставляются с NLTK arent в формате webservice. Похоже, что уже была сделана некоторая обработка. Насколько я вижу, обработка (по Стэнфорду) проводилась с WEKA. Не возможно ли NLTK сделать все это самостоятельно? Здесь все наборы данных уже были организованы в положительные/отрицательные, например, набор полярности http://www.cs.cornell.edu/People/pabo/movie-review-data/ Как это делается? (для организации предложений по настроениям, это определенно WEKA? или что-то еще?)
Я не уверен, что понимаю, почему WEKA и NLTK будут использоваться вместе. Похоже, они делают то же самое. Если im обрабатывать данные с WEKA сначала, чтобы найти чувства, зачем мне нужен NLTK? Можно ли объяснить, почему это может понадобиться?
Я нашел несколько сценариев, которые немного приближаются к этой задаче, но все используют одни и те же предварительно обработанные данные. Невозможно ли обработать эти данные сами, чтобы найти чувства в предложениях, а не использовать образцы данных, указанные в ссылке?
Любая помощь очень ценится и спасет меня много волос!
Приветствия Ke
yep, я оказался на этом сайте после небольшого поиска, но я думаю, что я немного зациклен на том, как получить статистику для каждого обзора. Как я могу использовать nltk, чтобы дать мне список идентификаторов обзора с 1 или 0 для pos/neg? cheers ke –
Возможно, полезно для будущих читателей: в корпусе просмотра фильмов есть категории «pos» и «neg». Чтобы получить список файловых файлов в категории «neg», просто используйте 'movie_reviews.fileids (« neg »)'. Вы также можете напрямую извлечь весь текст в отрицательной категории, сказав, например, 'movie_reviews.sents (categories = [" neg "])'. (Эти методы работают со всеми категоризированными корпусами nltk. Чтобы перечислить категории в корпусе, используйте 'corpus.categories()'.) – alexis