2014-04-05 5 views
0

Я новичок в области интеллектуального анализа данных и в настоящее время работает над новостной новостной статьей из TOI в RapidMiner. Моя цель - получить результаты, которые показывают наиболее важные вещи, упомянутые в статье, или найти ценную информацию, скрытую в ней.Text Mining один текстовый документ

Я закончил обработку документа по статье «Инициатор TOI» http://timesofindia.indiatimes.com/home/specials/lok-sabha-elections-2014/news/TOI-manifesto-An-agenda-for-the-new-government/articleshow/31973967.cms. Я применил токенизацию, фильтрацию и ngrams и получил некоторый результат.

Я застрял здесь. Я не знаю, как двигаться дальше. Какую технику/алгоритм следует использовать в RapidMiner для получения требуемых результатов?

+0

Непонятно, какие «требуемые результаты». Может быть, поиск слов с самой высокой частотой? – fstab

+0

Я ищу предложения, которые дают основную информацию о статье. Есть ли способ сделать это? – user3501916

ответ

1

Вы не ищете интеллектуальную обработку данных. Сбор данных - это передовые статистические методы.

Часто с фокусом на количественный анализ.

Вы ищете обработку естественного языка. У вас нет большой базы данных.

У вас есть один документ. Вы не хотите количественных результатов, но качественных. Вы используете неправильный инструмент.

+0

Спасибо за ответ! Теперь я использую расширение плагина Information extract в обряде RapidMiner. Будет ли это полезно? или какой другой инструмент вы мне предложили бы для этого? – user3501916

+0

@ Anony-Mousse: Я не согласен с вами. Один документ может рассматриваться как источник данных, который может быть преобразован в даже большой набор данных. Это случай, когда интеллектуальный анализ данных может быть полезен для извлечения некоторых шаблонов в документе. – fstab

+0

Расширение для расширения информации для RapidMiner содержит некоторую документацию здесь http://www-ai.cs.uni-dortmund.de/auto?self=$fqhavm6c, если вы ее не видите. Именованное распознавание объектов (NER) упоминается как справедливый бит. – awchisholm

Смежные вопросы