2012-06-23 5 views
4

Я занимаюсь созданием программного обеспечения для сброса простого текста всех пользователей, которые комментировали и размещали в своем профиле Twitter о некоторых косметических продуктах «XYZ». Я проанализировал объекты JSON, полученные из API Twitter, и сбросил необработанные данные в базе данных MySql.Распознавание образов для Datamining и текстового anaylysis

Теперь я должен выполнить анализ этого простого текста, чтобы получить образцы, будь то хороший комментарий или плохой комментарий и т. Д. Относительно косметического продукта «XYZ» и передать эту информацию в отдельный API для создания динамических визуальных диаграмм в HTML ,

Я совершенно новый в этой области DataMining и распознавания образов на основе текста. Будет действительно признателен, если кто-нибудь может предложить, как продолжить алгоритм распознавания образов из этого простого текста в моей базе данных, чтобы предоставить фид в отдельный API визуальных диаграмм.

ответ

11

Я действительно рекомендую вам посмотреть следующие NLP Stanford lectures и в частности:

  • Неделя 3 - Настроения анализа (который является то, что вы хотите достичь)
  • Неделя 4 - связь Extraction (модели Херста, и т. д.)
  • Я думаю, вы найдете их очень ценным ресурсом.

    0

    Возможно, вы захотите взглянуть на Mahout (в этом случае вы, вероятно, захотите загрузить свои данные в HDFS).

    Вы не очень конкретны в своем случае использования, а текстовый анализ - непростая проблема, но Mahout определенно является хорошим инструментом «из коробки» для приложений машинного обучения.

    Вы могли бы также взглянуть на эту книгу, которая довольно хорошо: Taming Text

    0

    Мое понимание вашей проблемы является то, что вам нужно классификатор, чтобы отличить комментарий является хорошим или плохим.

    Чтобы решить эту проблему, статистические методы доказали свою эффективность, подобно классификатору электронной почты SPAM.

    Вы можете посмотреть проекты, связанные с байесовским классификатором, например cardmagic/classifier, чтобы узнать, полезно ли это.

    2

    В случае, если вы понимаете основы распознавания образов:

    1. вручную создать два набора (положительные и отрицательные) щебетать проводки для вашего продукта.
    2. Определите метрику, ядро ​​или меру подобия для сообщений. Вы можете использовать высокоразмерные двоичные векторы, каждый компонент представляет слово со значением 1, стоящим для присутствия, и 0 для отсутствия этого слова. Вы также можете добавить специальный вес для отрицательных слов, например «не».
    3. Используйте алгоритм машинного обучения для обучения вашего классификатора на созданных вручную наборах (классах). Вы можете использовать SVM, нейронные сети, классификатор ближайших соседей ...
    4. Используйте обученный классификатор для классификации новых сообщений Twitter.

    Это основная идея на высоком уровне. Есть, конечно, много мелких деталей, о которых следует заботиться, но объяснение их выходит за рамки ответа SO.

    2

    Этот поддомен называется анализ настроений. На эту тему есть тонны лекций и статей. Реальные результаты, которые я видел до сих пор, не были настолько убедительными для меня, к сожалению.

    Ключом к этой проблеме является наличие хороших данных по обучению. Сделайте себе инструмент, который позволяет быстро просмотреть данные и вручную пометьте его как положительный/нейтральный/отрицательный, чтобы быстро получить значительный набор тренировок.

    См. Stanford NLP Lectures, в частности на третьей неделе, чтобы узнать подробности об общем процессе и о самых современных подходах и трюках.

    0

    Вы можете посмотреть в XLMiner продукт прифронтовых Systems': http://www.solver.com/xlminer/

    Это интеллектуальный анализ данных надстройка для Excel с большим количеством встроенных функций.

    Смежные вопросы