2011-01-24 2 views
2

Ситуация:NLP: Языковые методы анализа и алгоритмы

Я хотел бы выполнить анализ ГЛУБИННЫЙ данного текста, который будет означать:

  1. Возможность извлечения ключевых слов и присвоения уровней важности основанный на контекстуальном использовании.
  2. Умение делать выводы о настроении.
  3. Возможность намекает на уровне образования (слово делает это немного, хотя, но что-то более автоматизированное)
  4. Возможности сочетания и соответствие фразы и найти определенные модели общения
  5. Возможности привлечь существенное значение из он, чтобы он мог быть определен количественно и может быть обработан для ответа машиной.

Вопрос:

Какие алгоритмы и методы должны быть использованы для этого?

Есть ли программное обеспечение, которое может помочь мне в этом?

ответ

3

Когда вы выясните, как это сделать, свяжитесь с DARPA, ЦРУ, ФБР и всеми другими разведывательными агентствами США. Контракты на такие проекты, как и те, которые являются предметом текущих исследований, на многие миллионы в исследовательских грантах. ;)

Это, как говорится, необходимо обработать в слоях и проанализировать на каждом из этих слоев. Для пунктов 2 и 3 вы найдете обучение SVM по n-кортежам (попробуйте, 3) слова помогут. Для 1 и 4 вам нужен более глубокий анализ. Используйте инструмент, например NLTK, или один из многих других синтаксических анализаторов, и найдите искомые слова в предложениях и связанных словах. Также используйте WordNet (from Princeton) , чтобы найти наиболее распространенные используемые чувства и принять их за ключевые слова.

5 чрезвычайно сложно, я думаю, что интеллектуальное использование данных, приведенных выше, может дать вам то, что вы хотите, но вам нужно будет использовать все ваши знания в области грамматики и программирования, и все равно будет очень грубый зернистый.

1

Похоже, что вы можете быть открыты для некоторых экспериментов, и в этом случае может быть лучше всего использовать инструментарий. Если это так, посмотрите на NLTK Natural Language Toolkit для Python. Открытый исходный код под лицензией Apache, и есть несколько отличных книг об этом (в том числе один из O'Reilly, который также выпущен онлайн по лицензии Creative Commons).

+0

И поскольку cpfohl говорит, что вы пытаетесь сделать, это сложно. С некоторыми ограничениями домена и экспериментированием вы могли бы сделать что-то полезное. – winwaed

+0

Да, я так думаю, это сложно. Я как-то поставил вопрос в очень обобщенную форму. Набор текста, который мне нужен, довольно мал, и использование любого из этих наборов наряду с небольшим вмешательством человека. – OrangeRind

+0

Но потом я подумал об этом и начал рассматривать это как отдельную сложную проблему, хотя и за пределами моей нынешней сферы изучения. Кажется интересным, и кажется, что многое еще предстоит сделать. :) – OrangeRind

Смежные вопросы