2015-01-17 5 views
-2

У меня есть разные сообщения, и я хочу знать, если сущность сообщения говорит «Спасибо». Это игнорирует сообщения, в которых говорится «Спасибо», и включает в себя вопрос.Как вы обнаруживаете, что сообщение говорит «Спасибо»?

+1

поиск подстроки "Thank you" ?? – OMGtechy

+1

Все, что вам нужно, это небольшая исследовательская группа и несколько лет интенсивного обучения. – JJJ

+0

Вы можете использовать классификатор [bayes] (http://en.wikipedia.org/wiki/Naive_Bayes_classifier) ​​и обучить его с помощью набора с метками вручную :-) – Diego

ответ

0

Поскольку вы использовали слово «сущность», это чрезвычайно сложный вопрос, чтобы ответить исчерпывающе и полностью.

Давайте немного отшатимся здесь: была проделана большая работа над связанной проблемой, называемой анализом сентиментальности. Это, в некотором отношении, интересное подмножество этой проблемы, потому что оно определено намного лучше.

Naysayer: Defined better !? Почему, анализ настроений очень четко определен. Это карта из текста в какой-то обзор. Это какая-то нехорошо ...

Проблема с критикой этого тайсайера заключается в том, что понятие настроений, данное там, действительно не определено. В чем смысл «звездного рейтинга»? Как это может быть связано с языком? Это не совсем понятно, и существующие подходы в этом отношении боролись.

«Выражение благодарности», по сути, намного яснее, чем «выражение настроения». Мы можем думать о благодарности как о конкретном типе настроений, а на самом деле очень конкретном - о том, что, я подозреваю, человеческие аннотаторы могут надежно разметить. Если люди могут надежно определить феномен, это то, что вычислительные и корпусные лингвисты считают достаточными критериями для того, чтобы что-то было «реальным».

Здесь есть два подхода. Один будет быстрее; один будет более показательным.

Первое, чтобы думать обо всех строках, связанных с благодарностью, которую вы можете придумать, и искать их. Другими словами, это расширенная версия замечательного комментария @ OMGtechy. Очевидно, «спасибо», но и «спасибо», «я (действительно) ценю (г)», «твою доброту», «был так добр», «благодарен». Вероятно, вы, вероятно, получите довольно хорошее покрытие своих данных.

Вторая задача немного сложнее, но она имеет то преимущество, что вы оспариваете свои интуиции. Получите список сообщений и отметьте, являются ли они «благодарными» или нет. В каждом сообщении отметьте часть, которая показала вам, что человек был благодарен. Вы можете взять свои результаты из этой части и использовать их для поддержки первой части.

Я подозреваю, что с благодарностью шаблоны довольно регулярны. Выражая благодарность, мы часто вводим конкретный реестр использования языка, и в соответствии с моей «первой частью» интуиции - довольно ограниченный набор слов, которые мы используем. Никакой фантазии НЛП не требуется - просто исчерпывающий образец, соответствующий этому. Если это так, здесь есть интересная лингвистика.

Смежные вопросы