2013-10-10 4 views
0

Скажем, у меня есть документы со свободным текстовым полем, который собирается описать, какой тип отрасли бизнеса будет принадлежать:Solr/Lucene предложение анализировать вытаскивание предметов

примеру 1: «ИТ-консалтинг с акцентом на решения медико-санитарной помощи»

пример 2:„Финансовое консультирование для интернет-клиентов в Соединенных Штатах“

что я хотел бы должному с Solr или Lucene является вытаскивать систематику бизнес-операций, описанных в текст с учетом потенциальных синонимов. Таким образом, первый пример будет график как: информационных технологий < - [в] - Консалтинг - [на] -> HeathCare

пример 2 будет: Финансы < - [в] - Консалтинг

операций, как консультации или консультации - синонимы в зависимости от контекста.

ответ

1

Для синонимов установите анализатор для использования SynonymFilterFactory и в файле синонимов, например.

<filter class="solr.SynonymFilterFactory" synonyms="business-synonyms.txt" ignoreCase="true" expand="true" /> 

файл будет выглядеть примерно так:

IT,information technology 
advising,consulting 

и т.д. Хотя с «ИТ» и нечувствительности к регистру может расширить нормальное использование слова «это», так что вам, возможно, придется экспериментировать что лучше всего работает с вашими данными.

Если синонимы требуют контекста, тогда это становится намного сложнее.


Во-вторых, только индексировать вещи вы заинтересованы в вы можете использовать KeepWordFilterFactory. Вам нужно будет указать все слова, которые вас интересуют в индексировании в текстовом файле.


Эта установка создаст индекс для всех интересующих вас ключевых слов, включая синонимы. Таким образом, вы сможете искать, скажем, конкретный тип бизнеса, например. «ИТ-консалтинг в области здравоохранения» и Solr смогут получать совпадения для использования синонимов и системы подсчета очков.

+0

благодарит за ответ. Подумайте, мой вопрос не должен был смешиваться в Solr/Lucene, а не в NLP (обработка естественного языка). Нужно извлекать существительные из предложения (возможно, коррелировать предложения) и даже декораторов (прилагательных), чтобы найти отношения между бизнес-операциями для формирования бизнес-намерения. –

Смежные вопросы