Мое требование - распознавать и извлекать числовые данные из предложения естественного языка (только на английском языке) в ответ на запросы. Платформа Java. Например, если запрос пользователя «Какова высота горы Эверест», и у нас есть пункт как:Обработка естественного языка для распознавания числовых данных
В 1856 году, Великий Тригонометрические обзор Британской Индии установили первую опубликованную высоту Эвереста, тогда известный как Пик XV, в 29 002 фута (8 840 м). В 1865 году Эверест получил свое официальное английское имя Королевским географическим обществом по рекомендации Эндрю Во, британского генерального инспектора Индии в то время, который назвал его после своего предшественника на посту и бывшего начальника сэра Джорджа Эверест. [ 4] Хомолунгма широко использовалась тибетцами на протяжении веков, но Вог не мог предложить местное имя, потому что Непал и Тибет были закрыты для иностранцев. (Вставка из википедии)
Для запроса пользователя «Высота горы Эверест» из абзаца мне нужно получить 29002 фута или 8840 м в качестве ответа. Кто-нибудь может предложить любые возможные способы сделать это на Java? Существуют ли библиотеки с открытым исходным кодом для них?
Возможно, статья wiki (http://en.wikipedia.org/wiki/List_of_natural_language_processing_toolkits) поможет вам или, возможно, Google Google (http://www.google.com/search?sourceid=chrome&ie=UTF-8&q = Java + естественный язык + + синтаксический анализ). Набор Stanford NLP выглядит достаточно хорошо документированным и является GPL'd. – Tim
Спасибо Тим. Я посмотрел на Стэнфордский НЛП. Но я думал, что это будет слишком сложно для моего проекта. Можете ли вы предложить более простые альтернативы? –