2012-06-20 2 views
1

Я работаю над проектом хобби, в котором я должен сканировать различные веб-страницы, выполнять некоторые анализы и отвечать на некоторые запросы. Например, веб-страница может иметь такие данные, как:Семантические запросы в Java

Один человек получил ранения в грабеже.
Два человека были ранены в попытке разбойного дела прошлой ночью.
Полиция ищет людей, которые получили три человека в попытке ограбления.

Я заинтересован в ответе на запросы, например, сколько людей получили ранения в каждом из этих инцидентов. Мой вопрос в том, как я могу это сделать. Существуют ли библиотеки, которые могут помочь мне выполнить эту задачу?

ответ

1

Попробуйте демо-версию Stanford CoreNLP. Он используется как часть речевого Tagger. Он генерирует вывод XML и довольно печатный вывод и показывает «один» в «одном человеке, получившем ранения в грабеже», как число. Просто попробуйте ... это может быть очень полезно для вас. Затем вы можете использовать парсер DOM в java для анализа XML-файла, и вы можете легко отделить «один», проверив тег «NER» в файле и посмотреть, является ли это числом.

1

Заканчивать Jena, кажется, что вы ищете

+0

Это работает только в том случае, если веб-страница имеет встроенную в нее RDF или прикреплена к ней каким-либо образом. Кажется, что OP хочет сделать семантические запросы против текстового содержимого веб-страницы. –

1

Я думаю, у ¨R ступая в OpenNLP. Вам нужно будет иметь свои собственные алгоритмы для получения необходимых ответов на вашу систему ответов на вопрос. Следующее может помочь вам

Apache открытый NLP ->http://opennlp.apache.org/

Apache Jena ->http://jena.apache.org/

Стэнфорд открыт NLP ->http://nlp.stanford.edu/software/corenlp.shtml

Есть несколько других, а я догадываюсь, Но это те, которые довольно популярны.

Смежные вопросы