Ищет помощь, чтобы принять окончательное решение. В течение нескольких месяцев я ищу Java API, который помогает мне получить доступ к Википедии и получить содержимое статей. Мой проект заключается в построении таксономии понятий данного домена. Детали:НЛП с использованием Википедии (java-программирования)
- У меня есть свод текстов домена, я извлекаю первый набор терминов (который представляет собой домен).
- Я ищу в Википедии статьи этих слов, чтобы извлечь их определения. Определение слова помогает мне найти гипероним этого слова. Призыв к Википедии, безусловно, будет выполнен в цикле java.
- Я искал определения гиперонимов, найденных на предыдущем шаге, чтобы найти их гиперонимы и т. Д.
- Я рисую график, связывающий слова с их гиперонимами.
Моя проблема заключается в том, что для шага 2 я не могу принять окончательное решение.
- Я написал код Java для доступа к Википедии онлайн. Это удается, но скорость моей связи определяет, удастся ли выполнение или не дает набор исключений. Иногда казнь дает мне всего 2 или 3 статьи.
- Я попытался использовать JWPL для обработки свалок Википедии. Я потерпел неудачу, потому что у меня недостаточно ОЗУ.
- Теперь я колеблюсь между набором Java-API.
Пожалуйста, дайте мне ваши точки зрения, если вы уже что-то сделали в этом смысле. Я сделал серьезное расследование, и я нашел следующие ссылки:
- http://wdm.cs.waikato.ac.nz:8080/wiki/Wiki.jsp?page=Installing%20the%20Java%20API
- http://jwikiapi.sourceforge.net/index.html
- http://code.google.com/p/gwtwiki/
- http://www.mediawiki.org/wiki/API%3aMain_page
- http://jwbf.sourceforge.net/
Я бы признателен за любые предложения.
Не могли бы вы дать формальное описание «определения», которое вы выберете на шаге 2? –
Определение является формальным первым предложением статьи в Википедии. Например, для слова «буровая установка» мне нужно извлечь следующий простой текст: «Буровая установка - это машина, которая создает отверстия (обычно называемые скважинами) или валы в земле». – Lida
Использует DBpedia не вопрос? http://dbpedia.org –