2014-12-10 3 views
2

Я использую библиотеку Apache OpenNLP. Я работаю над проектом, который требует нескольких задач НЛП, выполняемых на разных языках, и среди тех, кто является русским, очень важно. Однако я не знаю русский и не могу найти какие-либо OpenNLP-модели для русского.Определение обнаружения по-русски

Таким образом, единственный способ, с помощью которого я могу надежно выполнить определение предложения, - подготовить детектор предложений к русскому тексту и создать модель, которую я буду использовать позже. Текст, который я должен проанализировать, очень конкретный и недостаточно общий, чтобы создать допустимую модель.

Поэтому я спрашиваю, может ли кто-нибудь предоставить мне русский ссылочный текст, разделенный на предложения, достаточно общий (содержит общие идиомы, аббревиатуры и т. Д.). Я не знаю, как долго это должно быть, поскольку в документации не указывается размер предложения для учебных текстов. Однако я думаю, что, может быть, нескольких сотен предложений будет достаточно.

+1

Является ли это достаточно общее для вас? http://www.voppsy.ru/issues/1981/816/816005.htm Серьезно, найдите статью в Википедии по любой интересующей теме, нажмите «Русский» с левой стороны, получите столько предложений, сколько захотите. Что все-таки связано с java? – Dima

+0

Я не знаю, но похоже, что это может сработать. Мне нужно будет сделать некоторые тесты – Totem

ответ

0

Почему бы просто не разделить какой-либо текст на "." а затем просмотрите его самостоятельно, исправляя любые ошибки, которые вы видите? - Всего несколько сотен предложений, скорее всего, потребуется столько же времени, чтобы создать свой собственный корпус, как если бы он нашел Интернет.

0

В конце концов я принял документ предложил в первом комментарии, а также некоторые статьи на википедии и достиг 98% precisiion, так что это хорошо: 3