2012-04-27 5 views
7

Мне было интересно, существует ли API в Java, который может определять слова и находить происхождение слов. Я помню некоторое время назад, просматривая это и видя «apache commons», но я не уверен.Определение слов с использованием Java

Таким образом, пользователь сможет ввести слово «переполнение», после чего программа сможет определить слово. Поэтому я ищу API, который может определять слова и находить происхождение слов. Таким образом, слово «recherche» будет иметь происхождение, которое является «французским».

+1

Вы ищете [леммы] (HTTP : //en.wikipedia.org/wiki/Lemma_%28morphology%29) токенов? Ваш вопрос немного расплывчатый, вы должны уточнить, что вам нужно - предпочтительно с примером. – amit

+0

Я добавил разъяснение. Надеюсь, вопрос будет менее расплывчатым. –

+1

Recherche также является немецким словом. Вы должны знать, что одно и то же слово может существовать на нескольких языках. – oers

ответ

8

WordNet даст вам половину того, что вы ищете: вы можете найти определение слова. Обратите внимание, что существует несколько реализаций WordNet для Java: jwi, jaws, Dan Bikel's, WordnetAPI. Некоторые из них могут быть проще использовать для вашей цели, чем jwordnet, предложенный miku (я использовал только челюсти и jwi).

Примечание: WordNet не даст вам происхождение (AFAIK). Я не знаю программного обеспечения, которое делает.

Примечание: Вы должны предоставить лемму из слова, чтобы иметь возможность посмотреть его в словаре. Это означает, что вам нужно будет применить некоторые методы обработки естественного языка (NLP), если вы хотите сделать это автоматически на документе свободного текста (который может содержать измененные формы). Если вы пройдете этот маршрут, я предлагаю GATE проект Morph plugin.

4

Существует сайт для этимологии: http://www.etymonline.com/

Это дает результат: Recherche 1722, от фр recherché "тщательно разыскал" pp. rechercher ", чтобы искать." Обычно используется 19c. еды, стилей и т. д., чтобы обозначить неявное превосходство.

Не знаю, получили ли они API, но используют какой-то скрипт для его запроса.

Итак, найдите хороший способ обнаружения «о.» в приведенном выше предложении.

Cheers, Erik

2

Вы ищите JWKTL?

«Wiktionary является многоязычным, веб-интерфейсом, свободно доступный словарь, тезаурус и разговорник, разработанный как лексической компаньон Википедии.В последнее время он был признан в качестве перспективного лексического семантического ресурс для приложений обработки естественного языка.»

Используя это, вы можете увидеть этимологию слов.

Смежные вопросы