2010-10-26 2 views
2

Кажется, мой Google-fu терпит неудачу.Word Base/Stem Dictionary

Кто-нибудь знает о свободно доступном словаре словарных баз, который содержит только слова слов? Итак, для чего-то вроде клубники, у нее будет клубника. Но НЕ содержит аббревиатуры или орфографические ошибки или альтернативные варианты написания (например, Великобритания против США)? Все, что можно быстро использовать в Java, было бы неплохо, но было бы полезно только текстовый файл сопоставлений или что-нибудь, что можно было бы прочитать.

+0

Для чего это необходимо? –

+0

Я работаю над поиском, и я хочу перевести слова на свою базу слов, чтобы, если пользователь ищет клубнику, они также найдут слова, содержащие клубнику. – AHungerArtist

+0

Вы, случайно, используете Lucene? –

ответ

5

Это называется лемматизация, и то, что вы называете «базой слова», называется леммой. morpha и его reimplementation в тестере POS для Стэнфорда. Тем не менее, оба требуют ввода помеченных POS-адресов для устранения присущей двусмысленности на естественном языке.

(POS пометка означает определение категории слов, например, существительное, глагол Я предполагаю, что вы хотите инструмент, который обрабатывает английский язык.).

Edit: так как вы собираетесь использовать это для поиска , вот несколько советов:

  • Простые стебли для английского языка имеют смешанную репутацию в мире поисковой системы. Иногда это работает, часто это не так.
  • Автоматическая коррекция правописания может работать лучше. Это то, что делает Google. Это дорогостоящее с точки зрения вычислительного времени, хотя, если вы хотите сделать это правильно.
  • Лемматизация может обеспечить преимущества, но, вероятно, только если вы указали и искали как слова, так и леммы. (Та же рекомендация идет о том, что происходит.)
  • Вот plugin for Lucene, который делает лемматизацию.

(Предшествующие замечания основаны на моем собственном исследовании, я написал диссертацию магистра в о лемматизации в поисковых системах для очень зашумленных данных.)

+0

Я хочу что-то всегда точное (хотя и не обязательно полное), что, похоже, не может обеспечить (и я не могу категоризировать все потенциальные слова). Я предпочел бы, чтобы некоторые слова не были надлежащим образом лектифицированы (?), Чтобы иметь какие-то неправильные слова. – AHungerArtist

+0

Тогда вам нужен простой список слов, так как эти программы представляют собой современное состояние в пометке POS и лемматизации. (Категорирование слов, кстати, именно то, что делает тестер Стэнфорда POS. Однако это не совсем plug-and-play.) –

+0

Правильно, это то, что я ищу, простой список слов. Теперь я использую словарь, который имеет то, что я ищу, но он также заполнен альтернативными написаниями, аббревиатурами и другими подобными вещами, так что это не так полезно, как могло бы быть. – AHungerArtist

1

Это не совсем то, что вы просите, но Wikipedia on stemming был просвещен и содержит ряд ссылок на бесплатные программы борьбы с туберкулезом. Которые, предположительно, должны включать в себя списки слов стеблей

+0

Проблема с стволовыми является то, что они имеют тенденцию производить фиктивные результаты, такие как «strawberri». –

+0

@larsmans: а, но видел, что «strawberri» - не правильное английское слово, не тривиально ли запустить результат стеблемера в заклинание проверки орфографии, которое затем вернет «клубнику» в качестве предложения? – SyntaxT3rr0r

+0

Правда, но стволовые могут дать гораздо худшие результаты, чем это. Могу работать. Мог бы. (Рассуждения Павла о том, что стволовые «должны включать в себя списки словесных стеблей», как правило, не верны, так как многие стволовые - просто простые строковые алгоритмы.) –

1

http://www.puzzlers.org/dokuwiki/doku.php?id=solving:wordlists:about:start

Мириам Websters Collegiate 9-е издание ссылка на этой странице, содержит текстовый файл только корневые формы слов. Там есть клубника, клубника - нет. Точно так же добавляется «добавление», там «добавление» - нет. Не уверен, что это то, что вам нужно, но это было полезно для меня.

+0

Хотя я не нуждаюсь в этом, я думаю, что это довольно полезная ссылка, поэтому спасибо , – AHungerArtist