2013-09-18 2 views
6

Кто-нибудь знает о lemmatizer в PHP? Или, в худшем случае, каким-то образом использовать lemmatizer на другом языке (например, python NLTK?) В PHP webapp?Есть ли lemmatizer для PHP?

Я строию a macro-etymological analyzer, и я столкнулся с этой проблемой, когда этимологическая база данных не содержит сопряженных слов. Я думаю, что lemmatizer исправит это, сказав мне слово «сказать», когда словарь не сможет найти «сказал» и «хорошо», когда словарь не может найти «лучше» и т. Д.

Примечание: стебельщик не будет делать то же самое, что и lemmatizer.

+0

Dunno о lemmatizer, но я мог бы указать вам на Портер-стриммер, если это поможет (https://github.com/andyceo/PHP-Porter-Stemmer/blob/master/class.stemmer.inc) –

+0

кажется как вам нужно написать. –

+0

Этот вопрос идеально подойдет для [Software Recommend Stack Exchange] (http://softwarerecs.s.stackexchange.com/). (Предоставление того, что вы все еще ищете lemmatizer.) – ComFreek

ответ

0

я гугле это:

http://pastebin.com/WNvb2zB4

и это.

http://tartarus.org/~martin/PorterStemmer/php.txt

Незнайка, если любой из них работает.

+0

Обратите внимание, что у первого нет информации об авторских правах и/или лицензии. – ComFreek

+0

Stemmers не помогут. – Jono

+0

Кусок пастажина на самом деле - это проект, обеспечивающий лемматизацию для индонезийского языка, который намного легче лемечить, чем английский. https://github.com/davidchristiandy/lemmatizer –

0

Лемматизация относительно сложна по сравнению с стеблем, поэтому труднее найти готовое и бесплатное решение.

Я вижу, никто не ответил на дополнительный вопрос.

каким-то образом использовать лемматизатор на другом языке (Python NLTK, например?) В PHP веб-приложение

РНР имеет, по крайней мере, exec и называет так. Можно просто запустить любой внешний скрипт или приложение.

Есть некоторые «lemmatizers» в php, которые можно найти в Интернете, но при быстрой проверке они превращаются в «стволовых».

Убедитесь, что Stemming не будет для вас. Убедитесь, что решение, которое вы уже имеете в виду на другом языке, - это Lemmatizer.

Я подозреваю, что все решения, близкие к этому наименованию, будут на языках C-типа. В случае, если они являются Open Source или представлены как libs, вы можете создать их на PHP в качестве расширения.

Смежные вопросы