Zend Lucene - токенизация шведских символов

Я использую Zend Lucene для индексирования шведских текстов. Проблема в том, что lucene символизирует слова по шведским символам åäö. Например, слово «världens» становится двумя словами «v» и «ldens» в индексе.Zend Lucene - токенизация шведских символов

Есть ли способ добавить символы, которые zend lucene должен принимать, а не tokenize?

источник

2009-12-30 Martin

UTF-8 compatible text analyzer вместо default text analyzer для обозначения. обратите внимание, что для этого требуется, чтобы библиотека PHP PCRE (Perl-совместимые регулярные выражения) была скомпилирована с поддержкой UTF-8 (по умолчанию используется библиотека PCRE в комплекте с PHP, но, возможно, не включена, если вы используете общую библиотеку). для нечувствительных к регистру версий анализаторов, совместимых с UTF-8, вам также необходимо, чтобы расширение mbstring было включено.

источник

2009-12-30 14:36:27

Использование анализаторов. См. Документы около text analysis, using utf8 и документы о writing your own analyser. Я рекомендую вам просто использовать анализатор UTF-8.

источник

2009-12-30 14:35:30 Yacoby

Zend Lucene - токенизация шведских символов

ответ

Смежные вопросы