2009-12-30 2 views
4

Я использую Zend Lucene для индексирования шведских текстов. Проблема в том, что lucene символизирует слова по шведским символам åäö. Например, слово «världens» становится двумя словами «v» и «ldens» в индексе.Zend Lucene - токенизация шведских символов

Есть ли способ добавить символы, которые zend lucene должен принимать, а не tokenize?

ответ

5

UTF-8 compatible text analyzer вместо default text analyzer для обозначения. обратите внимание, что для этого требуется, чтобы библиотека PHP PCRE (Perl-совместимые регулярные выражения) была скомпилирована с поддержкой UTF-8 (по умолчанию используется библиотека PCRE в комплекте с PHP, но, возможно, не включена, если вы используете общую библиотеку). для нечувствительных к регистру версий анализаторов, совместимых с UTF-8, вам также необходимо, чтобы расширение mbstring было включено.

Смежные вопросы