2009-10-26 3 views
8

Какой анализатор lucene можно использовать для правильной обработки японского текста? Он должен иметь возможность обрабатывать Кандзи, Хирагану, Катакана, Ромаджи и любую их комбинацию.Какой анализатор lucene можно использовать для обработки японского текста?

ответ

3

Я нашел lucene-gosen, делая поиск для своих собственных целей:

Их пример выглядит довольно прилично, но я предполагаю, что это такая вещь, которая нуждается в обширном тестировании. Я также обеспокоен их политикой обратной совместимости (или, скорее, полным отсутствием.)

+1

Мы не использовали lucene-gosen, но мы использовали gosen. Поэтому я принимаю этот ответ (поскольку он достаточно близко, и проект действительно интересен). CJK делает очень наивный поиск, в котором он просто соответствует символам, а не словам, отличным от gosen (который использует словарь для правильного разбора). –

4

Возможно, вам стоит посмотреть на пакет CJK, который находится в области Contribute Lucene. Существует анализатор и токенизатор, специально предназначенный для общения с китайцами, японцами и корейцами.

+0

Анализатор CJK, по-видимому, наивный способ поиска вещей, и из предыдущего опыта, похоже, не очень релевантно результаты поиска. Есть ли что-нибудь, что мне нужно сделать специально, чтобы заставить CJK Analyzer работать, как модифицировать некоторые веса или что-то в этом роде? Спасибо –

+0

Я никогда не использовал анализатор CJK, поэтому не могу сказать. Вы можете попробовать просить список рассылки Lucene (http://lucene.apache.org/java/docs/mailinglists.html#Java User List) для получения более конкретной справки - в этом списке есть люди, которые очень опытные с Lucene. – adrianbanks

Смежные вопросы