Какой анализатор lucene можно использовать для правильной обработки японского текста? Он должен иметь возможность обрабатывать Кандзи, Хирагану, Катакана, Ромаджи и любую их комбинацию.Какой анализатор lucene можно использовать для обработки японского текста?
ответ
Я нашел lucene-gosen, делая поиск для своих собственных целей:
Их пример выглядит довольно прилично, но я предполагаю, что это такая вещь, которая нуждается в обширном тестировании. Я также обеспокоен их политикой обратной совместимости (или, скорее, полным отсутствием.)
Возможно, вам стоит посмотреть на пакет CJK, который находится в области Contribute Lucene. Существует анализатор и токенизатор, специально предназначенный для общения с китайцами, японцами и корейцами.
Анализатор CJK, по-видимому, наивный способ поиска вещей, и из предыдущего опыта, похоже, не очень релевантно результаты поиска. Есть ли что-нибудь, что мне нужно сделать специально, чтобы заставить CJK Analyzer работать, как модифицировать некоторые веса или что-то в этом роде? Спасибо –
Я никогда не использовал анализатор CJK, поэтому не могу сказать. Вы можете попробовать просить список рассылки Lucene (http://lucene.apache.org/java/docs/mailinglists.html#Java User List) для получения более конкретной справки - в этом списке есть люди, которые очень опытные с Lucene. – adrianbanks
- 1. Какой анализатор Lucene следует использовать для анализа корейского языка?
- 2. Анализатор Lucene для имени
- 3. Lucene анализатор для подстрок
- 4. HTML-кодировка японского текста
- 5. Lucene 2,2 арабский анализатор
- 6. Как использовать анализатор lucene-gosen с lucene.net?
- 7. Keypress event для японского текста
- 8. Как использовать анализатор в compass-lucene search
- 9. ElasticSearch Какой анализатор использовать для поиска кода
- 10. Анализатор Lucene Hebrew
- 11. Какой подходящий анализатор люцинов использовать?
- 12. Анализатор пробелов Lucene нечувствительный?
- 13. Анализатор, используемый для создания индекса Lucene
- 14. Анализатор Lucene и точки
- 15. Испанский анализатор с lucene
- 16. арабский анализатор Lucene
- 17. Предоставление японского текста в Flex
- 18. Lucene - Пользовательский анализатор/Parser для объектов JSON?
- 19. Можно ли использовать Lucene для этого?
- 20. Какой контроль можно использовать для отображения текста в нескольких столбцах?
- 21. Какой проект базы данных можно использовать для связующего текста?
- 22. Какой простой синтаксис можно использовать для расширенного текста?
- 23. Какой вики-анализатор?
- 24. Android: set textStyle = "medium" для японского текста
- 25. IOS - извлечение текста Японского PDF
- 26. PowerShell - какой глагол использовать для обработки командлета?
- 27. Какой инструмент для обработки данных использовать?
- 28. Достойный многоязычный стеблемер или анализатор для Lucene/ElasticSearch?
- 29. Лучший анализатор кросс-языка для использования с индексом lucene
- 30. Lucene анализатор для нескольких значений в одном поле
Мы не использовали lucene-gosen, но мы использовали gosen. Поэтому я принимаю этот ответ (поскольку он достаточно близко, и проект действительно интересен). CJK делает очень наивный поиск, в котором он просто соответствует символам, а не словам, отличным от gosen (который использует словарь для правильного разбора). –