Я использую Crate для немецкого новостного сайта и широко использую полнотекстовый поиск (который обычно работает достаточно хорошо). Однако мне было интересно, как прекратить использование слов. Я хотел бы свести это к минимуму, так как поиск довольно быстрый, поэтому я не слишком беспокоюсь о производительности. Это целесообразно? И: какие остановки слова фактически используются по умолчанию - есть ли где-нибудь список встроенных слов остановки?Стоп-слова в ящике Полнотекстовый поиск
1
A
ответ
2
встроенные слова на самом деле от lucene и находятся внутри lucene-analyzers-common*.jar
файл внутри каталога lib контейнера tarball.
Если вы извлекаете содержимое файла jar, вы найдете файл german_stop.txt
, содержащий все немецкие слова остановки.
Существует также набор слов внутри исходного кода lucene, который отмечен как , но он не используется, поэтому я предполагаю, что он больше не используется. Эти слова были бы:
"einer", "eine", "eines", "einem", "einen",
"der", "die", "das", "dass", "daß",
"du", "er", "sie", "es",
"was", "wer", "wie", "wir",
"und", "oder", "ohne", "mit",
"am", "im", "in", "aus", "auf",
"ist", "sein", "war", "wird",
"ihr", "ihre", "ihres",
"als", "für", "von", "mit",
"dich", "dir", "mich", "mir",
"mein", "sein", "kein",
"durch", "wegen", "wird"
Я думаю, что по умолчанию достаточно хорошо, если вы не столкнетесь с проблемами с некоторыми конкретные слова, которые я не вижу причин, чтобы подправить стоп-слова.
Смежные вопросы
- 1. полнотекстовый поиск в дозвуковой
- 2. полнотекстовый поиск в Fossil
- 3. Полнотекстовый поиск в Javascript
- 4. полнотекстовый поиск в Linq
- 5. Usergrid полнотекстовый поиск
- 6. RavenDB полнотекстовый поиск
- 7. Postgresql полнотекстовый поиск tokenizer
- 8. mysql полнотекстовый поиск
- 9. Mysql полнотекстовый поиск
- 10. sql server - полнотекстовый поиск
- 11. Полнотекстовый поиск файлов Excel
- 12. полнотекстовый поиск vista
- 13. Полнотекстовый поиск Rails 3
- 14. ElasticSearch: Полнотекстовый поиск упрощен
- 15. Полнотекстовый поиск по PostgreSQL
- 16. полнотекстовый поиск феникс-фреймворка
- 17. Полнотекстовый поиск с Postgres
- 18. Полнотекстовый поиск mysql
- 19. Полнотекстовый поиск по Pymongo
- 20. Mongoose, nodejs, полнотекстовый поиск
- 21. PostgreSQL. Полнотекстовый поиск
- 22. MongoDB 2,4 полнотекстовый поиск
- 23. MySQL - полнотекстовый поиск - обратный
- 24. Magento полнотекстовый поиск ошибок
- 25. Как настроить полнотекстовый поиск?
- 26. Mysql полнотекстовый поиск релевантность
- 27. Как улучшить полнотекстовый поиск
- 28. Полнотекстовый поиск с Sails.js
- 29. Иерархический полнотекстовый поиск в neo4j
- 30. нечеткий полнотекстовый поиск в postgres
Спасибо, нашел! Причина, по которой я хочу настроить, - это точность поиска. Стоп-слова очень полезны для уменьшения размера индекса, но поскольку я сейчас не беспокоюсь о производительности, я бы хотел купить некоторую точность поиска за небольшую дополнительную нагрузку. (Например, рассмотрите поиск таких фраз, как «von einem zum anderen», которые являются всеми остальными словами). Я сделаю несколько экспериментов ... –