2014-02-21 4 views
1

Я использую Crate для немецкого новостного сайта и широко использую полнотекстовый поиск (который обычно работает достаточно хорошо). Однако мне было интересно, как прекратить использование слов. Я хотел бы свести это к минимуму, так как поиск довольно быстрый, поэтому я не слишком беспокоюсь о производительности. Это целесообразно? И: какие остановки слова фактически используются по умолчанию - есть ли где-нибудь список встроенных слов остановки?Стоп-слова в ящике Полнотекстовый поиск

ответ

2

встроенные слова на самом деле от lucene и находятся внутри lucene-analyzers-common*.jar файл внутри каталога lib контейнера tarball.

Если вы извлекаете содержимое файла jar, вы найдете файл german_stop.txt, содержащий все немецкие слова остановки.

Существует также набор слов внутри исходного кода lucene, который отмечен как , но он не используется, поэтому я предполагаю, что он больше не используется. Эти слова были бы:

"einer", "eine", "eines", "einem", "einen", 
"der", "die", "das", "dass", "daß", 
"du", "er", "sie", "es", 
"was", "wer", "wie", "wir", 
"und", "oder", "ohne", "mit", 
"am", "im", "in", "aus", "auf", 
"ist", "sein", "war", "wird", 
"ihr", "ihre", "ihres", 
"als", "für", "von", "mit", 
"dich", "dir", "mich", "mir", 
"mein", "sein", "kein", 
"durch", "wegen", "wird" 

Я думаю, что по умолчанию достаточно хорошо, если вы не столкнетесь с проблемами с некоторыми конкретные слова, которые я не вижу причин, чтобы подправить стоп-слова.

+0

Спасибо, нашел! Причина, по которой я хочу настроить, - это точность поиска. Стоп-слова очень полезны для уменьшения размера индекса, но поскольку я сейчас не беспокоюсь о производительности, я бы хотел купить некоторую точность поиска за небольшую дополнительную нагрузку. (Например, рассмотрите поиск таких фраз, как «von einem zum anderen», которые являются всеми остальными словами). Я сделаю несколько экспериментов ... –

Смежные вопросы