2016-04-29 2 views
0

Я строю небольшую вертикальную поисковую систему, используя Elasticsearch в качестве индексатора и Nutch как гусеничный. Я использовал поле заголовка HTML для создания предложений по поиску для ES с использованием стратегии edge n gram, считая, что поле заголовка будет хорошим, так как оно должно содержать соответствующие термины для предметного содержания страницы, и это будет держать индекс меньшим с точки зрения поиска предложения, будь то отдельные слова или фразы. Тем не менее, при тестировании до сих пор он не работал так, как думал ... просто не так много предложений появляется.Дополнительные поисковые запросы с Elasticsearch

В настоящее время я тестирую только около 10 сайтов, но в конечном итоге достигнет около 500 или около того. Я думаю, что из-за небольшого набора данных (10 сайтов, только на поле заголовка HTML), вероятно, недостаточно подходящих терминов или фраз для создания хороших предложений, по крайней мере, предложений фразы.

Возможно, что только несколько страниц за расширенным сайтом создаст дополнительные предложения (термины и фразы) с помощью стратегии edge n gram в поле заголовка ИЛИ следует использовать поле содержимого (что явно намного больше, чем поле заголовка).

Я пытаюсь настроить эту настройку, чтобы получить больше предложений по поиску, особенно предложений фразы, при этом помня о размере индекса, чтобы производительность не пострадала. Есть идеи?

ответ

0

В эти дни можно сказать, что предложения важнее, чем сами результаты поиска --- это немного бессмысленно, я знаю. Но пользователи, как правило, ожидают, что если нет предложения, результат поиска не будет. Поэтому убедитесь, что каждое поле поиска правильно отражено в ваших предложениях - в частности, ваш контент. И «оптимизируйте позже»! Не смотрите на свою работу слишком рано. 500 сайтов не похожи на то, что вы получите много документов для индексации в любом случае. Какое оборудование вы используете?

+0

для разработки, только моя локальная машина Ubuntu, но когда dev закончен, я планирую использовать aws. – user3125823

+0

Я согласен с вами в том, что предложения, вероятно, немного важнее результатов, по крайней мере на начальном этапе. То, что вы говорите, имеет смысл, лучше сначала иметь предложения, беспокоиться о производительности позже – user3125823

Смежные вопросы