2014-01-15 2 views
1

Это, в основном, шаблон шаблона для поиска эластичности.Эластичный поиск Индексирование в Интернете

Если бы я хотел проиндексировать Интернет с помощью эластичного поиска, каким был бы наиболее эффективный способ организовать такую ​​задачу?

@kimchy рассказывает о разных шаблонах и Rafal Kuc обсуждает масштабирование массивных кластеров, но я не понял, как организовать индекс Интернета после просмотра этих данных.

Я думаю, что логически вы могли бы организовать такое усилие, создав новый индекс для каждого домена. Таким образом, вы можете сильно охарактеризовать индексы, такие как Stackoverflow.com, но, возможно, всего лишь 1 осколок для индексов, таких как momandpopsite.com.

Насколько эффективен для вас ES Community? Я не уверен, потому что мы можем очень быстро попасть в миллионы индексов, не говоря уже об их индивидуальных осколках. И теперь мне интересно, есть ли накладные расходы, связанные с этим типом дизайна, и он становится раздутым. (То есть, структура этого шаблона создает слишком много накладных расходов?).

Я знаю, что этот вопрос должен быть теоретическим, потому что ресурсы не указаны. Но если бы вы могли использовать свое воображение и пытаться придерживаться стратегии дизайна - как бы вы указали всемирную паутину? Допустим, есть 275 миллионов доменов. Каков наиболее эффективный шаблон проектирования для индексирования Интернета с помощью Elastic Search?

ответ

1

Индекс для домена (так 275 миллионов индексов) невозможен. У индексов есть накладные расходы, и я потерял ссылку, но я не думаю, что вам нужно больше, чем ~ 100 индексов на одном «нормальном» сервере.

Чтобы получить больше сайтов в одном Индексе, вы хотели бы представить маршрутизацию и представления, но я бы предположил, что один индекс для всего будет также включать ненужные накладные расходы. Я предполагаю, но поиск правила маршрутизации может стать невероятно большим и т. Д. Таким образом, вы хотели бы найти какой-то способ разделения вещей по индексам. При таком большом объеме вы не можете создавать все это на бумаге, поэтому я бы посоветовал PoC-работе определить, какую производительность вы получите для разных индексов. Затем вы попытаетесь использовать псевдонимы для правильного отображения базового индекса.

Для дальнейшего чтения: https://groups.google.com/forum/#!searchin/elasticsearch/index $ 20per $ 20user/elasticsearch/я-G5NlP1VeY/PK9vVP0myAgJ

https://groups.google.com/forum/#!msg/elasticsearch/9L5cWIAib94/K7zdHEW-4P0J

+0

Очень интересный @brent, спасибо. Завтра я пойду на эти сайты. – Chris

Смежные вопросы