2012-01-11 4 views
0

Я планирую использовать Solr в качестве поискового сервера и развить собственный паук или продлить Nutch.Solr с многоядерной распределенной архитектурой?

Я пытаюсь создать лучшую экономическую топологию, которая служит моей цели на данный момент, а также оставаться открытой, чтобы ее можно было масштабировать в будущем.

Я планирую использовать Amazon AWS для размещения всех машин. Мой вопрос заключается в понимании осуществимости следующей идеи и требования, помощь будет оценена!

  1. Один Solr Node (Посвящается обслуживать запросы только - в качестве сервера запросов к веб-переднему концу)
  2. По требованию Solr узлов (1 или много) (в качестве сервера индексирования - Nutch или другие пауки будут подключаться к этому узлу и заполнить новым контентом для обхода и индексации)

Я не уверен, как многие другие поисковые серверы (например, Microsoft FAST или SharePoint Search), я могу развернуть распределенную топологию с общей базой данных.

Я желаю использовать Hadoop или любую другую распределенную файловую систему, если это может поддерживать такую ​​топологию.

Так в основном это было бы представить следующим образом,

    --------------------------------------------------- 

       Hadoop or anyother distributed file system/db system 

        --------------------------------------------------- 

              || 
              || 
              || 
              VV 
        ----------------    ------------------------ 

        Solr query node     Dedicated Solr index nodes 
       (1 powerful server)   +    (on demand) 
               with Nutch or other web spider 

        ----------------    ------------------------ 

         ||         || 
         VV         VV 
        Web Front End       Internet  

Я новичок в этой технологии, многие из членов сообщества на другом форуме и внештатный веб-сайт предложил реализации многоядерной, но мое понимание многоядерный является поддержка различать datanodes (не имеет ничего общего с кластеризацией или распределенной архитектурой)! Я прав?

Просьба сообщить о выполнимости!

Большое спасибо заранее.

Nilay.

ответ

1

«core» in solr используется для описания «среды полного контекста». Вы можете запустить 1 контейнер Java EE (tomcat, ant и т. Д.), Чтобы предоставлять разные службы с различными базами данных и различными полнотекстовыми индексами. Пример 1 Ядро для поиска продукта, 1 ядро ​​для поиска по почте и т. Д.

Каждый запущенный контейнер Java EE с solr имеет минимум одно ядро. Глядя на вашу топологию, похоже, вам нужна одна внешняя solr-envorinment, возможно, 1 ядро ​​и один backr solr-envoronment, возможно, также 1 ядро.

Итак, у вас есть 2 сервера, 2 контейнера Java EE и 2 ядра. Вы можете увидеть эти 2 ядра как «несколько» (более одного) ядра, но на самом деле это две одноядерные установки, которые использовали (возможно) что-то вроде репликации. http://wiki.apache.org/solr/SolrReplication

+0

спасибо, я посмотрю. Моя потребность в том, чтобы моделировать тип хранения кворума между всеми экземплярами solr, и я могу воспитывать по требованию солнечные экземпляры, которые обрабатывают обходные данные и обновляют индексы, хранящиеся в кворуме. Больше по кластеру, но с эластичным атрибутом, поэтому я могу расширить свое требование. –