2013-05-24 3 views
20

Кто-нибудь сталкивался с особенностями Apache Lucene? Я слышал, что он даже сопоставим с Google Search Appliance (GSA). Я искал для них определенное сравнение, если это возможно?Apache Lucene против Google Search Appliance

Эти сравнения, доступные в Интернете, довольно расплывчаты.

+1

Было бы лучше сравнить GSA с Elastic Search (https://www.elastic.co) или Solr (http://lucene.apache.org/solr/). Оба они лучше подходят для разработки поисковой системы, и оба они основаны на Lucene. – YYamil

ответ

39

Его, вероятно, трудно найти сравнение между Apache Lucene и Google Search Appliance, потому что они такие разные вещи. В то время как Lucene является программным компонентом для индексирования документов, имеющих базовую значимость «наращивания», GSA - это продукт корпоративного поиска (аппаратное/физическое оборудование) с множеством готовых функциональных возможностей для настройки и оптимизации результатов поиска на основе от Алгоритм поиска Google.

Таким образом, они представляют собой в основном два отличных инструментария с различными сценариями реализации. Но, конечно, перекрываются, особенно если они используются для поиска на вашем среднем веб-сайте.

Off верхней части моей головы несколько тем, вы, возможно, захотите начать с для сравнения:

Развертывание/Архитектура

  • Lucene является программным компонентом, который может быть глубоко интегрированы в ваш собственное программное обеспечение, обеспечивающее индекс (обычно на основе файлов, иногда в памяти) для быстрого и быстрого индексирования и получения контента.
  • Проект lucene предоставляет довольно большой список анализаторов для индексирования индексов разных языков (западные языки, арабский, азиатский и т. Д.), Но имеет место для усовершенствований с помощью анализаторов.
  • Lucene для .Net - довольно популярный порт для интегрироваться в Microsoft .Net Plattforms.
  • Программное обеспечение и аппаратные средства GSA объединены и проданы как устройство с интерфейсом HTTP (ы), обеспечивающим результаты поиска либо в HTML (через собственные XSLT), либо в формате XML (для лучшей интеграции на вашем сайте)
  • GSA поставляется с языковые пакеты (установленные и загружаемые). Вам нужно будет выбрать один из пакетов. Если вам нужна поддержка для большего количества языков, вам может потребоваться добавить еще одну GSA в инфраструктуру (если все требуемые языки не находятся в одном комплекте)
  • GSA отлично работает и требует очень небольшого обслуживания
  • GSA давайте масштабируем с почти нет инженерных усилий. глобально распределенные, но соединенные GSAS можно настроить через веб-интерфейс
  • GSA может быть сделана HA, купив дешевле модуль горячего резервного

Индексирования

  • Lucene обеспечивает сканерам (и API обходчика) для индексации содержимого. Не имеет значения, действительно ли ваш искатель сканирует веб-сайт, например Google, или сканирует базу данных на основе операторов SQL или предоставляет текстовый поток, считываемый из плоских файлов. Но обычно вам нужно внедрить искатель, если предоставленное не соответствует вашим потребностям.
  • GSA использует гусеничную технологию, используемую Google, соблюдая инструкции роботов (в тегах TXT или Meta), она предоставляет API-интерфейс для источников, которые не могут быть сканирование (т.е.не связывая между ними) и поддерживает создание запросов SQL для всех мэра БД для retrievel данных из базы данных (будь то список URL для обхода или сами данные)

Retrieval/уместность настраивая

  • Lucene не стремится и не имеет хорошей поддержки для настройки релевантности (за исключением повышения позиций в индексе). Это до приложения, используя результаты индекса, чтобы сделать настройку
  • Lucene является индексом, используемым ГУМЗОМ, который обеспечивает настройку и архитектуру более похожую на GSA (включая результат retrievel по HTTP (S))
  • GSA давайте вы предвзятость наборов результатов на основе метаданных, шаблонов даты и URL. В последней версии вы можете даже настроить свои собственные сущности и смещать результаты, основанные на них.
  • GSA поддерживает факсимильные рамки для метаданных и еще некоторые причудливые вещи на их интерфейсе, такие как изображения предварительного просмотра для документов, автозапуска и т. Д.

Коммерческие вещи

  • Lucene является открытым исходным кодом (отсутствие затрат) продукта, но требует аппаратного быть приобретен
  • GSA начинается примерно в $ 20k для 500k документов/URL-
  • Google предлагает несколько уровней поддержки
  • лицензии GSA должны быть обновляемых на 2 или 3 года основе (вы получаете новое оборудование)
  • GSA не требует какого-либо дополнительного оборудования (прибор включен)

... есть еще что добавить, но я надеюсь, что вы поняли суть.


Обновление февраля 2016:

Google сообщил партнеры, что GSA будет прекращен около 2019 Лучшего сайта ссылки на на данный момент, кажется, http://fortune.com/2016/02/04/google-ends-search-appliance/.

+0

Я не согласен с этим комментарием: «Lucene не стремится и не имеет хорошей поддержки настройки релевантности (за исключением увеличения записей в индексе). Это зависит от приложения, использующего результаты индекса, чтобы выполнить настройку, считая, что есть целые книги по настройке релевантности на основе Lucene http://manning.com/turnbull (да, это моя книга) –

+1

Согласен, я не был достаточно конкретным относительно области «настройки». Lucene обеспечивает механизм подсчета очков, и баллы могут быть увеличены на уровне документа и поля и во время запроса. Но AFAIK по-прежнему зависит от приложения, использующего lucene для применения бизнес-правил (SORL, ElasticSearch и т. Д. Предоставляют такие механизмы). Не могли бы вы объяснить, где конкретно вы не согласны с этим? Я бы обновил свой ответ соответственно. Спасибо. –

Смежные вопросы