2014-10-13 2 views
0

Я работаю над проектом по внедрению крупномасштабной индексации данных twitter для оптимизации поиска с использованием Apache Lucene. Lucene предоставляет инвертированный индекс для фильтрации блоков, которые соответствуют заданным критериям выбора.Оптимизация поиска с использованием Apache Lucene

Чтобы реализовать этот проект, как мне его заняться - Должен ли я установить Cloudera vm и продолжить? или Должен ли я развертывать Hadoop с Apache на платформе Ubuntu?

Причина, по которой я прошу об этом, заключается в том, что я не могу подтвердить, что Cloudera уже использует Lucene для оптимизации поиска.

Просьба сообщить.

ответ

1

Cloudera предоставляет вам пакеты debian и программное обеспечение для автоматической установки и управления кластерами. Вот и все. Нет ничего о поиске (и его оптимизации) в стеке Hadoop. Таким образом, вы можете выбрать ваниль или cloudera для вашего проекта.

Для поиска вы можете использовать Elasticsearch. Он имеет integration with hadoop и использует Lucene внутренне

Смежные вопросы