2010-02-11 3 views
2

Я хочу провести синтаксический анализ журнала огромных объемов данных и собрать аналитическую информацию. Однако все данные поступают из внешних источников, и у меня есть только две машины для хранения - одна в качестве резервной копии/репликации.Hadoop: Недостатки использования только двух машин?

Я пытаюсь использовать Hadoop, Lucene ... для этого. Но во всех документах по обучению упоминается, что Hadoop полезен для распределенной обработки, многоузловой. Моя настройка не вписывается в эту архитектуру.

Есть ли у них накладные расходы с использованием Hadoop всего за 2 машины? Если Hadoop не является хорошим выбором, есть альтернативы? Мы смотрели на Splunk, нам это нравится, но это дорого для нас, чтобы купить. Мы просто хотим строить свои собственные.

ответ

0

Hadoop следует использовать для проблем с распределенной периодической обработкой.

5-common-questions-about-hadoop

Анализ лог-файлов является одним из наиболее распространенных применений Hadoop, его одной из задач Facebook использовать его для.

Если у вас есть две машины, вы по определению имеете многоузловой кластер. Вы можете использовать Hadoop на одной машине, если хотите, но по мере добавления большего количества узлов время, затрачиваемое на обработку одного и того же объема данных, уменьшается.

Вы говорите, что у вас огромное количество данных? Это важные цифры для понимания. Лично, когда я считаю огромным с точки зрения данных, я думаю, что в диапазоне 100 терабайт +. Если это так, вам, вероятно, понадобится более двух машин, особенно если вы хотите использовать репликацию по HDFS.

Аналитическая информация, которую вы хотите собрать? Вы определили, что на эти вопросы можно ответить, используя подход MapReduce?

Что-то, что вы могли бы подумать, было бы использовать Hadoop на Amazons EC2, если у вас ограниченное количество аппаратных ресурсов. Вот несколько ссылок, чтобы вы начали:

+0

Спасибо. В течение следующих двух лет у нас может быть не более 5 терабайт. У меня есть кое-какие знания ... наша идея состоит в том, чтобы использовать map-reduce для ответа на аналитические вопросы, такие как данные входа пользователя, частоты сбоев сервера и т. Д. Общая информация, собранная из журналов. Я прочитал реализацию Rackspace распределенного разбора журнала с использованием hadoop, и поэтому я пытаюсь проверить это. – neblinc1

+0

Итак, если у вас есть 5 терабайт, и вы используете коэффициент репликации 2, вы должны убедиться, что у вас есть 5 ТБ на каждой машине для данных и еще несколько ТБ для вывода из ваших заданий MapReduce. Я бы посмотрел книгу: Hadoop: The Definitive Guide, Том Уайт. Это хороший ресурс. –

Смежные вопросы