Я хочу провести синтаксический анализ журнала огромных объемов данных и собрать аналитическую информацию. Однако все данные поступают из внешних источников, и у меня есть только две машины для хранения - одна в качестве резервной копии/репликации.Hadoop: Недостатки использования только двух машин?
Я пытаюсь использовать Hadoop, Lucene ... для этого. Но во всех документах по обучению упоминается, что Hadoop полезен для распределенной обработки, многоузловой. Моя настройка не вписывается в эту архитектуру.
Есть ли у них накладные расходы с использованием Hadoop всего за 2 машины? Если Hadoop не является хорошим выбором, есть альтернативы? Мы смотрели на Splunk, нам это нравится, но это дорого для нас, чтобы купить. Мы просто хотим строить свои собственные.
Спасибо. В течение следующих двух лет у нас может быть не более 5 терабайт. У меня есть кое-какие знания ... наша идея состоит в том, чтобы использовать map-reduce для ответа на аналитические вопросы, такие как данные входа пользователя, частоты сбоев сервера и т. Д. Общая информация, собранная из журналов. Я прочитал реализацию Rackspace распределенного разбора журнала с использованием hadoop, и поэтому я пытаюсь проверить это. – neblinc1
Итак, если у вас есть 5 терабайт, и вы используете коэффициент репликации 2, вы должны убедиться, что у вас есть 5 ТБ на каждой машине для данных и еще несколько ТБ для вывода из ваших заданий MapReduce. Я бы посмотрел книгу: Hadoop: The Definitive Guide, Том Уайт. Это хороший ресурс. –