2014-02-19 5 views
0

Позвольте мне начать с того, что я полный новичок в Hadoop. Мое требование - анализировать файлы журналов сервера с использованием инфраструктуры Hadoop. Первый шаг, который я предпринял в этом направлении, - это поток файлов журналов и их сброс в один узел Hadoop с использованием флюида HDFS. Теперь у меня есть куча файлов с записями, которые выглядят примерно так:Обработка файлов HDFS

Отметка времени модуля имя уровня REQ-идентификатор сообщения

Мой следующий шаг должен проанализировать файлы (выделить поля) и хранить их обратно так что они готовы к поиску.

Какой подход я должен использовать для этого? Могу ли я сделать это с помощью Hive? (извините, если вопрос наивен). Информация, доступная в Интернете, является ошеломляющей.

ответ

0

Вы можете использовать HCatalog или Impala для более быстрого запроса.

0

Из вашего объяснения у вас есть данные временных рядов. Hadoop с самой HDFS не предназначен для случайного доступа или запросов. Вы можете использовать базу данных HBase для hadoop как файловой системы HDFS. Это полезно для произвольного доступа. Кроме того, для анализа потребностей и перестановки данных вы можете использовать MapReduce.HBase для Hadoop. HBase может использоваться для ввода/вывода задания MapReduce.

Основная информация, которую вы можете получить от here. Для лучшего понимания попробуйте «Определительное руководство для книг HBase/HBase в действии».

Смежные вопросы