Позвольте мне начать с того, что я полный новичок в Hadoop. Мое требование - анализировать файлы журналов сервера с использованием инфраструктуры Hadoop. Первый шаг, который я предпринял в этом направлении, - это поток файлов журналов и их сброс в один узел Hadoop с использованием флюида HDFS. Теперь у меня есть куча файлов с записями, которые выглядят примерно так:Обработка файлов HDFS
Отметка времени модуля имя уровня REQ-идентификатор сообщения
Мой следующий шаг должен проанализировать файлы (выделить поля) и хранить их обратно так что они готовы к поиску.
Какой подход я должен использовать для этого? Могу ли я сделать это с помощью Hive? (извините, если вопрос наивен). Информация, доступная в Интернете, является ошеломляющей.