Мне нужны некоторые предложения о том, как я должен обрабатывать журналы инфраструктуры с использованием hadoop в Java вместо Pig, поскольку я думаю, что Pig не поддерживает фильтры regex при чтении файлов журнала.Предложения hadoop о том, как обрабатывать журналы
В качестве примера у меня есть журналы cisco и журналы веб-сервера, и я хочу отфильтровать определенные значения по строке и подать в hadoop.
Есть несколько предложений в Интернете. I.e сначала изменить его на формат csv, но что, если файл журнала находится в GBs ???
Можно ли фильтровать строки на «карту» этапа т.е. программа будет читать строки из файла в HDFS и отправить его Mapper ...
Мне нужны некоторые предложения по наилучшему образу и чистому способу сделайте это ....
спасибо.
Вы, кажется, работаете в Linux, почему бы не использовать 'grep',' sed', ...? – devnull
Мне это известно, но журналы довольно огромные, и я хочу создать некоторую статистику, я уже пробовал использовать свиньи для фильтрации журналов веб-серверов по IP, но предел с помощью регулярного выражения ... поэтому я надеюсь это сделать в Java непосредственно с hadoop. – krisdigitx
Итак, вы думаете, что java будет более эффективным по сравнению с 'grep'? Удачи. – devnull