В настоящее время я регистрирую всю активность на своей веб-странице на веб-сервере nginx, который находится в файле access.log. Этот файл непонятен из-за его формата, я хочу проанализировать эти файлы журналов, экспортируя их в Hadoop Hive. Тем не менее, улей не может понять сырые журналы nginx. Таким образом, я планирую регенерировать эти журналы в формате JSON или CSV, а затем экспортировать их в куст, где я могу запрашивать и анализировать журналы. Пожалуйста, предложите мне некоторые инструменты/методы, которые позволят мне выполнить вышеуказанную работу. В настоящее время мои журналы Nginx выглядеть следующим образом:Regenerate nginx logs
115.249.242.17 - - [01/Jun/2012:18:44:57 +0530] "GET /flashlayer?videoId=66127&playSessionId=VOD_66127_e04393db-0b40-44b1-aad8-aa2169ac71a710.32.6.1311338556485611&duration=0&playerState=playing&playerError=null HTTP/1.1" 200 86 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:12.0) Gecko/20100101 Firefox/12.0"
Я изменил с mongodb на nginx, чтобы избежать транзитной обработки журналов и может напрямую запрашивать улей, это только делает его хуже –