Apache Spark: Анализ нитей Анализ

У меня есть приложение для искрообразования, и я хочу проанализировать журналы работы с помощью Elasticsearch-Kibana. Моя работа выполняется на кластере пряжи, поэтому журналы записываются в HDFS, поскольку я установил yarn.log-aggregation-enable в true. Но, когда я пытаюсь сделать это:Apache Spark: Анализ нитей Анализ

hadoop fs -cat ${yarn.nodemanager.remote-app-log-dir}/${user.name}/logs/<application ID>

Я вижу некоторые шифрованные/сжатые данные. Какой формат файла? Как читать журналы из этого файла? Могу ли я использовать logstash, чтобы прочитать это?

Кроме того, если есть лучший подход к анализу журналов Spark, я открыт для ваших предложений.

Спасибо.

источник

2016-02-04 void

Может вам попробовать использовать -text вместо -cat? hadoop fs -text ... – facha

Пробовал это. Все тот же результат. – void

Просто хочу знать, есть ли какой-либо API для преобразования этого типа файла в текстовый файл. – void

Формат называется TFile, и это сжатый формат файла.

Пряжа, однако, предпочитает писать журналы приложений в TFile !! Для тех из вас, кто не знает, что такое TFile (и я уверен, что многие из вас этого не делают), вы можете узнать больше об этом здесь, но на данный момент это базовое определение должно быть достаточным ». A TFile - это контейнер ключа -значные пары. Оба ключа и значения являются байтами без типов ».

Splunk/Hadoop Rant

Там может быть способом редактирования пряжи и искры из log4j.properties в send messages to Logstash using SocketAppender

Однако that method is being deprecated

источник

2017-05-30 20:43:04