2017-02-18 2 views
3

При попытке загрузить паркет из искр 1,6 дюйма в искру 2.X Я вижу множество инструкций уровня WARN.Предупреждения, пытающиеся читать Spark 1.6.X Паркет в Spark 2.X

16/08/11 12:18:51 WARN CorruptStatistics: Ignoring statistics because created_by could not be parsed (see PARQUET-251): parquet-mr version 1.6.0 
    org.apache.parquet.VersionParser$VersionParseException: Could not parse created_by: parquet-mr version 1.6.0 using format: (.+) version ((.*))?\(build ?(.*)\) 
    at org.apache.parquet.VersionParser.parse(VersionParser.java:112) 
    at org.apache.parquet.CorruptStatistics.shouldIgnoreStatistics(CorruptStatistics.java:60) 
    at org.apache.parquet.format.converter.ParquetMetadataConverter.fromParquetStatistics(ParquetMetadataConverter.java:263) 
    at org.apache.parquet.format.converter.ParquetMetadataConverter.fromParquetMetadata(ParquetMetadataConverter.java:567) 
    at org.apache.parquet.format.converter.ParquetMetadataConverter.readParquetMetadata(ParquetMetadataConverter.java:544) 
    at org.apache.parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:431) 
    at org.apache.parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:386) 
    at org.apache.spark.sql.execution.datasources.parquet.SpecificParquetRecordReaderBase.initialize(SpecificParquetRecordReaderBase.java:107) 
    at org.apache.spark.sql.execution.datasources.parquet.VectorizedParquetRecordReader.initialize(VectorizedParquetRecordReader.java:109) 
    at org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat$$anonfun$buildReader$1.apply(ParquetFileFormat.scala:369) 
    at org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat$$anonfun$buildReader$1.apply(ParquetFileFormat.scala:343) 
    at [rest of stacktrace omitted] 

Я запускаю выпуск 2.1.0 и есть множество этих предупреждений. Есть ли какой-либо способ - не меняя уровень ведения журнала на ERROR - чтобы подавить их?

Похоже, что это был результат исправления, но предупреждения еще не удалены. Вот некоторые подробности из этого JIRA:

https://issues.apache.org/jira/browse/SPARK-17993

Я построил код с PR и действительно успешно читает данные . Я пытался делать df.count(), и теперь я кишел предупреждения, как это (они просто продолжают получать печататься бесконечно терминалом):

Установки уровня протоколирования ERROR является последней канавой подход: это глотание сообщений, на которые мы полагаемся для стандартного мониторинга. Кто-нибудь нашел обходное решение?

ответ

4

В настоящее время - то есть, пока/если эта искра/паркет ошибка не были установлены - я не буду добавлять следующие к log4j.properties:

log4j.logger.org.apache.parquet=ERROR 

Расположение:

  • когда работающий от внешнего искрового сервера: $SPARK_HOME/conf/log4j.properties

  • при запуске локально внутри Intellij (или другой IDE): src/main/resources/log4j.properties

+0

Можете ли вы предоставить более подробную информацию о том, где вы будете обновлять следующую строку? log4j.logger.org.apache.parquet = ERROR i.e в Hive log4j.properties? – Jay

+0

@Jay. Извините, я не заметил ваш комментарий до сих пор. Обновлен мой ответ для этой информации. – javadba

Смежные вопросы