У нас есть 3 .lzo-файла и соответствующие .index-файлы в s3. Мы создаем внешнюю таблицу в каталоге этих файлов. Размер каждого файла lzo составляет 100 Мбайт +, а размер несогласованного каждого файла равен 800 + МБ Размер блока составляет 128 МБ. Когда мы запускаем запросы на улей, к сожалению, генерируется только 3 картографа, предполагая, что расщепления не происходит, что может быть проблемой?Файлы Lzo не получают раздельные работы в ульях
0
A
ответ
1
Разделимый применяется только в том случае, если размер сжатого файла больше, чем размер сплита. Размер по умолчанию для улья по умолчанию составляет 256 МБ.
Измените размер разделения в сеансе улья и запустите запрос.
set mapreduce.input.fileinputformat.split.minsize=64000000
0
Все было установлено 30 МБ.
set mapreduce.input.fileinputformat.split.maxsize=31457280;
set mapreduce.input.fileinputformat.split.minsize=31457280;
set dfs.blocksize=31457280;
Все еще мы видим, что количество карточек остается таким же. Это делается на обычном кластере, а не на S3. Мы видим только 10 карт для 3 файлов формата LZO (229,16 МБ, 705,79 МБ, 157,61 МБ)
Смежные вопросы
- 1. Файлы не получают добавлены в Докер рабочей
- 2. Исходные файлы CUDA получают расширение .cu. Что получают файлы заголовков?
- 3. Hadoop-LZO странно нативной LZO библиотека не доступна ошибка
- 4. Файлы не получают распакованы, выход задачи последнь
- 5. jqplots скрипты не получают читать HTML файлы
- 6. пример заголовка JNI файлы не получают генерироваться
- 7. несжатый .lzo файл, а затем удалить .lzo файл
- 8. Scalding + LZO + Protobuf
- 9. Как читать сжатые файлы HDFS с LZO в Giraph
- 10. Декомпрессия потока LZO в PHP
- 11. SASS файлов, компилировать и раздельные тему-цветные файлы с глотком
- 12. Laravel ForEach В Раздельные DIVs
- 13. Проблема с LZO
- 14. C++ Раздельные бесплатные списки
- 15. Раздельные 30 в три партии
- 16. Комбинированные или раздельные таблицы
- 17. zlib iPhone - файлы получают crap в начале
- 18. Получают ли файлы CSS в браузере?
- 19. Библиотека сжатия Java LZO
- 20. Java файлы класса не получают созданные в папку классов
- 21. LZO compress char *
- 22. Использование сжатия lzo в java
- 23. LZO для cloudera cdh3u2
- 24. Размер буфера декомпрессии LZO
- 25. Сжатие LZO для Hbase
- 26. АЯ PySpark: LZO Кодек не найден
- 27. Django - статические файлы получают ошибку 404
- 28. Обработка Hadoop прозрачно, но не расщепление LZO
- 29. Ручка раздельные касания внутри UITableViewCell
- 30. Зачем эти XML-файлы получают разные ответы?
это не работает, попробовал настройку mapreduce.input.fileinputformat.split.maxsize до 32 МБ, и он не работает , Согласно формуле расчета разделения, нам нужно установить параметр maxsize, а не minsize, как было предложено, также попытался установить min и max до 32 МБ, все еще не работает ... какие-либо другие предложения? – BJC
Это может быть связано с s3. –
мы протестировали в кластере non aws, все еще сталкивающемся с тем же вопросом – BJC