Я начал изучать Hadoop. Если мое понимание правильное, я могу обработать очень большой файл, и он будет разделен на разные узлы, однако если файл сжат, то файл не может быть разделен, а wold должен обрабатываться одним узлом (эффективно разрушая преимущество запуск mapreduce ver кластера параллельных машин).Очень простой вопрос о Hadoop и сжатых входных файлах
Вопрос в том, правильно ли указано выше, можно ли разделить большой файл вручную в куски фиксированного размера или на ежедневные куски, сжать их, а затем передать список сжатых входных файлов для выполнения mapreduce?
Спасибо, что звук отличный. –