У меня есть куча небольших текстовых файлов (1KB до 1MB), хранящихся в Amazon S3, которые я хотел бы обработать с использованием Hadoop Amazon EMR.EMR Hadoop обрабатывает весь файл S3
Каждая запись, предоставленная картографу, должна содержать все содержимое текстового файла, а также способ определения имени файла, поэтому я не могу использовать TextInputFormat по умолчанию.
Каков наилучший способ для этого? Есть ли что-нибудь еще, что я могу сделать (например, копирование файлов с S3 в hdfs) для повышения производительности?