Основываясь на моем понимании, TextInputFormat
должен делиться именно на разрывы строк, но похоже, что я ошибаюсь, основываясь на некоторых ответах, которые я видел на веб-сайте. Кто-нибудь лучше объясняет и какой вариант прав?Hadoop MapReduce TextInputFormat - как выполняется разделение файлов
Какое из следующих вариантов лучше всего описывает работы TextInputFormat
?
Разделители входных файлов могут пересекаться друг с другом. Строка, которая пересекает разделение файлов, считывается
RecordReader
разделения, содержащего конец ломаной линии.Входной файл разделяется точно на разрывы строк, поэтому каждый считыватель записей считывает ряд полных строк.
Разделители входных файлов могут пересекаться между перерывами. Строка, которая пересекает разделение файлов, считывается
RecordReader
разделения, содержащего начало ломаной линии.Разделители входных файлов могут пересекаться между перерывами. Строка, которая пересекает разделение плитки, игнорируется.
Разделители входных файлов могут пересекаться между перерывами. Строка, которая пересекает разделение файлов, считывается
RecordReaders
обоих разделов, содержащих ломаную линию.