Я пытался использовать Hadoop для отправки N количества строк в одно сопоставление. Я не требую, чтобы линии были разделены.Несколько строк текста на одну карту
Я попытался использовать NLineInputFormat, однако это отправляет N строк текста из данных в каждый картограф по одной строке за раз [отказ после N-й строки].
Я попытался установить опцию и он принимает только N строк ввода его отправкой на 1 линии, в то время на каждой карте:
job.setInt("mapred.line.input.format.linespermap", 10);
я нашел список рассылки рекомендовать мне переопределить LineRecordReader :: next, однако это не так просто, так как внутренние члены данных являются частными.
Я только что проверил источник для NLineInputFormat и это жесткие коды LineReader, поэтому переопределение не поможет.
Кроме того, кстати, я использую Hadoop 0.18 для совместимости с Amazon EC2 MapReduce.
Почему вы пытаетесь это сделать? Разве несколько строк составляют одну запись в некотором смысле? –
Мне действительно нужно N число случайных строк [как набор], однако я могу жить с последовательными. Мне нужно его, чтобы отправить его на правильный редуктор. – monksy
Чтобы ответить на ваш вопрос, да, они делают. – monksy