2015-03-30 3 views
0

Я новичок до Hadoop, и у меня есть ситуация, когда релевантно только одна строка на 4 строки входного текста. В настоящее время я использую по умолчанию TextInputFormat и условную логику, чтобы пропустить все остальные три строки, которые не имеют значения.Как написать пользовательский формат ввода

Как использовать Custom Input Format, чтобы справиться с этим. Поскольку я новичок в hadoop, я мало что знаю о CustomInputFormat. Любая помощь будет оценена по достоинству. Благодаря !

ответ

1

Я думаю, вы можете использовать NLineInputFormat, где вы можете указать, сколько строк строит одну запись. Это может быть легко & готовое к использованию решение.

Если вы хотите реализовать свой собственный формат ввода, тогда вы, вероятно, внесете собственный формат ввода &, чтобы указать, что создает вашу одну запись.

ниже один из примера http://deep-developers.blogspot.in/2014/06/custom-input-split-and-custom.html

+0

Спасибо за ответ! Как использовать NLineInputFormat и как указать строки для чтения в нем? – Sachin

+1

в драйвере вы можете установить 'setInputFormat' как' NLineInputFormat', и для настройки вам нужно будет установить свойство 'mapre duce.input.lineinputformat.linespermap' или старый api' mapred.line.input.format.linespermap' –

Смежные вопросы