Я новичок до Hadoop, и у меня есть ситуация, когда релевантно только одна строка на 4 строки входного текста. В настоящее время я использую по умолчанию TextInputFormat
и условную логику, чтобы пропустить все остальные три строки, которые не имеют значения.Как написать пользовательский формат ввода
Как использовать Custom Input Format
, чтобы справиться с этим. Поскольку я новичок в hadoop, я мало что знаю о CustomInputFormat
. Любая помощь будет оценена по достоинству. Благодаря !
Спасибо за ответ! Как использовать NLineInputFormat и как указать строки для чтения в нем? – Sachin
в драйвере вы можете установить 'setInputFormat' как' NLineInputFormat', и для настройки вам нужно будет установить свойство 'mapre duce.input.lineinputformat.linespermap' или старый api' mapred.line.input.format.linespermap' –