Представьте, что у вас есть большой файл, хранящийся в hdtf, который содержит структурированные данные. Теперь цель состоит в том, чтобы обрабатывать только часть данных в файле, как и все строки в файле, где второе значение столбца находится между тем и так. Возможно ли запустить MR-задание так, чтобы hdfs передавал только соответствующую часть файла или передавал все на mappers.Выполнение задания MR на части файла HDFS
Причина в том, что я хочу ускорить работу, работая только на той части, которая мне нужна. Вероятно, один из подходов состоит в том, чтобы запустить задание MR, чтобы создать новый файл, но мне интересно, можно ли этого избежать?
Обратите внимание, что целью является сохранение данных в HDFS, и я не хочу читать и писать из базы данных.
Сопроцессоры, введенные в 0,92, могут также использоваться для фильтрации данных, аналогичных фильтрам. Не совсем точно, какая разница между сопроцессорами и фильтрами. Одна вещь, о которой я могу думать, - фильтры определены на клиенте, а сопроцессоры определены на сервере. Таким образом, сопроцессоры могут использоваться повторно для клиентов. Следует отметить, что и фильтры, и сопроцессоры выполняются на сервере и сокращают данные, отправленные клиенту. –
Хорошая точка Praveen. Но я понимаю, что сопроцессоры предназначены только для базы, а не просто HDFS M/R –
Chris - Вы имеете в виду HBase, а не базу? Что останавливает сопроцессоры, используемые в МР? Я разместил запрос в группах HBase для разницы между сопроцессорами и фильтрами, но не получил ответа. –