У меня есть все готовые варианты исполнения - у меня есть работающий кластер и клиентский писатель, который толкает данные о деятельности в HDFS. У меня вопрос о том, что будет дальше. Я понимаю, что мы запускаем задания против данных, которые были сброшены в HDFS, но мои вопросы:Операционная система Hadoop
1) Во-первых, я пишу в поток и периодически промываю - я пишу файлы через поток в HDFS java client, и я не вижу, чтобы файлы отображались в HDFS, пока я не убью свой сервер. Если я напишу достаточно данных для заполнения блока, это автоматически появится в файловой системе? Как мне добраться до того момента, когда у меня есть файлы, готовые для обработки заданиями M/R?
2) Когда мы запускаем задания M/R? Как я уже сказал, я пишу файлы через поток в java-клиенте HDFS, и этот поток имеет блокировку для файла для записи. В какой момент я должен отпустить этот файл? Как это взаимодействие работает? В какой момент «безопасно» запускать работу против этих данных и что происходит с данными в HDFS, когда это делается?
поэтому задание m/r заботится о данных в файлах, которые уже записаны в блок, и мы можем продолжать писать один и тот же дескриптор из java-клиента hdfs? –
Да, как только мы сконфигурировали, мы можем продолжать писать – Satya