Возможно, вы сбиваете с толку термины «смежные» и «последовательные». У нас есть последовательные чтения/записи (с/на диск) и «смежное» распределение дискового пространства.
Один блок HDFS размером 64 МБ будет записан на диск последовательно. Поэтому есть вероятность, что данные будут записаны в смежное пространство на диске (состоящее из нескольких блоков рядом друг с другом). Таким образом, фрагментация диска/блока будет намного ниже по сравнению с записью случайного диска.
Кроме того, последовательные чтения/записи намного быстрее, чем случайные записи с несколькими образами на диск. См. Difference between sequential write and random write для получения дополнительной информации.
harpun ty .. Постоянный всегда означает смежный? Я не могу понять, как это может быть, но привести цитату из книги операций по эксплуатации. «Увеличение размера блока означает, что данные будут записаны в больших смежных кусках на диске, что, в свою очередь, означает, что данные могут быть записаны и прочитаны в больших операционных операциях ». , Кроме того, последнее сомнение связано с тем, что голова диска разделена между процессами, последовательная запись для одного процесса может все же стать случайной записью, потому что другой процесс может занять головку диска еще где. – sethi
@sethi: последовательные записи дисков приводят к непрерывным блокам данных точно так же, как говорит ваша книга. Что касается многопроцессорной записи, то запись на диски выполняется кэшированием на уровне программного обеспечения (операционной системе) и на аппаратном уровне (кэш диска). Кроме того, записи дисков оптимизированы так, что голова не ищет из одного места в другое во время записи. Жесткие диски будут буферизовать записи, чтобы свести к минимуму поиск в пользу последовательной записи и движения головы. – harpun