каждый блок принадлежит только один файл, просто сделать, как показано ниже: 1.Use FSCK команды, чтобы получить блок информации о файле:
hadoop fsck /gavial/data/OB/AIR/PM25/201709/01/15_00.json -files -blocks
из поставил так:
/gavial/data/OB/AIR/PM25/201709/01/15_00.json 521340 bytes, 1 block(s): OK
0. BP-1004679263-192.168.130.151-1485326068364:blk_1074920015_1179253 len=521340 repl=3
Status: HEALTHY
Total size: 521340 B
Total dirs: 0
Total files: 1
Total symlinks: 0
Total blocks (validated): 1 (avg. block size 521340 B)
Minimally replicated blocks: 1 (100.0 %)
Over-replicated blocks: 0 (0.0 %)
блок id is
blk_1074920015
2.использовать FSCK команду, чтобы показать статус блока, из положить, как это
HDFS FSCK -blockId blk_1074920015
Block Id: blk_1074920015
Block belongs to: /gavial/data/OB/AIR/PM25/201709/01/15_00.json
No. of Expected Replica: 3
No. of live Replica: 3
No. of excess Replica: 0
No. of stale Replica: 0
No. of decommission Replica: 0
No. of corrupted Replica: 0
Block replica on datanode/rack: datanode-5/default-rack is HEALTHY
Block replica on datanode/rack: datanode-1/default-rack is HEALTHY
очевидно, что блок принадлежит только один файл
Например, 1 MB файл, хранящийся с размер блока 128 МБ использует 1 МБ дискового пространства, а не 128 МБ.) Как hdfs используют оставшиеся 127M в этом блоке? Блоки –