2013-08-28 3 views
1

У меня есть набор данных около 1,85 ГБ, который содержит файлы h5, мне нужно обработать эти файлы с помощью hadoop, для этого мне может понадобиться преобразовать эти файлы в текст или csv , Есть ли способ, которым hadoop может читать h5-файлы? Или любой хороший онлайн-инструмент для конвертирования h5-файлов в CSV-файлы или текстовые файлы? Или может ли кто-нибудь дать ссылку, где я могу загрузить огромный набор данных, содержащий текстовые или CSV-файлы?конвертировать h5 файл в файл csv или текстовый файл для обработки данных

заранее спасибо

+1

h5dump (http://www.hdfgroup.org/HDF5/doc /RM/Tools.html#Tools-Dump) сбрасывает файл HDF5 в ASCII или XML, но вывод по-прежнему будет иерархическим, а не табличным, как файл CSV. Да, есть некоторая работа по интеграции HDF5 и Hadoop, используйте свою любимую поисковую систему, чтобы ее найти. –

+0

Вы пробовали R/MATLAB или C/C++ для чтения содержимого? R и MATLAB предлагает экспорт csv; с C/C++ вы должны использовать fprintf/cout. –

ответ

0

Вы пробовали сервер OPeNDAP Hyrax с hdf5_handler модулем?

Например, из образца HDF5 файла [1], вы можете получить следующие данные ASCII [2]:

Dataset: grid_1_2d.h5 
temperature[0], 10, 10, 10, 10, 10, 10, 10, 10 
temperature[1], 11, 11, 11, 11, 11, 11, 11, 11 
temperature[2], 12, 12, 12, 12, 12, 12, 12, 12 
temperature[3], 13, 13, 13, 13, 13, 13, 13, 13 
... 

OPeNDAP Hyrax сервер с hdf5_handler является отличным инструментом/услугу, потому что вы можете выбрать (и подмножество) набора данных из файла HDF5, также легко используя HTML-формулу [3]. Подробную информацию о OPeNDAP hdf5_handler вы найдете в [4].

[1] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5

[2] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5.ascii

[3] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5.html

[4] http://hdfeos.org/software/hdf5_handler.php

Смежные вопросы