В hadoop я просто играл с этими двумя форматами, чтобы оценить производительность запросов на улей. Я закончил, когда я делаю запросы в таблице, которые хранятся в виде файла TEXT, дайте мне результат раньше, чем тот, который хранится как файл последовательности. Но разве это не должно быть иначе? Кроме того, FYI я загрузил данные сначала в таблицу файлов TEXT, а затем передал данные в таблице SEQUENCEFILE.TextFile Vs Sequence File
создать таблицу текст (INT кислоты, значение строки, ID INT) ROW FORMAT DELIMITED ПОЛЯ, заканчивающуюся '~' сохраняемые в виде текстового файла;
создать таблицу seq (кислота int, строка значений, id int) ЗАПОМНИТЬ КАК ПОСЫЛКА;
загрузить данные local inpath '-----' переписать в текст таблицы;
Вставить в таблицу seq выбрать * из текста;
Text FILE :
Time taken: 36.284 seconds
Vs
SequenceFile :
Time taken: 42.446 seconds
Text FILE :
Time taken: 22.547 seconds
Vs
SequenceFile :
Time taken: 25.547 seconds
Как вы оцениваете, можете ли вы показать нам какой-то код? Вы отключили автоматическое сжатие в файлах последовательностей? –
@ThomasJungblut Я вставил свой код для таблицы для seq и текстовых таблиц. Кроме того, сначала я загружаю данные в текстовый файл, так как у меня нет двоичных данных. Затем я загружаю данные в таблицу seq из текстовой таблицы. – Naresh
Вы использовали BLOCK-компрессию с файлами последовательности? – alexeipab