2013-06-26 3 views
1

В hadoop я просто играл с этими двумя форматами, чтобы оценить производительность запросов на улей. Я закончил, когда я делаю запросы в таблице, которые хранятся в виде файла TEXT, дайте мне результат раньше, чем тот, который хранится как файл последовательности. Но разве это не должно быть иначе? Кроме того, FYI я загрузил данные сначала в таблицу файлов TEXT, а затем передал данные в таблице SEQUENCEFILE.TextFile Vs Sequence File

создать таблицу текст (INT кислоты, значение строки, ID INT) ROW FORMAT DELIMITED ПОЛЯ, заканчивающуюся '~' сохраняемые в виде текстового файла;

создать таблицу seq (кислота int, строка значений, id int) ЗАПОМНИТЬ КАК ПОСЫЛКА;

загрузить данные local inpath '-----' переписать в текст таблицы;

Вставить в таблицу seq выбрать * из текста;

Text FILE : 
Time taken: 36.284 seconds 
     Vs 
SequenceFile : 
Time taken: 42.446 seconds 

Text FILE : 
Time taken: 22.547 seconds 
     Vs 
SequenceFile : 
Time taken: 25.547 seconds 
+2

Как вы оцениваете, можете ли вы показать нам какой-то код? Вы отключили автоматическое сжатие в файлах последовательностей? –

+0

@ThomasJungblut Я вставил свой код для таблицы для seq и текстовых таблиц. Кроме того, сначала я загружаю данные в текстовый файл, так как у меня нет двоичных данных. Затем я загружаю данные в таблицу seq из текстовой таблицы. – Naresh

+0

Вы использовали BLOCK-компрессию с файлами последовательности? – alexeipab

ответ

0

Какой из них быстрее, зависит от многих факторов, преимущество файла последовательности является то, что вы можете сжать их, и файлы будут по-прежнему Расщепляющимися, а если вы сжимаете текстовые файлы, они не будут Расщепляющимися больше (если вы используете LZO).

+0

Итак, значит ли я использовать любое сжатие (Gzip, 7zip, LZO), если я использую файл последовательности? Другой вопрос - сжатый файл последовательности VS сжатый (LZO) текстовый файл Какой из них будет быстрее? Кроме того, в настоящее время я использую сжатие Gzip в текстовом файле, и он отлично работает. – Naresh

+0

Да, вы можете выбрать разные «кодеки» при использовании файлов последовательности, а также различные режимы сжатия (запись, блок, файл ... обычно вы хотите блок). Насколько велики ваши файлы? Если вы используете сжатие gzip в тексте, hasoop не сможет разбить файл, и это будет нормально, когда размер данных будет небольшим, но он не будет масштабироваться. –