Hadoop Streaming Multiline Input

Я использую Dumbo для некоторых работ Hadoop Streaming. У меня есть куча словарей JSON, каждая из которых содержит статью (многострочный текст) и некоторые метаданные. Я знаю, что Hadoop лучше всего работает, когда дает большие файлы, поэтому я хочу объединить все словари JSON в один файл.Hadoop Streaming Multiline Input

Проблема заключается в том, что я не знаю, как заставить Hadoop читать каждый словарь/статью как отдельное значение вместо разделения на строки новой строки. Как я могу сказать Hadoop о том, чтобы использовать специальный разделитель записей? Или, может быть, я могу поместить все словари JSON в структуру данных списка и прочитать Hadoop?

Возможно, если кодировка строки (base64?) Удалит все новые строки, и нормальный «читатель» сможет ее обработать?

источник

2010-07-24 erikcw

Вы можете просто заменить все новые строки на spaecs в каждом словаре при конкатенации ваших файлов JSON. Новая строка не имеет особого значения в JSON, кроме того, что она является символом пробела.

источник

2010-08-16 21:55:40

Hadoop Streaming Multiline Input

ответ

Смежные вопросы