Я использую Dumbo для некоторых работ Hadoop Streaming. У меня есть куча словарей JSON, каждая из которых содержит статью (многострочный текст) и некоторые метаданные. Я знаю, что Hadoop лучше всего работает, когда дает большие файлы, поэтому я хочу объединить все словари JSON в один файл.Hadoop Streaming Multiline Input
Проблема заключается в том, что я не знаю, как заставить Hadoop читать каждый словарь/статью как отдельное значение вместо разделения на строки новой строки. Как я могу сказать Hadoop о том, чтобы использовать специальный разделитель записей? Или, может быть, я могу поместить все словари JSON в структуру данных списка и прочитать Hadoop?
Возможно, если кодировка строки (base64?) Удалит все новые строки, и нормальный «читатель» сможет ее обработать?