2013-07-19 6 views
1

Мне нужно разделить файл выходной части, сгенерированный другим скриптом Свиньи, и сгенерировать группы, каждая из которых содержит 1000 строк. Эти группы будут отправлены в веб-сервис для дальнейшей обработки. Между данными нет никакой связи, поэтому я не могу группировать данные в определенном поле.Свинья: разбиение большого большого файла на несколько файлов меньшего размера

Как я могу это сделать в Pig?

ответ

4

Если сплит не связан с данными, почему вообще использовать Pig или MapReduce? В качестве альтернативы вы могли бы просто использовать стандартную программу разделения для разделения ваших данных, если бы я не понял. Например:

cat part-* | split -d -l 1000 - result- 
Смежные вопросы