Есть ли способ настроить разделитель для работ Hive MR? По умолчанию разделитель, используемый внутренним ульем, является «ограничителем улья» (/ 001). Мое распоряжение заключается в настройке разделителя, чтобы я мог использовать любой разделитель в соответствии с требованием. В hasoop есть свойство maprate.textoutputformatter.separator, которое установит разделитель ключа-значения в значение, указанное для этого свойства. Есть ли такой способ настройки разделителя в Hive? .. Я искал много, но didn ' t получить полезные ссылки. Пожалуйста, помогите мне.Конфигурирование разделителя для рабочих мест Hive MR
ответ
Вы можете попробовать это:
SELECT (rest of your query)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY 'YourChar' (example: FIELDS TERMINATED BY '\t')
По улья 0.11.0, вы можете написать
INSERT OVERWRITE LOCAL DIRECTORY '...'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
SELECT ...
См HIVE-3682 для полного синтаксиса.
Вы также можете использовать это: -
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES ('field.delim'='-','serialization.format'='-')
Это отдельные столбцы, используя - разделителей но это относится только к LazSimpleSerde.
Возможно, вы используете опцию INSERT OVERWRITE DIRECTORY для записи в файл hdfs. Если вы создаете таблицу улей поверх файла hdfs без разделителя, в качестве разделителя он примет значение «\ 001», поэтому вы можете прочитать файл из таблицы улей без каких-либо проблем.
Если вы используете исходную таблицу dnt not укажите разделитель в инструкции создания схемы, тогда вы не сможете это изменить. У вас всегда будет указатель по умолчанию. И да, ограничитель будет контролироваться путем создания схемы для исходной таблицы. Таким образом, это тоже невозможно. У меня была аналогичная проблема, и в конце концов я модифицировал 001 как второй шаг после завершения работы MR.
- 1. Понимание Hive MR Выход
- 2. SecondaryNamenode и MapReduce рабочих мест
- 3. PowerShell удаленных рабочих мест
- 4. Неполадки рабочих мест Sidekiq
- 5. Назначение рабочих мест работникам
- 6. Много рабочих мест cron
- 7. Назначение рабочих мест Talend
- 8. Запуск рабочих мест HDInsight Howto
- 9. Автоматизация рабочих мест в Azure
- 10. Использования сделать для нескольких индексированных рабочих мест
- 11. Предоставление рабочих мест для потоков - MPI
- 12. алгоритм для обмена рабочих мест двумя исполнителями
- 13. приоритизация серверов рабочих мест для ретрансляторов?
- 14. Есть ли стандарт для рабочих мест?
- 15. Отображения рабочих мест для разработчиков разработчика Chrome
- 16. Python + Сельдерей: цепочки рабочих мест?
- 17. хрон рабочих мест частично запустить
- 18. rundeck поддерживает зависимости рабочих мест?
- 19. Sidekiq рабочих мест работает бесконечно
- 20. Перемещение рабочих мест в Jenkins
- 21. Кварц предотвращает перекрытие рабочих мест
- 22. Расписание 2 хрон рабочих мест
- 23. Резюме Hadoop рабочих мест Workflow
- 24. Работа проверить состояние рабочих мест
- 25. хрон рабочих мест - Селен - org.openqa.selenium.firefox.NotConnectedException
- 26. hive using § в качестве разделителя
- 27. «Ошибка выполнения Hive Runtime при обработке строки» (только для MR)
- 28. Оптимизировать распределение рабочих мест специалистам, с макс. количество рабочих мест на одного эксперта
- 29. Конфигурирование перспективных рабочих часов с powershell
- 30. Как обращаться с различным входной размер партии рабочих мест MapReduce
Благодарим за быстрый ответ. Но проблема здесь в том, что мы пишем уст MR o/p в местоположение dfs. Если куст использует разделитель как '\ 001', тогда может быть какой-то способ его явно настроить, например, установив некоторые свойства. –