Мне нужно импортировать> 400 миллионов строк из таблицы MySQL (с составным первичным ключом) в таблицу разделов таблицы улов с помощью Sqoop. Таблица имеет данные в течение двух лет с датой вылета колонки, начиная с 20120605 по 20140605 и тысячами записей за один день. Мне нужно разбить данные на основании даты вылета.Импорт из MySQL в Hive с использованием Sqoop
Варианты:
Apache Hadoop - 1.0.4
Apache Hive - 0.9.0
Apache Sqoop - sqoop-1.4.2.bin__hadoop-1.0.0
Как по моим сведениям, существует 3 подхода:
- MySQL -> Неразделенная таблица улья -> INSERT из непарной titioned Hive стол в секционированных улей таблице
- MySQL -> Разделенный Hive таблица
MySQL -> несекционированные Hive стол -> ALTER несекционированные Hive стол добавить Partition
является тока болезненный, что я следую
Я прочитал, что поддержка этого добавляется позже (?) версия ульи и Sqoop, но не смогли найти пример
Синтаксис диктует указать разделы, так как пар ключ-значение - не представляется возможным в случае миллионов записей, где один не может думать о всех разделов пар ключ-значение 3.
Может кто-нибудь обеспечить ввод для подходов 2 и 3?
с sqoop 1.4.3 вы застряли в # 1. Я не думаю, что # 2 или # 3 возможны на данный момент. Вы могли бы написать задание на MR и напрямую работать с метаповтором sqoop для реализации # 3, но это было бы некрасиво. –