2016-06-03 2 views
1

Мне нужно настроить потоковое окружение для моего проекта. Набор данных следующий: http://research.microsoft.com/pubs/152883/User_guide_T-drive.pdfИмпорт 12000 файлов в один стол

Я планирую использовать PostgreSQL и Apache Кафку в качестве источника, а затем подключиться к Кафке с Apache Спарк или Флинка, однако проблема в том, что набор данных составляет около 10 000 текстовых файлов.

Итак, вопрос в том, что является наиболее эффективным/изящным способом импорта ~ 10000 файлов (каждый около 500 строк) в одну таблицу.

Пока я пытался питон скрипт с psycopg2 и executemany метод (супер медленный) и Apache FLiNK Работа с JDBC разъем (хорошая скорость, но не знаю, как перебрать 10000 файлов один Job.

ответ

1

одно простое решение было бы прочитать папку с помощью искры и открыть Odbc соединение на перегородке и перебирать и писать каждую строку.

+0

Это работало довольно гладко с paralellism 4, однако я использовал Flink. –

Смежные вопросы