2016-11-06 3 views
1

Текущая настройка:Манипулирование данных В AWS Redshift в Перечне

  • SQL базы данных OLTP сервера
  • базы данных AWS Redshift OLAP обновляется с OLTP через SSIS каждые 20 минут

Наши клиенты only имеют доступ к OLAP Db

Требование :

Один клиент требует создания некоторых дополнительных таблиц и их заполнения в расписание, которое может быть выполнено путем агрегирования данных уже в AWS Redshift.

Задача:

Это только для одного клиента, так что я не могу эффективно использовать процесс ядра для заполнения AWS; процесс должен быть независимым и должен быть передан клиенту, который не использует SSIS и не хочет запускаться. Я рассматривал возможность использования Data Pipeline, но это еще не доступно на рынке, на котором находится клиент.

Вопрос:

Что такое моя альтернатива? Я знаю множество partners, которые предлагают решения, похожие на ETL, но это кажется сверху, в конечном итоге все, что я хочу сделать, это выполнить серию операторов SQL по расписанию с использованием какой-либо формы обработки ошибок/предупреждения. Предпочтение как клиента, так и руководства заключается в том, чтобы не использовать приложение на заказ для этого, следовательно, предполагаемое использование Data Pipeline.

+0

Я еще не использовал службу Data Pipeline, но я думаю, что в вашем случае вы можете просто использовать услугу Lambda для управления данными в AWS Redshift. –

+0

Лямбда также недоступна в Китае до некоторого времени в следующем году. Тем временем я ищу альтернативу. Спасибо за предложение. – Simon1979

ответ

0

Для экспорта данных из AWS Redshift в другой источник данных с использованием datapipeline вы можете следовать шаблону, аналогичному https://github.com/awslabs/data-pipeline-samples/tree/master/samples/RedshiftToRDS, с помощью которого данные могут быть переданы с Redshift на RDS. Но вместо использования RDSDatabase в качестве приемника вы можете добавить базу данных Jdbc (http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-jdbcdatabase.html). Шаблон https://github.com/awslabs/data-pipeline-samples/blob/master/samples/oracle-backup/definition.json содержит более подробную информацию о том, как использовать базу данных Jdbc.

Существует много таких шаблонов, доступных в https://github.com/awslabs/data-pipeline-samples/tree/master/samples для использования в качестве ссылки.

+0

К сожалению, Data Pipeline недоступен в регионе, в котором находится мой клиент (Китай), это моя проблема - что я могу использовать вместо Data Pipeline? Лямбда также недоступна. – Simon1979

0

Я делаю то же самое, что и вы, но я использую лямбда-сервис для выполнения своего ETL. Одним из недостатков лямбда-обслуживания является то, что он может работать максимум 5 минут (только 1 мин).

Так что для ETL более 5 минут я планирую настроить сервер PHP в AWS и с помощью SQL-инъекции. Я могу запускать свои запросы, запланированные в любое время с помощью функции cron.