2013-03-06 4 views
1

Мы пытаемся запустить процесс ETL в Экземпляр высокого ввода-вывода на Amazon EC2. Тот же процесс локально на очень хорошо оборудованном ноутбуке (с SSD) занимает примерно 1/6 времени. Этот процесс в основном преобразует данные (30 миллионов строк или около того) из плоских таблиц в третью схему нормальной формы в том же экземпляре Oracle.Данные Интенсивный процесс в EC2 - любые советы?

Любые идеи о том, что может замедлить нас?

+1

Вы используете хранилище экземпляров? или вы читаете/пишете из тома EBS? – datasage

+0

EBS не используется как часть этого процесса как таковой, скорее у нас есть экземпляр в EC2, который использует Amazon RDS для размещения Oracle (который может быть на RBS, но я не уверен в деталях там). – Springer

+0

У большого экземпляра io есть ssd, но доступны только через хранилище экземпляров. RDS действительно использует EBS и, скорее всего, будет медленнее, если вы напрямую загружаете RDS в качестве своего вывода. – datasage

ответ

0

Или еще один вариант - просто перейти от AWS и арендовать усиленные коробки (необработанное оборудование) с SSD в чем-то вроде Rackspace.

Мы переместили большинство наших процессов ETL с AWS/EMR. Мы размещаем большую часть его на Rackspace и получаем намного больше CPU/Storage/Performance за деньги. Не поймите меня неправильно. AWS потрясающе, но наступает момент, когда это не экономически выгодно. Кроме того, вы никогда не знаете, как они действительно управляют/виртуализируют аппаратное обеспечение, применимое к вашему конкретному приложению.

Мои два цента.

Смежные вопросы