2013-02-11 4 views
6

Кто-нибудь пытался проверить производительность узлов данных в нескольких центрах обработки данных? Особенно по сетям с небольшими трубами. Я не могу найти слишком много информации об этом, и информация, которую я нашел, либо старая (около 2010 года), либо проприетарная (похоже, DataStax что-то). Я знаю, что Hadoop поддерживает проверку стойки, но, как я уже сказал, я не видел никакой документации по настройке системы для нескольких центров обработки данных.Распределение узлов данных в нескольких центрах обработки данных

ответ

5

Я попробовал это с кластером DataNode размером 12 x, расположенным в соотношении 2: 1, разделенном между двумя центрами данных примерно на расстоянии 120 миль друг от друга. Задержка между центрами обработки данных составляла ~ 4 мс через 2 x 1GbE.

2 стойки были сконфигурированы на сайте A, 1 стойка, сконфигурированная на сайте B. Каждая «стойка» имела в ней 4 машины. Мы в основном тестировали сайт B как сайт «DR». Коэффициент репликации был установлен на 3.

Короче говоря, он работает, но исполнение было действительно, очень плохо. Вам определенно нужно использовать сжатие на вашем источнике, отобразить и уменьшить выходные данные, чтобы уменьшить ваши записи ввода-вывода, и если ссылки между сайтами используются для чего-либо еще, вы получите тайм-ауты при передаче данных. Окно TCP-окна фактически ограничивало бы нашу передачу примерно на 4 Мбит/с вместо потенциального 100 Мбит/с на линии 1 Гбит.

Сохраните головную боль и просто используйте задания distcp для репликации данных!

Смежные вопросы