Кто-нибудь пытался проверить производительность узлов данных в нескольких центрах обработки данных? Особенно по сетям с небольшими трубами. Я не могу найти слишком много информации об этом, и информация, которую я нашел, либо старая (около 2010 года), либо проприетарная (похоже, DataStax что-то). Я знаю, что Hadoop поддерживает проверку стойки, но, как я уже сказал, я не видел никакой документации по настройке системы для нескольких центров обработки данных.Распределение узлов данных в нескольких центрах обработки данных
ответ
Я попробовал это с кластером DataNode размером 12 x, расположенным в соотношении 2: 1, разделенном между двумя центрами данных примерно на расстоянии 120 миль друг от друга. Задержка между центрами обработки данных составляла ~ 4 мс через 2 x 1GbE.
2 стойки были сконфигурированы на сайте A, 1 стойка, сконфигурированная на сайте B. Каждая «стойка» имела в ней 4 машины. Мы в основном тестировали сайт B как сайт «DR». Коэффициент репликации был установлен на 3.
Короче говоря, он работает, но исполнение было действительно, очень плохо. Вам определенно нужно использовать сжатие на вашем источнике, отобразить и уменьшить выходные данные, чтобы уменьшить ваши записи ввода-вывода, и если ссылки между сайтами используются для чего-либо еще, вы получите тайм-ауты при передаче данных. Окно TCP-окна фактически ограничивало бы нашу передачу примерно на 4 Мбит/с вместо потенциального 100 Мбит/с на линии 1 Гбит.
Сохраните головную боль и просто используйте задания distcp для репликации данных!
- 1. Распределение обработки данных Node.js
- 2. Размещение реплик в нескольких центрах обработки данных в cassandra
- 3. Безопасно ли использовать etcd в нескольких центрах обработки данных?
- 4. Приложение ASP.NET в нескольких центрах обработки данных - лучшая архитектура?
- 5. Список посещений узлов нескольких центров обработки данных
- 6. Apache Zookeeper: распределение узлов по центрам обработки данных
- 7. Несколько узлов Cassandra в разных центрах обработки данных на одном сервере
- 8. Получение доступного оборудования для BM во всех центрах обработки данных
- 9. Распределение узлов MassTransit RabbitMQ
- 10. SignalR, приборная панель и получать данные из рабочих в нескольких центрах обработки данных
- 11. Репликация данных между несколькими кластерами Hadoop, находящимися в разных центрах обработки данных
- 12. Python Ошибка обработки нескольких данных
- 13. Поддерживает ли Couchbase ключи в центрах обработки данных в любом конкретном порядке?
- 14. Распределение распределенных данных на hadoop
- 15. Распределение данных в распределенных базах данных
- 16. Разделение данных в Кассандре для нескольких датацентров с переменными данными
- 17. HTTP или HTTPS (SSL) для хранения Azure blob в центрах обработки данных Microsoft
- 18. Синхронизация 2 экземпляра NodeJS в двух отдельных центрах обработки данных с PostgresSQL
- 19. Может ли контент https быть кеширован в центрах обработки данных CDN?
- 20. Распределение данных Pyspark
- 21. Распределение данных по кругу
- 22. Использование Hadoop для обработки данных из нескольких источников данных
- 23. Распределение ежемесячных данных ежедневно
- 24. Распределение экспериментальных данных участка
- 25. Случайное распределение данных
- 26. Несколько центров обработки данных
- 27. распределение плотности круговых данных
- 28. Распределение драйверов базы данных
- 29. Распределение данных Flex datagrid