Может кто-нибудь сказать мне, как быстро SQOOP может передать 2 миллиарда записей за один раз. И я знаю, что он должен быть быстрым, потому что sqoop запускается параллельно, где будут создаваться некоторые входы и некоторый файл Output на Hadoop. но я хочу знать детали скорости передачи данных MapReduce объемом 2 миллиарда записей за один раз.Как быстро SQOOP может переходить из РСУБД в Hadoop?
ответ
Вам необходимо понять пункты, ответственные за более быструю передачу данных из РСУБД в Hadoop.
Количество картопостроителей:
Увеличение количества картографов увеличит вашу скорость, потому что она делит задачу на части и выполняет импорт параллельно.
Сбалансированная нагрузка на Картостроители:
Вам нужно разделить на столбец, который является однородным (предпочитают целое число). Это даст сбалансированную нагрузку всем картографам, и передача будет быстрее.
Количество соединения с RDBMS:
Вы не можете просто слепо увеличить количество картографов (например, 100 или более). Ваша РСУБД должна разрешать эти параллельные соединения, иначе это будет узким местом со стороны РСУБД.
Используйте
--Direct
режим:Если прямой разъем обеспечивается sqoop для конкретной СУБД, вы должны использовать его. Это сделает передачу быстрее.
В двух словах, sqoop достаточно быстро, чтобы Tranfer миллиардов записи просто держать эти моменты в вашем уме во время записи команды импорта.
Вы не указали сеть и RDMS как ограничивающие факторы, мы (это пример реальной жизни) имеют удаленный кластер, и он имеет ограниченную полосу пропускания, в результате он ограничивает максимальную скорость передачи и ничего не делает отметил, что это поможет. RDMS также имеет значение, является ли это системой с одним узлом или распределенной, насколько сильно она загружена? – MaxNevermind
@MaxNevermind Я согласен с тобой. вы можете еще один ответ упомянуть другие моменты .. :) –
- 1. Миграция из РСУБД в Кассандру
- 2. Время, затраченное на импорт 100 Гб данных из РСУБД в hadoop с использованием Sqoop
- 3. Как импортировать таблицу из РСУБД в HDFS в формате Zebra с помощью Sqoop?
- 4. Oracle Hadoop Connectors vs Sqoop
- 5. Sqoop импорт для Hadoop 2.5.0
- 6. sqoop hadoop-mapreduce не существует
- 7. Как загрузить данные из hadoop в solr с помощью sqoop?
- 8. HDFS в РСУБД с использованием Sqoop - создание таблицы
- 9. Установка Sqoop с hadoop 2.2.0?
- 10. Sqoop Импорт из Mysql в Hadoop hdfs Использование Java
- 11. Может ли экспорт Sqoop создать новую таблицу?
- 12. Извлечение записи с помощью SQOOP в Hadoop
- 13. hadoop sqoop загрузить csv файл в mysql
- 14. Может Infinispan действовать как замена обычной РСУБД
- 15. Прямой импорт из Oracle в Hadoop с использованием Sqoop
- 16. Запланированная загрузка данных в Hadoop
- 17. Какая версия Sqoop работает с Hadoop 1.0.4?
- 18. Можем ли мы использовать Sqoop для перемещения любого файла структурированных данных отдельно от перемещения данных из РСУБД?
- 19. Aster Database для Hadoop с помощью Sqoop
- 20. Stratio Sqoop жалуется на отсутствие Hadoop библиотеки
- 21. Sqoop & Hadoop - Как присоединиться/объединить старые данные и новые данные, импортированные Sqoop в режиме lastmodified?
- 22. Очистка каталога/tmp/sqoop-hadoop/compile/
- 23. Есть ли какие-либо способы для перехода из РСУБД в HDFS, кроме SQOOP?
- 24. Sqoop: обрезать таблицу SQL Server перед экспортом данных из Hadoop
- 25. Hadoop Sqoop export to Teradata Error
- 26. Какая версия Sqoop работает с Hadoop 0.20.2?
- 27. Как команда Sqoop append будет работать в hadoop
- 28. Как передавать данные из Mongodb в Hadoop
- 29. Ввод данных мэйнфрейма в Hadoop с использованием Sqoop
- 30. Утилита tdimport не может импортировать данные из teradata в hadoop
Это зависит от количества отправителей, назначенных для этой работы. Например, если автономный (одиночный) процесс занимает 4 минуты для передачи данных, Sqoop с 4 картами займет менее 1 минуты. –