2016-10-25 5 views
1

Я использовал Sqoop для сбора данных от Oracle до Hadoop, и это сработало хорошо. Прошло всего 4 минуты, чтобы собрать 86 миллионов записей из Oracle в таблицу Hive без использования разделов на Sqoop. Может кто-нибудь дать некоторые подробности о разъемах Oracle Hadoop, будет ли он работать лучше, чем Sqoop?Oracle Hadoop Connectors vs Sqoop

+0

Согласно документации Oracle: Oracle Loader for Hadoop - это программа MapReduce, которая работает в кластере Hadoop для предварительной обработки данных. Он может разбивать, сортировать и преобразовывать данные в типы данных Oracle при подготовке к загрузке. Это разгружает некоторые циклы базы данных на Hadoop, так что при загрузке используется меньший процессор ЦП. В онлайн-режиме предварительно обработанные данные непосредственно загружаются в базу данных. В автономном режиме Oracle Loader for Hadoop записывает предварительно обработанные данные в виде файлов данных накачки на HDFS. В онлайн-режиме есть два варианта загрузки, JDBC и прямой путь. –

ответ

0

Большинство соединителей будут иметь производительность, близкую к той же, что и у вас есть набор заданий MapReduce в самом конце рабочего процесса, и это будет играть основную роль в вашей общей производительности.

Oracle предоставляет набор различных разъемов для доступа к улей, и вы могли бы проверить хороший обзор о стандартных решениях, но я сомневаюсь, что на самом конце вы будете ожидать значительные различия в производительности другие, то вы видите Sqoop:

https://docs.oracle.com/cd/E37231_01/doc.20/e36961/start.htm#BDCUG119

Sqoop - это общий инструмент для работы с реляционными базами данных из области Hadoop, и это не ограничивается только Oracle. Кроме того, он имеет интеграцию с другими решениями Hadoop, такими как Oozie, для создания сложных рабочих процессов, что делает его хорошим кандидатом на другие типы разъемов.

Лично я предпочитаю Sqoop для операций импорта-экспорта с поддержкой Hadoop и подхода к подключению для запроса данных в Hadoop.

0

Sqoop будет использовать стандартное соединение JDBC. Коннектор Oracles будет работать с классом fastloader/fastexport, интегрированным в соединение sqoop. Это должно быть быстрее, чем Sqoop.

Смежные вопросы