2016-10-05 2 views
2

Каковы методы, которые можно использовать для оптимизации импорта sqoop? Я попытался использовать split по столбцу, чтобы включить параллелизм и увеличил количество картографов на основе объема данных таблицы. Будет ли изменение в Fair Scheduler из FIFO поможет? Заранее спасибо!Как оптимизировать импорт Sqoop?

sqoop import -D mapred.job.queue.name=$queuename -D mapred.job.name=$table_SQOOP_INITIAL_LOAD -D java.security.egd=file:/dev/../dev/urandom -D mapred.child.java.opts=" -Djava.security.egd=file:/dev/../dev/urandom" --driver com.teradata.jdbc.TeraDriver --connect jdbc:teradata://${sqoopSourceServer}/DATABASE=${sqoopSchema} --username ${sqoopUsername} --password ${sqoopPassword} --hive-import --hive-overwrite --hive-drop-import-delims --null-string '\\N' --null-non-string '\\N' --table "$table" --num-mappers 50 --split-by column --target-dir ${hdfsTargetDirectory}$table --hive-table ${hive_database}.$table 
+0

Проверить это http://www.xmsxmx.com/performance-tuning-data-load-in-hadoop-with-sqoop/ – BruceWayne

ответ

1

Я не пробовал, но я читал в книгах
Для некоторых баз данных вы можете воспользоваться в режиме прямой с помощью --direct параметра:

sqoop import \ 
--connect jdbc:mysql://mysql.example.com/sqoop \ 
--username sqoop \ 
--table cities \ 
--direct 

Надеюсь, что это Помогает

+0

Спасибо, Бхавеш! Ты прав. Тем не менее, я думаю, что его поставщик специфичен. – Holmes

+0

Если вам нравится мой ответ, проголосуйте за него :) – Bhavesh

0

Ниже приведены некоторые из общих методов улучшения производительности для Sqoop

  • разделенные на и краевой запрос
  • прямого
  • выборка размера
  • Num-картограф

    reference link

Смежные вопросы