2014-11-18 12 views
0

Может ли кто-нибудь сообщить мне, как самый быстрый способ загрузить объемные данные, примерно около 30 терабайт в Marklogic. Markstudio или mclp по-прежнему являются опцией в рабочей среде. Как другие загружают большие данные в Marklogic.Массовая загрузка данных в Marklogic

ответ

2

MLCP должен в принципе работать, но вы можете уменьшить масштаб транзакции. 30 терабайт - это много, поэтому убедитесь, что у вас есть кластер MarkLogic, готовый для такого размера, и немного терпения. Сначала запустите некоторый тест с несколькими небольшими (er) наборами.

1

При больших нагрузках данных способность клиента накачивать достаточное количество данных в кластер часто является узким местом. Даже с несколькими потоками на многоядерном хосте вы все равно будете конкурировать за ресурсы. Если у вас есть кластер HDFS или другое разделяемое хранилище, мы обнаружили, что вы можете улучшить распараллеливание, поставив данные в HDFS и выполнив распределенное задание mlcp, которое записывается непосредственно из узлов данных в D-узлы MarkLogic.