- Каким образом данные проходят между этапами? Казалось бы, все в памяти - я прав?
Поток данных основан на строке. Для трансформации каждый шаг создает «кортеж» или строку с полями. Каждое поле представляет собой пару данных и метаданных. Каждый шаг имеет вход и выход. Шаг принимает строки из ввода, изменяет строки и отправляет строки на выходы. В большинстве случаев вся информация содержится в памяти. Но. Шаги читают данные потоковым способом (например, jdbc или другие) - так обычно в памяти только часть данных из потока.
- Является ли вышеизложенное также о различных преобразованиях?
Существует концепция «работы» и концепция «трансформации». Все написанное выше в основном верно для трансформации. В основном - означает, что преобразование может содержать очень разные шаги, некоторые из них - например, шаги сбора - могут попытаться собрать все данные из потока. Рабочие места - это способ выполнить некоторые действия, которые не следуют концепции «потоковой передачи» - например, отправлять электронную почту на успех, загружать некоторые файлы из сети, выполнять разные преобразования поочередно.
- Как выполняются шаги сбора?
Это зависит только от конкретного шага. Как правило, как указано выше - сбор шагов может попытаться собрать все данные из потока - имея так - может быть причиной исключений OutOfMemory. Если данные слишком велики - рассмотрите шаги «собрать» с другим подходом к данным процесса (например, используйте шаги, которые не собирают все данные).
- Какие-либо конкретные рекомендации по использованию?
Много. Зависит от преобразования шагов, используются источники данных. Я попытался бы говорить о точном сценарии, а не общих рекомендациях.
- Является ли задача ftp надежной и эффективной?
Насколько я помню, FTP поддерживается реализацией EdtFTP, и там могут быть некоторые проблемы с этим шаги, как - некоторые параметры не сохраняются, или HTTP-прокси FTP не работает или другой. Я бы сказал, что Kettle в целом надежный и перфомант - но для некоторых не часто используемых сценариев - это может быть не так.
- Любые другие "Дос и Донты"?
Я бы сказал, что сделать - это понять инструмент, прежде чем начать использовать его интенсивно. Как упоминалось в этом обсуждении, есть пара литературы по интеграции данных Kettle/Pentaho, которые вы можете попробовать найти на определенных сайтах.
Одним из преимуществ Pentaho Data Integration/Kettle является относительно большое сообщество, которое вы можете задать для конкретных аспектов.
http://forums.pentaho.com/
https://help.pentaho.com/Documentation