2009-10-15 7 views
4

Где я могу найти архитектуру Pentaho Kettle? Я ищу короткую вики, дизайн-документ, сообщение в блоге, что-нибудь, чтобы дать хороший обзор того, как все работает. Этот вопрос не предназначен для конкретных «как» начинающих руководств, а является хорошим видом на технологию и архитектуры .Где находится архитектура Pentaho Kettle?

Конкретные вопросы у меня есть следующие:

  1. Как поток данных между этапами? Казалось бы, все в памяти - я прав?
  2. Является ли вышеизложенное также о различных преобразованиях?
  3. Как делать Собрать шагов по выполнению?
  4. Какие-либо конкретные рекомендации по использованию?
  5. Является ли задача ftp надежной и эффективной?
  6. Любые другие "Дос и Донты"?

ответ

0
  1. Каким образом данные проходят между этапами? Казалось бы, все в памяти - я прав?

Поток данных основан на строке. Для трансформации каждый шаг создает «кортеж» или строку с полями. Каждое поле представляет собой пару данных и метаданных. Каждый шаг имеет вход и выход. Шаг принимает строки из ввода, изменяет строки и отправляет строки на выходы. В большинстве случаев вся информация содержится в памяти. Но. Шаги читают данные потоковым способом (например, jdbc или другие) - так обычно в памяти только часть данных из потока.

  1. Является ли вышеизложенное также о различных преобразованиях?

Существует концепция «работы» и концепция «трансформации». Все написанное выше в основном верно для трансформации. В основном - означает, что преобразование может содержать очень разные шаги, некоторые из них - например, шаги сбора - могут попытаться собрать все данные из потока. Рабочие места - это способ выполнить некоторые действия, которые не следуют концепции «потоковой передачи» - например, отправлять электронную почту на успех, загружать некоторые файлы из сети, выполнять разные преобразования поочередно.

  1. Как выполняются шаги сбора?

Это зависит только от конкретного шага. Как правило, как указано выше - сбор шагов может попытаться собрать все данные из потока - имея так - может быть причиной исключений OutOfMemory. Если данные слишком велики - рассмотрите шаги «собрать» с другим подходом к данным процесса (например, используйте шаги, которые не собирают все данные).

  1. Какие-либо конкретные рекомендации по использованию?

Много. Зависит от преобразования шагов, используются источники данных. Я попытался бы говорить о точном сценарии, а не общих рекомендациях.

  1. Является ли задача ftp надежной и эффективной?

Насколько я помню, FTP поддерживается реализацией EdtFTP, и там могут быть некоторые проблемы с этим шаги, как - некоторые параметры не сохраняются, или HTTP-прокси FTP не работает или другой. Я бы сказал, что Kettle в целом надежный и перфомант - но для некоторых не часто используемых сценариев - это может быть не так.

  1. Любые другие "Дос и Донты"?

Я бы сказал, что сделать - это понять инструмент, прежде чем начать использовать его интенсивно. Как упоминалось в этом обсуждении, есть пара литературы по интеграции данных Kettle/Pentaho, которые вы можете попробовать найти на определенных сайтах.

Одним из преимуществ Pentaho Data Integration/Kettle является относительно большое сообщество, которое вы можете задать для конкретных аспектов.

http://forums.pentaho.com/

https://help.pentaho.com/Documentation

Смежные вопросы