2016-08-15 2 views

ответ

8

происхождения данных это все о понимании происхождения и атрибуции данных. В типичной системе вы получаете «журналы». Когда вы рассматриваете данные, проходящие через последовательность процессов и очередей, вы, конечно, получаете много. Если вы хотите следовать по пути, которому занимался данный фрагмент данных, или сколько времени потребовалось, чтобы пройти этот путь, или что произошло с объектом, который был разделен на разные объекты и так далее, все это действительно трудоемко и тяжело. Происхождение, которое поддерживает NiFi, похоже на регистрацию на стероидах и связано с сохранением и отслеживанием этих взаимосвязей между данными и событиями, которые формировали и влияли на то, что с ним произошло. NiFi отслеживает, откуда берутся данные, что он узнал о данных, поддерживает трассировку между разбиениями, объединениями, преобразованиями, где он отправляет их, и в конечном счете, когда он отбрасывает данные. Подумайте об этом как о цепочке хранения данных.

Это действительно полезно по нескольким причинам. Во-первых, понимание и отладка. Имея этот захват процедентов из данного даже вы можете идти вперед или назад в потоке, чтобы увидеть, откуда и откуда пришли данные. Учитывая, что у NiFi также есть неизменяемое хранилище с версиями контента под обложками, вы также можете использовать его для прямого нажатия на контент на каждом этапе потока. Вы также можете воспроизводить контент и контекст данного события против последнего потока. Это, в свою очередь, означает гораздо более быструю итерацию конфигурации и результатов, которые вы хотите. Эта модель происхождения также ценна по причинам соблюдения. Вы можете проверить, отправили ли вы данные в правильные системы или нет. Если вы узнаете, что у вас тогда нет данных, с которыми вы можете решить проблему или создать мощный контрольный журнал для последующего наблюдения.

Модель происхождения в Apache NiFi действительно мощна и распространяется на Apache MiNiFi, который также является подпроектом Apache NiFi. Больше систем, производящих больше провенансов, будет означать, что у вас есть гораздо более сильная способность отслеживать данные из конца в конец. Конечно, это становится еще более мощным, когда его можно комбинировать с другими системами линий или централизованными хранилищами линий. Apache Atlas может быть отличной системой для интеграции с этим, чтобы получить централизованное представление. NiFi может не только выполнять то, что я описал выше, но и отправлять эти события в такой центральный магазин. Итак, волнующие времена для этого.

Надеюсь, что это поможет.

+0

Это очень полезно / –

Смежные вопросы