Я пытаюсь создать решение для управления данными (DM) с использованием большого объема данных, пройти через некоторые правила домена данных, заменить (обогатить), пометить ошибочные данные перед отправкой к нисходящей системе. Проверка правил & замена стоимости может быть чем-то простым, как допустимые пороговые числовые значения, которые должны удовлетворять элементы данных, к чему-то более сложному, как поиск с основными данными для пула доменов значений.# Apache-flink: использование для управления данными
Считаете ли вы, что Apache Flink может быть хорошим кандидатом для такой обработки? Могут ли быть флинковые операторы, определенные для поиска (с основными данными) для каждого кортежа, протекающего через него? Я думаю, что есть несколько недостатков использования Apache Flink для последнего вопроса - 1) поиск может быть блокирующей операцией, которая замедляет пропускную способность, 2) контрольная точка и сохранение состояния оператора не могут быть выполнены, если функции оператора должны извлекать основные данные из других мест.
Каковы мысли? Есть ли какой-нибудь другой инструмент в этом случае?
Thanks