Я пытаюсь использовать библиотеку Airflow Python. Я хочу, чтобы он периодически царапал веб-страницу.В Airflow Air Python, как я могу остановить выполнение задачи через определенное время?
Проблема, с которой я сталкиваюсь, заключается в том, что если мой start_date
есть несколько дней назад, когда я запустил планировщик, он будет засыхать с start_date
до сегодняшнего дня. Например:
Предположим, сегодня это 20-е число месяца.
Предположим, что start_date
- это пятнадцатого числа этого месяца.
Если я запустил планировщик 20-го числа, он будет царапать страницу 5 раз на 20-м. Он увидит, что экземпляр DAG должен был работать 15-го числа и будет запускать этот экземпляр DAG (тот, который будет показан на 15-м) 20-го числа. И тогда он будет запускать экземпляр DAG для 16-го числа 20-го и т. Д.
Вкратце, Airflow попытается «догнать», но это не имеет смысла для веб-соскабливания.
Есть ли способ заставить Airflow рассматривать экземпляр DAG сбой через определенное время?
По-видимому, это было добавлено в Airflow несколько месяцев назад в качестве нового 'LatestOnlyOperator' (найдено в http://stackoverflow.com/a/40578704/596167). –