Я написал сценарий python, который использует Selenium для очистки информации с веб-сайта и сохраняет ее в файле csv. Он хорошо работает на моем локальном компьютере, когда я его вручную выполняю, но теперь я хочу запускать скрипт автоматически один раз в час в течение нескольких недель и безопасно хранить данные в базе данных. Для запуска скрипта может потребоваться около 5-10 минут.Веб-скребок с Google Engine Engine Engine/App Engine
Я только что начал с Google Cloud, и похоже, что есть несколько способов его реализации с помощью Compute Engine или App Engine. До сих пор я застрял в определенном месте всеми тремя способами, которые я нашел до сих пор (например, получение запланированной задачи вызывает URL-адрес моего экземпляра backend и получение этого экземпляра для запуска скрипта). Я пытался:
- Выполнение сценария через вычислительный движок и использование хранилища данных или облака sql. Непонятно, можно ли легко настроить crontab.
- Использовать очереди задач и запланированные задачи в App Engine.
- Используйте экземпляр бэкэнд и запланированные задачи в App Engine.
Мне было бы интересно услышать от других то, что они рекомендуют в качестве самого легкого и наиболее подходящего способа, учитывая, что это действительно внутренний скрипт, который не нуждается в пользовательском интерфейсе.
Вы не можете запускать Selenium на чистом App Engine, кроме управляемого VM, что больше похоже на Compute Engine. В чем проблема с настройкой задания cron для запуска одного сценария на Compute Engine? Слишком много способов сделать это. –
@DmitrySadovnychyi, на самом деле Selenium запускается на GAE, если все, что вы делаете, это '.Remote' на внешнюю службу. –