0

Я написал сценарий python, который использует Selenium для очистки информации с веб-сайта и сохраняет ее в файле csv. Он хорошо работает на моем локальном компьютере, когда я его вручную выполняю, но теперь я хочу запускать скрипт автоматически один раз в час в течение нескольких недель и безопасно хранить данные в базе данных. Для запуска скрипта может потребоваться около 5-10 минут.Веб-скребок с Google Engine Engine Engine/App Engine

Я только что начал с Google Cloud, и похоже, что есть несколько способов его реализации с помощью Compute Engine или App Engine. До сих пор я застрял в определенном месте всеми тремя способами, которые я нашел до сих пор (например, получение запланированной задачи вызывает URL-адрес моего экземпляра backend и получение этого экземпляра для запуска скрипта). Я пытался:

  • Выполнение сценария через вычислительный движок и использование хранилища данных или облака sql. Непонятно, можно ли легко настроить crontab.
  • Использовать очереди задач и запланированные задачи в App Engine.
  • Используйте экземпляр бэкэнд и запланированные задачи в App Engine.

Мне было бы интересно услышать от других то, что они рекомендуют в качестве самого легкого и наиболее подходящего способа, учитывая, что это действительно внутренний скрипт, который не нуждается в пользовательском интерфейсе.

+0

Вы не можете запускать Selenium на чистом App Engine, кроме управляемого VM, что больше похоже на Compute Engine. В чем проблема с настройкой задания cron для запуска одного сценария на Compute Engine? Слишком много способов сделать это. –

+0

@DmitrySadovnychyi, на самом деле Selenium запускается на GAE, если все, что вы делаете, это '.Remote' на внешнюю службу. –

ответ

2

App Engine возможен, но только в том случае, если вы ограничиваете использование Selenium до .remote на сайт, такой как http://crossbrowsertesting.com/ - возможно, но беспорядочно.

Я бы использовал Compute Engine - и cron тривиально использовать на любом образ Linux, см., Например, http://www.thegeekstuff.com/2009/06/15-practical-crontab-examples/!

+0

Спасибо, Алекс. У меня есть сценарий и работает с crontab и GCE. Кстати, похоже, можно запустить селен с помощью «Virtual Framebuffer». Я нашел это сообщение: http://stackoverflow.com/questions/20032470/is-it-possible-to-run-selenium-scripts-using-google-compute-engine – phoxley