Я применил механизм рекомендаций, используя Python2.7 в Google Dataproc/Spark, и вам нужно сохранить вывод в виде записей в Datastore для последующего использования API-интерфейсом App Engine. Однако, похоже, нет способа сделать это напрямую.Сохранить данные из Dataproc в Datastore
Не существует соединителя Datastore для Python для Dataproc, насколько я могу судить. SDK Python Dataflow не поддерживает запись в Datastore (хотя Java-версия). MapReduce не имеет записи для Datastore.
Это не оставляет много вариантов. На данный момент я думаю, что мне придется записывать записи в Google Cloud Storage и иметь отдельную задачу, выполняемую в App Engine, чтобы собирать их и хранить в Datastore. Это не идеальное - согласование двух процессов имеет свои трудности.
Есть ли лучший способ получить данные из Dataproc в хранилище данных?
Кажется, что эта страница вводит в заблуждение. Из приведенных опций вариант 1 кажется невозможным, поскольку SDK Python Dataflow не поддерживает запись в Datastore, а опция 2 по крайней мере является непозволительно трудной, поскольку MapReduce ожидает, что ряд сервисов, которых нет в Dataproc (имитируя приложение служба идентификации, я отказался, когда MapReduce искал службу memcache). Вариант 3 возможен, но включает в себя синхронизацию другой задачи с AppEngine, которая не подходит для моего использования. Вариант 4 относится к входу из хранилища данных, а не к нему. – nanojack