Данные OSM доступны в формате PBF. Для анализа этих данных имеются специализированные библиотеки (например, https://github.com/plasmap/geow).Файлы обработки (OSM) PBF в Spark
Я хочу сохранить эти данные на S3 и проанализировать данные в RDD как часть задания EMR.
Что такое простой способ достичь этого? Могу ли я извлечь файл на главный узел и обработать его локально? Если да, я бы создал пустой RDD и добавил к нему, поскольку потоковые события анализируются из входного файла?