Файлы обработки (OSM) PBF в Spark

Данные OSM доступны в формате PBF. Для анализа этих данных имеются специализированные библиотеки (например, https://github.com/plasmap/geow).Файлы обработки (OSM) PBF в Spark

Я хочу сохранить эти данные на S3 и проанализировать данные в RDD как часть задания EMR.

Что такое простой способ достичь этого? Могу ли я извлечь файл на главный узел и обработать его локально? Если да, я бы создал пустой RDD и добавил к нему, поскольку потоковые события анализируются из входного файла?

источник

2016-11-23 Synesso

Одним из решений было бы пропустить PBF. Одним из подходящих для Spark представлений является Паркет. В this blog post показано, как преобразовать PBF в Parquets и как загрузить данные в Spark.

источник

2017-09-28 13:50:29

Файлы обработки (OSM) PBF в Spark

ответ

Смежные вопросы