2016-11-23 1 views
2

Данные OSM доступны в формате PBF. Для анализа этих данных имеются специализированные библиотеки (например, https://github.com/plasmap/geow).Файлы обработки (OSM) PBF в Spark

Я хочу сохранить эти данные на S3 и проанализировать данные в RDD как часть задания EMR.

Что такое простой способ достичь этого? Могу ли я извлечь файл на главный узел и обработать его локально? Если да, я бы создал пустой RDD и добавил к нему, поскольку потоковые события анализируются из входного файла?

ответ

1

Одним из решений было бы пропустить PBF. Одним из подходящих для Spark представлений является Паркет. В this blog post показано, как преобразовать PBF в Parquets и как загрузить данные в Spark.

Смежные вопросы