2013-11-26 3 views
9

я наткнулся мини-учебника для данных предварительной обработки с помощью искры здесь: http://ampcamp.berkeley.edu/big-data-mini-course/featurization.htmlКак читать XML-файлы из фреймворка apache?

Однако это обсуждается только Textfile разбора. Есть ли способ разбора xml-файлов из искровой системы?

ответ

3

Я не использовал его сам, но путь был бы таким же, как вы это делали для hadoop. Например, вы можете использовать StreamXmlRecordReader и обрабатывать xmls. Причина, по которой вам нужен считыватель записей, заключается в том, что вы хотите контролировать границы записей для каждого обработанного элемента, иначе используемый по умолчанию будет обрабатывать строку, поскольку он использует LineRecordReader. Было бы полезно познакомиться с концепцией recordReader в hadoop.

И, конечно же, вам придется использовать методы hadoopRDD SparkContext или hadoopFile с возможностью передать InputFormatClass. Incase java - ваш предпочтительный язык, аналогичные альтернативы существуют.

4

Похоже, что кто-то создал источник данных xml для искры apache.

https://github.com/databricks/spark-xml

Это поддерживает для чтения XML-файлов, указав теги и вывод типов, например,

import org.apache.spark.sql.SQLContext 

val sqlContext = new SQLContext(sc) 
val df = sqlContext.read 
    .format("com.databricks.spark.xml") 
    .option("rowTag", "book") 
    .load("books.xml") 

Вы также можете использовать его с spark-shell, как показано ниже:

$ bin/spark-shell --packages com.databricks:spark-xml_2.11:0.3.0 
+0

я просто редактировал этот ответ. Извините за мое плохое и, пожалуйста, извините это (на самом деле это был мой самый первый ответ). –

1

Другой вариант Flexter данных Освободитель. Это инструмент, который полностью автоматизирует processing of XML on Spark и генерирует выходные данные как паркет, таблицы в RDBMS, TSV и т. Д., Которые являются идеальными форматами данных для анализа данных и последующей обработки, например. в хранилище данных или в контексте бизнес-аналитики.

+0

Предлагаю вам добавить отказ от ответственности, что вы являетесь соучредителем этой компании. – Davos

0

Посмотрите на это link.

Databrics предоставляет библиотеку spark-xml для обработки данных xml через искру.

Спасибо.

Смежные вопросы