2014-10-30 2 views
0

Я хочу, чтобы разобрать несколько файлов XML, имеющей структуру следующегоРазбор данные несколько файлов XML с помощью MapReduce

<parent tag property1='p1' xmlns:'sm link'> 
<Tag 1> tag 1 value </Tag 1> 
<Tag 2> tag 2 value </Tag 2> 
<Tag 3> 
<Tag 3.1> tag 3.1 value </Tag 3.1> 
</Tag 3> 
</parent tag> 

Я хочу написать код карты Уменьшить и сваливать анализируемые данные в HDFS (Hadoop 1.0). Также как передать несколько мух в одном экземпляре.

Любая помощь будет хорошей.

ответ

0

Для чтения данных XML можно использовать XmlInputFormat от mahaout.

И в классе драйвера задайте эти параметры конфигурации.

conf.set("xmlinput.start","<root")` 
conf.set("xmlinput.end", "</root>"); 
job.setInputFormatClass(XmlInputFormat.class); 

Скачать файл jar mahaout.

Рассматривайте каждый файл как строку и выполняйте обработку.

Для запуска нескольких файлов в качестве ввода, поместите все файлы в папку и укажите путь ввода в качестве пути к папке.

+0

Рассмотрите возможность обновления ответа с помощью соответствующих ссылок. – J0e3gan

Смежные вопросы