Обработка гетерогенных документов XML в Hadoop

Я работаю с hadoop 1.1.1. поскольку я обрабатываю документы XML, я использую XmlInputFormat, существующий в MAHOUT. Ясно, что должно быть назначено START_TAG и END_TAG. Такой процесс подходит для такого рода данных (однородным):Обработка гетерогенных документов XML в Hadoop

<lib> 
    <book> ... </book> 
    <book> ... </book> 
    <book> ... </book> 
    ... 
</lib>

Согласно тому, что я сказал, я назначить START_TAG=<book> и END_TAG=</book>. если документы или данные в форме ниже (гетерогенной *):

документ 1:

<lib> 
    <book> ... </book> 
    <article> ... </article> 
    <journal> ... </journal> 
    <www> ... </www> 
    ... 
</lib>

И Документ 2:

<Doc> 
    <paper> ... </paper> 
    <white_paper> ... </white_paper> 
    <report> ... </report> 
    <booklet> ... </booklet> 
    ... 
</Doc>

Как может Я назначаю START_TAG и END_TAG? Как этот вид данных может обрабатываться в hadoop?

Большого спасибо

источник

2013-05-22 user90723014

для doc1 и doc2 является lib и doc корневым элементом документа XML или есть несколько экземпляров этих элементов, которые составляют документ? –

Мои документы формируются несколькими экземплярами. Вы можете найти его на веб-сайте ниже: [link] (http://research.cs.wisc.edu/niagara/data/) – user90723014

Имеют ли два (три, четыре?) Разные типы документов свои типы, закодированные в filename (doc1.lib.xml и doc2.doc.xml), или они смешиваются в одном документе xml? –

глобальная онтология может быть использовано для динамического определения метки начала и конца, используемой различными типами документов. Разработка глобальной онтологии при работе с гетерогенными системами всегда должна быть приоритетной задачей, когда эти системы будут интегрированы.

источник

2013-08-06 21:05:19

Обработка гетерогенных документов XML в Hadoop

ответ

Смежные вопросы