2013-05-22 4 views
1

Я работаю с hadoop 1.1.1. поскольку я обрабатываю документы XML, я использую XmlInputFormat, существующий в MAHOUT. Ясно, что должно быть назначено START_TAG и END_TAG. Такой процесс подходит для такого рода данных (однородным):Обработка гетерогенных документов XML в Hadoop

<lib> 
    <book> ... </book> 
    <book> ... </book> 
    <book> ... </book> 
    ... 
</lib> 

Согласно тому, что я сказал, я назначить START_TAG=<book> и END_TAG=</book>. если документы или данные в форме ниже (гетерогенной *):

документ 1:

<lib> 
    <book> ... </book> 
    <article> ... </article> 
    <journal> ... </journal> 
    <www> ... </www> 
    ... 
</lib> 

И Документ 2:

<Doc> 
    <paper> ... </paper> 
    <white_paper> ... </white_paper> 
    <report> ... </report> 
    <booklet> ... </booklet> 
    ... 
</Doc> 

Как может Я назначаю START_TAG и END_TAG? Как этот вид данных может обрабатываться в hadoop?

Большого спасибо

+0

для doc1 и doc2 является lib и doc корневым элементом документа XML или есть несколько экземпляров этих элементов, которые составляют документ? –

+0

Мои документы формируются несколькими экземплярами. Вы можете найти его на веб-сайте ниже: [link] (http://research.cs.wisc.edu/niagara/data/) – user90723014

+0

Имеют ли два (три, четыре?) Разные типы документов свои типы, закодированные в filename (doc1.lib.xml и doc2.doc.xml), или они смешиваются в одном документе xml? –

ответ

0

глобальная онтология может быть использовано для динамического определения метки начала и конца, используемой различными типами документов. Разработка глобальной онтологии при работе с гетерогенными системами всегда должна быть приоритетной задачей, когда эти системы будут интегрированы.

Смежные вопросы