Я работаю с hadoop 1.1.1. поскольку я обрабатываю документы XML, я использую XmlInputFormat
, существующий в MAHOUT. Ясно, что должно быть назначено START_TAG
и END_TAG
. Такой процесс подходит для такого рода данных (однородным):Обработка гетерогенных документов XML в Hadoop
<lib>
<book> ... </book>
<book> ... </book>
<book> ... </book>
...
</lib>
Согласно тому, что я сказал, я назначить START_TAG=<book>
и END_TAG=</book>
. если документы или данные в форме ниже (гетерогенной *):
документ 1:
<lib>
<book> ... </book>
<article> ... </article>
<journal> ... </journal>
<www> ... </www>
...
</lib>
И Документ 2:
<Doc>
<paper> ... </paper>
<white_paper> ... </white_paper>
<report> ... </report>
<booklet> ... </booklet>
...
</Doc>
Как может Я назначаю START_TAG
и END_TAG
? Как этот вид данных может обрабатываться в hadoop?
Большого спасибо
для doc1 и doc2 является lib и doc корневым элементом документа XML или есть несколько экземпляров этих элементов, которые составляют документ? –
Мои документы формируются несколькими экземплярами. Вы можете найти его на веб-сайте ниже: [link] (http://research.cs.wisc.edu/niagara/data/) – user90723014
Имеют ли два (три, четыре?) Разные типы документов свои типы, закодированные в filename (doc1.lib.xml и doc2.doc.xml), или они смешиваются в одном документе xml? –