У меня есть текст HTML, который выглядит как много экземпляров следующей структуры:Разбор много HTML документов с BeautifulSoup и Python
<DOC>
<DOCNO> XXX-2222 </DOCNO>
<FIRST>Reports Former Saigon Officials Released from Re-education Camp</FIRST>
<TEXT>
Lots of text here
</TEXT>
</DOC>
<DOC>
<DOCNO> YYYY-0001 </DOCNO>
<FIRST>AP-ONU-ISRAEL -URGENT-</FIRST>
<TEXT>
Text
</TEXT>
</DOC>
etc, etc...
Что мне нужно сделать, это индекс каждая структура, с DocNo, Во-первых, и текст , для последующего анализа (токенизация и т. д.).
Я думал об использовании BeautifulSoup, но мне нужно собрать несколько вещей вместе - как мне это сделать и связать их все?
Я хотел бы формат, такой как:
[(XXX-2222, "Reports Former Saigon Officials Released from Re-education Camp", "Lots of text here"), (YYYY-0001, "AP-ONU-ISRAEL -URGENT-", "Text"), etc...)
Спасибо!
S.
Это не HTML. Даже не близко! Может ли это быть * XML *? –
форматы файлов находятся в html, а сами файлы являются частью лингвистического корпуса. – user2070177
Я не понимаю - все, что вы разместили здесь, - это не * HTML. Вы спрашиваете нас, как анализировать HTML-код, который вы не показываете? Кроме того, где код, с каким * вы * попробовали? –