Мне нужно разобрать txt-файлы с разметкой xml в каталоге (я уже создал корпус с glob-файлом), но простой синтаксический анализ позволяет только один файл за один раз. Как настроить цикл для одновременного анализа всех файлов? Цель состоит в том, чтобы добавить эти файлы в Elasticsearch с помощью запросов. Это то, что я до сих пор:Парсировать весь каталог Etree Parse lxml
import json
import os
import re
from lxml import etree
import xmltodict
import glob
corpus=glob.glob('path/*.txt')
ns=dict(tei="http://www.tei-c.org/ns/1.0")
tree = etree.ElementTree(file='path/file.txt')
doc = {
"author": tree.xpath('//tei:author/text()', namespaces=ns)[0],
"title": tree.xpath('//tei:title/text()', namespaces=ns)[0],
"content": "".join(tree.xpath('//tei:text/text()', namespaces=ns))
}
вы спрашиваете, как написать цикл? –