Привет, ребята У меня вопрос о регулярном выражении, мне нужна помощь litle о чем-то. Мой код выглядит следующим образом:Python regex on текстовый файл
# -*- coding: utf-8 -*-
import re
WEEKDAYS = ["nedjelja", "utorak", "četvrtak", "ponedjeljak", "subota", "srijeda", "petak"]:
with open('natio_geo_channel.xml', 'r') as input_file, \
open('nat.xml', 'w') as output_file:
for line in input_file:
for x in WEEKDAYS
line = line.replace("<para>" + x, "<date>")
line = re.sub(r"<para>\d{0}", "<start>", line)
line = re.sub(r"<start>\d{2}\.\d{2}\s/\s/", "</start>", line)
output_file.write(line)
Мой файл выглядит следующим образом:
<para>nedjelja1. rujna 2013.</para>
<para>06.00 na hrvatskom Zona gradnje: Izgradnja zelenog Pekinga</para>
<para>Kineske nevolje sa zagađenjem problem su s globalnim posljedicama. Pratite ekipu zelenih inženjera koji grade energetski učinkoviti Peking.</para>
То, что я сделал, я заменил сначала и в нем удалить Nedjelja тот хорошо. Но как я могу это сделать:
<start>06:00<start><title>Zona gradnje</title><sub>Izgradnja zelenog Pekinga</sub>
из этого <para>06.00 na hrvatskom Zona gradnje: Izgradnja zelenog Pekinga</para>
Можете ли вы дать мне несколько советов или мыслительные путь?
Так как именно это фрагмент кода, и один фрагмент XML, связанные с вашим вопросом ? –
Используйте синтаксический анализатор XML, например. встроенный ElementTree, и манипулировать DOM. Не используйте regex для анализа XML. – l4mpi
Пожалуйста, не комментируйте, если вы не знаете, что я делаю. Это не xml, это был .doc (word) doc, я не знаю ни одного преобразователя, который может конвертировать .doc в csv или xls. – Car