Я искал всю ночь, но я все еще не уверен, как выполнить эту работу. Я новичок в python, поэтому, пожалуйста, простите меня сначала, если я задаю несколько простых вопросов.Очистка .html отчетов и экспорт в виде файлов .txt
У меня есть три тысячи .html-файлов (все новое описание продукта, загруженное с доверенного веб-сайта), хранящиеся в одной папке, теперь я хотел бы очищать эти файлы один за другим (т. Е. Поддерживать только содержание/описание продукта и удалять теги и т. д.), а затем хранить каждый контент в виде одного файла .txt.
После прочтения нескольких Q & Как я уже писал, мне нужно использовать пакет lxml вместо красивого супа, потому что все файлы .html принадлежат высоконадежному источнику. Тем не менее, я не знаю, какую команду/параметр использовать в lxml я должен использовать, не могли бы вы любезно сообщить мне?
Спасибо, но есть ли способ автоматизировать весь процесс, т. Е. Мне не нужно каждый раз копировать «xpath» для нового документа? У меня больше 3000 файлов, еще раз спасибо – fccog
Если у вас есть они в файле, и все они следуют стандартным именам (file1.html, file2.html и т. Д.), Запустите весь этот скрипт внутри цикла for. Не забудьте импортировать os или запросы в зависимости от того, получаете ли вы его с жесткого диска или онлайн соответственно. – santybm