У меня есть файл csv
из нескольких десятков веб-страниц, которые я пытаюсь перекрыть.Python - Как экспортировать каждый элемент в список в отдельный текстовый файл
Целью является получение текста с веб-страницы, извлечение html-разметки (с использованием html2text
), а затем сохранение чистого текста в виде файла .txt
. Моя идея состояла в том, чтобы сохранить чистый текст каждой веб-страницы как элемент в списке, а затем экспортировать каждый элемент в список в файл txt.
Я могу заставить программу зациклиться на URL-адресах и вынуть html, но сохранение в отдельных файлах txt вызывает ошибку. Может ли кто-нибудь дать мне несколько идей о том, как это сделать?
Код:
from stripogram import html2text
import urllib
import csv
text_list = []
urls = csv.reader(open('web_links2.csv'))
for url in urls:
response = urllib.urlopen(url[0])
html = response.read()
text = html2text(html)
text_list.append(text)
print text_list
for item in text_list:
f = open('c:\users\jacob\documents\txt_files\%s.txt'%(item,), 'w')
f.write(item)
f.close
Что ошибка броска, и где это происходит? –