2016-11-06 3 views
0

Я совершенно не знаком с python и изучаю веб-сканирование.Загрузка целевой ссылки html в текстовые файлы

Я пытаюсь загрузить отдельную целевую ссылку в текстовых страницах. До сих пор мне удалось извлечь все целевые URL-адреса, которые мне нужны, но я понятия не имею, как загрузить все целевые HTML-тексты в нескольких файлах. В приведенном ниже коде показана только одна статья в нескольких файлах.

Может кто-нибудь мне помочь.

url = "" 
r = requests.get(url) 
data = r.text 
soup = BeautifulSoup(data, "lxml") 
link1 = soup2.find_all('a', href=re.compile("drupal_lists")) 

for t1 in link1: 
    print(t1.attrs['href']) 
link_data = requests.get(t.attrs['href']).text 

import io 
for i in link_data: 
    link_data 
    with io.open("file_" + str(i) + ".txt", 'w', encoding='utf-8') as f: 
     f.write(str(i)+link_data) 

ответ

0

В стиле кода, начиная с того момента, когда все меняется:

for i, t1 in enumerate(link1): # Get indices and data in one go 
    link_data = requests.get(t1.attrs['href']).text 
    with io.open("file_" + str(i) + ".txt", 'w', encoding='utf-8') as f: 
     f.write(link_data) # no str(i) because that would mess with the HTML 
Смежные вопросы