2016-01-27 2 views
0

Я создал сценарий для получения каждого тега H1 со всех 76 страниц веб-сайта. Но в этом процессе моя программа копирует очень конкретную строку «Текущие события в январе 2015 года», так как эта строка присутствует на каждой странице. Могу ли я редактировать код, чтобы его можно было распечатать 1 раз?Удаление повторяющегося содержимого тегов с помощью BeautifulSoup

Вот мой код:

from bs4 import BeautifulSoup as bs 
import urllib 


for i in range(2,77): 
    url1="http://currentaffairs.gktoday.in/month/current-affairs-january-2015/"+"page/"+str(i) 
    soup = bs(urllib.urlopen(url1)) 
    for link in soup.findAll('h1'): 
     print link.string 

Here is the Screenshot of the output

Спасибо заранее.

ответ

0
from bs4 import BeautifulSoup as bs 
import urllib 


for i in range(2,77): 
    url1="http://currentaffairs.gktoday.in/month/current-affairs-january-2015/"+"page/"+str(i) 
    soup = bs(urllib.urlopen(url1)) 
    uLinks = soup.findAll('h1') 
    for index, item in enumerate(uLinks): 
      if i == 2:     
       print(item.string)     
      if i != 2: 
       if index != 0:            
         print(item.string) 
+0

спасибо. Он отлично работал. –

Смежные вопросы