2016-01-27 2 views
0

Я хочу удалить дубликат url из файла со списком url. она имеет «http://www.naver.com/나눔글꼴.jpg» и они повторяют .. вот мой код:Удалить дубликат url python beautifulsoup

from bs4 import BeautifulSoup 
import lxml 
import re 
import urllib.request 

p = re.compile('나눔글꼴') 
html = 'http://www.naver.com' 
data = urllib.request.urlopen("http://www.naver.com").read() 

soup = BeautifulSoup(data, 'lxml') 
links = p.findall(str(soup)) 

i = set() 
for i in links: 
    link = 'http://www.naver.com/' + str(i) + '.jpg'   
    print(link) 
+1

Вы забыли включить ваш код – jasonszhao

+0

хорошо я сделал заново -загрузить –

ответ

0

Вы забыли внести свой вклад в set() метода:

soup = BeautifulSoup(data, 'lxml') 
links = p.findall(str(soup)) 

i = set(links) 
for x in i: 
    link = 'http://www.naver.com/' + str(x) + '.jpg'   
    print(link) 
Смежные вопросы