Я использую urllib2
модуль в Python, чтобы принести какую-то информацию из тегов привязки некоторых URLs как http://www.google.co.in/
, ниже приведен кодСоздать список кортежей из списка в Python
import urllib2
import urlparse
from BeautifulSoup import BeautifulSoup
url = "http://www.google.co.in/"
page = urllib2.urlopen(url)
html = page.read()
page.close()
soup = BeautifulSoup(html)
for tag in soup.findAll('a', href=True):
text = tag.text
tag['href'] = urlparse.urljoin(url, tag['href'])
print ' '.join([text,tag['href']])
результат:
Web History http://www.google.co.in/history/optout?hl=en
Settings http://www.google.co.in/preferences?hl=en
Sign in https://accounts.google.com/ServiceLogin?hl=en&continue=http://www.google.co.in/
Advanced search http://www.google.co.in/advanced_search?hl=en-IN&authuser=0
Language tools http://www.google.co.in/language_tools?hl=en-IN&authuser=0
.......................
Теперь его хорошо, но я хочу, чтобы хранить информацию в виде списка кортежей, как показано ниже
[('Web History','http://www.google.co.in/history/optout?hl=en'),('Settings','http://www.google.co.in/preferences?hl=en'),('Sign in','https://accounts.google.com/ServiceLogin?hl=en&continue=http://www.google.co.in/')................]
Так может кто-нибудь, дайте мне знать, как мы форматировать данные, поступающие из за петли, как описано выше список кортежей
Не будет ли диктовать лучше? (для хранения) – pradyunsg