Я работаю над тем, что требует от меня получить все URL-адреса на странице. Кажется, это работает на большинстве веб-сайтов, которые я тестировал, например, microsoft.com, но он возвращает только три из google.com. Вот соответствующий исходный код:Получить все URL-адреса на странице Python
import urllib
import time
import re
fwcURL = "http://www.microsoft.com" #URL to read
mylines = urllib.urlopen(fwcURL).readlines()
print "Found URLs:"
time.sleep(1) #Pause execution for a bit
for item in mylines:
if "http://" in item.lower(): #For http
print item[item.index("http://"):].split("'")[0].split('"')[0] # Remove ' and " from the end, for example in href=
if "https://" in item.lower(): #For https
print item[item.index("https://"):].split("'")[0].split('"')[0] # Ditto
Если мой код может быть улучшен, или, если есть лучший способ сделать это, пожалуйста, ответьте. Заранее спасибо!
Вы пробовали BeautifulSoup? –
Получение всех URL-адресов на странице в основном является пауком ... – gabeio