Я пытаюсь очистить ссылку со страницы с большим количеством данных.Получение конкретной ссылки из исходного кода Python
Ссылка, которую я пытаюсь получить, имеет этот конкретный td (GIS 84F
), который никакой другой ссылки на странице не имеет. Это часть исходного кода, это очень длинный, поэтому я не могу разрезать по местоположению.
<tr class="blueRow">
<td nowrap="nowrap">GIS 84F</td>
<td nowrap="nowrap"><a href="/Archives/fsl/data/1288776/000130817915000157/0001308179-15-000157-index.htm" id="documentsbutton"> Documents</a></td>
<td class="small" >Other definitive proxy statements<br />Acc-no: 0001308179-15-000157 (34 Act) Size: 2 MB </td>
<td>2015-04-23</td>
<td nowrap="nowrap"><a href="/cgi-bin/browse-fsl?action=getcompany&filenum=001-36380&owner=exclude&count=40">001-36380</a><br>15788924 </td>
Моя попытка:
from bs4 import BeautifulSoup
import re
import urllib2
htmlpage = urllib2.urlopen('THELINK')
soup = BeautifulSoup(htmlpage.read())
for link in soup.findAll('GIS 84F'):
print link.get('href')
Спасибо!
Что вывод, что вы сейчас получаете? Было бы полезно узнать, какую ссылку вы пытаетесь очистить, чтобы протестировать текущий код. –