Я прочесывал код HTML следующей таблицы. Я хотел бы очистить только ссылку, связанную с каждым элементом таблицы, как я могу это сделать?Scrape URLS with BeautifulSoup
Вот мой код:
import urllib2
from bs4 import BeautifulSoup
first=urllib2.urlopen("http://www.admision.unmsm.edu.pe/res20130914/A.html").read()
soup=BeautifulSoup(first)
for tr in soup.find_all('tr')[2:]:
tds = tr.find_all('td')
print tds
Результат таков:
[<td><a href="./A/013/0.html">ENFERMERÍA</a></td>]
[<td><a href="./A/0141/0.html">TEC. MED. LAB. CLÍNICO Y ANATOMÍA PATOLÓGICA</a></td>]
[<td><a href="./A/0142/0.html">TEC. MED. TERAPIA FÍSICA Y REHABILITACIÓN</a></td>]
[<td><a href="./A/0143/0.html">TEC. MED. RADIOLOGÍA</a></td>]
Этот вывод не похож на выходе питона массива? Вы скопировали его правильно? –
Кроме того, я редко использую beautifulSoup, но учитывая то, что у вас есть, почему бы просто не использовать 'links = td.find_all ('a')', чтобы получить ссылки в ячейках? –