Дано HTML ссылка какHTML Разложение связать текст и целевой
<a href="urltxt" class="someclass" close="true">texttxt</a>
как можно изолировать URL и текст?
Обновления
Я использую Beautiful Soup, и я не в состоянии понять, как сделать это.
Я сделал
soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url))
links = soup.findAll('a')
for link in links:
print "link content:", link.content," and attr:",link.attrs
я получить
*link content: None and attr: [(u'href', u'_redirectGeneric.asp?genericURL=/root /support.asp')]* ...
...
Почему я недостающее содержание?
редактировать: подробно остановился на 'застрял', как советовал :)
Есть вероятность, что с urllib.urlopen (url) возникнет проблема. Попробуйте распечатать это и посмотреть, что вы получаете. Это должен быть прямой HTML веб-страницы. – 2008-11-13 00:48:46
Кроме того, «застрял!» не очень описательна. Показать больше кода и что именно происходит неправильно. – 2008-11-13 01:05:04
Спасибо за дополнительную информацию, это значительно облегчило увидеть, что происходит. – 2008-11-13 02:31:42