Я использую рамки суп Beauitful, чтобы извлечь ссылку (HREF из приведенного ниже содержания HTML)Python HTML парсинг с помощью BeautifulSoup рамки
<div class="store">
<label>Store</label>
<span>
<a title="Open in Google Play" href="https://play.google.com/store/apps/details?id=com.opera.mini.android" target="_blank">
<!-- ><span class="ui-icon app-store-gp"></span> -->
Google Play
</a><i class="icon-external-link"></i>
</span>
</div>
Я использовал следующий код, чтобы получить это в Python:
pageFile = urllib.urlopen("appannie.com/apps/google-play/app/com.opera.mini.android")
pageHtml = pageFile.read()
pageFile.close()
print pageHtml
soup = BeautifulSoup("".join(pageHtml))
item = soup.find("a", {"title":"Open in Google Play"})
print item
Я получаю NoneType в качестве вывода. Любая помощь будет действительно велика.
я распечатал страницу HTML и вывод был следующим:
<html>
<head><title>503 Service Temporarily Unavailable</title></head>
<body bgcolor="white">
<center><h1>503 Service Temporarily Unavailable</h1></center>
<hr><center>nginx</center>
</body>
</html>
Он отлично работает в браузере
«503 сервис временно недоступен» Так что это не проблема BeautifulSoup, а серверная ... вы уверены, что правильно запрашиваете страницу? Попробуйте установить общий пользовательский агент, например, ваш браузер, и посмотрите, все ли это делает. –