Я написал код, чтобы извлечь URL-адрес и название книги, используя BeautifulSoup
со страницы.Извлечение содержимого <a> tag
Но это не извлекая название книги Astounding Истории Супер-Наука апреля 1930 между >
и </a>
тегов.
Как я могу извлечь название книги?
Я попробовал метод findnext
, рекомендованный в другом вопросе, но я получаю AttributeError
.
HTML:
<li>
<a class="extiw" href="//www.gutenberg.org/ebooks/29390" title="ebook:29390">Astounding Stories of Super-Science April 1930</a>
<a class="image" href="/wiki/File:BookIcon.png"><img alt="BookIcon.png" height="16" src="//www.gutenberg.org/w/images/9/92/BookIcon.png" width="16"/></a>
(English)
</li>
код ниже:
def make_soup(BASE_URL):
r = requests.get(BASE_URL, verify = False)
soup = BeautifulSoup(r.text, 'html.parser')
return soup
def extract_text_urls(html):
soup = make_soup(BASE_URL)
for li in soup.findAll('li'):
try:
try:
print li.a['href'], li.a['title']
print "\n"
except KeyError:
pass
except TypeError:
pass
extract_text_urls(filename)
свяжите страницу, которую вы пытаетесь, чтобы очистить. –
Также непонятно, что такое метод findnext. –
страница, которую я пытаюсь очистить: https://www.gutenberg.org/wiki/Science_Fiction_(Bookshelf) – Sam