2015-08-12 5 views
0

Я не знаю, как достичь следующего абзаца с помощью BeautifulSoup и как извлечь конкретный текст, который я хочу. Поскольку я новичок в Python и BS4.BeautifulSoup как извлечь текст после <br> тег

Мой HTML выглядит следующим образом:

<div class="inner-content"> 
    <div class="bred"></div> 
    <div class="clrbth"></div> 
    <h1></h1> 
    <h4></h4> 
    ... 
    ... 
    ... 
    <p></p> 
    <p></p> 
    <p> 

<!--This text I don't want --> 

    Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book. 
    <br></br> 


<!-- The text I want to extract using BeautifulSoup--> 

    It is a long established fact that a reader will be distracted by the readable content of a page when looking at its layout. The point of using Lorem Ipsum is that it has a more-or-less normal distribution of letters, as opposed to using 'Content here, content here', making it look like readable English. Many desktop publishing packages and web page editors now use Lorem Ipsum as their default model text, and a search for 'lorem ipsum' will uncover many web sites still in their infancy. Various versions have evolved over the years, sometimes by accident, sometimes on purpose (injected humour and the like). 

    </p> 
    <p></p> 
    <p></p> 
    ... 
    ... 
    ... 
    <div class="bred"></div> 
    <div class="clrbth"></div> 
    <h1></h1> 
</div> 

Пожалуйста, скажите мне, как извлечь вышеупомянутый текст из моего HTML. Благодарю.

+0

'печати (''. Присоединиться (soup.find ('ш'). Next_siblings))' – styvane

+0

есть другой 'br' в других пунктах также. Можете ли вы рассказать мне, как добраться до третьего абзаца, а затем я могу использовать ваше заявление выше. –

ответ

4

Вы можете использовать метод find_all() и аргумент limit, чтобы получить третий тег p в вашем html. Затем используйте .find, которые возвращают первый тег br в третьем абзаце. Оттуда вы можете использовать метод .next_siblings, который возвращает generator object и функцию .join.

>>> third_p = soup.find_all('p', limit=3)[-1] 
>>> ''.join(third_p.find('br').next_siblings) 
Смежные вопросы