Я ищу использовать BeautifulSoup для анализа текстов на тип веб-страницы и коды ниже:Python: разбор текстов между ключевыми словами
import urllib
import re
html = urllib.urlopen('http://english.hani.co.kr/arti/english_edition/e_national/714507.html').read()
content= str(soup.find("div", class_="article-contents"))
Так что моя цель состоит в том, чтобы разобрать по крайней мере, первое предложение или первый несколько предложений в первом абзаце.
Поскольку абзацы не окружены <p>
тегом, моя лучшая стратегия до сих пор найти, в пределах содержания, тексты, которые идут между </h4>
и <p>
(что случается, первый абзац)
Вот как целевые тексты выглядеть следующим образом:
<div class="article-contents">
<div class="article-alignC">
<table class="photo-view-area">
<tr>
<td>
<img alt="" border="0" src="http://img.hani.co.kr/imgdb/resize/2015/1024/00542577201_20151024.JPG" style="width:590px;"/>
</td>
</tr>
</table>
</div>
<h4></h4>
(Это где содержимое Я хочу разобрать, между <h4>
и <p>
) <p align="justify"></p>
Я пытаюсь сделать это прямо на BeautifulSoup или использовать регулярное выражение, но до сих пор я до сих пор не увенчался успехом.
Спасибо, хотя и не обязательно здесь, это хорошо знать (текст = истина)! –
Еще один вопрос: есть ли способ вернуть второй абзац вместо первого в той же настройке? –
@carl_pch не тестировались, но попробуйте: 'h4.find_next_siblings (text = True) [1]'. – alecxe