Использование BeautifulSoup, я стремлюсь, чтобы очистить текст, связанный с этим HTML крючке:Исключая нежелательные результаты FindAll с использованием BeautifulSoup
<p class="review_comment">
Таким образом, с помощью простого кода следующим образом,
content = page.read()
soup = BeautifulSoup(content)
results = soup.find_all("p", "review_comment")
I я счастливо разбираюсь с текстом, который здесь живет:
<p class="review_comment">
This place is terrible!</p>
Плохая новость заключается в том, что каждые 30 или около того времени soup.find_all
получает матч, он также соответствует и хватает что-то, что я действительно не хочу, который старый Обзорный пользователя о том, что они с тех пор обновлено:
<p class="review_comment">
It's 1999, and I will always love this place…
<a href="#" class="show-archived">Read more »</a></p>
В своих попытках исключить эти старые дубликаты отзывов, я попробовали меланхолию идей.
- Я пытался изменить аргументы в моем
soup.find_all()
вызове специально исключить любой текст, который приходит перед тем в<a href="#" class="show-archived">Read more »</a>
- Я утонул в Стационарный согласующего подвешенном Выражения типа не имели успеха.
- Я не могу использовать атрибут
class="show-archived"
.
Любые идеи были бы с благодарностью оценены. Заранее спасибо.
В «плохом совпадении новостей» это только тег и содержимое, которые вы не хотите, или хотите отклонить весь P? – msw
Да, «плохой новостной матч» - это старый обзор, и я хочу отказаться от всего этого. Одной из основных причин этого является то, что я также очистил информацию «# звезд», но неожиданно у меня больше отзывов, чем у звезд. –
Знаете ли вы о специальном способе написания [class_] (http://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-by-css-class) в файле soup.find()? – msw