BeautifulSoup найти все вхождения определенного текста

Я буду анализировать множество сайтов с различными htmls, и я пытаюсь найти все строки, содержащие определенный текст (внутри html), используя BeautifulSoup.BeautifulSoup найти все вхождения определенного текста

r = requests.get(url) 
soup = BeautifulSoup(r.content, "lxml")    
for text in soup.find_all(): 
    if "price" in text: 
     print text

Этот подход не работает (хотя «цена» упоминается более 40 раз в html). Может быть, есть еще лучший подход к этому?

источник

2015-10-16 Nema Ga

Есть причина, почему вы хотите использовать 'BeautifulSoup' ? Похоже, что если вы просто хотите, чтобы строки, содержащие цену, было проще смотреть напрямую в данные ответа. Какова конечная цель? – Jkdc

Почему не позволяют BeautifulSoup найти вам узлы, содержащие нужный текст:

for node in soup.find_all(text=lambda x: x and "price" in x): 
    print(node)

источник

2015-10-16 17:32:20 alecxe

Как и идея, но код выше не работает, я изменил print (py 2.7), я забыл что-нибудь еще :)? ура –

Чтобы извлечь весь текст из заданного URL, вы можете просто использовать что-то вроде:

r = requests.get(url) 
soup = BeautifulSoup(r.content, "lxml")    

for element in soup.findAll(['script', 'style']): 
    element.extract() 

text = soup.get_text()

Этом также удалит возможный нежелательный текст внутри разделов script и style. Затем вы можете искать требуемый текст, используя это.

источник

2015-10-16 17:50:52

вы не должны использовать красивый суп, чтобы найти конкретный текст в HTML вместо этого вы можете использовать запрос, что для бывших:

r = requests.get(url) 
if 'specific text' in r.content: 
    print r.content

источник

2015-10-18 06:20:58

BeautifulSoup найти все вхождения определенного текста

ответ

Смежные вопросы