Исключая набор слов в HTML-ключевом ключевом поиске

Я работаю над программой, которая создает теги для кодов HTML. Программа работает следующим образом:Исключая набор слов в HTML-ключевом ключевом поиске

случайной выборки URL выбран
С BeautifulSoup, он ползет, чтобы найти все связанные с URL, связанные с URL образца
Преобразовать все HTML коды URL-адресов находится в точке N: 2 в текст с помощью requests.get(url).text
Выполните поиск текста для набора предопределенных ключевых слов
Отметить как 1, если определенное ключевое слово встречается и 0, если не найден

Моя проблема заключается в том, что при выполнении поиска по HTML-коду, который уже преобразован в текст, я не могу исключить любой раздел, содержащий "src = http://....", так как он варьируется на разных сайтах. Это делает некоторые ключевые слова неуместными.

Есть ли способ исключить любые слова, начинающиеся с "src" в таких случаях? Или существует ли какой-либо другой метод поиска по ключевым словам для преодоления этого?

источник

2015-08-10 spider1987

Я думаю, что ваша проблема связана с шагом № 2, так как вы пытаетесь преобразовать HTML в текст и requests.get(url).text верните HTML-ответ.

>>> import requests 
>>> r = requests.get("http://example.com") 
>>> r.text 
u'<!doctype html>\n<html>\n<head>\n ..........'

Вы можете использовать get_text в BeautifulSoup для извлечения текста.

>>> from bs4 import BeautifulSoup 
>>> s = BeautifulSoup(r.text) 
>>>s.get_text().replace("\n","") 
u'Example Domain ....."

источник

2015-08-10 19:21:16 Chaker

Благодарим за предоставление некоторых идей. Я новичок в программировании, немного потерянный, когда вы сказали U'Example Domain ..... ». Является ли это тем, где я помещаю эти ключевые слова? Как насчет того, когда у меня есть список ключевых слов, сохраненных в массиве. Просьба посоветуйте, благодаря – spider1987

Исключая набор слов в HTML-ключевом ключевом поиске

ответ

Смежные вопросы