Я работаю над программой, которая создает теги для кодов HTML. Программа работает следующим образом:Исключая набор слов в HTML-ключевом ключевом поиске
- случайной выборки URL выбран
- С BeautifulSoup, он ползет, чтобы найти все связанные с URL, связанные с URL образца
- Преобразовать все HTML коды URL-адресов находится в точке N: 2 в текст с помощью
requests.get(url).text
- Выполните поиск текста для набора предопределенных ключевых слов
- Отметить как 1, если определенное ключевое слово встречается и 0, если не найден
Моя проблема заключается в том, что при выполнении поиска по HTML-коду, который уже преобразован в текст, я не могу исключить любой раздел, содержащий "src = http://...."
, так как он варьируется на разных сайтах. Это делает некоторые ключевые слова неуместными.
Есть ли способ исключить любые слова, начинающиеся с "src"
в таких случаях? Или существует ли какой-либо другой метод поиска по ключевым словам для преодоления этого?
Благодарим за предоставление некоторых идей. Я новичок в программировании, немного потерянный, когда вы сказали U'Example Domain ..... ». Является ли это тем, где я помещаю эти ключевые слова? Как насчет того, когда у меня есть список ключевых слов, сохраненных в массиве. Просьба посоветуйте, благодаря – spider1987