2015-08-10 1 views
0

Я работаю над программой, которая создает теги для кодов HTML. Программа работает следующим образом:Исключая набор слов в HTML-ключевом ключевом поиске

  1. случайной выборки URL выбран
  2. С BeautifulSoup, он ползет, чтобы найти все связанные с URL, связанные с URL образца
  3. Преобразовать все HTML коды URL-адресов находится в точке N: 2 в текст с помощью requests.get(url).text
  4. Выполните поиск текста для набора предопределенных ключевых слов
  5. Отметить как 1, если определенное ключевое слово встречается и 0, если не найден

Моя проблема заключается в том, что при выполнении поиска по HTML-коду, который уже преобразован в текст, я не могу исключить любой раздел, содержащий "src = http://....", так как он варьируется на разных сайтах. Это делает некоторые ключевые слова неуместными.

Есть ли способ исключить любые слова, начинающиеся с "src" в таких случаях? Или существует ли какой-либо другой метод поиска по ключевым словам для преодоления этого?

ответ

0

Я думаю, что ваша проблема связана с шагом № 2, так как вы пытаетесь преобразовать HTML в текст и requests.get(url).text верните HTML-ответ.

>>> import requests 
>>> r = requests.get("http://example.com") 
>>> r.text 
u'<!doctype html>\n<html>\n<head>\n ..........' 

Вы можете использовать get_text в BeautifulSoup для извлечения текста.

>>> from bs4 import BeautifulSoup 
>>> s = BeautifulSoup(r.text) 
>>>s.get_text().replace("\n","") 
u'Example Domain ....." 
+0

Благодарим за предоставление некоторых идей. Я новичок в программировании, немного потерянный, когда вы сказали U'Example Domain ..... ». Является ли это тем, где я помещаю эти ключевые слова? Как насчет того, когда у меня есть список ключевых слов, сохраненных в массиве. Просьба посоветуйте, благодаря – spider1987

Смежные вопросы