У меня есть простая программа python, которая ищет ключевое слово внутри URL-адреса и возвращает true или false. Я хочу изменить его, поэтому я просматриваю только эту статью, а не заголовок, а не другие вещи вокруг веб-страницы или рекламы или других статей и т. Д. У меня есть сотни URL-адресов для проверки, и они не имеют одинакового стиля (i думаю, не проверили их все, кроме своего рода очевидным). Как я могу сделать что-то подобное, если это возможно? Первый раз с использованием BeautifulSoup.Получить текст из статьи BeautifulSoup
Вот что я использую сейчас
import re
import sys
from BeautifulSoup import BeautifulSoup
import urllib2
#argecho.py
content = urllib2.open(sys.argv[1]).read()
print sys.argv[2] in content # -> True
Я посылаю URL и ключевое слово в качестве аргументов, как у меня есть еще один сценарий, призывающую это сотни адресов.
Я думаю, что mbowden's right - вам нужно будет больше сказать о структуре веб-сайтов, которые вы хотите проанализировать. Все ли соответствующие данные, которые вы хотите отсканировать для своего ключевого слова в определенном типе тега? Есть ли что-то, что делит соответствующие данные от нерелевантных метаданных (например, заголовок статьи)? – duhaime
Я удалил свой комментарий, чтобы переосмыслить. Каждая структура будет отличаться. BeautifulSoup сломает веб-страницу по тегам для вас. Но вам нужно знать, чего вы хотите. Если это ссылки, изображения или абзацы, это просто, иначе ... – mbowden