Удалить содержимое шаблона с HTML-страницы

Я хочу использовать реализацию jusText, найденную здесь https://github.com/miso-belica/jusText, чтобы получить чистый контент из html-страницы. В основном это работает так:Удалить содержимое шаблона с HTML-страницы

import requests 
import justext 

response = requests.get("http://planet.python.org/") 
paragraphs = justext.justext(response.content, justext.get_stoplist("English")) 
for paragraph in paragraphs: 
    if not paragraph.is_boilerplate: 
     print paragraph.text

Я уже загружал страницы, которые я хотел бы разобрать с помощью этого инструмента (некоторые из них больше не доступны в Интернете), и извлечь содержимое HTML из них. Поскольку jusText работает только на выходе запроса (который является объектом типа ответа), мне интересно, есть ли какой-либо пользовательский способ установить контент объекта ответа, содержащий HTML-текст, который я хотел бы проанализировать.

источник

2015-06-13 Crista23

response.content имеет <type 'str'>

>>> from requests import get 
>>> r = get("http://www.google.com/") 
>>> type(r.content) 
<type 'str'>

Так просто позвонить:

justext.justext(my_html_string, justext.get_stoplist("English"))

источник

2015-06-13 09:29:04

Удалить содержимое шаблона с HTML-страницы

ответ

Смежные вопросы