2013-04-02 2 views
0

Я пытаюсь извлечь текст из фрагмента теста, который google ученого дает для конкретного запроса. По текстовому фрагменту я имею в виду текст под заголовком (в черной букве). В настоящее время я пытаюсь извлечь из HTML-файла с помощью питона, но он содержит много дополнительных испытаний, таких какизвлечение текста из google ученого

/div><div class="gs_fl" ... и т.д..

Есть ли простой способ или код, который может помочь мне получить текст без этих избыточных текстов.

ответ

1

Вам нужен HTML Parser:

import lxml.html 

doc = lxml.html.fromstring(html) 
text = doc.xpath('//div[@class="gs_fl"]').text_content() 

Вы можете установить LXML с «пункт установить LXML», но вы должны будете строить свои зависимости, и детали будут отличаться друг от друга в зависимости от того, что ваша платформа ,

+0

используя вашу данную команду, смогу ли я разобрать всю html-страницу или мне нужно давать разные xpath() каждый раз? –

+0

дает мне эту ошибку: - AttributeError: объект 'list' не имеет атрибута 'text_content' –

Смежные вопросы