2016-12-05 1 views
0

Я читаю комментарии с сайта блога, используя lxml.Нужно собрать полный текст абзаца HTML, но <br /> ограничивает результаты

Я нашел этот пункт я хочу собрать, но возвращаемые результаты округляются до до текста в первой инстанции:

<br /> 

вот надрез в HTML ...

        <p>Great Post.<br /> 
Really Helpful for us.<br /> 
thank you</p> 

вот мой путь к целевому пункту:

root[1][2][0][0][0][6][0][0][0][1][3].text 

что получает возвращаемый:

>>> 'Great Post.' 

любые идеи, как я могу получить полный текст из этого абзаца?

+0

Вы должны разместить больше HTML. Кроме того, они способ доступа к этому элементу являются рискованными. Учитывая огромный список индексов, любые небольшие изменения в DOM отбросят все. –

+0

весь HTML-код можно найти по адресу: [link] (view-source: http: //www.worldofwanderlust.com/access-money-overseas-need-board-plane/) –

ответ

1

Прежде всего, вы должны использовать lxml.html, чтобы разобрать HTML (не lxml.etree). Затем, как только вы найдете элемент, используйте метод .text_content(), чтобы получить полный «текст» элемента, включая детские тексты.

+0

Благодарим вас за руководство по использованию lxml. html- работал как шарм –

Смежные вопросы