Нужно собрать полный текст абзаца HTML, но <br /> ограничивает результаты

Я читаю комментарии с сайта блога, используя lxml.Нужно собрать полный текст абзаца HTML, но <br /> ограничивает результаты

Я нашел этот пункт я хочу собрать, но возвращаемые результаты округляются до до текста в первой инстанции:

<br />

вот надрез в HTML ...

        <p>Great Post.<br /> 
Really Helpful for us.<br /> 
thank you</p>

вот мой путь к целевому пункту:

root[1][2][0][0][0][6][0][0][0][1][3].text

что получает возвращаемый:

>>> 'Great Post.'

любые идеи, как я могу получить полный текст из этого абзаца?

источник

2016-12-05 Timothy Lombard

Вы должны разместить больше HTML. Кроме того, они способ доступа к этому элементу являются рискованными. Учитывая огромный список индексов, любые небольшие изменения в DOM отбросят все. –

весь HTML-код можно найти по адресу: [link] (view-source: http: //www.worldofwanderlust.com/access-money-overseas-need-board-plane/) –

Прежде всего, вы должны использовать lxml.html, чтобы разобрать HTML (не lxml.etree). Затем, как только вы найдете элемент, используйте метод .text_content(), чтобы получить полный «текст» элемента, включая детские тексты.

источник

2016-12-05 22:29:16 alecxe

Благодарим вас за руководство по использованию lxml. html- работал как шарм –

Нужно собрать полный текст абзаца HTML, но <br /> ограничивает результаты

ответ

Смежные вопросы