2015-09-05 4 views
0

Я хочу пройти все дочерние узлы на странице html. например, <body>......</body> будет иметь множество дочерних тегов. Я хочу, чтобы эти теги проходили рекурсивно, так что ни один из тегов не остается открытым. Затем я хочу получить текст из каждого тега. Я ищу общее решение, которое будет работать на любой веб-странице с любой структурой, которую она может иметь. Может ли кто-нибудь это предложить? СпасибоКак я могу пройти все дочерние элементы всех тегов, чтобы получить данные, используя lxml в python?

+0

ect 1) // некоторый текст

//some text

  • //some text
  • //Text for End of div
    // некоторый текст – Kaggler

    ответ

    0

    yes, python beautiful soap - отличная библиотека python с множеством функций для этого.

    +0

    Спасибо, но я ищу решение при использовании lxml – Kaggler

    Смежные вопросы