Я пытаюсь получить текст из одного тега, используя lxml etree
.Найти текст, используя lxml etree
<div class="litem__type">
<div>
Robbp
</div>
<div>Estimation</div>
+487 (0)639 14485653
•
<a href="mailto:[email protected]">
Email Address
</a>
•
<a class="external" href="http://www.google.com">
Homepage
</a>
</div>
Проблема заключается в том, что я не могу найти его, потому что есть много различий между таким родом фрагментов. Бывают ситуации, когда первого и второго div
вообще нет. Как вы можете видеть, номер телефона не находится в его собственном div
.
Я полагаю, что можно было бы извлечь телефон, используя BeautifulSoups
, но я пытаюсь использовать lxml
модуль xpath
.
Есть ли у вас идеи? (Адрес электронной почты не должны быть там иногда)
EDIT: Лучше всего, вероятно, использовать regex
, но я не знаю, как сказать ему, что он должен извлечь только текст между двумя <div></div>
Является ли номер телефона всегда перед тегом '', содержащим адрес электронной почты? Является ли формат номера телефона одинаковым? (Если это варьируется, это поможет дать описание того, как оно варьируется, включая примеры, показывающие все варианты.) Существует ли какой-либо другой шаблон или правило, которое можно использовать для идентификации номера телефона? – unutbu