Я пытаюсь разобрать сайт дляскребковых данных с помощью Python LXML XPath
blahblahblah
<a href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah
(есть многие из них, и я хочу, чтобы все из них в какой-то токенизированной форме). Проблема в том, что «href» на самом деле имеет два пробела, а не один (некоторые из них являются «href» с одним пространством, которое я НЕ хочу извлекать), поэтому с помощью tree.xpath ('// a/@ href ') не совсем работает. Есть ли у кого-нибудь предложения о том, что делать?
Спасибо!
Привет, это работает, чтобы извлечь «href» с одним пространством, но он не работает, чтобы извлечь «href», где есть два пробела между a и href. Мне нужны только ссылки, где есть два пробела между a и href. – user1922956
Нет, как сказал tdelaney, XML + Xpath не интересует пробелы. Мой скрипт обрабатывает оба случая, просто удалите '[0]' (первый элемент) и добавьте другие ссылки, все они будут отображаться. (но звучит не достоверно более 1 дня) –