Так что у меня проблема с захватом страниц html по какой-то причине, когда я отправляю запрос на сайт, а затем пользуюсь html.fromstring(site.content)
, он захватывает некоторые страницы html, но потом некоторые из них просто распечатывают <Element html at 0x7f6359db3368>
Есть ли причина для этого? что я могу сделать, чтобы исправить это? это какой-то тип безопасности? Кроме того, я не хочу, чтобы использовать такие вещи, как Beautiful Soup или Scapy еще .. Я хочу, чтобы узнать некоторые больше, прежде чем я решил попасть в эти библиотеки ...Python: Очистка веб-сайтов, не возвращающих никаких HTML
ответ
Может быть, это поможет немного:
import requests
from lxml import html
a = requests.get('https://www.python.org/')
b = html.fromstring(a.content)
d = b.xpath('.//*[@id="documentation"]/a') #XPath to the blue 'Documentation' near the top of the screen
print(d) #prints [<Element a at 0x104f7f318>]
print(d[0].text) #prints Documentation
Обычно вы можете найти XPath с инструментами Chrome Developer, после просмотра HTML. Я был бы рад предоставить более конкретную помощь, если вы захотите опубликовать веб-сайт, который вы утилизируете, и то, что вы ищете.
Im Выполнение 3 из них, а затем добавление других позже, когда я узнаю больше о том, как это сделать – Xploit
Простите, я действительно не понимаю. Было бы намного яснее с вашим (упрощенным) кодом, тем, что вы в настоящее время получаете в качестве своего результата, и тем, что ожидаете от вашего результата. –
Просто, чтобы быть ясным, все, что вам нужно, это количество страниц? –
- 1. Очистка HTML в Python
- 2. python [lxml] - очистка html-тегов
- 3. Python regex - очистка markdown html
- 4. Вебсайтов спамботы ошибка
- 5. Очистка HTML-кода HTML
- 6. Очистка и удаление строк/HTML-Python
- 7. Очистка памяти в python
- 8. Очистка текста python
- 9. Очистка HTML от textarea
- 10. Очистка атрибутов HTML-тегов
- 11. Очистка внутреннего выхода HTML
- 12. Очистка редактора uikit html
- 13. python pexpect очистка или очистка строки
- 14. Очистка HTML в iOS
- 15. Perl HTML-очистка
- 16. Очистка установки Python
- 17. Адаптивная очистка сетки - Python
- 18. Как передать параметр в SeleniumGrid ВЕБСАЙТОВ, экземпляров
- 19. Android html POST не работает, никаких ошибок
- 20. Qt html parsing не находит никаких тегов
- 21. Python - Очистка веб-страниц Проблема
- 22. Очистка кеша Python Flask не работает
- 23. Python-Wand Последовательность не Очистка из памяти
- 24. Очистка содержимого внутри html-тегов
- 25. Очистка кеша формы в html
- 26. Очистка данных HTML в R
- 27. Интеграция функций, возвращающих массив в Python
- 28. TinyMCE очистка HTML в Umbraco
- 29. Очистка HTML с помощью JavaScript
- 30. Динамическая загрузка html и очистка DOM
какой сайт вы отказываетесь? как выглядит остальная часть вашего кода? –
Вы получаете объекты HTML Element. Если вы хотите получить его содержимое, попробуйте добавить '.text' в конец – Mangohero1
Используйте' print (site.content) ', чтобы получить HTML как текст. 'html.fromstring (..)' преобразует HTML в объекты и '' сообщает вам, что у вас есть объект. И теперь вы можете использовать его методы, чтобы легко искать подобъекты, аргументы, текст и т. Д. Прочитайте документацию, как работать с 'Element'. –
furas