У меня есть папка, полная HTML-документов, которые хранятся в копиях веб-страниц, но мне нужно знать, с какого сайта они пришли, какую функцию я могу использовать для извлечения имени веб-сайта из документов? Я ничего не нашел в модуле BeautifulSoup. Есть ли конкретный вопрос, который я должен искать в документе? Мне не нужно знать полный URL-адрес, мне просто нужно знать название веб-сайта.Извлечь сайт из HTML-документа, полученного от
ответ
Вы можете сделать это только если URL упоминается где-то в источнике ...
Сначала выяснить, где URL, если он упоминается. Если он там, вероятно, будет в базовом теге. Иногда веб-сайты имеют хорошие заголовки со ссылкой на целевую страницу, которую можно использовать, если все, что вам нужно, это домен. Или это может быть в комментарии, так как это зависит от того, как вы его сохранили.
Если ссылка указана на всех страницах, то ваша задача проста: либо используйте re или BeautifulSoup, либо lxml и xpath, чтобы получить необходимую информацию. Существуют и другие инструменты, но любой из них будет делать.
Мне не нужно знать URL-адрес, просто имя сайта. –
ответ все еще яблоки. Найдите, где указано имя, если это согласованная вещь между страницами, просто возьмите имя, используя один из инструментов, которые я упомянул. Скорее всего, грива сайта и доменное имя довольно похожи. – Sheena
Спасибо, я попробую это. –
- 1. Как извлечь значения из словаря, полученного из моих результатов beautifulsoup?
- 2. Извлечь значение из объекта/многомерного массива, полученного из веб-службы
- 3. Чтение из C# сценария, полученного от Oracle
- 4. Как извлечь широту и долготу из полученного sms-сообщения?
- 5. Верблюд Apache: xpath, чтобы извлечь некоторое значение из полученного XML
- 6. Как извлечь идентификатор отслеживания и имя курьера из текстового сообщения, полученного от этой компании, используя java?
- 7. Извлечь САЙТ веб-сайта
- 8. Удалить подпись из полученного сообщения
- 9. Перемещение класса, полученного из istream
- 10. Извлечь патч с изображения, полученного центром патча и патчей.
- 11. Как построить ArrayAdapter из результата, полученного от webservice?
- 12. Как визуализировать jpg из ответа кода epl, полученного от endicia
- 13. Получение данных из строки JSON, полученного от сервера в Android
- 14. Как сделать видео из массива байтов, полученного от onPreviewFrame()
- 15. Формат номера телефона, полученного от twilio
- 16. Как получить настройки сайта из класса, полученного из класса RouteBase
- 17. Объект отправлен отличается от полученного объекта
- 18. Вызов функции из полученного объема
- 19. ОБНОВЛЕНИЕ ИЗ ПОЛУЧЕННОГО QUERY - SQL
- 20. Создание класса, полученного из CTabCtrl
- 21. Сохранение DataItemAsset, полученного от Android Wear
- 22. Undefined индекс для полученного значения от получения
- 23. Аннотирование класса, полученного от вызова сервера JSON
- 24. Исполнитель не может быть отключен от Thread, полученного от него
- 25. Web Socket - Spring: Подтверждение из полученного сообщения
- 26. Извлечь RSS-канал URL от
- 27. копия из источника, полученного из запроса выбора?
- 28. Как получить HWND класса, полученного из QMainWindow
- 29. Извлечь информацию от Toker Token
- 30. Извлечь данные из данных SNS от Amazon
Это невозможно, если нет тега 'base'. – falsetru
В общем, вы не можете. Файл HTML обычно не содержит информации об URL-адресе, используемом для доступа к нему. – BrenBarn
При сохранении страницы обычно содержат комментарий, вставленный в код, где говорится, откуда они пришли ... http://stackoverflow.com/questions/6062210/how-to-find-the-comment-tag-with-beautifulsoup – mplungjan