Мой друг хочет получить некоторые данные с определенных веб-страниц. Он хочет этого в XML, потому что он будет кормить их каким-то могучим приложением.«Datamining» с сайтов
Это не проблема, любой скриптовый язык может это сделать. Проблема заключается в том, что содержимое «скрыто» и может быть видно только при входе пользователя в систему. Это означает, что на любом языке, который я буду использовать, я должен найти способ имитации веб-браузера - для хранения файлов cookie (например, session id), потому что без него я не смогу получить данные из ограниченных разделов веб-сайта.
Я не хочу, чтобы я писал свой собственный «веб-браузер», но я не уверен, что он мне нужен. Также я думаю, для этого должна быть библиотека. Есть идеи?
Да, мы спросили их об API, дампах данных и т. Д. Они не хотят сотрудничать.
Спасибо за любые советы.
Это, вероятно, будет лучше спросил на Software Recs. На самом деле, [кто-то задал аналогичный вопрос уже] (http://softwarerecs.s.stackexchange.com/questions/20082/python-library-for-complex-web-scraping) –