2009-12-17 2 views
0

Пытается разобрать/очистить сайт курса для memphis. Сайт «https://spectrumssb2.memphis.edu/pls/PROD/bwckgens.p_proc_term_date». Кажется, это какая-то проблема с javascript или динамическая генерация текста. Я могу видеть, лежащий в основе структуры DOM с помощью livehttpdheaders/Firefox, но не тогда, когда я просто просмотреть основной источник/текст страницы ..web scraping/parsing of course course of course

Мысли/Комментарии/указатели будут оценены ...

+0

Ох. Забыл упомянуть. В конечном итоге я буду использовать python/urllib/mechanize, чтобы проанализировать сайт, как только я выясню, как получить доступ к основному тексту/данным. Спасибо! –

+3

Невозможно просмотреть это без входа. – phoebus

ответ

0

Ну это современный дней, сайт может быть собран в несколько шагов. Сначала основная структура втягивается, а затем, часто на основе идентификации пользователя, выполняются дополнительные вызовы AJAX. Лучше нюхать HTTP, чтобы увидеть, какие запросы выполняются между сайтом первоначально запросила и когда он полностью построен

Поскольку вы используете поджигатель вы можете получить HttpFox add-on, который дает вам то, что вам нужно

+0

эй ... благодарит за ответ. похоже, что это проблема с установкой файлов cookie в браузере. когда файлы cookie отключены, я могу видеть источник/текст, os мне нужно создать быстрый тест python, чтобы получить текст для URL-адреса с куки-шаблонами, чтобы увидеть, проходит ли текст ... спасибо! –

Смежные вопросы