Я хочу очистить текст по URL-адресу «http://www.nycgo.com/venues/thalia-restaurant#menu» Текст, который меня интересует, находится на вкладке «меню» на странице. Я попробовал BeautifulSoup, чтобы получить весь текст на странице, но возвращаемое значение из следующего кода пропускает весь текст в меню.Python scraping pdf от URL
html = urllib2.urlopen("http://www.nycgo.com/venues/thalia-restaurant#menu")
html=html.read()
soup = BS(html)
print soup.get_text()
кажется, что содержание меню является частью HTML на странице, когда я инспектировать элементы из содержимого меню. Я заметил, что при физическом просмотре страницы для полного загрузки меню требуется несколько секунд. Не уверен, что поэтому код выше не позволяет получить содержимое меню.
Любое понимание будет оценено по достоинству.
Если нет каких-либо особых причин этого * * должен быть выполнен с использованием скрипта Python, я бы предложил использовать [wkhtmltopdf] (http://wkhtmltopdf.org/). – amphetamachine
Содержимое страницы динамически загружается с помощью Javascript. Вы не сможете получить весь контент, просто загрузив текст HTML. – jumbopap
@jumbopap спасибо, у меня было подозрение, что что-то вроде этого может быть причиной того, что возвращаемое значение пропускает содержимое меню. Любое предложение, как с этим бороться? – Camuslu