Контекст:Зачистка страницу продукта с HttpAgilityPack - Не получать все продукты
Я занимаюсь разработкой настольных приложений в C#, чтобы скрести/анализировать информацию о продукте из отдельных веб-страниц в небольшом количестве доменов. Я использую HtmlAgilityPack для захвата и анализа страниц для получения необходимых данных. Я кодирую различные правила синтаксического разбора для разных доменов.
Выпуск:
Страницы из одной конкретной области, при отображении через браузер, может показать, возможно, 60-80 продуктов. Однако, когда я просматриваю HtmlAgilityPack, я получаю максимум 20 продуктов. Глядя на необработанный html в Firefox «View Page Source», также появляется только 20 из соответствующих продуктов. Я пришел к выводу, что остальные продукты должны загружаться через скрипт, возможно, для облегчения загрузки на сервер. На самом деле я иногда можно увидеть, как это происходит в браузере, как есть короткая пауза, в то время как более 20 продуктов нагрузки, а затем еще 20 и т.д.
Вопрос:
Как я могу получить доступ через HtmlAgilityPack или иначе, полный набор разделов продукта присутствует после того, как все скрипты завершены?
Спасибо @swestner - Выглядит многообещающе. К сожалению, я делаю приложение WPF, поэтому System.Windows.Forms не сразу доступен мне, но я подозреваю, что для этого есть работа. Тем временем я стучу что-то подобное вместе, используя пакет Selenium, который я только что обнаружил. Я опубликую результат этого ниже. – ifinlay