Я делаю сканер PHP для изучения интернет-магазина под названием alza.cz. Я хочу ссылки на все продукты в этом интернет-магазине. Я по адресу: http://www.alza.cz/notebooky/18842920.htm., Но этот дисплей только первые 21 элемент. Чтобы получить все предметы, я должен пойти по адресу: http://www.alza.cz/notebooky/18842920.htm#f&pg=1/10000.Файл получить содержание params
Crawler использует file_get_contents
для получения HTML-страницы, которая затем анализируется с использованием DOM. Проблема в том, что он выглядит так: file_get_contents
игнорирует эту часть после # (возвращает только первые 21 элемент вместо всех). Есть идеи?
Обе ссылки возвращают ошибку '403 - Запрещено: доступ запрещен' для меня. –
обе ссылки дают 403 ошибка – bansi
Здесь все в порядке. Проблема при очистке этого сайта заключается в том, что независимо от того, как вы получаете следующий набор элементов (либо «21 dalších ...», либо обычный paginator), он использует запрос AJAX, а не обычный доступ к странице. Таким образом, вам необходимо изучить через AJAX - есть ли у вас живой просмотрщик AJAX (в вашем браузере), который вы можете использовать, чтобы определить, как это сделать? – halfer