2015-12-17 1 views

ответ

2

Если вы храните URL-адрес, который вы посещали в каком-то массиве, вы можете сделать чек, чтобы проверить, был ли URL-адрес уже посещен, и если да, не нажимайте его еще раз.

+0

Итак, нет встроенной функции для этого в phpcrawl? Я предполагаю, что использование массивов будет быстро исчерпывать память для больших сканирований, а затем, возможно, мне стоит перейти на более мощное программное обеспечение для сканирования в больших масштабах ... –

+1

ОЗУ дешево (вообще говоря). При этом, может быть, полезно использовать http://php.net/SplFixedArray. http://stackoverflow.com/questions/10434913/accessing-big-arrays-in-php также читает об этом. Если у вас все в порядке с более длительным временем сканирования, вы можете даже использовать файловую систему и помещать каждый домен в файл, содержащий массив json, и загружать вещи таким образом. Это будет медленнее, но не будет интенсивным. –

Смежные вопросы