2013-12-13 3 views
1

Я установил php-скрипт для запрета ботов, которые игнорируют мой файл robots.txt. Я бы хотел проверить, правильно ли он работает. есть несколько строк PHP-кода, которые я мог бы использовать для моделирования бота, spidering моего сайта. Возможно, сканируйте «n» слои глубоко, создайте простой текстовый файл результатов и проигнорируйте мой файл robots.txt и проигнорируйте rel = «nofollow».Как я могу разместить свой собственный сайт

ответ

2
wget -r -l4 –spider -D thesite.com http://www.thesite.com 

из http://beeznest.wordpress.com/2012/07/01/spider-a-website-with-wget/

+0

wget - это самое простое и экономичное решение поставленного вопроса. Для периодического сканирования и т. Д., Или вы хотите использовать кувалду, чтобы взломать орех, посмотрите на Apache Nutch - http://nutch.apache.org/ – dnshio

+0

Я не слышал об этом раньше (im a newbiew im боюсь). Как запустить команду wget и откуда? – Ruf1

+0

Выполнить из оболочки или использовать php exec – exussum

0

Вы можете использовать PHP Simple HTML DOM Parser: http://simplehtmldom.sourceforge.net/

// Create DOM from URL or file 
$html = file_get_html('http://www.google.com/'); 

// Find all images 
foreach($html->find('img') as $element) 
     echo $element->src . '<br>'; 

// Find all links 
foreach($html->find('a') as $element) 
     echo $element->href . '<br>'; 

Смотрите также: http://davidwalsh.name/php-notifications

+0

Спасибо. Я запустил это как php-страницу и получил следующую ошибку: Неустранимая ошибка: вызов неопределенной функции file_get_html() в /home/xxxxxx/public_html/bottest.php в строке 6 – Ruf1

+0

@ Ruf1: 'file_get_html' от: http://simplehtmldom.sourceforge.net/ –

+0

ах. Спасибо. Это видно. – Ruf1

Смежные вопросы