Как я могу разместить свой собственный сайт

Я установил php-скрипт для запрета ботов, которые игнорируют мой файл robots.txt. Я бы хотел проверить, правильно ли он работает. есть несколько строк PHP-кода, которые я мог бы использовать для моделирования бота, spidering моего сайта. Возможно, сканируйте «n» слои глубоко, создайте простой текстовый файл результатов и проигнорируйте мой файл robots.txt и проигнорируйте rel = «nofollow».Как я могу разместить свой собственный сайт

источник

2013-12-13 Ruf1

wget -r -l4 –spider -D thesite.com http://www.thesite.com

из http://beeznest.wordpress.com/2012/07/01/spider-a-website-with-wget/

источник

2013-12-13 17:33:18 exussum

wget - это самое простое и экономичное решение поставленного вопроса. Для периодического сканирования и т. Д., Или вы хотите использовать кувалду, чтобы взломать орех, посмотрите на Apache Nutch - http://nutch.apache.org/ – dnshio

Я не слышал об этом раньше (im a newbiew im боюсь). Как запустить команду wget и откуда? – Ruf1

Выполнить из оболочки или использовать php exec – exussum

Вы можете использовать PHP Simple HTML DOM Parser: http://simplehtmldom.sourceforge.net/

// Create DOM from URL or file 
$html = file_get_html('http://www.google.com/'); 

// Find all images 
foreach($html->find('img') as $element) 
     echo $element->src . '<br>'; 

// Find all links 
foreach($html->find('a') as $element) 
     echo $element->href . '<br>';

Смотрите также: http://davidwalsh.name/php-notifications

источник

2013-12-13 17:30:56 SamotnyPocitac

Спасибо. Я запустил это как php-страницу и получил следующую ошибку: Неустранимая ошибка: вызов неопределенной функции file_get_html() в /home/xxxxxx/public_html/bottest.php в строке 6 – Ruf1

@ Ruf1: 'file_get_html' от: http://simplehtmldom.sourceforge.net/ –

ах. Спасибо. Это видно. – Ruf1

Как я могу разместить свой собственный сайт

ответ

Смежные вопросы