Лучше всего, чтобы сколотить свой собственный паук на вашем языке сценариев выбора, это может быть сделано рекурсивно вдоль линий:
// Pseudo-code to recursively check for broken links
// logging all errors centrally
function check_links($page)
{
$html = fetch_page($page);
if(!$html)
{
// Log page to failures log
...
}
else
{
// Find all html, img, etc links on page
$links = find_links_on_page($html);
foreach($links as $link)
{
check_links($link);
}
}
}
После того, как ваш сайт получил определенный уровень внимания от Google, их webmaster tools бесценны в показе неработающих ссылок, которые могут возникнуть у пользователей, но это довольно реакционно - мертвые ссылки могут быть вокруг в течение нескольких недель, прежде чем Google индексирует их и регистрирует 404 в панели вашего веб-мастера.
Написание собственного скрипта, как показано выше, покажет вам все возможные неработающие ссылки, не дожидаясь, пока Google google (средство для веб-мастеров) или ваши пользователи (404 в журналах доступа) будут спотыкаться о них.
Существует также [HTTrack] (http://www.httrack.com/), который может хорошо справиться с этой задачей. – 2014-05-26 00:30:26
Если вы заинтересованы в поиске мертвых ссылок, в том числе в случае, если идентификатор фрагмента находится в режиме реального времени, рассмотрите https://github.com/gajus/deadlink. – Gajus 2014-11-02 13:03:55
@DaviddCeFreitas: Помогите создать ответ, чтобы мы могли видеть, как именно мы можем использовать httrack для поиска мертвых ссылок? – 2015-01-10 14:19:44