Как веб-сканеры обрабатывают javascript

Сегодня много контента в Интернете генерируется с использованием JavaScript (в частности, с помощью фоновых вызовов AJAX). Мне было интересно, как сканеры веб-страниц, такие как Google, обрабатывают их. Знают ли они о JavaScript? Есть ли у них встроенный механизм JavaScript? Или они просто игнорируют весь созданный JavaScript контент на странице (я думаю, это маловероятно). Используют ли люди специальные методы для индексации контента, которые в противном случае были бы доступны через фоновые запросы AJAX для обычного пользователя Интернета?Как веб-сканеры обрабатывают javascript

источник

2009-11-23 Shailesh Kumar

http://stackoverflow.com/questions/1739898/html-how-to-get- my-subspages-list-on-a-google-search См. ответы здесь для «получения контента с индексом» –

JavaScript обрабатывается как Bing, так и Google crawlers. Yahoo использует данные об искателях Bing, поэтому их также следует обрабатывать. Я не смотрел в другие поисковые системы, поэтому, если вы заботитесь о них, вы должны искать их.

Bing published guidance in March 2014 о том, как создать JavaScript на основе веб-сайты, которые работают с их гусеничным (в основном связанным с pushState), которые являются передовой практикой в целом:

Избегайте создание неработающих ссылок с pushState
Избегайте создание два разные ссылки, которые ссылаются на один и тот же контент с pushState
Избегайте cloaking. (Here's an article Bing published about their cloaking detection in 2007)
Поддержка браузеров (и сканеров), которые не могут обрабатывать pushState.

Google later published guidance in May 2014 о том, как создать JavaScript на основе веб-сайтов, которые работают с их гусеничном и их рекомендации также рекомендуется:

Не блокировать JavaScript (и CSS) в файле robots.txt файл.
Убедитесь, что вы можете справиться с нагрузкой сканеров.
Это хорошая идея для поддержки браузеров и искателей, которые не могут обрабатывать (или пользователей и организаций, которые не разрешают). JavaScript
Неверный JavaScript, основанный на тайных или специфических особенностях языка, может не работать с искателями ,
Если ваш JavaScript удаляет контент со страницы, он может не индексироваться. вокруг.

источник

2009-11-23 18:40:34 McKay

Будет ли будущее выглядеть, как веб-сканеры станут умнее и больше сосредоточиться на AJAX? –

@Shailesh - Я скажу, что это возможно. Они немного рассказывают о проблемах сканирования сайтов с поддержкой Javascript или AJAX здесь: http://searchengineland.com/google-io-new-advances-in-the-searchability-of-javascript-and-flash-but- is-it-enough-19881 –

Этот ответ очень устарел. Googlebot определенно обрабатывает JavaScript сейчас: http://googlewebmastercentral.blogspot.com/2014/05/understanding-web-pages-better.html Не уверен в отношении других сканеров, но я предполагаю, что они, скорее всего, вскоре последуют этому примеру, если они еще этого не сделали. – Ajedi32

Большинство из них не обрабатывают Javascript в любом случае. (По крайней мере, у всех основных поисковых роботов нет.)

Вот почему все еще важно, чтобы ваш сайт изящно обрабатывал навигацию без Javascript.

источник

2009-11-23 18:37:20

К сожалению, Google-бот определенно обходит внутри JavaScript ... [link] (http: // stackoverflow .com/questions/5749348/jquery-cause-404-errors-in-webmaster-tools-on-a-directory) – Sparky

Они просто не обрабатывают javascript, или они просматривают сайт с помощью тегов