2015-08-29 3 views
0

Я пишу искатель изображений, который сбрасывает изображения с веб-страницы. Это делается путем поиска тега img на веб-странице. Но недавно я заметил, что некоторые теги img не имеют в них атрибута alt. Есть ли способ найти ключевые слова для этого конкретного изображения?Сканирование и поиск ключевых слов для изображений без атрибута «alt»

Есть ли какие-либо меры предосторожности для обхода сайтов для изображений?

ответ

0

Если в теге нет атрибута alt или он пуст, проверьте имя атрибута fo, если не имя, проверьте идентификатор. Ну, id, когда .asp или .aspx, например, не имеет смысла. Но, в крайнем случае, используйте атрибут src, получив только имя файла без расширения. Иногда также может использоваться класс атрибутов, но, я не рекомендую его. Даже идентификатор может быть очень обманут.

У вас возникнут проблемы с изображениями, созданными JS, конечно, но даже это может быть решено с большим количеством времени и воли.

Что касается мер предосторожности, что именно вы имеете в виду? Проверьте, действительно ли src изображение или что?

+0

Спасибо за помощь. Вообще-то, я хотел спросить, что JS наложила проблемы с изображениями, которые вы указали. Любые указатели на это? –

+1

Для этого вам придется разобрать JS из сценария < > </script > или загрузить JS-файл из src, указанный в теге скрипта. Чтобы узнать какое-либо изображение, введенное динамически, вам придется реализовать код, который распознает любое действие вокруг объекта Image(). Для этого см. Документы JS. Кроме того, многие используют JQuery, поэтому лучше быть готовыми к его интерфейсу. – Dalen

+1

Для более надежного решения ничего не поделаешь, но у меня есть интерпретатор JS, который вернет вам полный src, или alt или что-то еще. Python может использовать внешние интерпретаторы JS, поскольку Firefox или ОС встроены в некоторые библиотеки. Но сначала посмотрите, как это делают Google и другие сканеры. – Dalen

Смежные вопросы