2010-07-05 2 views
0

Мне нужно очистить некоторые веб-сайты и вы хотите избежать загрузки изображений со страниц, которые я читаю, - мне нужен только текст. Я надеюсь, что это ускорит этот процесс. Любые идеи о том, как управлять этим?Предотвращение загрузки изображений с помощью ScrAPI

Спасибо, Jon

+1

lol ............ – hoju

ответ

2

В то время как выскабливание вы не загружайте изображения, но ссылочное IMG тег вместе со всей body. Вы всегда можете удалить тег IMG на стороне сервера, прежде чем хранить в своей базе данных/рендеринг для представления. Я предлагаю вам использовать nokogiri для анализа полученного контента и удаления всех вхождений тега IMG.

Это, однако, не ускоряет процесс. Его просто старый старый html, который царапается. Если вы хотите, чтобы быстрая выборка и синтаксический анализ отправлялись на Feedzirra, если вы имеете дело с фидами или Typhoeus для получения только содержимого html.

+0

Хорошо, спасибо, что объяснили это. Я посмотрю на Тифоя. – CHsurfer

Смежные вопросы