2012-05-05 3 views
0

Я пытаюсь понять этот вопрос уже около недели, и только не может найти подходящее решение. Итак, я подумал, что увижу, сможет ли кто-нибудь помочь мне. Вот одна из ссылок, которые я пытаюсь скрести:Экранная скребка с HTTP-заголовками Проблема - я думаю,

http://content.lib.washington.edu/cdm4/item_viewer.php?CISOROOT=/alaskawcanada&CISOPTR=491&CISOBOX=1&REC=4

Я щелкнул правой кнопкой мыши, чтобы скопировать расположение изображения. Это ссылка, которая копируется:

(Невозможно вставить это в качестве ссылки, потому что я новичок) HTTP: // содержание (точка) Lib (точка) Вашингтон (точка) образование/CGI-BIN /getimage.exe?CISOROOT=/alaskawcanada & CISOPTR = 491 & DMSCALE = 100.00000 & DMWIDTH = 802 & DMHEIGHT = 657,890625 & DMX = 0 & ДМГ = 0 & DMTEXT =% 20NA3050% 20% 09AWC0644% 20AWC0388% 20AWC0074% 20AWC0575 & ЗАП = 4 & DMTHUMB = 0 & DMROTATE = 0

Нет четкого изображения U Отображается RL. Очевидно, что это , потому что изображение скрыто за некоторым типом скрипта. Через пробную версию и ошибку я обнаружил, что после «CISOPTR = 491» я могу поместить «.jpg», а затем ссылка станет URL-адресом изображения. Проблема в том, что это не версия изображения с высоким разрешением. Чтобы добраться до версии с высоким разрешением, я должен изменить URL еще больше. Я нашел много статей @ Stackoverflow.com, говоря о попытке создать скрипт с использованием curl и PHP, я даже попробовал несколько из них без везения. «491» - это номер изображения, и я могу изменить это число, чтобы найти другие изображения в одном каталоге. Таким образом, скремблирование последовательности чисел должно быть довольно простым. Но я все еще ноуб на соскабливании, и этот удар ногой. Вот что я пробовал.

Get remote image using cURL then resample

также попытался это.

http://psung.blogspot.com/2008/06/using-wget-or-curl-to-download-web.html

У меня также есть перехитрить Hub и сайт Sucker, но они не признают URL в качестве файла изображения и Ф.О. они просто проходят прямо Ов него. Я использовал SiteSucker в одночасье и загрузил 40 000 файлов, и только 60 были jpegs, ни один из которых не был тем, что я хотел.

Другое, что я продолжаю работать, это файлы, которые я смог загрузить вручную, имя файла всегда либо getfile.exe, либо showfile.exe, а затем, если я вручную добавлю «.jpg» в качестве расширения, могу просмотрите изображение локально.

Как я могу добраться до исходного файла изображения с высоким разрешением и автоматизировать процесс загрузки, чтобы я мог очистить пару сотен этих изображений?

ответ

0

Я щелкнул правой кнопкой мыши, чтобы скопировать местоположение изображения. Ссылка на ссылку Скопировано:

Вы обнаружили, что у названия есть «.exe». Посмотрите на вещи в строке запроса:

DMSCALE=100.00000 
DMWIDTH=802 
DMHEIGHT=657.890625 
DMX=0 
DMY=0 
DMTEXT=%20NA3050%20%09AWC0644%20AWC0388%20AWC0074%20AWC0575 
REC=4 
DMTHUMB=0 
DMROTATE=0 

Сильно подразумевает оригинал этого изображения в базе данных или что-то и оно передается через стороне сервера фильтр (не уверен, если это то, что вы имели в виду «какой-то сценарий»).Т.е. это динамически сгенерированный контент, а не статический, и те же оговорки применяются, как и к динамическому текстовому контенту: вам нужно выяснить, какие инструкции предоставить серверу, чтобы он кашлял то, что вы хотите. Что вы в значительной степени имеете перед собой ... если SiteSucker или что-то не будет с ним справляться должным образом, очистите адрес самостоятельно, используя парсер HTML.

+0

Благодарим за ответ и подтверждаем некоторые из моих предположений. Я очень неопытен в функциональности на стороне сервера и жаргоне, поэтому, пожалуйста, простите любую неверную формулировку. Я действительно играл с различными параметрами в строке запроса, и я смог получить изображение до максимального разрешения в виде JPG, я даже копировал и вставлял параметры, на которых я оказался, и они каждый день выдает высокое разрешение JPG. Было бы неплохо иметь возможность автоматизировать процесс. Например, это просто боль, чтобы – user1376196

Смежные вопросы