2012-02-15 2 views
1

Это долгая история, но я пытаюсь сохранить внутренний веб-сайт от заостренных боссов волос, которые больше не видят никакой ценности и будут переключаться в какой-то момент в будущем. Я считаю, что содержащаяся информация важна, и будущие поколения захотят ее использовать. Нет, это не какой-то взрослый сайт, но, поскольку это какой-то большой корпус, я не могу сказать больше.Восстановить сайт от tcpdump?

Проблема в том, что сайт представляет собой беспорядок ASP и Flash, который работает только в IE7 и работает только под IE8 и 32-разрядным. Все URL-адреса являются стилем сессии и являются тарабарщиной. Объекты flash сами извлекают дополнительную информацию с помощью запроса GET для объектов ASP. Это очень плохо спроектировано для соскабливания. :)

Итак, моя идея - сделать tcpdump при навигации по всему сайту. Затем каким-то образом выгрузите результат каждого GET в базу данных sql. Затем, немного перебирая файл хоста, перенаправляйте каждый запрос на некоторый скрипт cgi, который будет искать соответствующий запрос на получение в базе данных и возвращать данные. Таким образом, весь сайт будет размещен в базе данных SQL в ключевых парах URL/данных. Плоский файл также может работать.

В теории, я думаю, что это единственный способ обойти это. Единственная проблема, которую я вижу, заключается в том, что они выполняют некоторые действия ActiveX/Flash на стороне клиента, которые генерируют URL-адреса сеансов, которые будут отличаться каждый раз.

В любом случае, я знаю Perl, и идея кажется простой с правильными модулями, поэтому я думаю, что могу сделать большую часть работы в этом, но я открыт для любых других идей, прежде чем я начну. Может быть, это уже существует?

Спасибо за любой ввод.

+0

ngrep может быть лучше, чем tcpdump. вы не можете просто скрыться от источника? –

+1

Не можете ли вы просто получить код и содержание для сайта? Затем вы можете «заморозить» его, установив его на виртуальную машину, которую вы запускаете без прямого подключения к Интернету (операционная система также должна быть заморожена). – reinierpost

+5

Найдите людей, которые контролируют сайт и покупают им пиво. Станьте их лучшими друзьями. Затем запросите дамп базы данных. –

ответ

2

Чтобы захватить, я бы не использовал tcpdump, но либо сам сканер, либо веб-прокси, который можно настроить, чтобы сохранить все, например. Fiddler, Squid, или mod_proxy.

+0

Интересная идея. Предполагая, что я могу установить прокси-сервер, чтобы сохранить все. Но я собираюсь бороться с естественным инстинктом прокси, чтобы следить за тем, чтобы у него была последняя версия, если я использую прокси для воспроизведения. – Porch

+0

Насколько хорошо работает воспроизведение, зависит от того, как создается сайт (как RESTY). – reinierpost

Смежные вопросы