Это долгая история, но я пытаюсь сохранить внутренний веб-сайт от заостренных боссов волос, которые больше не видят никакой ценности и будут переключаться в какой-то момент в будущем. Я считаю, что содержащаяся информация важна, и будущие поколения захотят ее использовать. Нет, это не какой-то взрослый сайт, но, поскольку это какой-то большой корпус, я не могу сказать больше.Восстановить сайт от tcpdump?
Проблема в том, что сайт представляет собой беспорядок ASP и Flash, который работает только в IE7 и работает только под IE8 и 32-разрядным. Все URL-адреса являются стилем сессии и являются тарабарщиной. Объекты flash сами извлекают дополнительную информацию с помощью запроса GET для объектов ASP. Это очень плохо спроектировано для соскабливания. :)
Итак, моя идея - сделать tcpdump при навигации по всему сайту. Затем каким-то образом выгрузите результат каждого GET в базу данных sql. Затем, немного перебирая файл хоста, перенаправляйте каждый запрос на некоторый скрипт cgi, который будет искать соответствующий запрос на получение в базе данных и возвращать данные. Таким образом, весь сайт будет размещен в базе данных SQL в ключевых парах URL/данных. Плоский файл также может работать.
В теории, я думаю, что это единственный способ обойти это. Единственная проблема, которую я вижу, заключается в том, что они выполняют некоторые действия ActiveX/Flash на стороне клиента, которые генерируют URL-адреса сеансов, которые будут отличаться каждый раз.
В любом случае, я знаю Perl, и идея кажется простой с правильными модулями, поэтому я думаю, что могу сделать большую часть работы в этом, но я открыт для любых других идей, прежде чем я начну. Может быть, это уже существует?
Спасибо за любой ввод.
ngrep может быть лучше, чем tcpdump. вы не можете просто скрыться от источника? –
Не можете ли вы просто получить код и содержание для сайта? Затем вы можете «заморозить» его, установив его на виртуальную машину, которую вы запускаете без прямого подключения к Интернету (операционная система также должна быть заморожена). – reinierpost
Найдите людей, которые контролируют сайт и покупают им пиво. Станьте их лучшими друзьями. Затем запросите дамп базы данных. –