Это еще не проблема программирования!сравнение веб-страниц - simhash и обработка узлов верхнего уровня DOM
Но я изучаю, как вы сравниваете веб-страницы, чтобы увидеть, являются ли страницы одинаковыми/похожими. Это личный проект, а не для работы/школы ... (просто сказать!)
Я нашел несколько основных реализаций simhash и задавался вопросом, может ли кто-нибудь указать мне на действительно хорошую надежную py/php simhash реализация. Я бы предпочел не изобретать велосипед на этом.
Кроме того, я заинтересован в возможности вычислить/сгенерировать структуру DOM для данной страницы, а затем вычислить узлы «конец/край» дерева/структуры, чтобы определить, может ли это быть подход к определяя сходство страниц.
Итак, меня также интересует любой инструмент/приложение, которое может быть использовано для создания списка структуры DOM для данной страницы. Я бы подумал, что «чистый поиск привел бы к тому, что несколько py/php/apps создадут этот тип графика/списка для целей тестирования.
Я также могу понять, что я могу использовать неправильные термины в моем поиске.
Итак, мысли и комментарии о том, где искать, все, что нужно учитывать, можно будет приветствовать.
Благодаря
Вы заботитесь об изменениях в dom из javascript или просто изначально изданного html? –
для моего теста, я получил html/data и работаю над возвращенным html-документом. это то, что я заинтересован в проведении сравнительного исследования .. у меня будет ~ 1000 страниц для сравнения, и из этого corpus/domain процесс должен алгоритмически определять уникальные страницы. поэтому в решении, которое я ищу, не существует jscript. Я ищу, чтобы soln находился в php/python. спасибо –
Хм, я думаю, это отвечает на мой вопрос :), просто убедившись, что вам не нужно рассматривать HTML, как браузер, до извлечения DOM. –