2013-12-03 2 views
0

В настоящее время я работаю над проектом с использованием Python, и я столкнулся с небольшой проблемой.Обнаружить, если тот же url

Скажем, у меня есть два URLs:

  1. url1 = 'www.google.com'
  2. URL2 = 'google.com/'

Теперь, очевидно, эти два адреса эквивалентны: оба они прямо на той же странице. Однако моя простая реализация сравнения строк не может обнаружить это. Есть ли какой-либо существующий метод для обнаружения, если 2 URL-адреса относятся к одной и той же веб-странице?

(первый раз после, и я не нашел ничего похожего на это,. Мои извинения, если что-то подобное уже было предложено)

+3

Как насчет выполнения HTTP GET и сравнения заголовков в результате? Как насчет вещей после «/»? – BenDundee

+1

С другой стороны, я не уверен, что это сработает ... – BenDundee

+0

Я мог бы сделать что-то подобное, я бы подумал; но я бы подумал, что это даст гораздо большее время выполнения. Я уже запускаю это на тысячах URL-адресов (все они представлены в файле .txt) –

ответ

0

Вы можете разметить URL-адреса в разных компонентах и ​​испытания только те поля, которые вам не нравится. Один полезный модуль python: tldextract, который будет выполнять токенизацию для вас. Затем вы можете проверить, совпадают ли домены + tlds, а затем перейти к субдоменам. Затем вы можете решить удалить некоторые поддомены (например, «www») в вашем сравнении.

Смежные вопросы