У меня есть список адресов (unicode
), и есть много повторений. Например, URL-адреса http://www.myurlnumber1.com
и http://www.myurlnumber1.com/foo+%bar%baz%qux
ведут к тому же месту.Проверка наличия элемента в подстроке
Так что мне нужно отсеять все эти дубликаты.
Моя первая мысль была, чтобы проверить, если подстрока элемента в списке, например, так:
for url in list:
if url[:30] not in list:
print(url)
Однако он пытается Маха буквального url[:30]
к элементу списка и, очевидно, возвращает все из них, так как не является элементом, который точно соответствует url[:30]
.
Есть ли простой способ решить эту проблему?
EDIT:
Часто хозяин и путь в URL-адресов остается неизменным, но параметры различны. Для моих целей URL с тем же именем и хостом, но разными параметрами по-прежнему является одним и тем же URL-адресом и составляет дубликат.
У вас есть такая же длина URL-адресов? – FallAndLearn
Не могли бы вы уточнить критерии фильтрации? Например. какой результат вы ожидаете по следующим URL-адресам: «http://foo.com/bar», «http://foo.com/bar/boo» и «http://foo.com/baz»? –