У меня есть столбец из UK 10k в моей базе данных SQLite. Я хотел бы определить, какие из этих URI являются субдоменами одного и того же веб-сайта.Найти похожие записи в столбце SQL и ранжировать по частоте
Например, для данного набора ...
1. daiquiri.rum.cu
2. mojito.rum.cu
3. cubalibre.rum.cu
4. americano.campari.it
5. negroni.campari.it
6. hemingway.com
... Я хотел бы, чтобы выполнить запрос, который возвращает:
Website | Occurrences
----------------------------
rum.cu | 3
campari.it | 2
hemingway.com | 1
То есть, доменные имена/шаблоны, были сопоставлены, оценивались по количеству раз, когда они были найдены в базе данных.
Эвристика, которую я бы использовал: для каждого URI с доменами 3+ замените первый домен на «%» и выполните псевдокурс: COUNT (uris с сайта, где uris LIKE '% .remainderofmyuri').
Обратите внимание, что меня не очень беспокоит скорость выполнения (на самом деле, совсем нет). Количество записей находится в пределах 10k-100k.
Откуда берутся rum.com? Это опечатка для rum.cu? (Или наоборот). –
yep! Спасибо за комментарий. – bsuire