Поиск дубликатов столбцов в таблице записей 30M

В таблице предметов есть 30M строк. Я выполняю запрос, чтобы найти дубликат hash. hash определяется какПоиск дубликатов столбцов в таблице записей 30M

`hash` varchar(50) NOT NULL;

Этот запрос

SELECT Count(*) 
FROM (SELECT Count(id) `num`, 
       `signature` 
     FROM `images` 
     WHERE `hash` IS NOT NULL 
     GROUP BY `hash` 
     HAVING `num` > 1) AS `count_table`

занимает около 5-7 минут, прежде чем я нажал Ctrl+C, чтобы отменить запрос. Я запускаю его снова и все равно не могу дождаться этого много времени.

Как я могу получить этот результат быстрее?

Я знаю, что при выполнении группы это будет немного медленнее. Но8 минут слишком много, я думаю.

источник

2013-08-29 Shiplu Mokaddim

У вас есть указатель на 'hash' или ... эээ ..' signature'? –

Пожалуйста, опубликуйте структуру вашей таблицы –

Удостоверьтесь, что есть индекс на hash (или он signature?).

Заменить COUNT(id) на COUNT(hash) (или COUNT(signature)).

источник

2013-08-29 08:23:29 RandomSeed

У этого нет указателя. Я применил индекс и его намного быстрее. –

Если я правильно понял, вам нужны только возвращенные столбцы, которые дублируются? попробуйте это SELECT * FROM table_name AS t1 WHERE EXISTS (SELECT * FROM table_name AS t2 WHERE t1.hash = t2.hash и t1.id! = T2.id);

источник

2013-08-29 08:27:25 lovrenca

Если вам просто нужно количество повторяющихся записей, то вы можете попробовать

select count(*)-count(distinct hash) from images

источник

2013-08-29 11:14:14

Поиск дубликатов столбцов в таблице записей 30M

ответ

Смежные вопросы