Я пытаюсь написать скрипт Python для поиска дубликатов mp3/4 файлов, используя данные песни в качестве базы для сравнения. В моей ситуации много файлов mp3/4 с похожими именами файлов, но разные теги ID3. Сначала я попытался выполнить цикл и использовать md5 для поиска дубликатов файлов (игнорируя имена файлов). Это, конечно, не работало, когда теги ID3 не совпадали.Доступ к музыкальным данным в формате MP3 с использованием Python
В результате я ищу способ извлечь только музыкальные данные из mp3/4, чтобы запустить его через md5 и найти любые дубликаты. Каков наилучший способ сделать это?
Музыка будет (хотя и «идентична») появляться в разных битрейтах (если только вы не можете быть уверены, что все без потерь), что сделает простое сравнение «данных» бесполезным. Поэтому вам понадобится более продвинутая (вероятно, статистическая) техника. Я уверен, что кто-то из SO сможет предоставить некоторые указатели ... – ChristopheD
Хорошая точка, вместо простого md5 более точный анализ частоты fft. Однако объем может быть разным. Тогда, полагаю, вы бы искали корреляцию между двумя ffts и, возможно, ожидали высокой корреляции? Это становится сложно, потому что некоторые песни могут включать в себя «предвидения» - введение или речь, которую трудно обнаружить. –
@ Хамиш: Интересно, если он захочет считать, что они как разные (например, живое выступление какой-то песни, скажем, в разговорной речи, в отличие от конкретной записи в студии). Это действительно зависит от того, как вы определяете «дубликат», я полагаю. Это становится довольно интересной проблемой. :) – Faisal