Концепции, лежащие в основе этих видов преобразований, легче увидеть, посмотрев сначала на одномерный случай. На изображении here показана квадратная волна наряду с несколькими из первых членов бесконечного ряда. Посмотрев на это, обратите внимание, что если функции для членов складываются вместе, они начинают приближаться к форме прямоугольной волны. Чем больше терминов вы добавляете, тем лучше аппроксимация. Но, чтобы перейти от приближения к точному сигналу, вы должны суммировать бесконечное количество терминов. Причиной этого является то, что квадратная волна является разрывной. Если вы думаете о прямоугольной волне как функции времени, она идет от -1 до 1 в нулевое время. Для представления такой вещи требуется бесконечная серия. Посмотрите еще раз на сюжет серии. Первый - красный, второй - желтый. У последовательных терминов больше переходов «вверх и вниз». Это связано с увеличением частоты каждого термина. Придерживаясь квадратной волны как функции времени, а каждый член ряда - функция частоты, есть два эквивалентных представления: функция времени и функция частоты (1/время).
В реальном мире нет прямоугольных волн. Ничего не происходит в нулевое время. Звуковые сигналы, например, занимают диапазон от 20 Гц до 20 кГц, где Гц - 1 раз. Такие вещи могут быть представлены конечными рядами ».
Для изображений математика такая же, но две вещи разные. Во-первых, это двухмерное. Во-вторых, понятие времени не имеет смысла. В смысле 1D квадратная волна - это просто функция, которая дает некоторое числовое значение для аргумента, который, как мы говорили, был временем. Статическое изображение - это функция, которая дает числовое значение для каждой пары строк, индексов столбцов. Другими словами, изображение является функцией двумерного пространства, являющегося прямоугольной областью. Подобную функцию можно представить в терминах ее пространственной частоты. Чтобы понять, что такое пространственная частота, рассмотрите 8-битное изображение уровня серого и пару соседних пикселей. Самый резкий переход, который может произойти в изображении, идет от 0 (например, черного) до 255 (скажем, белого) на расстоянии 1 пиксель. Это напрямую соответствует самому высокочастотному (последнему) члену серийного представления.
Двумерное преобразование Фурье (или Косинуса) изображения приводит к тому, что массив значений того же размера, что и изображение, представляет ту же информацию не как функцию пространства, а функцию 1/пробел. Информация упорядочивается от самой низкой до самой высокой частоты по диагонали от наивысшей строки начала и столбца. Пример: here.
Для сжатия изображения вы можете преобразовать изображение, отбросить некоторое количество высокочастотных терминов и обратное преобразовать оставшиеся обратно в изображение, которое имеет меньше деталей, чем оригинал. Несмотря на то, что он преобразуется обратно к изображению того же размера (при замене замененных слов на ноль), в частотной области он занимает меньше места.
Другой способ взглянуть на это - уменьшить изображение до меньшего размера. Если, например, вы пытаетесь уменьшить размер изображения, выбрасывая три из каждых четырех пикселей подряд, и три из каждых четырех строк, у вас будет массив размером 1/4, но изображение будет выглядеть ужасно. В большинстве случаев это достигается с помощью 2D-интерполятора, который создает новые пиксели путем усреднения прямоугольных групп пикселей большего изображения. При этом интерполяция имеет эффект, аналогичный отбрасыванию ряда терминов в частотной области, только намного быстрее вычислять.
Чтобы сделать больше вещей, я приведу пример преобразования Фурье. Любое хорошее обсуждение темы покажет, как связаны преобразования Фурье и Косина. Преобразование Фурье изображения нельзя рассматривать непосредственно как таковое, потому что оно составлено из комплексных чисел. Он уже разделен на два вида информации: реальную и мнимую части чисел. Как правило, вы увидите изображения или графики. Но более важно (обычно) отделить комплексные числа от их величины и угла фазы. Это просто принимает комплексное число на комплексной плоскости и переключается на полярные координаты.
Для аудиосигнала подумайте о комбинированных функциях sin и косинуса, принимающих в своих аргументах количественную величину для смещения функции назад и вперед (как часть представления сигнала). Для изображения информация о фазе описывает, как каждый член ряда смещается относительно других членов в частотном пространстве. В изображениях края (надеюсь) настолько отличаются, что они хорошо характеризуются наименьшими частотными членами в частотной области. Это происходит не потому, что они являются резкими переходами, а потому, что они имеют, например, много черной области, прилегающей к много более легкой области. Рассмотрим одномерный срез ребра. Уровень серого равен нулю, затем переходит вверх и остается там. Визуализируйте синусоидальную волну, которая будет первым приближением, где она пересекает среднюю точку перехода сигнала в sin (0). Фазовый угол этого члена соответствует смещению в пространстве изображения. Огромная иллюстрация этого доступна here. Если вы пытаетесь найти фигуры и можете создать ссылочную форму, это один из способов их распознавания.