Программа обработки звука Audacity

https://antibotan.com/ - Всеукраїнський студентський архів

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РЕСПУБЛИКИ БУРЯТИЯ

ГБОУ СПО «БУРЯТСКИЙ РЕСПУБЛИКАНСКИЙ ИНФОРМАЦИОННО-ЭКОНОМИЧЕСКИЙ ТЕХНИКУМ»

Технология обработки звука

Выполнил: Богданов С., учащийся 734 группы

Проверил: Цыбикова М.Г.

Улан-Удэ

2012

Содержание
Введение

Глава 1. Характеристика сигналов в системах цифровой обработки

1.1. Программы для обработки звуковой информации (Редакторы цифрового аудио)

Глава 2. Применение цифровой обработки сигналов (шумоподавление для звука)

2.1. Передискретизация

2.2. Антиалиасинг изображений

2.3. Псевдотонирование изображений

2.4. Выравнивание освещенности изображений

2.5. Программы для написания музыки

2.6. Программы-анализаторы аудио

2.7. Специализированные реставраторы аудио

2.8. Трекеры

2.9. Программы для копирования и сжатия цифрового звука с компакт-дисков

Глава 3. Профессиональная обработка звука. Звук и звуковая волна

3.1. Программа обработки звука Audacity

3.2. Цифровая и аналоговая запись. Аналогово-цифровое преобразование. Микширование

3.3. Импульсная и частотная модуляция. Хранение оцифрованного звука

3.4. Сэмплирование

3.5. Аппаратура

3.6.Програмное обеспечение

3.7. Саундтреки

Заключение

Введение

Программы для работы с аудиоинформацией (звуком) позволяют записывать живой звук и преобразовывать его, изменяя тембр, улучшая качество звучания, добавляя эффекты и т.д. Современные программы-секвенсеры имеют возможность записи не только MIDI, но и звуковых дорожек. Однако для серьезной работы со звуковой информацией, как правило, требуется вызвать внешний аудиоредактор, то есть как раз программу для работы со звуком. В отличие от MIDI-секвенсеров, здесь качество программы определяется не только удобством и функциональностью интерфейса, не только наличием дополнительных утилит, но и собственно алгоритмами обработки. При одних и тех же условиях и параметрах на одном и том же звуковом материале разные программы могут дать совершенно непохожие результаты. Вообще говоря, звуковая информация — вещь «неуловимая»: порой незначительное изменение одного из многих параметров обработки может дать совершенно новый на слух результат. Так что, получив хорошие звуковые результаты, не поленитесь лишний раз записать получившийся файл на диск.

Перспективы развития и использования цифрового аудио видятся авторам статьи очень широкими. Казалось бы, все, что можно было сделать в этой области, уже сделано. Однако это не так. Остается масса еще совсем незатронутых проблем.

Например, область распознавания речи еще очень не развита. Давно уже делались и делаются попытки создать программное обеспечение, способное качественно распознавать речь человека, однако все они пока не приводят к желаемому результату. А ведь долгожданный прорыв в этой области мог бы неимоверно упростить ввод информации в компьютер. Только представьте себе, что вместо набора текста его можно было бы просто надиктовывать, попивая кофе где-нибудь неподалеку от компьютера. Имеется множество программ якобы способных предоставить такую возможность, однако все они не универсальны и сбиваются при незначительном отклонении голоса читающего от заданного тона. Такая работа приносит не столько удобств, сколько огорчений. Еще куда более сложной задачей (вполне возможно, что и неразрешимой вовсе) является распознавание общих звуков, например, звучания скрипки в звуках оркестра или выделение партии рояля. Можно надеяться, что когда-нибудь такое станет возможным, ведь человеческий мозг легко справляется с такими задачами, однако сегодня говорить о хотя бы малейших сдвигах в этой области рано.

В области синтеза звука также есть пространство для изучения. Способов синтеза звука сегодня существует несколько, однако ни один из них не дает возможности синтезировать звук, который нельзя было бы отличить от настоящего. Если, скажем, звуки рояля или тромбона еще более-менее поддаются реализации, до правдоподобного звучания саксофона или электрогитары добиться еще так и не смогли – существует масса нюансов звучания, которые почти невозможно воссоздать искусственно.

Таким образом, можно смело сказать, что в области обработки, создания и синтеза звука и музыки еще очень далеко до того решающего слова, которое поставит точку на развитии этой отрасли человеческой деятельности.

Как и графика, компьютерный звук бывает двух основных типов:

Цифровой звук - аналог фотографии, точная цифровая копия введенных извне звуков. Это может быть сделанная с микрофона запись вашего голоса, копия звуковых дорожек с компакт-диска и т. д. Как и фотография, такой звук занимает много места... Впрочем, аппетиты фотографии по сравнению со звуком просто ничтожны! Одна минута цифрового звука, записанного с максимальным качеством, занимает около 10 Мбайт.

Синтезированный звук - точнее, музыка в формате MIDI.

Суть MIDI-технологии можно изложить так: компьютер не просто проигрывает нужную вам мелодию, а синтезирует ее с помощью звуковой карты. MlDI-мелодии - это всего лишь системы команд, управляющие звуковой картой, коды нот, которые она должна "изобразить". Эта технология идеальна для компьютерных композиторов, поскольку позволяет с легкостью изменять любые параметры созданной на компьютере мелодии - заменять инструменты, добавлять или удалять их, изменять темп и даже стиль композиции. И файлы с MIDI-музыкой - крохотные, всего в несколько десятков килобайт. Но и недостатки у MIDI есть - голос в MIDI-файле не запишешь, да и музыка хорошо звучит лишь на очень качественной звуковой карте.

Можно выделить два основных типа музыкальных программ, с которыми придется работать:

Программы для записи и обработки цифровой музыки (Sound Forge, WaveLab, CoolEdit, SAW Plus);
Секвенсоры - редакторы синтезированной (MIDI) музыки (MidiStudio, MIDI Orchestrator Plus, Cakewaik Pro, Cubase).

Кстати говоря, большинство сегодняшних MIDI-программ умеют работать и с обычным цифровым звуком - к примеру, вы можете наложить поверх MIDI-дорожки собственный вокал и, сохранив полученный результат в виде обычного WAV-файла (стандартный формат цифрового звука), получите готовую песню, которую потом можно и на компакт-диск записать... Цифровой обработкой сигналов принято называть в вычислительной технике арифметическую обработку последовательностей равноотстоящих во времени отсчетов. Под цифровой обработкой понимают также обработку одномерных и многомерных массивов данных.

Безусловно, данная обработка может быть выполнена с помощью обычных вычислительных средств. Например, на современном персональном компьютере с процессором типа Pentium IV обработка не представляет никаких трудностей. Однако именно специфика последовательности предоставляет дополнительные возможности для достижения высокой эффективности при жестких ограничениях систем реального времени.

Не секрет, что первые вычислительные машины были созданы в 40-х годах прошлого столетия для решения задач криптографии, баллистики, ядерной физики, практического построения систем противовоздушной обороны. Системы и методы цифровой обработки также разрабатывались в оборонных отраслях в первую очередь для решения задач радиолокации, обработки гидроакустических и тепловизионных сигналов.

Для обнаружения и уничтожения летательных аппаратов служили комплексы, состоящие из радиолокаторов, управляющих вычислительных машин и ракетных установок.

В области военного морского приборостроения системы цифровой обработки использовались, в частности, для анализа гидроакустических сигналов, определения шумовых паспортов кораблей на основе спектральных характеристик, вычисления корреляционных зависимостей паспорта и реального гидроакустического сигнала.
Глава 1. Характеристика сигналов в системах цифровой обработки
Цифровая обработка, в отличие от аналоговой, традиционно используемой во многих радиотехнических устройствах, является более дешевым способом достижения результата, обеспечивает более высокую точность, миниатюрность и технологичность устройства, температурную стабильность.

Наиболее жесткие требования к аппаратной части цифровой обработки предъявляют радиолокационные системы. Основным содержанием цифровой обработки здесь является фильтрация входных сигналов антенны, частоты сигналов от 10 МГц до 10 ГГц. Размеры преобразований могут достигать до 2¹⁴ комплексных точек, требования по быстродействию составляют 10⁹умножений в секунду.

При обработке цифровых сигналов радиолокатора используются алгоритмы цифровой фильтрации и спектрального анализа (вычисление дискретного и быстрого преобразования Фурье - ДПФ и БПФ), алгоритмы корреляционного анализа, обратной свертки, специальные алгоритмы линейного предсказания. В системах обработки звука цифровые процессоры обработки сигнала решают задачи анализа, распознавания и синтеза речи, сжатия речи в системах телекоммуникации. Для систем обработки изображений типовыми задачами являются улучшение изображений, сжатие информации для передачи и хранения, распознавание образов. При обработке цифровых звуковых сигналов используются алгоритмы цифровой фильтрации и спектрального анализа (вычисление ДПФ и БПФ), алгоритмы корреляционного анализа, обратной свертки, специальные алгоритмы линейного предсказания. В большинстве случаев удовлетворительные результаты обеспечивает формат данных с фиксированной запятой, длина слова 16 бит, частоты сигналов от 4 до 20 кГц (до 40 кГц в случае обработки музыки), требуемая производительность - до 10x10⁶ операций в секунду - 10 MIPS по компьютерной терминологии.

Характерным для систем обработки изображений является восстановление и улучшение изображений с помощью инверсной свертки, обработка массивов отсчетов с помощью алгоритмов быстрого преобразования Фурье. При восстановлении трехмерной структуры объектов, получаемых методами проникающего излучения в дефектоскопии и медицинской интраскопии, применяются методы пространственно-частотной фильтрации. Другой класс алгоритмов - преобразование контрастности, выделение контуров, статистическая обработка изображений. Для сжатия информации наиболее эффективны ортогональные преобразования Фурье, Адамара и Уолша. Требуемая производительность оценивается величинами 100-1000 MIPS, массивы данных - 10⁵-10⁶ отсчетов.

Таблица 1 Характеристики сигналов в системах цифровой обработки

Назначение

Характеристика

Диапазон частот, размерность

Требуемое быстродействие

Пример, разработчик

Радиолокационные системы

Фильтрация сигналов антенны

10 МГц - 10 ГГц, до 214 точек

109 умножений в секунду

Обработка звуковых сигналов

Анализ и синтез речи, сжатие и распознавание

20 кГц (40 кГц), 16 бит

10 MIPS

"Напев", ЦНИИ "Агат"

Системы обработки изображений

Восстановление и улучшение изображений

105-106 отсчетов

100-1000 MIPS

СПФ СМ, ИНЕУМ, ИРЕ АН СССР

Ниже приводятся описания двух отечественных систем цифровой обработки сигнала, которые, однако, предваряются небольшим экскурсом в математические и алгоритмические основы обработки последовательностей сигналов.
Программы для обработки звуковой информации.

Редакторы цифрового аудио
Тема программного обеспечения очень широка, поэтому здесь мы только вкратце обсудим основные представители программ для обработки звука.

Наиболее важный класс программ – редакторы цифрового аудио. Основные возможности таких программ это, как минимум, обеспечение возможности записи (оцифровки) аудио и сохранение на диск. Развитые представители такого рода программ позволяют намного больше: запись, многоканальное сведение аудио на нескольких виртуальных дорожках, обработка специальными эффектами (как встроенными, так и подключаемыми извне – об этом позже), очистка от шумов, имеют развитую навигацию и инструментарий в виде спектроскопа и прочих виртуальных приборов, управление/управляемость внешними устройствами, преобразование аудио из формата в формат, генерация сигналов, запись на компакт диски и многое другое. Некоторые из таких программ: Cool Edit Pro (Syntrillium), Sound Forge (Sonic Foundry), Nuendo (Steinberg), Samplitude Producer (Magix), Wavelab (Steinberg).

Основные возможности редактора Cool Edit Pro 2.0 - пример рабочего окна программы в многодорожечном режиме: редактирование и сведение аудио на 128 дорожках, 45 встроенных DSP-эффектов, включая инструменты для мастеринга, анализа и реставрации аудио, 32-битная обработка, поддержка аудио с параметрами 24 бит / 192 КГц, мощный инструментарии для работы с петлями (loops), поддержка DirectX, а также управление SMPTE/MTC, поддержка работы с видео и MIDI и прочее.

Основные возможности редактора Sound Forge 6.0a - пример рабочего окна программы: мощные возможности не деструктивного редактирования, многозадачная фоновая обработка заданий, поддержка файлов с параметрами до 32 бит / 192 КГц, менеджер предустановок, поддержка файлов более 4 Гб, работа с видео, большой набор эффектов обработки, восстановление после зависаний, предпрослушивание примененных эффектов, спектральный анализатор и прочее.

Глава 2. Применение цифровой обработки сигналов.

Шумоподавление для звука
Звуковой сигнал, записываемый в реальных акустических условиях, часто содержит нежелательные шумы, которые могут порождаться окружающей средой или звукозаписывающей аппаратурой. Один из классов шумов - аддитивные стационарные шумы.

Аддитивность означает, что шум суммируется с "чистым" сигналом и не зависит от него.

Стационарность означает, что свойства шума (мощность, спектральный состав) не меняются во времени.

Примерами таких шумов могут являться постоянное шипение микрофона или усилительной аппаратуры, гул электросети. Работа различных приборов, не меняющих звучания по времени (вентиляторы, компьютеры) также может создавать шумы, близкие к стационарным. Не являются стационарными шумами различные щелчки, удары, шелест ветра, шум автомобилей.

Для подавления аддитивных стационарных шумов существует алгоритм спектрального вычитания. Он состоит из следующих стадий:

1. Разложение сигнала с помощью кратковременного преобразования Фурье (STFT) или другого преобразования, компактно локализующего энергию сигнала.

2. Оценка спектра шума.

3. "Вычитание" амплитудного спектра шума из амплитудного спектра сигнала.

4. Обратное преобразование STFT - синтез результирующего сигнала.

В качестве банка фильтров рекомендуется использовать STFT с окном Ханна длиной порядка 50 мс и степенью перекрытия 75%. Амплитуду весового окна надо отмасштабировать так, чтобы при выбранной степени перекрытия окон банк фильтров не менял общую амплитуду сигнала в отсутствие обработки.

Оценка спектра шума может осуществляться как автоматически, путем поиска участков минимальной энергии в каждой частотной полосе, так и вручную, путем анализа спектра на временном сегменте, который пользователь идентифицировал как шум.

Одна из проблем метода спектрального вычитания - т.н. «музыкальный шум». Он появляется вследствие того, что коэффициенты STFT шумовых сигналов статистически случайны, что приводит к их неравномерному подавлению. В результате, очищенный сигнал содержит кратковременные и ограниченные по частоте всплески энергии, которые на слух воспринимаются как "колокольчики" или "льющаяся вода". В некоторых случаях этот эффект даже менее желателен, чем исходный подавляемый шум.

Для подавления этого артефакта можно применять следующие методы:

* Завышение оценки шумового порога (увеличение k). Приводит к подавлению слабых компонент полезного сигнала, звук становится глуше.

* Неполное подавление шума (ограничение снизу константой, отличной от нуля). Часть шума остается в сигнале и отчасти маскирует «музыкальный шум».

* Сглаживание по времени оценок спектра. Приводит к размытию или подавлению транзитов (резких всплесков в сигнале: ударов, атак музыкальных инструментов).

* Адаптивное сглаживание оценок спектра по времени и частоте. Наиболее качественный, но и трудоемкий метод.

Наиболее распространенный способ подавления «музыкального шума» - использует сглаживание спектра по времени. Для этого к STFT-коэффициентам исходного сигнала применяется рекурсивная фильтрация по времени.

Передискретизация
Ресамплинг (передискретизация, resampling) - это изменение частоты дискретизации цифрового сигнала. Применительно к цифровым изображениям ресамплинг означает изменение размеров изображения. Существует множество различных алгоритмов ресамплинга изображений. Например, для увеличения изображения в 2 раза можно просто продублировать каждую из его строк и каждый из его столбцов (а для уменьшения - выкинуть). Такой метод называется методом ближайшего соседа (nearest neighbor). Можно промежуточные столбцы и строки получить линейной интерполяцией значений соседних столбцов и строк. Такой метод называется билинейной интерполяцией (bilinear interpolation). Можно каждую точку нового изображения получить как взвешенную сумму большего числа точек исходного изображения (бикубическая и другие виды интерполяции).

Наиболее качественный ресамплинг получается при использовании алгоритмов, учитывающих необходимость работы не только с временной, но и с частотной областью изображения. Сейчас мы рассмотрим алгоритм ресамплинга, который основан на идее максимального сохранения частотной информации изображения.

Алгоритм построен по принципу интерполяция / фильтрация / прореживание (interpolation / filtering / decimation).

Работу алгоритма будем рассматривать на одномерных сигналах, так как двумерное изображение можно сначала растянуть или сжать по горизонтали (по строкам) а потом - по вертикали (по столбцам). Таким образом, ресамплинг двумерного изображения сводится к ресамплингу одномерного сигнала.

Пусть нам нужно «растянуть» одномерный сигнал от длины n точек до длины m точек, т.е. в nm раз. Для выполнения этой операции необходимо выполнить 3 шага. Первый шаг - интерполяция нулями, увеличивающая длину сигнала в m раз. Нужно умножить все отсчеты исходного сигнала на m, а потом после каждого отсчета сигнала нужно вставить m-1 нулевое значение. При этом спектр сигнала изменяется следующим образом. Та часть спектра, которая изначально содержалась в цифровом сигнале, остается без изменения (именно этого мы добиваемся). Но выше старой половины частоты дискретизации возникают помехи (отраженные копии спектра), от которых необходимо избавиться с помощью фильтрации.

Второй шаг - это отфильтровывание этих помех с помощью НЧ-фильтра. Теперь мы получили сигнал, который в m раз длиннее исходного, но сохранил его частотную информацию и не приобрел посторонней частотной информации (ее мы отфильтровали). Если бы нашей задачей было удлинение сигнала в m раз, то на этом шаге можно было бы остановиться. Но наша задача требует теперь уменьшить длину сигнала в n раз. Для этого нужно выполнить 2 шага. Первый шаг - это антиалиасинговая фильтрация. Так как частота дискретизации уменьшается в n раз, то из спектра сигнала, согласно теореме Котельникова, удастся сохранить только его низкочастотную часть. Все частоты выше половины будущей частоты дискретизации нужно удалить с помощью антиалиасингового фильтра с частотой среза равной n1 от текущей половины частоты дискретизации. Второй шаг - это прореживание полученного сигнала в n раз. Для этого достаточно выбрать из сигнала каждый n-й отсчет, а остальные - отбросить. Этот алгоритм очень схож с работой АЦП, который тоже сначала отфильтровывает ненужные частоты из сигнала, а потом замеряет Заметим, что две НЧ-фильтрации, применяемые в этом алгоритме друг за другом, можно (и нужно) заменить одной. Для этого частоту среза единого НЧ -фильтра нужно выбрать равной минимуму из частот среза двух отдельных НЧ-фильтров. Еще одно существенное улучшение алгоритма - это поиск общих делителей у чисел m и n. Например, очевидно, что для того, чтобы сигнал из 300 точек сжать до 200 точек, достаточно положить в алгоритме m=2 и n=3.

Заметим, что приведенный алгоритм требует очень большого объема вычислений, т.к. промежуточный размер одномерного сигнала при ресамплинге может быть порядка сотен тысяч. Существует способ существенно повысить быстродействие алгоритма и сократить расход памяти. Этот способ называется многофазной фильтрацией (polyphase filtering). Он основан на том, что в длинном промежуточном сигнале совсем необязательно вычислять все точки. Ведь большая часть из них все равно будет отброшена при прореживании. Многофазная фильтрация позволяет непосредственно выразить отсчеты результирующего сигнала через отсчеты исходного сигнала и антиалиасингового фильтра.

Отметим, что здесь мы не рассматриваем такие детали алгоритма, как коррекция границ изображения, выбор фазы сигнала при интерполяции и прореживании и построение хорошего антиалиасингового фильтра. Отметим только, что для ресамплинга изображений требуется уделить особое внимание как частотной, так и пространственной характеристике фильтра. Если оптимизировать фильтр только в частотной области, то это приведет к большим пульсациям в ядре фильтра. А при ресамплинге изображений пульсации в ядре фильтра приводят к пульсациям яркости вблизи резких перепадов яркости в изображении (эффект Гиббса, Gibbs phenomenon)

Антиалиасинг изображений
Избежать алиасинга при генерации изображений - важная задача компьютерной графики. Алиасинг в изображениях приводит к зубчатости краев фигур, муару, плохой читаемости текста и графиков. Одним из основных способов предотвращения алиасинга является так называемый суперсамплинг (super-sampling). Этот прием заключается в генерации изображения с большим разрешением и ресамплингу этого изображения до нужного размера. Рассмотрим пример. Пусть нам нужно сгенерировать трехмерное изображение шахматной доски с разрешением 200x150 пикселей. Если сделать это непосредственно (например, трассировкой лучей через каждую точку экрана), то результат может быть существенно искажен алиасингом (рис. 13). Применим метод суперсамплинга. Сгенерируем нужное нам изображение с четырехкратным размером 800x600 пикселей, а затем уменьшим его до размера 200x150. Заметим, что качество получаемого таким образом изображения существенно лучше и зависит от качества алгоритма ресамплинга и от степени суперсамплинга (во сколько раз большее изображение мы сгенерировали). Желательно применять алгоритм ресамплинга, обеспечивающий хороший антиалиасинг.

Изображение, сгенерированное без антиалиасигна и с антиалиасингом.

Псевдотонирование изображений
Псевдотонирование (half-toning) - это создание иллюзии полноцветности изображения с помощью небольшого реального числа цветов. Пример псевдотонирования - фотографии в газетах, где любые оттенки серого передаются с помощью чередования мелких черных и белых точек.

Мы рассмотрим вариант псевдотонирования для черно-белых изображений. Нашей задачей будет представить изображение с оттенками серого в виде монохромного (двухцветного) изображения.

Пусть мы имеем изображение в оттенках серого, интенсивность точек которого может принимать произвольные значения от 0 до 1. Рассмотрим некоторые алгоритмы приведения такого изображения к монохромному, яркость точек которого может принимать 2 значения: 0 или 1.

Первый самый простой алгоритм - это усечение (порог). Все пиксели с яркостью больше 0.5 получают яркость 1, все остальные - яркость 0. Такой алгоритм обычно дает наихудшие результаты (рис. 15).

Более качественные алгоритмы стремятся так распределить черные и белые пиксели в полученном изображении, чтобы на каждом участке изображения концентрация белых пикселей была пропорциональна яркости этого участка в исходном изображении.

Один из таких методов - упорядоченное псевдотонирование. В этом методе исходное изображение разбивается на небольшие блоки одинакового размера (например, 3x3). Затем в каждом блоке находится средняя яркость изображения. В соответствии с этой средней яркостью выбирается количество белых пикселей в соответствующем блоке получаемого монохромного изображения. Обычно эти белые пиксели упорядочиваются в соответствии с некоторым регулярным шаблоном.

Существуют другие алгоритмы достижения нужной концентрации белых пикселей в получаемом монохромном изображении. Например, существует класс алгоритмов, которые достигают этого в 2 стадии. Сначала к изображению добавляется случайный шум необходимой амплитуды, а затем применяется порог. Такие алгоритмы называют диттерингом (dithering).

Шум представляет собой некий достаточно случайный сигнал, не зависящий от изображения. Например, белый шум - это просто последовательность случайных чисел с математическим ожиданием 0. Спектр такого шума приблизительно равен константе на всех частотах (в пределах половины частоты дискретизации). Последовательные отсчеты такого шума не коррелируют между собой.

Существуют другие виды шума. Например, у розового шума энергия обратно пропорциональна частоте (в определенном рассматриваемом диапазоне частот). Другими словами, амплитуда его гармоник падает на 3 дБ при удвоении частоты. У голубого шума энергия наоборот растет с частотой. Существуют и другие виды шума, однако определения для них могут быть различны в разных областях.

Будем называть ошибкой квантования изображение, равное разности исходного и псевдотонированного изображений.

При псевдотонировании изображений стремятся добиться того, чтобы спектр изображения-ошибки по возможности не содержал низкочастотных и среднечастотных компонент. В этом случае ошибка будет менее заметна человеческому глазу. Например, при диттеринге розовым шумом спектр ошибки тоже близок к светло-розовому, и результирующее изображение выглядит значительно искаженным (рис. 15). При диттеринге белым шумом спектр ошибки белый. Поэтому результирующее изображение выглядит лучше. При диттеринге с диффузией ошибки спектр ошибки получается близок к голубому шуму, т.е. содержит мало низкочастотных компонент. В результате получается приятное глазу изображение.

Нетрудно видеть, что просто диттеринг голубым шумом не приводит к желаемому результату, т.к. ошибка квантования при этом имеет спектр, содержащий значительное количество низкочастотных и среднечастотных компонент. Для избавления от них нужно применить рекурсивный фильтр. Этот метод псевдотонирования называется диффузией ошибки (error diffusion). Его идея в том, что ошибка квантования, возникшая при квантовании данного пикселя, распространяется с обратным знаком на соседние пиксели и таким образом как бы компенсируется.

Выравнивание освещенности изображений
Часто некоторые участки на изображении бывают слишком темными, чтобы на них можно было что-то разглядеть.

Если прибавить яркости ко всему изображению, то изначально светлые участки могут оказаться совсем засвеченными. Чтобы улучшить вид изображения в таких случаях, применяется метод выравнивания освещенности.

Этот метод не является линейным, т.е. не реализуется линейной системой. Действительно, рассмотрим модель типичную освещенности для фотографии. Фотографируемый пейзаж обычно освещен по-разному в разных точках. Причем обычно освещенность меняется в пространстве достаточно медленно.

Мы хотим, чтобы все детали на фотографии были освещены более однородно, но при этом оставались достаточно контрастными друг относительно друга.

А на реальной фотографии получается произведение той картинки, которую мы хотим видеть и карты освещенности. Там где освещенность близка к нулю, все предметы и детали тоже близки к нулю, то есть практически невидимы.

Поскольку освещенность меняется в пространстве достаточно медленно, то можно считать ее низкочастотным сигналом. Само же изображение можно считать в среднем более высокочастотным сигналом. Если бы в процессе фотографии эти сигналы складывались, то их можно было бы разделить с помощью обычного фильтра.

Например, применив ВЧ-фильтр, мы бы «избавились от перепадов освещенности» (НЧ-сигнала), а оставили «само изображение». Но поскольку эти сигналы не складываются, а перемножаются, то избавиться от неравномерностей освещенности простой фильтрацией не удастся.

Для решения таких задач применяется гомоморфная обработка. Основной метод гомоморфной обработки заключается в сведении нелинейной задачи к линейной с помощью каких-либо преобразований. Например, в нашем случае можно свести задачу разделения перемноженных сигналов к задаче разделения сложенных сигналов. Для этого нужно взять логарифм от произведения изображений.

Логарифм от произведения равен сумме логарифмов сомножителей. Если учесть, что логарифм от НЧ-сигнала остается НЧ-сигналом, а логарифм от ВЧ-сигнала остается ВЧ-сигналом, то мы свели задачу разделения произведения сигналов к задаче разделения суммы НЧ- и ВЧ-сигналов. Очевидно, эту задачу можно решить с помощью ВЧ-фильтра, который удалит из суммы сигналов низкие частоты. После этого останется только взять от полученного сигнала экспоненту, чтобы вернуть его к исходному масштабу амплитуд.

ВЧ-фильтр можно реализовать следующим образом. Сначала к изображению применяется операция размытия (НЧ-фильтр), а потом из исходного изображения вычитается размытое.

Наилучший радиус размытия зависит от конкретного изображения. Можно начать эксперименты с радиуса порядка десяти пикселей.

Обычно для размытия изображения применяется двумерный гауссовский фильтр.

Непосредственное вычисление двумерной свертки с таким ядром потребует огромных вычислений даже при сравнительно небольшом размере ядра. Однако приведенное гауссово ядро обладает свойством сеперабельности.

Это означает, что эквивалентного эффекта можно достичь, отфильтровав сначала все строки изображения одномерным гауссианом, а затем отфильтровав все столбцы полученного изображения таким же одномерным гауссианом.

Полученный от выравнивания освещенности эффект может оказаться слишком сильным (темные области станут по яркости такими же, как и светлые). Чтобы уменьшить эффект, можно просто смешать обработанное изображение с исходным в определенной пропорции.
Программы для написания музыки
Не менее важная в функциональном смысле группа программ – секвенсоры (программы для написания музыки). Чаще всего, такие программы используют MIDI-синтезатор (аппаратный внешний или встроенный почти в любую звуковую карту, либо программный, организуемый специальным программным обеспечением). Такие программы предоставляют пользователю либо привычный нотный стан (как, например, программа Finale от CODA), либо более распространенный способ редактирования аудио на компьютере, так называемый, piano-roll (это более понятное представление музыки для людей, не знакомых с нотами; в таком представлении вертикально имеется ось с изображением клавиш пианино, а горизонтально откладывается время, таким образом, ставя на пересечении штрихи разной длинны, добиваются звучания определенной ноты с определенной продолжительностью). Встречаются и программы, позволяющие просматривать и редактировать аудио в обоих представлениях. Развитые секвенсоры помимо редактирования аудио во многом могут дублировать возможности редакторов цифрового аудио – осуществлять запись на CD, совмещать MIDI-дорожки с цифровыми сигналами и осуществлять мастеринг. Яркие представители такого класса программ: Cubase (Steinberg), Logic Audio (Emagic), Cakewalk (Twelve Tone Systems) и уже упомянутый Finale.

Основные возможности редактора Cubase 5.1 – пример рабочего окна программы в режиме просмотра MIDI дорожек: редактирование музыки в реальном времени используя графическое представление информации, высокое разрешение редактора (15360 пульсов на четверть), практически не лимитированное количество дорожек, 72 аудио канала, поддержка VST32, 4 эквалайзера на канал и другие поканальные эффекты, встроенные инструменты обработки с использованием аналогового моделирования (виртуальные инструменты, эффект процессоры, инструменты микширования и записи) и множество других возможностей.

Основные возможности редактора Logic Audio 5 – пример рабочего окна программы: работа со звука при точности в 32 бита, высокое временное разрешение событий, самоадаптируемый микшер аудио и MIDI, оптимизируемый интерфейс пользователя, синхронизация с видео, виртуально неограниченное число MIDI-дорожек, обработка звука в реальном времени, полная синхронизация с MTC, MMC, SMPTE, встроенные модули обработки и автоинструменты, поддержка большого количество аппаратного оборудования, а также множество других возможностей.

В наборе программ пользователя, занимающегося обработкой звука, имеется множество разных инструментов, так было раньше и так будет впредь – универсальных комбайнов для работы со звуком не бывает. Однако, не смотря на все разнообразие ПО, в программах часто используются схожие механизмы для обработки звука (например, процессоры эффектов и прочие). На каком-то этапе разработки аудио ПО, производители поняли, что удобнее сделать в своих программах возможность подключения внешних инструментов, чем каждый раз создавать заново инструменты для каждой отдельной программы. Так что многие программы, относящиеся к той или иной группе ПО, позволяют подключать так называемые «плагины» - внешние подключаемые модули, расширяющие возможности обработки звука. Это стало возможным в результате появления нескольких стандартов на интерфейс между программой и подключаемым модулем.

На сегодняшний день существуют два основных стандарта на интерфейс: DX и VST. Существование стандартов позволяет подключать один и тот же плаг-ин к совершенно разным программам, не заботясь о возникновении конфликтов и неполадок. Говоря о самих плаг-инах, надо сказать, что это просто огромное семейство программ. Обычно, один плаг-ин является механизмом, реализующим какой-то конкретный эффект, например, реверберацию или низкочастотный фильтр.

Из интересных плагинов можно вспомнить, например iZotope Vinyl, - он позволяет придать звучанию эффект виниловой пластинки – пример рабочего окна плагина в среде Cool Edit Pro), Antares AutoTune позволяет в полуавтоматическом режиме корректировать звучание вокала, а Orange Vocoder являет собой замечательный вокодер (механизм для придания звучанию различных инструментов схожести со звучанием голоса человека).

Программы-анализаторы аудио
Обработка звука и написание музыки – это не только творческий процесс. Иногда нужен скрупулезный анализ данных, а также осуществление поиска огрехов их звучания. Кроме того, аудио материал, с который приходится иметь дело, не всегда желаемого качества. В этой связи нельзя не вспомнить о целом ряде программ-анализаторов аудио, специально предназначенных для осуществления измерительных анализов аудио данных. Такие программы помогают представить аудио данные удобнее, чем обычные редакторы, а также внимательно изучить их с помощью различных инструментов, таких как FFT-анализаторы (построители динамических и статических амплитудно-частотных характеристик), построители сонограмм, и прочих. Одна из наиболее известных и развитых программ подобного плана – программа SpectraLAB (Sound Technology Inc.), чуть более простые, но мощные – Analyzer2000 и Spectrogram.

Программа SpectraLAB – наиболее мощный продукт подобного рода, существующий на сегодня – пример рабочего окна программы, на экране: спектральная картина в трез представлениях и фазовая картина). Возможности программы: 3 режима работы (пост режим, режим реального времени, режим записи), основной инструментарий – осциллограф, спектрометр (двухмерный, трехмерный, а также построитель сонограмм) и фазометр, возможность сравнения амплитудно-частотных характеристик нескольких сигналов, широкие возможности масштабирования, измерительные инструменты: нелинейных искажений, отношения сигнал/шум, искажений и прочие.

Специализированные реставраторы аудио
Специализированные реставраторы аудио играют также немаловажную роль в обработке звука. Такие программы позволяют восстановить утерянное качество звучания аудио материала, удалить нежелательные щелчки, шумы, треск, специфические помехи записей с аудио-кассет, и провести другую корректировку аудио. Программы подобного рода: Dart, Clean (от Steinberg Inc.), Audio Cleaning Lab. (от Magix Ent.), Wave Corrector.

Основные возможности реставратора Clean 3.0 – рабочее окно программы: устранение всевозможных потрескиваний и шумов, режим автокоррекции, набор эффектов для обработки скорректированного звука, включая функцию «surround sound» с наглядным акустическим моделированием эффекта, запись CD с подготовленными данными, «интеллигентная» система подсказок, поддержка внешних VST плагинов и другие возможности.

Трекеры
Трекеры – это отдельная категория звуковых программ, предназначенных именно для создания музыки. Структура и концепция построения трекерных файлов очень похожа на принцип хранения MIDI-информации. В трекерных модулях (файлы, созданные в трекерах, принято называть модулями), также, как и в MIDI-файлах, содержится партитура в соответствии с которой должны проигрываться инструменты. Кроме того, в них содержится информация о том, какие эффекты и в какой момент времени должны быть применены при проигрывании того или иного инструмента. Однако, принципиальное отличие трекерных модулей от MIDI-файлов заключается в том, что проигрываемые в этих модулях инструменты (или, точнее сказать, сэмплы) хранятся в самих модулях (то есть внутри файлов), а не в синтезаторе (как это происходит в случае с MIDI). Такой способ хранения музыки имеет массу преимуществ: размер файлов невелик по сравнению с непрерывной оцифрованной музыкой (поскольку записываются только использованные инструменты и партитура в виде команд), нет зависимости звучания от компьютера, на котором происходит воспроизведение (в MIDI, как мы говорили, есть зависимость звучания от используемого синтезатора), имеется большая свобода творчества, поскольку автор музыки не ограничен наборов инструментов (как в MIDI), а может использовать в качестве инструмента любой оцифрованный звук. Основные программы-трекеры Scream Tracker, Fast Tracker, Impulse Tracker, OctaMED SoundStudio, MAD Tracker, ModPlug Tracker.

Программа ModPlug Tracker является сегодня одним из тех трекеров, сумевших стать универсальной рабочей средой для множества типов трекерных модулей 7 – пример рабочего окна программы, на экране: содержание дорожек одного загруженного модуля и рабочее окно сэмплов другого модуля). Основные возможности: поддержка до 64 физических каналов аудио, поддержка почти всех существующих форматов трекерных модулей, импорт инструментов во множестве форматов, 32-битное внутреннее микширование, высококачественный ресэплирующий фильтр, поддержка MMX/3dNow!/SSE, автоматическое удаление потрескиваний, расширение басов, ревербератор, расширение стерео, 6-полосный графический эквалайзер и другие возможности.

Напоследок следует упомянуть о существовании огромного количества другого аудио ПО: проигрыватели аудио (наиболее выдающиеся: WinAMP, Sonique, Apollo, XMPlay, Cubic Player), подключаемые модули для проигрывателей (из «улучшателей» звучания аудио - DFX, Enhancer, iZotop Ozone), утилиты для копирования информации с аудио CD (ExactAudioCopy, CDex, AudioGrabber), перехватчики аудио потоков (Total Recorder, AudioTools), кодеры аудио (кодеры MP3: Lame encoder, Blade Encoderб Go-Go и другие; кодеры VQF: TwinVQ encoder, Yamaha SoundVQ, NTT TwinVQ; кодеры AAC: FAAC, PsyTel AAC, Quartex AAC), конвертеры аудио (для перевода аудио информации из одного формата в другой), генераторы речи и множество других специфических и общих утилит. Безусловно, все перечисленное – только малая толика из того, что может пригодиться при работе со звуком.
Программы для копирования и сжатия цифрового звука с компакт-дисков
Для копирования компакт- диска в формат МРЗ, нам понадобятся как минимум две программы:

Граббер - система цифрового копирования содержания AudioCD на жесткий диск;
Кодер - программа для кодирования получившихся файлов в МРЗ.

В принципе, позднее понадобится еще одна программа - плеер, ведь проигрывать получившиеся звуковые файлы мы будем опять-таки на компьютере, наш музыкальный центр для этого не подойдет.

Что касается кодеров и грабберов, то сегодня они чаще всего работают в единой связке. К примеру, все популярные грабберы - Audiograbber, CDex, EAC или WinDAC - имеют в комплекте поставки и МРЗ-кодер, что позволяет кодировать звук с CD в МРЗ напрямую, минуя промежуточную стадию создания на жестком диске громадного файла с копией содержимого дорожки.

От самого граббера требуется не так уж и много.

1. Способность чтения информации о компакт-диске из базы данных Интернет (CDDB) и сохранения ее на жестком диске для дальнейшего использования. Это позволяет в процессе копирования дорожек на звуковой диск давать им имена, соответствующие названию и номерам композиций, а также запоминать эту информацию в тэге будущего МРЗ-файла.

2. Возможность работы с несколькими популярными кодировщиками, с возможностью установления индивидуальных параметров для каждого.

3. Возможность прямого копирования содержимого звуковых дорожек в МРЗ.

4. Возможность автоматического заполнения МРЗ-тэгов.

5. Возможность сохранения на диске в виде плейлиста (playlist) - обычного текстового файла с расширением M3U или PLS. В таком файле содержится список файлов, содержащих композиции с альбома, и их очередность, что позволяет плеерам проигрывать не отдельные композиции, а весь альбом целиком. Хотя составить такой "плейлист" вы можете сами, в любом текстовом редакторе, - напишите в столбик, в порядке очередности, названия всех файлов (с полным путем к ним), которые вы хотите воспроизвести, и сохраните получившийся список как файл с расширением M3U. После чего спокойно щелкайте по нему мышкой - если на вашем компьютере установлен плеер МРЗ, он запустится автоматически.

Всем этим требованиям удовлетворяют две самые популярные в мире связки "кодер-граббер" - Audiograbber и CDex.

Audiograbber - бесспорный лидер по популярности в нашей стране (еще и потому, что у нас легко доступна "взломанная" версия этой вообще-то защищенной коммерческой программы).

По умолчанию в Audiograbber встроена поддержка только встроенного в Windows кодека от Fraunhofer IIS (хотя в последние версии стали включать и ISO-кодек BladeEnc). При установке же дополнительного кодера от Xing, Audiograbber примет его как родного - таким образом, будут поддерживаться все три популярных класса кодировщиков.

следующая страница>

Назначение	Характеристика	Диапазон частот, размерность	Требуемое быстродействие	Пример, разработчик
Радиолокационные системы	Фильтрация сигналов антенны	10 МГц - 10 ГГц, до 214 точек	109 умножений в секунду
Обработка звуковых сигналов	Анализ и синтез речи, сжатие и распознавание	20 кГц (40 кГц), 16 бит	10 MIPS	"Напев", ЦНИИ "Агат"
Системы обработки изображений	Восстановление и улучшение изображений	105-106 отсчетов	100-1000 MIPS	СПФ СМ, ИНЕУМ, ИРЕ АН СССР