что это такое и как он влияет на мастеринг музыки — SAMESOUND
Динамический диапазон — многозначительный термин, использующийся в музыкальной индустрии для описания различных характеристик оборудования и сигнала. Несмотря на использование в разных областях производства музыки, диапазон служит важнейшей характеристикой при мастеринге. Из этого материала вы узнаете, что такое динамический диапазон, а также поймёте, в чём его важность.
Динамический диапазон (англ. Dynamic Range) — один из самых популярных терминов в музыкальном мире. В зависимости от контекста им обозначают производительность аудиосистем, количество хедрума в аудиофайле и ряд других вещей.
Несмотря на многозначительность термина, динамический диапазон играет одну из важнейших ролей в вопросе мастеринга. Именно эта характеристика служит ключом к громкости и описывает влияние компрессии и лимитирования на итоговый сигнал.
Что такое динамический диапазон
В зависимости от контекста использования, динамический диапазон обозначает разные вещи:
- В производстве музыки динамический диапазон описывает разницу в уровне громкости между самым громким и самым тихим звуком в аудиофайле. Характеристика измеряется в децибелах (дБ).
- Для аудиофайлов и отдельных дорожек в DAW динамический диапазон описывает разницу в децибелах между самым громким и самым тихим моментом в аудиофайле на дорожке.
- В готовых миксах и изданных треках показатель сообщает о расстоянии, которое преодолевает сигнал от точки полной тишины до итогового уровня громкости.
- Для устройств воспроизведения и записи диапазон определяет границы возможностей оборудования. Показатель сообщает, насколько тихие и громкие сигналы могут быть правильно записаны и воспроизведены этими устройствами.
Динамический диапазон можно воспринимать как пространство между минимальным уровнем шума (нойз-флор) и точкой отсечения, в которой образуется клиппинг.
Аудиоустройства не способны записать или воспроизвести сигнал за пределами минимального уровня шума. Нам не удастся услышать такой звук: для слуха он будет не отличим от окружающего шума.
Когда сигнал пересекает точку отсечения, вершины звуковой волны резко обрезаются — в звуке появляется неприятная резкость и искажения.
Динамика в мастеринге
Динамический диапазон подсказывает количество обработки сигнала (компрессии и лимитирования) при мастеринге.
Большой динамический диапазон — меньше компрессии, меньше громкость.
Малый динамический диапазон — больше компрессии, больше громкость.
Звуковая волна состоит из пиков и спадов — вершин и впадин. Расстояние между пиками и спадами напрямую зависит от динамики сигнала: чем динамичнее звук, тем больше дистанция между вершинами и впадинами. Такое поведение напрямую влияет на подход к мастерингу, а значит и на само звучание музыки.
Тихий и динамичный мастеринг
Сильная динамика и большое расстояние между пиками и спадами приводит к более явному звучанию транзиентов — начальных импульсов сигнала (кстати, вот здесь мы подробнее рассказываем о транзиентах).
Такие моменты сильно выделяются на общем фоне: транзиенты слышны в мельчайших подробностях и обладают большей детализацией. То же справедливо и для других переходных состояний звука: спадам и хвостам сигналов, моментам тишины и паузам, крещендо и декрещендо (диминуэндо).
Из-за того, что транзиенты и переходные звуки обладают сильной динамикой, слишком активное сжатие и лимитирование приведёт искажениям, клиппингу и пикам при каждом проявлении транзиентов. По этой причине миксы с большим динамическим диапазоном отличает более низкий уровень громкости и малое количество компрессии: трек делают тише, чтобы оставить достаточно места для самых активных элементов.
Тихие динамичные мастер-треки чаще всего встречаются в живых и импровизационных стилях (джазе, блюзе, фанке и фьюжн), а также в классической и академической музыке.
Громкий и компрессированный мастеринг
Громкость часто служит основным элементом привлечения внимания слушателей. Громкая музыка моментально обращает на себя внимание, что особенно ценится в роке и метале, различных -корах, а также некоторых стилях электронной музыки. Малый динамический диапазон сигналаДля достижения максимально возможной громкости и некоторой агрессии в звуке мастеринг-инженеры уменьшают динамический диапазон трека. Благодаря этому микс звучит более плотно и монолитно, а его громкость может быть практически вплотную приближена к допиковым значениям.
Уменьшение динамического диапазона происходит с помощью компрессоров и лимитеров. Важную роль здесь играет баланс между громкостью и естественностью: чем громче звук, тем более искусственно он звучит после компрессии.
Самая сложная задача в мастеринге — добиться максимально возможной громкости без полного уничтожения микса. Переизбыток громкости приводит к искажению сигналов, появлению артефактов, клиппинга и других недостатков.
Итоговый уровень громкости напрямую зависит от модели распространения трека: каждая платформа и носитель обладает собственными рекомендациями по общей громкости музыки (да, те же YouTube и SoundCloud по разному сжимают музыку). Выводить громкость вплотную к пиковым отметкам не нужно — сервисы и носители могут уменьшить или увеличить динамический диапазон, что попросту уничтожит микс.
ВОЙНА ГРОМКОСТЕЙ
Разница в требованиях стала одной из причин Войны громкостей, проявившейся в виде бездумного повышения уровня громкости издаваемых релизов в 2000-х годах. Лейблы и издатели негласно соревновались в специальной дисциплине «Кто издаст более громкий релиз?», не обращая внимания на то, как страдает сама музыка.
В Интернете даже запустили базу данных, в которой представлены данные о громкости и динамическом диапазоне десятков тысяч релизов, выпущенных в 2000-е.
Итоговая динамика
Динамический диапазон выглядит как эдакая тонкость для эстетов от мира производства музыки, но внешность обманчива. Характеристика является одним из важных факторов качественного звучания вашей музыки: информация о диапазоне подсказывает возможности аппаратуры и рассказывает, как будет звучать музыка после мастеринга.
Динамический диапазон — кому нужен он? • Stereo.ru
Возможно, по прошлым колонкам у кого-то сложилось впечатление, что я призываю не скулить, переходить на сетевые плееры и HD-контент, и все автоматом станет окей. Это не совсем так. Сравнивая несколько изданий одного альбома, прежде всего меня интересует не максимальное количество бит, а максимальная ширина динамического диапазона.
Чтобы узнать, нуждается ли в нем ваша акустика — поставьте простой эксперимент. Запустите любой компакт-диск примерно до 90-го года выпуска, и прибавьте газку на усилителе. Звук остался плоским, вялым и невыразительным, как и на малой громкости, да? Я вас поздравляю — акустика справляется только с компрессированными записями.
В 80-х компакт-диски причислялись к High-End. Динамический диапазон уважали и принимали за точку отсчета самое громкое место в альбоме, по которому и выстраивали CD-мастеринг. В начале 90-х пики цифрового сигнала стали потихоньку подтягивать к лимиту в 0 дБ. Громче было нельзя, иначе звуковая волна обрезалась, и не просто, а с искажениями, называемыми клиппингом.
Я отлично помню тот переломный момент, когда вдруг поперли громкие, раскатистые альбомы вроде «The Fat of the Land» (1997) у The Prodigy или «Gran Turismo» (1998) у The Cardigans. Я тогда еще не знал, что во второй половине 90-х на студиях распространились цифровые компрессоры и лимитеры, позволяющие эффективно отсекать пики сигнала и подтягивать к 0 дБ уже основную музыкальную партию, делая ее еще громче, громче и громче. Не скрою, что тогда мне очень понравилось звучание этих новых альбомов. К тому же моя hi-fi система попросту не позволяла раскрыть потенциал «тихих» CD с большим динамическим диапазоном. А свежие издания звучали действительно лихо — и не только у меня. Это и был решающий аргумент в знаменитой loudness war, начавшейся еще в виниловую эпоху, когда продюсеры и музыканты обратили внимание, что громкие синглы лучше привлекают публику. C легкой руки лейбла Motown появился термин «Hot Mastering».
Позже мне стало очевидно, что эти накачанные анаболиками треки невозможно слушать на большой громкости — музыка получается зычная, но пустая, как барабан. Сегодня практически 100% новых записей и ремастеров издается с компрессией динамики. Тенденции не избежали даже тестовые CD. Например, таковой сделалась серия демо-дисков Focal JMLab, начиная с 2000 года. Исключения составляют лейблы с классической музыкой и специальные издания вроде тех, которые делают на Mobile Fidelity Sound Lab.
В loudness war есть своя логика — ведь музыку чаще всего слушают в автомобилях, портативе и мультимедийных системах — фонограмма с большой амплитудой прозвучит там абсолютно беспомощно.
На хорошей, чуткой акустике слышно, что больше всего при компрессии страдает вокал. Студийными эффектами сцену можно сделать сколь угодно широкой, добавить баску, но голос в зажатой динамике потеряет в живости и локализации. Он размажется где-то там, между третьим и четвертым инструментами.
Однако не стоит отчаиваться. Спецификации современных АС с тугими длинноходными динамиками чувствительностью ниже 88 дБ не описывают этот нюанс, но большинство из них адаптировано именно под компрессированный контент. Иначе бы вы не накупили себе столько ремастеров. Самые мудрые и понимающие издатели выпускают (например, Пол Маккартни) в двух вариантах — полнодиапазонном и традиционном «громком». Надеюсь, это станет стандартной процедурой в индустрии. А пока, если интересно получить на руки цифровое измерение динамического здоровья свой аудиоколлекции, поставьте к плееру Foobar соответствующий плагин. Познавательное занятие, честно скажу.
Динамический диапазон уха — Энциклопедия по машиностроению XXL
Ухо человека обладает свойствами частотного анализатора, дискретным восприятием по частотному и динамическому диапазонам (аналоговый звуковой сигнал превышается в последовательность электрических импульсов двоичного типа). Все эти операции осуществляются во внутреннем ухе, в так называемой улитке. В улитке находится основная (базилярная) мембрана, состоящая из большого числа волокон, слабо связанных между собой. Вдоль основной мембраны расположены нервные окончания, каждое из которых (а их свыше 20 ООО) возбуждается от прикосновения к ним волокон основной мембраны, посылая в слуховой центр мозга электрические импульсы. Там эти импульсы подвергаются сложному анализу, в результате которого человек определяет передаваемое сообщение. [c.19]Интенсивность самого слабого звука, который может быть услышан, зависит от частоты. При частоте 440 гц порог слышимости среднего человека близок к 10 /о- Таким образом, человеческое ухо работает в колоссальном динамическом диапазоне интенсивности, занимающем 12 порядков (от 100 h до 10 /о).
Терминология-, децибел. Когда интенсивность звука возрастает в 10 раз, то говорят, что она возросла на 1 бел. Таким образом, динамический диапазон человеческого уха близок к 12 бел. Увеличение интенсивности в 10 раз означает увеличение в 0,1 бел, или 1 децибел. Таким образом, [c.187]
Как показывает опыт, фазовые соотношения тонов сложного звука не оказывают на его восприятие сколько-нибудь заметного влияния, если эти соотношения не изменяются во времени. Форма же звукового сигнала от соотношения фаз тонов может существенно изменяться (рис. 2.19). Несмотря на существенные различия форм сигналов ухо воспринимает их при постоянстве амплитуд гармоник как абсолютно идентичные сигналы. Однако форма сигнала имеет существенное значение для электроакустического тракта, так как различные амплитуды воспроизводимых сигналов требуют различных динамических диапазонов тракта. [c.70]
Цифровые методы позволяют обеспечить качество звукопередачи, недоступное для аналоговых систем. Так, нелинейные искажения сигнала могут составлять сотые доли процента, динамический диапазон 96.. .100 дБ, детонация в цифровых системах звукозаписи отсутствует вовсе. Поэтому и требования к полосе пропускания цифровых систем вещания определяются из условия обеспечения соответствующего высокого качества звучания. Методом субъективно-статической экспертизы был проведен ряд экспериментов для определения заметности слушателями ограничения спектра реальных вещательных сигналов в области верхних частот звукового диапазона. Исследования показали, что, во-первых, на частотах выше 15 кГц порог слышимости уха резко возрастает и, во-вторых, в диапазоне 15… 20 кГц энергия вещательного сигнала быстро убывает. Поэтому только сравнительно небольшая группа слушателей, преимущественно молодых, способна заметить разницу в звучании при ограничении спектра сигнала частотами 15 и 20 кГц. Исходя из этого, признано, что полоса частот до 15 кГц достаточна для высококачественной передачи сигналов ЗВ и значение / чакс=15 кГц принято за расчетное при аналого-цифровом представлении таких сигналов в системах первичного и вторичного распределения. Однако в студийном и бытовом оборудовании (пультах, магнитофонах, проигрывателях) принята -Рмакс=20 кГц. При этом удовлетворяются требования самых взыскательных слушателей не накапливаются амплитудно-частотные искажения в основной полосе частот при многократной перезаписи с использованием аналоговых фильтров, а возрастание скорости цифрового потока при кодировании сигнала с 20 кГц по сравнению с / макс=15 кГц в данном случае несущественно, так как специфика работы студийных и бытовых устройств не связана с передачей сигналов по линиям связи. [c.215]
Динамический диапазон уха 187 Диоптрия 458 Дипольное излучение 473 Диспергирующая среда 79 Дисперсивная область частот 140, 506 [c.522]
Ухо человека одновременно служит анализатором частот, указателем направленности звука и индикатором громкости, высоты и тембра звука. Оно способно воспринимать звуки частотного диапазона от 16 до 20 ОООгг (более 10 октав), а также динамический диапазон звуков, ограниченный порогом слуховой чувствительности и порогом болевого ощущения. Ухо обладает наибольшей чувствительностью в области частот от 800 до 4000 гц. [c.19]
Предупреждающие и аварийные сигналы должны бьггь прерывистыми. Несущая частота предупреждающих сигналов составляет 200 -600 Гц при длительности сигналов и интервалов между ними 1 — 3 с. Несущая частота аварийных сигналов должна быть 800 — 2000 Гц при длительности интервалов 0,2 — 0,8 с. Уровень звукового давления сигналов у входа в нару Л1ый слуховой проход уха человека, находящегося на рабочем месте, должен быть в пределах полезного динамического диапазона, т.е. 30 — 100 дБ. [c.254]
Шкала децибелов. Сила звуков, воспринимаемых нормальным человеческим ухом, меняется, как показывает опыт, в очень широких пределах в области средних частот (1000—4000 гц) сила нормально слышимого звука варьирует от 10 эрг см. -сек вбтш от порога слухового восприятия до 10 эрг1см сек вблизи от болевого порога, на котором нормальное слуховое ощущение переходит в болезненное раздражение органа слуха. Таким образом сила слышимых звуков лежит в границах, относящихся друг к другу, как 10 1 это — так называемый динамический диапазон слухового восприятия, [c.72]
С точки зрения закона Вебера-Фехнера можно уяснить себе способность Слуха воспринимать звуки в вышеуказанном широком динамическом диапазоне. Однако при малом изменении силы звука ухо оказываете не в состоянии уловить разницу. Минимальное относительное изменение силы звука, улавли ваемое ухом, не есть какая-либо вполне определенная величина она зависит от частоты и начальной интенсивности звука. На нижней границе слышимого диапазона при частоте порядка 30 Нг и при очень слабых звуках ухо едва отмечает различие в силе звука в 10 раз (10 дб). При более сильных звуках на той же частоте отмечается уже изменение силы звука вдвое (3 дб). На средних частотах при слабых звуках, едва превышающих порог слышимости, ухо улавливает уже изменение силы, звука порядка 30% (1,2 дб). Для средних частот и сил звука можно принять, что заметное изменение силы звука составляет около 10% (0,4 дб). Нужно иметь в виду, что эти данные получены в результате опытов в специальной обстановке и с чисто синусоидальными звуками на практике при наличии сложных звуков можно полагать, что изменения отдельных компонент на 1 дб (26%) вряд ли смогут быть уловлены ухом. . [c.24]
Что касается субъективного восприятия кратковременных импульсов типа. удара» (слышимого в телефоне при включении постоянного тока) и тональных импульсов (при включении тока звуковой чггтоты), то ухо является своего рода интегрирующим, баллистическим прибором (аналогично тепловому прибору), обладающим известной частотной избирательностью в соответствии с кривыми равной громкости. В силу таких особенностей мы можем слуховой аппарат грубо схематически мыслить, как некоторый апериодический колебательный контур, на выходе которого включен прибор 1), показывающий эффективное значение импульса. Согласно экспериментальным данным этот эквивалентный контур обладает при слабой силе мпульса постоянной времени порядка 0,2—0,3 мсек., а при-, нормальной силе 0,06 мсек. (8 и 9]. Видимо, эта величина представляет собой границу вос приимчивости уха к быстрым динамическим изменениям уровня сигнала при более резких изменениях небольших уровней, что возможно, например, при автоматическом регулировании динамического диапазона (см. 7), ухо не. срабатывает , не доводя, таким образом, эффект до сознания. Установлением этого специфического порога слуха занимался ряд исследователей (Штейдель, Бекеши). [c.24]
Английские ученые с 1964 года занимаются изучением последствий воздействия на человека инфразвуков. Поводом к таким исследованиям послужило одно непредвиденное обстоятельство. Сотрудники конструкторского бюро, расположенного недалеко от полигона, на котором испытывались реактивные двигатели для самолета Конкорд , постоянно чувствовали недомогание. Исследование показало, что во время испытаний двигателей в помещении наблюдался очень высокий уровень интенсивности инфразвука. Необычные симптомы, которые возникли у людей, были обусловлены сверхнизкочастотными компонентами звука, присутствовавшими в спектре шумов реактивного двигателя. Высокий уровень инфразвука может вызвать нарушение в статических ц. динамических органах равновесия тела, которые являютг-ся частью внутреннего уха. Есть предположение, что область собственных частот этих органов лежит именно в инфразвуковом диапазоне от 2 до 20 герц. Опросы людей, работающих на площадках для запуска ракет в США, подтвердили это предположение. [c.180]
Обсуждаем сжатие динамического диапазона / Блог компании Аудиомания / Хабр
Совсем недавно мы обсуждали старый новый звук высокого разрешения. Эту тему изначально поднял Стив Гуттенберг. Иногда мы отталкиваемся от оценок Стива в попытке найти свои решения и ответы на вопросы.
Сегодня мы решили привести основные моменты из очередного материала эксперта.
Стив говорит об альбоме Стивена Уилсона от MA Recordings и Reference Recordings. Он приводит его в качестве примера того, насколько хорошим может быть цифровой звук. Но это редкость в эпоху борьбы за громкость и сжатие.
Суть сжатия динамического диапазона в том, что оно уменьшает естественное соотношение между самым громким и самым тихим звуком на записи. Конечно, сильно сжатая музыка – это не новое веяние. Стив приводит в качестве примера альбомы Motown 60-х годов, Led Zeppelin и альбомы Wilco и Radiohead.
«Сжатие применяется на всех этапах создания музыки, поэтому часть динамического диапазона может быть давно утеряна к тому моменту, когда мастеринг-инженер выполняет последний прогон.Когда люди говорят, что им нравится звук аудиозаписи, я считаю, что им нравится музыка, как если бы звук и музыка были неразделимыми терминами. Но для себя я дифференцирую эти понятия.
С точки зрения меломана, звук может быть грубым и сырым, но это не будет иметь значения для большинства слушателей»
На ГТ достаточно активно обсуждают тему компрессии. В одном из материалов были разобраны основные типы сжатия и рекомендации по работе с этим инструментом.
Стив замечает, что сжатие применяется непосредственно во время звукозаписи, во время микширования и только потом во время мастеринга. Исходя из данного положения дел, достаточно сложно сказать, как звучали инструменты и вокальная партия в самом начале процесса.
С помощью компрессии громкость вокала сохраняется на нужном уровне на протяжении всей песни или немного выделяется на фоне остальных звуков. Аналогичная ситуация и с инструментами но, чтобы понять, как пользоваться сжатием и не переусердствовать, уходят годы.
Парочка интересных обсуждений на основе наших материалов:
Динамическая обработка звука. Компрессор
А зачем, собственно, нужна динамическая обработка звука? В идеале, звуковая аппаратура должна точно отображать окружающую акустическую палитру. На практике – динамический диапазон реальных звуков куда шире аппаратного. Отсюда – искажения, то есть появления в «искусственном» звуке составляющих, которых в «живом» и в помине не было. Задача динамической обработки – привести звуковой сигнал в удобоваримый для электроакустики вид.
Динамический диапазон сигнала характеризует разницу между его максимальным и минимальным уровнями. Сжатие динамического диапазона, в чём и заключается суть динамической обработки, таким образом, сводится к уменьшению максимальных значений и увеличению минимальных. К снижению громкости внутри динамического диапазона, короче говоря.
Компрессор – электротехнический прибор, процессор, используемый для уменьшения разницы между минимумами и максимумами звукового сигнала, что, в конечном счёте, значительно улучшает качество воспроизводимого звука. Смысл его применения – ограничение пиков сигнала: пики грозят даже не просто искажениями, но и физическим повреждением аппаратуры. В то же время – подтягивание сигналов низкого уровня на различимый при воспроизведении. В итоге, общий уровень сигнала повышается.
Настраиваемые параметры компрессора:
· Порог срабатывания компрессора (Threshold) – уровень сигнала, при котором начинается, собственно, работа прибора. Слишком высокий порог срабатывания приведёт к недостаточной обработке звука. Слишком низкий – к «удушению» сигнала;
· Степень компрессии (Ratio) – отношение, характеризующее степень воздействия компрессора на сигнал. Воздействие можно установить просто:
Оut = Threshold + (In – Threshold)/ Ratio
Где:
Оut – уровень сигнала после компрессии (дБ)
In – уровень оригинального сигнала (дБ)
Threshold – порог срабатывания (дБ)
Ratio – отношение, например, 3/1, 10/1
Таким образом, чем величина отношения будет больше, тем большее влияние на оригинальный звук будет оказано, тем ближе выходной сигнал будет к пороговой величине. При отношении, равном 1, компрессии, естественно не будет. При значительных отношениях (скажем, 20/1) получится лимитер.
· Атака (Attack) – время, через которое прибор начнёт коррекцию сигнала после превышения порогового значения. Указывается в миллисекундах (мс). Большая величина атаки допускает компрессию сигнала, не затрагивая кратковременные всплески. Длительность атаки обычно определяется «на слух»;
· Восстановление (Release) – время, через которое компрессор прекратит коррекцию в случае падения сигнала ниже порога срабатывания. То начнёт пропускать оригинальный уровень сигнала. Если время атаки невелико (то есть, прибор настроен на подавление резких щелчков), то и восстановление должно быть быстрым. В противном случае, после щелчка будет подавляться основной звук, что нежелательно. И наоборот;
· Компенсация громкости (Gain или Make—up gain) – восстановление громкости на выходе. Поскольку после компрессии звук становится тише и сложно сопоставить результаты, уровень должен восстановиться. Для настройки параметров компрессии. Эта функция есть во всех компрессорах, в некоторых она автоматическая.
Многие компрессоры имеют ряд дополнительных функций, облегчающие их настройку и, в конечном счёте, делающие работу более удобной, а звук – более качественным.
В некоторых компрессорах может быть реализован режим автоматической коррекции времени восстановления. Восстановление уменьшается, если в сигнале присутствует большое количество пиков и увеличивается при более ровном звуке. Во многих случаях это избавляет от необходимости отдельной настройки.
Существуют компрессоры с автоматической подстройкой времени атаки. Время атаки уменьшается с появлением «щелчков», растёт при более ровном сигнале.
Надо заметить, что автоматика может работать не всегда адекватно, например, подавлять резкий звук, который следовало бы оставить без изменений.
Может присутствовать пиковый режим (Peak). Такой режим подходит в случае для жёсткого ограничения сигнала. Для быстрого реагирования на самые динамичные изменения сигнала.
RMS-режим не реагирует на пиковые значения сигнала. Компрессор работает практически незаметно, осуществляя только общее выравнивание.
Жёсткий режим (Hard knee) – режим, при котором сигнал, превысивший пороговое значение, сразу будет подвергнут компрессии с постоянным заданным отношением. При сильном сжатии в таком режиме звук довольно заметно портится. Этот режим характерен для жёстких лимитеров, например.
Мягкий режим (Soft knee), динамическая компрессия – режим, при котором допускается постепенное увеличение или снижение степени компрессии в зависимости от величины превышения сигналом порогового значения. Вернее даже, компрессия начинается ещё до достижения порога, и степень компрессии начинает нарастать с нарастанием уровня сигнала. Компрессор в таком режиме менее заметен и результат почти всегда весьма приемлем. Кроме случаев необходимости именно резкого подавления скачков сигнала, где нужен жёсткий режим.
Сайдчейн компрессия. Происходит анализ одного канала и, когда уровень сигнала нарушает пороговый, применяется компрессия к другому каналу. За редким исключением применяется для инструментов одной широтной области.
Оптический режим – применяется для имитации цифровыми компрессорами аналоговых моделей. Из-за мягкой работы, характерной для аналоговых приборов, оптические компрессоры получили довольно широкое распространение.
Для обработки композиций не всегда бывает достаточно одного компрессора. В этом случае можно воспользоваться многополосной компрессией. То есть компрессией нескольких полос частот, причём каждая полоса обрабатывается со своими параметрами. Например отдельно низкие, средние и высокие частоты.
Для этого используется многополосный компрессор. Границы полос устанавливаются индивидуально для каждой композиции. Параметры сжатия – тоже. За каждую полосу при этом отвечает отдельный компрессор.
Многополосный компрессор позволяет реализовать режим динамической эквализации. Эквализации можно добиться, установив нулевые значения времён атаки и восстановления. В этом случае компрессор может работать, например, в режиме деэссинга (подавления «шипящих» и «свистящих» частот).
В любом случае, компрессор с правильно настроенными параметрами сделает звук однозначно лучше, плотнее и отчётливее. Ненужные скачки станут тише, тихие звуки подтянутся. Только нужно чётко определиться с масштабами и, вообще, с необходимостью компрессии.
Применение компрессии повышает соотношение сигнал/шум. В случае применения цифровой обработки сжатого сигнала снижается необходимое число битов, чем достигается более высокое цифровое разрешение.
принцип и настройка. Основные параметры компрессоров
Динамическая компрессия (Dynamic range compression, DRC) — сужение (или расширение в случае экспандера) динамического диапазона фонограммы. Динамический диапазон , это разница между самым тихим и самым громким звуком. Иногда самым тихим в фонограмме будет звук чуть громче уровня шума, а иногда чуть тише самого громкого. Аппаратные устройства и программы, осуществляющие динамическую компрессию, называют компрессорами, выделяя среди них четыре основные группы: собственно компрессоры, лимитеры, экспандеры и гейты.
Ламповый аналоговый компрессор DBX 566
Понижающая и повышающая компрессия
Понижающая компрессия (Downward compression) уменьшает громкость звука, когда она начинает превышать определенное пороговое значение, оставляя более тихие звуки в неизменном виде. Экстремальным вариантом понижающей компрессии является лимитер . Повышающая компрессия (Upward compression), наоборот, увеличивает громкость звука, если она ниже порогового значения, не затрагивая более громкие звуки. При этом оба вида компрессии сужают динамический диапазон аудиосигнала.
Понижающая компрессия
Повышающая компрессия
Экспандер и Гейт
Если компрессор уменьшает динамический диапазон, экспандер его увеличивает. Когда уровень сигнала становится выше порогового уровня, экспандер увеличивает его еще больше, таким образом увеличивая разницу между громкими и тихими звуками. Подобные устройства часто используются при записи барабанной установки, чтобы отделить звуки одних барабанов от других.
Тип экспандера, который используется не для усиления громких, а для заглушения тихих звуков, не превышающих уровня порогового значения (например, фоновых шумов) называется Noise gate . В таком устройстве, как только уровень звука становится меньше порогового, прохождение сигнала прекращается. Обычно гейт используется для подавления шума в паузах. На некоторых моделях можно сделать так, чтобы звук при достижении порогового уровня не прекращался резко, а постепенно затухал. В этом случае скорость затухания устанавливается регулятором Decay (спад) .
Гейт, как и другие типы компрессоров, может быть частотно-зависимым (т.е. по-разному обрабатывать определенные частотные полосы) и может работать в режиме side-chain (см. ниже).
Принцип работы компрессора
Сигнал, попадающий в компрессор, разделяется на две копии. Одна копия направляется на усилитель, в котором степень усиления управляется внешним сигналом, вторая копия — формирует этот сигнал. Она попадает в устройство, называемое side-chain, где сигнал измеряется, и на основе этих данных создается огибающая, описывающая изменение его громкости.
Так устроено большинство современных компрессоров, это так называемый тип feed-forward. В более старых устройствах (тип feedback) уровень сигнала измеряется после усилителя.
Существуют различные аналоговые технологии управляемого усиления (variable-gain amplification), каждая со своими достоинствами и недостатками: ламповые, оптические с использованием фоторезистров и транзистрные. При работе с цифровым звуком (в звуковом редакторе или DAW) могут использоваться собственные математические алгоритмы или эмулироваться работа аналоговых технологий.
Основные параметры компрессоров
Threshold
Компрессор уменьшает уровень аудиосигнала, если его амплитуда первышает определенное пороговое значение (threshold). Оно обычно указывается в децибелах, при этом более низкий threshold (например, -60 dB) означает, что будет обработано больше звука, чем при более высоком пороге (например, −5 dB).
Ratio
Степень уменьшения уровня определяется параметром ratio (отношение): ratio 4:1 означает, что если входной уровень на 4 дБ превышает порог, уровень выходного сигнала будет выше порога на 1 дБ.
Например:
Threshold = −10 dB
Входной сигнал = −6 dB (на 4 dB выше порогового уровня)
Выходной сигнал = −9 dB (на 1 dB выше порогового уровня)
Важно иметь в виду, что подавление уровня сигнала продолжается и некоторое время после того, как он упадет ниже порогового уровня, и это время определяется значением параметра release .
Компрессия с максимальным значением ratio ∞:1 называется лимитированием (limiting). Это означает, что любой сигнал выше порогового уровня подавляется до порогового уровня (за исключением короткого периода после резкого увеличения входной громкости). Подробнее см. ниже «Лимитер».
Примеры различных значений Ratio
Attack и Release
Компрессор предоставляет определенный контроль над тем, как быстро он реагирует на изменение динамики сигнала. Параметр Attack определяет время, за которое компрессор уменьшает коэффициент усиления до уровня, который определяется параметром Ratio. Release определяет время, за которое компрессор, наоборот, увеличивает коэффициент усиления, или возвращает к нормальному, если уровень входного сигнала падает ниже порогового значения.
Фазы Attack и Release
Эти параметры указывают время (обычно в миллисекундах), которое потребуется для изменения усиления на определенное количество децибел, обычно это 10 дБ. Например, в этом случае, если Attack установлено на 1 мс, для уменьшения усиления на 10 дБ потребуется 1 мс, а на 20 дБ — 2 мс.
Во многих компрессорах параметры Attack и Release могут настраиваться, но в некоторых они заданы изначально и не регулируются. Иногда они обозначаются как «automatic» или «program dependent», т.е. изменяются в зависимости от входного сигнала.
Knee
Еще один параметр компресоора: hard/soft Knee . Он определяет, будет ли начало применения компрессии резким (hard) или постепенным (soft). Soft knee уменьшает заметность перехода от необработанного сигнала к сигналу, подвергнутому компрессии, особенно при высоких значениях Ratio и резких увеличениях громкости.
Hard Knee и Soft Knee компрессия
Peak и RMS
Компрессор может реагировать на пиковые (кратковременные максимальные) значения или на усредненный уровень входного сигнала. Использование пиковых значений может приводить к резким колебаниям степени компрессии, и даже к искажениям. Поэтому компрессоры применяют функцию усреднения (обычно это RMS) входного сигнала при сравнении его с пороговым значением. Это дает более комфортное сжатие, приближенное к человеческому восприятию громкости.
RMS – параметр, отражающий среднюю громкость фонограммы. С математической точки зрения RMS (Root Mean Square) – это среднеквадратическое значение амплитуды определенного количества семплов:
Stereo linking
Компрессор в режиме stereo linking применяет одинаковое усиление к обоим стереоканалам. Это позволяет избежать смещения стереопанорамы, которое может стать результатом индивидуальной обработки левого и правого каналов. Такое смещение происходит, если, например, какой-либо громкий элемент панорамирован не по центру.
Makeup gain
Поскольку компрессор уменьшает общий уровень сигнала, обычно добавляется возможность фиксированного усиления на выходе, что позволяет получить оптимальный уровень.
Look-ahead
Функция look-ahead предназначена для решения проблем, свойственных как слишком большим, так и слишком маленьким значениям Attack и Release. Слишком большое время атаки не позволяем эффективно перехватывать транзиенты, а слишком маленькое может быть не комфортным для слушателя. При использовании функции look-ahead основной сигнал задерживается относительно управляющего, это позволяет начинать компрессию заранее, еще до того, как сигнал достигнет порогового значения.
Единственным недостатком этого метода является временная задержка сигнала, что в некоторых случаях нежелательно.
Использование динамической компрессии
Компрессия используется повсеместно, не только в музыкальных фонограммах, но и везде, где нужно увеличить общую громкость, не увеличивая при этом пиковые уровни, где используется недорогая звуковоспроизводящая аппаратура или ограниченный канал передачи (системы оповещения и связи, любительское радио и т.п.).
Компрессия применяется при воспроизведении фоновой музыки (в магазинах, ресторанах и т.п.), где нежелательны какие-либо заметные изменения громкости.
Но важнейшая сфера применения динамической компрессии — музыкальное производство и вещание. Компрессия используется для придания звуку «плотности» и «драйва», для лучшего сочетания инструментов друг с другом, и особенно, при обработке вокала.
Вокальные партии в рок- и поп-музыке обычно подвергаются компрессии, чтобы выделить их на фоне аккомпанемента и добавить ясности. Специальный вид компрессора, настроенный только на определенные частоты — деэссер, используется для подавления шипящих фонем.
В инструментальных партиях компрессия также используется для эффектов, не связанных непосредственно с громкостью, например, быстро затухающие звуки ударных могут стать более продолжительными.
В электронной танцевальной музыке (EDM) часто используется side-chaining (см. ниже) — например, басовая линия может управляться бочкой или чем-то подобным, чтобы предотвратить конфликт баса и ударных и создать динамическую пульсацию.
Сжатие широко используется в широковещательной передаче (радио-, теле-, интернет-вещание) для повышения воспринимаемой громкости при одновременном уменьшении динамического диапазона исходного аудио (обычно это CD). В большинстве стран имеются правовые ограничения на мгновенный максимальный объем, который может транслироваться. Обычно эти ограничения реализуются постоянными аппаратными компрессорами в эфирной цепи. Кроме того, увеличение воспринимаемой громкости улучшает «качество» звука с точки зрения большинства слушателей.
См. также Loudness war.
Последовательное увеличение громкости одной и той же песни, ремастированной для CD с 1983 по 2000 гг.
Side-chaining
Еще один часто встречающийся переключатель компрессора – «side chain». В этом режиме компрессирование звука происходит не в зависимости от его собственного уровня, а в зависимости от уровня сигнала, поступающего на разъем, который так обычно и называется — side chain.
Этому можно найти несколько применений. Например, вокалист шепелявит и все буквы «с» выделяются из общей картины. Вы пропускаете его голос через компрессор, а в разъем side chain подаете этот же звук, но пропущенный через эквалайзер. На эквалайзере вы убираете все частоты, кроме тех, что используются вокалистом при произнесении буквы «с». Обычно около 5 кГц, но может быть от 3 кГц до 8 кГц. Если затем поставить компрессор в режим side chain, то компрессирование голоса будет происходить в те моменты, когда произносится буква «с». Таким образом получился прибор, известный как «деэссер» (de-esser). Такой способ работы называется «частотно-зависимым» (frequency dependent).
Еще одно применение этой функции носит название «ducker». Например, на радиостанции музыка идет через компрессор, а слова диджея — через побочную цепь. Когда диджей начинает болтать, громкость музыки автоматически уменьшается. Этот эффект можно с успехом применять и в записи, например, уменьшать громкость клавишных партий во время пения.
Brick wall limiting
Компрессор и лимитер работаеют примерно одинаково, можно сказать, что лимитер, это компрессор с высоким Ratio (от 10:1) и, обычно, низким Attack time.
Существует понятие Brick wall limiting — лимитинг с очень высоким Ratio (от 20:1 и выше) и очень быстрой атакой. В идеале, он вообще не позволяет сигналу превысить пороговый уровень. Результат будет неприятным на слух, но зато это предотвратит повреждение звуковоспроизводящей техники или превышение пропускной способности канала. Многие производители интегрируют в свои устройства лимитеры именно с этой целью.
Clipper vs. Limiter, soft and hard clipping
© 2014 сайт
Или фотографическая широта фотоматериала – это отношение между максимальным и минимальным значениями экспозиции , которые могут быть корректно запечатлены на снимке. Применительно к цифровой фотографии, динамический диапазон фактически эквивалентен отношению максимального и минимального возможных значений полезного электрического сигнала, генерируемого фотосенсором в ходе экспонирования.
Динамический диапазон измеряется в ступенях экспозиции (). Каждая ступень соответствует удвоению количества света. Так, например, если некая камера имеет динамический диапазон в 8 EV, то это означает, что максимальное возможное значение полезного сигнала её матрицы относится к минимальному как 2 8:1, а значит, камера способна запечатлеть в пределах одного кадра объекты, отличающиеся по яркости не более чем в 256 раз. Точнее, запечатлеть-то она может объекты с любой яркостью, однако объекты, чья яркость будет превышать максимальное допустимое значение выйдут на снимке ослепительно белыми, а объекты, чья яркость окажется ниже минимального значения, – угольно чёрными. Детали и фактура будут различимы лишь на тех объектах, яркость которых укладывается в динамический диапазон камеры.
Для описания отношения между яркостью самого светлого и самого тёмного из снимаемых объектов часто используется не вполне корректный термин «динамический диапазон сцены». Правильнее будет говорить о диапазоне яркости или об уровне контраста, поскольку динамический диапазон – это обычно характеристика измеряющего устройства (в данном случае, матрицы цифрового фотоаппарата).
К сожалению, диапазон яркости многих красивых сцен, с которыми мы сталкиваемся в реальной жизни, может ощутимо превышать динамический диапазон цифровой фотокамеры. В таких случаях фотограф бывает вынужден решать, какие объекты должны быть проработаны во всех деталях, а какие можно оставить за пределами динамического диапазона без ущерба для творческого замысла. Для того чтобы максимально эффективно использовать динамический диапазон вашей камеры, от вас порой может потребоваться не столько доскональное понимание принципа работы фотосенсора, сколько развитое художественное чутьё.
Факторы, ограничивающие динамический диапазон
Нижняя граница динамического диапазона задана уровнем собственного шума фотосенсора. Даже неосвещённая матрица генерирует фоновый электрический сигнал, называемый темновым шумом. Также помехи возникают при переносе заряда в аналого-цифровой преобразователь, да и сам АЦП вносит в оцифровываемый сигнал определённую погрешность – т.н. шум дискретизации.
Если сделать снимок в полной темноте или с крышкой на объективе, то камера запишет только этот бессмысленный шум. Если позволить минимальному количеству света попасть на сенсор, фотодиоды начнут накапливать электрический заряд. Величина заряда, а значит, и интенсивность полезного сигнала, будет пропорциональна числу пойманных фотонов. Чтобы на снимке проступили хоть сколько-нибудь осмысленные детали, необходимо, чтобы уровень полезного сигнала превысил уровень фонового шума.
Таким образом, нижнюю границу динамического диапазона или, иначе говоря, порог чувствительности сенсора формально можно определить как уровень выходного сигнала, при котором отношение сигнал/шум больше единицы.
Верхняя граница динамического диапазона определяется ёмкостью отдельного фотодиода. Если во время экспозиции какой-либо фотодиод накопит электрический заряд предельной для себя величины, то соответствующий перегруженному фотодиоду пиксель изображения получится абсолютно белым, и дальнейшее облучение уже никак не повлияет на его яркость. Это явление называют клиппингом. Чем выше перегрузочная способность фотодиода, тем больший сигнал способен он дать на выходе, прежде чем достигнет насыщения.
Для большей наглядности обратимся к характеристической кривой, которая представляет собой график зависимости выходного сигнала от экспозиции. На горизонтальной оси отложен двоичный логарифм облучения, получаемого сенсором, а на вертикальной – двоичный логарифм величины электрического сигнала, генерируемого сенсором в ответ на это облучение. Мой рисунок в значительной степени условен и преследует исключительно иллюстративные цели. Характеристическая кривая настоящего фотосенсора имеет несколько более сложную форму, да и уровень шума редко бывает столь высок.
На графике хорошо видны две критические переломные точки: в первой из них уровень полезного сигнала пересекает шумовой порог, а во второй – фотодиоды достигают насыщения. Значения экспозиции, лежащие между этими двумя точками, и составляют динамический диапазон. В данном абстрактном примере он равен, как несложно заметить, 5 EV, т.е. камера способна переварить пять удвоений экспозиции, что равнозначно 32-кратной (2 5 =32) разнице в яркости.
Зоны экспозиции, составляющие динамический диапазон неравноценны. Верхние зоны отличаются более высоким отношением сигнал/шум, и потому выглядят чище и детальнее, чем нижние. Вследствие этого верхняя граница динамического диапазона весьма вещественна и ощутима – клиппинг обрубает света при малейшей передержке, в то время как нижняя граница неприметным образом тонет в шумах, и переход к чёрному цвету далеко не так резок, как к белому.
Линейная зависимость сигнала от экспозиции, а также резкий выход на плато являются уникальными чертами именно цифрового фотографического процесса. Для сравнения взгляните на условную характеристическую кривую традиционной фотоплёнки.
Форма кривой и особенно угол наклона сильно зависят от типа плёнки и от процедуры её проявления, но неизменным остаётся главное, бросающееся в глаза отличие плёночного графика от цифрового – нелинейный характер зависимости оптической плотности плёнки от величины экспозиции.
Нижняя граница фотографической широты негативной плёнки определяется плотностью вуали, а верхняя – максимальной достижимой оптической плотностью фотослоя; у обращаемых плёнок – наоборот. Как в тенях, так и в светах наблюдаются плавные изгибы характеристической кривой, указывающие на падение контраста при приближении к границам динамического диапазона, ведь угол наклона кривой пропорционален контрастности изображения. Таким образом, зоны экспозиции, лежащие на средней части графика, обладают максимальным контрастом, в то время как в светах и тенях контраст снижен. На практике разница между плёнкой и цифровой матрицей особенно хорошо заметна в светах: там, где в цифровом изображении света выжжены клиппингом, на плёнке детали всё ещё различимы, хоть и малоконтрастны, а переход к чисто белому цвету выглядит плавным и естественным.
В сенситометрии используются даже два самостоятельных термина: собственно фотографическая широта , ограниченная сравнительно линейным участком характеристической кривой, и полезная фотографическая широта , включающая помимо линейного участка также основание и плечо графика.
Примечательно, что при обработке цифровых фотографий, к ним, как правило, применяется более или менее выраженная S-образная кривая , повышающая контраст в полутонах ценой его снижения в тенях и светах, что придаёт цифровому изображению более естественный и приятный глазу вид.
Разрядность
В отличие от матрицы цифрового фотоаппарата человеческому зрению свойственен, скажем так, логарифмический взгляд на мир. Последовательные удвоения количества света воспринимаются нами как равные изменения яркости. Световые числа можно даже сравнить с музыкальными октавами, ведь двукратные изменения частоты звука воспринимаются на слух как единый музыкальный интервал. По такому принципу работают и другие органы чувств. Нелинейность восприятия очень сильно расширяет диапазон чувствительности человека к раздражителям различной интенсивности.
При конвертировании RAW-файла (не важно – средствами камеры или в RAW-конвертере), содержащего линейные данные, к нему автоматически применяется т.н. гамма-кривая, которая призвана нелинейно повысить яркость цифрового изображения, приводя её в соответствие с особенностями человеческого зрения.
При линейной конверсии изображение получается слишком тёмным.
После гамма-коррекции яркость приходит в норму.
Гамма-кривая как бы растягивает тёмные тона и сжимает светлые, делая распределение градаций более равномерным. В результате изображение приобретает естественный вид, но шум и артефакты дискретизации в тенях неизбежно становятся более заметными, что только усугубляется малым числом уровней яркости в нижних зонах.
Линейное распределение градаций яркости.
Равномерное распределение после применения гамма-кривой.
ISO и динамический диапазон
Несмотря на то, что в цифровой фотографии используется та же концепция светочувствительности фотоматериала, что и в фотографии плёночной, следует понимать, что происходит это исключительно в силу традиции, поскольку подходы к изменению светочувствительности в цифровой и плёночной фотографии различаются принципиально.
Повышение чувствительности ISO в традиционной фотографии означает замену одной плёнки на другую с более крупным зерном, т.е. происходит объективное изменение свойств самого фотоматериала. В цифровой камере светочувствительность сенсора жёстко задана его физическими характеристиками и не может быть изменена в буквальном смысле. При повышении ISO камера изменяет не реальную чувствительность сенсора, а всего лишь усиливает электрический сигнал, генерируемого сенсором в ответ на облучение и соответствующим образом корректирует алгоритм оцифровки этого сигнала.
Важным следствием этого является снижение эффективного динамического диапазона пропорционально повышению ISO, ведь вместе с полезным сигналом усиливается и шум. Если при ISO 100 оцифровывается весь диапазон значений сигнала – от нуля и до точки насыщения, то при ISO 200 уже только половина ёмкости фотодиодов принимается за максимум. С каждым удвоением чувствительности ISO верхняя ступень динамического диапазона как бы отсекается, а оставшиеся ступени, подтягиваются на её место. Именно поэтому использование сверхвысоких значений ISO лишено практического смысла. С тем же успехом можно осветлить фотографию в RAW-конвертере и получить сопоставимый уровень шумов. Разница между повышением ISO и искусственным осветлением снимка заключается в том, что при повышении ISO усиление сигнала происходит до поступления его в АЦП, а значит, шум квантования не усиливается, в отличие от собственных шумов сенсора, в то время как в RAW-конвертере усилению подлежат в том числе и ошибки АЦП. Кроме того, уменьшение диапазона оцифровки означает более точную дискретизацию оставшихся значений входного сигнала.
Кстати, доступное на некоторых аппаратах понижение ISO ниже базового значения (например, до ISO 50), отнюдь не расширяет динамический диапазон, а просто ослабляет сигнал вдвое, что равноценно затемнению снимка в RAW-конвертере. Эту функцию можно даже рассматривать как вредную, поскольку использование субминимального значения ISO, провоцирует камеру на увеличение экспозиции, что при оставшемся неизменным пороге насыщения сенсора повышает риск получить клиппинг в светах.
Истинная величина динамического диапазона
Существует ряд программ вроде (DxO Analyzer, Imatest, RawDigger и пр.) позволяющих измерить динамический диапазон цифрового фотоаппарата в домашних условиях. В принципе, в этом нет большой необходимости, поскольку данные для большинства камер можно свободно найти в интернете, например, на сайте DxOMark.com .
Стоит ли верить результатам подобных испытаний? Вполне . С той лишь оговоркой, что все эти тесты определяют эффективный или, если можно так выразиться, технический динамический диапазон, т.е. отношение между уровнем насыщения и уровнем шума матрицы. Для фотографа же в первую очередь важен полезный динамический диапазон, т.е. количество зон экспозиции, которые действительно позволяют запечатлеть какую-то полезную информацию.
Как вы помните, порог динамического диапазона задан уровнем шумов фотосенсора. Проблема в том, что на практике нижние зоны, формально уже входящие в динамический диапазон, содержат всё ещё слишком много шума, чтобы их можно было с толком использовать. Здесь многое зависит от индивидуальной брезгливости – приемлемый уровень шума каждый определяет для себя сам.
Моё субъективное мнение таково, что детали в тенях начинают выглядеть более-менее прилично при отношении сигнал/шум не меньше восьми. На этом основании я определяю для себя полезный динамический диапазон, как технический динамический диапазон минус примерно три ступени.
К примеру, если зеркальная камера согласно результатам достоверных тестов обладает динамическим диапазоном в 13 EV, что очень неплохо по сегодняшним меркам, то её полезный динамический диапазон будет составлять около 10 EV, что, в общем-то, тоже весьма недурно. Разумеется, речь идёт о съёмке в RAW, с минимальным ISO и максимальной разрядностью. При съёмке в JPEG динамический диапазон сильно зависит от настроек контраста, но в среднем следует отбросить ещё две-три ступени.
Для сравнения: цветные обращаемые фотоплёнки обладают полезной фотографической широтой в 5-6 ступеней; чёрно-белые негативные плёнки дают 9-10 ступеней при стандартных процедурах проявления и печати, а при определённых манипуляциях – вплоть до 16-18 ступеней.
Подытоживая вышесказанное, попробуем сформулировать несколько простых правил, соблюдение которых поможет вам выжать из сенсора вашей камеры максимум производительности:
- Динамический диапазон цифрового фотоаппарата в полной мере доступен только при съёмке в RAW.
- Динамический диапазон уменьшается с ростом светочувствительности, а потому избегайте высоких значений ISO, если в них нет острой необходимости.
- Использование более высокой разрядности для RAW-файлов не увеличивает истинный динамический диапазон, но улучшает тональное разделение в тенях за счёт большего количества уровней яркости.
- Exposure to the right . Верхние зоны экспозиции всегда содержат максимум полезной информации при минимуме шумов и должны использоваться наиболее эффективно. При этом не стоит забывать и об опасности клиппинга – пиксели, достигшие насыщения, абсолютно бесполезны.
И главное: не стоит излишне переживать по поводу динамического диапазона вашей камеры. С динамическим диапазоном у неё всё в порядке. Ваше умение видеть свет и грамотно управлять экспозицией – намного важнее. Хороший фотограф не станет жаловаться на недостаток фотографической широты, а постарается дождаться более комфортного освещения, или изменит ракурс, или воспользуется вспышкой, словом, будет действовать в соответствии с обстоятельствами. Я вам скажу больше: некоторые сцены только выигрывают из-за того, что не укладываются в динамический диапазон камеры. Часто ненужное обилие деталей просто необходимо спрятать в полуабстрактный чёрный силуэт, делающий фотографию одновременно лаконичнее и богаче.
Высокий контраст это не всегда плохо – нужно лишь уметь с ним работать. Научитесь эксплуатировать недостатки оборудования так же, как и его достоинства, и вы удивитесь, насколько расширятся ваши творческие возможности.
Спасибо за внимание!
Василий А.
Post scriptum
Если статья оказалась для вас полезной и познавательной, вы можете любезно поддержать проект , внеся вклад в его развитие. Если же статья вам не понравилась, но у вас есть мысли о том, как сделать её лучше, ваша критика будет принята с не меньшей благодарностью.
Не забывайте о том, что данная статья является объектом авторского права. Перепечатка и цитирование допустимы при наличии действующей ссылки на первоисточник, причём используемый текст не должен ни коим образом искажаться или модифицироваться.
Компрессия это одна из наиболее опутанных мифами тем саундпродакшна. Говорят, Бетховен даже пугал ей соседских детей:(
Ладно, на самом деле, применять компрессию не сложнее чем пользоваться дисторшном, главное — понимать принцип её работы и иметь хороший контроль . В чём мы сейчас вместе и убедимся.
Что такое компрессия звука
Первое, что стоит уяснить перед препарированием — компрессия это работа с динамическим диапазоном звука . А , в свою очередь, — ни что иное как разница между самым громким и самым тихим уровнем сигнала:
Так вот, компрессия это сжатие динамического диапазона . Да, просто сжатие динамического диапазона, ну или другими словами понижение уровня громких частей сигнала и увеличение громкости тихих . Не более того.
Ты можешь вполне резонно удивиться с чем тогда связан такой хайп? Почему все говорят о рецептах правильной настройки компрессоров, но никто ими не делится? Почему, не смотря на огромное количество классных плагинов , во многих студиях до сих пор используются дорогущие раритетные модели компрессоров? Почему одни продюсеры применяют компрессоры на экстремальных настройках, а другие не используют совсем? И кто из них в конце концов прав?
Задачи, которые решает компрессия
Ответы на подобные вопросы лежат в плоскости понимания роли компрессии в работе со звуком. А она позволяет:
- Подчёркивать атаку звука, делать его более выраженным;
- «Усаживать» в микс отдельные партии инструментов , добавляя им мощности и «веса»;
- Делать группы инструментов или весь микс более цельным , таким единым монолитом;
- Решать конфликты между инструментами с помощью sidechain ;
- Исправлять огрехи вокалиста или музыкантов , выравнивая их динамику;
- При определённой настройке выступать в качестве художественного эффекта .
Как видишь, это не менее значимый творческий процесс чем, скажем, придумывание мелодий или наруливание интересных тембров. При этом любая из вышеперечисленных задач может быть решена с помощью 4-х основных параметров.
Основные параметры компрессора
Не смотря на огромное количество программных и аппаратных моделей компрессоров, вся «магия» компрессии происходит при правильной настройке основных параметров: Threshold, Ratio, Attack и Release. Рассмотрим их подробнее:
Threshold или порог срабатывания, dB
Этот параметр позволяет установить значение, с которого компрессор будет работать (то есть сжимать аудиосигнал). Так, если мы установим в threshold -12dB, компрессор будет срабатывать только в тех местах динамического диапазона, которые превышают это значение. Если весь наш звук тише -12db, компрессор просто пропустит его через себя, никак на него не влияя.
Ratio или коэффициент сжатия
Параметр ratio определяет насколько сильно будет сжиматься сигнал, превышающий threshold. Немного математики для полноты картины: допустим, мы настроили компрессор с threshold -12dB, ratio 2:1 и подали на него барабанный луп , в котором громкость бочки равна -4dB. Каким в этом случае будет результат работы компрессора?
В нашем случае уровень бочки превышает threshold на 8dB. Эта разница в соответствии с ratio будет сжата до 4dB (8dB / 2). В сумме с необработанной частью сигнала это приведёт к тому, что после обработки компрессором громкость бочки составит -8db (threshold -12dB + сжатый сигнал 4dB).
Attack, ms
Это время, спустя которое компрессор будет реагировать на превышение порога срабатывания. То есть, если время атаки выше 0ms — компрессор начинает сжатие превышающего threshold сигнала не мгновенно, а спустя указанное время.
Release или восстановление, ms
Противоположность атаке — значение данного параметра позволяет указать спустя какое время с момента возврата уровня сигнала ниже threshold компрессор прекратит сжатие .
Прежде чем мы двинемся дальше, настоятельно рекомендую взять хорошо знакомый семпл, повесить на его канал любой компрессор и 5-10 минут поэкспериментировать с вышеперечисленными параметрами для надёжного закрепления материала
Все остальные параметры опциональны . Они могут отличаться в разных моделях компрессоров, отчасти поэтому продюсеры и применяют различные модели для каких-либо определённых целей (например, один компрессор для вокала, другой на группу ударных, третий — на мастер-канале). Я не стану подробно останавливаться на этих параметрах, а лишь дам общую информацию для понимания что это вообще такое:
- Колено или излом (Hard/Soft Knee) . Этот параметр определяет как быстро будет применяться коэффициент сжатия (ratio): жестко по кривой или плавно. Отмечу, что в режиме Soft Knee компрессор срабатывает не прямолинейно, а начинает плавно (насколько это может быть уместно когда мы говорим о миллисекундах) поджимать звук уже перед значением threshold . Для обработки групп каналов и общего микса чаще используется именно soft knee (так как работает незаметно), а для подчёркивания атаки и других особенностей отдельных инструментов — hard knee;
- Режим реагирования: Peak/RMS . Режим Peak оправдан когда нужно жёстко лимитировать всплески амплитуды, а также на сигналах со сложной формой, динамику и читаемость которых нужно полностью передать. Режим RMS очень бережно влияет на звук, позволяя уплотнить его, сохранив атаку;
- Предусмотрительность (Lookahead) . Это время, за которое компрессор будет знать что ему предстоит. Своего рода предварительный анализ входящих сигналов;
- Makeup или Gain . Параметр, позволяющий компенсировать понижение громкости в результате работы компрессии.
Первый и самый главный совет , снимающий все дальнейшие вопросы по компрессии: если ты а) понял принцип действия компрессии, б) твёрдо знаешь как воздействует на звук тот или иной параметр и в) успел на практике попробовать несколько разных моделей — никакие советы тебе уже не нужны .
Я абсолютно серьёзен. Если ты внимательно прочёл эту запись, поэкспериментировал со штатным компрессором твоей DAW и одним-двумя плагинами , но так и не понял в каких случаях нужно устанавливать большие значения атаки, какой коэффициент ratio применять и в каком из режимов обрабатывать исходный сигнал — то так и будешь дальше искать в интернете готовые рецепты, применяя их бездумно куда попало.
Рецепты точной настройки компрессора это примерно как рецепты точной настройки ревербератора или хоруса — лишено какого-либо смысла и не имеет ничего общего с творчеством. Поэтому настойчиво повторяю единственно верный рецепт: вооружись этой статьёй, хорошими мониторными наушниками , плагином для визуального контроля формы волны и проведи вечер в компании с парочкой компрессоров.
Действуй!
Эта группа методов основана на том, что передаваемые сигналы подвергаются нелинейным преобразованиям амплитуды, причем в передающей и приёмной частях нелинейности взаимообратны. Например, если в передатчике используется нелинейная функция Öu , в приемнике – u 2 . Последовательное применение взаимообратных функций приведет к тому, что в целом преобразование остается линейным.
Идея нелинейных методов сжатия данных сводится к тому, что передатчик может при той же амплитуде выходных сигналов передать больший диапазон изменения передаваемого параметра (то есть, больший динамический диапазон). Динамический диапазон — это выраженное в относительных единицах или децибеллах отношение наибольшей допустимой амплитуды сигнала к наименьшей:
; | (2.17) |
. | (2.18) |
Естественное желание увеличить динамический диапазон с помощью уменьшения U min ограничивается чувствительностью аппаратуры и возрастанием влияния помех и собственных шумов.
Наиболее часто сжатие динамического диапазона осуществляется с помощью пары взаимообратных функций логарифмирования и потенцирования. Первая операция изменения амплитуды называется компрессией (сжатием), вторая — экспандированием (растяжением). Выбор именно этих функций связан с их наибольшей возможностью компрессии.
В то же время эти методы имеют и недостатки. Первый из них заключается в том, что логарифм малого числа отрицателен и в пределе:
то есть, чувствительность очень нелинейна.
Для уменьшения этих недостатков обе функции модифицируют смещением и аппроксимацией. Например, для телефонных каналов аппроксимированная функция имеет вид (тип А,):
причем А=87,6. Выигрыш от сжатия при этом составляет 24дБ.
Сжатие данных путём нелинейных процедур реализуется аналоговыми средствами с большими погрешностями. Применение цифровых средств может существенно повысить точность или быстродействие преобразования. При этом прямое применение средств вычислительной техники (то есть, непосредственное вычисление логарифмов и экспонент) даст не лучший результат ввиду низкого быстродействия и накапливающейся погрешности вычисления.
Сжатие данных путем компрессии из-за ограничений по точности используется в неответственных случаях, например, для передачи речи по телефонным и радиоканалам.
Эффективное кодирование
Эффективные коды были предложены К.Шенноном, Фано и Хафманом . Сущность кодов заключается в том, что они неравномерные, то есть с неодинаковым числом разрядов, причем длина кода обратно пропорциональна вероятности его появления. Еще одна замечательная особенность эффективных кодов — они не требуют разделителей, то есть специальных символов, разделяющих соседние кодовые комбинации. Это достигается при соблюдении простого правила: более короткие коды не являются началом более длинных. В этом случае сплошной поток двоичных разрядов однозначно декодируется, поскольку декодер обнаруживает вначале более короткие кодовые комбинации. Эффективные коды долгое время были чисто академическими, но в последнее время успешно используются при формировании баз данных, а также при сжатии информации в современных модемах и в программных архиваторах .
Ввиду неравномерности вводят среднюю длину кода. Средняя длина — математическое ожидание длины кода:
причем, l ср стремится к H(x) сверху (то есть l ср > H(x)).
Выполнение условия (2.23) усиливается при увеличении N.
Существует две разновидности эффективных кодов: Шеннона-Фано и Хафмана. Рассмотрим их получение на примере. Предположим, вероятности символов в последовательности имеют значения, приведенные в таблице 2.1.
Таблица 2.1.
Вероятности символов
N | |||||||||
p i | 0.1 | 0.2 | 0.1 | 0.3 | 0.05 | 0.15 | 0.03 | 0.02 | 0.05 |
Символы ранжируются, то есть представляются в ряд по убыванию вероятностей. После этого по методу Шеннона-Фано периодически повторяется следующая процедура: вся группа событий делится на две подгруппы с одинаковыми (или примерно одинаковыми) суммарными вероятностями. Процедура продолжается до тех пор, пока в очередной подгруппе не останется один элемент, после чего этот элемент устраняется, а с оставшимися указанные действия продолжаются. Это происходит до тех пор, пока в последних двух подгруппах не останется по одному элементу. Продолжим рассмотрение нашего примера, которое сведено в таблице 2.2.
Таблица 2.2.
Кодирование по методу Шеннона-Фано
N | P i | ||||||
4 | 0.3 | I | |||||
0.2 | I | II | |||||
6 | 0.15 | I | I | ||||
0.1 | II | ||||||
1 | 0.1 | I | I | ||||
9 | 0.05 | II | II | ||||
5 | 0.05 | II | I | ||||
7 | 0.03 | II | II | I | |||
8 | 0.02 | II |
Как видно из таблицы 2.2, первый символ с вероятностью p 4 = 0.3 участвовал в двух процедурах разбиения на группы и оба раза попадал в группу с номером I . В соответствии с этим он кодируется двухразрядным кодом II. Второй элемент на первом этапе разбиения принадлежал группе I, на втором — группе II. Поэтому его код 10. Коды остальных символов в дополнительных комментариях не нуждаются.
Обычно неравномерные коды изображают в виде кодовых деревьев. Кодовое дерево — это граф, указывающий разрешенные кодовые комбинации . Предварительно задают направления ребер этого графа, как показано на рис.2.11 (выбор направлений произволен).
По графу ориентируются следующим образом: составляют маршрут для выделенного символа; количество разрядов для него равно количеству ребер в маршруте, а значение каждого разряда равно направлению соответствующего ребра. Маршрут составляется из исходной точки (на чертеже она помечена буквой А). Например, маршрут в вершину 5 состоит из пяти ребер, из которых все, кроме последнего, имеют направление 0; получаем код 00001.
Вычислим для этого примера энтропию и среднюю длину слова.
H(x) = -(0.3 log 0.3 + 0.2 log 0.2 + 2 0.1 log 0.1+ 2 0.05 log 0.05+
0.03 log 0.03 + 0.02 log 0.02) = 2.23 бит
l ср = 0.3 2 + 0.2 2 + 0.15 3 + 0.1 3 + 0.1 4 + 0.05 5 +0.05 4+
0.03 6 + 0.02 6 = 2.9 .
Как видно, средняя длина слова близка к энтропии.
Коды Хафмана строятся по иному алгоритму. Процедура кодирования состоит из двух этапов. На первом этапе последовательно проводят однократные сжатия алфавита. Однократное сжатие — замена двух последних символов (с низшими вероятностями) одним, с суммарной вероятностью. Сжатия проводят до тех пор, пока не останется два символа. При этом заполняют таблицу кодирования, в которой проставляют результирующие вероятности, а также изображают маршруты, по которым новые символы переходят на следующем этапе.
На втором этапе происходит собственно кодирование, которое начинается с последнего этапа: первому из двух символов присваивают код 1, второму — 0. После этого переходят на предыдущий этап. К символам, которые не участвовали в сжатии на этом этапе, приписывают коды с последующего этапа, а к двум последним символам дважды приписывают код символа, полученного после склеивания, и дописывают к коду верхнего символа 1, нижнего — 0. Если символ дальше в склеивании не участвует, его код остается неизменным. Процедура продолжается до конца (то есть до первого этапа).
В таблице 2.3 показано кодирование по алгоритму Хафмана. Как видно из таблицы, кодирование осуществлялось за 7 этапов. Слева указаны вероятности символов, справа — промежуточные коды. Стрелками показаны перемещения вновь образованных символов. На каждом этапе два последних символа отличаются только младшим разрядом, что соответствует методике кодирования. Вычислим среднюю длину слова:
l ср = 0.3 2 + 0.2 2 + 0.15 3 ++ 2 0.1 3 + +0.05 4 + 0.05 5 + 0.03 6 + 0.02 6 = 2.7
Это еще ближе к энтропии: код еще более эффективен. На рис. 2.12 приведено дерево кода Хафмана.
Таблица 2.3.
Кодирование по алгоритму Хафмана
N | p i | код | I | II | III | IV | V | VI | VII |
0.3 | 0.3 11 | 0.3 11 | 0.3 11 | 0.3 11 | 0.3 11 | 0.4 0 | 0.6 1 | ||
0.2 | 0.2 01 | 0.2 01 | 0.2 01 | 0.2 01 | 0.3 10 | 0.3 11 | 0.4 0 | ||
0.15 | 0.15 101 | 0.15 101 | 0.15 101 | 0.2 00 | 0.2 01 | 0.3 10 | |||
0.1 | 0.1 001 | 0.1 001 | 0.15 100 | 0.15 101 | 0.2 00 | ||||
0.1 | 0.1 000 | 0.1 000 | 0.1 001 | 0.15 100 | |||||
0.05 | 0.05 1000 | 0.1 1001 | 0.1 000 | ||||||
0.05 | 0.05 10011 | 0.05 1000 | |||||||
0.03 | 0.05 10010 | ||||||||
0.02 |
Оба кода удовлетворяют требованию однозначности декодирования: как видно из таблиц, более короткие комбинации не являются началом более длинных кодов.
При увеличении количества символов эффективности кодов возрастают, поэтому в некоторых случаях кодируют более крупные блоки (например, если речь идет о текстах, можно кодировать некоторые наиболее часто встречающиеся слоги, слова и даже фразы).
Эффект от внедрения таких кодов определяется в сравнении их с равномерным кодом:
(2.24) |
где n — количество разрядов равномерного кода, который заменяется эффективным.
Модификации кодов Хафмана
Классический алгоритм Хафмана относится к двухпроходным, т.е. требует вначале набора статистики по символам и сообщениям, а потом описанных выше процедур. Это неудобно на практике, поскольку увеличивает время обработки сообщений и накопления словаря. Чаще используются однопроходные методы, в которых процедуры накопления и кодирования совмещаются. Такие методы называются ещё адаптивным сжатием по Хафману [ 46].
Сущность адаптивного сжатия по Хафману сводится к построению первоначального кодового дерева и последовательной его модификации после поступления каждого очередного символа. Как и прежде, деревья здесь бинарные, т.е. из каждой вершины графа — дерева исходит максимум две дуги. Принято называть исходную вершину родителем, а две связанных с ней следующих вершины — детьми. Введём понятие веса вершины — это количество символов (слов), соответствующих данной вершине, полученных при подаче исходной последовательности. Очевидно, что сумма весов детей равна весу родителя.
После введения очередного символа входной последовательности пересматривается кодовое дерево: пересчитываются веса вершин и при необходимости вершины переставляются. Правило перестановки вершин следующее: веса нижних вершин наименьшие, причём вершины, находящиеся слева на графе, имеют наименьшие веса.
Одновременно вершины нумеруются. Нумерация начинается с нижних (висячих, т.е. не имеющих детей) вершин слева направо, потом переносится на верхний уровень и т.д. до нумерации последней, исходной вершины. При этом достигается следующий результат: чем меньше вес вершины, тем меньше её номер.
Перестановка осуществляется в основном для висячих вершин. При перестановке должно учитываться сформулированное выше правило: вершины с большим весом имеют и больший номер.
После прохождения последовательности (она называется также контрольной или тестовой) всем висячим вершинам присваиваются кодовые комбинации. Правило присвоения кодов аналогично вышеизложенному: количество разрядов кода равно количеству вершин, через которые проходит маршрут от исходной до данной висячей вершины, а значение конкретного разряда соответствует направлению от родителя к «ребёнку» (скажем, переход влево от родителя соответствует значению 1, вправо — 0).
Полученные кодовые комбинации заносятся в память устройства сжатия вместе с их аналогами и образуют словарь. Использование алгоритма заключается в следующем. Сжимаемая последовательность символов разбивается на фрагменты в соответствии с имеющимся словарём, после чего каждый из фрагментов заменяется его кодом из словаря. Не обнаруженные в словаре фрагменты образуют новые висячие вершины, приобретают вес и также заносятся в словарь. Таким образом формируется адаптивный алгоритм пополнения словаря.
Для повышения эффективности метода желательно увеличивать размер словаря; в этом случае коэффициент сжатия повышается. Практически размер словаря составляет 4 — 16 Кбайт памяти.
Проиллюстрируем приведённый алгоритм примером. На рис. 2.13 приведена исходная диаграмма (её называют также деревом Хафмана). Каждая вершина дерева показана прямоугольником, в котором вписаны через дробь две цифры: первая означает номер вершины, вторая — её вес. Как можно убедиться, соответствие весов вершин и их номеров выполняется.
Предположим теперь, что символ, соответствующий вершине 1, в тестовой последовательности встретился вторично. Вес вершины изменился, как показано на рис. 2.14, вследствие чего правило нумерации вершин нарушено. На следующем этапе меняем расположение висячих вершин, для чего меняем местами вершины 1 и 4 и перенумеровываем все вершины дерева. Полученный граф приведён на рис. 2.15. Далее процедура продолжается аналогично.
Следует помнить, что каждая висячая вершина в дереве Хафмана соответствует определённому символу или их группе. Родитель отличается от детей тем, что группа символов, ему соответствующая, на один символ короче, чем у его детей, а эти дети различаются последним символом. Например, родителю соответствуют символы «кар»; тогда у детей могут быть последовательности » кара » и » карп «.
Приведённый алгоритм не является академическим и активно используется в программах — архиваторах, в том числе и при сжатии графических данных (о них речь пойдёт ниже).
Алгоритмы Лемпеля – Зива
Это наиболее часто используемые в настоящее время алгоритмы сжатия. Они используются в большинстве программ — архиваторов (например, PKZIP. ARJ, LHA). Сущность алгоритмов состоит в том, что некоторая совокупность символов заменяется при архивировании её номером в специально формируемом словаре. Например, часто встречающаяся в деловой переписке фраза «На ваше письмо исходящий номер…» может занимать в словаре позицию 121; тогда вместо передачи или хранения упомянутой фразы (30 байт) можно хранить номер фразы (1,5 байта в двоично — десятичной форме или 1 байт — в двоичной).
Алгоритмы названы в честь авторов, впервые предложивших их в 1977 году. Из них первый — LZ77. Для архивирования создается так называемое скользящее по сообщению окно, состоящее из двух частей. Первая часть, большего формата, служит для формирования словаря и имеет размер порядка нескольких килобайт. Во вторую, меньшую часть (обычно размером до 100 байт) принимаются текущие символы просматриваемого текста. Алгоритм пытается найти в словаре совокупность символов, совпадающую с принятыми в окно просмотра. Если это удаётся, формируется код, состоящий из трёх частей: смещение в словаре относительно его начальной подстроки, длина этой подстроки, следующий за этой подстрокой символ. Например, выделенная подстрока состоит из символов » прилож » (всего 6 символов), следующий за ней символ — «е». Тогда, если подстрока имеет адрес (место в словаре) 45, то запись в словарь имеет вид «45, 6. е «. После этого содержимое окна сдвигается на позицию, и поиск продолжается. Таким образом формируется словарь.
Достоинством алгоритма является легко формализуемый алгоритм составления словаря. Кроме того, возможно разархивирование и без первоначального словаря (желательно при этом иметь тестовую последовательность) — словарь формируется по ходу разархивирования.
Недостатки алгоритма появляются при увеличении размера словаря — увеличивается время на поиск. Кроме того, если в текущем окне появляется строка символов, отсутствующая в словаре, трёхэлементным кодом записывается каждый символ, т.е. получается не сжатие, а растяжение.
Лучшие характеристики имеет алгоритм LZSS, предложенный в 1978г. В нём есть отличия в поддержании скользящего окна и выходных кодах компрессора . Помимо окна, алгоритм формирует двоичное дерево, аналогичное дереву Хафмана для ускорения поиска совпадений: каждая подстрока, покидающая текущее окно, добавляется в дерево в качестве одного из детей. Такой алгоритм позволяет дополнительно увеличить размер текущего окна (желательно, чтобы его величина равнялась степени двойки: 128, 256 и т.д. байт). По — другому формируются и коды последовательностей: дополнительно вводится 1- битный префикс для различения незакодированных символов от пар «смещение, длина».
Ещё большая степень сжатия получается при использовании алгоритмов типа LZW. Описанные ранее алгоритмы имеют фиксированный размер окна, что приводит к невозможности занесения в словарь фраз длиннее размера окна. В алгоритмах LZW (и их предшественнике LZ78) просмотровое окно имеет неограниченный размер, а словарь накапливает фразы (а не совокупность символов, как ранее). Словарь имеет неограниченную длину, а кодер (декодер) работают в режиме ожидания фразы. Когда фраза, совпадающая со словарём, сформирована, выдаётся код совпадения (т.е. код этой фразы в словаре) и код следующего за ней символа. Если по мере накопления символов образуется новая фраза, она также заносится в словарь, как и более короткая. В результате образуется рекурсивная процедура, обеспечивающая быстрое кодирование и декодирование.
Дополнительную возможность компрессии обеспечивает сжатое кодирование повторяющихся символов. Если в последовательности некоторые символы следуют подряд (например, в тексте это могут быть символы «пробел», в числовой последовательности — подряд идущие нули и т.д.), то имеет смысл заменять их парой «символ; длина» или «признак, длина». В первом случае в коде указывается признак, что будет осуществляться кодирование последовательности (обычно 1 бит), потом код повторяющегося символа и длина последовательности. Во втором случае (предусмотренном для наиболее часто встречающихся повторяющихся символов) в префиксе указывается просто признак повторов.
принцип и настройка. Сужение динамического диапазона
Во времена, когда исследователи только приступали к решению проблемы создания речевого интерфейса для компьютеров, им зачастую приходилось самостоятельно изготавливать аппаратуру, позволяющую вводить в компьютер звуковую информацию, а также выводить ее из компьютера. Сегодня такие устройства могут иметь разве лишь исторический интерес, так как современные компьютеры можно легко оснастить устройствами ввода и вывода звука, такими как звуковые адаптеры, микрофоны, головные телефоны и звуковые колонки.
Мы не будем углубляться в детали внутреннего устройства этих приспособлений, но расскажем о том, как они работают, и приведем некоторые рекомендации по выбору звуковых компьютерных приспособлений для работы с системами распознавания и синтеза речи.
Как мы уже говорили в предыдущей главе, звук представляет собой ни что иное, как колебания воздуха, частота которых лежит в диапазоне частот, воспринимаемых человеком. У разных людей точные границы диапазона слышимых частот могут изменяться, однако считается, что звуковые колебания лежат в диапазоне 16-20 000 Гц.
Задача микрофона заключается в преобразовании звуковых колебаний в электрические колебания, которые в дальнейшем могут быть усилены, отфильтрованы для удаления помех и оцифрованы для ввода звуковой информации в компьютер.
По принципу действия наиболее распространенные микрофоны делятся на угольные, электродинамические, конденсаторные и электретные. Некоторые их этих микрофонов для своей работы требуют внешнего источника тока (например, угольные и конденсаторные), другие под воздействием звуковых колебаний способны самостоятельно вырабатывать переменное электрическое напряжение (это электродинамические и электретные микрофоны).
Можно также разделить микрофоны по назначению. Есть студийные микрофоны, которые можно держать в руке или закрепить на подставке, есть радиомикрофоны, которые можно закрепить на одежде, и так далее.
Имеются также микрофоны, предназначенные специально для компьютеров. Такие микрофоны обычно крепятся на подставке, стоящей на поверхности стола. Компьютерные микрофоны могут комбинироваться с головными телефонами, как это показано на рис. 2-1.
Рис. 2-1. Головные телефоны с микрофоном
Как же выбрать из всего многообразия микрофонов тот, что лучше всего подходит для систем распознавания речи?
В принципе, Вы можете экспериментировать с любым имеющимся у Вас микрофоном, если только его можно подключить к звуковому адаптеру компьютера. Однако разработчики систем распознавания речи рекомендуют приобрести такой микрофон, который при работе будет находиться на постоянном расстоянии ото рта говорящего.
Если расстояние между микрофоном и ртом не изменяется, то средний уровень электрического сигнала, поступающего от микрофона, также будет меняться не слишком сильно. Это окажет положительное влияние на качество работы современных систем распознавания речи.
В чем тут проблема?
Человек способен успешно распознавать речь, громкость которой меняется в очень широких пределах. Мозг человека способен отфильтровывать тихую речь от помех, таких, например, как шум машин, проезжающих по улице, посторонние разговоры и музыку.
Что же касается современных систем распознавания речи, то их способности в этой области оставляют желать лучшего. Если микрофон стоит на столе, то при повороте головы или изменении положения тела расстояние между ртом и микрофоном будет изменяться. Это приведет к изменению уровня выходного сигнала микрофона, что, в свою очередь, ухудшит надежность распознавания речи.
Поэтому при работе с системами распознавания речи наилучшие результаты будут достигнуты, если использовать микрофон, прикрепленный к головным телефонам, как это показано на рис. 2-1. При использовании такого микрофона расстояние между ртом и микрофоном будет постоянным.
Обращаем также Ваше внимание, что все эксперименты с системами распознавания речи лучше всего проводить, уединившись в тихой комнате. В этом случае влияние помех будет минимально. Разумеется, если Вам нужно выбрать систему распознавания речи, способную работать в условиях сильных помех, то испытания нужно проводить по-другому. Однако, насколько это известно авторам книги, пока помехозащищенность систем распознавания речи еще очень и очень низка.
Микрофон выполняет для нас преобразование звуковых колебаний в колебания электрического тока. Эти колебания можно увидеть на экране осциллографа, однако не спешите в магазин, чтобы приобрести это дорогостоящее устройство. Все осциллографические исследования мы сможем провести с помощью обычного компьютера, оборудованного звуковым адаптером, например, адаптером Sound Blaster . Позже мы расскажем Вам, как это сделать.
На рис. 2-2 мы показали осциллограмму звукового сигнала, получившуюся при произнесении долгого звука а . Эта осциллограмма была получена с помощью программы GoldWave , о которой мы еще расскажем в этой главе книги, а также с помощью звукового адаптера Sound Blaster и микрофона, аналогичного показанному на рис. 2-1.
Рис. 2-2. Осциллограмма звукового сигнала
Программа GoldWave позволяет растягивать осциллограмму по оси времени, что позволяет разглядеть мельчайшие детали. На рис. 2-3 мы показали растянутый фрагмент упомянутой выше осциллограммы звука а .
Рис. 2-3. Фрагмент осциллограммы звукового сигнала
Обратите внимание, что величина входного сигнала, поступающего от микрофона, изменяется периодически и принимает как положительные, так и отрицательные значения.
Если бы во входном сигнале присутствовала только одна частота (то есть если бы звук был «чистым»), форма сигнала, полученного от микрофона, была бы синусоидальной. Однако, как мы уже говорили, спектр звуков человеческой речи состоит из набора частот, в результате чего форма осциллограммы речевого сигнала далека от синусоидальной.
Сигнал, величина которого изменяется со временем непрерывно, мы будем называть аналоговым сигналом . Именно такой сигнал поступает от микрофона. В отличие от аналогового, цифровой сигнал представляет собой набор числовых значений, изменяющихся со временем дискретно.
Чтобы компьютер мог обработать звуковой сигнал, его необходимо перевести из аналоговой формы в цифровую, то есть представить в виде набора числовых значений. Этот процесс называется оцифровкой аналогового сигнала.
Оцифровка звукового (и любого аналогового) сигнала выполняется с помощью специального устройства, называемого аналогово-цифровой преобразователь АЦП (Analog to Digital Converter , ADC ). Это устройство находится на плате звукового адаптера и представляет собой обычную с вида микросхему.
Как работает аналогово-цифровой преобразователь?
Он периодически измеряет уровень входного сигнала, и выдает на выходе числовое значение результата измерений. Этот процесс иллюстрируется на рис. 2-4. Здесь прямоугольниками серого цвета отмечены значения входного сигнала, измеренные с некоторым постоянным интервалом времени. Набор таких значений и есть оцифрованное представление входного аналогового сигнала.
Рис. 2-4. Измерения зависимости амплитуды сигнала от времени
На рис. 2-5 мы показали подключение аналого-цифрового преобразователя к микрофону. При этом на вход x 1 подается аналоговый сигнал, а с выходов u 1 -u n снимается цифровой сигнал.
Рис. 2-5. Аналого-цифровой преобразователь
Аналого-цифровые преобразователи характеризуются двумя важными параметрами — частотой преобразования и количеством уровней квантования входного сигнала. Правильный выбор этих параметров критически важен для достижения адекватного представления в цифровом виде аналогового сигнала.
Насколько часто нужно измерять значение амплитуды входного аналогового сигнала для того, чтобы в результате оцифровки не была потеряна информация об изменениях входного аналогового сигнала?
Казалось бы, ответ прост — входной сигнал нужно измерять как можно чаще. Действительно, чем чаще аналого-цифровой преобразователь проводит такие измерения, тем лучше будут отслеживаться малейшие изменения амплитуды входного аналогового сигнала.
Однако излишне частые измерения могут привести к неоправданному росту потока цифровых данных и бесполезной трате ресурсов компьютера при обработке сигнала.
К счастью, правильный выбор частоты преобразования (частоты дискретизации) сделать достаточно просто. Для этого достаточно обратиться к теореме Котельникова, известной специалистам в области цифровой обработки сигналов. Теорема гласит, что частота преобразования должна быть в два раза выше максимальной частоты спектра преобразуемого сигнала. Следовательно, для оцифровки без потери качества звукового сигнала, частота которого лежит в диапазоне 16-20 000 Гц, нужно выбрать частоту преобразования, не меньшую, чем 40 000 Гц.
Заметим, однако, что в профессиональной звуковой аппаратуре частота преобразования выбирается в несколько раз большей указанного значения. Это делается для достижения очень высокого качества оцифрованного звука. Для систем распознавания речи такое качество не актуально, поэтому мы не будем заострять на таком выборе Ваше внимание.
А какая частота преобразования нужна для оцифровки звука человеческой речи?
Так как звуки человеческой речи лежать в диапазоне частот 300-4000 Гц, то минимально необходимая частота преобразования составляет 8000 Гц. Однако многие компьютерные программы распознавания речи используют стандартную для обычных звуковых адаптеров частоту преобразования 44 000 Гц. С одной стороны, такая частота преобразования не приводит к чрезмерному увеличению потока цифровых данных, а другой — обеспечивает оцифровку речи с достаточным качеством.
Еще в школе нас учили, что при любых измерениях возникают погрешности, от которых невозможно избавиться полностью. Такие погрешности возникают из-за ограниченной разрешающей способности измерительных приборов, а также из-за того, что сам процесс измерений может внести некоторые изменения в измеряемую величину.
Аналого-цифровой преобразователь представляет входной аналоговый сигнал в виде потока чисел ограниченной разрядности. Обычные звуковые адаптеры содержат 16-разрядные блоки АЦП, способные представлять амплитуду входного сигнала в виде 216 =65536 различных значений. Устройства АЦП в звуковой аппаратуре высокого класса могут быть 20-разрядными, обеспечивая большую точность представления амплитуды звукового сигнала.
Современные системы и программы распознавания речи создавались для обычных компьютеров, оборудованных обычными же звуковыми адаптерами. Поэтому для проведения экспериментов с распознаванием речи Вам не потребуется приобретать профессиональный звуковой адаптер. Такой адаптер, как Sound Blaster , вполне пригоден для оцифровки речи с целью ее дальнейшего распознавания.
Вместе с полезным сигналом в микрофон обычно попадают различные шумы — шум с улицы, шум ветра, посторонние разговоры и т.д. Шум оказывает отрицательное воздействие на качество работы систем распознавания речи, поэтому с ним приходится бороться. Один из способов мы уже упоминали — сегодняшними системами распознавания речи лучше всего пользоваться в тихой комнате, оставаясь с компьютером один на один.
Однако идеальные условия удается создать далеко не всегда, поэтому приходится использовать специальные методы, позволяющие избавиться от помех. Для снижения уровня шума применяются специальные ухищрения при конструировании микрофонов и специальные фильтры, удаляющие из спектра аналогового сигнала частоты, не несущие полезную информацию. Кроме того, используется такой прием, как сжатие динамического диапазона уровней входного сигнала.
Расскажем обо всем этом по порядку.
Частотным фильтром называется устройство, преобразующее частотный спектр аналогового сигнала. При этом в процессе преобразования происходит выделение (или поглощение) колебаний тех или иных частот.
Вы можете представить себе это устройство в виде некоего черного ящика с одним входом и одним выходом. Применительно к нашей ситуации, к входу частотного фильтра будет подключен микрофон, а к выходу — аналого-цифровой преобразователь.
Частотные фильтры бывают разные:
· фильтры нижних частот;
· фильтры верхних частот;
· пропускающие полосовые фильтры;
· заграждающие полосовые фильтры.
Фильтры нижних частот (low -pass filter ) удаляют из спектра входного сигнала все частоты, значения которых находятся ниже некоторой пороговой частоты, зависящей от настройки фильтра.
Так как звуковые сигналы лежат в диапазоне 16-20 000 Гц, то все частоты меньше 16 Гц можно отрезать без ухудшения качества звука. Для распознавания речи важен частотный диапазон 300-4000 Гц, поэтому можно вырезать частоты ниже 300 Гц. При этом из входного сигнала будут вырезаны все помехи, частотный спектр которых лежит ниже 300 Гц, и они не будут мешать процессу распознавания речи.
Аналогично, фильтры верхних частот (high -pass filter ) вырезают из спектра входного сигнала все частоты выше некоторой пороговой частоты.
Человек не слышит звуки с частотой 20 000 Гц и выше, поэтому их можно вырезать из спектра без заметного ухудшения качества звука. Что же касается распознавания речи, то здесь можно вырезать все частоты выше 4000 Гц, что приведет к существенному снижению уровня высокочастотных помех.
Пропускающий полосовой фильтр (band -pass filter ) можно представить себе в виде комбинации фильтра нижних и верхних частот. Такой фильтр задерживает все частоты, ниже так называемой нижней частоты пропускания , а также выше верхней частоты пропускания .
Таким образом, для системы распознавания речи удобен пропускающий полосовой фильтр, который задерживает все частоты, кроме частот диапазона 300-4000 Гц.
Что же касается заграждающих полосовых фильтров (band -stop filter ), то они позволяют вырезать из спектра входного сигнала все частоты, лежащие в заданном диапазоне. Такой фильтр удобен, например, для подавления помех, занимающих некоторую сплошную часть спектра сигнала.
На рис. 2-6 мы показали подключение пропускающего полосового фильтра.
Рис. 2-6. Фильтрация звукового сигнала перед оцифровкой
Надо сказать, что обычные звуковые адаптеры, установленные в компьютере, имеют в своем составе полосовой фильтр, через который проходит аналоговый сигнал перед оцифровкой. Полоса пропускания такого фильтра обычно соответствует диапазону звуковых сигналов, а именно 16-20 000 Гц (в разных звуковых адаптерах значения верхней и нижней частоты могут изменяться в небольших пределах).
А как добиться более узкой полосы пропускания 300-4000 Гц, соответствующей наиболее информативной части спектра человеческой речи?
Конечно, если у Вас есть склонности к конструированию радиоэлектронной аппаратуры, Вы можете сделать свой фильтр из микросхемы операционного усилителя, резисторов и конденсаторов . Примерно так и поступали первые создатели систем распознавания речи.
Однако промышленные системы распознавания речи должны быть работоспособны на стандартном компьютерном оборудовании, поэтому путь изготовления специального полосового фильтра тут не подходит.
Вместо этого в современных системах обработки речи используются так называемые цифровые частотные фильтры , реализованные программно. Это стало возможным, после того как центральный процессор компьютера стал достаточно мощным.
Цифровой частотный фильтр, реализованный программно, преобразует входной цифровой сигнал в выходной цифровой сигнал. В процессе преобразования программа обрабатывает специальным образом поток числовых значений амплитуды сигнала, поступающий от аналого-цифрового преобразователя. Результатом преобразования при этом также будет поток чисел, однако этот поток будет соответствовать уже отфильтрованному сигналу.
Рассказывая об аналогово-цифровом преобразователе, мы отметили такую его важную характеристику, как количество уровней квантования. Если в звуковом адаптере установлен 16-разрядный аналого-цифровой преобразователь, то после оцифровки уровни звукового сигнала могут быть представлены в виде 216 =65536 различных значений.
Если уровней квантования мало, то возникает так называемый шум квантования . Чтобы уменьшить этот шум, в высококачественных системах оцифровки звука следует применять аналого-цифровые преобразователи с максимально доступным количеством уровней квантования.
Однако есть еще один прием, позволяющий снизить влияние шума квантования на качество звукового сигнала, который используется в цифровых системах записи звука. При использовании этого приема перед оцифровкой сигнал пропускается через нелинейный усилитель, подчеркивающий сигналы с малой амплитудой сигнала. Такое устройство усиливает слабые сигналы сильнее, чем сильные.
Это иллюстрируется графиком зависимости амплитуда выходного сигнала от амплитуды входного сигнала, показанным на рис. 2-7.
Рис. 2-7. Нелинейное усиление перед оцифровкой
На этапе обратного преобразования оцифрованного звука в аналоговый (этот этап мы рассмотрим ниже в этой главе) перед выводом на звуковые колонки аналоговый сигнал снова пропускается через нелинейный усилитель. На этот раз используется другой усилитель, который подчеркивает сигналы с большой амплитудой и имеет передаточную характеристику (зависимость амплитуда выходного сигнала от амплитуды входного сигнала), обратную той, что применялась при оцифровке.
Чем все это может помочь создателям систем распознавания речи?
Человек, как известно, достаточно хорошо распознает речь, произнесенную тихим шепотом или достаточно громким голосом. Можно сказать, что динамический диапазон уровней громкости успешно распознаваемой речи для человека достаточно широк.
Сегодняшние компьютерные системы распознавания речи, к сожалению, пока не могут похвастаться этим. Однако с целью некоторого расширения указанного динамического диапазона перед оцифровкой можно пропустить сигнал от микрофона через нелинейный усилитель, передаточная характеристика которого показана на рис. 2-7. Это позволит снизить уровень шума квантования при оцифровке слабых сигналов.
Разработчики систем распознавания речи, опять же, вынуждены ориентироваться в первую очередь на серийно выпускаемые звуковые адаптеры. В них не предусмотрено описанные выше нелинейное преобразование сигнала.
Тем не менее, можно создать программный эквивалент нелинейного усилителя, преобразующего оцифрованный сигнал перед передачей его модулю распознавания речи. И хотя такой программный усилитель не сможет снизить шум квантования, с его помощью можно подчеркнуть те уровни сигнала, которые несут в себе наибольшую речевую информацию. Например, можно уменьшить амплитуду слабых сигналов, избавив таким способом сигнал от шумов.
Компрессия это одна из наиболее опутанных мифами тем саундпродакшна. Говорят, Бетховен даже пугал ей соседских детей:(
Ладно, на самом деле, применять компрессию не сложнее чем пользоваться дисторшном, главное — понимать принцип её работы и иметь хороший контроль . В чём мы сейчас вместе и убедимся.
Что такое компрессия звука
Первое, что стоит уяснить перед препарированием — компрессия это работа с динамическим диапазоном звука . А , в свою очередь, — ни что иное как разница между самым громким и самым тихим уровнем сигнала:
Так вот, компрессия это сжатие динамического диапазона . Да, просто сжатие динамического диапазона, ну или другими словами понижение уровня громких частей сигнала и увеличение громкости тихих . Не более того.
Ты можешь вполне резонно удивиться с чем тогда связан такой хайп? Почему все говорят о рецептах правильной настройки компрессоров, но никто ими не делится? Почему, не смотря на огромное количество классных плагинов , во многих студиях до сих пор используются дорогущие раритетные модели компрессоров? Почему одни продюсеры применяют компрессоры на экстремальных настройках, а другие не используют совсем? И кто из них в конце концов прав?
Задачи, которые решает компрессия
Ответы на подобные вопросы лежат в плоскости понимания роли компрессии в работе со звуком. А она позволяет:
- Подчёркивать атаку звука, делать его более выраженным;
- «Усаживать» в микс отдельные партии инструментов , добавляя им мощности и «веса»;
- Делать группы инструментов или весь микс более цельным , таким единым монолитом;
- Решать конфликты между инструментами с помощью sidechain ;
- Исправлять огрехи вокалиста или музыкантов , выравнивая их динамику;
- При определённой настройке выступать в качестве художественного эффекта .
Как видишь, это не менее значимый творческий процесс чем, скажем, придумывание мелодий или наруливание интересных тембров. При этом любая из вышеперечисленных задач может быть решена с помощью 4-х основных параметров.
Основные параметры компрессора
Не смотря на огромное количество программных и аппаратных моделей компрессоров, вся «магия» компрессии происходит при правильной настройке основных параметров: Threshold, Ratio, Attack и Release. Рассмотрим их подробнее:
Threshold или порог срабатывания, dB
Этот параметр позволяет установить значение, с которого компрессор будет работать (то есть сжимать аудиосигнал). Так, если мы установим в threshold -12dB, компрессор будет срабатывать только в тех местах динамического диапазона, которые превышают это значение. Если весь наш звук тише -12db, компрессор просто пропустит его через себя, никак на него не влияя.
Ratio или коэффициент сжатия
Параметр ratio определяет насколько сильно будет сжиматься сигнал, превышающий threshold. Немного математики для полноты картины: допустим, мы настроили компрессор с threshold -12dB, ratio 2:1 и подали на него барабанный луп , в котором громкость бочки равна -4dB. Каким в этом случае будет результат работы компрессора?
В нашем случае уровень бочки превышает threshold на 8dB. Эта разница в соответствии с ratio будет сжата до 4dB (8dB / 2). В сумме с необработанной частью сигнала это приведёт к тому, что после обработки компрессором громкость бочки составит -8db (threshold -12dB + сжатый сигнал 4dB).
Attack, ms
Это время, спустя которое компрессор будет реагировать на превышение порога срабатывания. То есть, если время атаки выше 0ms — компрессор начинает сжатие превышающего threshold сигнала не мгновенно, а спустя указанное время.
Release или восстановление, ms
Противоположность атаке — значение данного параметра позволяет указать спустя какое время с момента возврата уровня сигнала ниже threshold компрессор прекратит сжатие .
Прежде чем мы двинемся дальше, настоятельно рекомендую взять хорошо знакомый семпл, повесить на его канал любой компрессор и 5-10 минут поэкспериментировать с вышеперечисленными параметрами для надёжного закрепления материала
Все остальные параметры опциональны . Они могут отличаться в разных моделях компрессоров, отчасти поэтому продюсеры и применяют различные модели для каких-либо определённых целей (например, один компрессор для вокала, другой на группу ударных, третий — на мастер-канале). Я не стану подробно останавливаться на этих параметрах, а лишь дам общую информацию для понимания что это вообще такое:
- Колено или излом (Hard/Soft Knee) . Этот параметр определяет как быстро будет применяться коэффициент сжатия (ratio): жестко по кривой или плавно. Отмечу, что в режиме Soft Knee компрессор срабатывает не прямолинейно, а начинает плавно (насколько это может быть уместно когда мы говорим о миллисекундах) поджимать звук уже перед значением threshold . Для обработки групп каналов и общего микса чаще используется именно soft knee (так как работает незаметно), а для подчёркивания атаки и других особенностей отдельных инструментов — hard knee;
- Режим реагирования: Peak/RMS . Режим Peak оправдан когда нужно жёстко лимитировать всплески амплитуды, а также на сигналах со сложной формой, динамику и читаемость которых нужно полностью передать. Режим RMS очень бережно влияет на звук, позволяя уплотнить его, сохранив атаку;
- Предусмотрительность (Lookahead) . Это время, за которое компрессор будет знать что ему предстоит. Своего рода предварительный анализ входящих сигналов;
- Makeup или Gain . Параметр, позволяющий компенсировать понижение громкости в результате работы компрессии.
Первый и самый главный совет , снимающий все дальнейшие вопросы по компрессии: если ты а) понял принцип действия компрессии, б) твёрдо знаешь как воздействует на звук тот или иной параметр и в) успел на практике попробовать несколько разных моделей — никакие советы тебе уже не нужны .
Я абсолютно серьёзен. Если ты внимательно прочёл эту запись, поэкспериментировал со штатным компрессором твоей DAW и одним-двумя плагинами , но так и не понял в каких случаях нужно устанавливать большие значения атаки, какой коэффициент ratio применять и в каком из режимов обрабатывать исходный сигнал — то так и будешь дальше искать в интернете готовые рецепты, применяя их бездумно куда попало.
Рецепты точной настройки компрессора это примерно как рецепты точной настройки ревербератора или хоруса — лишено какого-либо смысла и не имеет ничего общего с творчеством. Поэтому настойчиво повторяю единственно верный рецепт: вооружись этой статьёй, хорошими мониторными наушниками , плагином для визуального контроля формы волны и проведи вечер в компании с парочкой компрессоров.
Действуй!
Уровень звука одинаковый на протяжении всей композиции, имеется несколько пауз.
Сужение динамического диапазона
Сужение динамического диапазона, или проще говоря компрессия , необходима для разных целей, наиболее часто встречающиеся из них:
1) Достижение единого уровня громкости на протяжении всей композиции (или партии инструмента).
2) Достижение единого уровня громкости композиций на протяжении альбома/радио передачи.
2) Повышение разборчивости, в основном при компрессии определённой партии (вокал, бас бочка).
Как же происходит сужение динамического диапазона?
Компрессор анализирует уровень звука на входе сравнивая его с задаваемым пользователем значением Threshold (Порог).
Если уровень сигнала ниже значения Threshold – то компрессор продолжает анализировать звук не изменяя его. Если уровень звука превышает значение Threshold – то компрессор начинает своё действие. Так как роль компрессора заключается в сужении динамического диапазона, то логично предположить то что он ограничивает наиболее большие и наиболее маленькие значения амплитуды (уровня сигнала). На первом этапе происходит ограничение наиболее больших значений, которые понижаются с определённой силой, которая называется Ratio (Отношение). Посмотрим на пример:
Зелёные кривые отображают уровень звука, чем больше амплитуда их колебаний от оси X – тем больше уровень сигнала.
Жёлтая линия – это порог (Threshold) срабатывания компрессора. Делая значение порога Threshold выше – пользователь отдаляет его от оси X. Делая значение порога Threshold ниже – пользователь приближает его к оси Y. Понятно то что чем ниже значение порога – тем чаще будет срабатывать компрессор и наоборот, чем выше – тем реже. Если значение Ratio очень велико – то после достижения уровня сигнала Threshold весь последующий сигнал будет подавлен компрессором до тишины. Если значение Ratio очень мало – то ничего не произойдёт. О выборе значений Threshold и Ratio речь пойдёт позже. Сейчас же нам следует задать себе следующий вопрос: Какой же смысл подавлять весь последующий звук? Действительно, в этом смысла нет, нам нужно избавиться только от значений амплитуды (пиков), которые превышают значение Threshold (на графике отмечены красным). Именно для решения этой проблемы и существует параметр Release (Затухание), которым задаётся время действия компрессии.
На примере видно то что первый и второй превышения порога Threshold длятся меньше чем третье превышение порога Threshold. Так, если параметр Release настроить на первые два пика – то при обработке третьего может остаться необработанная часть (так как превышение порога Threshold длится дольше). Если же параметр Release настроить на третий пик – то при обработке первого и второго пика за ними образуется нежелательное понижение уровня сигнала.
Тоже самое касается параметра Ratio. Если параметр Ratio настроить на первые два пика – то третий не будет достаточно подавлен. Если же параметр Ratio настроить на обработку третьего пика – то обработка первых двух пиков будет слишком завышенной.
Эти проблемы можно решить двумя способами:
1) Заданием параметра атаки (Attack) – частичное решение.
2) Динамической компрессией – полное решение.
Параметр а таки (Attack) предназначен для задания времени, по истечению которого компрессор начнёт свою работу после превышения порога Threshold. Если параметр близок к нулю (равен нулю в случае параллельной компрессии, смотри соотв. статью) – то компрессор начнёт подавлять сигнал сразу же, и будет работать кол-во времени, задаваемое параметром Release. Если же скорость атаки велика – то компрессор начнёт своё действие по истечении определённого промежутка времени (это нужно для придания чёткости). В нашем случае можно настроить параметры порога (Threshold), затухания (Release) и уровня компрессии (Ratio) на обработку первых двух пиков, а значение атаки (Attack) поставить близким к нулю. Тогда компрессор подавит первые два пика, и при обработке третьего будет его подавлять до окончания превышения порога (Threshold). Однако это не гарантирует качественной обработки звука и близко к лимиттингу (грубый срез всех значений амплитуды,в этом случае компрессор называется лимиттером).
Посмотрим на результат обработки звука компрессором:
Пики исчезли, замечу то что настройки обработки были достаточно щадящими и мы подавили только самые выступающие значения амплитуды. На практике же динамический диапазон сужается гораздо сильнее и эта тенденция только прогрессирует. В умах многих композиторов – они делают музыку громче, однако на практике они полностью лишают её динамики для тех слушателей, которые возможно будут слушать её дома а не по радио.
Нам осталось рассмотреть последний параметр компрессии, это Gain (Усиление). Усиление предназначено для увеличения амплитуды всей композици и, по сути, эквивалентно другому инструменту звуковых редакторов – нормалайзу. Посмотрим на конечный результат:
В нашем случае компрессия была оправданной и улучшила кчество звука, так как выделяющийся пик скорее является случайностью, чем умышленным результатом. Кроме того, видно то что музыка ритмичная, следовательно ей свойственен узкий динамический диапазон. В случаях, когда высокие значения амплитуд были сделаны специально, компрессия может стать ошибкой.
Динамическая компрессия
Отличие динамической компрессии от не динамической заключается в том, что при первой уровень подавления сигнала (Ratio) зависит от уровня входящего сигнала. Динамические компрессоры есть во всех современных программах, управлением параметрами Ratio и Threshold осуществляется с помощью окна (каждому параметру соответствует своя ось):
Единого стандарта отображения графика нету, где-то по оси Y отображается уровень входящего сигнала, где-то наоборот, уровень сигнала после компрессии. Где-то точка (0,0) находится в верхнем правом углу, где-то в нижнем левом. В любом случае, при перемещении курсора мыши по этому полю изменяются значения цифр, которые соответствуют параметрам Ratio и Threshold. Т.е. Вы задаёте уровень компресии для каждого значения Threshold, благодаря чему можно очень гибко настроить компрессию.
Сайд чейн (Side Chain)
Сайд чейн компрессор анализирует сигнал одного канала, и когда уровень звука превосходит порог (threshold) – применяет компрессию к другому каналу. Сайд чейн имеет свои преимущества работы с инструментами, которые расположены в одной частотной области (активно используется связка бас – бас бочка), однако иногда используются и инструменты, расположенные в разных частотных областях, что приводит к интересному сайд-чейн эффекту.
Часть вторая – Этапы компрессии
Существует три этапа компрессии:
1) Первый этап – компрессия отдельных звуков (singleshoots).
Тембр любого инструмента имеет следующие характеристики: Атака (Attack), Держание (Hold), Спад (Decay), Период удержания (Delay) Уровень(Sustain), Затухание (Release).
Этап компрессии отдельных звуков подразделяется на две части:
1.1) Компрессия отдельных звуков ритмических инструментов
Часто составляющие бита требуют отдельной компрессии для придания им чёткости. Многие обрабатывают бас бочку отдельно от других ритмических инструментов, как на этапе компрессии отдельных звуков, так и на этапе компрессии отдельных партий. Связано это с тем, что она находится в низкочастотной области, где кроме неё обычно присутствует только бас. Под чёткостью бас бочки понимается наличие характерного щелчка (у бас бочки очень короткое время атаки и держания). Если щелчка нет – то нужно обработать её компрессором, задавая порог равным нулю а время атаки от 10 до 50 мс. Спад (Realese) компрессора должен закончиться до нового удара бас-бочки. Последнюю проблему можно решить с помощью формулы: 60 000 / BPM , где BPM – темп композиции. Так, например) 60 000/137=437,96 (время в миллисекундах до новой сильной доли 4-х размерной композиции).
Всё выше сказанное относится и к другим ритмическим инструментам с коротким временем атаки – они должны обладать акцентированным щелчком, который не должен быть подавлен компрессором на каком-то из этапов уровней компрессии.
1.2) Компрессия отдельных звуков гармонических инструментов
В отличие от ритмических инструментов, партии гармонических инструментов довольно редко составляются из отдельных звуков. Однако из этого не следует то что их не следует обрабатывать на уровне компрессии звуков. В случае если Вы используете семпл с записанной партией – то это второй уровень компрессии. К этому уровню компрессии относятся только синтезируемые гармонические инструменты. Это могут быть семплеры, синтезаторы использующие различные методы синтеза звука (физическое моделирование, FM, аддитивный, субтрактивный и др.). Как Вы наверное уже догадались – речь идёт о программировании настроек синтезатора. Да! Это тоже компрессия! Практически у всех синтезаторов есть программируемый параметр envelope (ADSR), что в переводе означает огибающая. С помощью огибающей задаётся время Атаки (Attack), Спада (Decay), Уровеня держания (Sustain), Затухания (Release). И если Вы мне скажите то что это не компрессия каждого отдельного звука – Вы мой враг на всю жизнь!
2) Второй этап – Компрессия отдельных партий.
Под компрессией отдельных партий я понимаю сужение динамического диапазона ряда объединённых отдельных звуков. В этот этап входят и записи партий, в том числе вокал, который требует обработки компрессия для придания ему чёткости и разборчивости. При обработке компрессией партий нужно учитывать то что при сложении отдельных звуков могут появиться нежелательный пики, от которых и нужно избавиться на этом этапе, так как если это не сделать сейчас, то картина может усугубиться на этапе сведения всей композиции. На этапе компрессии отдельных партий нужно учитывать компрессию этапа обработки отдельных звуков. Если Вы добились чёткости бас бочки – то неправильная повторная обработка на втором этапе может всё испортить. Обработка всех партий компрессором не обязательна, также как и не обязательна обработка всех отдельных звуков. Я Вам советую поставить на всякий случай анализатор амплитуды чтобы определять наличие нежелательных побочных эффектов объединения отдельных звуков. Помимо компрессии на этом этапе необходимо следить за тем, чтобы партии были по возможности в разных частотных диапазонах, чтобы было выполнено квантование. Также полезно помнить то что у звука есть такая характеристика как маскировка (психоакустика):
1) Более тихий звук маскируется более громким, идущим перед ним.
2) Более тихий звук на низкой частоте маскируется более громким звуком на высокой частоте.
Так, например, если у Вас есть партия синтезатора, то часто ноты начинают играть до того как заканчивают своё звучание предыдущие ноты. Иногда это необходимо (создание гармонии, стиль игры, многоголосие), но порой вовсе нет – Вы можете обрезать их конец (Delay – Release) в случае если он слышен в solo режиме, но не слышен в режиме воспроизведения всех партий. Тоже самое относится к эффектам, например реверберации – она не должна длится до нового начала звучания источника звука. Вырезая и удаляя ненужный сигнал – вы делаете звучание чище, и это тоже может быть рассмотрено как компрессия – потому что Вы удаляете ненужные волны.
3) Третий этап – Компрессия композиции.
При компрессии всей композиции нужно учитывать то что все партии являются объединением множества отдельных звуков. Следовательно, при их объединении и последующей компрессии нужно следить за тем чтобы конечная компрессия не испортила то чего мы достигли на первых двух этапах. Также нужно разделять композиции в которых важен широкий или узкий диапазон. при компрессии композиций с широким динамическим диапазоном – достаточно поставить компрессор, который будет давить кратковременные пики, которые образовались в результате сложения партий между собой. При компрессии композиции, в которой важен узкий динамический диапазон, – всё гораздо сложнее. Тут компрессоры последнее время называются максимайзерами. Максимайзер – плагин, который совмещает в себе компрессор, лимиттер, граффический эквалайзер, энхайзер и прочие инструменты преобразования звука. При этом он должен обязательно обладать инструментами анализа звука. Максимайзинг, конечная обработка компрессором, во многом нужна для борьбы с допущенными ошибками на предыдущих этапах. Ошибки – не столько компрессии (впрочем, если Вы делаете на последнем этапе то что Вы могли сделать на первом этапе – это уже ошибка), сколько в изначальном выборе хороших семплов и инструментов, которые не мешали бы друг другу (речь идёт о частотных диапазонах). Именно для этого производится коррекция АЧХ. Часто бывает так, что при сильной компрессии на мастере нужно изменять параметры компрессии и сведения на более ранних этапах, так как при сильном сужении динамического диапазона вылазят тихие звуки, которые ранее маскировались, изменяется звучание отдельных компонентов композиции.
В этих частях я нарочно не говорил о конкретных параметрах компрессии. Я посчитал необходимым написать о том что при компрессии необходимо уделять внимание всем звукам и всем партиям на всех этапах создания композиции. Только так в итоге Вы получите гармоничный результат не только с точки зрения теории музыки, но и с точки зрения звукорежиссуры.
Далее в таблице даны практические советы по обработке отдельных партий. Однако в компрессии цифры и пресеты могут только подсказать нужную область, в округе которой нужно искать. Идеальные настройки компрессии зависят от каждого отдельного случая. Параметры усиления (Gain) и порога (Threshold) подразумевают нормальный уровень звука (логическое использование всего диапазона).
Часть третяя – Параметры компрессии
Краткая справка:
Порог срабатывания (threshold) – определяет уровень звука входящего сигнала, по достижению которого компрессор начинает работу.
Атака (Attack) – определяет время, по истечению которого компрессор начнёт работать.
Уровень (ratio) – определяет стпень уменьшения значений амплитуды (по отношению к оригинальному значению амплитуды).
Спад (release) – определяет время, по истечению которого компрессор перестанет работать.
Усиление (Gain) – определяет уровень повышения входящего сигнала, после обработки компрессором.
Таблица компрессии:
Инструмент | Threshold | Attack | Ratio | Release | Gain | Описание |
Вокал | 0 ДБ | 1-2 мс 2-5 mS 10 мсек 0.1 мс 0.1 мс | меньше 4:1 2,5: 1 4:1 – 12:1 2:1 -8:1 | 150 мс 50-100 mS 150 мсек 150 мс 0.5s | Компрессия при записи должна быть минимальна, требует обязательной обработки на этапе сведения для придания чёткости и разборчивости. | |
Духовые инструменты | 1 – 5ms | 6:1 – 15:1 | 0.3s | |||
Бочка | от 10 до 50 мс 10-100 mS | 4:1 и выше 10:1 | 50-100 мс 1 mS | Чем ниже Thrshold и чем больше Ratio и длиннее Attack , тем сильнее выражен щелчок вначале бочки. | ||
Синтезаторы | Зависит от типа волны (огибающих ADSR). | |||||
Рабочий барабан: | 10-40 mS 1- 5ms | 5:1 5:1 – 10:1 | 50 mS 0.2s | |||
Хай-Хэт | 20 mS | 10:1 | 1 mS | |||
Надголовные микрофоны | 2-5 mS | 5:1 | 1-50 mS | |||
Ударные | 5ms | 5:1 – 8:1 | 10ms | |||
Бас-гитара | 100-200 mS 4ms to 10ms | 5:1 | 1 mS 10ms | |||
Струнные | 0-40 mS | 3:1 | 500 mS | |||
Синт. бас | 4ms – 10ms | 4:1 | 10ms | Зависит от огибающих. | ||
Перкуссия | 0-20 mS | 10:1 | 50 mS | |||
Акустическая гитара, Пианино | 10-30 mS 5 – 10ms | 4:1 5:1 -10:1 | 50-100 mS 0.5s | |||
Электро-нитара | 2 – 5ms | 8:1 | 0.5s | |||
Финальная компрессия | 0.1 мс 0.1 мс | 2:1 от 2:1 до 3:1 | 50 мс 0.1 мс | 0 дБ на выходе | Время атаки зависит от цели – нужно ли удалить пики или сделать трек более гладким. | |
Лимиттер после финальной компрессии | 0 mS | 10:1 | 10-50 mS | 0 дБ на выходе | Если нужен узкий динамический диапазон и грубый «срез» волн. |
Информация была взята из разных источников, на которые ссылаются попуряные ресурсы в интернете. Различие параметров компрессии объесняется различием предпочтений звучания и работой с различным материалом.
Эта группа методов основана на том, что передаваемые сигналы подвергаются нелинейным преобразованиям амплитуды, причем в передающей и приёмной частях нелинейности взаимообратны. Например, если в передатчике используется нелинейная функция Öu , в приемнике – u 2 . Последовательное применение взаимообратных функций приведет к тому, что в целом преобразование остается линейным.
Идея нелинейных методов сжатия данных сводится к тому, что передатчик может при той же амплитуде выходных сигналов передать больший диапазон изменения передаваемого параметра (то есть, больший динамический диапазон). Динамический диапазон — это выраженное в относительных единицах или децибеллах отношение наибольшей допустимой амплитуды сигнала к наименьшей:
; | (2.17) |
. | (2.18) |
Естественное желание увеличить динамический диапазон с помощью уменьшения U min ограничивается чувствительностью аппаратуры и возрастанием влияния помех и собственных шумов.
Наиболее часто сжатие динамического диапазона осуществляется с помощью пары взаимообратных функций логарифмирования и потенцирования. Первая операция изменения амплитуды называется компрессией (сжатием), вторая — экспандированием (растяжением). Выбор именно этих функций связан с их наибольшей возможностью компрессии.
В то же время эти методы имеют и недостатки. Первый из них заключается в том, что логарифм малого числа отрицателен и в пределе:
то есть, чувствительность очень нелинейна.
Для уменьшения этих недостатков обе функции модифицируют смещением и аппроксимацией. Например, для телефонных каналов аппроксимированная функция имеет вид (тип А,):
причем А=87,6. Выигрыш от сжатия при этом составляет 24дБ.
Сжатие данных путём нелинейных процедур реализуется аналоговыми средствами с большими погрешностями. Применение цифровых средств может существенно повысить точность или быстродействие преобразования. При этом прямое применение средств вычислительной техники (то есть, непосредственное вычисление логарифмов и экспонент) даст не лучший результат ввиду низкого быстродействия и накапливающейся погрешности вычисления.
Сжатие данных путем компрессии из-за ограничений по точности используется в неответственных случаях, например, для передачи речи по телефонным и радиоканалам.
Эффективное кодирование
Эффективные коды были предложены К.Шенноном, Фано и Хафманом . Сущность кодов заключается в том, что они неравномерные, то есть с неодинаковым числом разрядов, причем длина кода обратно пропорциональна вероятности его появления. Еще одна замечательная особенность эффективных кодов — они не требуют разделителей, то есть специальных символов, разделяющих соседние кодовые комбинации. Это достигается при соблюдении простого правила: более короткие коды не являются началом более длинных. В этом случае сплошной поток двоичных разрядов однозначно декодируется, поскольку декодер обнаруживает вначале более короткие кодовые комбинации. Эффективные коды долгое время были чисто академическими, но в последнее время успешно используются при формировании баз данных, а также при сжатии информации в современных модемах и в программных архиваторах .
Ввиду неравномерности вводят среднюю длину кода. Средняя длина — математическое ожидание длины кода:
причем, l ср стремится к H(x) сверху (то есть l ср > H(x)).
Выполнение условия (2.23) усиливается при увеличении N.
Существует две разновидности эффективных кодов: Шеннона-Фано и Хафмана. Рассмотрим их получение на примере. Предположим, вероятности символов в последовательности имеют значения, приведенные в таблице 2.1.
Таблица 2.1.
Вероятности символов
N | |||||||||
p i | 0.1 | 0.2 | 0.1 | 0.3 | 0.05 | 0.15 | 0.03 | 0.02 | 0.05 |
Символы ранжируются, то есть представляются в ряд по убыванию вероятностей. После этого по методу Шеннона-Фано периодически повторяется следующая процедура: вся группа событий делится на две подгруппы с одинаковыми (или примерно одинаковыми) суммарными вероятностями. Процедура продолжается до тех пор, пока в очередной подгруппе не останется один элемент, после чего этот элемент устраняется, а с оставшимися указанные действия продолжаются. Это происходит до тех пор, пока в последних двух подгруппах не останется по одному элементу. Продолжим рассмотрение нашего примера, которое сведено в таблице 2.2.
Таблица 2.2.
Кодирование по методу Шеннона-Фано
N | P i | ||||||
4 | 0.3 | I | |||||
0.2 | I | II | |||||
6 | 0.15 | I | I | ||||
0.1 | II | ||||||
1 | 0.1 | I | I | ||||
9 | 0.05 | II | II | ||||
5 | 0.05 | II | I | ||||
7 | 0.03 | II | II | I | |||
8 | 0.02 | II |
Как видно из таблицы 2.2, первый символ с вероятностью p 4 = 0.3 участвовал в двух процедурах разбиения на группы и оба раза попадал в группу с номером I . В соответствии с этим он кодируется двухразрядным кодом II. Второй элемент на первом этапе разбиения принадлежал группе I, на втором — группе II. Поэтому его код 10. Коды остальных символов в дополнительных комментариях не нуждаются.
Обычно неравномерные коды изображают в виде кодовых деревьев. Кодовое дерево — это граф, указывающий разрешенные кодовые комбинации . Предварительно задают направления ребер этого графа, как показано на рис.2.11 (выбор направлений произволен).
По графу ориентируются следующим образом: составляют маршрут для выделенного символа; количество разрядов для него равно количеству ребер в маршруте, а значение каждого разряда равно направлению соответствующего ребра. Маршрут составляется из исходной точки (на чертеже она помечена буквой А). Например, маршрут в вершину 5 состоит из пяти ребер, из которых все, кроме последнего, имеют направление 0; получаем код 00001.
Вычислим для этого примера энтропию и среднюю длину слова.
H(x) = -(0.3 log 0.3 + 0.2 log 0.2 + 2 0.1 log 0.1+ 2 0.05 log 0.05+
0.03 log 0.03 + 0.02 log 0.02) = 2.23 бит
l ср = 0.3 2 + 0.2 2 + 0.15 3 + 0.1 3 + 0.1 4 + 0.05 5 +0.05 4+
0.03 6 + 0.02 6 = 2.9 .
Как видно, средняя длина слова близка к энтропии.
Коды Хафмана строятся по иному алгоритму. Процедура кодирования состоит из двух этапов. На первом этапе последовательно проводят однократные сжатия алфавита. Однократное сжатие — замена двух последних символов (с низшими вероятностями) одним, с суммарной вероятностью. Сжатия проводят до тех пор, пока не останется два символа. При этом заполняют таблицу кодирования, в которой проставляют результирующие вероятности, а также изображают маршруты, по которым новые символы переходят на следующем этапе.
На втором этапе происходит собственно кодирование, которое начинается с последнего этапа: первому из двух символов присваивают код 1, второму — 0. После этого переходят на предыдущий этап. К символам, которые не участвовали в сжатии на этом этапе, приписывают коды с последующего этапа, а к двум последним символам дважды приписывают код символа, полученного после склеивания, и дописывают к коду верхнего символа 1, нижнего — 0. Если символ дальше в склеивании не участвует, его код остается неизменным. Процедура продолжается до конца (то есть до первого этапа).
В таблице 2.3 показано кодирование по алгоритму Хафмана. Как видно из таблицы, кодирование осуществлялось за 7 этапов. Слева указаны вероятности символов, справа — промежуточные коды. Стрелками показаны перемещения вновь образованных символов. На каждом этапе два последних символа отличаются только младшим разрядом, что соответствует методике кодирования. Вычислим среднюю длину слова:
l ср = 0.3 2 + 0.2 2 + 0.15 3 ++ 2 0.1 3 + +0.05 4 + 0.05 5 + 0.03 6 + 0.02 6 = 2.7
Это еще ближе к энтропии: код еще более эффективен. На рис. 2.12 приведено дерево кода Хафмана.
Таблица 2.3.
Кодирование по алгоритму Хафмана
N | p i | код | I | II | III | IV | V | VI | VII |
0.3 | 0.3 11 | 0.3 11 | 0.3 11 | 0.3 11 | 0.3 11 | 0.4 0 | 0.6 1 | ||
0.2 | 0.2 01 | 0.2 01 | 0.2 01 | 0.2 01 | 0.3 10 | 0.3 11 | 0.4 0 | ||
0.15 | 0.15 101 | 0.15 101 | 0.15 101 | 0.2 00 | 0.2 01 | 0.3 10 | |||
0.1 | 0.1 001 | 0.1 001 | 0.15 100 | 0.15 101 | 0.2 00 | ||||
0.1 | 0.1 000 | 0.1 000 | 0.1 001 | 0.15 100 | |||||
0.05 | 0.05 1000 | 0.1 1001 | 0.1 000 | ||||||
0.05 | 0.05 10011 | 0.05 1000 | |||||||
0.03 | 0.05 10010 | ||||||||
0.02 |
Оба кода удовлетворяют требованию однозначности декодирования: как видно из таблиц, более короткие комбинации не являются началом более длинных кодов.
При увеличении количества символов эффективности кодов возрастают, поэтому в некоторых случаях кодируют более крупные блоки (например, если речь идет о текстах, можно кодировать некоторые наиболее часто встречающиеся слоги, слова и даже фразы).
Эффект от внедрения таких кодов определяется в сравнении их с равномерным кодом:
(2.24) |
где n — количество разрядов равномерного кода, который заменяется эффективным.
Модификации кодов Хафмана
Классический алгоритм Хафмана относится к двухпроходным, т.е. требует вначале набора статистики по символам и сообщениям, а потом описанных выше процедур. Это неудобно на практике, поскольку увеличивает время обработки сообщений и накопления словаря. Чаще используются однопроходные методы, в которых процедуры накопления и кодирования совмещаются. Такие методы называются ещё адаптивным сжатием по Хафману [ 46].
Сущность адаптивного сжатия по Хафману сводится к построению первоначального кодового дерева и последовательной его модификации после поступления каждого очередного символа. Как и прежде, деревья здесь бинарные, т.е. из каждой вершины графа — дерева исходит максимум две дуги. Принято называть исходную вершину родителем, а две связанных с ней следующих вершины — детьми. Введём понятие веса вершины — это количество символов (слов), соответствующих данной вершине, полученных при подаче исходной последовательности. Очевидно, что сумма весов детей равна весу родителя.
После введения очередного символа входной последовательности пересматривается кодовое дерево: пересчитываются веса вершин и при необходимости вершины переставляются. Правило перестановки вершин следующее: веса нижних вершин наименьшие, причём вершины, находящиеся слева на графе, имеют наименьшие веса.
Одновременно вершины нумеруются. Нумерация начинается с нижних (висячих, т.е. не имеющих детей) вершин слева направо, потом переносится на верхний уровень и т.д. до нумерации последней, исходной вершины. При этом достигается следующий результат: чем меньше вес вершины, тем меньше её номер.
Перестановка осуществляется в основном для висячих вершин. При перестановке должно учитываться сформулированное выше правило: вершины с большим весом имеют и больший номер.
После прохождения последовательности (она называется также контрольной или тестовой) всем висячим вершинам присваиваются кодовые комбинации. Правило присвоения кодов аналогично вышеизложенному: количество разрядов кода равно количеству вершин, через которые проходит маршрут от исходной до данной висячей вершины, а значение конкретного разряда соответствует направлению от родителя к «ребёнку» (скажем, переход влево от родителя соответствует значению 1, вправо — 0).
Полученные кодовые комбинации заносятся в память устройства сжатия вместе с их аналогами и образуют словарь. Использование алгоритма заключается в следующем. Сжимаемая последовательность символов разбивается на фрагменты в соответствии с имеющимся словарём, после чего каждый из фрагментов заменяется его кодом из словаря. Не обнаруженные в словаре фрагменты образуют новые висячие вершины, приобретают вес и также заносятся в словарь. Таким образом формируется адаптивный алгоритм пополнения словаря.
Для повышения эффективности метода желательно увеличивать размер словаря; в этом случае коэффициент сжатия повышается. Практически размер словаря составляет 4 — 16 Кбайт памяти.
Проиллюстрируем приведённый алгоритм примером. На рис. 2.13 приведена исходная диаграмма (её называют также деревом Хафмана). Каждая вершина дерева показана прямоугольником, в котором вписаны через дробь две цифры: первая означает номер вершины, вторая — её вес. Как можно убедиться, соответствие весов вершин и их номеров выполняется.
Предположим теперь, что символ, соответствующий вершине 1, в тестовой последовательности встретился вторично. Вес вершины изменился, как показано на рис. 2.14, вследствие чего правило нумерации вершин нарушено. На следующем этапе меняем расположение висячих вершин, для чего меняем местами вершины 1 и 4 и перенумеровываем все вершины дерева. Полученный граф приведён на рис. 2.15. Далее процедура продолжается аналогично.
Следует помнить, что каждая висячая вершина в дереве Хафмана соответствует определённому символу или их группе. Родитель отличается от детей тем, что группа символов, ему соответствующая, на один символ короче, чем у его детей, а эти дети различаются последним символом. Например, родителю соответствуют символы «кар»; тогда у детей могут быть последовательности » кара » и » карп «.
Приведённый алгоритм не является академическим и активно используется в программах — архиваторах, в том числе и при сжатии графических данных (о них речь пойдёт ниже).
Алгоритмы Лемпеля – Зива
Это наиболее часто используемые в настоящее время алгоритмы сжатия. Они используются в большинстве программ — архиваторов (например, PKZIP. ARJ, LHA). Сущность алгоритмов состоит в том, что некоторая совокупность символов заменяется при архивировании её номером в специально формируемом словаре. Например, часто встречающаяся в деловой переписке фраза «На ваше письмо исходящий номер…» может занимать в словаре позицию 121; тогда вместо передачи или хранения упомянутой фразы (30 байт) можно хранить номер фразы (1,5 байта в двоично — десятичной форме или 1 байт — в двоичной).
Алгоритмы названы в честь авторов, впервые предложивших их в 1977 году. Из них первый — LZ77. Для архивирования создается так называемое скользящее по сообщению окно, состоящее из двух частей. Первая часть, большего формата, служит для формирования словаря и имеет размер порядка нескольких килобайт. Во вторую, меньшую часть (обычно размером до 100 байт) принимаются текущие символы просматриваемого текста. Алгоритм пытается найти в словаре совокупность символов, совпадающую с принятыми в окно просмотра. Если это удаётся, формируется код, состоящий из трёх частей: смещение в словаре относительно его начальной подстроки, длина этой подстроки, следующий за этой подстрокой символ. Например, выделенная подстрока состоит из символов » прилож » (всего 6 символов), следующий за ней символ — «е». Тогда, если подстрока имеет адрес (место в словаре) 45, то запись в словарь имеет вид «45, 6. е «. После этого содержимое окна сдвигается на позицию, и поиск продолжается. Таким образом формируется словарь.
Достоинством алгоритма является легко формализуемый алгоритм составления словаря. Кроме того, возможно разархивирование и без первоначального словаря (желательно при этом иметь тестовую последовательность) — словарь формируется по ходу разархивирования.
Недостатки алгоритма появляются при увеличении размера словаря — увеличивается время на поиск. Кроме того, если в текущем окне появляется строка символов, отсутствующая в словаре, трёхэлементным кодом записывается каждый символ, т.е. получается не сжатие, а растяжение.
Лучшие характеристики имеет алгоритм LZSS, предложенный в 1978г. В нём есть отличия в поддержании скользящего окна и выходных кодах компрессора . Помимо окна, алгоритм формирует двоичное дерево, аналогичное дереву Хафмана для ускорения поиска совпадений: каждая подстрока, покидающая текущее окно, добавляется в дерево в качестве одного из детей. Такой алгоритм позволяет дополнительно увеличить размер текущего окна (желательно, чтобы его величина равнялась степени двойки: 128, 256 и т.д. байт). По — другому формируются и коды последовательностей: дополнительно вводится 1- битный префикс для различения незакодированных символов от пар «смещение, длина».
Ещё большая степень сжатия получается при использовании алгоритмов типа LZW. Описанные ранее алгоритмы имеют фиксированный размер окна, что приводит к невозможности занесения в словарь фраз длиннее размера окна. В алгоритмах LZW (и их предшественнике LZ78) просмотровое окно имеет неограниченный размер, а словарь накапливает фразы (а не совокупность символов, как ранее). Словарь имеет неограниченную длину, а кодер (декодер) работают в режиме ожидания фразы. Когда фраза, совпадающая со словарём, сформирована, выдаётся код совпадения (т.е. код этой фразы в словаре) и код следующего за ней символа. Если по мере накопления символов образуется новая фраза, она также заносится в словарь, как и более короткая. В результате образуется рекурсивная процедура, обеспечивающая быстрое кодирование и декодирование.
Дополнительную возможность компрессии обеспечивает сжатое кодирование повторяющихся символов. Если в последовательности некоторые символы следуют подряд (например, в тексте это могут быть символы «пробел», в числовой последовательности — подряд идущие нули и т.д.), то имеет смысл заменять их парой «символ; длина» или «признак, длина». В первом случае в коде указывается признак, что будет осуществляться кодирование последовательности (обычно 1 бит), потом код повторяющегося символа и длина последовательности. Во втором случае (предусмотренном для наиболее часто встречающихся повторяющихся символов) в префиксе указывается просто признак повторов.
Задумаемся над вопросом — а зачем нам поднимать громкость? Для того чтобы слышать тихие звуки, которые не слышны в наших условиях (например, если нельзя слушать громко, если есть посторонние шумы в комнате и т.д.). А можно ли усилить тихие звуки, а громкие не трогать? Оказывается можно. Эта техника называется сжатием динамического диапазона (компрессия, Dynamic Range Compression, DRC). Для этого необходимо изменять текущую громкость постоянно — тихие звуки усиливать, громкие — нет. Самый простой закон изменения громкости — линейный, т.е. громкость изменяется по закону output_loudness = k * input_loudness, где k — коэффициент сжатия динамического диапазона:
Рисунок 18. Сжатие динамического диапазона.
При k = 1 никаких изменений не производится (выходная громкость равна входной). При k 1 — громкость будет уменьшаться, а динамический диапазон — увеличиваться.
Посмотрим на графики громкости (k = 1/2: сжатие ДД в два раза):
Рисунок 19. графики громкости.
Как видно в оригинале присутствовали как очень тихие звуки, на 30дБ ниже уровня диалогов, так и очень громкие — на 30дБ выше уровня диалогов. Т.о. динамический диапазон составлял 60дБ. После компрессии громкие звуки всего лишь на 15дБ выше, а тихие — на 15дБ ниже уровня диалогов (динамический диапазон теперь составляет 30дБ). Таким образом, громкие звуки стали значительно тише, а тихие — значительно громче. При этом переполнения не происходит!
Теперь обратимся к гистограммам:
Рисунок 20. Пример компрессии.
Как хорошо видно — при усилении до +30дБ форма гистограммы хорошо сохраняется, что означает, что громкие звуки остаются хорошо выраженными (не уходят в максимум и не обрезаются, как это происходит при простом усилении). При этом выделяются тихие звуки. Гистограмма это показывает плохо, однако разница очень заметна на слух. Недостаток метода — те же самые прыжки громкости. Однако механизм их возникновения отличается от скачков громкости возникающих при обрезании, а их характер отличен — они проявляются в основном при очень сильном усилении тихих звуков (а не при обрезании громких, как при обычном усилении). Чрезмерный уровень компрессии приводит к уплощению звуковой картины — все звуки стремятся к одинаковой громкости и невыразительности.
Сильное усиление тихих звуков может привести к тому, что станут слышны шумы записи. Поэтому в фильтре применен, немного модифицированный алгоритм, чтобы уровень шумов поднимался меньше:
Рисунок 21. Увеличение громкости, без увеличения шума.
Т.е. на уровне громкости -50дБ происходит перегиб передаточной функции, и шумы будут усиливаться меньше (желтая линия). При отсутствии такого перегиба шумы будут значительно громче (серая линия). Такая простая модификация значительно снижает количество шумов даже при очень сильных уровнях сжатия (на рисунке — сжатие 1:5). Уровень “DRC” в фильтре задает уровень усиления для тихих звуков (на уровне -50dB), т.о. уровень компрессии 1/5, показанный на рисунке, соответствует уровню +40дБ в настройках фильтра.
Сжатие динамического диапазона Pt 1
Введение
Чтобы освоить сжатие динамического диапазона, мы должны сначала определить, что такое динамический диапазон в аудио, а во-вторых, как мы его измеряем.
Мы увидим, как более совершенные технологии позволили нам увеличить динамический диапазон в записях, но также зададимся вопросом, есть ли в этом смысл. Мы начнем с основ, позже мы увидим, как это связано с такими темами, как «война громкости» и создание отличных миксов.
Что такое динамический диапазон человеческого слуха?
Мы эволюционировали, чтобы слышать определенный диапазон громкости от очень тихого до очень громкого.Динамический диапазон нашего слуха — это разница между самыми тихими звуками, которые мы можем слышать (порог слышимости), и звуками, которые настолько громкими, что вызывают боль (порог боли).
Как измерить динамический диапазон человеческого слуха?
Мы измеряем его в децибелах (дБ). Порог человеческого слуха измеряется как 0 дБ SPL (уровень звукового давления), а порог боли — 120 дБ SPL. Следовательно, динамический диапазон составляет 120 дБ.
Децибел (дБ) — логарифмическая единица.Я пропущу здесь математику, но в основном с точки зрения мощности 120 дБ примерно в 1 000 000 000 000 раз мощнее, чем 0 дБ. Это очень широкий диапазон громкости для вас.
Каков возможный
динамический диапазон записываемой музыки ?Динамический диапазон носителя записи (например, звуковой карты или ленты) — это разница между самым громким звуком, который может быть записан без искажений, и самым тихим звуком, который может быть записан без исчезновения фонового шума.Во времена ленты этот фоновый шум был шипением ленты, в настоящее время в цифровом формате это количество битов, которое мы можем записать.
Вот некоторые приблизительные динамические диапазоны различных носителей записи:
Диски для фонографов 78 об / мин | Компактная кассета | Цифровой |
= 40 дБ быстро снижается до 30 дБ и хуже из-за износа | = 50 дБ | 16-битный звук = 96 дБ 24-битный звук = 144 дБ |
Что такое
Полезный динамический диапазон записываемой музыки?Вот примерные динамические диапазоны различных стилей музыки, исполняемой вживую:
Симфонический оркестр — 50 дБ
Камерная музыка — 30 дБ
Рок-группа — 20 дБ
Если мы хотим сделать нашу записанную музыку наиболее приятной для большинства слушателей, мы должны принять во внимание с , какое оборудование и , где они, вероятно, будут воспроизводить музыку.Предположим, это будет в обычной домашней среде с фоновым шумом 40 дБА [1] (A в дБА — это особый тип измерения дБ, который учитывает, что ухо более чувствительно на средних частотах).
Мы также предположим, что максимальная громкость, которую они собираются воспроизводить, составляет 100 дБА, это громко.
100 дБа (максимальная громкость) — 40 дБа (фоновый шум) = динамический диапазон 60 дБ
Теперь мы приблизились к тому, что средний слушатель Hi-Fi может слышать только динамический диапазон 60 дБ, но он ниже этого! Когда самые тихие части музыки находятся на пороге их слышимости, это не будет весело, их будет сложно слушать.
Можно сделать следующее обобщение по тематике статьи:
Полезный динамический диапазон для записанной музыки для среднего слушателя составляет 30 дБ
Итак, мы вернулись к используемому динамическому диапазону изношенного винила 78 об / мин 🙂
Почему динамический диапазон — это хорошо при записываемой музыке?
Если музыкальное произведение имеет одинаковую громкость на всем протяжении, действительно ли оно вообще громкое? Если нет тихих частей, как мы можем определить громкие части? Часто припев, естественно, хочет быть громче куплета, чтобы придать ему эффект.Переход от шепота к крику требует большого динамического диапазона. Когда мы создаем и производим музыку, мы можем использовать динамический диапазон, чтобы помочь музыкальному выражению. Мы можем объединить в одной песне мягко щипковые гитары и динамичные басовые партии в стиле техно.
Так что же такое сжатие динамического диапазона?
Теперь мы точно понимаем, что такое динамический диапазон, и можем очень легко ответить на вопрос, что такое сжатие динамического диапазона. Это просто , разница между самой тихой и самой громкой частями за вычетом .Это делается по разным причинам, в том числе:
- Чтобы сделать звук записи громче, уменьшив его самые громкие части, тем самым увеличив громкость тихих частей (при мастеринге).
- Чтобы отдельные элементы в записи оставались на более постоянной громкости, например, сжатие динамического вокала, чтобы тихие части не терялись под остальной частью микса, а громкие части не выскакивали (при микшировании).
Сжатие динамического диапазона отличается от нормализации. Чтобы точно узнать, что это такое, ознакомьтесь с моей статьей «Как нормализовать звук — зачем это делать?». Все, что Вам нужно знать.
Заключение
Человеческое ухо — удивительно тонкое устройство, оно может слышать огромный диапазон громкости от ветра, мягко шуршащего в деревьях, до взрывающейся бомбы.
Благодаря современной технологии записи и воспроизведения у нас есть более широкий динамический диапазон, чем мы когда-либо могли бы использовать. У нас был 96 дБ динамического диапазона, доступного с 80-х годов с CD. Ранее мы продемонстрировали, что максимальный диапазон, который может слышать средний слушатель, составляет около 60 дБ, а на самом деле он когда-либо захочет — 30 дБ.
Очень мало записанной сегодня музыки имеет динамический диапазон 30 дБ. Многие современные музыкальные стили не требуют такого многого. Часто динамический диапазон слишком сильно уменьшается при мастеринге, это темная сторона сжатия динамического диапазона и приводит к «войне громкости».
Мы скоро поговорим об искусстве сжатия динамического диапазона при микшировании и мастеринге, сжатии, ограничении, настройках компрессора, таких как атака / релиз / порог и многом другом. Для этого мы должны дождаться части 2.
* [1] http: // www.easa.europa.eu/rulemaking/docs/research/Background_noise_report.pdf
Planet Of Tunes — Динамический диапазон звука
Термин «динамический диапазон» относится к …
- разница между самой громкой и самой тихой частью звуковой волны или диапазон громкости.
2. Разница между самым тихим и самым громким звуком, который может дать музыкальный инструмент.
3. Соотношение между минимальным уровнем шума (ниже которого звук не слышен) и искажением (момент, при котором электроника имеет недостаточную (электрическую) мощность «для обозначения громкости звуковой волны) в аудиотехнике, такой как микрофон или громкоговоритель.Это диапазон сигналов, от самых тихих до самых громких, который может обрабатывать данное оборудование. Все аудиооборудование имеет измеримый динамический диапазон.
Теперь нажмите, чтобы посмотреть наше видео на нашем дочернем сайте (или читайте дальше).
Широкий и узкий динамический диапазон
Если разница между самым громким и самым тихим велика, она считается большой. Если он маленький, то говорят, что он узкий
Отношение сигнал / шум
Это соотношение между уровнем сигнала / звуковой волны и уровнем шума, присущего системе.Все аудиотехнологии (особенно аналоговые) производят некоторый измеримый шум (шипение) даже при отсутствии сигнала. В электрических цепях это частично вызвано «покачиванием» электронов, которые никогда не находятся в состоянии покоя. Поэтому желательно, чтобы электроника в оборудовании могла воспринимать как можно более громкий сигнал, чтобы по сравнению с этим шум оставался тихим.
Поскольку шум невозможно полностью устранить, система с более широким динамическим диапазоном будет иметь лучшее соотношение сигнал / шум.Другими словами, если электроника имеет лучшие технические характеристики и, следовательно, может воспринимать гораздо более громкие пиковые сигналы, тогда минимальный уровень шума будет тише по сравнению с этим.
Некоторые примеры
- Динамический диапазон музыкального исполнения может достигать 120 дБ.
- Аналоговая лента (без шумоподавления) имеет динамический диапазон около 60 дБ. Радиоприемник
- FM имеет максимальный диапазон около 50 дБ.
- 16-битный цифровой звук (например, CD) имеет максимальный динамический диапазон 96 дБ.
- 24-битный цифровой звук имеет теоретический максимальный динамический диапазон 144 дБ, но ограничения электронной конструкции ограничивают его достижимым в реальном мире максимумом в 124 дБ.
- При каждом увеличении разрешения на 1 бит динамический диапазон цифровой системы увеличивается примерно на 6 дБ.
Максимальный динамический диапазон
Мы видим, что желательно не только оборудование с широким динамическим диапазоном, но и стремиться максимально использовать его, пропуская через него сигналы с максимально возможной амплитудой.Нет смысла иметь хорошую систему, если вы пропускаете через нее сигналы на низком уровне.
Идеальная амплитуда будет на 3 дБ ниже пикового уровня. За пределами пикового уровня будет происходить клиппирование (искажение).
Хуже всего, когда звуковая волна ниже минимального уровня шума и, следовательно, не слышна.
Искажение (отсечение)
В цифровой системе клиппирование недопустимо и производит неприятный звук. Любой сигнал, превышающий максимум (который определяется битовой глубиной), будет округлен до максимально возможного цифрового значения (например, 1111111111111111).
Однако в аналоговой системе, когда сигнал превышает пиковый уровень, искажение может добавить желаемый «цвет» или «теплоту» к сигналу, прежде чем он станет неприятным. Это особенно верно для клапанной (вакуумной) электроники, особенно компрессоров, усилителей и микрофонов, а также аналоговой записывающей ленты. При использовании аналоговой ленты «теплота» становится очевидной вокруг точки, в которой происходит «насыщение», и сразу за ней. Насыщение — это точка, в которой магнитный поток максимален и за пределами которой невозможно представить более громкие сигналы.Когда сигнал превышает насыщение, постепенно возникают гармонические искажения. Иногда это называют «сжатием ленты».
Установка оптимального отношения сигнал / шум
Большинство производителей оборудования указывают отношение сигнал / шум как отношение между шумом (шипением) и опорным уровнем (0 дБ) оборудования. Пользователь добьется наилучшего отношения сигнал / шум, когда сигнал будет максимально громким без искажений.
Для источника сигнала с предсказуемой амплитудой (такого как синтезатор или драм-машина) это просто случай увеличения сигнала до тех пор, пока не произойдет клиппирование, а затем его небольшого уменьшения.
Для непредсказуемого источника, такого как певец, может потребоваться автоматическая регулировка громкости (например, компрессор или лимитер), чтобы предотвратить клиппирование, или инженер может контролировать и вручную «ездить» по уровню с помощью фейдера.
Настройка входного канала микшера
Динамический диапазон: что это такое и почему он важен при освоении
Динамический диапазон — это термин, который часто используется в производстве музыки.
Это может относиться к производительности аудиосистемы, величине запаса в аудиофайле и т. Д.
Но при мастеринге особенно важен динамический диапазон.
Это ключевой фактор для громкости и того, как сжатие и ограничение влияют на конечный результат.
В этой статье я объясню все, что вам нужно знать о динамическом диапазоне при мастеринге.
Приступим.
Что такое динамический диапазон?
В музыкальном производстве динамический диапазон означает разницу между самыми громкими и самыми тихими звуками. Он измеряется в децибелах, или сокращенно дБ.
В одной звуковой дорожке динамический диапазон означает разницу в дБ между самым громким и самым тихим моментом в аудиофайле.
Носители записи и аудиосистемы также имеют динамический диапазон. Этот показатель определяет самые громкие и тихие сигналы, которые они могут правильно отображать.
Вы можете думать о динамическом диапазоне в системе как о пространстве между минимальным уровнем шума и точкой отсечения.
Когда звук опускается ниже минимального уровня шума, вы не сможете отличить сигнал от системного шума среды.
Когда звук превышает точку отсечения, верхняя часть его формы волны резко обрезается, вызывая резкость и искажения.
В одной звуковой дорожке динамический диапазон означает разницу в дБ между самым громким и самым тихим моментом в аудиофайле.
Динамический диапазон песни представляет собой общее расстояние от громкого до тихого.
Динамика в освоении
При мастеринге динамический диапазон дает вам представление о том, какая степень сжатия и ограничения была использована.
Вот практическое правило:
Больший динамический диапазон = меньшая компрессия, меньшая громкость
Меньший динамический диапазон = более сжатый, ближе к максимальной громкости
Это может показаться сухой технической деталью, но динамика оказывает реальное влияние на ваше звучание.
Чтобы понять почему, вам нужно знать, как динамический диапазон влияет на два крайних значения интенсивности мастеринга.
Тихие, динамичные мастера
Если звук более динамичный, это означает, что пики и впадины волны имеют большее расстояние между ними.
Когда звук более динамичный, это означает, что пики и впадины волны имеют большее расстояние между собой.
В этих случаях громкие атаки и транзиенты намного сильнее влияют на микс.
В высокодинамичном мастере вы услышите эти переходные процессы во многих деталях, в то время как остальная часть микса останется ровной.
Вы также отчетливо услышите упадок, тишину, декрещендо и всю сопутствующую им драму.
Чтобы обеспечить этот дополнительный диапазон, динамическому мастеру требуется место для более горячих переходных процессов, которые распространяются над основной частью микса.
Это означает, что они должны быть тише и менее сжатыми, чтобы оставить место.
Громкие, сжатые мастера
На противоположном конце спектра громкие и агрессивные мастера привлекают ваше внимание чистым уровнем.
Громкость важна для достижения ваших слушателей, и этот подход к мастерингу извлекает из этого выгоду.
Чтобы сделать его громким, процесс мастеринга уменьшает динамический диапазон, так что весь микс может быть приближен к пределу без выхода за пределы пиков.
Инструменты, используемые для его уменьшения, — это сжатие и ограничение
При правильном выполнении эти процессы делают ваш трек весомым и мощным.
Чтобы сделать его громким, процесс мастеринга уменьшает динамический диапазон, так что весь микс может быть приближен к пределу без выхода за пределы пиков.
Но это хрупкое равновесие. Чем громче вы включаете звук, тем сложнее добиться естественного сжатия звука.
Когда целью является громкость, вероятно, ваш мастер будет подниматься до максимального уровня, возможного в аудиофайле.
Это означает, что почти весь избыточный динамический диапазон будет выдавлен до необработанного уровня.
Самая сложная задача в мастеринге — добиться этого, не разрушив микс.
Громкость и Synapse
Громкость — одна из ключевых областей, в которых новый движок Synapse улучшает предыдущие сборки LANDR Mastering.
В чувствительной области около максимума многие треки ведут себя непредсказуемо.
Это вводит возможность искажения и других нежелательных артефактов.
Восприятие громкости зависит от сложных факторов, основанных на том, как мы слышим и воспринимаем звук.
Synapse обучен обнаруживать подобные проблемы и учитывать их до того, как они вызовут проблемы.
Вдобавок ко всему, Synapse теперь настраивает эквалайзер с учетом громкости.
Восприятие громкости зависит от сложных факторов, основанных на том, как мы слышим и воспринимаем звук.
Частота и громкость связаны, и они влияют друг на друга, когда дело доходит до мастеринга.
Synapse учитывает это, чтобы дать вам оптимизированную громкость, которая работает с вашим треком, а не против него.
Хорошая динамика
Динамический диапазон может показаться важным аспектом при создании музыки, но это важный фактор для ваших конечных результатов.
Мастеринг — это то место, где хорошая динамика имеет наибольшее значение, а динамический диапазон может помочь вам понять, как вы хотите, чтобы ваш мастер звучал.
Если вы прочитали эту статью, у вас будет отличное начало, когда дело доходит до динамического диапазона в мастеринге.
Сжатие и шум динамического диапазона| Инновации в технологии дополненного прослушивания
Этот пост сопровождает нашу презентацию «Сжатие динамического диапазона звуковых смесей» на собрании Американского акустического общества 2020 года и нашу статью «Моделирование эффектов сжатия динамического диапазона на сигналы в шуме» в Журнале Американского акустического общества (PDF ).
Почти каждый современный слуховой аппарат использует алгоритм, называемый сжатием динамического диапазона (DRC), который автоматически регулирует усиление слухового аппарата, чтобы сделать тихие звуки громче, а громкие — тише.Хотя компрессия — одна из важнейших характеристик слуховых аппаратов, она также может быть одной из причин того, что они плохо работают в шумной обстановке. Исследователи слуха давно знают, что когда DRC применяется к нескольким звукам одновременно, это может вызвать искажение и ухудшить фоновый шум. Наша исследовательская группа применяет теорию обработки сигналов, чтобы понять, почему сжатие плохо работает в шуме, и изучает новые стратегии управления громкостью в шумной среде.
Что такое сжатие динамического диапазона?
Динамический диапазон — это разница в уровне самых громких и самых тихих звуков, которые слышит человек.Люди с потерей слуха имеют меньший динамический диапазон по сравнению с людьми с нормальным слухом; им нужно усиление, чтобы слышать тихие звуки, но их уши могут улавливать громкие звуки самостоятельно. Если слуховой аппарат усиливает каждый звук на одинаковую величину, уже громкие звуки могут стать болезненными. Чтобы убедиться, что тихие звуки, такие как тихая речь, достаточно усилены для понимания, но громкие звуки, такие как автомобильные гудки, не являются болезненными или опасными, слуховые аппараты регулируют свое усиление в зависимости от уровня звука.Когда звуки тихие, усиление увеличивается, а когда звуки громкие, усиление падает. Таким образом, динамический диапазон выходного сигнала слухового аппарата меньше, чем динамический диапазон звуков, поступающих в микрофон.
Функция сжатия связывает громкость входа с громкостью выхода.
Величина усиления, применяемого алгоритмом DRC, определяется кривой сжатия. Чем пологее кривая, тем сильнее сужается динамический диапазон звука. Например, слуховой аппарат может использовать коэффициент сжатия 3: 1, что означает, что выходной уровень увеличивается на 1 дБ на каждые 3 дБ увеличения уровня входного сигнала.В большинстве современных слуховых аппаратов используется так называемая компрессия с широким динамическим диапазоном (WDRC), что означает, что они сжимают широкий диапазон уровней звука, а не просто ограничивают громкие звуки, как компрессоры, используемые при производстве музыки. Форма кривой программируется производителем слухового аппарата или аудиологом и может отличаться для разных пользователей или режимов прослушивания. Аудиолог также может настроить, насколько быстро слуховые аппараты реагируют на изменения громкости. Обычно слуховой аппарат снижает усиление всего за несколько миллисекунд после громкого звука, но будет увеличивать усиление постепенно, когда звуки станут тише.
Сжатие динамического диапазона и шум
Поскольку DRC является нелинейным алгоритмом — он обрабатывает сигнал по-разному в зависимости от уровня сигнала — он может вызвать искажение при использовании сразу нескольких звуков. Нелинейные искажения от DRC звучат круто в песнях Daft Punk, но они не приветствуются для пользователей слуховых аппаратов, пытающихся поговорить в переполненном ресторане. Шумная среда с несколькими источниками звука — одна из самых трудных для людей с потерей слуха, но слуховые аппараты редко помогают при громком шуме.На самом деле, иногда они могут только ухудшить положение. Есть свидетельства того, что DRC является частью проблемы.
Внезапный громкий звук может снизить усиление тихого звука, вызывая искажения.
Сжатие вызывает искажение, поскольку оно применяет одну и ту же обработку к нескольким звукам в смеси. Предположим, пользователь слухового аппарата ведет тихую беседу и на заднем плане хлопает дверь. Чтобы защитить слушателя от внезапного громкого звука, слуховые аппараты быстро уменьшат коэффициент усиления.Но такое же усиление применяется к каждому звуку, проходящему через слуховой аппарат, поэтому голос говорящего также станет тише. Если таких фоновых звуков много, усиление будет колебаться, вызывая искажение звука, который слушатель хочет слышать.
Сжатие также может ухудшить шум. Часто пользователи слуховых аппаратов жалуются на то, что они усиливают фоновый шум. Многие слуховые аппараты включают алгоритмы шумоподавления, предназначенные для блокирования шума низкого уровня, например, кондиционеров, и сохранения звуков высокого уровня, таких как речь.Но алгоритмы DRC имеют противоположный эффект: они усиливают тихие звуки, в том числе звуки, которые слушатель может не захотеть слышать. Высококачественные слуховые аппараты пытаются компенсировать этот эффект, определяя, слушает ли пользователь речь или шум, и переключаясь между настройками обработки, но этот подход не работает, когда есть и речь, и шум одновременно.
Слушатели знали об этих проблемах на протяжении десятилетий и задокументировали их в лабораторных экспериментах с настоящими слуховыми аппаратами.Исследования людей с потерей слуха показали, что DRC может улучшить качество прослушивания в тихой обстановке, но искажения могут затруднить понимание речи в шуме. Однако математики и инженеры не уделяли этой проблеме особого внимания. Методы исследования обработки сигналов могут помочь нам понять, почему сжатие плохо работает в условиях шума, и разработать новые подходы.
Недавно мы разработали математическую модель воздействия DRC на смеси нескольких звуков.Делая некоторые упрощающие предположения о сигналах, мы можем количественно оценить влияние, которое система DRC оказывает на каждый отдельный звук, и проанализировать, как звуки в смеси влияют друг на друга. Используя эту схему, мы можем доказать теоремы, объясняющие три эффекта, которые исследователи слуха задокументировали экспериментально:
- Когда сжатие применяется к нескольким звукам одновременно, сигналы искажают друг друга и становятся отрицательно коррелированными, что означает, что по мере того, как один становится громче, другой становится тише и наоборот.
- Когда несколько звуков сжимаются вместе, их динамический диапазон не уменьшается настолько, насколько они были бы по отдельности, а это означает, что шум делает сжатие менее эффективным. Этот эффект наиболее силен, когда шум громче, чем интересующий сигнал.
- Когда динамический сигнал, такой как речь, смешивается с устойчивым фоновым шумом, сжатие всегда ухудшает отношение сигнал / шум. Этот эффект наиболее силен, когда интересующий сигнал громче шума.
Все три результата вытекают из того факта, что функция, связывающая уровень входного звука с уровнем выходного звука, является вогнутой.Это означает, что любая система, в которой выходная громкость увеличивается медленнее, чем входная громкость, то есть любая система, которая сжимает динамический диапазон, уязвима для этих эффектов искажения. Сила искажения зависит от силы сжатия и свойств сигналов.
Новый взгляд на сжатие динамического диапазона
Согласно нашему анализу, искажение неизбежно, когда мы применяем сжатие более чем к одному звуку. Чтобы нелинейные алгоритмы работали лучше в шумной среде, нам нужно изменить способ обработки нескольких звуков слуховыми аппаратами.Сегодняшние небольшие слуховые аппараты с низким энергопотреблением выполняют сжатие всех звуков вместе, возможно, с некоторой обработкой шумоподавления до или после этапа сжатия. Более мощные устройства, использующие множество микрофонов, такие как системы прослушивания, которые мы изучаем в лаборатории расширенного прослушивания в Иллинойсе, могут выполнять более сложную нелинейную обработку, которая сокращает динамический диапазон без искажения или усиления нежелательного шума.
Система сжатия с несколькими источниками применяет отдельную обработку DRC к каждому звуку, создавая меньше искажений.
Один из подходов заключается в применении отдельной обработки DRC к каждому источнику звука. Художники микширования делают то же самое при создании музыки, выбирая различные настройки сжатия для разных инструментов или вокала, а затем комбинируя обработанные звуки. В статье 2017 года мы предложили систему, которая использует формирование луча микрофонной решетки для раздельного сжатия звуков, поступающих с разных направлений. Даже с несколькими дополнительными микрофонами и несовершенным разделением система воспроизводила звук с меньшими искажениями и лучшим соотношением сигнал / шум по сравнению с обычным сжатием.С более крупными носимыми устройствами, удаленными микрофонами и улучшенными алгоритмами сжатие из нескольких источников может работать еще лучше.
Ранние слуховые аппараты использовали аналоговые схемы для отслеживания уровней сигнала во времени и изменения коэффициента усиления усилителя; сегодня большинство цифровых алгоритмов DRC пытаются имитировать эти аналоговые системы. Но с современными возможностями цифровой обработки сигналов нам не нужно ограничиваться обычными алгоритмами сжатия для управления динамическим диапазоном. У исследователей в области обработки сигналов есть возможность предложить новые творческие и амбициозные стратегии обработки сигналов слуховых аппаратов в шумной среде.Но нам понадобится помощь ученых-слушателей, чтобы понять, как люди слышат в сложной акустической среде: какой динамический диапазон должен иметь разные типы звука при разных уровнях фонового шума? Что лучше сжимать звуки по отдельности, вместе или и то, и другое? И как измерить, насколько хорошо работают наши алгоритмы?
Наша команда планирует продолжить изучение сжатия динамического диапазона. Мы надеемся, что с помощью математических моделей мы сможем найти новые подходы к управлению динамическим диапазоном в сложных звуковых смесях.Улучшая DRC, мы можем улучшить работу слуховых аппаратов в шумной среде, где люди с потерей слуха больше всего нуждаются в помощи.
Аудио с динамическим диапазоном [объяснено экспертом]
Динамический диапазон (DR) аудио — это разница между максимальным и минимальным уровнями сигнала в первом подходе. Но не все так просто. Ознакомьтесь с пояснениями к методам измерения, их отличиям от разработчика аудиопрограммы Юрия Корзунова.
Введение
Динамический диапазон может иметь 2 значения: для аудиоустройства / программного обеспечения / формата и аудиосигнала.
- DR аудиоустройства — это разница между максимальным и минимально допустимым уровнем сигнала внутри устройства / программного обеспечения / формата.
- DR аудиосигнала — это разница между максимальным и минимальным уровнями сигнала.
В этой статье мы обсудим первое значение.
У динамического диапазона есть несколько определений. Потому что минимальный и максимальный уровни можно измерить по-разному.
Прочтите подробную информацию о проблемах минимального и максимального уровней.
Как рассчитывается динамический диапазон
Когда сигнал проходит через аудиоблок / программное обеспечение (как цифровой, так и аналоговый), его уровень ограничивается минимальным и максимальным значениями. Динамический диапазон рассчитывается как разница между этими уровнями:
DR = [Максимальный уровень, дБ] — [Минимальный уровень, дБ]
Максимальный уровень
Максимальный уровень звукового сигнала
Когда сигнал достигает значения перегрузки, в нем появляются нелинейные искажения, которые показаны в левой части изображения красными составляющими.
Перегрузка звука. Это выходной сигнал для входного синуса
Чистые цифровые системы (например, программное обеспечение) имеют четкую границу между искаженными и неискаженными сигналами.
Пример:
16-битный сигнал имеет максимальное значение: 2 15 -1.
Когда сигнал достигает следующего уровня ( 2 15 ), это вызывает перегрузку (математическое переполнение), и 2 15 преобразуется в -2 15 (минимально допустимое значение).
Перегрузка цифрового сигнала
Такое преобразование может вызвать громкий щелчок. Чтобы избежать щелчка, обработка выполняется с более высоким битовым разрешением. Перед преобразованием в целевое (более низкое) битовое разрешение сигнал проверяется на перегрузку. В случае перегрузки, уровень перегруженных образцов ограничивается максимально допустимым уровнем отсека. Такой вид перегрузки аналогичен традиционному аналогу, что вызывает искажения без больших «щелчков цифровой перегрузки».
Аналоговая перегрузка имеет плавную границу перегрузки.В правой верхней части картинки отображается характеристика уровня ввода-вывода.
Аналоговые нелинейные искажения. Характеристика ввода-вывода
При приближении уровня входного сигнала к максимальному значению искажения тоже растут. Потому что интенсивность искажений зависит от уровня из-за нелинейности.
Характеристики уровня входа-выхода показывают зависимость выходного уровня от входного.
Эта характеристика может быть линейной (простая линия) или нелинейной, как на изображении.
Давайте посмотрим на самые высокие уровни. A-область при характерном воздействии на форму волны в области B выходного сигнала. Таким образом, вид нелинейности в A-области определяет искажения на выходе (B-область) при уровне входного сигнала около максимального значения. Другими словами, разные уровни входного сигнала создают на выходе различные уровни искажений.
Для цифрового сигнала может применяться простая двоичная логика («с искажением» или «без» искажения).
Для аналогового сигнала мы можем оценить различные уровни искажения для разных уровней входного сигнала.Плавная граница перегрузки.
Следовательно, для аналогового сигнала максимальный уровень может быть принят как уровень, вызывающий целевую интенсивность искажений.
Подробнее: Цифровое и аналоговое аудио …
В качестве примера за максимальный уровень может быть принят уровень, при котором доля искажений в общей энергии больше, чем заданное значение.
Минимальный уровень
Когда уровень сигнала уменьшается, он достигает минимального уровня шума и прячется под ним. Это справедливо как для цифровых, так и для аналоговых сигналов.
Минимальный уровень звукового сигнала
Имеется различие в характере шума. Аналоговый шум — это шум электронных компонентов. Чистый цифровой шум — это шум квантования. Захваченные цифровые сигналы имеют оба вида шума: от электронных компонентов и от квантования. Но для оценки минимального уровня это не имеет значения.
Следовательно, минимальный уровень имеет разное качество звука для разных значений.
Для чисто цифровых устройств и программного обеспечения качество определяется соотношением сигнал / шум.
Для аналоговых систем качество также определяется нелинейностью характеристики ввода-вывода измеряемого устройства.
Когда мы рассматриваем динамический диапазон как разницу между минимальным уровнем шума и уровнем перегрузки, оценка качества теряется.
Когда сигнал «тонет» в шуме, мы не можем его распознать. Так что такой способ оценки динамического диапазона слишком оптимистичен.
Мы хотим слушать минимальный уровень в заданном качестве. Качество определяется соотношением сигнал / шум.
Аналоговые системы имеют разную линейность для разных уровней. Нелинейность порождает искажения: спектральные продукты, которые коррелируют с исходным чистым сигналом. Таким образом, мы также должны учитывать искажения как шум. Мы можем посмотреть аналогичный пример с самыми высокими уровнями здесь.
Соотношение сигнал / шум
Отношение сигнал / шум — это соотношение между энергиями сигнала и шума.
Энергия может быть оценена как квадрат спектра мощности.
Power — уровень 2 .
Отношение сигнал / шум в спектре мощности
Если мы можем локализовать спектр сигнала, то остальной спектр мы можем принять как шум и искажения.
Это причина, по которой мы не можем использовать музыку в качестве тестового сигнала. Музыка имеет плотный спектр и практически невозможно отделить шум, искажения и исходный сигнал.
Кроме того, использование сложных сигналов (например, многотональных) может вызвать проблемы разделения сигнала и шума.
Мы можем постепенно снижать уровень шума для достижения заданного отношения сигнал / [шум и искажения]. Этот уровень принят как минимальный.
Расчет энергии сигнала (квадрата) значения не имеет. Но для разных методов полоса сигнала может приниматься по-разному.
Также с учетом психоакустики могут быть рассчитаны энергии шума и сигнала: контур равной громкости.
Часто задаваемые вопросы
Что такое динамический диапазон в аудио? Что такое звук с динамическим диапазоном?
Динамический диапазон — это свойство аудиоустройства или обработки звука.Кроме того, диапазон уровня записи музыки считается динамическим диапазоном. Подробнее …
Что такое хороший динамический диапазон?
Как вид измерения динамический диапазон может иметь разные интерпретации, что связано с психоакустикой.
Также динамический диапазон зависит от музыкального жанра.
Примерно можно считать минимально допустимое отношение сигнал / шум самого низкого сигнала, как у аналоговых устройств — около 40 … 60 дБ. Это самое тихое место музыкального произведения.
Итак, чтобы найти разницу между максимальной громкостью и минимальным уровнем шума, мы должны прибавить разницу между самым тихим местом и максимальной громкостью фрагмента к SNR.
Примеры:
- Когда разница между фортиссимо и пианиссимо (максимальная и минимальная громкость) составляет 60 дБ: динамический диапазон составляет 60 дБ, а разница между максимальной громкостью и минимальным уровнем шума составляет 60 дБ + [40 … 60] дБ = 100 … 120 дБ.
- Когда разница между фортиссимо и пианиссимо (максимальная и минимальная громкость) составляет 80 дБ: динамический диапазон составляет 80 дБ, а разница между максимальной громкостью и минимальным уровнем шума составляет 80 дБ + [40…60] дБ = 120 … 140 дБ.
Что означает динамический звук?
Звук в громких (или слишком громких) и тихих (для тихих) местах.
Выводы
- Упрощенный динамический диапазон — это разница между сигналом, вызывающим перегрузку, и минимальным уровнем шума.
- При оценке динамического диапазона звука необходимо учитывать качество звука.
- Динамический диапазон по цели №2 имеет меньшую ценность, чем упрощенное определение по цели №1.
Упрощенная оценка динамического диапазона
Оценка динамического диапазона с учетом качества звука
Список литературы
Vynil динамический диапазон
Динамический диапазон ленты
Читать статьи
Обновлено 12 февраля 2021 г. | с 20 ноября 2017 г.
«Динамический диапазон» и война за громкость
Все мы знаем, что музыка становится громче.Но разве это менее динамично? Наше новаторское исследование вне всяких сомнений доказывает, что ответ отрицательный и что распространенные представления о «войне за громкость» нуждаются в радикальном переосмыслении.
Почему музыка звучит хуже ». «Поклонники жалуются, что после смерти магнитные звуки лучше на Guitar Hero, чем на компакт-диске». «Все громче, чем все остальное». «Даже фанаты хэви-метала жалуются, что сегодняшняя музыка слишком громкая!» «День динамического диапазона знаменует новое движение против громкости». «Смерть High Fidelity» … В прессе и в Интернете растет негативная реакция на «войну за громкость», практику попыток сделать записи максимально громкими, чтобы их воспринимали как «более горячие». чем выпуски конкурентов.Согласно статьям, подобным этой, необоснованная практика мастеринга и, в частности, злоупотребление ограничителями кирпичной стены поставили музыку под угрозу. Современным постановкам не хватает тонкости, и они жертвуют качеством ради уровня. Боб Дилан в интервью 2006 года зашел так далеко, что заявил: «Вы слушаете эти современные записи, они ужасны, они звучат повсюду. Нет определения« ничего »,« ни вокала », ни« ничего », просто как — статика . »
Но не является ли замечание Дилана воспроизведением ссоры между древними и современниками? Это не первый случай, когда старая гвардия презирает то, что делает новое поколение.Да, многие звукорежиссеры присоединились к делу «более динамичной» музыки. Но высказываются ли они за то, что объективно лучше, или они просто выражают свое предпочтение определенному стилю звука? Мое исследование направлено на то, чтобы ответить на этот вопрос. узнаем, действительно ли последняя музыка громче и менее динамична. Мы также рассмотрим гипотезу о том, что громкость может быть стилистическим маркером для определенных недавних музыкальных стилей, вместо того, чтобы быть дурной привычкой, продиктованной презренными коммерческими соображениями. .Наконец, мы внимательно рассмотрим пресловутый Death Magnetic Metallica и поймем, почему так много людей утверждают, что он звучит плохо.
Да, и в этом нет никаких сомнений. Давайте возьмем большое количество бестселлеров и / или очень хорошо принятых произведений «поп-музыки», записанных и произведенных в период с 1969 по 2010 год, нормализуем их так, чтобы они достигли пика на уровне 0 дБ по полной шкале, и измерим их среднеквадратичное значение. Затем отсортируем все значения по году выпуска трека, которому они соответствуют.Первая диаграмма слева показывает результат эксперимента, и он действительно впечатляет! Красная линия показывает среднеквадратичное значение для каждого года, а прямоугольники указывают на распределение: чем темнее прямоугольник, тем больше частей показывает такой уровень. Без сомнения, между 1982 и 2005 годами наблюдается постоянный рост средних уровней, и сегодняшние записи примерно на 5 дБ громче, чем они были в 70-х годах.
По общему признанию, измерение RMS-значения сигнала дает только информацию об «электрическом» или «физическом» содержании аудиофайла, а не измеряет громкость, как мы ее воспринимаем.Для этого мы оцениваем «интегрированную громкость», как определено в нормативной рекомендации EBU 3341. Как видно на второй диаграмме слева, в контексте нашего корпуса песен такая мера сильно коррелирует со значением RMS сигнала, и эти два графика очень похожи друг на друга. Этот второй набор результатов подтверждает первый.
Повторим эксперимент, используя другие критерии. Например, одним из критериев, обычно используемых для описания динамического поведения записанного музыкального произведения, является «пиковый» фактор.Проще говоря, пик-фактор — это разница между среднеквадратичным уровнем и пиковым уровнем в течение песни. Интуитивно он измеряет амплитуду возникающих «пиков» в аудиопотоке. Это считается хорошим показателем количества динамического сжатия, примененного к музыке: большее сжатие обычно означает более низкий коэффициент амплитуды. Некоторые профессионалы считают правильное обращение с гребенчатым фактором краеугольным камнем успешного мастеринга. Кроме того, в целом, чем ниже коэффициент амплитуды, тем громче музыка.
Третья диаграмма на первой странице показывает эволюцию меры, аналогичной пик-фактору. На основе тех же 4500 треков этот упрощенный коэффициент амплитуды падает на 3 дБ с начала 80-х, усиливая подозрение, что увеличение громкости, которое мы наблюдаем с 90-х годов, было вызвано динамической компрессией. Вы увидите, что эволюцию пик-фактора можно разделить на три этапа. Во-первых, с 1969 по 1980 год коэффициент амплитуды увеличивается, вероятно, из-за улучшения студийного оборудования с точки зрения отношения сигнал / шум и динамической прозрачности.С 1980 по 1990 год пик-фактор остается относительно стабильным. Затем, с 1990 по 2010 год — эпоха войны за громкость — пик-фактор резко снизился.
Наконец, еще один важный и полезный дескриптор — это пропорция сэмплов в записанном музыкальном произведении, которая близка к 0dBFS после нормализации фрагмента. Высокая плотность очень громких сэмплов говорит о том, что было разрешено клипирование основной записи или что использовался упреждающий ограничитель кирпичной стены, такой как Waves L-серии.Четвертая диаграмма показывает плотность пиковых выборок в том же корпусе из 4500 треков. Первые две диаграммы показывают, что музыка стала громче; третий указывает на то, что это развитие, вероятно, связано с динамическим сжатием; и эта иллюстрация показывает, что такое сжатие, вероятно, применяется через цифровые ограничители кирпичной стены.
Это удивительно сложный вопрос. Интуитивно мы чувствуем, что динамический диапазон должен определять, насколько «изменчивым» или «мобильным» является музыкальный уровень. Попробуем наполнить эту интуицию содержанием.На первой диаграмме на предыдущей странице сравнивается эволюция RMS-значения сигнала для отрывков из двух песен: «Fuk» от Plastikman и «Smells Like Teen Spirit» от Nirvana. Видимо, уровень «Smells Like Teen Spirit» более подвижен, чем уровень «Fuk». Это неудивительно, учитывая, что музыка Plastikman — это минималистское техно, тогда как в постановках Nirvana часто используются мягкие куплеты и громкие припевы.
Однако результаты радикально изменятся, если мы проведем анализ с использованием окна анализа в 100 миллисекунд вместо двух секунд.В долгосрочной перспективе музыка Plastikman более стабильна с точки зрения уровней RMS — но в краткосрочной перспективе, как вы можете видеть на второй диаграмме, кажется, что она имеет больше вариаций уровня из-за ее громких сухих барабанов. Поэтому, если мы хотим установить меру «мобильности на уровне», нам нужно подумать о том, какую временную шкалу использовать.
Существует также вопрос, как на самом деле вычислить этот уровень мобильности: как получить числовое значение, которое могло бы быть мерой «динамического диапазона». Предположительно, мы могли бы измерить общую вертикальную амплитуду кривой RMS, соответствующей музыкальному произведению для данной временной шкалы, суммируя амплитуду каждого вертикального движения.Интуитивно это имеет смысл: если снова взглянуть на верхнюю диаграмму на второй странице этой статьи, на которой синяя кривая выглядит более подвижной, чем красная, общая вертикальная амплитуда синей кривой больше, чем красная. (Математически это равносильно оценке суммы производной RMS.)
Однако на практике этот метод оказывается ненадежным. Помимо других проблем, изолированный пик на плоской кривой RMS исказил бы измерение, создав ложное впечатление о значительной подвижности RMS.Лучший метод, аналогичный тому, который используется EBU для оценки диапазона громкости, состоит в том, чтобы иметь дело с изменчивостью RMS, а не с ее подвижностью. Вместо того, чтобы напрямую оценивать «среднеквадратичную мобильность», мы вычисляем распределение среднеквадратичных значений, обнаруженных во время анализа. Такое распределение показано на третьей диаграмме группы, о которой я говорил. Затем мы измеряем «разброс» кривой распределения, используя трюк, аналогичный «методу межквартильного размаха» в описательной статистике: при разбросе кривой остаются в покое верхние пять процентов и нижние 10 процентов значений.Мы можем видеть, что для двухсекундного окна анализа «Smells Like Teen Spirit» имеет более высокий разброс RMS, чем «Fuk».
Давайте снова изменим шкалу времени и измерим этот среднеквадратичный «разброс» со среднеквадратичными значениями каждые 0,1 с. Результат эксперимента показан на четвертой диаграмме, и снова результаты поменялись местами: разброс для «Fuk» больше, чем для «Smells Like Teen Spirit». Предположим, что теперь мы повторяем один и тот же эксперимент для различных окон анализа. Результат показан на последней диаграмме той же группы.Интересно, что вариативность уровней для «Smells Like Teen Spirit» всегда больше, за исключением окон ниже 0,18 секунды, где барабанные партии в «Fuk» оказывают решающее влияние.
То, что показано на пятой диаграмме, является очень хорошим кандидатом для измерения «динамического диапазона» музыкального произведения. Предположим теперь, что вместо того, чтобы иметь дело со среднеквадратичным значением сигнала, мы имеем дело с мерой воспринимаемой громкости, такой как та, которая упоминается в рекомендации ITU BS 1770: теперь мы будем иметь дело с «диапазоном громкости».Фактически, это основа того, как EBU определяет «диапазон громкости» в своем документе EBU Tech 3342, как объяснено в блоке «EBU Measure Of Loudness Range».
Остается вопрос, следует ли вообще использовать такой термин, как « динамический диапазон »: для него нет официального определения, и его можно спутать с динамическим диапазоном носителя записи, который, по сути, является разницей между самый высокий и самый низкий уровень, с которым он может справиться. Поэтому в этой статье я не буду говорить о «динамическом диапазоне» применительно к музыкальному произведению.Вместо этого я буду использовать «среднеквадратичную изменчивость» или, в более общем смысле, «динамическую изменчивость». Термин «динамический диапазон» будет зарезервирован для измерения отношения сигнал / шум носителя записи. Я буду использовать термин «диапазон громкости» в строгом соответствии с документом EBU 3342, а термин «изменчивость громкости» — в других случаях, когда речь идет о громкости, а не о среднеквадратичном значении.
Вот где начинаются неожиданности. Мы можем без всяких сомнений доказать, что «война за громкость» не уменьшила диапазон громкости, как это определено в EBU 3342! Также это никоим образом не уменьшило изменчивость уровня или громкости.Музыка последнего десятилетия, кажется, демонстрирует такую же динамическую изменчивость, как музыка 70-х или 80-х годов. Обоснуем это утверждение.
Как мы видели выше, такие дескрипторы, как уровень RMS, интегрированная громкость, упрощенный коэффициент амплитуды и доля отсчетов выше -1dBFS, демонстрируют впечатляющую эволюцию с начала 90-х до примерно 2005 года. Это эффект войны за громкость. Так что, конечно же, измерение диапазона громкости EBU должно делать то же самое? Как показано на первой диаграмме группы на странице 179, это не так.Мы видим, что диапазон громкости уменьшается с 1969 по 1980 год, а затем стабилизируется до 1991 года. После 1991 года, вместо того, чтобы снижаться, как ожидалось, он следует довольно неубедительной эволюции и, конечно, не уменьшается каким-либо явным образом.
Как мы также видели выше, плотность высокоуровневых сэмплов в аудиосигнале резко возрастает после начала 90-х. Это указывает на растущее использование компрессии и, в частности, цифровых ограничителей, которые, в свою очередь, повышают общий уровень музыкального корпуса, с которым мы имеем дело.Но может ли использование таких ограничителей быть связано с уменьшением диапазона громкости? Давайте ответим на этот вопрос, отобразив значения EBU 3342 в зависимости от плотности выборки высокого уровня — другими словами, построив график зависимости диапазона громкости от количества примененных ограничений. Это то, что показано на второй диаграмме, которая предельно ясно показывает, что ответ отрицательный. Увеличение количества ограничений, выполненных в эпоху войны за громкость, никоим образом не уменьшило наблюдаемый диапазон громкости.
Это не означает, что обработка звука с помощью ограничителя не уменьшает его диапазон громкости.Как мы увидим позже в статье, это так. Наблюдение здесь состоит в том, что из анализа реальных записей, война за громкость не привела к какому-либо очевидному снижению диапазона громкости музыки.
Тем не менее, «диапазон громкости», как определено EBU 3342, имеет дело с шкалой времени около трех секунд и выше. Давайте посмотрим, что произойдет, используя другие оконные анализы. Для этого давайте оценим изменчивость стробированного RMS на основе окон длиной от 0,05 до 12,8 с. А чтобы быть более конкретным, давайте изменим оценку изменчивости RMS так, чтобы она выделяла соответствующее влияние каждой временной шкалы.Таким образом, мы сможем увидеть, уменьшила ли война за громкость изменчивость уровня в любом временном масштабе. Результат обоих экспериментов показан на третьей диаграмме. Это не только подтверждает предыдущие результаты, но и идет намного дальше, показывая, что война за громкость не оказала четко определенного влияния на изменчивость уровня в любом масштабе. Это довольно резкий вывод: в отличие от того, что часто можно прочитать в Интернете, война за громкость не привела к снижению вариабельности уровня.Сейчас уровень вариативности такой же, как и в 70-е или 80-е годы.
Чтобы подтвердить эти выводы, я попросил доктора Дамьена Тардье, специалиста по обработке сигналов в IRCAM в Париже, провести аналогичный анализ совершенно другого музыкального корпуса: 20 000 песен, случайно выбранных из каталога EMI. По общему признанию, альбомы в этом каталоге упоминаются по датам авторских прав, поэтому анализ будет немного менее надежным, если компиляции будут собирать более старые треки с более поздними авторскими правами, или с помощью обновленных изданий.Однако здесь нам нужна общая оценка глобального явления, поэтому мы можем позволить себе небольшую погрешность. Четвертая и пятая иллюстрации на предыдущей странице показывают эволюцию диапазона громкости, измеренного в соответствии с EBU 3342, а также плотность очень громких сэмплов, соответствующих этому корпусу. Они показывают, что диапазон громкости не уменьшается после 1990 года, хотя ограничение становится гораздо более резким. В этом нет никаких сомнений: вопреки общему мнению, не было явного уменьшения диапазона громкости из-за войны за громкость, а ограничители с каменной стеной не уменьшили диапазон громкости при производстве музыки.
Как мы видели ранее, степень сжатия / ограничения, используемая при мастеринге, резко увеличилась в период с 1990 по 2000 год. Тем не менее, в то же время, даже несмотря на то, что ограничение может во многих случаях уменьшить диапазон громкости музыкального произведения (см. ‘Диапазон громкости & Limiters ‘), общее уменьшение диапазона громкости в постановках невозможно. Как разрешить это кажущееся противоречие?
Первая возможность состоит в том, что мастеринг-инженеры могли быть разумными в конце концов, применяя только такое ограничение, которое не привело к очевидной потере диапазона громкости.Это, как показано в поле «Диапазон и ограничение громкости», теоретически возможно, поскольку среднеквадратичная изменчивость аудиоматериала может демонстрировать определенную устойчивость к ограничению. Однако я не верю, что это так. Существенное ограничение можно измерить или наблюдать на форме волны, и его легко услышать: атаки изменяются очень специфическим образом, все кажется более плотным, более плотным и часто более ярким. После прослушивания очень большого количества треков из корпуса, который я использовал для этой статьи, очевидно, что большая часть недавних треков сильно ограничена.
Остается только одно решение, которое я могу придумать: диапазон громкости музыки до мастеринга или даже микширования увеличивался в то же время, когда сжатие / ограничение становилось все более резким. Другими словами, исходный материал имеет большую исходную изменчивость и более устойчив к ограничениям. Об этом свидетельствуют стилистические изменения в музыке в эпоху «войны за громкость». Начало 90-х, которое соответствует началу войны за громкость, засвидетельствовало появление рэп-исполнителей для массовой аудитории, а рэп-музыка обычно имеет редкую продукцию с очень громкими частями бочки и малого барабана, что увеличивает вариативность уровня в очень малых масштабах. (0.1 с или около того). Примерно в то же время металлическая музыка превратилась в «ню-метал», который объединил элементы фанка и рэпа, а вместе с ними и более ударные элементы. В несколько большем масштабе времени образцы в конце музыкальных фраз также развивались примерно в начале 90-х. В то время как многие хиты 80-х переходили от одной музыкальной фразы к другой с использованием мягкого ролла тома, хип-хоп продюсеры 90-х предпочитали резкие « сокращения » звука, которые могут увеличивать вариативность уровня на шкалах, близких к 0. .5сек.
В еще более широком временном масштабе, связанном со структурой песен, можно было бы выдвинуть идею о том, что современные постановки используют контрасты по уровню, тогда как в старых поп-песнях, возможно, использовались изменения тональности или аккорда для выделения различных частей песни. Довольно часто можно услышать рэп или даже треки R&B, в которых куплеты настолько миминалистичны, что из них сложно даже выделить последовательность аккордов, в то же время припев погребен под плотными вокальными гармониями и / или щедрыми тональными партиями клавиатуры, которые немного увеличьте уровень RMS.«Lollipop» Лил’Вэйн или «Gangsta’s Paradise» Кулио являются достаточно хорошими примерами, как и в некоторой степени «Одинокие дамы» Бейонсе. В подобных постановках изменение уровня используется для создания структуры песни.
Чтобы проиллюстрировать эту мысль, интересно сравнить две очень разные песни из разных эпох: Beatles «Come Together» (1969) и Lady Gaga «Telephone» (2010). На верхнем изображении на обороте показан RMS-анализ для двух песен. Белые линии указывают на структурные ограничения песни, как на слух.Две диаграммы в виде шахматной доски показывают матрицы самоподобия для RMS. В таких представлениях самоподобия более четкие квадраты обозначают части, которые отличаются друг от друга с точки зрения уровня, тогда как более темные квадраты обозначают части схожих уровней. Это сравнение является показательным: крупномасштабные вариации уровня больше в «Telephone» и очень синхронизированы со структурой песни. Это единственный пример, но он дает правдоподобное объяснение идеи о том, что крупномасштабная изменчивость RMS до мастеринга может быть больше в случае более новой музыки.
Определенно. Но способ выражения музыкальной динамики может измениться. Представьте, что вы слушаете музыку. Вы хотите, чтобы это было громче. Вы идете к регулятору громкости и просто увеличиваете громкость. Поступая таким образом, вы увеличиваете RMS сигнала, увеличиваете его пиковый уровень и оставляете его пик-фактор нетронутым. Мы назовем это «первой парадигмой громкости». Предположим теперь, что у вас есть область в Pro Tools с пиком 0dBFS. Вы не можете увеличить его громкость традиционным способом, иначе он будет искажаться.Но вы можете вставить ограничитель и опустить его ползунок Threshold. Поступая таким образом, вы все равно увеличиваете RMS сигнала, но на этот раз его пиковый уровень остается стабильным, а его пик-фактор уменьшается. Это то, что мы называем «второй парадигмой громкости».
Когда Вагнер пишет оркестровое крещендо, он использует первую парадигму, добавляя больше инструментов. Но, используя ограничители, вы можете создать крещендо, использующее вторую парадигму. Разница в терминах результирующей формы волны показана на верхнем изображении напротив: Майк Олдфилд использует первую парадигму в конце первой части Tubular Bells, а вторую — в «Closer» Трента Резнора.
Чтобы получить более точное представление о разнице между обеими парадигмами, давайте возьмем шесть крещендо из шести разных записей, три из которых используют первую парадигму, а три — вторую. Давайте проанализируем их с точки зрения RMS, пикового уровня и пик-фактора. Результат этого анализа показан на второй диаграмме справа. Первый график показывает, что все крещендо основаны на повышении уровня RMS. Второй график четко различает треки, использующие две парадигмы: в случае второго пиковый уровень постоянен.Третий график показывает, что пик-фактор систематически уменьшается в этих крещендо, но предполагает, что в остальных случаях нет связи между пик-фактором и громкостью.
Можно утверждать, что крещендо, использующее вторую парадигму, не являются «чистыми» динамическими событиями: чем громче становится музыка, тем больше ограничителю разрешено изменять сигнал, и тем больше он изменяет исходный тембр. Но разве это не относится к традиционным крещендо? Выполнение крещендо на отдельной скрипке не только изменит ее уровень, но и изменит ее тембр.И большинство оркестровых крещендо по мере своего развития включают в себя дополнительные инструменты. Комбинация этих двух факторов приводит к гораздо более резкому изменению тембра, чем любой ограничитель кирпичной стены мог когда-либо вызвать.
Последний альбомMetallica стал настоящим поводом для противников современной практики мастеринга. Насколько я могу судить, основная проблема Death Magnetic — это коллизия между способом его мастеринга и гитарным звучанием. Очень агрессивный мастеринг просто не подходит для производственного стиля Metallica, который восходит к 80-м годам и в значительной степени опирается на твердые, искаженные гитары.Подводя итог, можно сказать, что в результате получается музыка, которая в целом стабильна и в то же время имеет очень низкие значения коэффициента амплитуды. С точки зрения восприятия это переводится как «все время компактно».
Диаграмма 1 из группы на последней странице показывает распределение 4500 упрощенных значений коэффициента амплитуды, соответствующих корпусу, который мы использовали для статьи, вместе со значениями треков из Metallica’s Master Of Puppets и Death Magnetic. Анализ других альбомов Metallica, таких как…И «Справедливость для всех» или альбом «Black» демонстрируют значения пик-фактора, аналогичные показателям Master Of Puppets. Глядя на эту диаграмму, мы можем видеть не только то, что все треки из Death Magnetic имеют значения пик-фактора, которые значительно ниже, чем у «обычных» альбомов Metallica, но и что эти значения просто чрезвычайно низкие по сравнению с любой музыкой из корпуса.
Такие значения пик-фактора сопоставимы с тем, что можно найти на треках из My Beautiful Dark Twisted Fantasy Канье Уэста или Get Rich Or Die Tryin ’50 Cent.Это стилистически громкие альбомы городской музыки с действительно сильными перкуссионными элементами, которые артикулируют текст и лучше подходят для низких значений пик-фактора, чем постоянно гудящие гитары Metallica. Они также сопоставимы с треками из Oracular Spectacular или Congratulations от MGMT, двух альбомов со звуком, настолько отличительным, что постоянное использование второй парадигмы громкости и / или артефактов динамического сжатия вообще не проблема. Но «классический» звук Metallica просто не допускает звуковой феерии.
Диаграмма 2 из той же группы показывает изменчивость RMS Death Magnetic по сравнению с Master Of Puppets, а также двумя другими альбомами с низкими значениями пик-фактора: My Beautiful Dark Twisted Fantasy и Congratulations. Вот здесь и начинаются настоящие неприятности. Death Magnetic не только звучит очень «компактно» из-за низких значений коэффициента амплитуды, но и очень стабильно (низкая изменчивость RMS). Это означает, что он чрезмерно компактный … все время. Диаграмма 3 из той же группы суммирует это, показывая, насколько необычна такая комбинация низких значений коэффициента амплитуды и уменьшенного диапазона громкости EBU 3442.Это сравнимо не более чем с тремя песнями MGMT. Даже иногда невероятно сжатый My Beautiful Dark Twisted Fantasy не может конкурировать: он сохраняет гораздо больше контраста, чем Death Magnetic. И хотя она примерно такая же стабильная, как музыка Dagoba, индастриал-металлической группы с дэт-металлическим вокалом, которая специализируется на захватывающе громкой, компактной и толстой продукции, Death Magnetic гораздо более сжатая. На мой взгляд, так и есть: вы не хотите, чтобы традиционный, мейнстрим-метал звучал более компактно, чем нарочито экстремальный индастриал / дэт-метал.Или, если вы это сделаете, вам придется изменить саму музыку, чтобы сделать ее более контрастной, чтобы она могла позволить себе или даже извлечь выгоду из такого большого сжатия.
Легко найти людей, документы, веб-страницы и т. Д., Которые единодушно обвиняют войну за громкость в нанесении ущерба музыке. Многие из них также связывают войну за громкость с уменьшением «динамического диапазона», хотя обычно не объясняют, каким может быть динамический диапазон. Примеры таких статей можно найти в Интернете по адресу http: // lakefieldmusic.com / the-volume-war-stop-here-high- dynamic-range-audio-recordss, http://dynamicrangeday.co.uk/about/, в Википедии (http://en.wikipedia.org / wiki / Loudness_war # Dynamic_range_reduction), и даже в уважаемом научном журнале IEEE Spectrum (http://spectrum.ieee.org/computing/software/the-future-of-music). Однако во время этой статьи мы видели, что война за громкость на самом деле не привела к какому-либо уменьшению ближайшего четко определенного дескриптора к «динамическому диапазону», который представляет собой диапазон громкости, определенный в техническом документе EBU 3342.Также невозможно констатировать уменьшение динамической изменчивости ни в каком масштабе.
Так в чем проблема с войной за громкость? Очевидно, что ограничение делает что-то «неправильное» с сигналом, иначе люди не стали бы так сильно жаловаться, даже если бы они явно указывали на неправильный дескриптор сигнала.
Чтобы правильно ответить на этот вопрос, может быть полезно принять точку зрения, обычно используемую при обработке изображений, когда можно анализировать фотографию или любое изображение с точки зрения распределения яркости.Photoshop делает это в диалоге под названием «Уровни». Чтобы оценить такое распределение, алгоритм проводит инвентаризацию всех пикселей изображения и сортирует их по яркости. В результате получается график распределения, который показывает, включает ли изображение в целом преимущественно светлые, средние или темные области и в какой степени. Тот же процесс можно проделать с аудиофайлами: мы проводим инвентаризацию всех сэмплов из песни и сортируем их по их абсолютному уровню. Как показано на изображении на обороте, полученная кривая распределения может многому нас научить.
Посмотрите на среднюю кривую распределения для песен, выпущенных в 2007 году. Ее пик находится на более высоком уровне, чем средняя кривая для песен 1967 года. Это означает, что в 2007 году песни в целом стали громче. Затем посмотрите на «ширину» обеих кривых: они сопоставимы, что в основном означает, что что-то, что тесно связано с динамической изменчивостью, не изменилось с 1967 по 2007 год. отступ справа от кривой 2007 года: песни этого года имеют неестественно высокую плотность высокоуровневых сэмплов: вблизи высоких уровней распределение уровней внезапно перестает следовать нормальному распределению Гаусса.Сравните формы двух кривых: похоже, синяя была буквально «сдвинута» вправо. Это показывает результат ограничения кирпичной стены.
Продолжая сравнение с изображениями, это как если бы за последние 20 лет все картинки в книгах и журналах становились все ярче и ярче. По-прежнему есть глубокий черный цвет, контраст остается неизменным, но все изображения выглядят ярче. Это проиллюстрировано фотографиями Тауэрского моста на изображении. Как будто все в наши дни должно выглядеть «кричащим», хотя здравый смысл подсказывает, что есть некоторые изображения, которые вообще не должны выглядеть кричащими в любой ситуации.Это тем более верно в случае аудиоконтента, для которого «более яркий» не означает просто более высокую плотность более четких пикселей. Это также означает уменьшение амплитуды, модификации огибающей, использование второй парадигмы громкости и, в худшем случае, искажение. Здравый смысл подсказывает, что, хотя в этих характеристиках как таковых нет ничего плохого, они не должны присутствовать практически во всех записях.
В конце концов, все дело в стиле. Пониженные значения коэффициента амплитуды придают звуку «компактность»; На своей странице MaxxBCL Waves описывают это как «сильный явный сигнал, сотрясающий дом».Он может подходить к вашему стилю музыки, а может и нет. Возможно, вы захотите остаться «мягким» намеренно. Однако, если вы занимаетесь тяжелой техно-музыкой, «компактная», вероятно, будет хорошей идеей. Точно так же каждая из двух описанных ранее парадигм громкости имеет очень характерный «вкус», и вы можете предпочесть одну или другую. Вы хотите, чтобы каждая громкая атака изменялась компрессором / лимитером? Во многих случаях это может быть хорошей идеей, но в других может оказаться катастрофой. Вы хотите уменьшить диапазон громкости вашей музыки, ничего не меняя? Тогда вам, вероятно, лучше будет автоматизация громкости, чем лимитер, поскольку мы видели, что диапазон громкости естественным образом устойчив к определенному количеству ограничений.
В этом вопросе важно знать, что вы делаете и почему, в зависимости от того, какой звук вы хотите. Некоторые специальные инструменты также могут помочь, например, TT Dynamic Range Meter (см. Www.dynamicrangemetering.com/free-downloads — хотя он действительно измеряет пик-фактор сигнала, а не какой-либо «динамический диапазон»). И если вам все равно нравится компрессия, но вы боитесь, что мистер Боб Дилан не одобрит ваш звук, потому что он слишком «современный» и напоминает «статичный», не волнуйтесь.Он, наверное, не слушает.
В декабре 2010 года EBU выпустил документ Tech 3342 как часть рекомендации EBU R128 по громкости. Он дает очень точные рекомендации по измерению «диапазона громкости», дескриптора, который вполне может стать стандартом для измерения динамической изменчивости аудиоконтента, поэтому стоит потратить несколько минут, чтобы подробно изучить, что на самом деле является мерой «трехсекундное окно, стробированная изменчивость СКЗ по шкале K» аудиоконтента. Давайте разберемся с этим.
Длина окна анализа составляет три секунды, выборка производится каждую секунду. Значит, эта мера касается динамических явлений продолжительностью более трех секунд. Таким образом, с одной стороны, он не будет принимать во внимание перкуссионные звуки. С другой стороны, вариации громкости из-за структурных изменений могут быть нечетко видны: они могут быть замаскированы вариациями, происходящими в меньших масштабах. Это компромисс, выбранный EBU.
Вместо того, чтобы смотреть на значения RMS, протокол измерения смотрит на значения громкости, как определено в ITU-R BS 1770.Эта мера громкости проста: возьмите исходный файл, выполните его эквалайзер, а затем оцените его среднеквадратичное значение. В этом случае используется довольно простой фильтр, как показано на диаграмме. Может показаться удивительным, что ITU использует такую базовую фильтрацию для определения разницы между среднеквадратичным значением и громкостью, но, как они выразились, «для типичного монофонического вещательного материала простая мера громкости на основе энергии столь же надежна по сравнению с более сложными мерами. которые могут включать в себя подробные модели восприятия ». ITU называет такой фильтр« K-взвешиванием »и дает« LKFS »в качестве единицы громкости.На этом этапе дескриптор, с которым мы имеем дело, представляет собой последовательность значений громкости, которая, кстати, соответствует «кратковременной громкости», как определено в EBU 3341. Хотя эти значения измеряются в LKFS, EBU предпочитает в этом случае используется аббревиатура LUFS (полная шкала единицы громкости).
Эта последовательность значений теперь стробирована. Есть два последовательных процесса стробирования. Первый, «абсолютный стробирование», исключает из измерения все значения ниже -70LKFS , и должен гарантировать, что тишина и фоновый шум не будут ошибочно включены в измерение.Второй процесс стробирования называется «относительным». После удаления очень тихих частей сигнала оценивается средняя громкость. Относительное стробирование теперь исключает все значения громкости более чем на 20 дБ ниже средней громкости. Если средняя громкость после абсолютного стробирования составляет, скажем, -15LKFS, то все значения ниже -35LKFS будут удалены из оценки диапазона громкости. Это относительное стробирование используется для удаления «нетипичных» частей сигнала. На данный момент дескриптор, с которым мы имеем дело, представляет собой последовательность значений «трехсекундное окно, стробированное среднеквадратичное значение, взвешенное по K».
А теперь самое важное: оценка диапазона громкости. Это выполняется путем вычисления изменчивости этой последовательности значений «трехсекундного окна, стробированных значений K-взвешенного RMS» с использованием статистического метода, описанного выше и проиллюстрированного диаграммами 3 и 4 в группе на предыдущей странице. Таким образом, мы действительно находимся в наличии «трехсекундного окна, стробируемой изменчивости RMS, взвешенной по K», и единицей измерения для него является LU (Loudness Unit).
Если вы хотите узнать больше, вы можете найти EBU 3341 (мера громкости) по адресу http: // tech.ebu.ch/webdav/site/tech/shared/tech/tech4341.pdf. EBU 3342 (мера диапазона громкости) находится на http://tech.ebu.ch/docs/tech/tech4342.pdf. ITU BS 1770 (K-взвешивание) находится на сайте www.itu.int/rec/R-REC-BS.1770-0-200607-S/en. Он был пересмотрен в начале 2011 года, и ссылка на эту более свежую версию была www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.1770-2-201103-I!!PDF-E. pdf.
Лимитеры уменьшают диапазоны громкости, не так ли? Ну да — и нет. На самом деле этот вопрос намного сложнее, чем кажется. Представьте, что у вас есть нормализованный аудиофайл: вы не можете добавить усиления без искажений.Использование ограничителя или компрессора для такого файла, тем не менее, приведет к увеличению его содержания: уровни RMS будут увеличены. Это добавляет динамический диапазон к среде: вместо 96 дБ в случае 16-битного файла он увеличится, возможно, до 100 или 105 дБ. На диаграмме справа этот дополнительный доступный динамический диапазон показан серым прямоугольником. С этой точки зрения лимитеры не уменьшают диапазон громкости, а увеличивают его.
Идея о том, что компрессор или лимитер может расширить доступный динамический диапазон, интересна, но не нова.Много десятилетий назад инженеры сжимали сигнал между микрофоном и записывающим устройством, чтобы увеличить доступный динамический диапазон носителя записи, чтобы его тогдашнее низкое отношение сигнал / шум не было проблемой.
На диаграмме показан RMS-анализ для трех файлов: исходного, нормализованного, но не ограниченного, и того же файла, ограниченного пороговым значением -6 дБ, затем -12 дБ. Давайте сосредоточимся на разнице между исходным файлом и файлом -6 дБ. Что касается низких уровней, файл -6 дБ получает 6 дБ RMS.Но высокие уровни ограничены, так что среднеквадратичное усиление для высоких уровней составляет всего 5 дБ. Это приводит к уменьшению среднеквадратичной изменчивости на 1 дБ. Давайте снизим ползунок порога до -12 дБ: низкие уровни увеличиваются еще на 6 дБ, а высокие уровни только 3 дБ. Это соответствует еще одному уменьшению среднеквадратичной изменчивости на 3 дБ, то есть уменьшению на 4 дБ в целом. Так что да, с этой точки зрения лимитеры действительно уменьшают диапазон громкости — в этом случае примерно на 4LU.
Однако потеря 1 дБ в изменчивости среднеквадратичного значения очень мала.Порог, ниже которого ограничение действительно начинает влиять на сигнал, зависит от обрабатываемой музыки. Вторая диаграмма показывает эволюцию изменчивости RMS на разных уровнях для трех музыкальных произведений. Обратите внимание, как в произведении поп / рок музыки справа показаны отклонения RMS, которые более устойчивы к ограничению, чем два других произведения — опера и джаз. Это особенно актуально для более низких временных шкал: в этом конкретном случае порог ограничителя должен быть установлен как минимум на -6 дБ, чтобы получить заметное уменьшение изменчивости RMS.Это вполне может быть вызвано наличием в этой пьесе громкой, очень заметной части бас-барабана, что может указывать на то, что чем выше исходная изменчивость RMS, тем больше ее устойчивость к ограничению. Согласно этой точке зрения, непросто уменьшить высокую изменчивость. Эта первоначальная устойчивость к ограничению — еще один аргумент в пользу утверждения, что ограничение не означает автоматически уменьшение диапазона громкости, особенно если исходный материал сильно изменчив.
Многие альбомы до цифровой эры были переработаны.В качестве примера остановимся на дискографии Cure. С 2004 года каждый из их альбомов до 1990 года подвергался ремастерингу и выпускался с дополнительным материалом. Диаграмма 1 из группы ниже сравнивает исходные издания с обновленными с точки зрения уровня RMS. Издания Deluxe действительно громче, чем оригинальные, и их уровень RMS обычно на 5 дБ выше, чем у оригинальных изданий. При этом они не такие громкие, как альбомы, выпущенные после 1995 года. Кстати, обратите внимание, что недавние альбомы Cure определенно стали жертвами войны за громкость: между Wish и Wild Mood Swings произошел внезапный скачок на 6 дБ, поэтому Альбомы Cure, как правило, менее громкие, чем нынешняя тенденция, демонстрируют такой же уровень, как и все остальные.
Давайте сосредоточимся на порнографии, изначально выпущенной в 1982 году. При захвате формы волны на том же изображении сравнивается форма волны, соответствующая оригинальной и ремастированной версиям всего альбома. Очевидно, что ремастер 2005 года в значительной степени полагается на ограничители кирпичной стены с цифровым прогнозированием. Хорошо это или плохо? Мне лично нравится слушать оба издания. С более объективной точки зрения, давайте сосредоточимся на выделенной части сигнала, которая соответствует концу «Странного дня». В оригинальном издании, как раз перед короткой паузой, мы видим легкое декрещендо, за которым следует короткое крещендо.Читатели, знакомые с песней, согласятся, что эти вариации громкости очень важны для реального музыкального содержания (кульминация песни и затем пауза). В оригинальном издании эти вариации громкости используют первую парадигму громкости, как описано в основном тексте. Теперь посмотрите на ту же часть сигнала, которая соответствует обновленной версии. Изменения громкости теперь имеют совсем другую природу, и это может быть не такой уж хорошей идеей. На мой взгляд, это может быть основной опасностью ремастеринга альбомов до цифровой эры: если не проявить осторожность, это увеличивает плотность сэмплов очень высокого уровня, снижает пик-фактор и превращает первую парадигму громкости во вторую. .
Записи таких знаменитых и уважаемых групп, как Beatles или Pink Floyd, часто ремастируются по несколько раз, так что становится трудно найти эталонную версию для любого из их альбомов. Возьмем, к примеру, «Темную сторону луны». Диаграмма 3 показывает высокоуровневую плотность сэмплов для пяти его релизов: каждый из них мастерируется или ремастируется по-разному. Даже два издания с пометкой «Original Master Recording» — не одно и то же — вероятно, потому, что одно — виниловая пластинка, а другое — компакт-диск.
В контексте войны за громкость возникает один вопрос: уважают ли эти ремастеры оригинальное издание 1973 года? Диаграмма 3 на изображении ниже дает некоторые ответы. Издания 1981, 1989 и 1992 годов показывают общее количество ограничений, сравнимое с тем, что можно было найти в записях 1973 года, согласно результатам, представленным в начале этой статьи. Издание 2003 года более проблематично: его ограничения сопоставимы с ограничениями альбома 1995 года. Что касается издания 2007 года, здесь все не так однозначно: «Eclipse», похоже, был ограничен или, по крайней мере, сильно сжат, но другие треки показывают очень разумно высокую плотность сэмплов.Прослушивание каждого выпуска и просмотр форм сигналов улучшает анализ. Версии 1981, 1989 и 1992 годов звучат очень «по-старому Pink Floyd», с исключительным использованием первой парадигмы громкости. Напротив, издание 2003 года в этом отношении неубедительно. Левый и правый передние каналы этого 5.1 remaster сильно ограничены, с частым использованием второй парадигмы громкости. Это звучит как Pink Floyd на FM-радио. Тот факт, что каналы объемного звучания не имеют этого недостатка, не компенсирует его.Что касается издания 2007 года, то это интересный случай, и, на мой взгляд, он был рассмотрен особенно грамотно. Например, «Eclipse» звучит громче — намного громче оригинала. С другой стороны, разве не должно быть «Eclipse» как финал альбома громким? Остальные песни ремастированы по-другому. Кроме того, даже для Eclipse не используется вторая парадигма громкости, хотя взгляд на форму волны показывает, что мы почти достигли предела между двумя парадигмами. Это говорит о том, что не все легендарные альбомы нарушаются правообладателями: издание Dark Side Of The Moon 2007 года демонстрирует настоящее уважение и понимание к музыке и вполне может оказаться успешным в достижении хорошего компромисса между оригинальным цветом альбома и более современным. вкусы.
Большая часть этой статьи основана на анализе корпуса записанной музыки, составленной из альбомов, которые достигли серьезного коммерческого успеха и / или успеха у критиков. Основные ссылки: страница самых продаваемых альбомов Википедии (см. Http://en.wikipedia.org/wiki/Best_selling_albums), архивы диаграмм с сайта Billboard.com (www.billboard.com/#/charts/hot-100), и веб-сайт, посвященный «лучшим альбомам» (см. www.besteveralbums.com). Кроме того, если артист неоднократно упоминается на сайте besteveralbums.com, может быть включена полная дискография.Так обстоит дело, например, с Radiohead, Nirvana, Pink Floyd и U2. Каждый альбом из корпуса был проверен на предмет мастеринга, который реально мог быть выполнен во время первоначального выпуска — поэтому, если, например, запись 1970 года показывала очевидные ограничения цифровой кирпичной стены, она была отклонена как ремастер. Ссылки на песни из сборников указывались в соответствии с их исходной датой выпуска, а не датой компиляции, и проверялись на предмет очевидного ремастеринга.
Понимание динамического диапазона и сжатия при мастеринге
НЕДЕЛЯ МАСТЕРИНГА : Посмотрите видео выше, чтобы послушать Конора Далтона, инженера мастеринга, который управляет Glowcast Audio Mastering , объяснить динамический диапазон и сжатие и прочитать, что он говорит о мастеринге процесс ниже.
Что такое мастеринг?
«По моему опыту, в мире мастеринга, его возможностей и ограничений существует много путаницы. Я бы назвал его последним звеном в цепочке создания музыки, где-то между финальным миксом и завершенным проект, в котором звук можно оптимизировать с помощью тонкой обработки, проверки ошибок и доведения всех задействованных до совершенства. Это процесс творческого улучшения звука перед подготовкой и переносом записанного звука на такое устройство, как компакт-диск или винил, и не дает возможности сделать ремикс. или исправить плохую запись.«
» Этот мастер является копией, из которой создаются все последующие копии. »
Что включает в себя мастеринг?
« Мастеринг — это последний шанс, который вы получаете для звукового изменения вашей музыки с помощью таких методов, как эквалайзер и сжатие и последний шанс получить лучшее из вашего звука. Как мастеринг-инженер, моя работа состоит в том, чтобы объединить все отдельные элементы песни вместе в гармонии, а также уравновесить тональность песни с помощью эквалайзера и устранить мелкие недостатки, такие как треск и щелчки.
«Как я уже сказал, если у вашего микса есть проблемы, вам будет сложно получить великолепно звучащую мастеринную запись. Мастеринг — это не место для исправлений, это скорее искусство баланса: аудио фэн-шуй, Если хотите. Это означает, что плохой микс никогда не станет хорошим, но он определенно может помочь сделать хороший микс отличным. При мастеринге для компакт-диска треки также размещаются на соответствующем расстоянии между ними, поэтому весь альбом хорошо сочетается с художественным оформлением и ISRC и при необходимости могут быть встроены коды UPC / EAN.Затем создается «мастер», например цифровой файл WAV или AIFF, компакт-диск или винил.
«Этот мастер является копией, из которой создаются все последующие копии. Цель мастеринга — добиться того, чтобы готовые песни отлично звучали на любой звуковой системе, будь то концертная установка на стадионе или домашняя стереосистема. Вы хотите, чтобы мастеринг был в основном конструктивное, а не корректирующее: вы хотите улучшить звук, а не тратить все свое время на исправление ошибок, которые произошли во время микширования. Поэтому важно, чтобы ваш микс звучал именно так, как вам нравится, насколько это возможно, прежде чем освоение.
«Ваша задача при применении творческих методов обработки на этапе мастеринга — распознать точку, в которой вы успешно переместили звук в его оптимальное положение, прежде чем звук начнет ухудшаться из-за чрезмерной обработки. Это также может включать настройку ширины стереозвука. , хирургический эквалайзер для удаления нежелательных резонансов и ограничения, например ».
«Понимание ваших возможностей и ограничений — это суть мастеринга».
Сможете ли вы сделать мой трек громким на стадии мастеринга?
«Да, но вы должны понимать, что громкость достигается за счет динамического диапазона.Мастеринг — это не просто создание чего-то громкого. Меня часто спрашивают, могу ли я сделать чью-то песню «такой же громкой, как» другой исполнитель, и одна из самых распространенных проблем, с которыми я сталкиваюсь при прослушивании треков, которые мне присылают в качестве мастеринг-инженера, — это чрезмерная компрессия микса для достижения громкости.
«Громкость на самом деле иллюзия, поскольку у всех нас есть регулятор громкости на нашем Hi-Fi или стерео: я поговорим об этом подробнее в видеоуроках с журналом этого месяца. Хотя часто желательно стремиться к конкурентоспособной громкости, это не так. разумно полностью убить динамический диапазон вашей песни, чтобы добиться этого.Когда вы уменьшаете расстояние между самым громким пиком и самым тихим звуком посредством сжатия для достижения громкости, вы можете добиться более «полного» звука.
«Однако, если вы заходите слишком далеко и переусердствуете, вы жертвуете некоторыми важными и мощными пиками в пользу более тихих звуков, и в результате вы нарушаете некоторую звуковую целостность для достижения такой громкости. Понимание ваших возможностей и ограничений — это суть мастеринга ».
Могу ли я мастерить свою музыку?
«Конечно, вы можете, однако одно из основных преимуществ профессионального мастеринга вашей музыки кем-то другим — это свежий набор ушей, позволяющий по-новому взглянуть на вашу музыку.Все мы знаем это чувство, когда вы слушали свой трек в течение нескольких недель и просто не можете сказать, требуются ли больше творческие изменения в обработке. Здесь может быть важен свежий взгляд: первое впечатление часто может многое рассказать о вашем аудио ».
Совет по сжатию
« При использовании сжатия помните, что увеличение или уменьшение громкости, добавленное компрессором, обманчиво. Хорошая практика — всегда согласовывать громкость на выходе с дополнительным усилением, поэтому убедитесь, что сжатые и несжатые сигналы имеют одинаковую громкость при включении / выключении компрессора.Таким образом, вы слышите только эффекты сжатия, а не бесполезное изменение громкости, которое может обмануть вас, заставив думать, что, поскольку сжатый сигнал громче, он «лучше». Это хороший способ сохранить звуковую целостность при настройке динамического диапазона посредством сжатия. «
Понимание динамического диапазона
» Понимание динамического диапазона важно для достижения хорошего звука. Это разница и расстояние между самым громким пиком трека и самым тихим звуком.Сжатие сокращает это расстояние для достижения общего ощущения повышенной «громкости». Теперь рассмотрим эту аналогию: представьте динамический диапазон человеческого голоса в повседневном разговоре.
«Самый громкий звук в разговоре — это крик, а самый тихий звук — это шепот. Если вы уменьшите расстояние между криком и шепотом, весь ваш разговор может стать более откровенным и прямо перед вашим лицом, более возбуждающе, а шепот легче слышать за счет легкого приглушения крика одним прикосновением.
«Тем не менее, подумайте о последствиях того, чтобы зайти слишком далеко. Крик приглушается, что означает меньшее воздействие и резкость, а шепот становится неуместно громким, что означает отсутствие секретов: ваш разговор станет менее выразительным, эмоциональным и артикулированным, если вы уменьшите динамический диапазон слишком велик для достижения общей громкости.
«То же самое и с музыкой. Ваша задача на этапе мастеринга — распознать, какое сжатие (если оно есть) необходимо и насколько оно подходит, прежде чем звук начнет ухудшаться и целостность звука будет нарушена для достижения громкости.Помните, что человеческое ухо, естественно, предпочитает некоторый динамический диапазон в музыке, и слишком громкий и сжатый звук очень утомляет слушать через некоторое время, поскольку ему не хватает глубины. Представьте себе американские горки, которые не поднимаются и не спускаются, а просто движутся по прямой высоко в воздухе, это было бы не очень интересно, не так ли? Нас волнуют взлеты и падения в музыке (и американские горки), поэтому, если все станет громким, важные элементы песни, которым следует уделить приоритетное внимание, потеряют влияние.