Разрядность кодирования: Аудио-кодирование: секреты раскрыты | Статьи

Содержание

Аудио-кодирование: секреты раскрыты | Статьи

Настройка аудио для видеозахвата и трансляции.

Как люди, непосредственно связанные с AV сферой, мы постоянно говорим об аудио-кодировании и аудиокодеках, а что же это такое? Аудиокодек – это, по сути, устройство или алгоритм, способный кодировать и декодировать цифровой аудиосигнал.

На практике аудиоволны, которые передаются по воздуху, являются продолжительными аналоговыми сигналами. Сигналы преобразуются в цифровой формат устройством, которое называется аналого-цифровой преобразователь (АЦП), а устройство обратного преобразования – цифро-аналоговый преобразователь (ЦАП). Кодек находится между этими двумя функциями и именно он позволяет откорректировать некоторые важные параметры для успешного захвата, записи и трансляции звукового сигнала: алгоритм кодека, частота дискретизации, разрядность и скорость передачи данных.

Три наиболее популярных аудиокодека: Pulse-Code Modulation (PCM), MP3 и Advanced Audio Coding (AAC). Выбор кодека определяет степень сжатия и качество записи. PCM – кодек, который используется компьютерами, CD-дисками, цифровыми телефонами и иногда SACD-дисками. Источник сигнала для PCM сэмплируется через равные интервалы, и каждый сэмпл представляет собой амплитуду аналогового сигнала в цифровом значении. PCM – это наиболее простой вариант для оцифровки аналогового сигнала.

При наличии правильных параметров этот оцифрованный сигнал может быть полностью реконструирован обратно в аналоговый без каких-либо потерь. Но этот кодек, обеспечивающий практически полную идентичность оригинальному аудио, к сожалению, не очень экономичен, что выражается в очень больших объемах файлов, а такие файлы не подходят для потокового вещания. Мы рекомендуем использовать PCM для записи цифровых образов для ваших источников или когда вы занимаетесь постобработкой аудио.

К счастью, у нас всегда есть возможность выбрать другой кодек, который может сжимать цифровые данные (по сравнению с PCM) на основании некоторых полезных наблюдений о поведении звуковых волн. Но в этом случае приходится идти на компромисс: все альтернативные алгоритмы сопряжены с «потерями», так как невозможно полностью восстановить исходный сигнал, но, тем не менее, результат всё равно хорош настолько, что большинство пользователей не смогут уловить разницу.

MP3 – это формат аудио-кодирования с использованием как раз такого алгоритма сжатия цифровых данных, который позволяет сохранять аудиосигнал в меньшие по объему файлы. Кодек MP3 чаще всего используется пользователями для записи и хранения музыкальных файлов. Мы рекомендуем применять MP3 для трансляций аудио-контента, так как ему требуется меньшая пропускная способность сети.

AAC – это более новый алгоритм кодирования аудиосигнала, ставший «преемником» MP3. AAC стал стандартом для форматов MPEG-2 и MPEG-4. По сути это тоже кодек сжатия цифровых данных, но с меньшей, чем у MP3, потерей качества при кодировании с одинаковыми битрейтами. Мы рекомендуем использовать этот кодек для онлайн трансляций.

Частота дискретизации (кГц, kHz)

Частота дискретизации (или частота сэмплирования) — частота, с которой происходит оцифровка, хранение, обработка или конвертация сигнала из аналога в цифру. Дискретизация по времени означает, что сигнал представляется рядом своих отсчетов (сэмплов), взятых через равные промежутки времени.

Измеряется в герцах (Гц, Hz) или килогерцах (кГц, kHz,) 1 кГц равен 1000 Гц. Например, 44 100 сэмплов в секунду можно обозначить как 44 100 Гц или 44,1 кГц. Выбранная частота дискретизации будет определять максимальную частоту воспроизведения, и, как следует из теоремы Котельникова, для того, чтобы полностью восстановить исходный сигнал, частота дискретизации должна в два раза превышать наибольшую частоту в спектре сигнала.

Как известно, человеческое ухо способно улавливать частоты между 20 Гц и 20 кГц. Учитывая эти параметры и значения, показанные в таблице ниже, можно понять, почему именно частота 44,1 кГц была выбрана в качестве частоты дискретизации для CD и до сих пор считается очень хорошей частотой для записи.

Есть ряд причин для выбора более высокой частоты дискретизации, хотя может показаться, что воспроизводить звук вне диапазона человеческого слуха – пустая трата сил и времени. При этом среднестатистическому слушателю будет вполне достаточно 44,1 – 48 кГц для качественного решения большинства задач.

Разрядность

Наряду с частотой дискретизации есть такое понятие как разрядность или глубина звука. Разрядность – это количество бит цифровой информации для кодирования каждого сэмпла. Проще говоря, разрядность определяет «точность» измерения входного сигнала. Чем больше разрядность, тем меньше погрешность каждого отдельного преобразования величины электрического сигнала в число и обратно. С минимальной возможной разрядностью есть только два варианта измерения точности звука: 0 для полной тишины и 1 для звучания в полном объеме. Если разрядность равна 8 (16), то при измерении входного сигнала может быть получено 28= 256 (216= 65 536) различных значений.

Разрядность закреплена в кодеке PCM, но для кодеков, которые предполагают сжатие (например, MP3 и AAC) этот параметр рассчитывается при кодировании и может меняться от сэмпла к сэмплу.

Битрейт

Битрейт — это показатель количества информации, которым кодируется одна секунда звучания. Чем он выше, тем меньше искажений и тем ближе закодированная композиция к оригиналу. Для линейного PCM битрейт рассчитывается очень просто.

битрейт = частота дискретизации × разрядность × каналы

Для таких систем как Epiphan Pearl Mini, которые кодируют линейный PCM 16-бит (разрядность 16), этот расчет может быть использован для определения, сколько дополнительных полос пропускания может потребоваться для PCM аудио. Например, для стерео (два канала) оцифровка сигнала производится с частотой 44,1 кГц на 16-бит, а битрейт при этом рассчитывается таким образом:

44,1 кГц × 16 бит × 2 = 1 411,2 кбит/с

Между тем алгоритмы сжатия аудиосигнала, такие как AAC и MP3, имеют меньшее количество бит для передачи сигнала (в этом и заключается их цель), поэтому они используют небольшие битрейты. Обычно значения находятся в диапазоне от 96 кбит/с до 320 кбит/с. Для этих кодеков чем выше битрейт вы выбираете, тем больше аудио бит вы получаете на сэмпл, и тем выше будет качество звучания.

Частота дискретизации, разрядность и битрейты в реальной жизни.

Аудио CD-диски, одни из первых наиболее популярных изобретений для простых пользователей для хранения цифрового аудио, использовали частоту 44,1 кГц (20 Гц – 20 кГц, диапазон человеческого уха) и разрядность 16-бит. Данные значения были выбраны, чтобы при хорошем качестве звука иметь возможность сохранять как можно больше аудио на диске.

Когда к аудио добавилось видео и появились DVD, а позднее Blu-Ray диски, был создан новый стандарт. Записи для DVD и Blu-Rays обычно используют линейный формат PCM с частотой 48 кГц (стерео) или 96 кГц (звук 5.1 Surround) и разрядность 24. Эти значения были выбраны в качестве идеального варианта, чтобы сохранять аудио с синхронизацией с видео и при этом получать максимально возможное качество с использованием дополнительного доступного дискового пространства.

Наши рекомендации

CD, DVD и Blu-Ray диски преследовали одну цель – дать потребителю высококачественный механизм воспроизведения. Задачей всех разработок было предоставить высокое качество аудио и видео, не заботясь о величине файла (лишь бы он умещался на диск). Такое качество мог обеспечить линейный PCM.

Напротив, у мобильных средств информации и потокового медиа совсем другая цель – использовать максимально низкий битрейт, при этом достаточный для поддержания приемлемого для слушателя качества. Для этой задачи лучше всего подходят алгоритмы сжатия. Теми же принципами вы можете руководствоваться для своих записей.

При записи аудио с видео…

В случае если запись будет использоваться для последующей обработки, выбирайте кодек PCM с частотой 48 кГц и максимальной разрядностью (16 или 24), чтобы обеспечить наилучшее качество аудио. Мы рекомендуем данные параметры для Epiphan Pearl Mini.

При потоковой передаче аудио с видео…

При потоковой передаче или записи для последующей трансляции можно получить хорошее звучание аудио при меньшей полосе пропускания, используя кодеки AAC или MP3 с частотой 44,1 кГц и битрейт 128 кбит/с или выше. Такие параметры гарантируют, что звук будет достаточно хорош и не скажется на качестве трансляции.

Кодирование звуковой информации

Кодирование звуковой информации

Введение

Не до конца понимаете, как происходит кодирование звуковой информации? Запутались в аналогово-цифровых и цифро-аналоговых преобразователях? Записывайтесь ко мне на индивидуальный урок по информатике и ИКТ. Кроме рассмотрения теоретических сведений мы с вами прорешаем колоссальное количество тематических примеров.

Общие сведения о звуковой информации

В течение дня обычный человек слышит большое количество различных звуков. Давайте попытаемся кратко понять, что же такое звук. Звук – колебания воздуха, которые были созданы неким источником.
Под источником звука можно понимать любой предмет, объект, который способен генерировать звуковые волны:

  • Человек, который что-то произнес.

  • Проезжающий поезд, от которого исходит шум.

  • Музыкальные инструменты, на которых играет музыкант.

В самом широком физическом смысле под звуком следует понимать простую волну. Если говорить о графической интерпретации звука, то звуковые волны следует представлять, как множество синусоидальных графиков функций, каждый из которых имеет ряд обязательных параметров.

Звук обладает множеством характеристик, но ключевыми являются лишь две:

  1. Амплитуда звуковой волны.

  2. Частота звуковой волны.

Об этих свойствах будет детально рассказано в следующем разделе данной статьи.

Сейчас я вам покажу график функций идеальной звуковой волны, которой в природе физически не существует.

Графическое представление идеальной звуковой волны

Также хочу продемонстрировать график функций неидеальной звуковой волны, которая является речью обыкновенного человека.

Графическое представление неидеальной звуковой волны, которая является речью человека

Посмотрев на оба выше представленных графика функций, у вас должны возникнуть следующие мысли и закономерный вопрос: если перед нами изображен график функций, то где координатная ось, координатная сетка, градуированные шкалы осей ОХ и оси ОY, а также нужно понять, на основании каких закономерностей построены данные графики функций? То есть, какие параметры выступают значением по оси абсцисс и по оси ординат. О данных характеристиках, параметрах будет рассказано ниже.

Характеристики звуковой информации

Как было сказано выше, что звук обладает двумя ключевыми характеристиками: амплитудой и частотой.

Амплитуда – по сути, громкость или сила звука, измеряемая в децибелах. В физике принято сокращение единицы децибел до дБ. Человек в дневное время суток способен воспринимать звуки громкостью от 10-15 дБ. Уровень громкости звука является относительной величиной. Болевой порог для человека составляет уровень громкости звука в 120-130 дБ.

Частота – отношение количества колебаний звуковой волны в единицу времени. Иногда вместо термина «частота звука» используется термин «высота звука». Единицей измерения частоты в мировой системе СИ является герц. Обозначается единица герц как Гц. Человек воспринимает звуковые волны в диапазоне от 20 Гц до 20000 Гц. Звуковые волны, имеющие частотность меньше, чем 20 Гц, называют инфразвуком. Звуковые волны, имеющие частотность выше, чем 20000 Гц, называют ультразвуком.

Влияние частоты на тип звука

Давайте вернемся к графикам функций идеальной и неидеальной звуковой волны.

Наша задача – разобраться, какая величина откладывается на оси абсцисс, а какая – на оси ординат.

Очевидно, что одной из осей является популярнейшая характеристика большинства физических графиков функций – время. Мы не сможем исследовать поведение звуковой волны, если не будем рассматривать ее в различные отрезки времени. Следовательно, осью абсцисс является параметр время. Единицей измерения является, например, секунда или миллисекунда.

Осью ординат выступает амплитуда или громкость рассматриваемой звуковой волны. Чем больше громкость или выше амплитуда, тем выше проходит график функций, соответствующий анализируемой звуковой волне.

Представим те же самые графики функций звуковых волн, но уже с обозначениями осей координат и их градуировкой.

Частота дискретизации звука

Необходимо знать, что процессор персонального компьютера взаимодействует с любыми данными на уровне двоичного кода. Двоичный или бинарный код – цепочки битов, которые принимают только одно из двух предопределенных значений, – 0 или 1.

Под кодированием звуковой информации следует понимать преобразование аналогового звукового сигнала в формат, понятный процессору персонального компьютера, то есть в двоичный код. Аналоговый или непрерывный звуковой сигнал у нас представлен в виде графика функций, как зависимость амплитуды от времени.

Чтобы оцифровать аналоговый звуковой сигнал разобьем ось, выражающую время, на некоторое количество равных отрезков и произведем замеры амплитуды/громкости в каждом отрезке. Предлагаю произвести разбивку с шагом 0.1 секунды.

Дискретизация – процесс преобразования непрерывного сигнала в дискретный, то есть прерывный сигнал. Под частотой дискретизации следует понимать частоту взятия отсчетов непрерывного во времени сигнала при его дискретизации. В нашем случае дискретизация – операция, связанная с разбивкой оси абсцисс, отвечающей за время, на отдельные одинаковые участки. А частотой дискретизации является значение, равное 10 Гц. То есть мы производим 10 замеров амплитуды звуковой волны за 1 секунду.

Дискретизация неидеальной звуковой волны

Таблица значений громкости звуковой волны при частоте дискретизации 10 Гц:

Время, сек

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Громкость, дБ

90

20

80

30

90

10

40

20

90

20

60

Разрядность звука при кодировании звуковой информации

В теории кодирования звуковой информации понятие разрядности взаимосвязано с понятием квантования. В грубом приближении под квантованием можно понимать операцию, которая преобразует значения громкости или амплитуды звукового сигнала в двоичный код.

Обратимся еще раз к графику функций, который выражает аналоговый неидеальный звуковой сигнал. Значения громкости находятся в диапазоне от 0 до 100 децибел. Следовательно, у нас должна быть возможность запоминания 101 различного состояния, значения. Давайте рассчитаем минимальное количество бит информации, необходимой для кодирования 101 различного значения. Для этого решим простейшее показательное неравенство: 2x ≥ 101. Очевидно, что x = 7, так как 27 = 128 ≥ 100. Следовательно, для кодирования звуковой информации нам будет достаточности разрядности в 7 бит.

Сейчас мы произведем операцию квантования по отношению к замеренной громкости звуковой волны:

 Время, сек

0

0. 1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Громкость, дБ

90

20

80

30

90

10

40

20

90

20

60

Двоичный код

1011010

0010100

1010000

0011110

1011010

0001010

0101000

0010100

1011010

0010100

0111100

На этом этап кодирования звуковой информации можно считать законченным. В оперативной памяти персонального компьютера входной аналоговый звуковой сигнал будет представлен в следующем виде:

101101000101001010000001111010110100001010 01010000010100101101000101000111100

Хочу обратить ваше внимание, что в приведенном примере мы использовали ничтожно малую частоту дискретизации, равную 10 Гц. В современных условиях кодирование звуковой информации осуществляют при частоте дискретизации 44100 Гц. То есть мы провели 10 замеров в течение 1 секунды, а на практике обеспечивают 44100 замеров за 1 секунду. Чем чаще производятся замеры исследуемой величины, тем точнее кодируется звуковая информация.

Для ради эксперимента давайте рассчитаем информационный объем, которые требуется для хранения звуковой волны в нашем примере, при частоте дискретизации 10 Гц и разрядности 7 бит.

V = [Частота дискретизации] ∙ [Разрядность] ∙ [Промежуток времени] = 10 ∙ 7 ∙ 1 = 70 [бит].

Данная формула справедлива для монозвука. Информационный объем для стереозвука рассчитывается по аналогичной формуле, но в начале стоит коэффициент 2. Это связано с тем, что при кодировании стерео звуковой информации используется две дорожки.

Уровни громкости звука

Громкость, дБ

Характеристика

Источник звука

0

Абсолютная тишина

 

5

Почти идеальная тишина

 

10

Почти идеальная тишина

Шорох листьев

15

Едва слышно

Качание веток деревьев

20

Едва слышно

Шепот человека

25

Очень тихо

Шепот человека

30

Тихо

Тиканье часов на стене

35

Ниже среднего

Речь человека на расстоянии 10 метров

40

Ниже среднего

Обыкновенная речь человека

45

Ниже среднего

Обыкновенная речь человека

50

Средне

Печатная машинка

55

Выше среднего

Офисное помещение

60

Шумно

Отдел продаж

65-75

Шумно

Громкий разговор, крики, смех

80

Очень громко

Крик человека

85

Очень громко

Громкий крик человека

90

Очень шумно

Движение поезда на расстоянии в 1 метр

95

Очень шумно

Движение метро снаружи

100

Крайне шумно

Оркестр

120

Невыносимо громко

Отбойный молоток

130

Болевой порог

Самолет при взлете

150

Контузия

Старт ракеты

160

Шок, тяжелые травмы слухового аппарата

Ударная волна при взрыве ядерной бомбы

200

Смерть

Шумовое оружие

Громкость звука необходимо учитывать при кодировании звуковой информации, так как ее величина влияет на разрядность кодирования звуковых волн, а следовательно, и на информационный вес закодированного в двоичном коде звукового файла.

Краткие логические выводы

Подытожим алгоритм кодирования звуковой информации:

  1. Анализ входного аналогового сигнала. Как правило данный сигнал выражается графиком функций в системе координат время-громкость.

  2. Проведение операции дискретизации, то есть разбивка входного сигнала на конечное и одинаковые по размерам фрагменты. Чем больше значение частоты дискретизации, тем выше точность преобразования при кодировании звуковой информации.

  3. Проведение операции квантования, то есть перевод значений в двоичный формат.

  4. Запись двоичного кода в звуковой файл, находящегося на жестком диске персонального компьютера.

Если у вас остались какие-либо вопросы по теме «Кодирование звуковой информации», то записывайтесь ко мне на индивидуальный урок по информатике и ИКТ. Кроме теоретических сведений из области кодирования звуковой информации мы будем делать упор и на решение тематических заданий.

Работа с кодеками и понимание битовой глубины и битрейта в видео | Винсент Табора | High-Definition Pro

(Фото предоставлено CineDirektor FILMS)

Работа с видео во время постобработки (например, редактирование) требует понимания взаимосвязи между битрейтом (также пишется битрейт) и его кодеком . Битрейт относится к количеству цифровых данных, закодированных в единицу времени , обычно выражаемом в секундах или минутах. При подготовке к съемке видео во время производства важно учитывать скорость передачи данных для определения размера файла и качества изображения. Это относится к кодеку, который представляет собой аппаратное (или программное обеспечение) сжатия/распаковки, помогающее определить качество изображений в вашем контенте (например, видео) для доставки.

Мы собираемся обсудить КОДЕК с точки зрения видео, поскольку существуют и другие типы, используемые для разных целей (например, JPEG для неподвижных изображений и MP3 для аудио). Кодек часто включается в качестве функции камеры. Примером этого может служить кодек H.264 , используемый в камерах Canon 5D Mark II и Mark III. Сам кодек находится внутри чипа прошивки камеры и выполняет свои функции без вмешательства пользователя. Другой тип кодека может быть реализован в программном обеспечении (промежуточный кодек), например Apple 9.0003 ProRes , используемый при постредактировании (используется для доставки в окончательном формате). Кодеки работают за кулисами для обработки захваченного изображения с использованием запрограммированных алгоритмов .

Камера, поддерживающая кодек Apple ProRes.

Кодек помогает определить качество захваченного контента, но нам необходимо знать битовую глубину и битрейт, чтобы иметь лучшее представление о размере файла для хранения. Мы начнем с функции КОДЕКа, а затем углубимся в расчет предполагаемого хранилища на основе скорости передачи данных вручную, чтобы лучше понять качество изображения контента и размер файла.

КОДЕК

Основная функция КОДЕКа заключается в преобразовании исходного файла контента в меньший формат для распространения контента или мультимедиа. Это связано с тем, что исходный файл обычно имеет несжатый формат, который нельзя легко просматривать или распространять на разных устройствах. Файл слишком велик для распространения содержимого, поэтому кодек сжимает файл до меньшего размера. Кодек сжимает цифровой контент из источника, а затем позволяет пользователям распаковывать контент для просмотра. Кодек также выполняет обработку информации о цвете и деталях, чтобы представить окончательное качество, которое пользователи видят на своем дисплее.

При захвате изображения важным фактором является глубина бит , на которую способен кодек в вашей камере. Битовая глубина определяет количество цвета, которое камера может распознавать и кодировать. Каждый пиксель содержит 3 канала, которые представляют цвета RGB (красный, зеленый, синий). Цвета кодируются для создания одного пикселя, который содержит количество RGB от каждого канала для представления цвета. Цвет — это просто смешивание каналов RGB, представленных в виде данных в процессе кодирования. 98 = 256

Рекомендуется большая битовая глубина, так как у вас больше цветов для работы. Меньшая битовая глубина может привести к тому, что называется полосатостью , поскольку обрабатывается меньше цветов. Это связано с недостаточным диапазоном тонов для представления цветов в изображении. Более высокая битовая глубина может лучше отображать цвета из-за их более широкого диапазона.

График спектра, показывающий тональный диапазон цветов. Чем выше битовая глубина, тем больше оттенков цвета возможно для изображения.

Возможно, уже очевидно, что для большей разрядности вам потребуется больше места для хранения на вашем цифровом носителе (например, на SD-карте), поскольку объем сохраняемых данных потребует больших размеров файлов. Целью CODEC является управление сжатием и распаковкой захваченного изображения для кодирования в подходящем формате. Общее правило заключается в том, что чем меньше сжатие (без сжатия), тем лучше качество изображения и больше места для хранения требуется . Большее сжатие приводит к ухудшению качества изображения, но требует меньше места для хранения.

Когда кодек выполняет свою работу, он использует технику, называемую подвыборкой цветности . Выборка используется на уровне пикселей и обозначается как x:x:x. Если подвыборка цветности 4:4:4, это означает, что в группе из 4 пикселей вся информация сохраняется без потери информации о цвете. Он требует больше места и меньшего сжатия, но обеспечивает наилучшее общее качество. При дискретизации 4:2:2 сохраняется информация о цвете только 2 из 4 пикселей. Это делается для того, чтобы сэкономить больше места для хранения с максимально возможным качеством.

Иллюстрированная диаграмма субдискретизации цветности 4:4:4 (источник B&H Photo Video). После того, как необработанные кадры с камеры были экспортированы на компьютер, следующим типом является кодек редактирования . Это КОДЕК, используемый перед доставкой окончательного формата. Мы имеем дело с двумя типами сжатия при редактировании.

Первый называется Внутрикадровое сжатие , который выполняет сжатие в каждом кадре. Каждый кадр декодируется без взаимозависимости с другими кадрами. Второй тип называется межкадровое сжатие . В то время как в интрафрейме нет зависимости от другого кадра, в интеркадре есть. Межкадровое сжатие требует для обработки информации с использованием алгоритма прогнозирования из соседних кадров.

Поскольку внутренний кадр фокусируется только на одном кадре, работать с ним намного быстрее. Interframe может занимать гораздо больше времени и места, поскольку ему необходимо собирать данные из других кадров перед созданием следующего. Это действительно зависит от редактора и типа программного обеспечения, которое они используют. Кодеки постобработки, такие как ProRes (сжатие с потерями), используют методы внутрикадрового сжатия. Что касается временной шкалы, интрафрейм не только быстрее, но и намного лучше при произвольном доступе, обеспечивая высочайшее качество с доступной дисковой системой хранения.

Битрейт

Как упоминалось ранее, битрейт связан с кодированием данных. Чем выше скорость передачи данных в битах в секунду, тем выше качество видео. Это также приводит к увеличению размера файла из-за того объема кодируемых данных. Давайте возьмем пример этого.

Битрейт прямо пропорционален размеру файла и качеству изображения. Чем выше битрейт, тем больше размер файла и выше качество изображения.

Если вы используете битрейт 1 Мбит/с (мегабит в секунду), предположим, что предполагаемый размер файла для вашего видео составляет 7 МБ дискового пространства. Теперь допустим, что мы увеличиваем битрейт до 8 Мбит/с, тогда размер файла увеличивается в 40 раз до 40 МБ дискового пространства. Предполагая, что у нас есть разрешение 1920 x 1080 или 1080p, видео, которое было обработано с более высокой скоростью передачи данных, будет выглядеть намного лучше рядом друг с другом. Вот почему даже если у вас есть разные устройства, которые снимают с одинаковым разрешением, они могут давать разные результаты из-за скорости передачи данных. Устройство, которое использует более высокую скорость передачи данных, часто имеет лучшее качество (используя только разрешение, а не другие факторы).

Хотя существует скорость передачи данных для кодирования данных в хранилище, существует также скорость передачи данных для потоковой передачи данных по сети. Для потокового контента средний битрейт видео составляет 2,5 Мбит/с для разрешения HD (720p) и от 5 до 8 Мбит/с для разрешения Full HD (1080p). Для контента с более высоким разрешением в формате 4K (UHD) потребуется 20 Мбит/с (согласно рекомендации Google). Размер не так важен, как битрейт в сети. Более высокая скорость передачи данных обеспечивает лучшее качество контента HD и UHD, поскольку в секунду обрабатывается больше данных.

Существует два типа скорости передачи данных, которые необходимо знать при кодировании файла.

  • Постоянная скорость передачи данных (CBR) — используется постоянная скорость передачи данных при экспорте конечного видеоконтента. Вы просто указываете в своем программном обеспечении для редактирования битрейт, который нужно использовать, и КОДЕК выполнит необходимое количество сжатия.
  • Переменная скорость передачи данных (VBR) — использует различные скорости передачи данных при выводе содержимого. Это более эффективно, потому что кодек применяет сжатие на основе содержимого, выводимого в сегменте времени. Если, например, сжатие не требуется, скорость передачи битов изменяется в соответствии с выходным сигналом. Он выделяет меньше места для сегментов, которые не требуют кодирования данных (например, пустой фон в кадре). Затем вычисляются переменные скорости передачи данных, чтобы получить среднюю скорость передачи данных.

Между типами битрейта VBR может быть намного лучше для экономии места на диске по сравнению с CBR, поскольку он не всегда использует целевую битрейт при выводе файла. Однако с точки зрения потокового контента CBR может быть более полезным, поскольку он может последовательно использовать целевую скорость передачи данных. CBR использует доступную емкость при ограниченной пропускной способности сети. С VBR для потоковой передачи обычно используются более высокие скорости передачи данных при обработке сложных сегментов, что может быть проблемой для пропускной способности в сетях с меньшей пропускной способностью.

Расчет размера файла дает представление о требованиях к объему памяти. Мы можем сделать это вручную, используя общую формулу, которая имеет три основных параметра:

  • Размер файла — измеряется в байтах (B) (1 байт = 8 бит)
  • Битрейт — измеряется в байтах в секунду (бит/с) (8 бит/сек = 1 байт/сек)
  • Общее время (длительность времени) — измеряется в минутах (мин) из секунд (сек)

Допустим, у нас есть 3 часа (180 минут) отснятого материала, который нам необходимо обработать. Предположим, мы собираемся экспортировать контент со скоростью 45 Мбит/с. Сначала нам нужно преобразовать Мбит/с в МБ/с (мегабит/сек в мегабайт/сек), из битов в байты. Для этого мы должны разделить 45 Мбит/с на 8 бит.

  Мбит / с до Мбит / с   Мбит / с = (45 000 000 бит / с) / (8 бит / 1 байт)   Мбит / с = 5 625 000 байт / с / (1 000 000 байтов / 1 МБ)   Мбит / с = 5,625 МБ / с 9 000444449 

Мбит / с = 5,625 МБ / с. битрейт составляет 5,625 МБ/с (обратите внимание на заглавную букву B в МБ/с). Далее мы переводим секунды в минуты.

  Секунды в Минуты   МБ/мин = (5,525 МБ/сек) / (1 мин/60 сек)   МБ/мин = 331,5 МБ/мин  

общее время наших кадров.

  Общее время = 180 мин 
Битрейт = 331,5 МБ/мин
Память = 331,5 МБ/мин * 180 мин Память = 59 670 МБ Именно столько дискового пространства необходимо использовать для 180 минут видеоматериала с битрейтом 45 Мбит/с.

Когда вы знаете примерный размер файла, который будет создан на основе съемки, вы можете планировать емкость. Если предполагаемый размер файла составляет 5,9 ГБ, то объем устройства хранения должен быть не менее 8 ГБ. Дополнительное хранилище — это некоторый запас на случай, если потребуется снять больше кадров.

Окончательные результаты

Независимо от того, какой метод вы используете, размер файла может быть очень большим. Программное обеспечение для нелинейного редактирования (например, Adobe Premier, Final Cut Pro, DaVinci Resolve) предназначено для работы с исходным файлом без изменения фактического содержимого. Вместо этого редактор может использовать сжатую копию исходного файла и создавать его версии с именами прокси . Вы визуализируете это, когда создаете окончательный результат для медиа. Это также называется неразрушающим редактированием.

Причина, по которой вы применяете КОДЕК к конечному контенту, заключается в повышении скорости потоковой передачи. Несжатое видео не только потребляет пропускную способность, но и может стоить больше за поток данных для пользователей с мобильным или интернет-планом (ограниченная загрузка данных). Пропускная способность также ограничена, и существующие сети не могут поддерживать такую ​​высокую пропускную способность несжатых форматов. Это также может быть очень дорого, если размер несжатого файла исчисляется терабайтами. Вот почему методы сжатия используются для уменьшения размера файла без потери качества.

Мы используем поставляемый кодек для окончательной обработки содержимого. Это гарантирует плавное воспроизведение контента и правильное отображение кадров. Готовый кодек экспортируется в конечный контент. Разрешение и частота кадров — это настройки, основанные на технических характеристиках вашей камеры, и их нельзя изменить, чтобы улучшить качество. Если камера снимала видео в формате 1080p, то это лучшее качество. Можно апскейлить выше, но лучше не будет.

Если контент будет загружаться на такие платформы, как Vimeo или YouTube, лучше всего сжимать его с максимально возможной скоростью передачи данных. Это связано с тем, что платформы потокового видео будут еще больше сжимать ваш контент, что может привести к потере качества. Чтобы сохранить как можно больше качества, которое у вас осталось, используйте более высокий битрейт при экспорте.

Вы можете просмотреть информацию о кодеке YouTube для видео, щелкнув правой кнопкой мыши внутри окна видео и выбрав «Статистика для ботаников». Для этого видео использовался кодек AV1. AV1 — это формат кодирования видео с открытым исходным кодом.

После готовности его можно развернуть с помощью транскодера , который преобразует контент в формат, который можно просматривать на определенных устройствах (например, смартфоне, планшете, ноутбуке, настольном компьютере). Контент должен быть сначала отправлен в CDN (сеть доставки контента) , где он будет храниться, а затем его можно будет перекодировать и передать на устройство пользователя. Распространенным форматом, универсальным для многих устройств, является MP4, поддерживаемый Apple Quicktime, VLC и Windows Media Player. На потоковых платформах, таких как YouTube, обычно используется кодек VP9.и H.264 (в некоторых видео) с использованием динамической адаптивной потоковой передачи через HTTP.

Поиск информации о кодеке в файле

Если вы хотите узнать больше об информации о кодеке, используемой в файле, вы можете использовать программное обеспечение для воспроизведения видео, такое как VLC. Откройте файл в VLC и перейдите в меню Window -> Media Information .

Затем вы увидите следующее всплывающее окно Media Information .

Посмотрите на верхнюю часть или (Поток 0), которая предоставляет видеоинформацию (нижняя часть или Поток 1 предоставляет аудиоинформацию). В этом примере вы можете видеть, что используется кодек H.264.

Краткий обзор

При съемке высококачественного контента камеры начального уровня не идеальны для серийного производства. Обычно используются профессиональные цифровые зеркальные или HD-видеокамеры более высокого класса. Носителем данных в данном случае является не обычная SD-карта, а более быстрые карты типа CompactFlash. Они не только быстрые и надежные, но и способны поддерживать файлы большего размера.

Использование КОДЕКа поможет определить общее качество контента и требования к дисковому пространству. Битрейт является важным используемым индикатором. По битрейту мы можем определить размер экспортируемого файла. Содержимое более высокого качества будет иметь больший размер файла с наилучшим сжатием, применяемым кодеком. Контент меньшего размера, как правило, имеет большее сжатие, что снижает качество.

КОДЕК необходим для оптимизации хранения, повышения скорости потоковой передачи и кодирования деталей в битовой глубине (информации о цвете). Существуют различные типы кодеков, используемых в цифровом рабочем процессе, но все они выполняют основную функцию — сжатие и декодирование данных контента. Без кодека потоковая передача контента займет больше времени и, вероятно, не станет коммерчески жизнеспособной услугой.

Перекодирование отснятого материала в более высокую разрядность не улучшит качество

Я пишу эту статью, потому что вижу много дезинформации по этому поводу в Интернете, и это довольно фундаментальная концепция: Перекодирование отснятого материала с более высокой битовой глубиной не улучшит его качество.

Непонимание возникает из-за путаницы в отношении захвата и транскодирования. Захват с более высокой битовой глубиной почти всегда полезен для качества изображения. Если вы можете захватить с более высокой битовой глубиной, это здорово — дерзайте.

Но если вы просто перекодируете  из одного кодека в другой, то решение о кодировании в кодек с более высокой разрядностью (например, из 8-битного источника в 10-битный выход) не улучшит изображение при все. Наверное, это не повредит, но и не поможет.

Основы разрядности

Если вы смотрели мое видео по кодекам , то помните эту иллюстрацию: представьте, что вы хотите нарисовать красивый закат.

… но вы рисуете мелками, а у вас всего 10 разных цветов.

У заката будет тысяча прекрасных оттенков красного, оранжевого и желтого, но у вас есть только 1 красный, 1 оранжевый, 1 желтый и 1 фиолетовый мелки. Вы можете как бы нарисовать закат, но он не передаст тонких нюансов неба.

Если у вас есть большая коробка с 30 мелками, то у вас может быть 3 разных красных, 3 оранжевых, 3 желтых и 3 фиолетовых.

Теперь вы можете лучше сфотографировать различные оттенки заката и неба, хотя это все еще далеко от совершенства.

Если бы у вас была коробка с 1000 мелков, вы бы справились еще лучше. Если бы у вас было 2000 мелков, вы бы справились еще лучше. Вот как работает битовая глубина. Чем больше битовая глубина, тем больше у вас карандашей.  

8-бит дает вам около 16 миллионов мелков.
10-бит дает вам миллиард.
12-бит дает вам 68 миллиардов.
16-бит дает вам 281 трлн.

Много мелков.

Больше цветов вам не поможет

Хорошо, вернемся к транскодированию. Транскодирование похоже на копирование изображения с одного листа бумаги на другой. Если у вас есть одна картинка, нарисованная всего 10 мелками, и вы хотите скопировать ее 10 мелками, то все в порядке — вы можете скопировать все эти цвета. Вам не нужна большая коробка с 30 мелками.

Если вы действительно хотите скопировать рисунок с помощью набора из 30 мелков, то, конечно, нет проблем. Но эти дополнительные 20 мелков не сделают картину лучше, потому что вы не будете их использовать . Вот почему перекодирование в кодек с более высокой разрядностью не поможет вашему изображению. У вас есть больше цветов на выбор, но вы не будете использовать их, потому что исходное изображение их не использовало.

Итак, если вы перекодируете без изменения изображения, то вы ничего не выиграете от увеличения битрейта.

Когда вы

должны  экспортировать в более высокую разрядность

Если вы каким-либо образом изменяете изображение (с помощью цветокоррекции, LUT, VFX и т. д.), вам следует рассмотреть возможность экспорта в более высокую разрядность. Однако это отличается от «транскодирования», которое представляет собой процесс преобразования отснятого материала из одного формата в другой.

Вот несколько иллюстраций:

Цветокоррекция

Представьте, что у меня есть 10 мелков, и я рисую 3 квадрата красного, оранжевого и желтого цветов.

Я могу скопировать их на другой лист с помощью 10 мелков. Без проблем.

Но что, если я сделаю изображение немного темнее при цветовой коррекции?

Теперь у меня 3 новых цвета. Мой набор из 10 мелков недостаточно хорош, теперь . Если бы я попытался скопировать это изображение набором из 10 мелков, мне пришлось бы просто взять мои оригинальные красные, оранжевые и желтые мелки. Моя новая цветокоррекция будет полностью потеряна! Это упрощенный пример, но тот же принцип применяется, если вы переходите с 255 цветов на 1024 цвета.

Надеюсь, теперь вы понимаете, почему, если вы собираетесь выполнять коррекцию цвета, вам, вероятно, следует подумать об увеличении битовой глубины при экспорте из программного обеспечения для работы с цветом, особенно если ваш исходный материал 8-битный.

LUT

LUT по сути являются пресетами для коррекции цвета, поэтому к LUT применима та же логика.

Если вы применяете LUT во время транскодирования с прямым промежуточным рабочим процессом , то вы почти наверняка захотите экспортировать в кодек с высокой битовой глубиной. Если вы добавляете LUT во время перекодирования для автономного редактирования с рабочий процесс прокси , тогда 8-битный должен быть в порядке, потому что эти файлы являются просто временными файлами.

VFX

Вам также следует подумать об экспорте в формат с более высокой битовой глубиной после того, как вы выполнили любую работу с VFX или обработкой изображения.

Например, представьте себе все новые цвета, которые нам понадобятся, если я просто добавлю размытие к трем квадратам:


Мы перешли от 3 цветов к более чем 300 цветам, просто добавив размытие. Я не делал «коррекцию цвета» для своих квадратов, но мой эффект размытия породил целую кучу новых цветов.

Дизеринг

Еще один способ обработки отснятого материала при транскодировании — дизеринг. Обычно вы делаете это только при изменении битовой глубины, но если вы добавите дизеринг, вы можете как бы создать некоторую дополнительную информацию.

Концепция сглаживания сложна, и у меня больше времени, чем я могу объяснить здесь, но вы можете прочитать основное объяснение здесь .

Если вы считаете, что сглаживание поможет улучшить качество изображения, обратите внимание, что сглаживание во время транскодирования не даст вам никаких преимуществ по сравнению с его выполнением в процессе рендеринга, и, вероятно, будет проще сделать это тогда.

Разрядность кодирования: Аудио-кодирование: секреты раскрыты | Статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Пролистать наверх