Современный 3D-звук

Николай Богданов-Катьков (С.-Петербург)

 

Развитие систем объемного звука идет по пути создания акустической иллюзии. Тогдашние и большинство нынешних технологий основаны на более или менее удачном обмане физиологии человеческого слуха. Первые опыты заключались в стереозвучании: имитации объемного звука при помощи двух источников. В 30-е годы прошлого века компания «Электрола» разработала принцип двухканальной записи звука, который, однако, был востребован только через четверть века. В 1970-е годы появились квадрофония, псевдоквадрофония. Этого оказалось недостаточно. Появились звуковые системы 4+1, 6+1. Они обеспечивают весьма полноценное звучание в ТВ, компьютерных играх и т. п., однако выяснилось, что ни 4, ни 5 каналов не дают естественного звука… Пришлось разрабатывать более сложные системы: 5+1, 7+1 и т. п.

Венцом многомерной акустики явилась система 7+2: в нее входят два сабвуфера. Примерно 70% звуковой мощности идет через фронтальные динамики. Центральный динамик обычно нужен при просмотре фильма, тыловые используются для отдельных звуковых эффектов.

Однако меломаны все равно недовольны: по их мнению, старая (виниловая) пластинка дает полную иллюзию присутствия на концерте, а вот современные средства создают лишь «механический» звук. Да, несмотря на все технические новшества, «натуральный» звук все же получается не совсем естественным… В чем дело?

Видимо, в том, что человек очень чутко фиксирует направление на источник звука, громкость, эффекты, создаваемые отражением звука от препятствий. Старая поговорка «Бог дал два уха, один язык» (больше слушай, меньше говори) в связи с этим приобретает новый смысл: «обмануть» одно ухо было бы довольно просто, но «обмануть» два уха -задача чрезвычайно сложная. И все же многие компании-разработчики берутся за решение этой проблемы. Давайте посмотрим, что у них получается и скоро ли им удастся воссоздать акустическое пространство всемирно знаменитых концертных залов.

 

HRTF

 

Иногда считают, что для создания убедительного 3D-звучания достаточно двух звуковых каналов. Главное — это воссоздать давление звука на барабанные перепонки в левом и правом ушах так же, как если бы слушатель находился в реальной звуковой среде. Однако это не совсем верно: в реальном мире ухо человека получает не только те звуки, которые воздействуют непосредственно на барабанную перепонку (слева/справа), но и другие, передающиеся, в частности, через кости черепа. Вспомним, как оглохший в старости Бетховен слушал и писал музыку. Он приставлял деревянную трость одним концом к корпусу фортепияно, а другой конец держал в зубах…

Вспомним известный из геометрии факт: для задания пространства (не плоскости!) необходимо как минимум четыре точки, а не две и не три. Отсюда вытекает неизбежность применения многоканальной (не менее 4+1) акустики. Но и это далеко не все.

Чтобы придать звуковой модели реализм, разрабатываются технологии, обеспечивающие воспроизведение реверберации, отраженных звуков, окклюзии (звук, прошедший через препятствие), обструкции (звук не прошел через препятствие), дистанционное моделирование (вводится параметр удаленности источника звука от слушателя) и масса других интересных эффектов. Но главное при всем этом — позиционирование источников звука в виртуальном 3D-пространстве. Для этой цели используются HRTF-функции. Попробуем разобраться, что это такое.

Для определения звукового давления на барабанную перепонку необходимо знать силу, с которой действует на нее звуковая волна. Эту зависимость называют HRIR (Head Related Impulse Response), а ее интегральное преобразование — HRTF (Head Related Transfer Function).

HRTF — сложная функция с четырьмя переменными: три пространственных координаты и частота. При использовании сферических координат для определения расстояния до источников звука больших, чем один метр, считается, что источники звука находятся в дальнем поле (far field), и значение HRTF уменьшается обратно пропорционально расстоянию.

Если поместить в среду распространения звуковых волн человека, то звуковое поле вокруг него искажается за счет дифракции (различие скоростей распространения волн разной длины), отражения и дисперсии (рассредоточения) при контакте человека со звуковыми волнами. Тот же источник звука создает другое давление звука на барабанную перепонку. Для разного положения головы относительно источника звука задействуются HRTF-фильтры. Библиотека HRTF-фильтров создается в результате лабораторных измерений, производимых с использованием манекена или с помощью специального «цифрового уха», располагаемого на голове манекена. Измеряется составляющая HRIR, а значение HRTF получается путем вычислений. В ушах манекена располагаются микрофоны, звуки воспроизводятся через акустические колонки, расположенные вокруг манекена.

Измерения HRTF производится в дальнем поле, что упрощает HRTF до функции азимута, высоты и частоты (уходит четвертая переменная). При записи используются измеренные значения, и в результате при проигрывании звук (например, оркестра) воспроизводится с таким же пространственным расположением, как при естественном прослушивании.

Эффективность HRTF зависит от частоты звука; только звуки с частотой в пределах от 3 до 10 кГц могут успешно интерпретироваться с помощью функций HRTF. Определение местоположения источников звука с частотой ниже 1 кГц основывается на определении времени задержки — прибытия разных по фазе сигналов, что позволяет определить общее расположение слева/справа источников звука и не помогает пространственному восприятию звучания. Восприятие звука с частотой выше 10 кГц почти полностью зависит от индивидуальных характеристик органа слуха; далеко не каждый слушатель может различать звуки с такой частотой.

Низкочастотные (менее 200 Гц) звуки очень хорошо огибают препятствия, поэтому пространственное расположение источника звука человек не воспринимает; сабвуфер можно располагать где угодно. Определить местоположение источников звука с частотами 200-3000 Гц также нелегко.

Поэтому надо использовать частоту дискретизации вдвое большую значения частоты звука, то есть как минимум 22050 Гц при 16 бит на один отсчет. Дискретизация 8 бит не обеспечивает достаточной разницы амплитуд (всего 256 вместо 65536), а частота 11025 Гц не дает приемлемой частотной характеристики. Значит, для эффективного применения HRTF необходимо использовать частоту 22050 Гц при 16-битной дискретизации.

Техника HRTF широко используется уже более 20 лет. Лучшие результаты получаются при прослушивании записей в наушниках. Тем не менее, использование наушников имеет и недостатки.

При прослушивании в наушниках создается ощущение, что источник звука находится очень близко. Действительно, физический источник звука находится очень близко к уху (3-4 см от барабанной перепонки), поэтому необходимая компенсация для избавления от акустических сигналов, влияющих на определение местоположения физических источников звука, зависит от характеристик наушников.

 

Кроме того, наушники могут иметь провалы и пики в своих частотных характеристиках, которые должны соответствовать характеристикам ушной раковины. Если такого соответствия нет, то восприятие звука, источник которого находится в вертикальной плоскости, может быть ухудшено. Слышится преимущественно звук, источники которого находятся в горизонтальной плоскости.

Значения HRTF можно получить не только с помощью установленных в ушах манекена специальных внутриканальных микрофонов (inter-canal microphones). Используется еще и так называемая искусственная ушная раковина. В этом случае прослушивать записи нужно в специальных внутриканальных наушниках, размещаемых в ушном канале, так как искусственная ушная раковина уже перевела всю информацию о позиционировании в волновую форму.

Использование акустических колонок позволяет обойти большинство проблем. Здесь недостаток в том, что нельзя использовать колонки для воспроизведения звука, предназначенного для прослушивания в наушниках, когда сигнал разделен для правого и левого уха. Как только мы подключим вместо наушников колонки, наше правое ухо начнет слышать не только звук, предназначенный для него, но и часть звука, предназначенную для левого уха.

Область, внутри которой слушатель будет воспринимать все эффекты, которые он способен слышать от рождения, называют Sweet Spot. Соответственно, лучший результат будет получен, если голова слушателя расположена в таком же положении, как и голова манекена при записи (и на той же высоте). Во всех остальных случаях будут возникать искажения звука.

 

MultiDrive

 

Инженеры компании Sensaura взялись за решение проблемы восприятия звучания от источников звука, которые перемещаются по бокам от слушателя и по оси фронт-тыл. Суть метода, который разработан Sensaura и называется MultiDrive, заключается в использовании HRTF-функций на передней и на тыловой паре колонок (и больше) с применением алгоритмов CC (Сrosstalk сancellation). Sensaura называет эти алгоритмы Transaural Cross-talk cancellation (TCC), заявляя, что они обеспечивают лучшие низкочастотные характеристики звука. Для вычисления HRTF-функций используется так называемое цифровое ухо (Digital Ear), что обеспечивает точное кодирование звука (в библиотеке компании уже хранится более 1100 функций). При этом используется один из популярных ныне интерфейсов DirectSound3D (DS3D) от Microsoft.

MultiDrive подразумевает воспроизведение звука с использованием HRTF-функций через четыре или более колонок. Каждая пара колонок создает фронтальную и тыловую полусферу. Эти звуковые поля специальным образом смещены с целью взаимного дополнения. В каждом звуковом поле применяется свой алгоритм CC. В результате вокруг слушателя происходит плавное воспроизведение звука от динамично перемещающихся источников. Поскольку воспроизводимые звуковые поля основаны на применении HRTF-функций, в каждом из создаваемых sweet spot хорошо воспринимается звучание от источников по сторонам от слушателя и даже от движущихся источников по оси фронт-стороны-тыл. Благодаря большому углу перекрытия результирующее «сладкое место» покрывает гораздо большую площадь, чем в случае четырехколоночной системы воспроизведения.

Аналогичный подход для варианта на четырех колонках реализовала компания Creative, назвав его «технология CMSS» (Creative Multispeaker Surround Sound). По сути это близнец MultiDrive, хотя на уровне алгоритмов CC и библиотек HRTF есть различия. Главный недостаток CMSS тот же, что и у MultiDrive — необходимость расположения тыловых колонок в строго определенном месте, а точнее — параллельно фронтальным колонкам.

 

MacroFX

 

Если источники звука располагаются на расстоянии до 1 метра от слушателя, то есть в «ближнем поле» (near field), функция HRTF становится неэффективна. На этот случай и создана технология MacroFX. Благодаря алгоритмам MacroFX звуковые эффекты воспроизводятся в near-field, и создается ощущение, что источник звука расположен очень близко к слушателю — так, будто он перемещается от колонок вплотную к голове слушателя. В результате становятся доступными такие эффекты, как писк комара рядом с ухом или свист пуль прямо над головой.

Здесь при моделировании важны оптимизация уровней громкости и точный расчет задержек по времени при восприятии звуковых волн от одного источника звука (ITD, Interaural Time Delay). Например, если источник звука находится на оси фронт-тыл, то разница по времени при достижении звуковой волны обоих ушей будет минимальна, а если источник звука смещен вправо, она будет существенной.

Этот алгоритм интегрирован в движок Sensaura и управляется DS3D, то есть является прозрачным для разработчиков приложений, которые могут создавать массу новых эффектов. Поддержка MacroFX включена в драйверы для карт с технологией Sensaura.

 

ZoomFX

 

Синтезированные с помощью HRTF-функций виртуальные источники звука являются точечными, тогда как в реальной жизни звук зачастую исходит от больших по размеру или от композитных источников, состоящих из нескольких индивидуальных источников звука. Так, точечный источник применим при моделировании звука от объекта, удаленного на большое расстояние (например, движущийся поезд). Но как только поезд приближается к слушателю, он перестает быть точечным источником.

Эту проблему решает технология ZoomFX — она обеспечивает представление о большом объекте как комплексе из нескольких источников звука (шума колес, шум двигателя, шум сцепок вагонов и т. д.).

 

Losono

 

Итак, если все акустические системы расставить по комнате, то человек, сидящий в ее середине, почувствует всю прелесть объемного звука. Но… представим себе зрительный зал на несколько десятков или сотен человек. Тем, кто сидит посередине, достается все богатство звука, а те, кто расположился вдоль стен, уже не смогут в полной мере воспринимать объемное звучание. Еще хуже тем, кто сидит спереди, перед фронтальным динамиком, или сзади, около тыловых динамиков. Кроме того, и слушатели, и все акустические системы расположены в одной плоскости. Значит, звук, идущий сверху или снизу смоделировать не удастся, то есть объемный звук на самом деле не такой уж и объемный.

Однако недавно в Германии была разработана звуковая система, позволяющая обеспечить высококачественное трехмерное звучание для всех, кто находится в помещении. Создана она группой ученых из Института медиа-технологий имени Фраунгофера в г. Дармштадт под руководством директора института Карлхайнца Бранденбурга. Для справки: Институт им. Фраунгофера был основан изначально как чисто научное учреждение. С конца 1970-х годов он занимается коммерческими разработками, самая известная — звуковой формат МР3.

В новой 3D-аудиосистеме используется принцип, получивший название синтеза волновых длин. Он позволяет обеспечить восприятие сложных аудиоэффектов для всех, кто находится в пределах определенного пространства. Сначала с помощью компьютеров моделируется процесс интерференции звуковых волн друг с другом в данном помещении. Затем с помощью небольших, но многочисленных динамиков (до 400 штук!), расположенных по периметру, создается требуемое волновое поле.

 

Технология Losono позволяет создать у слушателей иллюзию того, что звук направлен каждому из них прямо в лицо. При этом размер зала практически не ограничен. За счет расположения динамиков на разной высоте и отражения от стен, пола и потолка слушатели получают картину именно трехмерного звучания — истинный 3D-звук.

Само собой, новинка предназначена не для домашнего кинотеатра. Предполагаемая сфера ее применения — кинотеатры высшего класса, концертные залы. Но даже и здесь новое изобретение не скоро найдет применение, поскольку для каждого отдельного зала надо строить и рассчитывать математическую модель, определять оптимальное расположение, требуемую мощность и количество динамиков. Это процесс сложный, долгий и, по всей вероятности, очень дорогой.

Так или иначе, техническое решение предложено, дело лишь в практической реализации.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>