RU2505941C2 - Формирование бинауральных сигналов - Google Patents

Формирование бинауральных сигналов Download PDF

Info

Publication number
RU2505941C2
RU2505941C2 RU2011105972/08A RU2011105972A RU2505941C2 RU 2505941 C2 RU2505941 C2 RU 2505941C2 RU 2011105972/08 A RU2011105972/08 A RU 2011105972/08A RU 2011105972 A RU2011105972 A RU 2011105972A RU 2505941 C2 RU2505941 C2 RU 2505941C2
Authority
RU
Russia
Prior art keywords
channels
channel
signal
mono
stereo
Prior art date
Application number
RU2011105972/08A
Other languages
English (en)
Other versions
RU2011105972A (ru
Inventor
Харальд МУНДТ
Бернхард НЕУГЕБАУЕР
Йоханнес ХИЛПЕРТ
Андреас СИЛЦЛЕ
Ян ПЛОГШТИЕС
Original Assignee
Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф.
Publication of RU2011105972A publication Critical patent/RU2011105972A/ru
Application granted granted Critical
Publication of RU2505941C2 publication Critical patent/RU2505941C2/ru

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

Описывается устройство, генерирующее на базе многоканального сигнала, представляющего совокупность множества каналов, бинауральный сигнал, предназначенный для воспроизведения через систему динамиков, при этом положение каждого виртуального источника звука соотнесено с индивидуальным каналом. Устройство включает в себя минимизатор корреляции, дифференцированно преобразующий и за счет этого ослабляющий корреляцию между, по меньшей мере, одним левым и правым, одним передним и задним и одним центральным и нецентральным каналом из множества каналов с целью формирования комбинации каналов с минимизированным взаимным подобием; множество направленных фильтров; первый микшер, смешивающий выходные сигналы направленных фильтров, моделирующий передачу звука к первому ушному каналу слушателя, и второй микшер, смешивающий выходные сигналы направленных фильтров, моделирующий передачу звука ко второму ушному каналу слушателя. Также представлен подход, при котором уровень центрального канала снижают для формирования сигнала понижающего микширования, поступающего далее в процессор построения акустического пространства. Другой подход заключается в формировании набора передаточных функций с минимизированным взаимным подобием, моделирующих слуховой тракт человека.21 и 12 з.п. ф-лы, 13 ил.

Description

Предлагаемое изобретение относится к генерации составляющих бинаурального сигнала, имитирующих эффекты отражения и/или реверберации в помещении, к генерации собственно бинаурального сигнала и к формированию набора функций моделирования восприятия звука с минимизацией взаимного подобия.
Слуховая система человека способна определять направление или множество направлений источников воспринимаемых звуков. С помощью слуха человек оценивает различия между звуком, улавливаемым правым ухом, и звуком, улавливаемым левым ухом. Полученная информация содержит, например, так называемые интерауральные ориентиры, отражающие межушные различительные признаки звуковых сигналов. Интерауральные ориентиры являются наиболее важным средством пространственной локализации. Разность уровней давления между ушами, а именно, интерауральное различие по интенсивности (ILD) является наиболее важной обособленной опорной информацией для пространственной локализации. Когда звук достигает слушателя в горизонтальной плоскости с ненулевым азимутом, в каждом ухе он имеет разный уровень громкости. Затененное ухо получает естественно приглушенное акустическое отображение по сравнению с незатененным ухом. Другим очень важным свойством, относящимся к объектно-пространственному позиционированию, является интерауральное временное [фазовое] различие (ITD). Затененное ухо расположено дальше от источника звука, и, следовательно, звуковой фронт волны достигает его позже, чем незатененное ухо. Значение ITD возрастает при низких частотах, которые не затухают при достижении затененного уха сильнее, чем при достижении незатененного уха. Роль ITD снижается на верхних частотах, где длина звуковой волны приближается к расстоянию между ушами. Другими словами, объектно-пространственная локализация осуществляется за счет различных видов взаимодействия звука, перемещающегося от источника к левому и правому уху, соответственно, с головой, ушами и плечами слушателя.
Проблемы возникают, когда стереосигнал предназначается для воспроизведения через громкоговорящую акустическую систему или головные телефоны. Весьма вероятно, что слушатель, ощущая источник звука у себя в голове, воспримет звук как неестественный, неудобоваримый и раздражающий. Этот феномен часто встречается в литературе как локализация «в голове». Длительное прослушивание звука «в голове» может привести к слуховому утомлению. Так происходит в силу того, что опорная аудиоинформация для позиционирования слушателем источников звука, иначе говоря - интерауральные ориентиры, отсутствует или размыта.
Для воспроизведения через головные телефоны стереосигналов или даже многоканальных сигналов, содержащих больше двух каналов, необходимо смоделировать указанные взаимодействия путем направленной фильтрации. В частности, сгенерировать из декодированного многоканального сигнала выходной сигнал для наушников можно, пропуская каждый сигнала после декодирования через пару направленных фильтров. Такие фильтры обычно служат для моделирования звукопередачи от виртуального акустического источника в помещении к слуховому каналу слушателя, то есть - для осуществления так называемой бинауральной передаточной функции окружающего пространства (функция BRTF). Функция BRTF отображает временные, уровневые и спектральные изменения и моделирует эффекты отражения и реверберации в пространственном объеме. Направленные фильтры могут работать как во временной, так и в частотной области.
При этом количество требуемых фильтров должно быть большим, а именно - Nx2, где N - число декодируемых каналов, поэтому направленные фильтры достаточно протяженны, например, 20000 подполос фильтра при 44,1 кГц, а процесс фильтрации вычислительно трудоемок. Вследствие этого направленные фильтры иногда предельно минимизируются. Так называемые передаточные функции слухового тракта (головы) слушателя (HRTF) содержат данные направленности, включая интерауральные ориентиры. Обычный блок преобразования применяют для имитации отражения и реверберации в окружающем объеме. Модуль пространственного построения может представлять собой алгоритм моделирования эффекта эхо во временной или частотной области путем преобразования одно- или двухканального входного сигнала, сформированного из многоканального входного сигнала суммированием каналов многоканального входного сигнала. Такое устройство описано, в частности, в WO 99/14983 А1. Как уже сказано, модуль построения акустического объема создает эффекты отражения и/или реверберации в помещении. Эффекты отражения звука и реверберации в ограниченном пространстве играют существенное значение для локализации звуков, особенно для экстернализации и создания ощущения удаленности источника во вне, то есть - для восприятия его вне головы слушателя. В указанной выше публикации предложена также реализация направленных фильтров в виде фильтров КИХ (с конечной импульсной характеристикой), преобразующих разные каналы с различной задержкой и моделирующих таким образом путь прохождения звука от источника к тому или другому уху с соответствующим вторичным отражением. Кроме того, в ряду средств достижения более привлекательного звучания при прослушивании через парные наушники в названной публикации предлагается вводить задержку смешанных центрального и фронтального левого каналов, а также центрального и фронтального правого каналов относительно суммы и разности тыльного левого и тыльного правого каналов, соответственно.
Тем не менее, полученные фонограммы по-прежнему имеют в значительной степени ограниченную пространственную протяженность бинаурального выходного сигнал и недостаточную экстернализацию.
Более того, стало очевидно, что, несмотря на указанные принятые меры по рендерингу многоканальных сигналов для головных телефонов, речевые диалоги в кинофильмах и музыкальные фрагменты при прослушивании часто воспринимаются с неестественной реверберацией и спектральными искажениями.
В связи с этим данное изобретение преследует цель предоставить алгоритм генерации бинаурального сигнала, обеспечивающий устойчивое и естественное звучание фонограммы в наушниках.
Поставленная цель достигается с помощью устройств, отвечающих любому из пунктов 1, 3, 4 и 7 формулы изобретения, и за счет применения способов согласно любому из пунктов 16-19.
Первая идея, которая легла в основу предлагаемого приложения, заключается в том, что более устойчивый и естественно воспринимаемый бинауральный сигнал для воспроизведения через наушники может быть получен путем раздельного преобразования и - благодаря этому - уменьшения взаимного подобия хотя бы одной из пар множества входных каналов: левого и правого, фронтального и тылового или центрального и нецентрального, формируя посредством этого набор каналов с уменьшенным взаимным подобием. Затем эта комбинация каналов с ограниченным взаимным сходством передается на множество направленных фильтров, после чего поступает на соответствующие смесители для левого и правого уха. Снижая степень обоюдного сходства каналов многоканального входного сигнала, можно расширить пространственный охват бинаурального выходного сигнала и улучшить экстернализацию.
Другая идея, лежащая в основе предлагаемого приложения, состоит в том, что более устойчивого и удобоваримого бинаурального сигнала для воспроизведения через наушники можно добиться - при спектральном подходе к изменениям - путем раздельного амплитудного и/или фазового преобразования хотя бы двух из множества каналов с формированием таким образом набора каналов с минимизированным взаимным подобием, который, в свою очередь, может быть передан на множество направленных фильтров с последующей обработкой соответствующими микшерами для левого и правого уха. Опять же, за счет уменьшения взаимоподобия каналов многоканального входного сигнала может быть расширен пространственный охват бинаурального выходного сигнала и улучшена экстернализация.
Выигрыш в вышеназванных показателях может быть достигнут также путем формирования набора передаточных функций, моделирующих голову слушателя [HRTF], с ограниченным обоюдным подобием за счет задержки импульсных характеристик исходного множества передаточных функций моделирования головы слушателя относительно друг друга, или - в спектральной области - фазовых и/или амплитудных характеристик исходного множества функций моделирования органов слуха раздельно относительно друг друга. Такое формирование может осуществляться как автономно, при проектировании системы, так и интерактивно, в ходе генерации бинаурального сигнала, путем применения перцептуально смоделированных передаточных функций в качестве направленных фильтров, предположим, реагирующих на заданные индикаторы пространственного положения виртуального аудиоисточника.
Еще одна идея, лежащая в основе данного приложения, заключается в том, что некоторые кино- и музыкальные фрагменты будут звучать в наушниках более естественно, если моно- или стереофоническое понижающее микширование (моно- или стереодаунмикс) каналов многоканального сигнала, подлежащего обработке процессором пространственного построения с целью моделирования акустических эффектов отражения/реверберации как составляющей бинаурального сигнала, будет выполняться таким образом, что множество каналов будет дополнять сигнал понижающего моно- или стереомикширования с разным уровнем интенсивности, как минимум, двух каналов многоканального сигнала. В частности, изобретатели выявили, что, как правило, кинодиалоги и музыку микшируют, главным образом, с центральным каналом многоканального сигнала, и что сигнал центрального канала, пройдя обработку в модуле построения акустического пространства, на выходе часто воспроизводится с неестественной реверберацией и искажениями спектра. Изобретатели, однако, выявили, что эти недостатки могут быть устранены путем подачи среднего канала на модуль пространственного построения с одновременным снижением интенсивности, предположим, на 3-12 дБ, или, в частности, на 6 дБ.
Далее более подробно представлены предпочтительные конструктивные решения на основе фигур, где: на фиг.1 дана принципиальная модульная схема реализации устройства для генерации бинаурального сигнала согласно изобретению; на фиг.2 дана принципиальная модульная схема варианта осуществления устройства для формирования набора функций моделирования восприятия звука с минимизацией взаимного подобия согласно изобретению; на фиг.3 дана принципиальная модульная схема устройства для имитации в генерируемом бинауральном сигнале акустических эффектов отражения и/или реверберации согласно изобретению; на фиг.4А и 4В даны принципиальные модульные схемы аппаратных версий процессора построения акустического объема, показанного на фиг.3; на фиг.5 дана принципиальная модульная схема варианта исполнения понижающего микшера, показанного на фиг.3; на фиг.6 графически представлен процесс пространственного аудиокодирования многоканального сигнала согласно изобретению; на фиг.7 показана принципиальная схема генератора бинаурального выходного сигнала согласно изобретению; на фиг.8 дан вариант принципиальной схемы генератора бинаурального выходного сигнала согласно изобретению; на фиг.9 дан еще один вариант принципиальной схемы генератора бинаурального выходного сигнала согласно изобретению; на фиг.10 дан вариант принципиальной схемы генератора бинаурального выходного сигнала согласно изобретению; на фиг.11 дан вариант принципиальной схемы генератора бинаурального выходного сигнала согласно изобретению; на фиг.12 дана принципиальная схема бинаурального пространственного аудиодекодера, показанного на фиг.11; и на фиг.13 дана принципиальная схема видоизмененной конструкции пространственного аудиодекодера, показанного на фиг.11.
На фиг.1 отображено устройство для генерации бинаурального сигнала, предназначенное, например, для воспроизведения фонограмм через головные телефоны на основе многоканального сигнала, представляющего множество каналов, причем расположение каждого виртуального аудиоисточника в конфигурации динамиков соответствует каждому отдельному каналу. Устройство, представленное под общим номером 10, имеет в своем составе блок минимизации подобия 12, гребенку 14 направленных фильтров 14a-14h, первый смеситель 16а и второй смеситель 16b.
Минимизатор подобия 12 предназначен для преобразования многоканального сигнала 18, представляющего множество каналов 18a-18d, в группу 20 каналов 20a-20d с минимизированным обоюдным сходством. Количество каналов 18a-18d, представленных многоканальным сигналом 18, может быть от двух и больше. Исключительно в целях наглядности на фиг.1 выделено четыре канала 18a-18d. Набор каналов 18 может быть скомбинирован, к примеру, из центрального канала, фронтального левого канала, фронтального правого канала, тыльного левого канала и тыльного правого канала. Допустим, звукорежиссер (саунд-дизайнер) смикшировал каналы 18a-18d из множества отдельных аудиосигналов, отображающих, например, различные инструменты, фрагменты вокала или другие индивидуальные источники звука, предполагая воспроизводить каналы 18a-18d через систему громкоговорителей (на фиг.1 не показано), где каждый динамик размещен в позиции, предварительно заданной для каждого виртуального источника звука, связанного с отдельным каналом 18a-18d.
В соответствии с вариантом реализации на фиг.1 каналы 18a-18d включают в себя хотя бы одну пару левого и правого каналов, одну пару фронтального и тыльного каналов или пару центрального и нецентрального каналов. Разумеется, в комбинацию 18 каналов 18a-18d может входить больше, чем одна из вышеупомянутых пар. Минимизатор подобия 12 индивидуально обрабатывает каждый канал из множества каналов, снижая таким образом степень сходства между ними и получая в результате комбинацию 20 каналов 20a-20d с минимизированным взаимоподобием. Итак, с одной стороны, степень подобия, по меньшей мере, одного левого и одного правого канала из множества 18 каналов, одного переднего и одного заднего канала из множества 18 каналов и одного центрального и одного нецентрального канала из множества 18 каналов может быть снижена блоком минимизации подобия 12 с образованием группы 20 каналов 20a-20d с минимизированным взаимным подобием. С другой стороны, минимизатор подобия (12) может - дополнительно или отдельно, в спектральной области - выполнить раздельное фазовое и/или амплитудное преобразование, по меньшей мере, двух из множества каналов с образованием комбинации каналов 20 с минимизированным взаимным подобием.
Как будет более подробно изложено ниже, минимизатор подобия 12 может выполнять раздельное преобразование, в частности, путем задержки соответствующих пар относительно друг друга, или за счет задержки соответствующих пар каналов на разную величину, например, в каждой из множества частотных полос, достигая посредством этого снижения интеркорреляции в группе каналов 20. Безусловно, имеются и другие возможности снижения степени тесноты корреляции между каналами. Иными словами, минимизатор корреляции 12 может иметь передаточную функцию, в соответствии с которой спектральное распределение энергии каждого канала остается постоянным, то есть, минимизатор подобия 12, сохраняя значение амплитуды передаточной функции на уровне единицы по всему соответствующему диапазону аудиоспектра, варьирует фазовые или частотные характеристики подполос. Например, блок минимизации корреляции 12 может предусматривать такое изменение фазы всех или одного или нескольких каналов 18, при котором сигнал первого канала в заданной полосе частот проходил бы с запозданием относительно другого канала, по меньшей мере, на один отсчет. Более того, блок снижения уровня корреляции 12 может быть рассчитан так, чтобы при изменении фазовой характеристики время групповых задержек по первому каналу относительно другого канала для всего множества частотных полос имело стандартное отклонение, по меньшей мере, на одну восьмую отсчета. Рассматриваемые частотные диапазоны могут представлять собой полосы барков или их более мелкое членение, или же любой другой вид разбиения частотного диапазона.
Ослабление корреляции - не единственный способ предотвращения эффекта «локализации в голове», возникающего в акустическом анализаторе человека. Корреляция, скорее, является одним из критериев, по которым слуховая система человека анализирует сходство составляющих звукового сигнала, поступающих в оба уха, и определяет направление поступающего звука. Кроме того, минимизатор подобия 12 может выполнять дифференцированное преобразование, разделяя соответствующие пары каналов путем снижения интенсивности на разную величину, например, по каждой из множества частотных полос, формируя таким образом комбинацию каналов 20 с минимизированным подобием, упорядоченных по спектру. Скомпонованный фрагмент в спектральной области может содержать, например, избыточную минимизацию, предположим, звукового сигнала заднего канала относительно звучания переднего канала вследствие затенения мочкой уха. Соответственно, блок минимизации подобия 12 предусматривает возможность регулирования в трансформанте степени минимизации тыловых каналов с учетом других каналов. Для формирования подобного спектрального представления минимизатор подобия 12 может, сохраняя постоянные фазовые характеристики, раздельно варьировать по всему соответствующему спектральному диапазону звукового сигнала амплитудные или частотные характеристики поддиапазонов.
В принципе, способ представления множества каналов 18a-18d многоканальным сигналом 18 не имеет какие-либо специфические ограничения. В частности, многоканальный сигнал 18 может представлять совокупность каналов 18a-18d в сжатом виде с использованием пространственного аудиокодирования. Для выполнения пространственного аудиокодирования совокупность каналов 18a-18d может быть представлена сигналом, полученным понижающим микшированием этих каналов, содержащим данные понижающего микширования (даунмикса), где указан коэффициент смешения каждого из каналов 18a-18d, примененный для формирования одного или нескольких уплотненных каналов, и где заданы пространственные параметры многоканального сигнала, описывающие геометрию звуковой среды посредством, например, перепадов уровня/интенсивности, сдвигов фаз, запаздывания по времени и/или изменения степени корреляции/когерентности между каналами 18a-18d. Выходной сигнал минимизатора корреляции 12 делится на каналы 20a-20d. По разделенным каналам на выход могут подаваться как временные сигналы, так и спектрограммы подполосовой декомпозиции.
Направленные фильтры 14a-14h предназначены для моделирования передачи звука от позиционируемого одним из каналов 20a-20d виртуального источника к ушному каналу слушателя. Предположим, на фиг.1 направленные фильтры 14a-14d моделируют звукопередачу на левый слуховой канал, а направленные фильтры 14e-14h моделируют звукопередачу на правый слуховой канал. Направленные фильтры имитируют передачу акустических волн от размещенных в виртуальной акустической среде источников звука к слуховому каналу слушателя за счет варьирования показателей времени, интенсивности и спектра, а также дополнительного моделирования эффектов отражения и реверберации. Направленные фильтры могут быть приложены во временной и в частотной области. Это означает, что направленные фильтры могут действовать как во временной области, например, фильтры КИХ, так и в частотной области - путем умножения определенных дискретных значений амплитудных и фазовых передаточных характеристик на соответствующие спектральные величины каналов 20a-20d. В частности, с помощью направленных фильтров 14a-14h можно смоделировать передаточную функцию слухового тракта человека с описанием направленного воздействия на голову, уши и плечи человека сигналов, проходящих по каналам 20a-20d, имитирующих взаиморасположение виртуальных источников звука. Первый микшер 16а комбинирует выходы направленных фильтров 14a-14d, моделируя звукопередачу на левый ушной канал слушателя в сигнале 22а, который может быть составляющей или полным левым каналом выходного бинаурального сигнала, при этом второй микшер 16b совмещает выходные сигналы направленных фильтров 14e-14h, моделируя передачу звука на правый ушной канал слушателя в сигнале 22b, который может стать составляющей или полноценным правым каналом бинаурального выходного сигнала.
Как дальше более детально будет рассмотрено на примерах реализации, в сигналы 22а и 22b могут быть введены компоненты, создающие эффекты звукоотражения и/или реверберации. Благодаря этому может быть упрощена система направленных фильтров 14a-14h.
Блок минимизации подобия 12 в составе устройства на фиг.1 нейтрализует негативные побочные эффекты сложения коррелированных входных сигналов смесителей 16а и 16b, приводящие к значительному сужению пространственного охвата и отсутствию ощущения естественного объема выходного бинаурального сигнала 22а и 22b. Эти негативные побочные явления редуцируются декорреляцией с использованием минимизатора подобия 12.
Прежде, чем перейти к рассмотрению следующего технического решения по данному изобретению, следует подытожить сказанное относительно фиг.1, где показан пример прохождения декодированного многоканального сигнала с преобразованием его в выходной сигнал для головных телефонов. Каждый сигнал фильтруется парой направленных фильтров. Так, канал 18а фильтруется двумя направленными фильтрами 14а-14е. К сожалению, как правило, при сведении многоканальных фонограмм между каналами 18a-18d в значительной степени присутствует подобие, такое как корреляция. Это отрицательно влияет на выходной бинауральный сигнал. В частности, после обработки многоканальных сигналов направленными фильтрами 14a-14h на их выходе промежуточные сигналы совмещаются в смесителях 16а и 16b с образованием выходного сигнала для наушников 20а и 20b. Суммирование подобных/коррелированных выходных сигналов приводит к сильному сужению пространственного объема выходного сигнала 20а и 20b и недостаточной экстернализации. На практике это вызывает особенные трудности при сходстве/корреляции левого и правого сигнала и центрального канала. В силу этого блок минимизации подобия 12 должен по возможности максимально снижать степень однородности этих сигналов.
Следует обратить внимание на то, что большинство функций по уменьшению взаимоподобия каналов 18a-18d множества каналов 18 может быть выполнено без введения минимизатора подобия 12 путем его замещения за счет расширения фукнциий направленных фильтров, которые должны будут не только моделировать распространение звука, но и обеспечивать его разнородность, например, путем декорреляции, о которой говорилось выше. В подобном случае направленные фильтры, соответственно, предназначены не только для моделирования, но и для модуляции передаточных функций головы и слухового тракта (HRTF).
Например, на фиг.2 представлено устройство для построения набора перцептуальных передаточных функций с минимизацией межканального подобия для моделирования передачи звука через группу каналов от виртуального источника, позиционирование которого соотнесено с индивидуальными каналами, к слуховому анализатору слушателя. Устройство, условно обозначенное общим номером 30, включает в свой состав построитель функций HRTF (построитель модели передаточных функций органов слуха) 32 и процессор HRTF 34.
Построитель функций HRTF 32 обеспечивает исходный набор функций моделирования окружающего звука HRTF. Шаг алгоритма 32 может включать в себя измерения с использованием эталонной модели головы слушателя для вычисления передаточных функций слухового тракта при прохождении звука от источников в определенных позициях до ушных каналов манекена эталонного слушателя. Аналогично этому построитель функций HRTF 32 может выполнять поиск и подстановку исходных функций HRTF из памяти. Или, наоборот, построитель функций HRTF 32 может выполнять расчет HRTF в соответствии с введенной формулой, например, в зависимости от заданного взаиморасположения виртуальных источников звука. Таким образом, построитель модели передаточных функций головы слушателя HRTF 32 может быть рассчитан для работы в среде формирования генератора выходного бинаурального сигнала или сам являться частью такого генератора выходного бинаурального сигнала, обеспечивая исходные функции HRTF в реальном времени, скажем, в ответ на выбор или изменение положения источников звука в виртуальном пространстве. В частности, устройство 30 может входить в состав генератора выходного бинаурального сигнала, предусматривающего согласованное распределение многоканальных сигналов между динамиками в различной конфигурации в зависимости от взаимного расположения виртуальных источников звука, соотнесенных с индивидуальными каналами. В подобном случае построитель функций HRTF 32 может предоставлять исходные смоделированные передаточные функции головы слушателя (HRTF) таким образом, что они будут скоординированы с текущими заданными позициями виртуальных источников звука.
Процессор HRTF 34, в свою очередь, выполняет рассогласование импульсных характеристик относительно друг друга, как минимум, одной пары функций HRTF или видоизменяет в спектральной области их фазовые и/или амплитудные характеристики, добиваясь их взаимной неоднородности. Такая пара функций HRTF может имитировать акустическую передачу по одной из пар каналов - левого и правого, фронтального и тыльного или центрального и нецентрального. Такой результат можно получить, применив к одному или нескольким каналам многоканального сигнала один из указанных ниже методов или их комбинацию, в частности - задержку функции HRTF соответствующего канала, изменение фазовой характеристики соответствующей функции HRTF и/или применение к соответствующей функции HRTF декоррелирующего, например, всечастотного, фильтра, формируя таким образом набор функций HRTF с минимизированной интеркорреляцией, и/или изменение в спектральной области амплитудной характеристики соответствующей функции HRTF, образуя таким образом набор функций HRTF, по меньшей мере, с уменьшенной степенью взаимного подобия. В любом случае достигнутая декорреляция/несхожесть между соответствующими каналами может стимулировать слуховую систему человека к внешней локализации источника звука и, благодаря этому, предупреждать эффект локализации в голове. Процессор HRTF 34 может быть выполнен, предположим, с возможностью модификации фазовых характеристик всех, или одного из, или нескольких, каналов HRTF с введением групповой задержки первой функции HRTF для определенной полосы частот - то есть запаздывания в определенном частотном диапазоне первой функции HRTF - относительно какой-либо другой функции HRTF, по меньшей мере, на один отсчет. Далее, процессор HRTF 34 может быть реализован с возможностью модификации фазовых характеристик таким образом, что групповые задержки первой функции HRTF относительно какой-либо другой функции HRTF для множества частотных полос будут иметь стандартное отклонение, по меньшей мере, в одну восьмую отсчета. Рассматриваемые частотные диапазоны могут представлять собой полосы барков или их более мелкое членение, или же любой другой вид разбиения частотного диапазона.
Набор функций HRTF с уменьшенным взаимоподобием, сформированный на выходе процессора HRTF 34, может быть использован для задания функций HRTF направленных фильтров 14a-14h устройства на фиг.1, в компоновку которого минимизатор подобия 12 может быть включен или не включен. Благодаря рассогласованию характеристик модифицированных функций HRTF упомянутые выше эффекты расширения пространственного объема выходного бинаурального сигнала и экстернализации могут быть достигнуты без применения минимизатора подобия 12.
Как описано выше, устройство на фиг.1 может быть дополнено опцией создания эффектов звукоотражения и/или реверберации в ограниченном пространстве как составляющих выходного бинаурального сигнала с использованием понижающего микширования, по меньшей мере, некоторых из входных каналов 18a-18d. Это способствует упрощению операции, выполняемой направленными фильтрами 14a-14h. На фиг.3 отображено устройство, имитирующее в выходном бинауральном сигнале эффекты звукоотражения и реверберации в помещении. Устройство 40 включает в себя генератор сигнала с понижающим микшированием (понижающий микшер) 42, к которому последовательно подключен процессор построения акустического объема 44. Устройство 40 может быть установлено между входным терминалом для ввода многоканального сигнала 18 устройства на фиг.1 и выходным терминалом для вывода бинаурального сигнала, причем, составляющая левого канала 46а процессора пространственного построения 44 соединена с выходом 22а, а правый выходной канал 46b процессора пространственного построения 44 соединен с выходом 22b. Понижающий микшер 42 генерирует на основе многоканального сигнала 18 моно- или стереосигнал 48, а процессор 44 генерирует левый канал 46а и правый канал 46b, несущий компоненты бинаурального сигнала, имитирующие отражение и реверберацию в помещении, смоделированные на основе моно- или стереосигнала 48.
Идея, лежащая в основе процессора построения акустического пространства 44, состоит в том, что звукоотражение/реверберация, предположим, в помещении, могут быть смоделированы для естественного восприятия слушателем на основе понижающего микширования, например, в виде простого суммирования каналов многоканального сигнала 18. Поскольку отраженные звуки/реверберация достигают слухового тракта позже, чем звуки, идущие от источника по прямой или вдоль оси видимости, импульсные характеристики процессора построения акустического пространства представляют и замещают хвостовые импульсные характеристики направленных фильтров, показанных на фиг.1. Импульсные характеристики направленных фильтров, в свою очередь, могут быть укорочены за счет ограничения из функций моделированием прямого прохождения звука и отражения с затуханием в области головы, ушей и плеч слушателя. Безусловно, граница между тем, что должно быть смоделировано направленным фильтром, а что - процессором построения акустического пространства, задается совершенно произвольно, причем, направленный фильтр, может, скажем, также моделировать первичные отражения/реверберацию в помещении.
На фиг.4А и 4В показаны возможные конструктивные решения процессора построения акустического пространства. Как видно на фиг.4а, в процессор построения акустического пространства 44, состоящий из двух фильтров реверберации 50а и 50b, поступает сигнал 48 монофонического понижающего микширования. Как и направленные фильтры, фильтры реверберации 50а и 50b могут работать как во временной, так и в частотной области. На входы обоих поступает сигнал понижающего мономикширования (монодаунмикс) 48. Фильтр реверберации 50а на выходе генерирует составляющую левого канала 46а, в то время как фильтр реверберации 50b формирует на выходе компоненту правого канала 46b. На фиг.4В приведен пример компоновки процессора объемного звукопостроения 44 для обработки сигнала понижающего стереомикширования (стереодаунмикса) 48. В этом случае процессор пространственного звукопостроения состоит из четырех фильтров реверберации 50a-50d. Входы фильтров реверберации 50а и 50b сопряжены с первым каналом 48а понижающего стереомикширования 48, а входы фильтров реверберации 50 с и 50d соединены со вторым каналом 48b понижающего стереомикширования 48. Выходы фильтров реверберации 50а и 50с сопряжены с входом сумматора 52а, который на выходе генерирует составляющую левого канала 46а. Выходы фильтров реверберации 50b и 50d соединены с входами второго сумматора 52b, формирующего на выходе составляющую правого канала 46b.
Хотя выше сказано, что понижающий микшер 42 может выполнять простое сложение каналов многоканального сигнала 18, это не распространяется на конфигурацию на фиг.3. Понижающий микшер 42 на фиг.3, скорее, предусматривает формирование моно- или стереодаунмикса 48 таким образом, что множество каналов вносят каждый свою компоненту в моно- или стереофоническое понижающее микширование с интенсивностью, различной, как минимум, для двух каналов многоканального сигнала 18. Это может служить средством блокировки или активации процесса имитации акустического объема для определенных видов контента многоканальных сигналов, таких как речь или фоновая музыка, микшируемых в выделенный канал, или выделенные каналы многоканального сигнала, чтобы предупреждать таким образом неестественность звучания.
Допустим, понижающий микшер 42 на фиг.3 может выполнять понижающее моно- или стереомикширование 48 таким образом, что составляющие центрального канала многоканального сигнала 18 вводятся в сигнал понижающего моно- или стереомикширования (моно- или стереодаунмикса) 48 с разной степенью снижения интенсивности относительно других каналов многоканального сигнала 18. К примеру, глубина снижения уровня может составлять от 3 дБ до 12 дБ. Интенсивность может плавно спадать по всему спектру рабочих частот каналов многоканального сигнала 18 или может находиться в зависимости от частоты, предположим, быть привязанной к заданному участку спектра, например, соответствующему голосовым сигналам. Степень уменьшения интенсивности относительно других каналов может быть одинаковой для всех каналов. Это означает, что другие каналы могут быть смешаны с сигналом понижающего микширования 48 при одинаковом уровне. Или наоборот, другие каналы могут быть введены в микшируемый с понижением сигнал 48 при разных уровнях. Кроме того, степень уменьшения интенсивности относительно других каналов может быть соотнесена со средним значением других каналов или средним значением всех каналов, включая редуцированный. В подобном случае стандартное отклонение смешиваемых весов других каналов или стандартное отклонение смешиваемых весов всех каналов может составлять менее 66% от уровня снижения интенсивности смешиваемого веса редуцированного по уровню канала относительно только что упомянутого среднего значения.
Эффект снижения уровня интенсивности относительно среднего канала состоит в том, что выходной бинауральный сигнал, сформированный введением составляющих 46а и 46b, воспринимается слушателями более естественно, чем без такого снижения интенсивности, по меньшей мере, при ряде условий, рассматриваемых подробнее ниже. Другими словами, генератор сигнала с понижающим микшированием (понижающий микшер) 42 получает взвешенную сумму каналов многоканального сигнала 18, имеющую весовое значение, соотнесенное с центральным каналом, редуцируемым относительно весовых значений других каналов.
Снижение интенсивности центрального канала особенно эффективно для передачи речи в кинодиалогах или воспроизведения музыкальных фрагментов. Улучшение слухового восприятия разговорных сцен в значительной степени компенсирует те несущественные минусы, которые возникают из-за снижения уровня в неречевых фрагментах. Тем не менее, исходя из альтернативных конструктивных решений, снижение уровня не является обязательным постоянно действующим фактором. Вернее сказать, понижающий микшер 42 может быть выполнен с возможностью коммутации между режимом с отключенной функцией снижения уровня и режимом, при котором функция снижения уровня активирована. Говоря иначе, понижающий микшер 42 предусматривает возможность варьирования глубины снижения уровня интенсивности во времени. Изменения могут вноситься в двоичной или аналоговой форме в интервале значений от ноля до максимума. Понижающий микшер 42 может иметь компоновку, обеспечивающую переключение режимов или варьирование глубины снижения уровня в зависимости от информации, содержащейся в многоканальном сигнале 18. Например, понижающий микшер 42 может быть настроен на распознавание голосовых фаз или на дифференциацию голосовых и неголосовых фаз, или может задавать систему измерения голосового контента, предположим, в форме порядковой шкалы, для последовательности фреймов центрального канала. Допустим, понижающий микшер 42 с помощью фильтра тональных частот обнаруживает в центральном канале признаки речи и определяет, превосходит ли уровень на выходе этого фильтра суммарное пороговое значение. При этом выявление понижающим микшером 42 фаз звучания голоса в среднем канале не является единственным способом установления временной зависимости вышеописанной функции переключения режимов варьирования глубины снижения интенсивности. Например, многоканальный сигнал 18 может включать в себя протокольные данные, специально регламентирующие раздельное распознавание голосовых и неголосовых фаз или статистическую оценку речевого материала. В этом случае понижающий микшер 42 будет выполнять команды, содержащиеся в такой сопутствующей информации. В иной версии понижающий микшер 42 способен переключать режимы, как описано выше, или регулировать степень снижения интенсивности, сравнивая, скажем, текущие уровни среднего канала, левого канала и правого канала. Когда центральный канал будет превосходить левый и правый каналы по отдельности или в сумме больше, чем на определенное пороговое отношение, понижающий микшер 42 может распознать фазу звучания речи и отреагировать соответствующим образом, то есть снизить уровень интенсивности. Подобным же образом понижающий микшер 42 может использовать разности уровней центрального, левого и правого каналов для реализации указанных выше зависимостей.
Кроме этого, понижающий микшер 42 способен обрабатывать пространственные параметры множества каналов многоканального сигнала 18, описывающие объем звуковой среды. Это показано на фиг.5. На фиг.5 дан вариант понижающего микшера 42 многоканального сигнала 18, представляющего множество каналов с использованием специального аудиокодирования, то есть - посредством сигнала 62, микшированного с понижением множество каналов, и пространственных параметров 64 этого множества каналов, описывающих акустический объем. Дополнительно многоканальный сигнал 18 может заключать в себе данные понижающего микширования, описывающие соотношение индивидуальных каналов, сведенных с понижением в сигнал 62, или описывающие индивидуальные каналы сигнала 62, полученного понижающим микшированием, при том, что канал понижающего микширования 62 может представлять собой, например, сигнал 62 простого понижающего микширования (даунмикса) или сигнал 62 понижающего стереомикширования (стереодаунмикса). Понижающий микшер 42 на фиг.5 состоит из декодера 64 и смесителя (микшера) 66. Декодер 64 в соответствии с процедурой пространственного аудиодекодирования декодирует многоканальный сигнал 18 с восстановлением множества каналов, включая, среди прочего, центральный канал 66 и другие каналы 68. Смеситель 66 микширует центральный канал 66 и остальные нецентральные каналы 68 с получением моно- или стереосигнала 48, выполняя при этом описанное ранее снижение уровня. Пунктирная линия 70 показывает, что смеситель 66 может использовать пространственные параметры 64 для переключения между режимом снижения уровня и режимом варьирования глубины снижения уровня, как рассмотрено выше. Пространственные параметры 64, используемые смесителем 66, могут представлять собой, в частности, коэффициенты предсказания канала, описывающие, как средний канал 66, левый канал или правый канал могут быть реконструированы из сигнала понижающего микширования 62, при этом смеситель 66 может дополнительно использовать параметры межканальной когерентности/кросс-корреляции, отражающие согласованность или взаимное соотношение между описываемыми левым и правым каналами, которые, в свою очередь, могут быть образованы понижающим микшированием переднего левого и заднего левого каналов и переднего правого и заднего правого каналов, соответственно. Например, средний канал может быть смикширован в заданном соотношении для образования левого канала и правого канала сигнала понижающего стереомикширования (стереодаунмикса). В этом случае достаточно двух коэффициентов предсказания канала, чтобы определить, как могут быть сформированы центральный, левый и правый каналы из соответствующей линейной комбинации двух каналов сигнала стереодаунмикса 62. В частности, для разделения голосовых и неголосовых фаз смеситель 66 может оперировать отношением суммы и разности коэффициентов предсказания канала.
Хотя для иллюстрации взвешенного суммирования множества каналов, при котором каждый канал участвует в понижающем моно- или стереомикшировании (моно- или стереодаунмиксе) при степени интенсивности, отличной, по меньшей мере, от двух каналов многоканального сигнала 18, был взят случай снижения уровня интенсивности с учетом центрального канала, существуют также примеры, когда уровень других каналов должным образом понижается или повышается по отношению к другому каналу или другим каналам в силу того, что контент источника звука, содержащийся в одном или нескольких каналах, подлежит или не подлежит обработке с построением акустического объема на одном уровне с другим контентом многоканального сигнала, но на пониженном/повышенном уровне.
Фиг.5 в довольно общих чертах иллюстрирует возможность передачи множества входных каналов посредством сигнала понижающего микширования 62 и пространственных параметров 64. Фиг.6 расширяет такое объяснение. Описание фиг.6 помогает также рассмотреть аппаратные версии изобретения, представленные далее на фиг.10-13. Фиг.6 демонстрирует разложение сигнала, полученного понижающим микшированием, 62 в спектр множества подполосовых составляющих 82. На фиг.6 частотные составляющие 82 для наглядности изображены в виде горизонтальных полос, возрастающих по частоте снизу вверх, на что указывает стрелка оси частотной области 84. По горизонтали расположена ось времени 86. Например, микшированный с понижением сигнал 62 состоит из последовательности спектральных величин 88 каждой из подполос 82. Разрешающая способность по времени (частота дискретизации), с которой подполосы 82 разбиты на дискреты, выраженная величиной отсчета 88, может определяться слотом банка фильтров 90. Таким образом, временные интервалы 90 и частотные подполосы 82, образуя сетку, определяют частотно-временную разрешающую способность. Более крупная частотно-временная сетка формируется за счет объединения смежных отсчетов 88 с образованием частотно-временных ячеек 92, обозначенных на фиг.6 пунктирным контуром, которые определяют частотно-временную параметрическую разрешающую способность, или решетку. Указанные выше пространственные параметры 62 определяются этим частотно-временным параметрическим разрешением 92. Частотно-временное параметрическое разрешение 92 вариативно во времени. Для его изменения многоканальный сигнал 62 разбивают на последовательные фреймы 94. Для каждого фрейма решетка время-частотного разрешения 92 может быть задана индивидуально. В случае приема микшированного с понижением сигнала 62 во временной области в схему декодера 64 вводят банк фильтров анализа, генерирующий представление микшированного с понижением сигнала 62, как показано на фиг.6. Если микшированный с понижением сигнал 62 поступает на декодер 64 в виде, показанном на фиг.6, анализирующий банк фильтров в составе декодера 64 не нужен. Как уже говорилось в контексте фиг.5, для каждой ячейки 92 могут быть введены два коэффициента предсказания канала, показывающие, как правый и левый каналы формируются из левого и правого каналов сигнала стереодаунмикса 62. В дополнение к этому показатель межканальной когерентности/кросс-корреляции (ICC) может индицировать для ячейки 92 наличие ICC между левым и правым каналами, которые будут производными сигнала понижающего стереомикширования 62, и из которых один канал полностью совмещен с одним из каналов сигнала понижающего стереомикширования 62, а второй полностью совмещен с другим каналом сигнала понижающего стереомикширования 62. При этом показатель разности уровней названных левого и правого каналов (CLD) может быть в последующем представлен для каждой ячейки 92. К показателям CLD может быть применено квантование с неравномерным шагом по логарифмической шкале, дающее высокую точность вблизи ноля дБ и снижение разрешающей способности при увеличении разности уровней каналов. Кроме этого пространственные параметры 64 могут включать в себя другие показатели. Эти показатели могут, в частности, определять разность уровней каналов (CLD) и межканальную когерентность (ICC), относящиеся к каналам, которые участвовали в формировании микшированием указанных левого и правого каналов, скажем, тыльного левого, фронтального левого, тыльного правого и фронтального правого каналов.
Следует обратить внимание на то, что рассмотренные выше варианты технического исполнения могут быть скомбинированы между собой. Ряд комбинаторных возможностей уже отмечен ранее. На другие потенциальные возможности будет указано при дальнейшем описании конструктивных решений, представленных на фиг.7-13. Кроме того, при рассмотрении вариантов реализации на фиг.1 и 5 было условно принято, что промежуточные тракты 20, 66 и 68, соответственно, физически присутствуют в составе устройства. Тем не менее это не обязательно. Например, модифицированные передаточные функции органов слуха HRTF, моделируемые устройством на фиг.2, могут быть использованы для настройки направленных фильтров на фиг.1 без применения блока минимизации подобия 12, и в этом случае устройство на фиг.1 может оперировать микшированным с понижением сигналом, таким как сигнал 62 на фиг.5, представляющим множество каналов 18a-18d, комбинируя необходимым образом пространственные параметры и модифицированные функции HRTF в пределах частотно-временного параметрического разрешения 92, и применяя полученные в результате этого коэффициенты линейного комбинирования для генерации бинауральных сигналов 22а и 22b.
Подобно этому понижающий микшер 42 соответствующим образом комбинирует пространственные параметры 64 и степень ослабления интенсивности центрального канала для понижающего моно- или стереомикширования 48 перед передачей на процессор построения акустического пространства 44. На фиг.7 представлен вариант осуществления генератора выходного бинаурального сигнала согласно изобретению. Генератор, имеющий общее условное обозначение 100, состоит из многоканального декодера 102, выходного терминала бинаурального сигнала 104 и двух соединяющих их трактов, моделирующих путь, соответственно, прямой 106 и отраженной 108 звуковой волны. В тракте прямого звука направленные фильтры 110 соединены с выходом многоканального декодера 102. Далее, в тракт прямой звуковой волны встроены первая группа сумматоров 112 и вторая группа сумматоров 114. Сумматоры 112 суммируют выходные сигналы первой половины гребенки направленных фильтров 110, а сумматоры 114 суммируют выходные сигналы второй половины направленных фильтров 110. Суммированные выходные сигналы первой 112 и второй 114 групп сумматоров образуют составляющую прямой звуковой волны выходного бинаурального сигнала 22а и 22b. Сумматоры 116 и 118 предназначены для совмещения составляющих сигналов 22а и 22b и составляющих бинауральных сигналов, генерированных трактом реверберации 108, то есть для сложения сигналов 46а и 46b. В тракт реверберации 108 последовательно включены смеситель 120 и процессор пространственного звукопостроения 122, которые соединяют между собой выход многоканального декодера 102 и соответствующие входы сумматоров 116 и 118, выходные сигналы которых формируют бинауральный сигнал на выходе 104.
Для облегчения понимания схемы устройства на фиг.7 в его описание включены условные обозначения, использованные для соответствующих элементов или функций на фигурах 1-6. Необходимые пояснения будут даны при последующем обсуждении. Следует обратить внимание на то, что для упрощения объяснения в дальнейшем условно принято, что во всех вариантах компоновки минимизатор подобия выполняет функцию снижения степени корреляции. Соответственно, далее это устройство будет именоваться «минимизатор корреляции». Тем не менее, как понятно из предыдущего обсуждения, описываемые далее версии исполнения легко преобразуются для применения в случаях, где минимизатор подобия задействуется более для устранения сходства, чем для ослабления корреляции. Кроме того, несмотря на то, что далее представлены компоновки, где условно принято, что понижающий микшер, генерирующий сигнал для последующего моделирования звукового объема, выполняет функцию понижения уровня центрального канала, выше уже говорилось, что предусмотрен свободный переход к альтернативным техническим решениям.
Устройство на фиг.7 преобразует поток декодированного многоканального сигнала 124 для генерации выходного сигнала на головные телефоны на выходе 104. Многоканальный декодер 102 синтезирует из потока двоичных данных, поступающих на вход 126, декодированный многоканальный сигнал 124, используя, например, алгоритм пространственного декодирования. После декодирования каждый сигнал или канал декодированного многоканального сигнала 124 фильтруется парой направленных фильтров 110. Так, первый (верхний) канал декодированного многоканального сигнала 124 фильтруется направленными фильтрами DirFilter (1,L) [1 левый] и DirFilter (1,R) [1 правый], а второй (сверху) сигнал, или канал, фильтруется направленными фильтрами DirFilter (2,L) и DirFilter (2,R), и так далее. Фильтры 110 предусматривают моделирование прохождения звука от виртуального источника в помещении к слуховому каналу слушателя, реализуя так называемую бинауральную передаточную функцию помещения (BRTF). Такие фильтры способны регулировать параметры времени, уровня и спектра, а также частично имитировать звукоотражение и реверберацию в ограниченном пространстве. Направленные фильтры 110 могут использоваться во временной или частотной областях. Поскольку количество направленных фильтров 110 должно быть большим (Nx2, где N - количество декодируемых каналов), то для полного моделирования отражения звука и реверберации в помещении потребуется достаточно длинный блок фильтров - на 20000 полос при 44,1 кГц, что ведет к высокой вычислительной трудоемкости. При сокращении числа направленных фильтров 110 до оптимального минимума для моделирования звукоотражения и реверберации используются так называемые передаточные функции головы слушателя (функции HRTF) и блок моделирования акустической среды 122. Модуль построения акустического пространства 122 может осуществлять алгоритм создания эффекта реверберации во временной или частотной области и может оперировать с одно- или двухканальным входным сигналом 48, рассчитанным смесителем 120 на основе декодированного многоканального входного сигнала 124 с применением матрицы смешивания. Модуль построения акустического пространства воспроизводит эффекты отражения звука и/или реверберации в помещении. Отражение и реверберация оказывают существенное воздействие на пространственную локализацию звука, в особенности - на ощущение удаленности и экстернализацию, что означает восприятие слушателем акустических источников вне его головы.
Обычно многоканальное звучание строится таким образом, что основная звуковая энергия сосредоточена во фронтальных каналах - в переднем левом, переднем правом и центральном. Речевые диалоги в кинофильмах и музыку главным образом микшируют с центральным каналом. После моделирования акустического объема в блоке 122 сигналы центрального канала часто воспринимаются на слух с неестественным эхом и тональными искажениями. В силу этого, в варианте исполнения на фиг.7 центральный канал поступает в модуль построения акустического пространства 122 из смесителя 120 после значительного снижения (примерно на 6 дБ) уровня. Таким образом, решение конфигурации на фиг.7 соответствует компоновке на фиг.3 и 5, и, следовательно, условные обозначения 102, 124, 120, и 122 фиг.7 соответствуют условным обозначениям 18, 64, сочетанию условных обозначений 66 и 68, условному обозначению 66 и условному обозначению 44 на фиг.3 и 5, соответственно.
На фиг.8 показан еще один вариант реализации генератора выходного бинаурального сигнала. Этот генератор условно обозначен общим номером 140. Для упрощения описания фиг.8, на ней использованы те же условные обозначения, что и на фиг.7. Чтобы указать, что смеситель 120 не обязательно выполняет такие же функции, как на фиг.3, 5 и 7, а именно, понижение уровня центрального канала, модуль, объединяющий блоки 102, 120, и 122, обозначен как 40'. Иными словами, ослабление уровня смесителем 122 в составе устройства на фиг.8 является опцией. Однако, в отличие от фиг.7 между каждой парой направленных фильтров 110 и каждым выходом декодера 102 на сопряженный канал декодированного многоканального сигнала 124 введен декоррелятор. Декорреляторы обозначены номерами 1421, 1422 и так далее. Декорреляторы 1421, 1422 выполняют функции минимизатора корреляции 12 на фиг.1. Несмотря на то, что на фиг.8 декорреляторы 1421-1424 сопряжены с каждым из каналов декодированного многоканального сигнала 124, такая компоновка не является строго обязательной. Часто достаточно одного декоррелятора. Декорреляторы 142 могут просто обеспечивать задержку. Предпочтительно, чтобы значения задержек 1421-1424 различались между собой. При другом варианте исполнения Декорреляторы 1421-1424 могут быть всечастотными фильтрами, у которых при постоянной амплитудной передаточной характеристике, равной единице, меняются фазы спектральных составляющих соответствующего канала. Изменения фазовых характеристик, вызываемые декорреляторами 1421-1424, предпочтительно должны различаться для каждого из каналов. Безусловно, предусмотрены и другие возможности. Скажем, роль декорреляторов 1421-1424 могут выполнять фильтры с конечной импульсной характеристикой (КИХ), и т.п.
Отсюда следует, что элементы 1421-1424, 110, 112, и 114 аппаратной версии на фиг.8 по своим функциональным возможностям согласуются с устройством 10 на фиг.1.
Как и в случае с фиг.8, на фиг.9 показан вариант реализации генератора выходного бинаурального сигнала, представленного на фиг.7. Соответственно, пояснения к фиг.9 также будут даны с использованием условных обозначений фиг.7. Подобно версии исполнения на фиг.8 снижение уровня интенсивности смесителем 122 также является опцией для устройства на фиг.9, следовательно, ему более соответствует обозначение 40', чем 40, как на фиг.7. Компоновка на фиг.9 направлена на решение проблемы значительной корреляция между всеми каналами при многоканальном звукообразовании. После прохождения многоканальных сигналов через направленные фильтры 110 двухканальные промежуточные сигналы каждой пары фильтров складываются сумматорами 112 и 114 с образованием выходного сигнала для наушников на выходе 104. Сложение сумматорами 112 и 114 коррелированных выходных сигналов ведет к значительному сужению пространственного охвата выходного сигнала на выходе 104 и подавлению эффекта экстернализации. Особенные трудности возникают при корреляции левого и правого сигнала и среднего канала в декодированном многоканальном сигнале 124. Техническое решение на фиг.9 позволяет с помощью направленных фильтров сформировать максимально декоррелированный выходной сигнал. Для этого в схему на фиг.9 введено устройство 30, формирующее набор функций HRTF для построения окружающего звука, которые используются направленными фильтрами 110 на базе некоторой исходной комбинации передаточных функций HRTF. Как рассматривалось выше, устройство 30 может задействовать один или комбинацию из приведенных ниже механизмов применения функций HRTF пар направленных фильтров, сопряженных с одним или несколькими каналами декодированного многоканального сигнала 124: задержка с помощью направленного фильтра или соответствующей пары направленных фильтров, например, путем сдвига их импульсной характеристики, например, за счет смещения полосы фильтра; изменение фазочастотных характеристик соответствующих направленных фильтров; и применение декоррелирующего фильтра, например, всечастотного, к соответствующим направленным фильтрам соответствующего канала. Такой всечастотный фильтр мог быть реализован как фильтр КИХ.
Как сказано выше, устройство 30 может работать в режиме отклика на изменение конфигурации громкоговорителей, для чего используется битстрим, поступающий на вход 126.
Варианты осуществления, представленные на фиг.7-9, касались декодированного многоканального сигнала. Приведенные ниже конструктивные решения относятся к параметрическому многоканальному декодированию для вывода на головные телефоны. Формулируя в целом, пространственное аудиокодирование представляет собой алгоритм сжатия многоканального сигнала, использующий перцептуальную межканальную иррелевантность (различие содержимого каналов для восприятия) многоканальных аудиосигналов для достижения наибольшей компрессии. При этом фиксируются звуковые пространственные ориентиры или характеристики объема акустического пространства, то есть параметры, описывающие панорамное представление многоканального аудиосигнала. Пространственные звуковые опорные точки, как правило, отражают перепады уровня/интенсивности, разность фаз и степень корреляции/когерентности между каналами и могут быть представлены в очень компактном виде. Концепция пространственного кодирования звука была взята на вооружение группой MPEG, что привело к созданию стандарта MPEG Surround, то есть ISO/IEC23003-1. Пространственные параметры, используемые в пространственном аудиокодировании, могут также быть применены для расчета направленных фильтров. При таком подходе декодирование пространственных аудиоданных и включение направленных фильтров могут быть объединены для качественного декодирования и рендеринга многоканального аудиосигнала для воспроизведения через наушники.
Общая структура пространственного аудиодекодера для вывода сигнала на наушники представлена на фиг.10. Декодер на фиг.10, условно обозначенный общим номером 200, представляет собой подполосовой пространственно-бинауральный модификатор (преобразователь) 202, включающий в свою схему вход для стерео- или моносигнала понижающего микширования 204, вход для пространственных параметров 206 и выход для выходного бинаурального сигнал 208. Микшированный с понижением сигнал в сочетании с пространственными параметрами 206 образует многоканальный сигнал 18 и представляет совокупность его каналов.
В схему подполосового модификатора 202 входит банк фильтров анализа 208, блок матрицирования (матричного кодирования) или линейный комбинатор (блок сведения) 210 и банк фильтров синтеза 212, соединенные в указанной последовательности между входом микшированного с понижением сигнала и выходом подполосового модификатора 202. Далее, подполосовой модификатор 202 включает в себя преобразователь параметров 214, принимающий пространственные параметры 206 и комбинацию модифицированных функций HRTF, сгенерированных устройством 30.
В компоновке на фиг.10 подразумевается, что сигнал понижающего микширования поступает в предварительно декодированной форме, включая энтропийное кодирование. В пространственно-бинауральный аудиодекодер поступает полученный понижающим микшированием сигнал 204. Преобразователь параметров 214, обрабатывая пространственные параметры 206 и параметрическое описание направленных фильтров в форме характеристик модифицированных функций HRTF 216, формирует бинауральные параметры 218. Параметры 218 применяются блоком матрицирования 210 в форме матрицы «два-на-два» (в случае сигнала понижающего стереомикширования) и в форме матрицы «один-на-два» (в случае сигнала 204 монофонического понижающего микширования) в частотной области к спектральным величинам 88, рассчитанным банком фильтров анализа 208 (см. фиг.6). Говоря иначе, бинауральные параметры 218 варьируются в пределах разрешающей способности частотно-временной параметрической решетки 92, показанной на фиг.6, и применяются к каждому дискретному значению 88. С помощью интерполяции могут быть сглажены матричные коэффициенты и соответствующие бинауральные характеристики 218 при переходе из более грубой частотно-временной параметрической области 92 в область частотно-временного разрешения анализирующего банка фильтров 208. Таким образом, при понижающем стереомикшировании 204 блок 210 дает в результате матрицирования два дискретных значения на пару, состоящую из величины отсчета левого канала 204, микшированного с понижением сигнала, и соответствующей величины отсчета правого канала 204, микшированного с понижением сигнала. В результате этого два дискретных значения являются элементами левого и правого каналов выходного бинаурального сигнала 208, соответственно. При работе с моносигналом 204 понижающего микширования блок матрицирования 210 выдает два дискретных значения на величину отсчета сигнала понижающего мономикширования 204, а именно, одно значение - для левого канала и одно - для правого канала выходного бинаурального сигнала 208. Бинауральные характеристики 218 определяют матричный режим, в соответствии с которым из одного или двух дискретных значений микшированного с понижением сигнала 204 выполняется построение соответствующих величин отсчетов левого и правого каналов выходного бинаурального сигнала 208. Бинауральные параметры 218 уже отражают модифицированные характеристики передаточных функций HRTF. Следовательно, они обеспечивают декорреляцию входных каналов многоканального сигнала 18, как говорилось выше.
Из этого следует, что выходные данные блока матрицирования 210 представляют собой преобразованную спектрограмму, отображенную на фиг.6. Синтезирующий банк фильтров 212 реконструирует из нее выходной бинауральный сигнал 208. Формулируя иначе, банк фильтров синтеза 212 конвертирует результирующий двухканальный выходной сигнал блока матрицирования 210 во временную область. Безусловно, данные возможности реализуются по усмотрению пользователя.
В случае с устройством на фиг.10 эффекты отражения и реверберации отдельно не рассматривались. Если принимать в расчет эти эффекты, их построение должно осуществляться на уровне функций HRTF 216. На фиг.11 показан генератор выходного бинаурального сигнала, объединяющий бинауральный пространственный аудиодекодер 200' с обособленным устройством построения эффектов отражения звука/реверберации в помещении. Значок ' в обозначении 200' на фиг.11 указывает на то, что пространственно-бинауральный аудиодекодер 200' может использовать немодифицированные функции HRTF, то есть исходные передаточные функции моделирования головы слушателя HRTF, как на фиг.2. Однако произвольно в качестве бинаурального пространственного аудиодекодера 200' на фиг.11 может быть выбран аналог, приведенный на фиг.10. В любом случае, генератор бинаурального сигнала на фиг.11, имеющий общее условное обозначение 230, включает в свой состав, кроме бинаурального пространственного декодера 200', аудиодекодер понижающего микширования (аудиодекодер даунмикса) 232, преобразованный пространственный подполосовой аудиомодификатор 234, процессор пространственного звукопостроения 122 и два сумматора 116 и 118. Аудиодекодер даунмикса 232 введен между входом битового потока 126 и бинауральным пространственным подполосовым аудиомодификатором 202 в составе бинаурального пространственного аудиодекодера 200'. Аудиодекодер даунмикса 232 декодирует входящий битстрим 126 для извлечения из него микшированного с понижением сигнала 204 и пространственных параметров 206. Микшированный с понижением сигнал 204 вместе с пространственными параметрами 206 поступает как на бинауральный пространственный подполосовой аудиомодификатор 202, так и на преобразованный пространственный подполосовой аудиомодификатор 234. На основе микшированного с понижением сигнала 204 преобразованный пространственный модификатор подполос звуковых частот 234, используя пространственные параметры 206 и скорректированные параметры 236, содержащие данные глубины снижения уровня центрального канала, о чем говорилось выше, вычисляет сигнал понижающего моно- или стереомикширования 48, который служит входным сигналом процессора построения акустического пространства 122. Выходные сигналы бинаурального пространственного подполосового аудиомодификатора 202 и пространственного процессора 122 суммируются как компоненты каналов сумматорами 116 и 118 с образованием выходного бинаурального сигнала 238.
На фиг.12 дана принципиальная модульная схема бинаурального аудиодекодера 200', входящего в схему на фиг.11. Следует обратить внимание на то, что фиг.12 демонстрирует не внутреннее устройство пространственно-бинаурального аудиодекодера 200' на фиг.11, а процесс преобразования им сигнала. В целом, внутренняя структура бинаурального пространственного аудиодекодера 200' соответствует конструкции на фиг.10, за исключением того, что устройство 30 может быть пропущено, если оно задействовано для операций с исходными функциями HRTF. Кроме того, бинауральный пространственный аудиодекодер 200' в примере на фиг.12 преобразует в выходной бинауральный сигнал 208 многоканальный сигнал 18, который содержит всего три канала. Так, блок ТТТ, или «2->3», выполняет функцию разделения двух каналов понижающего стереомикширования 204 на средний 242, правый 244 и левый 246 каналы. Говоря иначе, фиг.12 иллюстрирует пример, где под сигналом даунмикса 204 подразумевается сигнал стереофонического понижающего микширования. Пространственные параметры 206, обрабатываемые блоком ТТТ 248, содержат упомянутые выше коэффициенты предсказания канала. Ослабление тесноты корреляции достигается с помощью трех декорреляторов, обозначенных на фиг.12 как DelayL, Delay R, и DelayC. Они соответствуют этапу декорреляции, например, на фиг.1 и 7. Здесь следует напомнить, что фиг.12 иллюстрирует только последовательность преобразования сигнала пространственно-бинауральным аудиодекодером 200', в то время, как функциональная схема показана на фиг.10. Поэтому, несмотря на то, что элементы задержки, образующие минимизатор корреляции 12, изображены как компоненты схемы, обособленные от функций HRTF, формирующих направленные фильтры 14, наличие элементов задержки в структуре минимизатора корреляции 12 может рассматриваться как актуализация параметров HRTF, формирующих исходные функции HRTF направленных фильтров 14 на фиг.12. Прежде всего, фиг.12 показывает, что бинауральный пространственный аудиодекодер 200' обеспечивает декорреляцию каналов для воспроизведения через головные телефоны. Декорреляция достигается простыми средствами, в частности, соединением блока задержки при параметрическом преобразовании по матрице М и пространственно-бинаурального аудиодекодера 200'. Отсюда следует, что бинауральный пространственный аудиодекодер 200' может прилагать к каждому каналу приведенные ниже способы преобразования, а именно: задержка центрального канала предпочтительно, по меньшей мере, на один отсчет, задержка центрального канала на различные интервалы в каждой полосе частот, задержка левого и правого каналов предпочтительно, по меньшей мере, на один отсчет и/или задержка левого и правого каналов на различные интервалы в каждой полосе частот.
На фиг.13 приведен пример компоновки модифицированного пространственного подполосового аудиомодификатора с фиг.11. Подполосовой модификатор 234 на фиг.13 включает в себя блок «два-к-трем» или ТТТ 262, каскад взвешивания 264а-264е, первые сумматоры 266а и 266b, вторые сумматоры 268а и 268b, вход для стереодаунмикса 204, вход для пространственных параметров 206, дополнительный вход для разностного сигнала 270 и выход даунмикса 48, по версии фиг.13 - стереосигнала, для дальнейшей обработки пространственным процессором.
Как можно определить по схеме конструктивного решения модифицированного пространственного подполосового аудиомодификатора 234 на фиг.13, блок «2->3» (ТТТ) 262 просто реконструирует средний канал, правый канал 244 и левый канал 246 по сигналу понижающего стереомикширования 204 с использованием пространственных параметров 206. Можно еще раз вспомнить, что в контексте фиг.12 каналы 242-246 в расчетах, практически, не используются. Точнее сказать, бинауральный пространственный подполосовой аудиомодификатор преобразует матрицу М таким образом, что сигнал понижающего стереомикширования 204 прямо преобразуется в бинауральную компоненту, отражающую функции HRTF. Однако фактически на фиг.13 реконструкцию осуществляет блок ТТТ («два-на-три») 262. В качестве опции, как показано на фиг.13, блок ТТТ 262 может использовать разностный сигнал 270, отражающий предсказанную разность при воссоздании каналов 242-246 на базе понижающего стереомикширования 204 и пространственных параметров 206, которые, как сказано ранее, содержат коэффициенты предсказания каналов и, дополнительно, значения межканальной когерентности ICC. Первые сумматоры 266а предназначены для сложения каналов 242-246 с образованием левого канала сигнала понижающего стереомикширования 48. В частности, сумматоры 266а и 266b дают взвешенную сумму, для которой весовые значения определяются на стадиях взвешивания 264а, 264b, 264с и 264е, когда для каждого соответствующего канала с 246 по 242 определяется положенное весовое значение EQLL, ЕQRL и EQCL. Аналогично этому сумматоры 268а и 268b вычисляют взвешенную сумму каналов с 246 по 242 после шагов взвешивания 264b, 264d и 264е с нахождением весовых значений, после чего с помощью взвешенной суммы формируется правый канал понижающего стереомикширования 48.
Параметры 270 для серии взвешиваний 264а-264е отбираются так, что описанное выше снижение уровня центрального канала в составе стереодаунмикса 48 в результате обеспечивает естественное для восприятия звучание, о чем говорилось ранее.
Другими словами, фиг.13 демонстрирует модуль имитации акустического объема, который может быть скомбинирован с бинауральным параметрическим декодером 200' фиг.12. На фиг.13 на этот модуль подается микшированный с понижением сигнал (даунмикс) 204. Даунмикс 204 включает в себя все сигналы многоканального сигнала, обеспечивая полноценную стереофоническую сочетаемость. Как пояснялось выше, в модуль построения аудиопространства необходимо вводить только редуцированный центральный сигнал. Такое ослабление интенсивности осуществляет преобразованный пространственный модификатор подполос звуковых частот на фиг.13. В частности, как видно на фиг.13, для восстановления центрального, левого и правого каналов 242-246 может быть задействован разностный сигнал 270. Разностный сигнал центрального, левого и правого каналов 242-246 может быть декодирован аудиодекодером понижающего микширования 232 (фиг.11), который на фиг.13 не показан. Показатели EQ или взвешенные величины, использованные на этапе взвешивания 264а-264е, могут являться действительными для левого, правого и среднего каналов 242-246. Центральному каналу 242 могут быть заданы единые постоянные характеристики для равного микширования с левым и правым выходными каналами сигнала понижающего стереомикширования 48, что проиллюстрировано на фиг.13.
Показатели EQ 270, вводимые в преобразованный пространственный подполосовой аудиомодификатор 234, могут иметь приведенные ниже свойства. Во-первых, сигнал центрального канала может быть ослаблен, как рекомендуется, по меньшей мере, на 6 дБ. Кроме того, сигнал центрального канала может иметь низкочастотную характеристику. Далее, разностный сигнал остальных каналов может быть усилен на низких частотах. С целью компенсации пониженного уровня среднего канала 242 по сравнению с остальными каналами 244 и 246 с помощью бинаурального пространственного подполосового аудиомодификатора 202 пропорционально наращивают характеристики функций HRTF для среднего канала.
Основная цель задания параметров EQ - ослабление сигнала центрального канала на выходе в модуль построения окружающего звукового объема. Однако интенсивность центрального канала подлежит лишь ограниченному ослаблению: сигнал центрального канала вычитается из левого и правого каналов понижающего микширования в блоке ТТТ («два-на-три»). При сниженном центральном уровне в левом и правом каналах могут возникнуть различимые на слух артефакты. В силу этого, снижение уровня центрального канала на стадии EQ представляет собой поиск компромисса между ослаблением интенсивности и появлением артефактов. Набор фиксированных установок EQ возможен, но он не будет оптимальным для всех сигналов. Таким образом, в конструктивное решение следует включить алгоритм или модуль адаптации 274, который управлял бы глубиной снижения уровня центрального канала с использованием одного или комбинации из приведенных ниже параметров.
Пространственные параметры 206, используемые для декодирования блоком ТТТ 262 центрального канала 242 из левого и правого каналов понижающего микширования 204, могут использоваться согласно конфигурации, обозначенной пунктирной линией 276.
Параметры уровня центрального, левого и правого каналов могут быть использованы согласно пунктирной линии 278.
Разности уровней центрального, левого и правого каналов 242-246 также могут быть использованы, как обозначено пунктирной линией 278.
Результат применения алгоритма распознавания одного типа сигнала, например, детектора активности речи, также может применен в соответствии с пунктирной линией 278.
Наконец, статические или динамические метаданные, описывающие звуковой контент, могут быть задействованы для определения степени снижения интенсивности центрального канала, на что указывает пунктирная линия 280.
Несмотря на то, что большинство аспектов изобретения рассматривается здесь с точки зрения конструктивного решения устройства, очевидно, что такие решения не могут не затрагивать описание соответствующих способов, поскольку любой элемент или устройство, задействованные с определенной целью, соответствуют некоторой стадии осуществления способа или отличительной особенности способа. Точно также при рассмотрении аспектов реализации какого-либо способа присутствует описание соответствующего компонента, или блока, или конструктивной особенности соответствующего устройства, например, элемента специализированной интегральной схемы ASIC, подпрограммы программного кода или фрагмента программируемой логики.
Относящийся к изобретению кодированный аудиосигнал может быть сохранен в цифровой запоминающей среде или может быть транслирован в среде передачи информации, такой как беспроводная передающая среда или проводная передающая среда, например, Интернет.
В зависимости от конечного назначения и особенностей практического применения изобретение может быть реализовано в аппаратных или программных средствах. При техническом исполнении могут быть использованы цифровые носители и накопители данных, такие, в частности, как гибкий диск, DVD, CD, ROM, ППЗУ, программируемое ПЗУ, СППЗУ или ФЛЭШ-память, способные хранить электронно считываемые сигналы управления и взаимодействовать с программируемой компьютерной средой таким образом, чтобы мог быть осуществлен соответствующий способ.
Некоторые варианты конструкции согласно данному изобретению имеют в своем составе носитель информации, содержащий электронно считываемые сигналы управления, совместимый с программируемой компьютерной системой и способный участвовать в реализации одного из описанных здесь способов.
В целом данное изобретение может быть реализовано как компьютерный программный продукт с кодом программы, обеспечивающим осуществление одного из предлагаемых способов при условии, что компьютерный программный продукт используется с применением компьютера. Код программы может, например, храниться на машиночитаемом носителе.
Различные варианты реализации включают в себя компьютерную программу, хранящуюся на машиночитаемом носителе, для осуществления одного из описанных здесь способов.
Таким образом, формулируя иначе, относящийся к изобретению способ осуществляется с помощью компьютерной программы, имеющей код программы, обеспечивающий реализацию одного из описанных здесь способов, если компьютерную программу выполняют с использованием компьютера.
Далее, следовательно, техническое исполнение изобретенного способа включает в себя носитель данных (либо цифровой накопитель информации, либо читаемую компьютером среду), содержащий записанную на нем компьютерную программу, предназначенную для осуществления одного из способов, описанных здесь.
Отсюда следует, что реализация изобретения подразумевает наличие потока данных или последовательности сигналов, представляющих компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов могут быть рассчитаны на передачу через средства связи, например, Интернет.
Кроме того, реализация включает в себя аппаратные средства, например, компьютер или программируемое логическое устройство, предназначенные или приспособленные для осуществления одного из описанных здесь способов.
Далее, для технического исполнения требуется компьютер с установленной на нем компьютерной программой для осуществления одного из описанных здесь способов.
Некоторые версии конструкции для реализации одной или всех функциональных возможностей описанных здесь способов могут потребовать применения программируемого логического устройства (например, полевой программируемой матрицы логических элементов). В зависимости от назначения версии базовый матричный кристалл может сочетаться с микропроцессором с целью осуществления одного из описанных здесь способов. Как правило, описываемые способы могут быть реализованы с использованием любого аппаратного средства.
Описанные выше конструктивные решения являются только иллюстрациями основных принципов настоящего изобретения. Подразумевается, что для специалистов в данной области возможность внесения изменений и усовершенствований в компоновку и элементы описанной конструкции очевидна. В силу этого, представленные здесь описания и пояснения вариантов реализации изобретения ограничиваются только рамками патентных требований, а не конкретными деталями.

Claims (33)

1. Устройство, генерирующее на базе многоканального сигнала, представляющего совокупность каналов, бинауральный сигнал, предназначенный для воспроизведения через систему динамиков, где положение каждого виртуального источника звука соотнесено с индивидуальным каналом, включающее блок минимизации подобия (12) для дифференцированной обработки и за счет нее уменьшения степени подобия, по меньшей мере, одного левого и одного правого канала из множества каналов, одного переднего и одного заднего канала из множества каналов, одного центрального и одного нецентрального канала из множества каналов с целью формирования комбинации каналов с минимизированным взаимным подобием (20); набор (14) направленных фильтров для моделирования звукопередачи определенной комбинацией каналов с минимизированным подобием (20) от виртуального источника звука, позиционно соотнесенного с соответствующим каналом из набора каналов с минимизированным подобием, к ушному каналу слушателя; первый микшер (16а) для смешения выходных сигналов направленных фильтров, моделирующий звукопередачу к первому ушному каналу слушателя, с целью формирования первого канала (22а) бинаурального сигнала; и второй микшер (16b) для смешения выходных сигналов направленных фильтров, моделирующий звукопередачу ко второму ушному каналу слушателя, с целью формирования второго канала (22b) бинаурального сигнала; понижающий микшер (42), генерирующий сигнал понижающего моно- или стереомикширования множества каналов, представленных многоканальным сигналом; и процессор построения акустического пространства [пространственный процессор] (44), генерирующий эффекты звукоотражения/реверберации в составе бинаурального сигнала, включая выход первого канала и выход второго канала, моделируя отражение звука/реверберацию на базе моно или стереосигнала; первый сумматор (116), совмещающий выход первого канала пространственного процессора с первым каналом (22а) бинаурального сигнала; и второй сумматор (118), совмещающий выход второго канала пространственного процессора со вторым каналом (22b) бинаурального сигнала.
2. Устройство по п.1, в составе которого минимизатор подобия (12) выполняет дифференцированное преобразование путем введения относительной задержки и/или дифференцированного изменения в спектральной области фазовых характеристик, по меньшей мере, одного левого и одного правого канала из множества каналов, одного переднего и одного заднего канала из множества каналов и центрального и нецентрального канала из множества каналов, и/или дифференцированного изменения в спектральной области амплитудных характеристик, по меньшей мере, одного левого и одного правого канала из множества каналов, одного переднего и одного заднего канала из множества каналов и одного центрального и одного нецентрального канала из множества каналов.
3. Устройство, генерирующее на базе многоканального сигнала, представляющего совокупность каналов, бинауральный сигнал, предназначенный для воспроизведения через систему динамиков, где положение каждого виртуального источника звука соотнесено с индивидуальным каналом, включающее минимизатор подобия (12), вводящий задержку относительно друг друга и/или выполняющий в спектральной области дифференцированное фазовое и/или амплитудное преобразование, по меньшей мере, двух каналов из множества каналов с целью формирования комбинации каналов с минимизированным взаимным подобием (20); набор из множества направленных фильтров (14) для моделирования звукопередачи определенной совокупностью каналов с минимизированным взаимным подобием (20) от виртуального источника звука, позиционно соотнесенного с соответствующим каналом из совокупности каналов с минимизированным подобием, к ушному каналу слушателя; первый микшер (16а) для смешения выходных сигналов направленных фильтров, моделирующий звукопередачу к первому ушному каналу слушателя, с целью формирования первого канала (22а) бинаурального сигнала; и второй микшер (16b) для смешения выходных сигналов направленных фильтров, моделирующий звукопередачу ко второму ушному каналу слушателя, с целью формирования второго канала (22b) бинаурального сигнала; понижающий микшер (42), генерирующий сигнал понижающего моно- или стереомикширования множества каналов, представленных многоканальным сигналом; процессор построения акустического пространства (44), генерирующий эффекты отражения звука/реверберации в закрытом пространстве на базе моно- или стереосигнала для бинаурального сигнала, включая выход первого канала и выход второго канала; первый сумматор (116), совмещающий выход первого канала пространственного процессора с первым каналом (22а) бинаурального сигнала; и второй сумматор (118), совмещающий выход второго канала пространственного процессора со вторым каналом (22b) бинаурального сигнала.
4. Устройство, формирующее набор передаточных функций HRTF с минимизацией взаимного подобия, имитирующих слуховой тракт для моделирования звукопередачи множеством каналов от виртуального источника звука, расположение которого соотнесено с определенным каналом, к ушным каналам слушателя, включающее в себя: построитель функций HRTF (32), предназначенный для образования исходной совокупности передаточных функций головы слушателя (HRTF), выполненный в виде набора фильтров КИХ путем подбора или вычисления подполос фильтра для каждого исходного множества функций HRTF, чувствительных к выбору или изменению позиций виртуального источника звука; и процессор HRTF (34), задающий импульсные характеристики функциям HRTF, моделирующим передачу звука предварительно выбранной парой каналов с взаимной задержкой, или дифференцированно модулирующий в спектральной области фазовые и/или амплитудные характеристики функций HRTF, при этом пара каналов состоит из левого и правого канала из множества каналов, фронтального и тыльного канала из множества каналов и центрального и нецентрального канала из множества каналов.
5. Устройство по п.4, в котором процессор HRTF (34) вводит задержку относительно друг друга импульсных характеристик функций HRTF, моделирующих передачу звука заданной парой каналов, путем смещения подполос фильтрования.
6. Устройство по п.4, в котором процессор HRTF (34) вводит задержку относительно друг друга импульсных характеристик функций HRTF, моделирующих передачу звука заданной парой каналов, или дифференцированно преобразует в спектральной области их фазовые и/или амплитудные характеристики таким образом, что групповые задержки первой из функций HRTF относительно другой функции HRTF показывают по шкале барков стандартное отклонение, минимум, на одну восьмую отсчета.
7. Устройство по п.4, в котором построитель функций HRTF (32) образует исходную совокупность функций HRTF на базе точек взаиморасположения виртуальных источников звука и параметров HRTF.
8. Устройство по п.4, в котором процессор HRTF (34) выполняет дифференцированную всечастотную фильтрацию импульсных характеристик предварительно выбранной пары каналов.
9. Способ генерации бинаурального сигнала на основе многоканального сигнала для воспроизведения через систему динамиков, где взаиморасположение виртуальных источников звука соотнесено с индивидуальным каналом, включающий в себя: дифференцированное преобразование и за счет него ослабление корреляции между, по меньшей мере, одним левым и правым каналом из множества каналов, фронтальным и тыловым каналом из множества каналов и центральным и нецентральным каналом из множества каналов для формирования комбинации каналов (20) с минимизированным взаимным подобием; преобразование совокупности каналов (20) с минимизированным подобием множеством (14) направленных фильтров для моделирования звукопередачи одним из набора каналов (20) от виртуального акустического источника, местоположение которого соотнесено с индивидуальным каналом из набора каналов (20), к соответствующему ушному каналу слушателя; смешение выходных сигналов направленных фильтров с моделированием звукопередачи к первому ушному каналу слушателя для формирования первого канала (22а) бинаурального сигнала; и смешение выходных сигналов направленных фильтров с моделированием звукопередачи ко второму ушному каналу слушателя для формирования второго канала (22b) бинаурального сигнала; формирование сигнала понижающего моно- или стереомикширования множества каналов, представленных многоканальным сигналом; генерацию смоделированных на основе моно- или стереосигнала эффектов отражения звука/реверберации в ограниченном пространстве в структуре бинаурального сигнала, включая выход первого канала и выход второго канала; совмещение выхода первого канала пространственного процессора с первым каналом (22а) бинаурального сигнала; и совмещение выхода второго канала пространственного процессора с вторым каналом (22b) бинаурального сигнала.
10. Способ генерации бинаурального сигнала на основе многоканального сигнала для воспроизведения через систему динамиков, где взаиморасположение виртуальных источников звука соотнесено с индивидуальным каналом, включающий в себя: дифференцированное фазовое и/или амплитудное преобразование, по меньшей мере, двух каналов из множества каналов с целью формирования набора каналов (20) с минимизированным взаимным подобием; передачу совокупности каналов (20) с минимизированным взаимным подобием на комплект направленных фильтров (14) для моделирования передачи звука одним из группы каналов (20) с минимизированным взаимным подобием от виртуального источника звука, расположение которого соотнесено с заданным каналом из группы каналов (20), к соответствующему ушному каналу слушателя; смешение выходных сигналов направленных фильтров с моделированием звукопередачи к первому ушному каналу слушателя для формирования первого канала (22а) бинаурального сигнала; и смешение выходных сигналов направленных фильтров с моделированием звукопередачи ко второму ушному каналу слушателя для формирования второго канала (22b) бинаурального сигнала; формирование сигнала понижающего моно- или стереомикширования множества каналов, представленных многоканальным сигналом; генерацию смоделированных на основе моно- или стереосигнала эффектов отражения звука/реверберации в ограниченном пространстве в структуре бинаурального сигнала, включая выход первого канала и выход второго канала; совмещение выхода первого канала пространственного процессора с первым каналом (22а) бинаурального сигнала; и совмещение выхода второго канала пространственного процессора с вторым каналом (22b) бинаурального сигнала.
11. Способ образования набора передаточных функций слухового тракта человека (HRTF) с минимизированным взаимным подобием для моделирования звукопередачи множеством каналов от виртуального акустического источника, положение которого соотнесено с определенным каналом, к ушным каналам человека, включающий в себя: образование исходной совокупности функций HRTF в виде фильтров КИХ путем подбора или вычисления подполос фильтра для каждого исходного множества функций HRTF, чувствительных к выбору или изменению позиций виртуального источника звука; и дифференцированное преобразование в спектральной области фаз и/или амплитуд импульсных характеристик функций HRTF, моделирующих передачу звука заданной парой каналов таким образом, что группа задержек первой из функций HRTF относительно другой HRTF показывает по шкале барков стандартное отклонение, как минимум, на одну восьмую отсчета, причем, пара каналов представлена левым и правым каналом из множества каналов, фронтальным и тыловым каналом из множества каналов и центральным и нецентральным каналом из множества каналов.
12. Машиночитаемый носитель информации с записанной на него компьютерной программой для реализации, будучи выполненной на компьютере, способа по п. 9.
13. Машиночитаемый носитель информации с записанной на него компьютерной программой для реализации, будучи выполненной на компьютере, способа по п. 10.
14. Машиночитаемый носитель информации с записанной на него компьютерной программой для реализации, будучи выполненной на компьютере, способа по п. 11.
15. Устройство, генерирующее составляющие эффектов отражения звука/реверберации в бинауральном сигнале на базе многоканального сигнала, представляющего множество каналов, предназначенном для воспроизведения через систему динамиков, где положение каждого виртуального источника звука соотнесено с индивидуальным каналом, включающее в свой состав понижающий микшер, генерирующий сигнал понижающего моно- или стереомикширования каналов многоканального сигнала; и процессор построения акустического пространства, генерирующий для бинаурального сигнала на базе моно- или стереосигнала эффекты отражения звука/реверберации в помещении, причем, понижающий микшер выполняет понижающее моно- или стереомикширование таким образом, что множество каналов участвуют в понижающем моно- или стереомикшировании при уровне, отличающемся, по меньшей мере, от двух каналов многоканального сигнала, при этом понижающий микшер выполняет понижающее моно- или стереомикширование таким образом, что центральный канал из множества каналов участвует в понижающем моно- или стереомикшировании в редуцированном относительно других каналов многоканального сигнала виде.
16. Устройство по п.15, в котором понижающий микшер, применяя пространственное аудиокодирование, реконструирует совокупность каналов на основе микшированного с понижением сигнала с использованием сопроводительных пространственных параметров, описывающих разности уровней, сдвиги фаз, разновременность и/или степень корреляции между множеством каналов.
17. Устройство по п.16, в котором понижающий микшер формирует даунмикс таким образом, что глубина снижения уровня первого из взятых, по меньшей мере, двух каналов относительно второго из этих, по меньшей мере, двух каналов зависит от пространственных параметров.
18. Устройство по п.16, в котором понижающий микшер, применяя пространственное аудиокодирование, реконструирует совокупность каналов на основе микшированного с понижением сигнала с использованием коэффициентов предсказания канала, описывающих, как каналы сигнала понижающего стереомикширования должны быть линейно объединены с целью предсказания тройки, состоящей из центрального, правого и левого каналов, а также разностного сигнала (270), отражающего остаток предсказания указанной тройки.
19. Устройство по п.15 или 16 или 17 или 18, в котором понижающий микшер генерирует даунмикс таким образом, что степень снижения уровня относительно второго из этих, по меньшей мере, двух каналов зависит от разности уровней и/или корреляции между индивидуальными каналами из совокупности каналов.
20. Устройство по п. 19, в котором понижающий микшер увеличивает расхождение уровней и/или корреляции между индивидуальными каналами из множества каналов, основываясь на пространственных параметрах, сопровождающих микшированный с понижением сигнал, совокупно представляющих множество каналов.
21. Устройство по п. 15 или 16 или 17 или 18, в составе которого понижающий микшер генерирует даунмикс таким образом, что глубина снижения уровня первого из этих, по меньшей мере, двух каналов по отношению ко второму из этих, по меньшей мере, двух каналов изменяется во времени, на что указывает индикатор изменения времени, пересылаемый в составе служебных данных в многоканальном сигнале.
22. Устройство по п. 15, также включающее детектор типа сигнала, распознающий речевые и неречевые фазы в многоканальном сигнале, в составе которого понижающий микшер генерирует даунмикс таким образом, что степень снижения уровня в речевых фазах выше, чем в неречевых фазах.
23. Способ создания эффектов отражения звука/реверберации в ограниченном пространстве в составе бинаурального сигнала, сформированного на базе многоканального сигнала, представляющего множество каналов, и предназначенного для воспроизведения через систему динамиков, где взаиморасположение виртуальных источников звука соотнесено с индивидуальным каналом, включающий моно- или стереофоническое понижающее микширование каналов многоканального сигнала; и генерацию эффектов звукоотражения/реверберации пространственного объема в составе бинаурального сигнала с целью моделирования звукоотражения/реверберации на основе моно- или стереосигнала, причем, понижающий микшер выполняет понижающее моно- или стереомикширование таким образом, что множественные каналы участвуют в понижающем моно- или стереомикшировании при уровне, отличающемся, по меньшей мере, от двух каналов многоканального сигнала, при этом, участвуя в формировании моно- или стереодаунмикса, центральный канал из множества каналов имеет уровень, сниженный относительно других каналов многоканального сигнала.
24. Устройство, генерирующее составляющие эффектов отражения звука/реверберации в бинауральном сигнале на базе многоканального сигнала, представляющего множество каналов, предназначенном для воспроизведения через систему динамиков, где положение каждого виртуального источника звука соотнесено с индивидуальным каналом, включающее в свой состав: понижающий микшер, генерирующий сигнал понижающего моно- или стереомикширования каналов многоканального сигнала; и процессор построения акустического пространства, генерирующий для бинаурального сигнала на базе моно- или стереосигнала эффекты отражения звука/реверберации в помещении, причем, понижающий микшер выполняет понижающее моно- или стереомикширование таким образом, что множественные каналы участвуют в понижающем моно- или стереомикшировании при уровне, отличающемся, по меньшей мере, от двух каналов многоканального сигнала, при этом понижающий микшер, применяя пространственное аудиокодирование, реконструирует совокупность каналов на основе микшированного с понижением сигнала с использованием пространственных параметров сопроводительных данных, описывающих разности уровней, сдвиги фаз, разновременность и/или меры степени корреляции между множеством каналов, а также понижающий микшер генерирует даунмикс таким образом, что глубина снижения уровня первого из, по меньшей мере, двух каналов относительно второго из таких, по меньшей мере, двух каналов зависит от пространственных параметров.
25. Способ генерации составляющих эффектов отражения звука/реверберации в ограниченном пространстве в составе бинаурального сигнала, сформированного на базе многоканального сигнала, представляющего множество каналов, и предназначенного для воспроизведения через систему динамиков, где взаиморасположение виртуальных источников звука соотнесено с индивидуальным каналом, включающий в себя: моно- или стереофоническое понижающее микширование каналов многоканального сигнала; и генерацию эффектов звукоотражения/реверберации пространственного объема в составе бинаурального сигнала с целью моделирования звукоотражения/реверберации на основе моно- или стереосигнала, причем, понижающий микшер генерирует сигнал понижающего моно- или стереомикширования таким образом, что множество каналов участвует в формировании такого сигнала, имея уровень, отличающийся, по меньшей мере, от двух каналов многоканального сигнала; кроме того, способ включает в себя применение пространственного аудиокодирования для реконструкции совокупности каналов на основе микшированного с понижением сигнала с использованием пространственных параметров протокольных данных, описывающих разности уровней, сдвиги фаз, разновременность и/или степень корреляции между множеством каналов, и формирование даунмикса таким образом, что степень ослабления уровня первого из этих, по меньшей мере, двух каналов относительно второго из этих, по меньшей мере, двух каналов зависит от пространственных параметров.
26. Устройство, генерирующее составляющие эффектов отражения звука/реверберации в бинауральном сигнале на базе многоканального сигнала, представляющего множество каналов, предназначенном для воспроизведения через систему динамиков, где положение каждого виртуального источника звука соотнесено с индивидуальным каналом, включающее в свой состав: понижающий микшер, генерирующий сигнал понижающего моно- или стереомикширования каналов многоканального сигнала; и процессор построения акустического пространства, генерирующий для бинаурального сигнала на базе моно- или стереосигнала эффекты отражения звука/реверберации в помещении, причем, понижающий микшер выполняет понижающее моно- или стереомикширование таким образом, что множественные каналы участвуют в понижающем моно- или стереомикшировании при уровне, отличающемся, по меньшей мере, от двух каналов многоканального сигнала, при этом понижающий микшер выполняет понижающее микширование таким образом, что степень снижения уровня первого из этих, по меньшей мере, двух каналов относительно второго из этих, по меньшей мере, двух каналов зависит от разности уровней и/или корреляции между индивидуальными каналами совокупности каналов, или таким образом, что степень снижения первого из этих, по меньшей мере, двух каналов относительно второго из этих, по меньшей мере, двух каналов изменяется во времени, на что указывает индикатор изменения времени, включенный в служебную информацию многоканального сигнала.
27. Способ генерации эффектов отражения звука/реверберации в ограниченном пространстве в составе бинаурального сигнала, сформированного на базе многоканального сигнала, представляющего множество каналов, и предназначенного для воспроизведения через систему динамиков, где взаиморасположение виртуальных источников звука соотнесено с индивидуальным каналом, включающий моно- или стереофоническое понижающее микширование каналов многоканального сигнала; и генерацию эффектов звукоотражения/реверберации пространственного объема в составе бинаурального сигнала с целью моделирования звукоотражения/реверберации на основе моно- или стереосигнала, причем, понижающий микшер генерирует сигнал понижающего моно- или стереомикширования таким образом, что множество каналов участвует в формировании такого сигнала, имея уровень, отличающийся, по меньшей мере, от двух каналов многоканального сигнала; причем понижающее микширование выполняется таким образом, что глубина снижения уровня первого из этих, по меньшей мере, двух каналов относительно второго из этих, по меньшей мере, двух каналов зависит от разности уровней и/или корреляции между индивидуальными каналами множества каналов; или таким образом, что степень снижения первого из этих, по меньшей мере, двух каналов относительно второго из этих, по меньшей, мере двух каналов изменяется во времени, на что указывает индикатор изменения времени, включенный в служебную информацию многоканального сигнала.
28. Устройство, генерирующее эффект отражения звука/реверберации в бинауральном сигнале на базе многоканального сигнала, представляющего множество каналов, предназначенном для воспроизведения через систему динамиков, где положение каждого виртуального источника звука соотнесено с индивидуальным каналом, включающее в свой состав: понижающий микшер, генерирующий сигнал понижающего моно- или стереомикширования каналов многоканального сигнала; и процессор построения акустического пространства, генерирующий для бинаурального сигнала на базе моно- или стереосигнала эффекты отражения звука/реверберации в помещении, причем, понижающий микшер выполняет понижающее моно- или стереомикширование таким образом, что множественные каналы участвуют в понижающем моно- или стереомикшировании при уровне, отличающемся, по меньшей мере, от двух каналов многоканального сигнала, кроме того, устройство включает в себя: детектор типа сигнала, распознающий речевые и неречевые фазы в многоканальном сигнале, в составе которого понижающий микшер генерирует даунмикс таким образом, что степень снижения уровня в речевых фазах выше, чем в неречевых фазах.
29. Способ генерации эффектов отражения звука/реверберации в ограниченном пространстве в составе бинаурального сигнала, сформированного на базе многоканального сигнала, представляющего множество каналов, и предназначенного для воспроизведения через систему динамиков, где взаиморасположение виртуальных источников звука соотнесено с индивидуальным каналом, включающий в себя: моно- или стереофоническое понижающее микширование каналов многоканального сигнала; и генерацию эффектов звукоотражения/реверберации пространственного объема в составе бинаурального сигнала с целью моделирования звукоотражения/реверберации на основе моно- или стереосигнала, причем, понижающий микшер генерирует сигнал понижающего моно- или стереомикширования таким образом, что множество каналов участвует в формировании такого сигнала, имея уровень, отличающийся, по меньшей мере, от двух каналов многоканального сигнала; кроме того, способ включает в себя: распознавание речевых и неречевых фаз многоканального сигнала, который формируется так, что в речевых фазах уровень снижается сильнее, чем в неречевых фазах.
30. Машиночитаемый носитель информации с записанной на него компьютерной программой для реализации, будучи выполненной на компьютере, способа по п. 23.
31. Машиночитаемый носитель информации с записанной на него компьютерной программой для реализации, будучи выполненной на компьютере, способа по п. 25.
32. Машиночитаемый носитель информации с записанной на него компьютерной программой для реализации, будучи выполненной на компьютере, способа по п. 27.
33. Машиночитаемый носитель информации с записанной на него компьютерной программой для реализации, будучи выполненной на компьютере, способа по п. 29.
RU2011105972/08A 2008-07-31 2009-07-30 Формирование бинауральных сигналов RU2505941C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US8528608P 2008-07-31 2008-07-31
US61/085,286 2008-07-31
PCT/EP2009/005548 WO2010012478A2 (en) 2008-07-31 2009-07-30 Signal generation for binaural signals

Publications (2)

Publication Number Publication Date
RU2011105972A RU2011105972A (ru) 2012-08-27
RU2505941C2 true RU2505941C2 (ru) 2014-01-27

Family

ID=41107586

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2011105972/08A RU2505941C2 (ru) 2008-07-31 2009-07-30 Формирование бинауральных сигналов

Country Status (13)

Country Link
US (1) US9226089B2 (ru)
EP (3) EP2384028B1 (ru)
JP (2) JP5746621B2 (ru)
KR (3) KR101313516B1 (ru)
CN (3) CN103561378B (ru)
AU (1) AU2009275418B9 (ru)
BR (1) BRPI0911729B1 (ru)
CA (3) CA2820199C (ru)
ES (3) ES2531422T3 (ru)
HK (3) HK1156139A1 (ru)
PL (3) PL2384028T3 (ru)
RU (1) RU2505941C2 (ru)
WO (1) WO2010012478A2 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2780536C1 (ru) * 2018-12-19 2022-09-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Оборудование и способ для воспроизведения пространственно протяженного источника звука или оборудование и способ для формирования потока битов из пространственно протяженного источника звука
US11937068B2 (en) 2018-12-19 2024-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
JP5679340B2 (ja) * 2008-12-22 2015-03-04 コーニンクレッカ フィリップス エヌ ヴェ 送信効果処理による出力信号の生成
US9462387B2 (en) 2011-01-05 2016-10-04 Koninklijke Philips N.V. Audio system and method of operation therefor
KR101842257B1 (ko) * 2011-09-14 2018-05-15 삼성전자주식회사 신호 처리 방법, 그에 따른 엔코딩 장치, 및 그에 따른 디코딩 장치
AU2013235068B2 (en) 2012-03-23 2015-11-12 Dolby Laboratories Licensing Corporation Method and system for head-related transfer function generation by linear mixing of head-related transfer functions
JP5949270B2 (ja) * 2012-07-24 2016-07-06 富士通株式会社 オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム
EP2939443B1 (en) 2012-12-27 2018-02-14 DTS, Inc. System and method for variable decorrelation of audio signals
JP2014175670A (ja) * 2013-03-05 2014-09-22 Nec Saitama Ltd 情報端末装置及び音響制御方法並びにプログラム
US9794715B2 (en) * 2013-03-13 2017-10-17 Dts Llc System and methods for processing stereo audio content
US10219093B2 (en) * 2013-03-14 2019-02-26 Michael Luna Mono-spatial audio processing to provide spatial messaging
CN104982042B (zh) * 2013-04-19 2018-06-08 韩国电子通信研究院 多信道音频信号处理装置及方法
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
WO2014204377A1 (en) * 2013-05-02 2014-12-24 Dirac Research Ab Audio decoder configured to convert audio input channels for headphone listening
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2840811A1 (en) * 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2830335A3 (en) * 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, and computer program for mapping first and second input channels to at least one output channel
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
WO2015032009A1 (es) * 2013-09-09 2015-03-12 Recabal Guiraldes Pablo Método y sistema de tamaño reducido para la decodificación de señales de audio en señales de audio binaural
WO2015041478A1 (ko) 2013-09-17 2015-03-26 주식회사 윌러스표준기술연구소 멀티미디어 신호 처리 방법 및 장치
CN108347689B (zh) 2013-10-22 2021-01-01 延世大学工业学术合作社 用于处理音频信号的方法和设备
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
KR102157118B1 (ko) 2013-12-23 2020-09-17 주식회사 윌러스표준기술연구소 오디오 신호의 필터 생성 방법 및 이를 위한 파라메터화 장치
ES2837864T3 (es) * 2014-01-03 2021-07-01 Dolby Laboratories Licensing Corp Generación de audio binaural en respuesta a un audio multicanal que usa al menos una red de retardo de retroalimentación
WO2015102920A1 (en) * 2014-01-03 2015-07-09 Dolby Laboratories Licensing Corporation Generating binaural audio in response to multi-channel audio using at least one feedback delay network
CN104768121A (zh) * 2014-01-03 2015-07-08 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
US9832585B2 (en) * 2014-03-19 2017-11-28 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and apparatus
US9848275B2 (en) 2014-04-02 2017-12-19 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and device
WO2016028199A1 (en) * 2014-08-21 2016-02-25 Dirac Research Ab Personal multichannel audio precompensation controller design
CN104581602B (zh) * 2014-10-27 2019-09-27 广州酷狗计算机科技有限公司 录音数据训练方法、多轨音频环绕方法及装置
CN106537942A (zh) * 2014-11-11 2017-03-22 谷歌公司 3d沉浸式空间音频系统和方法
US10149082B2 (en) 2015-02-12 2018-12-04 Dolby Laboratories Licensing Corporation Reverberation generation for headphone virtualization
US9860666B2 (en) * 2015-06-18 2018-01-02 Nokia Technologies Oy Binaural audio reproduction
WO2017061218A1 (ja) * 2015-10-09 2017-04-13 ソニー株式会社 音響出力装置、音響生成方法及びプログラム
JP6658026B2 (ja) * 2016-02-04 2020-03-04 株式会社Jvcケンウッド フィルタ生成装置、フィルタ生成方法、及び音像定位処理方法
KR102513586B1 (ko) * 2016-07-13 2023-03-27 삼성전자주식회사 전자 장치 및 전자 장치의 오디오 출력 방법
KR102531886B1 (ko) 2016-08-17 2023-05-16 삼성전자주식회사 전자장치 및 그 제어방법
KR102502383B1 (ko) * 2017-03-27 2023-02-23 가우디오랩 주식회사 오디오 신호 처리 방법 및 장치
CN108665902B (zh) 2017-03-31 2020-12-01 华为技术有限公司 多声道信号的编解码方法和编解码器
CN110462731B (zh) * 2017-04-07 2023-07-04 迪拉克研究公司 一种用于音频应用的新颖的参数均衡
CN107205207B (zh) * 2017-05-17 2019-01-29 华南理工大学 一种基于中垂面特性的虚拟声像近似获取方法
CN109036446B (zh) * 2017-06-08 2022-03-04 腾讯科技(深圳)有限公司 一种音频数据处理方法以及相关设备
WO2019105575A1 (en) * 2017-12-01 2019-06-06 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
US11395083B2 (en) * 2018-02-01 2022-07-19 Qualcomm Incorporated Scalable unified audio renderer
CN111886882A (zh) * 2018-03-19 2020-11-03 OeAW奥地利科学院 用于确定特定于收听者的头部相关传递函数的方法
KR20190124631A (ko) 2018-04-26 2019-11-05 제이엔씨 주식회사 액정 조성물 및 액정 표시 소자
CN116170722A (zh) 2018-07-23 2023-05-26 杜比实验室特许公司 通过多个近场换能器渲染双耳音频
CN109005496A (zh) * 2018-07-26 2018-12-14 西北工业大学 一种hrtf中垂面方位增强方法
KR102531634B1 (ko) 2018-08-10 2023-05-11 삼성전자주식회사 오디오 장치 및 그 제어방법
DE102019107302A1 (de) * 2018-08-16 2020-02-20 Rheinisch-Westfälische Technische Hochschule (Rwth) Aachen Verfahren zum Erzeugen und Wiedergeben einer binauralen Aufnahme
CN110881164B (zh) * 2018-09-06 2021-01-26 宏碁股份有限公司 增益动态调节的音效控制方法及音效输出装置
CN109327766B (zh) * 2018-09-25 2021-04-30 Oppo广东移动通信有限公司 3d音效处理方法及相关产品
CN113228705A (zh) * 2018-12-28 2021-08-06 索尼集团公司 音频再现设备
WO2020151837A1 (en) * 2019-01-25 2020-07-30 Huawei Technologies Co., Ltd. Method and apparatus for processing a stereo signal
JP7270186B2 (ja) * 2019-03-27 2023-05-10 パナソニックIpマネジメント株式会社 信号処理装置、音響再生システム、及び音響再生方法
CN111988703A (zh) * 2019-05-21 2020-11-24 北京中版超级立体信息科技有限公司 音频处理器及音频处理方法
JP7383942B2 (ja) * 2019-09-06 2023-11-21 ヤマハ株式会社 車載音響システムおよび車両
CN110853658B (zh) * 2019-11-26 2021-12-07 中国电影科学技术研究所 音频信号的下混方法、装置、计算机设备及可读存储介质
US10904690B1 (en) * 2019-12-15 2021-01-26 Nuvoton Technology Corporation Energy and phase correlated audio channels mixer
GB2590913A (en) * 2019-12-31 2021-07-14 Nokia Technologies Oy Spatial audio parameter encoding and associated decoding
US12100403B2 (en) * 2020-03-09 2024-09-24 Nippon Telegraph And Telephone Corporation Sound signal downmixing method, sound signal coding method, sound signal downmixing apparatus, sound signal coding apparatus, program and recording medium
CN111787465A (zh) * 2020-07-09 2020-10-16 瑞声科技(新加坡)有限公司 双声道设备的立体声效果检测方法
CN112019994B (zh) * 2020-08-12 2022-02-08 武汉理工大学 一种基于虚拟扬声器构建车内扩散声场环境的方法及装置
CN112731289B (zh) * 2020-12-10 2024-05-07 深港产学研基地(北京大学香港科技大学深圳研修院) 一种基于加权模板匹配的双耳声源定位方法和装置
JP2022152984A (ja) * 2021-03-29 2022-10-12 ヤマハ株式会社 オーディオミキサ及び音響信号の処理方法
CN113365189B (zh) * 2021-06-04 2022-08-05 上海傅硅电子科技有限公司 多声道无缝切换方法
GB2609667A (en) * 2021-08-13 2023-02-15 British Broadcasting Corp Audio rendering
EP4413749A1 (en) * 2021-10-08 2024-08-14 Dolby Laboratories Licensing Corporation Headtracking adjusted binaural audio
CN114630240B (zh) * 2022-03-16 2024-01-16 北京小米移动软件有限公司 方向滤波器的生成方法、音频处理方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999014983A1 (en) * 1997-09-16 1999-03-25 Lake Dsp Pty. Limited Utilisation of filtering effects in stereo headphone devices to enhance spatialization of source around a listener
RU2323551C1 (ru) * 2004-03-04 2008-04-27 Эйджир Системс Инк. Частотно-ориентированное кодирование каналов в параметрических системах многоканального кодирования
RU2329548C2 (ru) * 2004-01-20 2008-07-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ создания многоканального выходного сигнала или формирования низведенного сигнала
RU2330390C2 (ru) * 2005-07-20 2008-07-27 Самсунг Электроникс Ко., Лтд. Способ и устройство для воспроизведения обширного монофонического звука

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3040896C2 (de) * 1979-11-01 1986-08-28 Victor Company Of Japan, Ltd., Yokohama, Kanagawa Schaltungsanordnung zur Erzeugung und Aufbereitung stereophoner Signale aus einem monophonen Signal
US5371799A (en) * 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
JP4306815B2 (ja) 1996-03-04 2009-08-05 富士通株式会社 線形予測係数を用いた立体音響処理装置
US6236730B1 (en) * 1997-05-19 2001-05-22 Qsound Labs, Inc. Full sound enhancement using multi-input sound signals
JPH11275696A (ja) 1998-01-22 1999-10-08 Sony Corp ヘッドホン、ヘッドホンアダプタおよびヘッドホン装置
JP2000069598A (ja) * 1998-08-24 2000-03-03 Victor Co Of Japan Ltd マルチチャンネルサラウンド再生装置及びマルチチヤンネルサラウンド再生における残響音生成方法
US6934676B2 (en) * 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
EP1430749A2 (en) * 2001-09-06 2004-06-23 Koninklijke Philips Electronics N.V. Audio reproducing device
JP3682032B2 (ja) 2002-05-13 2005-08-10 株式会社ダイマジック オーディオ装置並びにその再生用プログラム
US7949141B2 (en) * 2003-11-12 2011-05-24 Dolby Laboratories Licensing Corporation Processing audio signals with head related transfer function filters and a reverberator
PL1769491T3 (pl) * 2004-07-14 2010-03-31 Koninl Philips Electronics Nv Przekształcanie kanałów audio
KR100608024B1 (ko) * 2004-11-26 2006-08-02 삼성전자주식회사 다중 채널 오디오 입력 신호를 2채널 출력으로 재생하기위한 장치 및 방법과 이를 수행하기 위한 프로그램이기록된 기록매체
JP4414905B2 (ja) * 2005-02-03 2010-02-17 アルパイン株式会社 オーディオ装置
KR101315070B1 (ko) * 2005-09-13 2013-10-08 코닌클리케 필립스 일렉트로닉스 엔.브이. 3d 사운드를 발생하기 위한 방법 및 디바이스
ES2339888T3 (es) * 2006-02-21 2010-05-26 Koninklijke Philips Electronics N.V. Codificacion y decodificacion de audio.
KR100754220B1 (ko) * 2006-03-07 2007-09-03 삼성전자주식회사 Mpeg 서라운드를 위한 바이노럴 디코더 및 그 디코딩방법
WO2007106553A1 (en) * 2006-03-15 2007-09-20 Dolby Laboratories Licensing Corporation Binaural rendering using subband filters
CN101406074B (zh) * 2006-03-24 2012-07-18 杜比国际公司 解码器及相应方法、双耳解码器、包括该解码器的接收机或音频播放器及相应方法
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
FR2903562A1 (fr) * 2006-07-07 2008-01-11 France Telecom Spatialisation binaurale de donnees sonores encodees en compression.
US8488796B2 (en) * 2006-08-08 2013-07-16 Creative Technology Ltd 3D audio renderer
KR100763920B1 (ko) * 2006-08-09 2007-10-05 삼성전자주식회사 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2채널의 바이노럴 신호로 복호화하는 방법 및 장치
US20080273708A1 (en) * 2007-05-03 2008-11-06 Telefonaktiebolaget L M Ericsson (Publ) Early Reflection Method for Enhanced Externalization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999014983A1 (en) * 1997-09-16 1999-03-25 Lake Dsp Pty. Limited Utilisation of filtering effects in stereo headphone devices to enhance spatialization of source around a listener
RU2329548C2 (ru) * 2004-01-20 2008-07-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ создания многоканального выходного сигнала или формирования низведенного сигнала
RU2323551C1 (ru) * 2004-03-04 2008-04-27 Эйджир Системс Инк. Частотно-ориентированное кодирование каналов в параметрических системах многоканального кодирования
RU2330390C2 (ru) * 2005-07-20 2008-07-27 Самсунг Электроникс Ко., Лтд. Способ и устройство для воспроизведения обширного монофонического звука

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2780536C1 (ru) * 2018-12-19 2022-09-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Оборудование и способ для воспроизведения пространственно протяженного источника звука или оборудование и способ для формирования потока битов из пространственно протяженного источника звука
US11937068B2 (en) 2018-12-19 2024-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source
RU2783628C1 (ru) * 2022-02-25 2022-11-15 Николай Анатольевич Сныткин Устройство записи бинаурального объёмного звука "Сфера-10"

Also Published As

Publication number Publication date
KR20110039545A (ko) 2011-04-19
ES2524391T3 (es) 2014-12-09
CA2732079A1 (en) 2010-02-04
JP5860864B2 (ja) 2016-02-16
EP2384028A2 (en) 2011-11-02
CN103561378A (zh) 2014-02-05
AU2009275418A1 (en) 2010-02-04
CA2820199C (en) 2017-02-28
HK1163416A1 (en) 2012-09-07
KR20130004373A (ko) 2013-01-09
EP2384028B1 (en) 2014-11-05
HK1164009A1 (en) 2012-09-14
CN102172047A (zh) 2011-08-31
JP5746621B2 (ja) 2015-07-08
PL2384029T3 (pl) 2015-04-30
BRPI0911729A2 (pt) 2019-06-04
US9226089B2 (en) 2015-12-29
EP2384028A3 (en) 2012-10-24
US20110211702A1 (en) 2011-09-01
ES2531422T3 (es) 2015-03-13
EP2384029A2 (en) 2011-11-02
CN103634733A (zh) 2014-03-12
PL2304975T3 (pl) 2015-03-31
JP2014090464A (ja) 2014-05-15
WO2010012478A2 (en) 2010-02-04
CA2820199A1 (en) 2010-02-04
EP2304975A2 (en) 2011-04-06
AU2009275418B9 (en) 2014-01-09
EP2304975B1 (en) 2014-08-27
CA2732079C (en) 2016-09-27
HK1156139A1 (en) 2012-06-01
AU2009275418B2 (en) 2013-12-19
EP2384029A3 (en) 2012-10-24
JP2011529650A (ja) 2011-12-08
CN102172047B (zh) 2014-01-29
WO2010012478A3 (en) 2010-04-08
EP2384029B1 (en) 2014-09-10
CA2820208C (en) 2015-10-27
CN103634733B (zh) 2016-05-25
CA2820208A1 (en) 2010-02-04
ES2531422T8 (es) 2015-09-03
KR101366997B1 (ko) 2014-02-24
PL2384028T3 (pl) 2015-05-29
KR101313516B1 (ko) 2013-10-01
KR101354430B1 (ko) 2014-01-22
ES2528006T3 (es) 2015-02-03
BRPI0911729B1 (pt) 2021-03-02
CN103561378B (zh) 2015-12-23
KR20130004372A (ko) 2013-01-09
RU2011105972A (ru) 2012-08-27

Similar Documents

Publication Publication Date Title
RU2505941C2 (ru) Формирование бинауральных сигналов
US8553895B2 (en) Device and method for generating an encoded stereo signal of an audio piece or audio datastream
EP1989920B1 (en) Audio encoding and decoding
KR101010464B1 (ko) 멀티 채널 신호의 파라메트릭 표현으로부터 공간적 다운믹스 신호의 생성
US20120039477A1 (en) Audio signal synthesizing
RU2427978C2 (ru) Кодирование и декодирование аудио
AU2013263871B2 (en) Signal generation for binaural signals
AU2015207815B2 (en) Signal generation for binaural signals
MX2008010631A (es) Codificacion y decodificacion de audio