RU2818687C2 - Head tracking system and method for obtaining parametric binaural output signal - Google Patents

Head tracking system and method for obtaining parametric binaural output signal Download PDF

Info

Publication number
RU2818687C2
RU2818687C2 RU2020116816A RU2020116816A RU2818687C2 RU 2818687 C2 RU2818687 C2 RU 2818687C2 RU 2020116816 A RU2020116816 A RU 2020116816A RU 2020116816 A RU2020116816 A RU 2020116816A RU 2818687 C2 RU2818687 C2 RU 2818687C2
Authority
RU
Russia
Prior art keywords
dominant
audio component
estimate
initial output
determining
Prior art date
Application number
RU2020116816A
Other languages
Russian (ru)
Other versions
RU2020116816A (en
Inventor
Дирк Ерун Бребарт
Дэвид Мэттью Купер
Марк Ф. ДЭВИС
Дэвид С. МАКГРАТ
Кристофер ЧЕРЛИНГ
Харальд МУНДТ
Ронда Дж. УИЛСОН
Original Assignee
Долби Лэборетериз Лайсенсинг Корпорейшн
Долби Интернэшнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Лэборетериз Лайсенсинг Корпорейшн, Долби Интернэшнл Аб filed Critical Долби Лэборетериз Лайсенсинг Корпорейшн
Publication of RU2020116816A publication Critical patent/RU2020116816A/en
Application granted granted Critical
Publication of RU2818687C2 publication Critical patent/RU2818687C2/en

Links

Images

Abstract

FIELD: physics.
SUBSTANCE: invention relates to computer engineering for processing audio data. Technical result is achieved by rendering an input audio signal based on a channel or an object into an initial output representation; determining an estimate of a dominant audio component from an input audio signal based on a channel or an object, which includes: determining a sequence of weight components of a dominant audio component for mapping an initial output representation to a dominant audio component and determining an estimate of the dominant audio component based on the weight coefficients of the dominant audio component and the initial output representation; determining the direction or position of the dominant audio component; and encoding the initial output representation, weight coefficients of the dominant audio component and at least one of the direction and position of the dominant audio component as the encoded signal for reproduction.
EFFECT: elimination of asynchrony/delay between head movements and audio rendering in case of head tracking.
8 cl, 5 dwg

Description

Область техники, к которой относится изобретениеField of technology to which the invention relates

[0001] Настоящее изобретение обеспечивает системы и способы получения параметрического бинаурального выходного сигнала улучшенной формы, дополнительно используя слежение за движением головы.[0001] The present invention provides systems and methods for producing an improved parametric binaural output signal, further utilizing head tracking.

ЛитератураLiterature

[0002] Gundry, K., ʺA New Matrix Decoder for Surround Sound,ʺ AES 19th International Conf., Schloss Elmau, Germany, 2001.[0002] Gundry, K., “A New Matrix Decoder for Surround Sound,” AES 19th International Conf., Schloss Elmau, Germany, 2001.

[0003] Vinton, M., McGrath, D., Robinson, C., Brown, P., ʺNext generation surround decoding and up-mixing for consumer and professional applicationsʺ, AES 57th International Conf, Hollywood, CA, USA, 2015.[0003] Vinton, M., McGrath, D., Robinson, C., Brown, P., “Next generation surround decoding and up-mixing for consumer and professional applications,” AES 57th International Conf, Hollywood, CA, USA, 2015.

[0004] Wightman, F. L., and Kistler, D. J. (1989). ʺHeadphone simulation of free-field listening. I. Stimulus synthesis,ʺ J. Acoust. Soc. Am. 85, 858-867.[0004] Wightman, F. L., and Kistler, D. J. (1989). ʺHeadphone simulation of free-field listening. I. Stimulus synthesis, J. Acoust. Soc. Am. 85, 858-867.

[0005] ISO/IEC 14496-3:2009 - Information technology -- Coding of audio-visual objects -- Part 3: Audio, 2009.[0005] ISO/IEC 14496-3:2009 - Information technology -- Coding of audio-visual objects -- Part 3: Audio, 2009.

[0006] Mania, Katerina, et al. "Perceptual sensitivity to head tracking latency in virtual environments with varying degrees of scene complexity." Proceedings of the 1st Symposium on Applied perception in graphics and visualization. ACM, 2004.[0006] Mania, Katerina, et al. "Perceptual sensitivity to head tracking latency in virtual environments with varying degrees of scene complexity." Proceedings of the 1st Symposium on Applied perception in graphics and visualization. ACM, 2004.

[0007] Allison, R. S., Harris, L. R., Jenkin, M., Jasiobedzka, U., & Zacher, J. E. (2001, March). Tolerance of temporal delay in virtual environments. In Virtual Reality, 2001. Proceedings. IEEE (pp. 247-254). IEEE.[0007] Allison, R. S., Harris, L. R., Jenkin, M., Jasiobedzka, U., & Zacher, J. E. (2001, March). Tolerance of temporal delay in virtual environments. In Virtual Reality, 2001. Proceedings. IEEE (pp. 247-254). IEEE.

[0008] Van de Par, Steven, and Armin Kohlrausch. "Sensitivity to auditory-visual asynchrony and to jitter in auditory-visual timing." Electronic Imaging. International Society for Optics and Photonics, 2000.[0008] Van de Par, Steven, and Armin Kohlrausch. "Sensitivity to auditory-visual asynchrony and to jitter in auditory-visual timing." Electronic Imaging. International Society for Optics and Photonics, 2000.

Уровень техники изобретенияBACKGROUND OF THE INVENTION

[0009] Любое обсуждение уровня техники изобретения на протяжении всего описания никоим образом не должно рассматриваться как признание, что такой уровень техники широко известен или является частью обычных общих знаний в данной области.[0009] Any discussion of the prior art of the invention throughout the specification should in no way be construed as an admission that such prior art is widely known or forms part of the usual general knowledge in the art.

[0010] Создание контента, кодирование, распространение и воспроизведение аудиоконтента традиционно основывается на канале. То есть, одна конкретная целевая система воспроизведения предполагается для контента, проходящего по всей экосистеме контента. Примерами таких целевых систем воспроизведения являются моно-, стереосистемы, системы 5.1, 7.1, 7.1.4 и т.п.[0010] Content creation, encoding, distribution and playback of audio content has traditionally been channel-based. That is, one specific target playout system is envisioned for content flowing throughout the content ecosystem. Examples of such target playback systems are mono, stereo, 5.1, 7.1, 7.1.4, etc. systems.

[0011] Если контент должен воспроизводиться не на той системе, для которой он предназначен, может быть применено понижающее микширование или повышающее микширование. Например, контент 5.1 может воспроизводиться через систему стереовоспроизведения, используя определенные известные уравнения понижающего микширования. Другим примером является воспроизведение стереоконтента на установке громкоговорителей 7.1, которая может содержать так называемый процесс повышающего микширования, который может или не может управляться информацией, присутствующей в стереосигнале, такой, которая используется так называемыми матричными кодерами, такими как Dolby Pro Logic. Чтобы управлять процессом повышающего микширования, информация об исходном состоянии сигналов перед понижающим микшированием может быть сообщена неявно, вводя в уравнения понижающего микширования специальные фазовые соотношения, или, говоря иначе, применяя уравнения понижающего микширования с комплексными значениями. Известным примером такого способа понижающего микширования, использующего коэффициенты понижающего микширования с комплексными значениями для контента с громкоговорителями, расположенными в двух измерениях, является LtRt (Vinton и др., 2015).[0011] If content is to be played on a system other than the one for which it was intended, downmixing or upmixing may be applied. For example, 5.1 content can be played through a stereo playback system using certain known downmix equations. Another example is the playback of stereo content on a 7.1 speaker setup, which may contain a so-called upmixing process that may or may not be controlled by information present in the stereo signal, such as is used by so-called matrix encoders such as Dolby Pro Logic. To control the upmixing process, information about the initial state of the signals before downmixing can be communicated implicitly by introducing special phase relationships into the downmixing equations, or, put another way, using complex-valued downmixing equations. A well-known example of such a downmix technique that uses complex-valued downmix coefficients for content with speakers located in two dimensions is LtRt (Vinton et al., 2015).

[0012] Полученный в результате (стерео) сигнал с пониженным микшированием может быть воспроизведен через систему стереофонических громкоговорителей или может микшироваться вверх для установок с громкоговорителями звукового окружения и/или верхними фронтальными громкоговорителями. Целевое местоположение сигнала может быть получено посредством повышающего микширования из межканальных фазовых соотношений. Например, в стереопредставлении LtRt, сигнал, не совпадающий по фазе (например, имеющий нормированный коэффициент взаимной корреляции, близкий к -1, для формы межканального сигнала), должен, в идеале, воспроизводиться одним или более громкоговорителями с эффектом окружающего звука, тогда как положительный коэффициент корреляции (близкий к +1) указывает, что сигнал должен воспроизводиться фронтальными громкоговорителями, расположенными перед слушателем.[0012] The resulting downmixed (stereo) signal may be played through a stereo speaker system or may be upmixed for installations with surround speakers and/or front height speakers. The target signal location can be obtained by upmixing from the inter-channel phase relationships. For example, in the LtRt stereo representation, a signal that is out of phase (e.g., having a normalized cross-correlation coefficient close to -1 for the inter-channel waveform) should ideally be reproduced by one or more surround speakers, whereas a positive the correlation coefficient (close to +1) indicates that the signal should be reproduced by the front speakers located in front of the listener.

[0013] Было разработано множество алгоритмов и стратегий повышающего микширования, которые различаются своими стратегиями воссоздания многоканального сигнала из стерео даун-микса. Что касается относительно простых повышающих микшеров, то нормированный коэффициент взаимной корреляции стереосигналов отслеживается как функция времени, тогда как сигнал(-ы) на фронтальные или тыловые громкоговорители регулируется в зависимости от значения нормированного коэффициента взаимной корреляции. Этот подход хорошо работает для относительно простого контента, в котором в одно и то же время присутствует только один объект прослушивания. Более совершенные повышающие микшеры основываются на статистической информации, которую получают из конкретных частотных областей для управления сигнальным потоком от стереовхода к мультиканальным выходам (Gundry 2001, Vinton и др., 2015). Конкретно, модель сигнала, основанная на регулируемом или доминантном компоненте и остаточном (диффузном) стереосигнале, может использоваться в индивидуальных временных/частотных элементах разбиения. Помимо оценки доминантного компонента и остаточных сигналов, также оценивается угол направления (по азимуту, возможно, возрастающий с углом места) и в дальнейшем сигнал доминантной компоненты регулируется для одного или более громкоговорителей, чтобы во время воспроизведения реконструировать (оценочное) положение.[0013] A variety of upmixing algorithms and strategies have been developed that differ in their strategies for recreating a multi-channel signal from a stereo downmix. For relatively simple upmixers, the normalized cross-correlation coefficient of stereo signals is tracked as a function of time, while the signal(s) to the front or rear speakers is adjusted depending on the value of the normalized cross-correlation coefficient. This approach works well for relatively simple content that only has one listening target present at a time. More advanced upmixers rely on statistical information derived from specific frequency regions to control the signal flow from the stereo input to the multichannel outputs (Gundry 2001, Vinton et al. 2015). Specifically, a signal model based on the adjustable or dominant component and the residual (diffuse) stereo signal may be used in the individual time/frequency bins. In addition to estimating the dominant component and residual signals, the directional angle (in azimuth, possibly increasing with elevation) is also estimated and the dominant component signal is subsequently adjusted for one or more loudspeakers to reconstruct the (estimated) position during playback.

[0014] Использование матричных кодеров и декодеров/повышающих микшеров не ограничивается контентом, основанным на каналах. Последние разработки в аудиоиндустрии основаны на аудиообъектах, а не на каналах, где один или более объектов состоят из аудиосигнала и ассоциированных метаданных, указывающих, помимо прочего, его целевое местоположение как функцию времени. Как отмечено у Vinton и др., 2015, для такого аудиоконтента, основанного на объектах, могут также использоваться матричные кодеры. В такой системе сигналы от объектов подвергаются понижающему микшированию в представление стереосигнала с помощью коэффициентов понижающего микширования, зависящих от позиционных метаданных объекта.[0014] The use of matrix encoders and decoders/upmixers is not limited to channel-based content. Recent developments in the audio industry are based on audio objects rather than channels, where one or more objects consist of an audio signal and associated metadata indicating, among other things, its target location as a function of time. As noted in Vinton et al., 2015, matrix encoders can also be used for such object-based audio content. In such a system, object signals are downmixed into a stereo signal representation using downmix coefficients dependent on the object's positional metadata.

[0015] Повышающее микширование и воспроизведение матрично кодированного контента не обязательно ограничиваются воспроизведением через громкоговорители. Представление регулируемого или доминантного компонента, состоящего из доминантного компонентного сигнала и (целевого) местоположения, обеспечивает возможность воспроизведения через наушники посредством свертки с импульсными реакциями, связанными с головой, (HRIR) (Wightman и др., 1989). Упрощенная схема системы 1, реализующей этот способ, показана на фиг. 1. Входной сигнал 2 в формате кодированной матрицы сначала анализируется 3, чтобы определить направление и величину доминантной компоненты. Доминантный компонентный сигнал свертывается 4, 5 посредством пары HRIR, полученной из справочной информации 6 на основе направления доминантной компоненты, чтобы вычислить выходной сигнал для воспроизведения 7 через наушники, так чтобы воспроизводимый сигнал воспринимался как приходящий с направления, которое было определено на этапе 3 анализа доминантной компоненты. Эта схема может быть применена для широкополосных сигналов, а также для индивидуальных поддиапазонов, и может быть усовершенствована различными способами с помощью специализированной обработки остаточного (или диффузного) сигналов.[0015] Upmixing and playback of matrix encoded content is not necessarily limited to playback through loudspeakers. The representation of a regulated or dominant component, consisting of a dominant component signal and a (target) location, enables headphone recall through convolution with head-related impulse responses (HRIR) ( Wightman et al., 1989 ). A simplified diagram of a system 1 implementing this method is shown in FIG. 1. The input signal 2 in coded matrix format is first analyzed 3 to determine the direction and magnitude of the dominant component. The dominant component signal is convolved 4, 5 by the HRIR pair obtained from reference information 6 based on the direction of the dominant component to calculate an output signal for playback 7 through headphones, such that the playback signal is perceived as coming from the direction that was determined in step 3 of the dominant component analysis Components. This circuit can be applied to wideband signals as well as individual subbands, and can be enhanced in various ways by specialized residual (or diffuse) signal processing.

[0016] Использование матричных кодеров в большой степени пригодно для распределения и воспроизведения на AV-приемниках, но может быть проблематичным для мобильных применений, требующих низких скоростей передачи данных и низкого потребления энергии.[0016] The use of matrix encoders is highly suitable for distribution and playback on AV receivers, but can be problematic for mobile applications requiring low data rates and low power consumption.

[0017] Независимо от того, используется ли контент, основанный на каналах или на объектах, матричные кодеры и декодеры полагаются на достаточно точные межканальные фазовые соотношения сигналов, которые распространяются с матричного кодера на декодер. Другими словами, формат распределения должен в значительной степени сохранять форму сигнала. Такая зависимость от сохранения формы сигнала может создавать проблемы в условиях ограниченного битрейта, когда аудиокодеки используют параметрические способы, а не инструменты кодирования формы сигнала, чтобы получить лучшее качество звука. Примеры таких параметрических инструментов, которые общеизвестны как не сохраняющие форму сигнала, часто упоминаются как спектральная репликация диапазона, параметрическое стереокодирование, пространственное аудиокодирование и т. п., как они используются в аудиокодеках MPEG 4 (14496-3:2009 ISO/IEC).[0017] Regardless of whether channel-based or object-based content is used, matrix encoders and decoders rely on fairly accurate inter-channel phase relationships of signals that are propagated from the matrix encoder to the decoder. In other words, the distribution format must largely preserve the waveform. This dependence on waveform preservation can create problems in limited bitrate environments where audio codecs use parametric methods rather than waveform encoding tools to obtain better audio quality. Examples of such parametric tools, which are generally known to be non-waveform preserving, are often referred to as spectral band replication, parametric stereo coding, spatial audio coding, etc., as used in MPEG 4 (14496-3:2009 ISO/IEC) audio codecs.

[0018] Как коротко описано в предыдущем разделе, повышающее микширование состоит из анализа и регулирования (или свертки HRIR) сигналов. Для устройств, питаемых от сети, таких как AV-приемники, это обычно не вызывает проблем, но для устройств, работающих от батареи, таких как мобильные телефоны и планшеты, вычислительная сложность и соответствующие требования к памяти, связанные с этими процессами, часто являются нежелательными из-за их отрицательно влияния на время работы от батареи.[0018] As briefly described in the previous section, upmixing consists of analyzing and adjusting (or HRIR deconvolution) signals. For mains-powered devices such as AV receivers this is usually not a problem, but for battery-powered devices such as mobile phones and tablets, the computational complexity and associated memory requirements associated with these processes are often undesirable due to their negative impact on battery life.

[0019] Вышеупомянутый анализ обычно также вводит дополнительную аудиозадержку. Такая аудиозадержка нежелательна, потому что (1) она требует видеозадержку для поддержания синхронизации движения губ с фонограммой, для которой необходим значительный объем памяти и вычислительной мощности, и (2) такая задержка может вызвать асинхронность/задержку между движениями головы и рендерингом аудио в случае слежения за движением головы.[0019] The above analysis typically also introduces additional audio delay. This audio delay is undesirable because (1) it requires a video delay to maintain lip synchronization with the soundtrack, which requires a significant amount of memory and processing power, and (2) such a delay can cause asynchrony/latency between head movements and audio rendering in case of tracking behind the movement of the head.

[0020] Матрично кодированный даун-микс также может не звучать оптимально на стереофонических громкоговорителях или наушниках из-за потенциального присутствия сильно несовпадающих по фазе сигнальных компонент.[0020] A matrix encoded downmix may also not sound optimal on stereo speakers or headphones due to the potential presence of highly out-of-phase signal components.

Сущность изобретенияThe essence of the invention

[0021] Задача изобретения состоит в обеспечении улучшенной формы параметрического бинаурального выходного сигнала.[0021] An object of the invention is to provide an improved form of parametric binaural output signal.

[0022] В соответствии с первым аспектом настоящего изобретения, обеспечивается способ кодирования входного аудиосигнала, основывающегося на канале или объекте, для воспроизведения, причем упомянутый способ включает в себя этапы, на которых: (a) первоначально проводят рендеринг входного аудиосигнала, основывающегося на канале или объекте, в начальное выходное представление (например, начальную выходную презентацию); (b) определяют оценку доминантного аудиокомпонента из входного аудиосигнала, основывающегося на канале или объекте, и определяют последовательность весовых коэффициентов доминантного аудиокомпонента для отображения начального выходного представления в доминантный аудиокомпонент; (c) определяют оценку направления и положения доминантного аудиокомпонента; и (d) кодируют начальное выходное представление, весовые коэффициенты доминантного аудиокомпонента, направление или положение доминантного аудиокомпонента как кодированный сигнал для воспроизведения. Обеспечивая последовательность весовых коэффициентов доминантного аудиокомпонента для отображения начального выходного представления в доминантный аудиокомпонент можно позволить использовать весовые коэффициенты доминантного аудиокомпонента и начальное выходное представление для определения оценки доминантного компонента.[0022] According to a first aspect of the present invention, there is provided a method for encoding a channel-based or object-based input audio signal for reproduction, the method including the steps of: (a) initially rendering the channel-based or object-based input audio signal, or object, into an initial output presentation (eg, an initial output presentation); (b) determining a dominant audio component estimate from the input audio signal based on the channel or object, and determining a sequence of dominant audio component weights for mapping the initial output representation to the dominant audio component; (c) determine an estimate of the direction and position of the dominant audio component; and (d) encoding the initial output representation, the weights of the dominant audio component, the direction or position of the dominant audio component as an encoded signal for reproduction. By providing a sequence of dominant audio component weights to map the initial output representation to the dominant audio component, it is possible to allow the dominant audio component weights and the initial output representation to be used to determine a score of the dominant component.

[0023] В некоторых вариантах осуществления способ дополнительно включает в себя определение оценки остаточного микса, являющегося начальным выходным представлением за вычетом рендеринга доминантного аудиокомпонента или его оценки. Способ может также включать в себя генерацию безэхового бинаурального микса входного аудиосигнала, основывающегося на канале или объекте, и определение оценки остаточного микса, причем оценка остаточного микса может быть безэховым бинауральным миксом за вычетом рендеринга доминантного аудиокомпонента или его оценки. Дополнительно, способ может включать в себя определение последовательности остаточных матричных коэффициентов для отображения начального выходного представления в оценку остаточного микса.[0023] In some embodiments, the method further includes determining a residual mix estimate, which is the initial output representation minus rendering of the dominant audio component or an estimate thereof. The method may also include generating an anechoic binaural mix of the input audio signal based on the channel or object, and determining an estimate of the residual mix, wherein the estimate of the residual mix may be the anechoic binaural mix minus rendering of a dominant audio component or an estimate thereof. Additionally, the method may include determining a sequence of residual matrix coefficients for mapping the initial output representation to a residual mix estimate.

[0024] Начальное выходное представление может содержать представление посредством громкоговорителя или наушников. Входной аудиосигнал, основывающийся на канале или объекте, может быть разбит на элементы разбиения по времени и по частоте и этап кодирования может повторяться для последовательности временных этапов и последовательности диапазонов частот. Начальное выходное представление может содержать микс стереогромкоговорителей.[0024] The initial output presentation may comprise a speaker or headphone presentation. The input audio signal, based on channel or object, can be divided into time and frequency bins, and the encoding step can be repeated for a sequence of time steps and a sequence of frequency bands. The initial output view may contain a mix of stereo speakers.

[0025] В соответствии с дополнительным аспектом настоящего изобретения, обеспечивается способ декодирования кодированного аудиосигнала, причем кодированный аудиосигнал включает в себя: первое (например, начальное) выходное представление (например, первую/начальную выходную презентацию); направление доминантного аудиокомпонента и весовые коэффициенты доминантного аудиокомпонента; причем способ содержит этапы, на которых: (a) используют весовые коэффициенты доминантного аудиокомпонента и начальное выходное представление для определения оценочного доминантного компонента; (b) проводят рендеринг оценочного доминантного компонента с помощью бинаурализации в пространственном местоположении относительно целевого слушателя в соответствии с направлением доминантного аудиокомпонента, чтобы сформировать отрендеренный бинаурализированный оценочный доминантный компонент; (c) реконструируют оценку остаточного компонента из первого (например, начального) выходного представления; и (d) объединяют отрендеренный бинаурализированный оценочный доминантный компонент и оценку остаточного компонента, чтобы сформировать выходной пространственно ориентированный кодированный аудиосигнал.[0025] In accordance with a further aspect of the present invention, there is provided a method for decoding an encoded audio signal, the encoded audio signal including: a first (eg, initial) output presentation (eg, a first/initial output presentation); the direction of the dominant audio component and the weighting coefficients of the dominant audio component; the method comprising the steps of: (a) using dominant audio component weights and an initial output representation to determine an estimated dominant component; (b) rendering the estimated dominant component by binauralization at a spatial location relative to the target listener in accordance with the direction of the dominant audio component to generate a rendered binauralized estimated dominant component; (c) reconstructing the residual component estimate from the first (eg, initial) output representation; and (d) combining the rendered binauralized dominant component estimate and the residual component estimate to generate an output spatially oriented encoded audio signal.

[0026] Кодированный аудиосигнал дополнительно может включать в себя последовательность остаточных матричных коэффициентов, представляющих остаточный аудиосигнал, и этап (c) дополнительно может содержать этап (c1), на котором применяют остаточные матричные коэффициенты к первому (например, начальному) выходному представлению, чтобы реконструировать оценку остаточного компонента.[0026] The encoded audio signal may further include a sequence of residual matrix coefficients representing the residual audio signal, and step (c) may further comprise step (c1) of applying the residual matrix coefficients to the first (e.g., initial) output representation to reconstruct assessment of the residual component.

[0027] В некоторых вариантах осуществления оценка остаточного компонента может быть реконструирована вычитанием отрендеренного бинаурализированного оценочного доминантного компонента из первого (например, начального) выходного представления. Этап (b) может включать в себя начальный поворот оценочного доминантного компонента в соответствии с входным сигналом слежения за движением головы, указывающим ориентацию головы целевого слушателя.[0027] In some embodiments, the residual component estimate may be reconstructed by subtracting the rendered binauralized dominant component estimate from the first (eg, initial) output representation. Step (b) may include an initial rotation of the estimated dominant component in accordance with a head tracking input indicating the head orientation of the target listener.

[0028] В соответствии с дополнительным аспектом настоящего изобретения, обеспечивается способ декодирования и воспроизведения аудиопотока для слушателя, использующего наушники, причем упомянутый способ содержит этапы, на которых: (a) принимают поток данных, содержащий первую аудиопрезентацию и дополнительные данные аудиопреобразования; (b) принимают данные ориентации головы, представляющие ориентацию слушателя; (c) создают один или более вспомогательных сигналов, основываясь на первой аудиопрезентации и принятых данных преобразования; (d) создают вторую аудиопрезентацию, состоящую из объединения первой аудиопрезентации и вспомогательного сигнала(ов), в которой один или более вспомогательных сигналов были модифицированы в ответ на данные ориентации головы; и (e) выводят вторую аудиопрезентацию в качестве выходного аудиопотока.[0028] In accordance with a further aspect of the present invention, there is provided a method for decoding and reproducing an audio stream for a listener using headphones, the method comprising the steps of: (a) receiving a data stream containing a first audio presentation and additional audio transform data; (b) receiving head orientation data representing the orientation of the listener; (c) creating one or more auxiliary signals based on the first audio presentation and the received transform data; (d) creating a second audio presentation consisting of a combination of the first audio presentation and the auxiliary signal(s), in which one or more auxiliary signals have been modified in response to the head orientation data; and (e) outputting the second audio presentation as an output audio stream.

[0029] Некоторые варианты осуществления могут дополнительно включать в себя модификацию вспомогательных сигналов, которая состоит из моделирования акустического пути прохождения от положения источника звука до ушей слушателя. Данные преобразования могут состоять из коэффициентов матрицирования и по меньшей мере одного из положения источника звука и направления источника звука. Процесс преобразования может применяться как функция времени или частоты. Вспомогательные сигналы могут представлять по меньшей мере один доминантный компонент. Положение или направление источника звука может быть принято как часть данных преобразования и может поворачиваться в ответ на данные ориентации головы. В некоторых вариантах осуществления максимальная величина поворота ограничивается значением меньше 360 градусов по азимуту или углу места. Вторичная презентация может быть получена из первой презентации путем матрицирования в области преобразования или набора фильтров. Данные преобразования дополнительно могут содержать дополнительные коэффициенты матрицирования и этап (d) дополнительно может содержать модификацию первого аудиопредставления в качестве реакции на дополнительные коэффициенты матрицирования перед объединением первого аудиопредставления и вспомогательного аудиосигнала(ов).[0029] Some embodiments may further include modification of the auxiliary signals, which consists of modeling the acoustic path from the position of the sound source to the listener's ears. The transformation data may consist of matrixing coefficients and at least one of a sound source position and a sound source direction. The conversion process can be applied as a function of time or frequency. The auxiliary signals may represent at least one dominant component. The position or direction of the sound source may be received as part of the transformation data and may be rotated in response to the head orientation data. In some embodiments, the maximum amount of rotation is limited to less than 360 degrees in azimuth or elevation. The secondary presentation can be obtained from the first presentation by matrixing into a transform domain or a set of filters. The transform data may further comprise additional matrixing coefficients, and step (d) may further comprise modifying the first audio representation in response to the additional matrixing coefficients before combining the first audio representation and the auxiliary audio signal(s).

Краткое описание чертежейBrief description of drawings

[0030] Теперь только для примера будут описаны варианты осуществления изобретения со ссылкой на сопроводительные чертежи, на которых:[0030] By way of example only, embodiments of the invention will now be described with reference to the accompanying drawings, in which:

[0031] Фиг. 1 схематично иллюстрирует декодер наушников для матрично кодированного контента;[0031] FIG. 1 schematically illustrates a headphone decoder for matrix encoded content;

[0032] Фиг. 2 схематично иллюстрирует кодер, соответствующий варианту осуществления;[0032] FIG. 2 schematically illustrates an encoder according to an embodiment;

[0033] Фиг. 3 представляет собой блок-схему декодера;[0033] FIG. 3 is a block diagram of a decoder;

[0034] Фиг. 4 представляет собой подробную визуализацию кодера; и[0034] FIG. 4 is a detailed visualization of the encoder; And

[0035] Фиг. 5 более подробно иллюстрирует одну из форм декодера.[0035] FIG. Figure 5 illustrates one form of decoder in more detail.

Осуществление изобретенияCarrying out the invention

[0036] Варианты осуществления показывают систему и способ представления аудиоконтента, основывающегося на канале или объекте, который (1) совместим со стереовоспроизведением, (2) позволяет бинауральное воспроизведение, включающее в себя слежение за движением головы, (3) обладает небольшой сложностью декодера, и (4) не опирается, но, тем не менее, совместим с матричным кодированием.[0036] Embodiments show a system and method for presenting channel- or object-based audio content that (1) is compatible with stereo playback, (2) allows binaural playback including head tracking, (3) has low decoder complexity, and (4) does not rely on, but is nevertheless compatible with, matrix encoding.

[0037] Это достигается путем объединения выполняемого на стороне кодера анализа одного или более доминантных компонент (или доминантного объекта или их сочетания), включающего в себя веса для предсказания этих доминантных компонент из даун-микса, в комбинации с дополнительными параметрами, которые минимизируют ошибку между бинауральным рендерингом, основанным на одних только регулируемых или доминантных компонентах, и желаемого бинаурального представления полного контента.[0037] This is achieved by combining an encoder-side analysis of one or more dominant components (or a dominant object or a combination thereof), including weights for predicting those dominant components from the down-mix, in combination with additional parameters that minimize the error between binaural rendering based on the regulated or dominant components alone, and the desired binaural representation of the complete content.

[0038] В варианте осуществления анализ доминантного компонента (или многочисленных доминантных компонент) обеспечивается в кодере, а не в декодере/рендерере. Аудиопоток затем нарастает с помощью метаданных, указывающих направление доминантного компонента, и информации о том, как доминантный компонент(-ы) может быть получен из сопутствующего сигнала даун-микса.[0038] In an embodiment, analysis of the dominant component (or multiple dominant components) is provided in the encoder rather than in the decoder/renderer. The audio stream is then augmented with metadata indicating the direction of the dominant component and information about how the dominant component(s) can be derived from the accompanying down-mix signal.

[0039] На фиг. 2 показана одна форма кодера 20 предпочтительного варианта осуществления. Контент 21, основанный на объекте или канале, подвергается анализу 23, чтобы определить доминантный компонент(-ы). Этот анализ может иметь место как функция времени и частоты (предполагается, что аудиоконтент разбивается на временные элементы и частотные подэлементы). Результатом этого процесса является доминантный компонентный сигнал 26 (или многочисленные доминантные компонентные сигналы) и ассоциированная информация 25 о положении(ях) или о направлении(ях). Далее делают оценку 24 и выводят 27 веса, чтобы позволить реконструкцию доминантного компонентного сигнала(ов) из переданного даун-микса. Этот генератор 22 даун-микса не обязательно должен твердо следовать правилам даун-микса LtRt, а может быть стандартным даун-миксом ITU (LoRo), использующим неотрицательные, с действительными значениями коэффициенты даун-микса. Наконец, выходной сигнал 29 даун-микса, веса 27 и позиционные данные 25 упаковывают аудиокодером 28 и готовят к распространению.[0039] In FIG. 2 shows one form of encoder 20 of a preferred embodiment. The object- or channel-based content 21 is analyzed 23 to determine the dominant component(s). This analysis can take place as a function of time and frequency (assuming that audio content is broken down into time elements and frequency sub-elements). The result of this process is a dominant component signal 26 (or multiple dominant component signals) and associated position(s) or direction(s) information 25. Next, an estimate 24 is made and weights 27 are derived to allow reconstruction of the dominant component signal(s) from the transmitted downmix. This downmix generator 22 does not need to strictly follow the LtRt downmix rules, but can be a standard ITU downmix (LoRo) using non-negative, real-valued downmix coefficients. Finally, the downmix output 29, weights 27, and position data 25 are packaged by audio encoder 28 and prepared for distribution.

[0040] На фиг. 3 показан соответствующий декодер 30 из предпочтительного варианта осуществления. Аудиодекодер реконструирует сигнал даун-микса. Сигнал вводят 31 и распаковывают посредством аудиодекодера 32 в сигнал даун-микса, веса и направление доминантных компонент. Далее, веса оценочных доминантных компонентов используют для реконструкции 34 регулируемых компонент, которые рендерируются 36, используя позиционные данные или данные о направлении. Позиционные данные, как вариант, могут модифицироваться 33 в зависимости от поворота головы или информации 38 преобразования. Дополнительно, реконструированный доминантный компонент(-ы) может вычитаться 35 из даун-микса. Как вариант, имеет место вычитание доминантного компонента(ов) в пределах пути прохождения даун-микса, но, альтернативно, вычитание может также происходить в кодере, как описано ниже.[0040] In FIG. 3 shows a corresponding decoder 30 of a preferred embodiment. The audio decoder reconstructs the downmix signal. The signal is input 31 and decompressed by audio decoder 32 into a downmix signal, the weights and direction of the dominant components. Next, the weights of the estimated dominant components are used to reconstruct the 34 adjustable components, which are rendered 36 using positional or directional data. The positional data may optionally be modified 33 depending on head rotation or transformation information 38 . Additionally, the reconstructed dominant component(s) can be subtracted 35 from the down mix. Alternatively, subtraction of the dominant component(s) within the down-mix path takes place, but alternatively, subtraction may also occur at the encoder, as described below.

[0041] Чтобы улучшить удаление или отмену реконструированного доминантного компонента в вычитающем устройстве 35, выходной сигнал доминантного компонента может сначала быть рендерирован, используя перед вычитанием переданные позиционные данные или данные направления. Этот необязательный этап 39 рендеринга показан на фиг. 3.[0041] To improve the removal or cancellation of the reconstructed dominant component in the subtractor 35, the output signal of the dominant component may first be rendered using the transmitted position data or direction data before subtraction. This optional rendering step 39 is shown in FIG. 3.

[0042] Возвращаясь теперь обратно, чтобы сначала описать кодер более подробно, на фиг. 4 представлена одна из форм кодера 40 для обработки аудиоконтента, основанного на объекте (например, система Dolby Atmos). Аудиообъекты первоначально хранятся в качестве объектов 41 Atmos и первоначально делятся на временные и частотные элементы, используя набор 42 гибридных зеркальных квадратурных фильтров с комплексными значениями (hybrid complex-valued quadrature mirror filter, HCQMF). Входные сигналы объектов могут быть обозначены как , когда мы опускаем соответствующие временные и частотные индексы; соответствующее положение в пределах текущего кадра задается единичным вектором , и индекс i относится к номеру объекта, а индекс n относится ко времени (например, индекс выборки поддиапазона). Входные сигналы объекта являются примером входного аудиосигнала, основывающегося на канале или объекте.[0042] Returning now to first describe the encoder in more detail, FIG. 4 illustrates one form of encoder 40 for processing object-based audio content (eg, Dolby Atmos). Audio objects are initially stored as Atmos objects 41 and are initially divided into time and frequency elements using a set of 42 hybrid complex-valued quadrature mirror filters (HCQMF). Object input signals can be designated as , when we omit the corresponding time and frequency indices; the corresponding position within the current frame is specified by a unit vector , and the index i refers to the object number and the index n refers to the time (for example, the sub-range sampling index). Input signals objects are an example of an audio input signal based on a channel or object.

[0043] Безэховый, поддиапазонный, бинауральный микс Y () создают 43, используя скаляры с комплексными значениями (например, однополюсные HRTF 48), которые представляют презентацию поддиапазона для HRIR, соответствующих положению :[0043] Anechoic, sub-band, binaural mix Y ( ) create 43 using complex-valued scalars (e.g. single-pole HRTF 48) which provide a subband presentation for the HRIRs corresponding to the position :

[0044] Альтернативно, бинауральный микс Y () может быть создан посредством свертки, используя связанные с головой импульсные реакции (HRIR). Дополнительно, стерео даун-микс (как пример, реализующий начальное выходное представление) создают 44, используя коэффициенты усиления амплитудного панорамирования:[0044] Alternatively, binaural mix Y ( ) can be created through convolution using head-related impulse responses (HRIR). Additionally, stereo down mix (as an example implementing the initial output representation) create 44 using the coefficients amplitude panning gain:

[0045] Вектор направления доминантного компонента (в качестве примера реализующий направление или положение доминантного аудиокомпонента) может оцениваться путем вычисления доминантного компонента 45, первоначально вычисляя взвешенную сумму единичных векторов направления для каждого объекта:[0045] Direction vector of the dominant component (by way of example, implementing the direction or position of a dominant audio component) can be estimated by calculating the dominant component 45 by initially computing a weighted sum of unit direction vectors for each object:

где - энергия сигнала :Where - signal energy :

и (.)* - комплексный оператор свертки.and (.)* is the complex convolution operator.

[0046] Доминантный/регулирующий сигнал d [ n ] (в качестве примера реализующий доминантный аудиокомпонент) далее задается следующим образом:[0046] The dominant/control signal d [ n ] (by way of example, implementing the dominant audio component) is further specified as follows:

[0047] где - функция, выполняющая усиление, которое уменьшается с увеличением расстояния между единичными векторами . Например, чтобы создать виртуальный микрофон с помощью модели направленности, основанной на сферических гармониках высшего порядка, одна из реализаций должна соответствовать следующему:[0047] where - a function that performs a gain that decreases with increasing distance between unit vectors . For example, to create a virtual microphone using a directivity model based on higher order spherical harmonics, one of the implementations must conform to the following:

где - единичный вектор направления в двух- или трехмерной системе координат,(.) - оператор скалярного произведения двух векторов, и a, b, c - примерные параметры (например a=b=0,5; c=1).Where is a unit direction vector in a two- or three-dimensional coordinate system, (.) is the scalar product operator of two vectors, and a, b, c are approximate parameters (for example a=b=0.5; c=1).

[0048] Веса или коэффициенты предсказания w l , d , w r , d вычисляются 46 и используются для вычисления 47 оценочного регулируемого сигнала :[0048] The weights or prediction coefficients w l , d , w r , d are calculated 46 and used to calculate 47 the estimated controlled signal :

где веса w l , d , w r , d минимизируют среднеквадратичную ошибку между, заданными сигналами даун-микса. Веса w l , d , w r , d являются примером весовых коэффициентов доминантного аудиокомпонента для отображения начального выходного представления (например,) в доминантный аудиокомпонент (например,). Известный способ получения этих весов заключается в применении устройства прогнозирования минимальной среднеквадратичной ошибки (MMSE):where the weights w l , d , w r , d minimize the root mean square error between , given signals down mix. The weights w l , d , w r , d are an example of dominant audio component weights for mapping the initial output representation (e.g. ) into the dominant audio component (e.g. ). A known way to obtain these weights is to use a minimum mean square error (MMSE) predictor:

где R ab - матрица ковариации между сигналами для сигналов a и сигналов b, и - параметр регуляризации.where R ab is the covariance matrix between signals for signals a and signals b , and is the regularization parameter.

[0049] Мы можем затем вычесть 49 отрендеренную оценку доминантного компонентного сигнала из безэхового бинаурального микса , чтобы создать остаточный бинауральный микс , используя HRTF (HRIR) 50, связанный с направлением/положением доминантного компонентного сигнала :[0049] We can then subtract 49 the rendered estimate of the dominant component signal from an anechoic binaural mix to create a residual binaural mix using HRTF (HRIR) 50 related to direction/position dominant component signal :

[0050] Наконец, оценивают 51 другой набор коэффициентов предсказания или весов w i , j , которые позволяют реконструкцию остаточного бинаурального микса из стереомикса ,используя оценочные минимальные среднеквадратичные ошибки:[0050] Finally, 51 different sets of prediction coefficients or weights w i , j are evaluated that allow reconstruction of the residual binaural mix from stereo mix ,using the estimated minimum root mean square errors:

где R ab - матрица ковариации между сигналами для презентации а и презентации b, и - параметр регуляризации. Коэффициенты прогнозирования или веса w i , j являются примером остаточных матричных коэффициентов для отображения начального выходного представления (например, ) в оценочный остаточный бинауральный микс . Приведенное выше выражение может быть подвергнуто дополнительным ограничениям уровня, чтобы преодолеть любые потери прогнозирования. Кодер выводит следующую информацию: where Rab is the covariance matrix between the signals for presentation a and presentation b , and is the regularization parameter. The prediction coefficients or weights w i , j are an example of residual matrix coefficients for mapping the initial output representation (e.g. ) into the estimated residual binaural mix . The above expression can be subjected to additional level constraints to overcome any prediction loss. The encoder outputs the following information:

[0051] Стереомикс (в качестве примера реализации начального выходного представления);[0051] Stereomix (as an example of the implementation of the initial output representation);

[0052] Коэффициентами для оценки доминантного компонента w l , d , w r , d (в качестве примера реализующего весовые коэффициенты доминантного аудиокомпонента) являются;[0052] Coefficients for estimating the dominant componentw l , d ,w r , d (as an example of implementing the weighting coefficients of the dominant audio component) are;

[0053] положение или направление доминантного компонента ;[0053] position or direction of the dominant component ;

[0054] и, дополнительно, остаточные веса w i , j (в качестве примера реализации остаточных матричных коэффициентов).[0054] and, additionally, residual weights w i , j (as an example of the implementation of residual matrix coefficients).

[0055] Хотя представленное выше описание относится к рендерингу, основанному на одном единственном доминантном компоненте, в некоторых вариантах осуществления кодер может быть выполнен с возможностью обнаружения многочисленных доминантных компонент, определения весов и направлений для каждого из многочисленных доминантных компонентов, рендеринга и вычитания каждого из многочисленных доминантных компонент из безэхового бинаурального микса Y, и затем определения остаточных весов после того, как каждый из многочисленных доминантных компонент был вычтен из безэхового бинаурального микса Y.[0055] Although the above description relates to rendering based on one single dominant component, in some embodiments the encoder may be configured to detect multiple dominant components, determine weights and directions for each of the multiple dominant components, render and subtract each of the multiple dominant components from the anechoic binaural mix Y, and then determining the residual weights after each of the multiple dominant components has been subtracted from the anechoic binaural mix Y.

Декодер/рендерерDecoder/renderer

[0056] На фиг. 5 более подробно показана одна из форм декодера/рендерера 60. Декодер/рендерер 60 применяет процесс, направленный на реконструкцию бинаурального микса для вывода слушателю 71 из распакованной входной информации z l , z r ; w l , d , w r , d ; , w i , j . Здесь стерео микс z l , z r является примером первой аудиопрезентации и коэффициенты или веса предсказания w i , j и/или направление/положение доминантного компонентного сигнала являются примерами дополнительных данных аудиопреобразования.[0056] In FIG. 5 shows one form of decoder/renderer 60 in more detail. Decoder/renderer 60 employs a process aimed at reconstructing a binaural mix. to output to listener 71 from unpacked input informationz l , z r ; w l , d ,w r , d ; ,w i , j . Here's a stereo mixz l , z r is an example of the first audio presentation and the coefficients or weights of the predictionw i , j and/or direction/position dominant component signal are examples of additional audio conversion data.

[0057] Первоначально, стереодаун-микс разбивается на временные/частотные элементы, используя соответствующий набор фильтров или преобразование 61, такое как аналитическая группа HCQMF 61. Другие преобразования, такие как дискретное преобразование Фурье, (модифицированное) косинусное или синусное преобразование, набор фильтров во временной области или вейвлет-преобразование также могут быть применимы в равной степени. В дальнейшем, оценочный доминантный компонентный сигнал вычисляется 63, используя веса w l , d , w r , d коэффициентов предсказания:[0057] Initially, the stereo down mix is split into time/frequency elements using an appropriate filter bank or transform 61, such as the HCQMF analysis group 61. Other transforms, such as the discrete Fourier transform, (modified) cosine or sine transform, filter bank in time domain or wavelet transform may also be equally applicable. In the following, the estimated dominant component signal 63 is calculated using the weights w l , d , w r , d prediction coefficients:

=w l , d z l +w r , d z r = w l , d z l +w r , d z r

Оценочный доминантный компонентный сигнал является примером вспомогательного сигнала. Следовательно, можно сказать, что этот этап соответствует созданию одного или более вспомогательных сигналов, основанных на упомянутой первой аудиопрезентации и принятых данных преобразования.Estimated dominant component signal is an example of an auxiliary signal. Therefore, it can be said that this step corresponds to the creation of one or more auxiliary signals based on said first audio presentation and the received transform data.

[0058] Этот доминантный компонентный сигнал в дальнейшем рендерируется 65 и модифицируется 68 с помощью HRTF 69, основанных на переданных данных положения/направления , возможно, модифицированных (повернутых) на основе информации, полученной из устройства 62 слежения за головой. Наконец, общий приглушенный бинауральный выходной сигнал состоит из отрендеренного доминантного компонентного сигнала, суммированного 66 с реконструированными остатками , основанными на весах w ij коэффициентов предсказания:[0058] This dominant component signal is further rendered 65 and modified 68 by HRTF 69 based on the transmitted position/direction data , possibly modified (rotated) based on information received from the head tracking device 62 . Finally, the overall muted binaural output consists of the rendered dominant component signal summed 66 with the reconstructed residuals , based on the weights w ij of the prediction coefficients:

Полный приглушенный бинауральный выходной сигнал является примером второй аудиопрезентации. Следовательно, этот этап, можно сказать, должен соответствовать созданию второй аудиопрезентации, состоящей из сочетания упомянутой первой аудиопрезентации и упомянутого вспомогательного сигнала(ов), в которой один или более из упомянутых вспомогательных сигналов были модифицированы в ответ на упомянутые данные ориентации головы.The full muted binaural output is an example of a second audio presentation. Therefore, this step may be said to correspond to the creation of a second audio presentation consisting of a combination of said first audio presentation and said auxiliary signal(s), in which one or more of said auxiliary signals have been modified in response to said head orientation data.

[0059] Дополнительно следует заметить, что если принята информация о более чем одном доминантном сигнале, каждый доминантный сигнал может быть рендерирован и добавлен к реконструированному остаточному сигналу.[0059] Additionally, it should be noted that if information about more than one dominant signal is received, each dominant signal may be rendered and added to the reconstructed residual signal.

[0060] Пока никакое вращение или перемещение головы не применяется, выходные сигналы должны быть очень близки (с точки зрения среднеквадратичной ошибки) к опорным бинауральным сигналам , пока[0060] As long as no head rotation or movement is applied, the output signals should be very close (in terms of mean square error) to the reference binaural signals , Bye

Основные свойстваBasic properties

[0061] Как можно видеть из приведенных выше уравнений, эффективная операция по созданию приглушенного бинаурального представления из стереопредставления состоит из матрицы 2×2 70, в которой матричные коэффициенты зависят от переданной информации w l , d , w r , d ; , w i , j и поворота и/или перемещения устройства слежения за головой. Это указывает, что сложность процесса является относительно низкой, поскольку анализ доминантных компонент применяется в кодере вместо декодера.[0061] As can be seen from the above equations, an efficient operation to create a muted binaural representation from a stereo representation consists of a 2×2 matrix 70 in which the matrix coefficients depend on the transmitted information w l , d , w r , d ; , w i , j and rotation and/or movement of the head tracking device. This indicates that the process complexity is relatively low since dominant component analysis is applied in the encoder instead of the decoder.

[0062] Если никакой доминантный компонент не оценен (например,w l , d , w r , d =0), описанное решение эквивалентно параметрическому бинауральному способу.[0062] If no dominant component is estimated (eg, w l , d , w r , d =0), the described solution is equivalent to the parametric binaural method.

[0063] В случаях, когда имеется желание исключить определенные объекты из слежения за вращением/перемещением головы, эти объекты могут быть исключены из (1) анализа направления доминантных компонент, и (2) предсказания доминантных компонентных сигналов. В результате эти объекты будут преобразовываться из стерео в бинауральные посредством коэффициентов w i , j и поэтому на них не влияет никакое вращение или перемещение головы.[0063] In cases where there is a desire to exclude certain objects from head rotation/translation tracking, these objects can be excluded from (1) dominant component direction analysis, and (2) dominant component signal prediction. As a result, these objects will be converted from stereo to binaural using coefficientsw i , j and are therefore not affected by any rotation or movement of the head.

[0064]При подобном ходе мыслей объекты могут быть установлены в режиме "pass through" (сквозного прохождения), что означает, что в бинауральном представлении они будут подвергнуты амплитудному панорамированию, а не свертке HRIR. Это может быть получено, просто используя коэффициенты усиления амплитудного панорамирования для коэффициентов H i вместо однополюсных HRTF или любого другого соответствующего бинаурального процесса.[0064] With this line of thinking, objects could be set to "pass through" mode, which means they would be amplitude panned rather than HRIR deconvoluted in the binaural presentation. This can be obtained by simply using amplitude panning gains for the H i coefficients instead of single-pole HRTFs or any other appropriate binaural process.

РасширенияExtensions

[0065] Варианты осуществления не ограничиваются использованием даун-миксов, поскольку также могут использоваться отсчеты других каналов.[0065] Embodiments are not limited to the use of down mixes, as samples of other channels may also be used.

[0066] Декодер 60, описанный со ссылкой на фиг. 5, имеет выходной сигнал, состоящий из отрендеренного направления доминантной компоненты плюс входной сигнал, матрицированный посредством матричных коэффициентов w i , j . Последние коэффициенты могут быть получены различными способами, например:[0066] Decoder 60, described with reference to FIG. 5 has an output signal consisting of the rendered direction of the dominant component plus an input signal matrixed by the matrix coefficients w i , j . The latter coefficients can be obtained in various ways, for example:

[0067] 1. Коэффициенты w i , j могут быть определены в кодере посредством параметрической реконструкции сигналов . Другими словами, в этой реализации, коэффициенты w i , j направлены на точную реконструкцию бинауральных сигналов , которые могли бы быть получены при рендеринге первоначальных входных объектов/каналов бинауральным образом; другими словами, коэффициенты w i , j управляются контентом.[0067] 1. The coefficients w i , j can be determined in the encoder by parametric signal reconstruction . In other words, in this implementation, the coefficients w i , j are aimed at accurately reconstructing binaural signals , which could be obtained by rendering the original input objects/channels in a binaural manner; in other words, the coefficients w i , j are controlled by the content.

[0068] 2. Коэффициенты w i , j могут быть переданы от кодера к декодеру, чтобы представить HRTF для определенных пространственных положений, например, с углами +/-45 градусов по азимуту. Другими словами, остаточный сигнал обрабатывается, чтобы моделировать воспроизведение через два виртуальных громкоговорителя в определенных местоположениях. Поскольку эти коэффициенты, представляющие HRTF, передаются от кодера на декодер, местоположения виртуальных громкоговорителей могут изменяться во времени и по частоте. Если этот подход применяется, используя статические виртуальные громкоговорители, чтобы представить остаточный сигнал, коэффициенты w i , j не требуют передачи от кодера к декодеру, и могут вместо этого подключаться проводами в декодере. Вариант такого подхода может состоять из ограниченного набора статических местоположений, которые доступны в декодере, с их соответствующими коэффициентами w i , j , и их выбор, при котором для обработки остаточного сигнала используется статическое местоположение, сообщается от кодера декодеру.[0068] 2. The coefficients w i , j may be passed from the encoder to the decoder to represent the HRTF for certain spatial positions, for example, at angles of +/-45 degrees in azimuth. In other words, the residual signal is processed to simulate playback through two virtual speakers at specific locations. Because these coefficients representing the HRTF are passed from the encoder to the decoder, the locations of the virtual speakers may vary in time and frequency. If this approach is applied using static virtual speakers to represent the residual signal, the coefficients w i , j do not require transmission from the encoder to the decoder, and can instead be wired at the decoder. A variant of this approach may consist of a limited set of static locations that are available at the decoder, with their corresponding coefficients w i , j , and their selection, which uses the static location to process the residual signal, is communicated from the encoder to the decoder.

[0069] Сигналы могут подвергаться так называемому повышающему микшированию, реконструируя более 2 сигналов посредством статистического анализа этих сигналов в декодере с последующим бинауральным рендерингом результирующих сигналов повышающего микширования.[0069] Signals can undergo what is called upmixing, reconstructing more than 2 signals through statistical analysis of those signals in the decoder, followed by binaural rendering of the resulting upmix signals.

[0070] Описанные способы могут быть также применимы в системе, в которой переданный сигнал Z является бинауральным сигналом. В этом конкретном случае декодер 60, показанный на фиг. 5, остается таким, как он есть, в то время как блок, обозначенный как "Generate stereo (LoRo) mix" (сгенерировать стереомикс (LoRo)" 44 и показанный на фиг. 4, должен быть заменен на "Generate anechoic binaural mix" (сгенерировать приглушенный бинауральный микс) 43 (фиг. 4), который является таким же, как и блок, создающий сигнальную пару Y. Дополнительно, в соответствии с требованиями, могут быть сгенерированы и другие формы миксов.[0070] The described methods may also be applicable in a system in which the transmitted signal Z is a binaural signal. In this particular case, the decoder 60 shown in FIG. 5 remains as is, while the block labeled "Generate stereo (LoRo) mix" 44 and shown in FIG. 4 should be replaced with "Generate anechoic binaural mix" (generate muted binaural mix) 43 (Fig. 4), which is the same as the block that creates the Y signal pair. Additionally, other forms of mixes can be generated according to requirements.

[0071] Этот подход может быть расширен с помощью способов реконструкции одного или более входных сигналов FDN из переданного стереомикса, который состоит из конкретного подмножества объектов или каналов.[0071] This approach can be extended with methods for reconstructing one or more FDN input signals from a transmitted stereo mix that consists of a specific subset of objects or channels.

[0072] Подход может быть расширен с помощью множественных доминантных компонентов, предсказываемых из переданного стереомикса и рендерируемых на стороне декодера. Не существует никакого принципиального ограничения предсказания только одного доминантного компонента для каждого временного/частотного элемента разбиения. В частности, количество доминантных компонент может различаться в каждом временном/частотном элементе разбиения.[0072] The approach can be extended with multiple dominant components predicted from the transmitted stereo mix and rendered at the decoder side. There is no fundamental limitation to predicting only one dominant component for each time/frequency bin. In particular, the number of dominant components may differ in each time/frequency partition element.

ИнтерпретацияInterpretation

[0073] В этом описании повсеместно ссылка на "один из вариантов осуществления", "некоторые варианты осуществления" или "вариант осуществления" означает, что конкретный признак, структура или характеристика, описанные в сочетании с вариантом осуществления, вводятся по меньшей мере в один вариант осуществления настоящего изобретения. Таким образом, появление выражений "в одном из вариантов осуществления", "в некоторых вариантах осуществления" или "в варианте осуществления" повсеместно в различных местах настоящего описания не обязательно, поскольку все они относятся к одному и тому же варианту осуществления. Кроме того, конкретные признаки, структуры или характеристики могут объединяться любым приемлемым способом, как должно быть очевидно специалисту в данной области техники, исходя из этого раскрытия, в одном или более вариантах осуществления.[0073] Throughout this specification, reference to “one embodiment,” “certain embodiments,” or “an embodiment” means that the particular feature, structure, or characteristic described in combination with the embodiment is introduced into at least one embodiment implementation of the present invention. Thus, the expressions “in one embodiment,” “in some embodiments,” or “in an embodiment” are not required to appear everywhere throughout the specification as long as they all refer to the same embodiment. Moreover, specific features, structures, or characteristics may be combined in any suitable manner, as would be apparent to one skilled in the art from this disclosure, in one or more embodiments.

[0074] Использование порядковых числительных "первый", "второй", "третий" и т. д. для описания обычного объекта, как они используются здесь, если не определено иначе, просто указывает, что ссылка делается на различные экземпляры схожих объектов, и не предназначено подразумевать, что объекты, описанные таким образом, должны следовать в приведенной последовательности во времени или в пространстве, по порядку, или любым другим способом.[0074] The use of the ordinal numbers "first", "second", "third", etc. to describe a common object as used herein, unless otherwise specified, simply indicates that reference is being made to different instances of similar objects, and it is not intended to imply that the objects so described must appear in the given sequence in time or space, in order, or in any other way.

[0075] В приведенной ниже формуле изобретения и в приведенном здесь описании, любой из терминов "содержащий", "содержащийся" или "который содержит", является открытым термином, который означает включение, по меньшей мере, элементов/признаков, соответствующих термину, но не исключает и других. Таким образом, термин "содержащий", когда используется в формуле изобретения, не должен истолковываться как ограничительный для средств, элементов или этапов, перечисленных здесь далее. Например, объем выражения "устройство, содержащее A и B", не должен ограничиваться устройствами, состоящими только из элементов A и B. Любой из терминов "включающий в себя" или "который включает в себя" или "которые включают", как эти термины используются здесь, также являются открытыми терминами, которые означают включение, по меньшей мере, элементов/признаков, соответствующих термину, но не исключают и других. Таким образом, "включающий в себя" является синонимом и означает "содержащий". [0075] In the following claims and description herein, any of the terms “comprising,” “contained,” or “which contains” is an open-ended term that means to include at least the elements/features corresponding to the term, but does not exclude others. Thus, the term “comprising,” when used in the claims, should not be construed as limiting the means, elements, or steps listed hereinafter. For example, the scope of the expression "device comprising A and B" should not be limited to devices consisting only of elements A and B. Any of the terms "including" or "which includes" or "which include" as these terms used here are also open-ended terms which mean to include at least the elements/features corresponding to the term, but do not exclude others. Thus, "including" is a synonym and means "containing".

[0076] Термин "примерный", как он используется здесь, применяется в смысле предоставления примеров, а не как указание на качество. То есть, "примерный вариант осуществления" является вариантом осуществления, представляемым в качестве примера, и не является обязательно вариантом осуществления, образцовым по качеству. [0076] The term "exemplary" as used herein is used in the sense of providing examples and not as an indication of quality. That is, “exemplary embodiment” is an embodiment presented as an example, and is not necessarily an embodiment exemplary in quality.

[0077] Следует понимать, что в приведенном выше описании примерных вариантов осуществления изобретения, различные признаки изобретения с целью оптимизации раскрытия и оказания помощи в понимании одного или более различных изобретательских подходов иногда группируются вместе в единый вариант осуществления, чертеж или их описание. Этот способ раскрытия, однако, не должен интерпретироваться как отражение намерения, что заявленное изобретение требует большего количества признаков, чем явно приводится в каждом пункте формулы изобретения. Скорее, как это отражает последующая формула изобретения, аспекты изобретения заключаются в менее, чем во всех признаках единого предшествующего раскрытого варианта осуществления. Таким образом, формула изобретения, следующая после раздела "Осуществление изобретения", тем самым явно включается в это "Осуществление изобретения" с каждым пунктом формулы изобретения, являющимся самостоятельным, в качестве отдельного варианта осуществления этого изобретения.[0077] It should be understood that in the above description of exemplary embodiments of the invention, various features of the invention are sometimes grouped together into a single embodiment, drawing, or description thereof for the purpose of streamlining the disclosure and assisting in understanding one or more different inventive approaches. This manner of disclosure, however, should not be interpreted as reflecting an intention that the claimed invention requires more features than are expressly provided in each claim. Rather, as reflected in the following claims, aspects of the invention are embodied in less than all of the features of the single preceding disclosed embodiment. Thus, the claims following the "Details of the Invention" section are hereby expressly included in this "Details of the Invention" with each claim standing on its own as a separate embodiment of that invention.

[0078] Дополнительно, хотя некоторые варианты осуществления, описанные здесь, содержат некоторые, но не другие признаки, включенные в другие варианты осуществления, сочетания признаков в различных вариантах осуществления означает, что они находятся в рамках объема изобретения и формируют различные варианты осуществления, как это должны понимать специалисты в данной области техники. Например, в последующей формуле изобретения любой из заявленных вариантов осуществления может использоваться в любом сочетании.[0078] Additionally, although some embodiments described herein contain some but not other features included in other embodiments, combinations of features in different embodiments mean that they are within the scope of the invention and form different embodiments, as this should be understood by those skilled in the art. For example, in the following claims, any of the claimed embodiments may be used in any combination.

[0079] Дополнительно, некоторые из вариантов осуществления описываются здесь как способ или сочетание элементов способа, которые могут быть реализованы процессором компьютерной системы или другими средствами выполнения функции. Таким образом, процессор с необходимыми командами для выполнения такого способа или элемента способа образует средство выполнения способа или элемента способа. Дополнительно, описанный здесь элемент варианта осуществления устройства, является примером средства выполнения функции, исполняемой элементом с целью осуществления изобретения.[0079] Additionally, some of the embodiments are described herein as a method or combination of elements of a method that may be implemented by a computer system processor or other means of performing a function. Thus, a processor with the necessary instructions for executing such method or method element constitutes means for executing the method or method element. Additionally, the element of the apparatus embodiment described herein is an example of a means of performing a function performed by the element for the purpose of carrying out the invention.

[0080] В представленном здесь описании изложены многочисленные конкретные подробности. Однако, следует понимать, что варианты осуществления изобретения могут быть осуществлены на практике без этих конкретных подробностей. В других случаях известные способы, структуры и технологии не были показаны подробно, чтобы не мешать понимание настоящего описания.[0080] Numerous specific details are set forth in the description provided herein. However, it should be understood that embodiments of the invention may be practiced without these specific details. In other cases, known methods, structures and technologies have not been shown in detail so as not to interfere with the understanding of the present description.

[0081] Точно также, следует заметить, что термин "связанный", когда используется в формуле изобретения, не должен интерпретироваться как ограничение только прямыми связями. Термины "связанный" и "соединенный", а также их производные могут использоваться. Следует понимать, что эти термины не подразумеваются синонимами друг друга. Таким образом, контекст выражения "Устройство А, связанное с устройством B" не должен ограничиваться устройствами или системами, в которых выход устройства A напрямую соединяется со входом устройства B. Это означает, что существует путь прохождения между выходом устройства A и входом устройства B, который может быть путем прохождения, содержащим другие устройства или средства. "Связанный" может означать, что два или более элементов находятся в прямом физическом или электрическом контакте, или что два или более элементов не находятся в прямом контакте друг с другом но все еще действуют совместно или взаимодействуют с друг другом.[0081] Likewise, it should be noted that the term “related” when used in the claims should not be interpreted as limiting only direct connections. The terms "linked" and "connected", as well as their derivatives, may be used. It should be understood that these terms are not intended to be synonymous with each other. Thus, the context of the expression "Device A coupled to device B" should not be limited to devices or systems in which the output of device A is directly connected to the input of device B. This means that there is a path between the output of device A and the input of device B that may be a path of passage containing other devices or means. "Coupled" can mean that two or more elements are in direct physical or electrical contact, or that two or more elements are not in direct contact with each other but still act together or interact with each other.

[0082] Таким образом, хотя здесь были описаны варианты осуществления изобретения, специалисты в данной области техники должны признать, в них могут быть сделаны другие и дополнительные модификации, не отступая от сущности изобретения, и подразумевается, что все такие изменения и модификации заявляются как попадающие в рамки объема изобретения. Например, любые формулы, приведенные выше, являются просто репрезентативными для процедур, которые могут использоваться. Функциональные возможности могут добавляться или удаляться из блок-схем, и операции могут чередоваться между функциональными блоками. В способах, описанных в пределах объема настоящего изобретения этапы могут добавляться или удаляться.[0082] Thus, while embodiments of the invention have been described herein, those skilled in the art will recognize that other and additional modifications may be made thereto without departing from the spirit of the invention, and all such changes and modifications are intended to be within within the scope of the invention. For example, any formulas given above are merely representative of procedures that may be used. Functionality can be added or removed from block diagrams, and operations can be interleaved between function blocks. In the methods described within the scope of the present invention, steps may be added or removed.

[0083] Различные аспекты настоящего изобретения могут быть понятны, исходя из следующих пронумерованных примерных вариантов осуществления (enumerated example embodiment, EEE):[0083] Various aspects of the present invention can be understood from the following enumerated example embodiment (EEE):

EEE 1. Способ кодирования для воспроизведения входного аудиосигнала, основывающегося на канале или объекте, причем упомянутый способ содержит этапы, на которых:EEE 1. An encoding method for reproducing an input audio signal based on a channel or an object, said method comprising the steps of:

(a) первоначально рендерируют входной аудиосигнал, основывающийся на канале или объекте, в начальное выходное представление;(a) initially rendering the input audio signal, based on the channel or object, into an initial output representation;

(b) определяют оценку доминантного аудиокомпонента из входного аудиосигнала, основывающегося на канале или объекте, и определяют последовательность весовых коэффициентов доминантного аудиокомпонента для отображения начального выходного представления в доминантный аудиокомпонент;(b) determining a dominant audio component estimate from the input audio signal based on the channel or object, and determining a sequence of dominant audio component weights for mapping the initial output representation to the dominant audio component;

(c) определяют оценку направления или положения доминантного аудиокомпонента; и(c) determine an estimate of the direction or position of the dominant audio component; And

(d) кодируют начальное выходное представление, весовые коэффициенты доминантного аудиокомпонента, направление или положение доминантного аудиокомпонента как кодированный сигнал для воспроизведения.(d) encoding the initial output representation, the weights of the dominant audio component, the direction or position of the dominant audio component as an encoded signal for reproduction.

EEE 2. Способ по п. EEE 1, дополнительно содержащий этап, на котором определяют оценку остаточного микса, являющегося начальным выходным представлением, уменьшенной на рендеринг доминантного аудиокомпонента или его оценки.EEE 2. The method of claim EEE 1, further comprising determining an estimate of the residual mix, which is the initial output representation reduced by the rendering of the dominant audio component or its estimate.

EEE 3. Способ по п. EEE 1, дополнительно содержащий генерацию безэхового бинаурального микса входного аудиосигнала, основывающегося на канале или объекте, и определение оценки остаточного микса, причем оценка остаточного микса является безэховым бинауральным миксом за вычетом рендеринга доминантного аудиокомпонента или его оценки.EEE 3. The method of claim EEE 1, further comprising generating an anechoic binaural mix of the input audio signal based on the channel or object, and determining a residual mix estimate, wherein the residual mix estimate is the anechoic binaural mix minus the rendering of the dominant audio component or the estimate thereof.

EEE 4. Способ по п. EEE 2 или 3, дополнительно содержащий определение последовательности остаточных матричных коэффициентов для отображения начального выходного представления в оценку остаточного микса.EEE 4. The method of claim EEE 2 or 3, further comprising determining a sequence of residual matrix coefficients for mapping the initial output representation to a residual mix estimate.

EEE 5. Способ по любому из предшествующих EEE, в котором упомянутая начальное выходное представление содержит наушники или громкоговоритель.EEE 5. A method according to any one of the preceding EEEs, wherein said initial output representation comprises headphones or a loudspeaker.

EEE 6. Способ по любому из предшествующих EEE, в котором упомянутый входной аудиосигнал, основывающийся на канале или объекте, разбивается на элементы по времени и по частоте и упомянутый этап кодирования повторяется в отношении последовательности временных этапов и наборов полос частот.EEE 6. A method according to any one of the preceding EEEs, wherein said input audio signal based on a channel or object is decomposed into time and frequency elements and said encoding step is repeated over a sequence of time steps and sets of frequency bands.

EEE 7. Способ по любому из предшествующих EEE, в котором упомянутая начальное выходное представление содержит микс стереогромкоговорителей.EEE 7. The method of any one of the preceding EEEs, wherein said initial output representation comprises a mix of stereo speakers.

EEE 8. Способ декодирования кодированного аудиосигнала, причем кодированный аудиосигнал содержит:EEE 8. A method for decoding an encoded audio signal, wherein the encoded audio signal comprises:

- первое выходное представление;- first output performance;

- весовые коэффициенты доминантного аудиокомпонента и направления доминантных аудиокомпонент;- weighting coefficients of the dominant audio component and the direction of the dominant audio components;

способ, содержащий этапы, на которых:a method comprising the steps of:

(a) используют весовые коэффициенты доминантного аудиокомпонента и начальное выходное представление, чтобы определить оценочный доминантный компонент;(a) using the dominant audio component weights and the initial output representation to determine the estimated dominant component;

(b) рендерируют оценочный доминантный компонент с бинаурализацией в пространственном местоположении относительно целевого слушателя в соответствии с направлением доминантного аудиокомпонента, чтобы сформировать отрендеренный бинаурализированный оценочный доминантный компонент;(b) rendering the binauralized estimated dominant component at a spatial location relative to the target listener in accordance with the direction of the dominant audio component to generate a rendered binauralized estimated dominant component;

(c) реконструируют оценку остаточного компонента из первого выходного представления; и(c) reconstructing the residual component estimate from the first output representation; And

(d) объединяют отрендеренный бинаурализированный оценочный доминантный компонент и оценку остаточного компонента для формирования выходного пространственного кодированного аудиосигнала.(d) combining the rendered binauralized dominant component estimate and the residual component estimate to generate an output spatial encoded audio signal.

EEE 9. Способ по п. EEE 8, в котором упомянутый кодированный аудиосигнал дополнительно содержит последовательность остаточных матричных коэффициентов, представляющих остаточный аудиосигнал, и упомянутый этап (c) дополнительно является этапом, на котором:EEE 9. The method of claim EEE 8, wherein said encoded audio signal further comprises a sequence of residual matrix coefficients representing the residual audio signal, and said step (c) further is a step of:

(c1) применяют упомянутые остаточные матричные коэффициенты к первому выходному представлению, чтобы реконструировать оценку остаточного компонента.(c1) apply said residual matrix coefficients to the first output representation to reconstruct an estimate of the residual component.

EEE 10. Способ EEE 8, в котором оценка остаточного компонента реконструируется вычитанием отрендеренного бинаурализированного оценочного доминантного компонента из первого выходного представления.EEE 10. An EEE 8 method in which the residual component estimate is reconstructed by subtracting the rendered binauralized dominant component estimate from the first output representation.

EEE 11. Способ по EEE 8, в котором упомянутый этап (b) включает в себя начальный поворот оценочного доминантного компонента в соответствии со входным сигналом слежения за движением головы, указывающим ориентацию головы целевого слушателя.EEE 11. The method of EEE 8, wherein said step (b) includes an initial rotation of the estimated dominant component in accordance with a head tracking input indicating the head orientation of the target listener.

EEE 12. Способ декодирования и воспроизведения аудиопотока для слушателя, использующего наушники, причем упомянутый способ содержит этапы, на которых:EEE 12. A method of decoding and reproducing an audio stream for a listener using headphones, the method comprising the steps of:

(a) принимают поток данных, содержащий первую аудиопрезентацию и дополнительные аудиоданные преобразования;(a) receiving a data stream containing the first audio presentation and additional transform audio data;

(b) принимают данные ориентации головы, представляющие ориентацию слушателя;(b) receiving head orientation data representing the orientation of the listener;

(c) создают один или более вспомогательных сигналов, основываясь на упомянутой первой аудиопрезентации и принятых данных преобразования;(c) creating one or more auxiliary signals based on said first audio presentation and the received transform data;

(d) создают вторую аудиопрезентацию, состоящую из сочетания первого аудиопредставления и упомянутого вспомогательного сигнала(ов), в которой один или более упомянутых вспомогательных сигналов были модифицированы в ответ на упомянутые данные ориентации головы; и(d) creating a second audio presentation consisting of a combination of the first audio presentation and said auxiliary signal(s), wherein one or more of said auxiliary signals have been modified in response to said head orientation data; And

(e) выводят вторую аудиопрезентацию в качестве выходного аудиопотока.(e) outputting the second audio presentation as an output audio stream.

EEE 13. Способ по п. EEE 12, в котором модификация вспомогательных сигналов состоит из моделирования акустического пути прохождения от положения источника звука до ушей слушателя.EEE 13. The method of claim EEE 12, wherein the modification of the auxiliary signals consists of modeling the acoustic path from the position of the sound source to the listener's ears.

EEE 14. Способ по п. EEE 12 или 13, в котором упомянутые данные преобразования состоят из коэффициентов матрицирования и по меньшей мере одного из следующего: положение источника звука или направление источника звука.EEE 14. The method of claim EEE 12 or 13, wherein said transformation data consists of matrixing coefficients and at least one of a sound source position or a sound source direction.

EEE 15. Способ по любому из пп. EEE 12-14, в котором процесс преобразования применяется как функция времени или частоты.EEE 15. Method according to any one of paragraphs. EEE 12-14, in which the conversion process is applied as a function of time or frequency.

EEE 16. Способ по любому из EEE 12-15, в котором вспомогательные сигналы представляют собой по меньшей мере один доминантный компонент.EEE 16. The method according to any one of EEE 12-15, wherein the auxiliary signals are at least one dominant component.

EEE 17. Способ по любому из пп. EEE 12-16, в котором положение или направление источника звука, принятое как часть данных преобразования, вращаются ответ на данные ориентации головы.EEE 17. Method according to any one of paragraphs. EEE 12-16, in which the position or direction of the sound source, received as part of the transformation data, is rotated in response to the head orientation data.

EEE 18. Способ по п. EEE 17, в котором максимальная величина поворота ограничивается значением менее 360 градусов по азимуту или по углу места.EEE 18. The method according to clause EEE 17, in which the maximum amount of rotation is limited to less than 360 degrees in azimuth or elevation.

EEE 19. Способ по любому из пп. EEE 12-18, в котором вторичная презентация получается из первой презентации путем матрицирования в области преобразования или блока фильтров.EEE 19. Method according to any one of paragraphs. EEE 12-18, in which the secondary presentation is obtained from the first presentation by matrixing in a transform domain or filter bank.

EEE 20. Способ по любому из пп. EEE 12-19, в котором данные преобразования дополнительно содержат добавочные коэффициенты матрицирования и этап (d) дополнительно содержит модификацию первого аудиопредставления в ответ на добавочные коэффициенты матрицирования до объединения первой аудиопредставления и вспомогательного аудиосигнала(ов).EEE 20. Method according to any one of paragraphs. EEE 12-19, wherein the transform data further comprises additional matrixing coefficients and step (d) further comprises modifying the first audio representation in response to the additional matrixing coefficients prior to combining the first audio representation and the auxiliary audio signal(s).

EEE 21. Устройство, содержащее одно или более других устройств, выполненное с возможностью осуществления любого из способов по пп. EEE 1-20.EEE 21. A device containing one or more other devices, configured to implement any of the methods according to claims. EEE 1-20.

EEE 22. Считываемый компьютером носитель, содержащий программу, состоящую из команд, которые, когда исполняются одним или более процессорами, заставляют одно или более устройств выполнять способ по любому из пп. EEE 1-20.EEE 22. A computer-readable medium containing a program consisting of instructions that, when executed by one or more processors, cause one or more devices to perform the method of any one of claims. EEE 1-20.

Claims (22)

1. Система, выполненная с возможностью кодирования входного аудиосигнала, основывающегося на канале или объекте, для воспроизведения, причем система содержит:1. A system configured to encode an input audio signal based on a channel or object for playback, the system comprising: один или более процессоров; иone or more processors; And машиночитаемый носитель, на котором сохранены инструкции, которые при их исполнении одним или более процессорами предписывают системе выполнять операции, содержащие:A computer-readable medium on which instructions are stored that, when executed by one or more processors, direct a system to perform operations comprising: рендеринг входного аудиосигнала, основывающегося на канале или объекте, в начальное выходное представление;rendering the input audio signal, based on the channel or object, into an initial output representation; определение оценки доминантного аудиокомпонента из входного аудиосигнала, основывающегося на канале или объекте, каковое определение включает в себя:determining an estimate of the dominant audio component from an input audio signal based on a channel or object, which determination includes: определение последовательности весовых компонентов доминантного аудиокомпонента для отображения начального выходного представления в доминантный аудиокомпонент и determining a sequence of weight components of the dominant audio component to map the initial output representation to the dominant audio component; and определение оценки доминантного аудиокомпонента на основе весовых коэффициентов доминантного аудиокомпонента и начального выходного представления;determining a dominant audio component score based on the dominant audio component weights and the initial output representation; определение оценки направления или положения доминантного аудиокомпонента; иdetermining an estimate of the direction or position of the dominant audio component; And кодирование начального выходного представления, весовых коэффициентов доминантного аудиокомпонента и по меньшей мере одного из направления и положения доминантного аудиокомпонента в качестве кодированного сигнала для воспроизведения.encoding the initial output representation, dominant audio component weights, and at least one of a direction and position of the dominant audio component as an encoded signal for reproduction. 2. Система по п.1, в которой операции дополнительно содержат определение оценки остаточного микса, представляющей собой начальное выходное представление за вычетом рендеринга либо доминантного аудиокомпонента, либо его оценки.2. The system of claim 1, wherein the operations further comprise determining a residual mix estimate, which is the initial output representation minus the rendering of either the dominant audio component or an estimate thereof. 3. Система по п.1, в которой операции дополнительно содержат генерирование безэхового бинаурального микса входного аудиосигнала, основывающегося на канале или объекте, и определение оценки остаточного микса, причем оценкой остаточного микса является безэховый бинауральный микс за вычетом либо рендеринга доминантного аудиокомпонента, либо его оценки.3. The system of claim 1, wherein the operations further comprise generating an anechoic binaural mix of the input audio signal based on the channel or object, and determining a residual mix estimate, wherein the residual mix estimate is the anechoic binaural mix minus either rendering of the dominant audio component or an estimate thereof. . 4. Система по п.2, в которой операции дополнительно содержат определение последовательности остаточных матричных коэффициентов для отображения начального выходного представления в оценку остаточного микса.4. The system of claim 2, wherein the operations further comprise determining a sequence of residual matrix coefficients for mapping the initial output representation to a residual mix estimate. 5. Система по п.1, в которой начальное выходное представление содержит представление посредством наушников или представление посредством громкоговорителя.5. The system of claim 1, wherein the initial output presentation comprises a headphone presentation or a speaker presentation. 6. Система по п.1, в которой входной аудиосигнал, основывающийся на канале или объекте, разбивается на элементы разбиения по времени и частоте, и упомянутая операция кодирования повторяется в отношении последовательности временных шагов и последовательности полос частот.6. The system of claim 1, wherein the channel- or object-based input audio signal is decomposed into time and frequency bins, and said encoding operation is repeated over a sequence of time steps and a sequence of frequency bands. 7. Система по п.1, в которой начальное выходное представление содержит микс стереогромкоговорителей.7. The system of claim 1, wherein the initial output representation comprises a mix of stereo speakers. 8. Долговременный машиночитаемый носитель, на котором сохранены инструкции, которые при их исполнении одним или более процессорами предписывают одному или более устройствам выполнять операции, содержащие:8. A non-transitory computer-readable medium on which instructions are stored that, when executed by one or more processors, instruct one or more devices to perform operations containing: рендеринг входного аудиосигнала, основывающегося на канале или объекте, в начальное выходное представление;rendering the input audio signal, based on the channel or object, into an initial output representation; определение оценки доминантного аудиокомпонента из входного аудиосигнала, основывающегося на канале или объекте, каковое определение включает в себя:determining an estimate of the dominant audio component from an input audio signal based on a channel or object, which determination includes: определение последовательности весовых компонентов доминантного аудиокомпонента для отображения начального выходного представления в доминантный аудиокомпонент и determining a sequence of weight components of the dominant audio component to map the initial output representation to the dominant audio component; and определение оценки доминантного аудиокомпонента на основе весовых коэффициентов доминантного аудиокомпонента и начального выходного представления;determining a dominant audio component score based on the dominant audio component weights and the initial output representation; определение оценки направления или положения доминантного аудиокомпонента; иdetermining an estimate of the direction or position of the dominant audio component; And кодирование начального выходного представления, весовых коэффициентов доминантного аудиокомпонента и по меньшей мере одного из направления и положения доминантного аудиокомпонента в качестве кодированного сигнала для воспроизведения.encoding the initial output representation, dominant audio component weights, and at least one of a direction and position of the dominant audio component as an encoded signal for reproduction.
RU2020116816A 2015-11-17 2016-11-17 Head tracking system and method for obtaining parametric binaural output signal RU2818687C2 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201562256462P 2015-11-17 2015-11-17
US62/256,462 2015-11-17
EP15199854.9 2015-12-14
EP15199854 2015-12-14

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2018121757A Division RU2722391C2 (en) 2015-11-17 2016-11-17 System and method of tracking movement of head for obtaining parametric binaural output signal

Publications (2)

Publication Number Publication Date
RU2020116816A RU2020116816A (en) 2020-07-28
RU2818687C2 true RU2818687C2 (en) 2024-05-03

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2357854A1 (en) * 2010-01-07 2011-08-17 Deutsche Telekom AG Method and device for generating individually adjustable binaural audio signals
RU2427978C2 (en) * 2006-02-21 2011-08-27 Конинклейке Филипс Электроникс Н.В. Audio coding and decoding
US20110211702A1 (en) * 2008-07-31 2011-09-01 Mundt Harald Signal Generation for Binaural Signals
RU2443075C2 (en) * 2007-10-09 2012-02-20 Конинклейке Филипс Электроникс Н.В. Method and apparatus for generating a binaural audio signal
US20130272527A1 (en) * 2011-01-05 2013-10-17 Koninklijke Philips Electronics N.V. Audio system and method of operation therefor

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2427978C2 (en) * 2006-02-21 2011-08-27 Конинклейке Филипс Электроникс Н.В. Audio coding and decoding
RU2443075C2 (en) * 2007-10-09 2012-02-20 Конинклейке Филипс Электроникс Н.В. Method and apparatus for generating a binaural audio signal
US20110211702A1 (en) * 2008-07-31 2011-09-01 Mundt Harald Signal Generation for Binaural Signals
EP2357854A1 (en) * 2010-01-07 2011-08-17 Deutsche Telekom AG Method and device for generating individually adjustable binaural audio signals
US20130272527A1 (en) * 2011-01-05 2013-10-17 Koninklijke Philips Electronics N.V. Audio system and method of operation therefor

Similar Documents

Publication Publication Date Title
US10893375B2 (en) Headtracking for parametric binaural output system and method
US20200335115A1 (en) Audio encoding and decoding
KR101010464B1 (en) Generation of spatial downmixes from parametric representations of multi channel signals
JP2018529121A (en) Audio decoder and decoding method
RU2427978C2 (en) Audio coding and decoding
RU2818687C2 (en) Head tracking system and method for obtaining parametric binaural output signal
JP6964703B2 (en) Head tracking for parametric binaural output systems and methods
McCormack Real-time microphone array processing for sound-field analysis and perceptually motivated reproduction
EA041656B1 (en) AUDIO DECODER AND DECODING METHOD