RU2722391C2 - System and method of tracking movement of head for obtaining parametric binaural output signal - Google Patents

System and method of tracking movement of head for obtaining parametric binaural output signal Download PDF

Info

Publication number
RU2722391C2
RU2722391C2 RU2018121757A RU2018121757A RU2722391C2 RU 2722391 C2 RU2722391 C2 RU 2722391C2 RU 2018121757 A RU2018121757 A RU 2018121757A RU 2018121757 A RU2018121757 A RU 2018121757A RU 2722391 C2 RU2722391 C2 RU 2722391C2
Authority
RU
Russia
Prior art keywords
dominant
component
audio
residual
presentation
Prior art date
Application number
RU2018121757A
Other languages
Russian (ru)
Other versions
RU2018121757A (en
RU2018121757A3 (en
Inventor
Дирк Ерун БРЕБАРТ
Дэвид Мэттью КУПЕР
Марк Ф. ДЭВИС
Дэвид С. МАКГРАТ
Кристофер ЧЕРЛИНГ
Харальд МУНДТ
Ронда Дж. УИЛСОН
Original Assignee
Долби Лэборетериз Лайсенсинг Корпорейшн
Долби Интернэшнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Лэборетериз Лайсенсинг Корпорейшн, Долби Интернэшнл Аб filed Critical Долби Лэборетериз Лайсенсинг Корпорейшн
Priority claimed from PCT/US2016/062497 external-priority patent/WO2017087650A1/en
Publication of RU2018121757A publication Critical patent/RU2018121757A/en
Publication of RU2018121757A3 publication Critical patent/RU2018121757A3/ru
Application granted granted Critical
Publication of RU2722391C2 publication Critical patent/RU2722391C2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

FIELD: means for encoding and decoding of audio signal.
SUBSTANCE: initial rendering of input audio signal based on channel or object is performed to initial output representation. Estimating dominant audio component from input audio signal based on channel or object, and determining a sequence of weight components of the dominant audio component for displaying the initial output representation in the dominant audio component. An estimate of the direction or position of the dominant audio component is determined. Encoding initial output representation, weighting coefficients of dominant audio component, direction or position of the dominant audio component as a coded signal for reproduction.
EFFECT: technical result consists in improved efficiency of coding.
22 cl, 5 dwg

Description

Область техники, к которой относится изобретениеFIELD OF THE INVENTION

[0001] Настоящее изобретение обеспечивает системы и способы получения параметрического бинаурального выходного сигнала улучшенной формы, дополнительно используя слежение за движением головы.[0001] The present invention provides systems and methods for producing an improved shape parametric binaural output signal, further utilizing head movement tracking.

ЛитератураLiterature

[0002] Gundry, K., ʺA New Matrix Decoder for Surround Sound,ʺ AES 19th International Conf., Schloss Elmau, Germany, 2001.[0002] Gundry, K., ʺ A New Matrix Decoder for Surround Sound, ʺ AES 19th International Conf., Schloss Elmau, Germany, 2001.

[0003] Vinton, M., McGrath, D., Robinson, C., Brown, P., ʺNext generation surround decoding and up-mixing for consumer and professional applicationsʺ, AES 57th International Conf, Hollywood, CA, USA, 2015.[0003] Vinton, M., McGrath, D., Robinson, C., Brown, P., “Next generation surround decoding and up-mixing for consumer and professional applications”, AES 57th International Conf, Hollywood, CA, USA, 2015.

[0004] Wightman, F. L., and Kistler, D. J. (1989). ʺHeadphone simulation of free-field listening. I. Stimulus synthesis,ʺ J. Acoust. Soc. Am. 85, 858-867.[0004] Wightman, F. L., and Kistler, D. J. (1989). ʺHeadphone simulation of free-field listening. I. Stimulus synthesis, ʺ J. Acoust. Soc. Am. 85, 858-867.

[0005] ISO/IEC 14496-3:2009 - Information technology -- Coding of audio-visual objects -- Part 3: Audio, 2009.[0005] ISO / IEC 14496-3: 2009 - Information technology - Coding of audio-visual objects - Part 3: Audio, 2009.

[0006] Mania, Katerina, et al. "Perceptual sensitivity to head tracking latency in virtual environments with varying degrees of scene complexity." Proceedings of the 1st Symposium on Applied perception in graphics and visualization. ACM, 2004.[0006] Mania, Katerina, et al. "Perceptual sensitivity to head tracking latency in virtual environments with varying degrees of scene complexity." Proceedings of the 1st Symposium on Applied perception in graphics and visualization. ACM, 2004.

[0007] Allison, R. S., Harris, L. R., Jenkin, M., Jasiobedzka, U., & Zacher, J. E. (2001, March). Tolerance of temporal delay in virtual environments. In Virtual Reality, 2001. Proceedings. IEEE (pp. 247-254). IEEE.[0007] Allison, R. S., Harris, L. R., Jenkin, M., Jasiobedzka, U., & Zacher, J. E. (2001, March). Tolerance of temporal delay in virtual environments. In Virtual Reality, 2001. Proceedings. IEEE (pp. 247-254). IEEE

[0008] Van de Par, Steven, and Armin Kohlrausch. "Sensitivity to auditory-visual asynchrony and to jitter in auditory-visual timing." Electronic Imaging. International Society for Optics and Photonics, 2000.[0008] Van de Par, Steven, and Armin Kohlrausch. "Sensitivity to auditory-visual asynchrony and to jitter in auditory-visual timing." Electronic Imaging. International Society for Optics and Photonics, 2000.

Уровень техники изобретенияBACKGROUND OF THE INVENTION

[0009] Любое обсуждение уровня техники изобретения на протяжении всего описания никоим образом не должно рассматриваться как признание, что такой уровень техники широко известен или является частью обычных общих знаний в данной области.[0009] Any discussion of the prior art of the invention throughout the description should in no way be construed as an admission that such a prior art is widely known or is part of ordinary general knowledge in the art.

[0010] Создание контента, кодирование, распространение и воспроизведение аудиоконтента традиционно основывается на канале. То есть, одна конкретная целевая система воспроизведения предполагается для контента, проходящего по всей экосистеме контента. Примерами таких целевых систем воспроизведения являются моно-, стереосистемы, системы 5.1, 7.1, 7.1.4 и т.п.[0010] Content creation, coding, distribution and reproduction of audio content is traditionally channel based. That is, one specific target reproduction system is contemplated for content flowing throughout the content ecosystem. Examples of such target playback systems are mono, stereo, 5.1, 7.1, 7.1.4, etc.

[0011] Если контент должен воспроизводиться не на той системе, для которой он предназначен, может быть применено понижающее микширование или повышающее микширование. Например, контент 5.1 может воспроизводиться через систему стереовоспроизведения, используя определенные известные уравнения понижающего микширования. Другим примером является воспроизведение стереоконтента на установке громкоговорителей 7.1, которая может содержать так называемый процесс повышающего микширования, который может или не может управляться информацией, присутствующей в стереосигнале, такой, которая используется так называемыми матричными кодерами, такими как Dolby Pro Logic. Чтобы управлять процессом повышающего микширования, информация об исходном состоянии сигналов перед понижающим микшированием может быть сообщена неявно, вводя в уравнения понижающего микширования специальные фазовые соотношения, или, говоря иначе, применяя уравнения понижающего микширования с комплексными значениями. Известным примером такого способа понижающего микширования, использующего коэффициенты понижающего микширования с комплексными значениями для контента с громкоговорителями, расположенными в двух измерениях, является LtRt (Vinton и др., 2015).[0011] If the content is not to be played back on the system for which it is intended, downmix or upmix can be applied. For example, 5.1 content can be reproduced through a stereo reproduction system using certain known downmix equations. Another example is the playback of stereo content on a 7.1 speaker setup, which may include a so-called up-mix process, which may or may not be controlled by the information present in the stereo signal, such as that used by so-called matrix encoders such as Dolby Pro Logic. To control the up-mix process, information about the initial state of the signals before down-mix can be implicitly reported by introducing special phase relations into the down-mix equations, or, in other words, by applying the down-mix equations with complex values. A well-known example of such a downmix method using downmix coefficients with complex values for content with speakers in two dimensions is LtRt (Vinton et al., 2015).

[0012] Полученный в результате (стерео) сигнал с пониженным микшированием может быть воспроизведен через систему стереофонических громкоговорителей или может микшироваться вверх для установок с громкоговорителями звукового окружения и/или верхними фронтальными громкоговорителями. Целевое местоположение сигнала может быть получено посредством повышающего микширования из межканальных фазовых соотношений. Например, в стереопредставлении LtRt, сигнал, не совпадающий по фазе (например, имеющий нормированный коэффициент взаимной корреляции, близкий к -1, для формы межканального сигнала), должен, в идеале, воспроизводиться одним или более громкоговорителями с эффектом окружающего звука, тогда как положительный коэффициент корреляции (близкий к +1) указывает, что сигнал должен воспроизводиться фронтальными громкоговорителями, расположенными перед слушателем.[0012] The resulting (stereo) downmix signal can be played back through a stereo speaker system or can be mixed up for settings with surround speakers and / or front height speakers. The target location of the signal can be obtained by up-mixing from inter-channel phase relationships. For example, in the stereo representation of LtRt, a signal that does not match the phase (for example, having a normalized cross-correlation coefficient close to -1 for the shape of the inter-channel signal) should ideally be reproduced by one or more loudspeakers with an ambient sound effect, while positive a correlation coefficient (close to +1) indicates that the signal should be reproduced by the front speakers located in front of the listener.

[0013] Было разработано множество алгоритмов и стратегий повышающего микширования, которые различаются своими стратегиями воссоздания многоканального сигнала из стерео даун-микса. Что касается относительно простых повышающих микшеров, то нормированный коэффициент взаимной корреляции стереосигналов отслеживается как функция времени, тогда как сигнал(-ы) на фронтальные или тыловые громкоговорители регулируется в зависимости от значения нормированного коэффициента взаимной корреляции. Этот подход хорошо работает для относительно простого контента, в котором в одно и то же время присутствует только один объект прослушивания. Более совершенные повышающие микшеры основываются на статистической информации, которую получают из конкретных частотных областей для управления сигнальным потоком от стереовхода к мультиканальным выходам (Gundry 2001, Vinton и др., 2015). Конкретно, модель сигнала, основанная на регулируемом или доминантном компоненте и остаточном (диффузном) стереосигнале, может использоваться в индивидуальных временных/частотных элементах разбиения. Помимо оценки доминантного компонента и остаточных сигналов, также оценивается угол направления (по азимуту, возможно, возрастающий с углом места) и в дальнейшем сигнал доминантной компоненты регулируется для одного или более громкоговорителей, чтобы во время воспроизведения реконструировать (оценочное) положение.[0013] A variety of upmix algorithms and strategies have been developed that differ in their strategies for reproducing a multi-channel signal from a stereo down mix. As for relatively simple boosters, the normalized cross-correlation coefficient of stereo signals is monitored as a function of time, while the signal (s) to the front or rear speakers is controlled depending on the value of the normalized cross-correlation coefficient. This approach works well for relatively simple content in which only one listening object is present at the same time. More advanced boost mixers are based on statistical information that is obtained from specific frequency domains to control the signal flow from the stereo input to the multi-channel outputs (Gundry 2001, Vinton et al., 2015). Specifically, a signal model based on an adjustable or dominant component and a residual (diffuse) stereo signal can be used in individual time / frequency split elements. In addition to evaluating the dominant component and the residual signals, the direction angle is also estimated (in azimuth, possibly increasing with elevation angle) and then the signal of the dominant component is adjusted for one or more loudspeakers in order to reconstruct (estimated) position during playback.

[0014] Использование матричных кодеров и декодеров/повышающих микшеров не ограничивается контентом, основанным на каналах. Последние разработки в аудиоиндустрии основаны на аудиообъектах, а не на каналах, где один или более объектов состоят из аудиосигнала и ассоциированных метаданных, указывающих, помимо прочего, его целевое местоположение как функцию времени. Как отмечено у Vinton и др., 2015, для такого аудиоконтента, основанного на объектах, могут также использоваться матричные кодеры. В такой системе сигналы от объектов подвергаются понижающему микшированию в представление стереосигнала с помощью коэффициентов понижающего микширования, зависящих от позиционных метаданных объекта.[0014] The use of matrix encoders and decoders / boosters is not limited to channel based content. Recent developments in the audio industry are based on audio objects rather than channels where one or more objects consist of an audio signal and associated metadata indicating, among other things, its target location as a function of time. As noted by Vinton et al., 2015, matrix encoders can also be used for such object-based audio content. In such a system, signals from objects are downmixed to a stereo representation using downmix coefficients depending on the positional metadata of the object.

[0015] Повышающее микширование и воспроизведение матрично кодированного контента не обязательно ограничиваются воспроизведением через громкоговорители. Представление регулируемого или доминантного компонента, состоящего из доминантного компонентного сигнала и (целевого) местоположения, обеспечивает возможность воспроизведения через наушники посредством свертки с импульсными реакциями, связанными с головой, (HRIR) (Wightman и др., 1989). Упрощенная схема системы 1, реализующей этот способ, показана на фиг. 1. Входной сигнал 2 в формате кодированной матрицы сначала анализируется 3, чтобы определить направление и величину доминантной компоненты. Доминантный компонентный сигнал свертывается 4, 5 посредством пары HRIR, полученной из справочной информации 6 на основе направления доминантной компоненты, чтобы вычислить выходной сигнал для воспроизведения 7 через наушники, так чтобы воспроизводимый сигнал воспринимался как приходящий с направления, которое было определено на этапе 3 анализа доминантной компоненты. Эта схема может быть применена для широкополосных сигналов, а также для индивидуальных поддиапазонов, и может быть усовершенствована различными способами с помощью специализированной обработки остаточного (или диффузного) сигналов.[0015] Upmixing and reproduction of matrix encoded content are not necessarily limited to reproduction through speakers. Representation of an adjustable or dominant component, consisting of a dominant component signal and (target) location, enables playback through headphones through convolution with impulse responses associated with the head (HRIR) (Wightman et al., 1989). A simplified diagram of a system 1 implementing this method is shown in FIG. 1. Input signal 2 in the encoded matrix format 3 is first analyzed to determine the direction and magnitude of the dominant component. The dominant component signal is convolved 4, 5 by means of the HRIR pair obtained from the reference information 6 based on the direction of the dominant component to calculate the output signal for playback 7 through the headphones so that the reproduced signal is perceived as coming from the direction that was determined in step 3 of the dominant analysis Components. This scheme can be applied to wideband signals, as well as to individual subbands, and can be improved in various ways using specialized processing of residual (or diffuse) signals.

[0016] Использование матричных кодеров в большой степени пригодно для распределения и воспроизведения на AV-приемниках, но может быть проблематичным для мобильных применений, требующих низких скоростей передачи данных и низкого потребления энергии.[0016] The use of matrix encoders is highly suitable for distribution and playback on AV receivers, but can be problematic for mobile applications requiring low data rates and low power consumption.

[0017] Независимо от того, используется ли контент, основанный на каналах или на объектах, матричные кодеры и декодеры полагаются на достаточно точные межканальные фазовые соотношения сигналов, которые распространяются с матричного кодера на декодер. Другими словами, формат распределения должен в значительной степени сохранять форму сигнала. Такая зависимость от сохранения формы сигнала может создавать проблемы в условиях ограниченного битрейта, когда аудиокодеки используют параметрические способы, а не инструменты кодирования формы сигнала, чтобы получить лучшее качество звука. Примеры таких параметрических инструментов, которые общеизвестны как не сохраняющие форму сигнала, часто упоминаются как спектральная репликация диапазона, параметрическое стереокодирование, пространственное аудиокодирование и т. п., как они используются в аудиокодеках MPEG 4 (14496-3:2009 ISO/IEC).[0017] Regardless of whether channel-based or object-based content is used, matrix encoders and decoders rely on fairly accurate inter-channel phase relationships of signals that propagate from the matrix encoder to the decoder. In other words, the distribution format should largely preserve the waveform. This dependence on the preservation of the waveform can create problems in a limited bit rate environment where audio codecs use parametric methods rather than waveform coding tools to get the best sound quality. Examples of such parametric instruments that are generally known as waveformless are often referred to as spectral range replication, parametric stereo coding, spatial audio coding, etc., as they are used in MPEG 4 audio codecs (14496-3: 2009 ISO / IEC).

[0018] Как коротко описано в предыдущем разделе, повышающее микширование состоит из анализа и регулирования (или свертки HRIR) сигналов. Для устройств, питаемых от сети, таких как AV-приемники, это обычно не вызывает проблем, но для устройств, работающих от батареи, таких как мобильные телефоны и планшеты, вычислительная сложность и соответствующие требования к памяти, связанные с этими процессами, часто являются нежелательными из-за их отрицательно влияния на время работы от батареи.[0018] As briefly described in the previous section, up-mix consists of analyzing and regulating (or convolving HRIR) the signals. For network powered devices such as AV receivers, this is usually not a problem, but for battery powered devices such as mobile phones and tablets, the computational complexity and associated memory requirements associated with these processes are often undesirable due to their negative impact on battery life.

[0019] Вышеупомянутый анализ обычно также вводит дополнительную аудиозадержку. Такая аудиозадержка нежелательна, потому что (1) она требует видеозадержку для поддержания синхронизации движения губ с фонограммой, для которой необходим значительный объем памяти и вычислительной мощности, и (2) такая задержка может вызвать асинхронность/задержку между движениями головы и рендерингом аудио в случае слежения за движением головы.[0019] The above analysis usually also introduces additional audio delay. Such audio delay is undesirable because (1) it requires video delay in order to maintain synchronization of lip movement with a phonogram, which requires a significant amount of memory and processing power, and (2) such a delay can cause asynchrony / delay between head movements and rendering audio in case of tracking behind the movement of the head.

[0020] Матрично кодированный даун-микс также может не звучать оптимально на стереофонических громкоговорителях или наушниках из-за потенциального присутствия сильно несовпадающих по фазе сигнальных компонент.[0020] The matrix-coded down-mix may also not sound optimally on stereo speakers or headphones due to the potential presence of strongly mismatched signal components.

Сущность изобретенияSUMMARY OF THE INVENTION

[0021] Задача изобретения состоит в обеспечении улучшенной формы параметрического бинаурального выходного сигнала.[0021] An object of the invention is to provide an improved form of a parametric binaural output signal.

[0022] В соответствии с первым аспектом настоящего изобретения, обеспечивается способ кодирования входного аудиосигнала, основывающегося на канале или объекте, для воспроизведения, причем упомянутый способ включает в себя этапы, на которых: (a) первоначально проводят рендеринг входного аудиосигнала, основывающегося на канале или объекте, в начальное выходное представление (например, начальную выходную презентацию); (b) определяют оценку доминантного аудиокомпонента из входного аудиосигнала, основывающегося на канале или объекте, и определяют последовательность весовых коэффициентов доминантного аудиокомпонента для отображения начального выходного представления в доминантный аудиокомпонент; (c) определяют оценку направления и положения доминантного аудиокомпонента; и (d) кодируют начальное выходное представление, весовые коэффициенты доминантного аудиокомпонента, направление или положение доминантного аудиокомпонента как кодированный сигнал для воспроизведения. Обеспечивая последовательность весовых коэффициентов доминантного аудиокомпонента для отображения начального выходного представления в доминантный аудиокомпонент можно позволить использовать весовые коэффициенты доминантного аудиокомпонента и начальное выходное представление для определения оценки доминантного компонента.[0022] In accordance with a first aspect of the present invention, there is provided a method of encoding an input audio signal based on a channel or an object for playback, said method including the steps of: (a) initially rendering the input audio signal based on a channel or an object in an initial output presentation (for example, an initial output presentation); (b) determining an estimate of the dominant audio component from an input audio signal based on a channel or an object, and determining a sequence of weights of the dominant audio component to map the initial output representation to the dominant audio component; (c) determine an estimate of the direction and position of the dominant audio component; and (d) encode the initial output representation, the weights of the dominant audio component, the direction or position of the dominant audio component as an encoded signal for playback. By providing a sequence of weights of the dominant audio component to map the initial output representation to the dominant audio component, it is possible to use the weights of the dominant audio component and the initial output representation to determine the estimate of the dominant component.

[0023] В некоторых вариантах осуществления способ дополнительно включает в себя определение оценки остаточного микса, являющегося начальным выходным представлением за вычетом рендеринга доминантного аудиокомпонента или его оценки. Способ может также включать в себя генерацию безэхового бинаурального микса входного аудиосигнала, основывающегося на канале или объекте, и определение оценки остаточного микса, причем оценка остаточного микса может быть безэховым бинауральным миксом за вычетом рендеринга доминантного аудиокомпонента или его оценки. Дополнительно, способ может включать в себя определение последовательности остаточных матричных коэффициентов для отображения начального выходного представления в оценку остаточного микса.[0023] In some embodiments, the method further includes determining an estimate of the residual mix, which is the initial output representation minus the rendering of the dominant audio component or evaluation thereof. The method may also include generating an anechoic binaural mix of the input audio signal based on the channel or object, and determining an estimate of the residual mix, the estimate of the residual mix may be an anechoic binaural mix minus the rendering of the dominant audio component or its estimation. Additionally, the method may include determining a sequence of residual matrix coefficients for mapping the initial output representation into an estimate of the residual mix.

[0024] Начальное выходное представление может содержать представление посредством громкоговорителя или наушников. Входной аудиосигнал, основывающийся на канале или объекте, может быть разбит на элементы разбиения по времени и по частоте и этап кодирования может повторяться для последовательности временных этапов и последовательности диапазонов частот. Начальное выходное представление может содержать микс стереогромкоговорителей.[0024] The initial output presentation may comprise a presentation via a speaker or headphones. An input audio signal based on a channel or an object can be divided into time and frequency breakdown elements, and the coding step can be repeated for a sequence of time steps and a sequence of frequency ranges. The initial output representation may comprise a stereo loudspeaker mix.

[0025] В соответствии с дополнительным аспектом настоящего изобретения, обеспечивается способ декодирования кодированного аудиосигнала, причем кодированный аудиосигнал включает в себя: первое (например, начальное) выходное представление (например, первую/начальную выходную презентацию); направление доминантного аудиокомпонента и весовые коэффициенты доминантного аудиокомпонента; причем способ содержит этапы, на которых: (a) используют весовые коэффициенты доминантного аудиокомпонента и начальное выходное представление для определения оценочного доминантного компонента; (b) проводят рендеринг оценочного доминантного компонента с помощью бинаурализации в пространственном местоположении относительно целевого слушателя в соответствии с направлением доминантного аудиокомпонента, чтобы сформировать отрендеренный бинаурализированный оценочный доминантный компонент; (c) реконструируют оценку остаточного компонента из первого (например, начального) выходного представления; и (d) объединяют отрендеренный бинаурализированный оценочный доминантный компонент и оценку остаточного компонента, чтобы сформировать выходной пространственно ориентированный кодированный аудиосигнал.[0025] In accordance with an additional aspect of the present invention, there is provided a method for decoding an encoded audio signal, wherein the encoded audio signal includes: a first (eg, initial) output presentation (eg, first / initial output presentation); direction of the dominant audio component and weights of the dominant audio component; wherein the method comprises the steps of: (a) using weights of the dominant audio component and an initial output representation to determine the estimated dominant component; (b) rendering the estimated dominant component using binauralization at a spatial location relative to the target listener in accordance with the direction of the dominant audio component to form a rendered binauralized estimated dominant component; (c) reconstructing the estimate of the residual component from the first (e.g., initial) output representation; and (d) combining a rendered binauralized estimated dominant component and a residual component estimate to form an output spatially oriented encoded audio signal.

[0026] Кодированный аудиосигнал дополнительно может включать в себя последовательность остаточных матричных коэффициентов, представляющих остаточный аудиосигнал, и этап (c) дополнительно может содержать этап (c1), на котором применяют остаточные матричные коэффициенты к первому (например, начальному) выходному представлению, чтобы реконструировать оценку остаточного компонента.[0026] The encoded audio signal may further include a sequence of residual matrix coefficients representing the residual audio signal, and step (c) may further comprise step (c1) in which residual matrix coefficients are applied to the first (eg, initial) output representation to reconstruct assessment of the residual component.

[0027] В некоторых вариантах осуществления оценка остаточного компонента может быть реконструирована вычитанием отрендеренного бинаурализированного оценочного доминантного компонента из первого (например, начального) выходного представления. Этап (b) может включать в себя начальный поворот оценочного доминантного компонента в соответствии с входным сигналом слежения за движением головы, указывающим ориентацию головы целевого слушателя.[0027] In some embodiments, the residual component estimate may be reconstructed by subtracting the rendered binauralized estimated dominant component from the first (eg, initial) output representation. Step (b) may include an initial rotation of the estimated dominant component in accordance with an input signal tracking the head movement indicating the orientation of the head of the target listener.

[0028] В соответствии с дополнительным аспектом настоящего изобретения, обеспечивается способ декодирования и воспроизведения аудиопотока для слушателя, использующего наушники, причем упомянутый способ содержит этапы, на которых: (a) принимают поток данных, содержащий первую аудиопрезентацию и дополнительные данные аудиопреобразования; (b) принимают данные ориентации головы, представляющие ориентацию слушателя; (c) создают один или более вспомогательных сигналов, основываясь на первой аудиопрезентации и принятых данных преобразования; (d) создают вторую аудиопрезентацию, состоящую из объединения первой аудиопрезентации и вспомогательного сигнала(ов), в которой один или более вспомогательных сигналов были модифицированы в ответ на данные ориентации головы; и (e) выводят вторую аудиопрезентацию в качестве выходного аудиопотока.[0028] In accordance with a further aspect of the present invention, there is provided a method for decoding and reproducing an audio stream for a listener using headphones, said method comprising the steps of: (a) receiving a data stream comprising a first audio presentation and additional audio conversion data; (b) receiving head orientation data representing the orientation of the listener; (c) creating one or more auxiliary signals based on the first audio presentation and received transform data; (d) create a second audio presentation, consisting of combining the first audio presentation and an auxiliary signal (s), in which one or more auxiliary signals were modified in response to head orientation data; and (e) outputting a second audio presentation as an output audio stream.

[0029] Некоторые варианты осуществления могут дополнительно включать в себя модификацию вспомогательных сигналов, которая состоит из моделирования акустического пути прохождения от положения источника звука до ушей слушателя. Данные преобразования могут состоять из коэффициентов матрицирования и по меньшей мере одного из положения источника звука и направления источника звука. Процесс преобразования может применяться как функция времени или частоты. Вспомогательные сигналы могут представлять по меньшей мере один доминантный компонент. Положение или направление источника звука может быть принято как часть данных преобразования и может поворачиваться в ответ на данные ориентации головы. В некоторых вариантах осуществления максимальная величина поворота ограничивается значением меньше 360 градусов по азимуту или углу места. Вторичная презентация может быть получена из первой презентации путем матрицирования в области преобразования или набора фильтров. Данные преобразования дополнительно могут содержать дополнительные коэффициенты матрицирования и этап (d) дополнительно может содержать модификацию первого аудиопредставления в качестве реакции на дополнительные коэффициенты матрицирования перед объединением первого аудиопредставления и вспомогательного аудиосигнала(ов).[0029] Some embodiments may further include modifying auxiliary signals, which consists of modeling the acoustic path from the position of the sound source to the ears of the listener. The transform data may consist of matrix coefficients and at least one of the position of the sound source and the direction of the sound source. The conversion process can be applied as a function of time or frequency. Auxiliary signals may represent at least one dominant component. The position or direction of the sound source can be taken as part of the conversion data and can be rotated in response to the head orientation data. In some embodiments, the maximum amount of rotation is limited to less than 360 degrees in azimuth or elevation. Secondary presentation can be obtained from the first presentation by matrixing in the transformation area or a set of filters. The transform data may further comprise additional matrixing coefficients, and step (d) may further comprise modifying the first audio presentation in response to additional matrixing coefficients before combining the first audio presentation and the auxiliary audio signal (s).

Краткое описание чертежейBrief Description of the Drawings

[0030] Теперь только для примера будут описаны варианты осуществления изобретения со ссылкой на сопроводительные чертежи, на которых:[0030] Now, only by way of example, embodiments of the invention will be described with reference to the accompanying drawings, in which:

[0031] Фиг. 1 схематично иллюстрирует декодер наушников для матрично кодированного контента;[0031] FIG. 1 schematically illustrates a headphone decoder for matrix encoded content;

[0032] Фиг. 2 схематично иллюстрирует кодер, соответствующий варианту осуществления;[0032] FIG. 2 schematically illustrates an encoder according to an embodiment;

[0033] Фиг. 3 представляет собой блок-схему декодера;[0033] FIG. 3 is a block diagram of a decoder;

[0034] Фиг. 4 представляет собой подробную визуализацию кодера; и[0034] FIG. 4 is a detailed visualization of an encoder; and

[0035] Фиг. 5 более подробно иллюстрирует одну из форм декодера.[0035] FIG. 5 illustrates in more detail one form of decoder.

Осуществление изобретенияThe implementation of the invention

[0036] Варианты осуществления показывают систему и способ представления аудиоконтента, основывающегося на канале или объекте, который (1) совместим со стереовоспроизведением, (2) позволяет бинауральное воспроизведение, включающее в себя слежение за движением головы, (3) обладает небольшой сложностью декодера, и (4) не опирается, но, тем не менее, совместим с матричным кодированием.[0036] Embodiments show a system and method for presenting audio content based on a channel or an object that is (1) compatible with stereo playback, (2) allows binaural playback, including tracking head movement, (3) has little decoder complexity, and (4) not based, but nonetheless compatible with matrix coding.

[0037] Это достигается путем объединения выполняемого на стороне кодера анализа одного или более доминантных компонент (или доминантного объекта или их сочетания), включающего в себя веса для предсказания этих доминантных компонент из даун-микса, в комбинации с дополнительными параметрами, которые минимизируют ошибку между бинауральным рендерингом, основанным на одних только регулируемых или доминантных компонентах, и желаемого бинаурального представления полного контента.[0037] This is achieved by combining the encoder-side analysis of one or more dominant components (or a dominant object or a combination thereof), including weights for predicting these dominant components from the down mix, in combination with additional parameters that minimize the error between binaural rendering based on only regulated or dominant components and the desired binaural representation of the full content.

[0038] В варианте осуществления анализ доминантного компонента (или многочисленных доминантных компонент) обеспечивается в кодере, а не в декодере/рендерере. Аудиопоток затем нарастает с помощью метаданных, указывающих направление доминантного компонента, и информации о том, как доминантный компонент(-ы) может быть получен из сопутствующего сигнала даун-микса.[0038] In an embodiment, analysis of a dominant component (or multiple dominant components) is provided at the encoder, and not at the decoder / renderer. The audio stream then builds up with metadata indicating the direction of the dominant component, and information on how the dominant component (s) can be obtained from the accompanying down mix signal.

[0039] На фиг. 2 показана одна форма кодера 20 предпочтительного варианта осуществления. Контент 21, основанный на объекте или канале, подвергается анализу 23, чтобы определить доминантный компонент(-ы). Этот анализ может иметь место как функция времени и частоты (предполагается, что аудиоконтент разбивается на временные элементы и частотные подэлементы). Результатом этого процесса является доминантный компонентный сигнал 26 (или многочисленные доминантные компонентные сигналы) и ассоциированная информация 25 о положении(ях) или о направлении(ях). Далее делают оценку 24 и выводят 27 веса, чтобы позволить реконструкцию доминантного компонентного сигнала(ов) из переданного даун-микса. Этот генератор 22 даун-микса не обязательно должен твердо следовать правилам даун-микса LtRt, а может быть стандартным даун-миксом ITU (LoRo), использующим неотрицательные, с действительными значениями коэффициенты даун-микса. Наконец, выходной сигнал 29 даун-микса, веса 27 и позиционные данные 25 упаковывают аудиокодером 28 и готовят к распространению.[0039] FIG. 2 shows one form of encoder 20 of a preferred embodiment. Content 21 based on an object or channel undergoes analysis 23 to determine the dominant component (s). This analysis can take place as a function of time and frequency (it is assumed that the audio content is divided into time elements and frequency sub-elements). The result of this process is a dominant component signal 26 (or multiple dominant component signals) and associated information 25 about position (s) or direction (s). Next, a score of 24 is made and 27 weights are derived to allow reconstruction of the dominant component signal (s) from the transmitted down mix. This downmix generator 22 does not have to adhere strictly to the LtRt downmix rules, but may be a standard ITU downmix (LoRo) using non-negative, valid downmix coefficients. Finally, the output of the down mix 29, weight 27, and positional data 25 are packaged by audio encoder 28 and prepared for distribution.

[0040] На фиг. 3 показан соответствующий декодер 30 из предпочтительного варианта осуществления. Аудиодекодер реконструирует сигнал даун-микса. Сигнал вводят 31 и распаковывают посредством аудиодекодера 32 в сигнал даун-микса, веса и направление доминантных компонент. Далее, веса оценочных доминантных компонентов используют для реконструкции 34 регулируемых компонент, которые рендерируются 36, используя позиционные данные или данные о направлении. Позиционные данные, как вариант, могут модифицироваться 33 в зависимости от поворота головы или информации 38 преобразования. Дополнительно, реконструированный доминантный компонент(-ы) может вычитаться 35 из даун-микса. Как вариант, имеет место вычитание доминантного компонента(ов) в пределах пути прохождения даун-микса, но, альтернативно, вычитание может также происходить в кодере, как описано ниже.[0040] FIG. 3 shows a corresponding decoder 30 of a preferred embodiment. The audio decoder reconstructs the down mix signal. The signal is inputted 31 and decompressed by an audio decoder 32 into a down mix signal, the weight and direction of the dominant components. Further, the weights of the estimated dominant components are used to reconstruct 34 adjustable components, which are rendered 36 using positional data or directional data. Positional data, as an option, may be modified 33 depending on the rotation of the head or information 38 conversion. Additionally, reconstructed dominant component (s) can be subtracted 35 from the down mix. Alternatively, there is a subtraction of the dominant component (s) within the down mix path, but alternatively, the subtraction can also occur in the encoder, as described below.

[0041] Чтобы улучшить удаление или отмену реконструированного доминантного компонента в вычитающем устройстве 35, выходной сигнал доминантного компонента может сначала быть рендерирован, используя перед вычитанием переданные позиционные данные или данные направления. Этот необязательный этап 39 рендеринга показан на фиг. 3.[0041] In order to improve the removal or cancellation of the reconstructed dominant component in the subtractor 35, the output signal of the dominant component can first be rendered using transmitted positional data or directional data before subtraction. This optional rendering step 39 is shown in FIG. 3.

[0042] Возвращаясь теперь обратно, чтобы сначала описать кодер более подробно, на фиг. 4 представлена одна из форм кодера 40 для обработки аудиоконтента, основанного на объекте (например, система Dolby Atmos). Аудиообъекты первоначально хранятся в качестве объектов 41 Atmos и первоначально делятся на временные и частотные элементы, используя набор 42 гибридных зеркальных квадратурных фильтров с комплексными значениями (hybrid complex-valued quadrature mirror filter, HCQMF). Входные сигналы объектов могут быть обозначены как

Figure 00000001
, когда мы опускаем соответствующие временные и частотные индексы; соответствующее положение в пределах текущего кадра задается единичным вектором
Figure 00000002
, и индекс i относится к номеру объекта, а индекс n относится ко времени (например, индекс выборки поддиапазона). Входные сигналы
Figure 00000001
объекта являются примером входного аудиосигнала, основывающегося на канале или объекте.[0042] Returning now to first describe the encoder in more detail, in FIG. 4 illustrates one form of encoder 40 for processing object-based audio content (e.g., Dolby Atmos system). Audio objects are initially stored as 41 Atmos objects and are initially divided into time and frequency elements using a set of 42 hybrid complex-valued quadrature mirror filters (HCQMF). The input signals of objects can be denoted as
Figure 00000001
when we omit the corresponding time and frequency indices; the corresponding position within the current frame is set by a unit vector
Figure 00000002
, and index i refers to the object number, and index n refers to time (for example, a subband sample index). Input signals
Figure 00000001
objects are an example of an input audio signal based on a channel or an object.

[0043] Безэховый, поддиапазонный, бинауральный микс Y (

Figure 00000003
) создают 43, используя скаляры с комплексными значениями
Figure 00000004
(например, однополюсные HRTF 48), которые представляют презентацию поддиапазона для HRIR, соответствующих положению
Figure 00000002
:[0043] Anechoic, subband, binaural mix Y (
Figure 00000003
) create 43 using scalars with complex values
Figure 00000004
(e.g., single pole HRTF 48) that represent a subband presentation for HRIRs corresponding to the position
Figure 00000002
:

Figure 00000005
Figure 00000005

Figure 00000006
Figure 00000006

[0044] Альтернативно, бинауральный микс Y (

Figure 00000003
) может быть создан посредством свертки, используя связанные с головой импульсные реакции (HRIR). Дополнительно, стерео даун-микс
Figure 00000007
(как пример, реализующий начальное выходное представление) создают 44, используя коэффициенты
Figure 00000008
усиления амплитудного панорамирования:[0044] Alternatively, binaural mix Y (
Figure 00000003
) can be created by convolution using head impulse responses (HRIR). Optional stereo down mix
Figure 00000007
(as an example that implements the initial output representation) create 44 using the coefficients
Figure 00000008
amplification of amplitude panning:

Figure 00000009
Figure 00000009

Figure 00000010
Figure 00000010

[0045] Вектор направления доминантного компонента

Figure 00000011
(в качестве примера реализующий направление или положение доминантного аудиокомпонента) может оцениваться путем вычисления доминантного компонента 45, первоначально вычисляя взвешенную сумму единичных векторов направления для каждого объекта:[0045] The direction vector of the dominant component
Figure 00000011
(as an example, realizing the direction or position of the dominant audio component) can be estimated by calculating the dominant component 45, initially calculating the weighted sum of unit direction vectors for each object:

Figure 00000012
Figure 00000012

где

Figure 00000013
- энергия сигнала
Figure 00000001
:Where
Figure 00000013
- signal energy
Figure 00000001
:

Figure 00000014
Figure 00000014

и (.)* - комплексный оператор свертки.and (.) * is the complex convolution operator.

[0046] Доминантный/регулирующий сигнал d [ n ] (в качестве примера реализующий доминантный аудиокомпонент) далее задается следующим образом:[0046] The dominant / control signal d [ n ] (which implements the dominant audio component as an example) is further defined as follows:

Figure 00000015
Figure 00000015

[0047] где

Figure 00000016
- функция, выполняющая усиление, которое уменьшается с увеличением расстояния между единичными векторами
Figure 00000017
. Например, чтобы создать виртуальный микрофон с помощью модели направленности, основанной на сферических гармониках высшего порядка, одна из реализаций должна соответствовать следующему:[0047] where
Figure 00000016
- a function that performs amplification, which decreases with increasing distance between unit vectors
Figure 00000017
. For example, to create a virtual microphone using a directivity model based on higher-order spherical harmonics, one of the implementations should correspond to the following:

Figure 00000018
Figure 00000018

где

Figure 00000019
- единичный вектор направления в двух- или трехмерной системе координат,(.) - оператор скалярного произведения двух векторов, и a, b, c - примерные параметры (например a=b=0,5; c=1).Where
Figure 00000019
is the unit direction vector in a two- or three-dimensional coordinate system, (.) is the scalar product operator of two vectors, and a, b, c are approximate parameters (for example, a = b = 0.5; c = 1).

[0048] Веса или коэффициенты предсказания w l , d , w r , d вычисляются 46 и используются для вычисления 47 оценочного регулируемого сигнала

Figure 00000020
:[0048] The weights or prediction coefficients w l , d , w r , d are calculated 46 and used to calculate 47 the estimated adjustable signal
Figure 00000020
:

Figure 00000021
Figure 00000021

где веса w l , d , w r , d минимизируют среднеквадратичную ошибку между

Figure 00000022
, заданными сигналами
Figure 00000007
даун-микса. Веса w l , d , w r , d являются примером весовых коэффициентов доминантного аудиокомпонента для отображения начального выходного представления (например,
Figure 00000007
) в доминантный аудиокомпонент (например,
Figure 00000023
). Известный способ получения этих весов заключается в применении устройства прогнозирования минимальной среднеквадратичной ошибки (MMSE):where the weights w l , d , w r , d minimize the mean square error between
Figure 00000022
set by signals
Figure 00000007
down mix. The weights w l , d , w r , d are an example of the weights of the dominant audio component to display the initial output representation (for example,
Figure 00000007
) into the dominant audio component (e.g.
Figure 00000023
) A known method of obtaining these weights is the use of a minimum mean square error prediction (MMSE) device:

Figure 00000024
Figure 00000024

где R ab - матрица ковариации между сигналами для сигналов a и сигналов b, и - параметр регуляризации.where R ab is the covariance matrix between signals for signals a and signals b , and is the regularization parameter.

[0049] Мы можем затем вычесть 49 отрендеренную оценку доминантного компонентного сигнала

Figure 00000023
из безэхового бинаурального микса
Figure 00000025
, чтобы создать остаточный бинауральный микс
Figure 00000026
, используя HRTF (HRIR)
Figure 00000027
50, связанный с направлением/положением
Figure 00000028
доминантного компонентного сигнала
Figure 00000029
:[0049] We can then subtract 49 rendered estimates of the dominant component signal
Figure 00000023
from anechoic binaural mix
Figure 00000025
to create a residual binaural mix
Figure 00000026
using HRTF (HRIR)
Figure 00000027
50 associated with direction / position
Figure 00000028
dominant component signal
Figure 00000029
:

Figure 00000030
Figure 00000030

Figure 00000031
Figure 00000031

[0050] Наконец, оценивают 51 другой набор коэффициентов предсказания или весов w i , j , которые позволяют реконструкцию остаточного бинаурального микса

Figure 00000026
из стереомикса
Figure 00000032
,используя оценочные минимальные среднеквадратичные ошибки:[0050] Finally, 51 different sets of prediction coefficients or weights w i , j that allow reconstruction of the residual binaural mix are evaluated.
Figure 00000026
from stereo mix
Figure 00000032
using estimated minimum standard errors:

Figure 00000033
Figure 00000033

где R ab - матрица ковариации между сигналами для презентации а и презентации b, и - параметр регуляризации. Коэффициенты прогнозирования или веса w i , j являются примером остаточных матричных коэффициентов для отображения начального выходного представления (например,

Figure 00000034
) в оценочный остаточный бинауральный микс
Figure 00000026
. Приведенное выше выражение может быть подвергнуто дополнительным ограничениям уровня, чтобы преодолеть любые потери прогнозирования. Кодер выводит следующую информацию:where R ab is the covariance matrix between the signals for presentation a and presentation b , and is the regularization parameter. Prediction coefficients or weights w i , j are an example of residual matrix coefficients for displaying an initial output representation (e.g.,
Figure 00000034
) into the estimated residual binaural mix
Figure 00000026
. The above expression may be subject to additional level restrictions to overcome any prediction loss. The encoder displays the following information:

[0051] Стереомикс

Figure 00000034
(в качестве примера реализации начального выходного представления);[0051] Stereomix
Figure 00000034
(as an example of the implementation of the initial output representation);

[0052] Коэффициентами для оценки доминантного компонента w l , d , w r , d (в качестве примера реализующего весовые коэффициенты доминантного аудиокомпонента) являются;[0052] Odds for evaluating the dominant componentw l , d , w r , d (as an example of implementing the weighting coefficients of the dominant audio component) are;

[0053] положение или направление доминантного компонента

Figure 00000028
;[0053] the position or direction of the dominant component
Figure 00000028
;

[0054] и, дополнительно, остаточные веса w i , j (в качестве примера реализации остаточных матричных коэффициентов).[0054] and, optionally, the residual weights w i , j (as an example of the implementation of the residual matrix coefficients).

[0055] Хотя представленное выше описание относится к рендерингу, основанному на одном единственном доминантном компоненте, в некоторых вариантах осуществления кодер может быть выполнен с возможностью обнаружения многочисленных доминантных компонент, определения весов и направлений для каждого из многочисленных доминантных компонентов, рендеринга и вычитания каждого из многочисленных доминантных компонент из безэхового бинаурального микса Y, и затем определения остаточных весов после того, как каждый из многочисленных доминантных компонент был вычтен из безэхового бинаурального микса Y.[0055] Although the above description relates to rendering based on one single dominant component, in some embodiments, the encoder may be configured to detect multiple dominant components, determine weights and directions for each of the many dominant components, render and subtract each of the many the dominant components from the anechoic binaural mix Y, and then determine the residual weights after each of the many dominant components has been subtracted from the anechoic binaural mix Y.

Декодер/рендерерDecoder / Renderer

[0056] На фиг. 5 более подробно показана одна из форм декодера/рендерера 60. Декодер/рендерер 60 применяет процесс, направленный на реконструкцию бинаурального микса

Figure 00000003
для вывода слушателю 71 из распакованной входной информации z l , z r ; w l , d , w r , d ;
Figure 00000028
, w i , j . Здесь стерео микс z l , z r является примером первой аудиопрезентации и коэффициенты или веса предсказания w i , j и/или направление/положение
Figure 00000028
доминантного компонентного сигнала
Figure 00000035
являются примерами дополнительных данных аудиопреобразования.[0056] FIG. 5 shows in more detail one form of decoder / renderer 60. Decoder / renderer 60 employs a process aimed at reconstructing a binaural mix
Figure 00000003
to output to the listener 71 from the unpacked input informationz l z r ; w l , d , w r , d ;
Figure 00000028
, w i , j . Here is a stereo mixz l z r is an example of a first audio presentation and prediction coefficients or weightsw i , j and / or direction / position
Figure 00000028
dominant component signal
Figure 00000035
are examples of additional audio conversion data.

[0057] Первоначально, стереодаун-микс разбивается на временные/частотные элементы, используя соответствующий набор фильтров или преобразование 61, такое как аналитическая группа HCQMF 61. Другие преобразования, такие как дискретное преобразование Фурье, (модифицированное) косинусное или синусное преобразование, набор фильтров во временной области или вейвлет-преобразование также могут быть применимы в равной степени. В дальнейшем, оценочный доминантный компонентный сигнал

Figure 00000023
вычисляется 63, используя веса w l , d , w r , d коэффициентов предсказания:[0057] Initially, a stereo down mix is split into time / frequency elements using an appropriate filter set or transform 61, such as the HCQMF analytic group 61. Other transformations, such as a discrete Fourier transform, a (modified) cosine or sine transform, a set of filters in time domain or wavelet transform can also be equally applicable. Subsequently, the estimated dominant component signal
Figure 00000023
63 is calculated using the weights w l , d , w r , d of the prediction coefficients:

Figure 00000023
=w l , d z l +w r , d z r
Figure 00000023
= w l , d z l + w r , d z r

Оценочный доминантный компонентный сигнал

Figure 00000023
является примером вспомогательного сигнала. Следовательно, можно сказать, что этот этап соответствует созданию одного или более вспомогательных сигналов, основанных на упомянутой первой аудиопрезентации и принятых данных преобразования.Estimated Dominant Component Signal
Figure 00000023
is an example of an auxiliary signal. Therefore, it can be said that this step corresponds to the creation of one or more auxiliary signals based on said first audio presentation and received conversion data.

[0058] Этот доминантный компонентный сигнал в дальнейшем рендерируется 65 и модифицируется 68 с помощью HRTF 69, основанных на переданных данных положения/направления

Figure 00000028
, возможно, модифицированных (повернутых) на основе информации, полученной из устройства 62 слежения за головой. Наконец, общий приглушенный бинауральный выходной сигнал состоит из отрендеренного доминантного компонентного сигнала, суммированного 66 с реконструированными остатками
Figure 00000026
, основанными на весах w ij коэффициентов предсказания:[0058] This dominant component signal is further rendered 65 and modified 68 by HRTF 69 based on the transmitted position / direction data
Figure 00000028
possibly modified (rotated) based on information received from head tracking device 62. Finally, the overall muted binaural output signal consists of a rendered dominant component signal summed 66 with reconstructed residues
Figure 00000026
based on the weights w ij prediction coefficients:

Figure 00000036
Figure 00000036

Figure 00000037
Figure 00000037

Полный приглушенный бинауральный выходной сигнал является примером второй аудиопрезентации. Следовательно, этот этап, можно сказать, должен соответствовать созданию второй аудиопрезентации, состоящей из сочетания упомянутой первой аудиопрезентации и упомянутого вспомогательного сигнала(ов), в которой один или более из упомянутых вспомогательных сигналов были модифицированы в ответ на упомянутые данные ориентации головы.A full muted binaural output is an example of a second audio presentation. Therefore, this stage can be said to correspond to the creation of a second audio presentation consisting of a combination of said first audio presentation and said auxiliary signal (s), in which one or more of these auxiliary signals were modified in response to said head orientation data.

[0059] Дополнительно следует заметить, что если принята информация о более чем одном доминантном сигнале, каждый доминантный сигнал может быть рендерирован и добавлен к реконструированному остаточному сигналу.[0059] Additionally, it should be noted that if information about more than one dominant signal is received, each dominant signal can be rendered and added to the reconstructed residual signal.

[0060] Пока никакое вращение или перемещение головы не применяется, выходные сигналы

Figure 00000038
должны быть очень близки (с точки зрения среднеквадратичной ошибки) к опорным бинауральным сигналам
Figure 00000039
, пока[0060] As long as no rotation or movement of the head is applied, the output signals
Figure 00000038
should be very close (in terms of standard error) to reference binaural signals
Figure 00000039
, till

Figure 00000040
Figure 00000040

Основные свойстваBasic properties

[0061] Как можно видеть из приведенных выше уравнений, эффективная операция по созданию приглушенного бинаурального представления из стереопредставления состоит из матрицы 2×2 70, в которой матричные коэффициенты зависят от переданной информации w l , d , w r , d ;

Figure 00000028
, w i , j и поворота и/или перемещения устройства слежения за головой. Это указывает, что сложность процесса является относительно низкой, поскольку анализ доминантных компонент применяется в кодере вместо декодера.[0061] As can be seen from the above equations, an effective operation for creating a muted binaural representation from a stereo representation consists of a 2 × 2 70 matrix in which the matrix coefficients depend on the transmitted information w l , d , w r , d ;
Figure 00000028
, w i , j and turning and / or moving the head tracking device. This indicates that the complexity of the process is relatively low, since the analysis of dominant components is used in the encoder instead of the decoder.

[0062] Если никакой доминантный компонент не оценен (например,w l , d , w r , d =0), описанное решение эквивалентно параметрическому бинауральному способу.[0062] If no dominant component is evaluated (for example, w l , d , w r , d = 0), the described solution is equivalent to the parametric binaural method.

[0063] В случаях, когда имеется желание исключить определенные объекты из слежения за вращением/перемещением головы, эти объекты могут быть исключены из (1) анализа направления доминантных компонент, и (2) предсказания доминантных компонентных сигналов. В результате эти объекты будут преобразовываться из стерео в бинауральные посредством коэффициентов w i , j и поэтому на них не влияет никакое вращение или перемещение головы.[0063] In cases where there is a desire to exclude certain objects from tracking the rotation / movement of the head, these objects can be excluded from (1) analysis of the direction of dominant components, and (2) prediction of dominant component signals. As a result, these objects will be transformed from stereo to binaural by means of coefficientsw i , j and therefore they are not affected by any rotation or movement of the head.

[0064]При подобном ходе мыслей объекты могут быть установлены в режиме "pass through" (сквозного прохождения), что означает, что в бинауральном представлении они будут подвергнуты амплитудному панорамированию, а не свертке HRIR. Это может быть получено, просто используя коэффициенты усиления амплитудного панорамирования для коэффициентов H i вместо однополюсных HRTF или любого другого соответствующего бинаурального процесса.[0064] With such a train of thought, objects can be set in a “pass through” mode, which means that in the binaural representation they will be subjected to amplitude panning rather than HRIR convolution. This can be obtained simply by using the amplitude pan gain for the H i coefficients instead of a single pole HRTF or any other appropriate binaural process.

РасширенияExtensions

[0065] Варианты осуществления не ограничиваются использованием даун-миксов, поскольку также могут использоваться отсчеты других каналов.[0065] Embodiments are not limited to the use of down mixes, since samples of other channels may also be used.

[0066] Декодер 60, описанный со ссылкой на фиг. 5, имеет выходной сигнал, состоящий из отрендеренного направления доминантной компоненты плюс входной сигнал, матрицированный посредством матричных коэффициентов w i , j . Последние коэффициенты могут быть получены различными способами, например:[0066] The decoder 60 described with reference to FIG. 5 has an output signal consisting of the rendered direction of the dominant component plus an input signal matriced by matrix coefficients w i , j . The latest coefficients can be obtained in various ways, for example:

[0067] 1. Коэффициенты w i , j могут быть определены в кодере посредством параметрической реконструкции сигналов

Figure 00000026
. Другими словами, в этой реализации, коэффициенты w i , j направлены на точную реконструкцию бинауральных сигналов
Figure 00000041
, которые могли бы быть получены при рендеринге первоначальных входных объектов/каналов бинауральным образом; другими словами, коэффициенты w i , j управляются контентом.[0067] 1. The coefficients w i , j can be determined in the encoder by parametric reconstruction of the signals
Figure 00000026
. In other words, in this implementation, the coefficients w i , j are aimed at the exact reconstruction of binaural signals
Figure 00000041
that could be obtained by rendering the original input features / channels in a binaural way; in other words, the coefficients w i , j are controlled by content.

[0068] 2. Коэффициенты w i , j могут быть переданы от кодера к декодеру, чтобы представить HRTF для определенных пространственных положений, например, с углами +/-45 градусов по азимуту. Другими словами, остаточный сигнал обрабатывается, чтобы моделировать воспроизведение через два виртуальных громкоговорителя в определенных местоположениях. Поскольку эти коэффициенты, представляющие HRTF, передаются от кодера на декодер, местоположения виртуальных громкоговорителей могут изменяться во времени и по частоте. Если этот подход применяется, используя статические виртуальные громкоговорители, чтобы представить остаточный сигнал, коэффициенты w i , j не требуют передачи от кодера к декодеру, и могут вместо этого подключаться проводами в декодере. Вариант такого подхода может состоять из ограниченного набора статических местоположений, которые доступны в декодере, с их соответствующими коэффициентами w i , j , и их выбор, при котором для обработки остаточного сигнала используется статическое местоположение, сообщается от кодера декодеру.[0068] 2. The coefficients w i , j can be transmitted from the encoder to the decoder to represent HRTF for certain spatial positions, for example, with angles of +/- 45 degrees in azimuth. In other words, the residual signal is processed to simulate reproduction through two virtual speakers at specific locations. Because these HRTF coefficients are transmitted from the encoder to the decoder, the locations of the virtual speakers can vary in time and frequency. If this approach is used using static virtual speakers to represent the residual signal, the coefficients w i , j do not require transmission from the encoder to the decoder, and can instead be connected by wires in the decoder. A variant of this approach may consist of a limited set of static locations that are available in the decoder, with their respective coefficients w i , j , and their selection, in which a static location is used to process the residual signal, is reported from the encoder to the decoder.

[0069] Сигналы

Figure 00000026
могут подвергаться так называемому повышающему микшированию, реконструируя более 2 сигналов посредством статистического анализа этих сигналов в декодере с последующим бинауральным рендерингом результирующих сигналов повышающего микширования.[0069] Signals
Figure 00000026
can undergo the so-called up-mix, reconstructing more than 2 signals by statistical analysis of these signals in the decoder, followed by binaural rendering of the resulting up-mix signals.

[0070] Описанные способы могут быть также применимы в системе, в которой переданный сигнал Z является бинауральным сигналом. В этом конкретном случае декодер 60, показанный на фиг. 5, остается таким, как он есть, в то время как блок, обозначенный как "Generate stereo (LoRo) mix" (сгенерировать стереомикс (LoRo)" 44 и показанный на фиг. 4, должен быть заменен на "Generate anechoic binaural mix" (сгенерировать приглушенный бинауральный микс) 43 (фиг. 4), который является таким же, как и блок, создающий сигнальную пару Y. Дополнительно, в соответствии с требованиями, могут быть сгенерированы и другие формы миксов.[0070] The described methods may also be applicable in a system in which the transmitted signal Z is a binaural signal. In this particular case, the decoder 60 shown in FIG. 5 remains as it is, while the block labeled “Generate stereo (LoRo) mix” 44 and shown in FIG. 4 should be replaced with “Generate anechoic binaural mix” (generate a muted binaural mix) 43 (Fig. 4), which is the same as the block that creates the signal pair Y. Additionally, in accordance with the requirements, other forms of mixes can be generated.

[0071] Этот подход может быть расширен с помощью способов реконструкции одного или более входных сигналов FDN из переданного стереомикса, который состоит из конкретного подмножества объектов или каналов.[0071] This approach can be expanded using methods for reconstructing one or more input FDN signals from a transmitted stereo mix, which consists of a specific subset of objects or channels.

[0072] Подход может быть расширен с помощью множественных доминантных компонентов, предсказываемых из переданного стереомикса и рендерируемых на стороне декодера. Не существует никакого принципиального ограничения предсказания только одного доминантного компонента для каждого временного/частотного элемента разбиения. В частности, количество доминантных компонент может различаться в каждом временном/частотном элементе разбиения.[0072] The approach can be extended using multiple dominant components predicted from the transmitted stereo mix and rendered on the side of the decoder. There is no fundamental restriction on predicting only one dominant component for each time / frequency partition element. In particular, the number of dominant components may vary in each time / frequency partition element.

ИнтерпретацияInterpretation

[0073] В этом описании повсеместно ссылка на "один из вариантов осуществления", "некоторые варианты осуществления" или "вариант осуществления" означает, что конкретный признак, структура или характеристика, описанные в сочетании с вариантом осуществления, вводятся по меньшей мере в один вариант осуществления настоящего изобретения. Таким образом, появление выражений "в одном из вариантов осуществления", "в некоторых вариантах осуществления" или "в варианте осуществления" повсеместно в различных местах настоящего описания не обязательно, поскольку все они относятся к одному и тому же варианту осуществления. Кроме того, конкретные признаки, структуры или характеристики могут объединяться любым приемлемым способом, как должно быть очевидно специалисту в данной области техники, исходя из этого раскрытия, в одном или более вариантах осуществления.[0073] Throughout this specification, a reference to “one embodiment”, “some embodiments” or “an embodiment” means that a particular feature, structure, or characteristic described in conjunction with an embodiment is entered in at least one embodiment the implementation of the present invention. Thus, the appearance of the expressions “in one embodiment”, “in some embodiments” or “in an embodiment” is not necessarily universally available in various places in the present description, since they all refer to the same embodiment. In addition, specific features, structures, or characteristics may be combined in any suitable manner, as should be apparent to one skilled in the art, based on this disclosure, in one or more embodiments.

[0074] Использование порядковых числительных "первый", "второй", "третий" и т. д. для описания обычного объекта, как они используются здесь, если не определено иначе, просто указывает, что ссылка делается на различные экземпляры схожих объектов, и не предназначено подразумевать, что объекты, описанные таким образом, должны следовать в приведенной последовательности во времени или в пространстве, по порядку, или любым другим способом.[0074] Using the ordinal numbers "first", "second", "third", etc. to describe a common object, as used here, unless otherwise specified, simply indicates that reference is made to different instances of similar objects, and it is not intended to imply that the objects described in this way should follow in the given sequence in time or space, in order, or in any other way.

[0075] В приведенной ниже формуле изобретения и в приведенном здесь описании, любой из терминов "содержащий", "содержащийся" или "который содержит", является открытым термином, который означает включение, по меньшей мере, элементов/признаков, соответствующих термину, но не исключает и других. Таким образом, термин "содержащий", когда используется в формуле изобретения, не должен истолковываться как ограничительный для средств, элементов или этапов, перечисленных здесь далее. Например, объем выражения "устройство, содержащее A и B", не должен ограничиваться устройствами, состоящими только из элементов A и B. Любой из терминов "включающий в себя" или "который включает в себя" или "которые включают", как эти термины используются здесь, также являются открытыми терминами, которые означают включение, по меньшей мере, элементов/признаков, соответствующих термину, но не исключают и других. Таким образом, "включающий в себя" является синонимом и означает "содержащий". [0075] In the following claims and in the description herein, any of the terms “comprising”, “comprising” or “which contains” is an open term that means including at least elements / features corresponding to the term, but does not exclude others. Thus, the term “comprising”, when used in the claims, should not be construed as limiting to the means, elements, or steps listed hereinafter. For example, the expression “device containing A and B” should not be limited to devices consisting of elements A and B. Any of the terms “including” or “which includes” or “which include”, as these terms used here are also open terms, which mean the inclusion of at least elements / features corresponding to the term, but do not exclude others. Thus, “including” is synonymous with “including”.

[0076] Термин "примерный", как он используется здесь, применяется в смысле предоставления примеров, а не как указание на качество. То есть, "примерный вариант осуществления" является вариантом осуществления, представляемым в качестве примера, и не является обязательно вариантом осуществления, образцовым по качеству. [0076] The term "exemplary," as used here, is used in the sense of providing examples, and not as an indication of quality. That is, an “exemplary embodiment” is an embodiment presented as an example, and is not necessarily an embodiment exemplary in quality.

[0077] Следует понимать, что в приведенном выше описании примерных вариантов осуществления изобретения, различные признаки изобретения с целью оптимизации раскрытия и оказания помощи в понимании одного или более различных изобретательских подходов иногда группируются вместе в единый вариант осуществления, чертеж или их описание. Этот способ раскрытия, однако, не должен интерпретироваться как отражение намерения, что заявленное изобретение требует большего количества признаков, чем явно приводится в каждом пункте формулы изобретения. Скорее, как это отражает последующая формула изобретения, аспекты изобретения заключаются в менее, чем во всех признаках единого предшествующего раскрытого варианта осуществления. Таким образом, формула изобретения, следующая после раздела "Осуществление изобретения", тем самым явно включается в это "Осуществление изобретения" с каждым пунктом формулы изобретения, являющимся самостоятельным, в качестве отдельного варианта осуществления этого изобретения.[0077] It should be understood that in the above description of exemplary embodiments of the invention, various features of the invention, in order to optimize the disclosure and assist in understanding one or more different inventive approaches, are sometimes grouped together into a single embodiment, drawing or description thereof. This disclosure method, however, should not be interpreted as a reflection of the intention that the claimed invention requires more features than is explicitly provided in each claim. Rather, as the following claims reflect, aspects of the invention are less than all features of a single prior disclosed embodiment. Thus, the claims following the section “Implementation of the invention” are hereby expressly included in this “Implementation of the invention” with each independent claim as a separate embodiment of this invention.

[0078] Дополнительно, хотя некоторые варианты осуществления, описанные здесь, содержат некоторые, но не другие признаки, включенные в другие варианты осуществления, сочетания признаков в различных вариантах осуществления означает, что они находятся в рамках объема изобретения и формируют различные варианты осуществления, как это должны понимать специалисты в данной области техники. Например, в последующей формуле изобретения любой из заявленных вариантов осуществления может использоваться в любом сочетании.[0078] Additionally, although some of the embodiments described herein contain some, but not other features included in other embodiments, combinations of features in various embodiments mean that they are within the scope of the invention and form various embodiments, like this should understand the experts in this field of technology. For example, in the following claims, any of the claimed embodiments may be used in any combination.

[0079] Дополнительно, некоторые из вариантов осуществления описываются здесь как способ или сочетание элементов способа, которые могут быть реализованы процессором компьютерной системы или другими средствами выполнения функции. Таким образом, процессор с необходимыми командами для выполнения такого способа или элемента способа образует средство выполнения способа или элемента способа. Дополнительно, описанный здесь элемент варианта осуществления устройства, является примером средства выполнения функции, исполняемой элементом с целью осуществления изобретения.[0079] Further, some of the embodiments are described herein as a method or combination of method elements that may be implemented by a computer system processor or other means of performing a function. Thus, a processor with the necessary instructions to execute such a method or method element forms a means of executing a method or method element. Additionally, an element of an embodiment of a device described herein is an example of a means of performing a function executed by an element for the purpose of carrying out the invention.

[0080] В представленном здесь описании изложены многочисленные конкретные подробности. Однако, следует понимать, что варианты осуществления изобретения могут быть осуществлены на практике без этих конкретных подробностей. В других случаях известные способы, структуры и технологии не были показаны подробно, чтобы не мешать понимание настоящего описания.[0080] Numerous specific details are set forth herein. However, it should be understood that embodiments of the invention may be practiced without these specific details. In other instances, well-known methods, structures, and technologies have not been shown in detail so as not to interfere with the understanding of the present description.

[0081] Точно также, следует заметить, что термин "связанный", когда используется в формуле изобретения, не должен интерпретироваться как ограничение только прямыми связями. Термины "связанный" и "соединенный", а также их производные могут использоваться. Следует понимать, что эти термины не подразумеваются синонимами друг друга. Таким образом, контекст выражения "Устройство А, связанное с устройством B" не должен ограничиваться устройствами или системами, в которых выход устройства A напрямую соединяется со входом устройства B. Это означает, что существует путь прохождения между выходом устройства A и входом устройства B, который может быть путем прохождения, содержащим другие устройства или средства. "Связанный" может означать, что два или более элементов находятся в прямом физическом или электрическом контакте, или что два или более элементов не находятся в прямом контакте друг с другом но все еще действуют совместно или взаимодействуют с друг другом.[0081] Similarly, it should be noted that the term “coupled”, when used in the claims, should not be interpreted as limiting to direct links only. The terms “coupled” and “connected”, as well as their derivatives, may be used. It should be understood that these terms are not implied by each other's synonyms. Thus, the context of the expression “Device A associated with device B” should not be limited to devices or systems in which the output of device A is directly connected to the input of device B. This means that there is a path between the output of device A and the input of device B, which may be by passage containing other devices or means. “Connected” may mean that two or more elements are in direct physical or electrical contact, or that two or more elements are not in direct contact with each other but are still working together or interacting with each other.

[0082] Таким образом, хотя здесь были описаны варианты осуществления изобретения, специалисты в данной области техники должны признать, в них могут быть сделаны другие и дополнительные модификации, не отступая от сущности изобретения, и подразумевается, что все такие изменения и модификации заявляются как попадающие в рамки объема изобретения. Например, любые формулы, приведенные выше, являются просто репрезентативными для процедур, которые могут использоваться. Функциональные возможности могут добавляться или удаляться из блок-схем, и операции могут чередоваться между функциональными блоками. В способах, описанных в пределах объема настоящего изобретения этапы могут добавляться или удаляться.[0082] Thus, although embodiments of the invention have been described herein, those skilled in the art should recognize that other and additional modifications may be made therein without departing from the spirit of the invention, and it is understood that all such changes and modifications are claimed to be falling within the scope of the invention. For example, any of the formulas above are simply representative of the procedures that can be used. Functionality may be added or removed from flowcharts, and operations may alternate between function blocks. In the methods described within the scope of the present invention, the steps may be added or removed.

[0083] Различные аспекты настоящего изобретения могут быть понятны, исходя из следующих пронумерованных примерных вариантов осуществления (enumerated example embodiment, EEE):[0083] Various aspects of the present invention can be understood from the following enumerated example embodiments (EEE):

EEE 1. Способ кодирования для воспроизведения входного аудиосигнала, основывающегося на канале или объекте, причем упомянутый способ содержит этапы, на которых:EEE 1. An encoding method for reproducing an input audio signal based on a channel or an object, said method comprising the steps of:

(a) первоначально рендерируют входной аудиосигнал, основывающийся на канале или объекте, в начальное выходное представление;(a) initially rendering an input audio signal based on a channel or an object into an initial output representation;

(b) определяют оценку доминантного аудиокомпонента из входного аудиосигнала, основывающегося на канале или объекте, и определяют последовательность весовых коэффициентов доминантного аудиокомпонента для отображения начального выходного представления в доминантный аудиокомпонент;(b) determining an estimate of the dominant audio component from an input audio signal based on a channel or an object, and determining a sequence of weights of the dominant audio component to map the initial output representation to the dominant audio component;

(c) определяют оценку направления или положения доминантного аудиокомпонента; и(c) determine an estimate of the direction or position of the dominant audio component; and

(d) кодируют начальное выходное представление, весовые коэффициенты доминантного аудиокомпонента, направление или положение доминантного аудиокомпонента как кодированный сигнал для воспроизведения.(d) encode the initial output representation, the weights of the dominant audio component, the direction or position of the dominant audio component as an encoded signal for playback.

EEE 2. Способ по п. EEE 1, дополнительно содержащий этап, на котором определяют оценку остаточного микса, являющегося начальным выходным представлением, уменьшенной на рендеринг доминантного аудиокомпонента или его оценки.EEE 2. The method of claim EEE 1, further comprising determining an estimate of the residual mix, which is the initial output representation, reduced by rendering the dominant audio component or evaluating it.

EEE 3. Способ по п. EEE 1, дополнительно содержащий генерацию безэхового бинаурального микса входного аудиосигнала, основывающегося на канале или объекте, и определение оценки остаточного микса, причем оценка остаточного микса является безэховым бинауральным миксом за вычетом рендеринга доминантного аудиокомпонента или его оценки.EEE 3. The method of claim EEE 1, further comprising generating an anechoic binaural mix of the input audio signal based on a channel or an object, and determining an estimate of the residual mix, the estimation of the residual mix being an anechoic binaural mix minus the rendering of the dominant audio component or its estimation.

EEE 4. Способ по п. EEE 2 или 3, дополнительно содержащий определение последовательности остаточных матричных коэффициентов для отображения начального выходного представления в оценку остаточного микса.EEE 4. The method of claim EEE 2 or 3, further comprising determining a sequence of residual matrix coefficients for mapping the initial output representation into an estimate of the residual mix.

EEE 5. Способ по любому из предшествующих EEE, в котором упомянутая начальное выходное представление содержит наушники или громкоговоритель.EEE 5. The method according to any of the preceding EEE, wherein said initial output presentation comprises headphones or a speaker.

EEE 6. Способ по любому из предшествующих EEE, в котором упомянутый входной аудиосигнал, основывающийся на канале или объекте, разбивается на элементы по времени и по частоте и упомянутый этап кодирования повторяется в отношении последовательности временных этапов и наборов полос частот.EEE 6. The method according to any of the preceding EEEs, wherein said channel or object based audio signal is broken down into elements by time and frequency, and said coding step is repeated with respect to a sequence of time steps and sets of frequency bands.

EEE 7. Способ по любому из предшествующих EEE, в котором упомянутая начальное выходное представление содержит микс стереогромкоговорителей.EEE 7. A method according to any of the preceding EEE, wherein said initial output representation comprises a stereo speaker mix.

EEE 8. Способ декодирования кодированного аудиосигнала, причем кодированный аудиосигнал содержит:EEE 8. A method for decoding an encoded audio signal, wherein the encoded audio signal comprises:

- первое выходное представление;- first output presentation;

- весовые коэффициенты доминантного аудиокомпонента и направления доминантных аудиокомпонент;- weighting coefficients of the dominant audio component and the direction of the dominant audio component;

способ, содержащий этапы, на которых:a method comprising the steps of:

(a) используют весовые коэффициенты доминантного аудиокомпонента и начальное выходное представление, чтобы определить оценочный доминантный компонент;(a) using weights of the dominant audio component and the initial output representation to determine the estimated dominant component;

(b) рендерируют оценочный доминантный компонент с бинаурализацией в пространственном местоположении относительно целевого слушателя в соответствии с направлением доминантного аудиокомпонента, чтобы сформировать отрендеренный бинаурализированный оценочный доминантный компонент;(b) rendering the estimated dominant component with binauralization at a spatial location relative to the target listener in accordance with the direction of the dominant audio component to form a rendered binauralized estimated dominant component;

(c) реконструируют оценку остаточного компонента из первого выходного представления; и(c) reconstructing an estimate of the residual component from the first output representation; and

(d) объединяют отрендеренный бинаурализированный оценочный доминантный компонент и оценку остаточного компонента для формирования выходного пространственного кодированного аудиосигнала.(d) combine the rendered binauralized estimated dominant component and the residual component estimate to form an output spatial encoded audio signal.

EEE 9. Способ по п. EEE 8, в котором упомянутый кодированный аудиосигнал дополнительно содержит последовательность остаточных матричных коэффициентов, представляющих остаточный аудиосигнал, и упомянутый этап (c) дополнительно является этапом, на котором:EEE 9. The method of claim EEE 8, wherein said encoded audio signal further comprises a sequence of residual matrix coefficients representing the residual audio signal, and said step (c) is further a step in which:

(c1) применяют упомянутые остаточные матричные коэффициенты к первому выходному представлению, чтобы реконструировать оценку остаточного компонента.(c1) applying said residual matrix coefficients to the first output representation to reconstruct the residual component estimate.

EEE 10. Способ EEE 8, в котором оценка остаточного компонента реконструируется вычитанием отрендеренного бинаурализированного оценочного доминантного компонента из первого выходного представления.EEE 10. The method of EEE 8, in which the estimate of the residual component is reconstructed by subtracting the rendered binauralized estimated dominant component from the first output representation.

EEE 11. Способ по EEE 8, в котором упомянутый этап (b) включает в себя начальный поворот оценочного доминантного компонента в соответствии со входным сигналом слежения за движением головы, указывающим ориентацию головы целевого слушателя.EEE 11. The method according to EEE 8, wherein said step (b) includes initial rotation of the estimated dominant component in accordance with an input signal tracking the head movement indicating the orientation of the head of the target listener.

EEE 12. Способ декодирования и воспроизведения аудиопотока для слушателя, использующего наушники, причем упомянутый способ содержит этапы, на которых:EEE 12. A method for decoding and reproducing an audio stream for a listener using headphones, said method comprising the steps of:

(a) принимают поток данных, содержащий первую аудиопрезентацию и дополнительные аудиоданные преобразования;(a) receiving a data stream comprising a first audio presentation and additional audio transform data;

(b) принимают данные ориентации головы, представляющие ориентацию слушателя;(b) receiving head orientation data representing the orientation of the listener;

(c) создают один или более вспомогательных сигналов, основываясь на упомянутой первой аудиопрезентации и принятых данных преобразования;(c) creating one or more auxiliary signals based on said first audio presentation and received conversion data;

(d) создают вторую аудиопрезентацию, состоящую из сочетания первого аудиопредставления и упомянутого вспомогательного сигнала(ов), в которой один или более упомянутых вспомогательных сигналов были модифицированы в ответ на упомянутые данные ориентации головы; и(d) creating a second audio presentation consisting of a combination of the first audio presentation and said auxiliary signal (s), in which one or more of the auxiliary signals have been modified in response to said head orientation data; and

(e) выводят вторую аудиопрезентацию в качестве выходного аудиопотока.(e) outputting a second audio presentation as an output audio stream.

EEE 13. Способ по п. EEE 12, в котором модификация вспомогательных сигналов состоит из моделирования акустического пути прохождения от положения источника звука до ушей слушателя.EEE 13. The method according to p. EEE 12, in which the modification of auxiliary signals consists of modeling the acoustic path from the position of the sound source to the ears of the listener.

EEE 14. Способ по п. EEE 12 или 13, в котором упомянутые данные преобразования состоят из коэффициентов матрицирования и по меньшей мере одного из следующего: положение источника звука или направление источника звука.EEE 14. The method of claim EEE 12 or 13, wherein said transform data consists of matrix coefficients and at least one of the following: position of the sound source or direction of the sound source.

EEE 15. Способ по любому из пп. EEE 12-14, в котором процесс преобразования применяется как функция времени или частоты.EEE 15. The method according to any one of paragraphs. EEE 12-14, in which the conversion process is applied as a function of time or frequency.

EEE 16. Способ по любому из EEE 12-15, в котором вспомогательные сигналы представляют собой по меньшей мере один доминантный компонент.EEE 16. The method according to any one of EEE 12-15, wherein the auxiliary signals are at least one dominant component.

EEE 17. Способ по любому из пп. EEE 12-16, в котором положение или направление источника звука, принятое как часть данных преобразования, вращаются ответ на данные ориентации головы.EEE 17. The method according to any one of paragraphs. EEE 12-16, in which the position or direction of the sound source, adopted as part of the conversion data, rotates the response to the head orientation data.

EEE 18. Способ по п. EEE 17, в котором максимальная величина поворота ограничивается значением менее 360 градусов по азимуту или по углу места.EEE 18. The method of claim EEE 17, wherein the maximum amount of rotation is limited to less than 360 degrees in azimuth or elevation.

EEE 19. Способ по любому из пп. EEE 12-18, в котором вторичная презентация получается из первой презентации путем матрицирования в области преобразования или блока фильтров.EEE 19. The method according to any one of paragraphs. EEE 12-18, in which a secondary presentation is obtained from the first presentation by matrixing in a transform field or filter block.

EEE 20. Способ по любому из пп. EEE 12-19, в котором данные преобразования дополнительно содержат добавочные коэффициенты матрицирования и этап (d) дополнительно содержит модификацию первого аудиопредставления в ответ на добавочные коэффициенты матрицирования до объединения первой аудиопредставления и вспомогательного аудиосигнала(ов).EEE 20. The method according to any one of paragraphs. EEE 12-19, wherein the transform data further comprises additional matrixing coefficients and step (d) further comprises modifying the first audio presentation in response to the additional matrixing coefficients before combining the first audio presentation and the auxiliary audio signal (s).

EEE 21. Устройство, содержащее одно или более других устройств, выполненное с возможностью осуществления любого из способов по пп. EEE 1-20.EEE 21. A device containing one or more other devices, configured to implement any of the methods according to claims. EEE 1-20.

EEE 22. Считываемый компьютером носитель, содержащий программу, состоящую из команд, которые, когда исполняются одним или более процессорами, заставляют одно или более устройств выполнять способ по любому из пп. EEE 1-20.EEE 22. A computer-readable medium containing a program consisting of instructions that, when executed by one or more processors, cause one or more devices to execute the method according to any one of claims. EEE 1-20.

Claims (39)

1. Способ кодирования входного аудиосигнала, основывающегося на канале или объекте, для воспроизведения, каковой способ содержит этапы, на которых1. A method of encoding an input audio signal based on a channel or an object for reproduction, which method comprises the steps of (a) выполняют первоначальный рендеринг входного аудиосигнала, основывающегося на канале или объекте, в начальное выходное представление;(a) perform initial rendering of an input audio signal based on a channel or an object into an initial output representation; (b) определяют оценку доминантного аудиокомпонента из входного аудиосигнала, основывающегося на канале или объекте, и определяют последовательность весовых компонентов доминантного аудиокомпонента для отображения начального выходного представления в доминантный аудиокомпонент, с тем чтобы обеспечить возможность использования весовых коэффициентов доминантного аудиокомпонента и начального выходного представления для определения оценки доминантного компонента;(b) determining an estimate of the dominant audio component from an input audio signal based on a channel or an object, and determining the sequence of weight components of the dominant audio component to map the initial output representation to the dominant audio component so as to enable the use of the weights of the dominant audio component and the initial output representation to determine the estimate dominant component; (c) определяют оценку направления или положения доминантного аудиокомпонента и(c) determine an estimate of the direction or position of the dominant audio component; and (d) кодируют начальное выходное представление, весовые коэффициенты доминантного аудиокомпонента, направление или положение доминантного аудиокомпонента как кодированный сигнал для воспроизведения.(d) encode the initial output representation, the weights of the dominant audio component, the direction or position of the dominant audio component as an encoded signal for playback. 2. Способ по п. 1, дополнительно содержащий этап, на котором определяют оценку остаточного микса, представляющую собой начальное выходное представление за вычетом рендеринга либо доминантного аудиокомпонента, либо его оценки.2. The method of claim 1, further comprising determining an estimate of the residual mix, which is the initial output representation minus the rendering of either the dominant audio component or its estimation. 3. Способ по п. 1, дополнительно содержащий этап, на котором генерируют безэховый бинауральный микс входного аудиосигнала, основывающегося на канале или объекте, и определяют оценку остаточного микса, причем оценкой остаточного микса является безэховый бинауральный микс за вычетом либо рендеринга доминантного аудиокомпонента, либо его оценки.3. The method of claim 1, further comprising generating an anechoic binaural mix of the input audio signal based on the channel or object, and determining an estimate of the residual mix, the estimate of the residual mix being the anechoic binaural mix minus either rendering the dominant audio component, or its assessment. 4. Способ по п. 2 или 3, дополнительно содержащий этап, на котором определяют последовательность остаточных матричных коэффициентов для отображения начального выходного представления в оценку остаточного микса.4. The method of claim 2 or 3, further comprising determining a sequence of residual matrix coefficients for mapping the initial output representation into an estimate of the residual mix. 5. Способ по любому из предшествующих пунктов, в котором начальное выходное представление содержит представление посредством наушников или громкоговорителя.5. The method according to any one of the preceding paragraphs, in which the initial output presentation comprises a presentation via headphones or a speaker. 6. Способ по любому из предшествующих пунктов, в котором входной аудиосигнал, основывающийся на канале или объекте, разбивается на элементы разбиения по времени и частоте и упомянутый этап кодирования повторяется в отношении последовательности временных шагов и последовательности полос частот.6. The method according to any one of the preceding paragraphs, in which the input audio signal based on a channel or an object is divided into elements of the division of time and frequency, and said coding step is repeated with respect to a sequence of time steps and a sequence of frequency bands. 7. Способ по любому из предшествующих пунктов, в котором начальное выходное представление содержит микс стереогромкоговорителей.7. The method according to any one of the preceding paragraphs, in which the initial output representation comprises a mix of stereo speakers. 8. Способ декодирования кодированного аудиосигнала, причем кодированный аудиосигнал включает в себя:8. A method for decoding an encoded audio signal, wherein the encoded audio signal includes: начальное выходное представление;initial output presentation; весовые коэффициенты доминантного аудиокомпонента и направления доминантного аудиокомпонента;weighting factors of the dominant audio component and the direction of the dominant audio component; при этом способ содержит этапы, на которых:wherein the method comprises the steps in which: (a) используют весовые коэффициенты доминантного аудиокомпонента и начальное выходное представление, чтобы определить оценочный доминантный компонент;(a) using weights of the dominant audio component and the initial output representation to determine the estimated dominant component; (b) выполняют рендеринг оценочного доминантного компонента с бинаурализацией в пространственном местоположении относительно целевого слушателя в соответствии с направлением доминантного аудиокомпонента, чтобы сформировать отрендеренный бинаурализированный оценочный доминантный компонент;(b) rendering the estimated dominant component with binauralization at a spatial location relative to the target listener in accordance with the direction of the dominant audio component to form a rendered binauralized estimated dominant component; (c) реконструируют оценку остаточного компонента из начального выходного представления и(c) reconstructing an estimate of the residual component from the initial output representation; and (d) объединяют отрендеренный бинаурализированный оценочный доминантный компонент и оценку остаточного компонента для формирования выходного пространственно ориентированного кодированного аудиосигнала.(d) combine the rendered binauralized estimated dominant component and the residual component estimate to form an output spatially oriented encoded audio signal. 9. Способ по п. 8, в котором кодированный аудиосигнал дополнительно включает в себя последовательность остаточных матричных коэффициентов, представляющих остаточный аудиосигнал, и этап (c) дополнительно содержит этап, на котором9. The method of claim 8, wherein the encoded audio signal further includes a sequence of residual matrix coefficients representing the residual audio signal, and step (c) further comprises the step of (c1) применяют упомянутые остаточные матричные коэффициенты к начальному выходному представлению, чтобы реконструировать оценку остаточного компонента.(c1) apply said residual matrix coefficients to the initial output representation to reconstruct the estimate of the residual component. 10. Способ по п. 8, в котором оценка остаточного компонента реконструируется вычитанием отрендеренного бинаурализированного оценочного доминантного компонента из начального выходного представления.10. The method of claim 8, wherein the residual component estimate is reconstructed by subtracting the rendered binauralized estimated dominant component from the initial output representation. 11. Способ по любому из пп. 8-10, в котором этап (b) включает в себя начальный поворот оценочного доминантного компонента в соответствии с входным сигналом слежения за движением головы, указывающим ориентацию головы целевого слушателя.11. The method according to any one of paragraphs. 8-10, in which step (b) includes an initial rotation of the estimated dominant component in accordance with an input signal tracking the head movement indicating the orientation of the head of the target listener. 12. Способ декодирования и воспроизведения аудиопотока для слушателя, использующего наушники, каковой способ содержит этапы, на которых12. A method of decoding and reproducing an audio stream for a listener using headphones, which method comprises the steps of (a) принимают поток данных, содержащий первую аудиопрезентацию и дополнительные данные аудиопреобразования;(a) receiving a data stream comprising a first audio presentation and additional audio conversion data; (b) принимают данные ориентации головы, представляющие ориентацию слушателя;(b) receiving head orientation data representing the orientation of the listener; (c) создают один или более вспомогательных сигналов на основе первой аудиопрезентации и принятых данных преобразования;(c) creating one or more auxiliary signals based on the first audio presentation and received conversion data; (d) создают вторую аудиопрезентацию, состоящую из сочетания первой аудиопрезентации и вспомогательного сигнала(ов), где один или более вспомогательных сигналов модифицированы в ответ на данные ориентации головы; и(d) creating a second audio presentation consisting of a combination of the first audio presentation and an auxiliary signal (s), where one or more auxiliary signals are modified in response to the head orientation data; and (e) выводят вторую аудиопрезентацию в качестве выходного аудиопотока.(e) outputting a second audio presentation as an output audio stream. 13. Способ по п. 12, в котором упомянутая модификация вспомогательных сигналов состоит из моделирования акустического пути прохождения от положения источника звука до ушей слушателя.13. The method according to p. 12, in which said modification of the auxiliary signals consists of modeling the acoustic path from the position of the sound source to the ears of the listener. 14. Способ по п. 12 или 13, в котором упомянутые данные преобразования состоят из коэффициентов матрицирования и по меньшей мере одного из положения источника звука и направления источника звука.14. The method of claim 12 or 13, wherein said transform data consists of matrix coefficients and at least one of a position of the sound source and a direction of the sound source. 15. Способ по любому из пп. 12-14, в котором процесс преобразования применяется как функция времени или частоты.15. The method according to any one of paragraphs. 12-14, in which the conversion process is applied as a function of time or frequency. 16. Способ по любому из пп. 12-15, в котором упомянутые вспомогательные сигналы представляют по меньшей мере один доминантный компонент.16. The method according to any one of paragraphs. 12-15, wherein said auxiliary signals represent at least one dominant component. 17. Способ по любому из пп. 12-16, в котором положение или направление источника звука, принятое как часть данных преобразования, поворачивается в качестве реакции на данные ориентации головы.17. The method according to any one of paragraphs. 12-16, in which the position or direction of the sound source, adopted as part of the conversion data, is rotated in response to head orientation data. 18. Способ по п. 17, в котором максимальная величина поворота ограничивается значением менее 360 градусов по азимуту или по углу места.18. The method according to p. 17, in which the maximum amount of rotation is limited to less than 360 degrees in azimuth or elevation. 19. Способ по любому из пп. 12-17, в котором вторичная презентация получается из первой презентации путем матрицирования в области преобразования или блока фильтров.19. The method according to any one of paragraphs. 12-17, in which the secondary presentation is obtained from the first presentation by matrixing in the transform area or filter block. 20. Способ по любому из пп. 12-19, в котором данные преобразования дополнительно содержат добавочные коэффициенты матрицирования и этап (d) дополнительно содержит этап, на котором модифицируют первую аудиопрезентацию в качестве реакции на эти добавочные коэффициенты матрицирования, до объединения первой аудиопрезентации и вспомогательного аудиосигнала(ов).20. The method according to any one of paragraphs. 12-19, wherein the transform data further comprises additional matrix coefficients, and step (d) further comprises modifying the first audio presentation in response to these additional matrix coefficients, before combining the first audio presentation and the auxiliary audio signal (s). 21. Аппаратура, содержащая одно или более устройств, выполненных с возможностью осуществления способа по любому из пп. 1-20.21. Equipment containing one or more devices configured to implement the method according to any one of paragraphs. 1-20. 22. Машиночитаемый носитель, содержащий программу, состоящую из команд, которые при их исполнении одним или более процессорами предписывают одному или более устройствам выполнять способ по любому из пп. 1-20.22. Machine-readable medium containing a program consisting of instructions that, when executed by one or more processors, instruct one or more devices to perform the method according to any one of claims. 1-20.
RU2018121757A 2015-11-17 2016-11-17 System and method of tracking movement of head for obtaining parametric binaural output signal RU2722391C2 (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562256462P 2015-11-17 2015-11-17
US62/256,462 2015-11-17
EP15199854.9 2015-12-14
EP15199854 2015-12-14
PCT/US2016/062497 WO2017087650A1 (en) 2015-11-17 2016-11-17 Headtracking for parametric binaural output system and method

Related Child Applications (1)

Application Number Title Priority Date Filing Date
RU2020116816A Division RU2020116816A (en) 2015-11-17 2016-11-17 SYSTEM AND METHOD FOR TRACKING HEAD MOVEMENT FOR OBTAINING A PARAMETRIC BINAURAL OUTPUT SIGNAL

Publications (3)

Publication Number Publication Date
RU2018121757A RU2018121757A (en) 2019-12-19
RU2018121757A3 RU2018121757A3 (en) 2020-03-25
RU2722391C2 true RU2722391C2 (en) 2020-05-29

Family

ID=69005065

Family Applications (2)

Application Number Title Priority Date Filing Date
RU2020116816A RU2020116816A (en) 2015-11-17 2016-11-17 SYSTEM AND METHOD FOR TRACKING HEAD MOVEMENT FOR OBTAINING A PARAMETRIC BINAURAL OUTPUT SIGNAL
RU2018121757A RU2722391C2 (en) 2015-11-17 2016-11-17 System and method of tracking movement of head for obtaining parametric binaural output signal

Family Applications Before (1)

Application Number Title Priority Date Filing Date
RU2020116816A RU2020116816A (en) 2015-11-17 2016-11-17 SYSTEM AND METHOD FOR TRACKING HEAD MOVEMENT FOR OBTAINING A PARAMETRIC BINAURAL OUTPUT SIGNAL

Country Status (5)

Country Link
JP (1) JP6964703B2 (en)
ES (1) ES2779603T3 (en)
IL (1) IL274432B (en)
MX (1) MX2018006075A (en)
RU (2) RU2020116816A (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1070438B1 (en) * 1998-04-07 2006-10-18 Dolby Laboratories Licensing Corporation Low bit-rate spatial coding method and system
US20110116638A1 (en) * 2009-11-16 2011-05-19 Samsung Electronics Co., Ltd. Apparatus of generating multi-channel sound signal
RU2430430C2 (en) * 2006-10-16 2011-09-27 Долби Свиден АБ Improved method for coding and parametric presentation of coding multichannel object after downmixing
US8364497B2 (en) * 2006-09-29 2013-01-29 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
EP2137725B1 (en) * 2007-04-26 2014-01-08 Dolby International AB Apparatus and method for synthesizing an output signal
WO2014191798A1 (en) * 2013-05-31 2014-12-04 Nokia Corporation An audio scene apparatus

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
CN102414743A (en) * 2009-04-21 2012-04-11 皇家飞利浦电子股份有限公司 Audio signal synthesizing
WO2013108200A1 (en) * 2012-01-19 2013-07-25 Koninklijke Philips N.V. Spatial audio rendering and encoding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1070438B1 (en) * 1998-04-07 2006-10-18 Dolby Laboratories Licensing Corporation Low bit-rate spatial coding method and system
US8364497B2 (en) * 2006-09-29 2013-01-29 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
RU2430430C2 (en) * 2006-10-16 2011-09-27 Долби Свиден АБ Improved method for coding and parametric presentation of coding multichannel object after downmixing
EP2137725B1 (en) * 2007-04-26 2014-01-08 Dolby International AB Apparatus and method for synthesizing an output signal
US20110116638A1 (en) * 2009-11-16 2011-05-19 Samsung Electronics Co., Ltd. Apparatus of generating multi-channel sound signal
WO2014191798A1 (en) * 2013-05-31 2014-12-04 Nokia Corporation An audio scene apparatus

Also Published As

Publication number Publication date
RU2018121757A (en) 2019-12-19
JP2020110007A (en) 2020-07-16
RU2020116816A (en) 2020-07-28
IL274432A (en) 2020-06-30
RU2018121757A3 (en) 2020-03-25
MX2018006075A (en) 2019-10-14
ES2779603T3 (en) 2020-08-18
IL274432B (en) 2021-05-31
JP6964703B2 (en) 2021-11-10

Similar Documents

Publication Publication Date Title
US10893375B2 (en) Headtracking for parametric binaural output system and method
US10741187B2 (en) Encoding of multi-channel audio signal to generate encoded binaural signal, and associated decoding of encoded binaural signal
JP7119060B2 (en) A Concept for Generating Extended or Modified Soundfield Descriptions Using Multipoint Soundfield Descriptions
TWI415111B (en) Spatial decoder unit, spatial decoder device, audio system, consumer electronic device, method of producing a pair of binaural output channels, and computer readable medium
JP4850948B2 (en) A method for binaural synthesis taking into account spatial effects
KR20080107433A (en) Generation of spatial downmixes from parametric representations of multi channel signals
EP3569000B1 (en) Dynamic equalization for cross-talk cancellation
JP2018529121A (en) Audio decoder and decoding method
RU2427978C2 (en) Audio coding and decoding
US20110091044A1 (en) Virtual speaker apparatus and method for processing virtual speaker
RU2722391C2 (en) System and method of tracking movement of head for obtaining parametric binaural output signal
Koyama Boundary integral approach to sound field transform and reproduction
McCormack Real-time microphone array processing for sound-field analysis and perceptually motivated reproduction