RU2427978C2

RU2427978C2 - Audio coding and decoding

Info

Publication number: RU2427978C2
Application number: RU2008137596/09A
Authority: RU
Inventors: Дирк Й. БРЕБАРТ (NL); Дирк Й. БРЕБАРТ; Эрик Г. П. СУЙЕРС (NL); Эрик Г. П. СУЙЕРС; Арнольдус В. Й. ОМЕН (NL); Арнольдус В. Й. ОМЕН
Original assignee: Конинклейке Филипс Электроникс Н.В.
Priority date: 2006-02-21
Filing date: 2007-02-13
Publication date: 2011-08-27
Also published as: RU2008137596A

Abstract

FIELD: information technologies.

SUBSTANCE: audio signal coder comprises a facility to receive M-channel audio signal, where M>2, a facility of downmix to downmix M-channel audio signal into the first stereo signal and related parametric data, a facility of modification to modify the first stereo signal in order to generate the second stereo signal in response to related parametric data and data of spatial parameters, which specify transfer function of binaural perception, besides, the second stereo signal is a binaural signal, a facility for coding of the second stereo signal with the purpose to generate coded data and an output facility to generate out data flow, containing coded data and related parametric data.

EFFECT: increased efficiency of stereo coding of multichannel signals with reduction of coding complexity.

35 cl, 11 dwg

Description

Изобретение относится к кодированию и/или декодированию аудио, в частности, но не исключительно, к кодированию и/или декодированию аудио, включающего бинауральный виртуальный пространственный сигнал.The invention relates to encoding and / or decoding of audio, in particular, but not exclusively, to encoding and / or decoding of audio, including binaural virtual spatial signal.

Цифровое кодирование различных исходных сигналов стало в большей степени важным за последние десятилетия, так как цифровое представление и передача сигналов в большей степени заменили аналоговое представление и передачу. Например, распространение аудиовизуального контента, такого как видео и музыка, в большей степени основано на кодировании цифрового контента.Digital coding of various source signals has become increasingly important over the past decades, since digital representation and signal transmission have largely replaced analog representation and transmission. For example, the distribution of audiovisual content such as video and music is more based on the encoding of digital content.

Более того, в последнее десятилетие была тенденция в направлении многоканального аудио и, особенно, в направлении пространственного аудио, выходящего за пределы традиционных стереосигналов. Например, традиционные стереозаписи содержат только два канала, тогда как современные развитые аудиосистемы типично используют пять или шесть каналов, как в популярных системах объемного звучания 5.1. Это предусматривает более вовлеченное впечатление от прослушивания, где пользователь может быть окружен источниками звука.Moreover, in the last decade, there has been a tendency towards multichannel audio, and especially towards spatial audio that goes beyond traditional stereo signals. For example, traditional stereo recordings contain only two channels, while modern advanced audio systems typically use five or six channels, as in the popular 5.1 surround sound systems. This provides a more involved listening experience where the user may be surrounded by sound sources.

Различные технологии и стандарты были разработаны для передачи таких многоканальных сигналов. Например, шесть дискретных каналов, представляющие систему объемного звучания 5.1, могут передаваться в соответствии со стандартами, такими как стандарты расширенного кодирования аудио (AAC) или стандарты Dolby Digital.Various technologies and standards have been developed to transmit such multi-channel signals. For example, six discrete channels representing a 5.1 surround sound system can be transmitted in accordance with standards such as Advanced Audio Coding (AAC) or Dolby Digital.

Однако, для того чтобы обеспечить обратную совместимость, известно, что следует осуществлять понижающее микширование большего количества каналов в меньшее количество, и, более точно, это часто используется для понижающего микширования сигнала объемного звука 5.1 в стереосигнал с предоставлением стереосигналу возможности воспроизводиться (стерео) декодерами прежней системы, а сигналу 5.1 декодерами объемного звука.However, in order to ensure backward compatibility, it is known that it is necessary to down-mix more channels to fewer, and, more precisely, this is often used to down-mix 5.1 surround signal to a stereo signal, giving the stereo signal the ability to play back (stereo) decoders of the previous system, and the signal 5.1 surround sound decoders.

Одним из примеров является обратно совместимый способ кодирования стандарта MPEG2. Многоканальный сигнал подвергается понижающему микшированию в стереосигнал. Дополнительные сигналы кодируются в порции служебных данных, предоставляя многоканальному декодеру MPEG2 возможность формировать представление многоканального сигнала. Декодер MPEG1 будет игнорировать служебные данные и, таким образом, декодировать только стереосигнал понижающего микширования. Основной недостаток способа кодирования, применяемого в MPEG2, состоит в том, что дополнительная скорость передачи данных, требуемая для дополнительных сигналов, находится в том же порядке величины, что и скорость передачи данных, требуемая для кодирования стереосигнала. Дополнительная скорость передачи данных для расширения стерео в многоканальное аудио, поэтому, является значительной.One example is the backward compatible encoding method of the MPEG2 standard. The multi-channel signal is down-mixed into a stereo signal. Additional signals are encoded in a portion of overhead data, giving the MPEG2 multi-channel decoder the ability to form a multi-channel signal representation. The MPEG1 decoder will ignore overhead and thus only decode the down-mix stereo signal. The main disadvantage of the encoding method used in MPEG2 is that the additional data rate required for additional signals is in the same order of magnitude as the data rate required for encoding a stereo signal. The additional data rate for expanding stereo to multi-channel audio, therefore, is significant.

Другие существующие способы для обратно совместимой многоканальной передачи без дополнительной многоканальной информации типично могут характеризоваться способами матрицированного заполнения. Примеры матричного кодирования объемного звука включают в себя способы, такие как Dolby Prologic II и Logic-7. Общий принцип этих способов заключается в том, что они матричным образом перемножают многочисленные каналы входного сигнала на подходящую неквадратную матрицу, тем самым формируя выходной сигнал с меньшим количеством каналов. Более точно, матричный кодировщик типично применяет фазовые сдвиги к объемным каналам перед микшированием их с фронтальными и центральным каналами.Other existing methods for backward compatible multichannel transmission without additional multichannel information can typically be characterized by matrixed padding methods. Examples of matrix encoding for surround sound include methods such as Dolby Prologic II and Logic-7. The general principle of these methods is that they matrixly multiply multiple channels of the input signal by a suitable non-square matrix, thereby forming an output signal with fewer channels. More specifically, a matrix encoder typically applies phase shifts to surround channels before mixing them with the front and center channels.

Еще одной причиной для преобразования канала является эффективность кодирования. Было обнаружено, что, например, аудиосигналы объемного звука могут кодироваться как аудиосигналы стереоканалов, объединенные с параметрическим потоком битов, описывающим пространственные свойства аудиосигнала. Декодер может воспроизводить стерео аудиосигналы с весьма удовлетворительной степенью точности. Таким образом, могут быть получены существенные экономии битовой скорости передачи.Another reason for channel conversion is coding efficiency. It has been found that, for example, surround audio signals can be encoded as stereo channel audio signals combined with a parametric bitstream describing the spatial properties of the audio signal. The decoder can reproduce stereo audio signals with a very satisfactory degree of accuracy. Thus, significant savings in bit rate can be obtained.

Есть несколько параметров, которые могут использоваться для описания пространственных свойств аудиосигналов. Одним из таких параметров является межканальная взаимная корреляция, такая как взаимная корреляция между левым каналом и правым каналом для стереосигналов. Еще одним параметром является отношение мощностей каналов. В так называемых (параметрических) пространственных кодировщиках аудио эти и другие параметры извлекаются из исходного аудиосигнала с тем, чтобы воспроизводить аудиосигнал, имеющий сокращенное количество каналов, например только один канал, плюс набор параметров, описывающих пространственные свойства исходного аудиосигнала. В так называемых (параметрических) пространственных декодерах аудио пространственные свойства в качестве описанных передаваемыми пространственными параметрами восстанавливаются.There are several parameters that can be used to describe the spatial properties of audio signals. One such parameter is cross-channel cross-correlation, such as cross-correlation between the left channel and the right channel for stereo signals. Another parameter is the channel power ratio. In the so-called (parametric) spatial audio encoders, these and other parameters are extracted from the original audio signal in order to reproduce an audio signal having a reduced number of channels, for example, only one channel, plus a set of parameters describing the spatial properties of the original audio signal. In the so-called (parametric) spatial decoders, the audio spatial properties as described by the transmitted spatial parameters are restored.

Такое пространственное кодирование аудио предпочтительно использует каскадную или основанную на дереве иерархическую структуру, содержащую стандартные блоки в кодировщике и декодере. В кодировщике эти стандартные блоки могут быть понижающими микшерами, объединяющими каналы в меньшее количество каналов, такими как понижающие микшеры 2-в-1, 3-в-1, 3-в-2 и т.д., наряду с тем, что в декодере соответствующие стандартные блоки могут быть повышающими микшерами, расщепляющими каналы на большее количество каналов, такими как повышающие микшеры 1-в-2, 2-в-3.Such spatial audio encoding preferably utilizes a cascading or tree-based hierarchical structure comprising standard units in an encoder and decoder. In the encoder, these building blocks can be downmixers combining channels into fewer channels, such as 2-in-1, 3-in-1, 3-in-2 downmixers, etc., along with the decoder, the corresponding building blocks can be boosters that split channels into more channels, such as boosters 1-in-2, 2-in-3.

Пример системы, в которой многоканальный сигнал подвергается понижающему микшированию в стереосигнал, который впоследствии подвергается постобработке с использованием пространственных параметров понижающего микширования, представлен в публикации WO 2005/098826A заявки на патент по Договору о патентном сотрудничестве. Пример устройства кодирования и декодирования аудиосигнала, способного к передаче аудиосигнала или аудиосигнала вместе с обработанным эффектами звукового поля аудиосигналом, приведен в публикации US2005/0273322A1 заявки на патент США.An example of a system in which a multi-channel signal is down-mixed into a stereo signal, which is subsequently post-processed using spatial down-mix parameters, is presented in patent application publication WO 2005 / 098826A under the Patent Cooperation Treaty. An example of an audio encoding and decoding apparatus capable of transmitting an audio signal or an audio signal together with an audio signal processed by sound field effects is given in US Patent Application Publication US2005 / 0273322A1.

3-мерное (3D) позиционирование источника звука в настоящее время приобретает интерес, особенно в мобильной области. Проигрывание музыки и звуковых эффектов в мобильных играх может добавить значительную ценность впечатлению потребителя, когда позиционируется в 3-х измерениях, эффективно создавая 3-мерный эффект 'вне головы'. Более точно, известно, что следует записывать и воспроизводить бинауральные аудиосигналы, которые содержат специфичную направлениям информацию, к которой чувствительно человеческое ухо. Бинауральные записи типично производятся с использованием двух микрофонов, установленных на имитатор головы человека, так что записанный звук соответствует звуку, улавливаемому человеческим ухом, и включает в себя любые влияния, обусловленные формой головы или ушей. Бинауральные записи отличаются от стерео (то есть стереофонических) записей тем, что воспроизведение бинауральной записи обычно предназначено для наушников или головных телефонов, тогда как стереозапись обычно производится для воспроизведения громкоговорителями. В то время как бинауральная запись предоставляет возможность воспроизведения всей пространственной информации с использованием только двух каналов, стереозапись не обеспечивала бы такого же пространственного восприятия. Обычные двухканальные (стереофонические) или многоканальные (например, 5.1) записи могут трансформироваться в бинауральные записи сверткой каждого обычного сигнала с набором передаточных функций восприятия. Такие передаточные функции восприятия моделируют влияние головы человека и, возможно, других объектов на сигнал. Широко известным типом передаточной функции пространственного восприятия является так называемая функция моделирования восприятия звука человеком (Head-Related Transfer Function, HRTF). Альтернативным типом передаточной функции пространственного восприятия, которая также учитывает отражения, вызванные стенами, потолком и полом помещения, является бинауральная импульсная характеристика помещения (BRIR).3-dimensional (3D) positioning of the sound source is currently gaining interest, especially in the mobile field. Playing music and sound effects in mobile games can add significant value to the consumer experience when positioned in 3 dimensions, effectively creating a 3-dimensional 'head-to-head' effect. More precisely, it is known that binaural audio signals that contain direction-specific information to which the human ear is sensitive should be recorded and reproduced. Binaural recordings are typically made using two microphones mounted on a human head simulator, so that the recorded sound corresponds to the sound picked up by the human ear and includes any influences due to the shape of the head or ears. Binaural recordings differ from stereo (i.e. stereo) recordings in that the binaural recording is usually intended for use with headphones or headphones, while stereo recording is usually done for playback with speakers. While binaural recording provides the ability to reproduce all spatial information using only two channels, stereo recording would not provide the same spatial perception. Conventional two-channel (stereo) or multi-channel (e.g. 5.1) recordings can be transformed into binaural recordings by convolution of each ordinary signal with a set of transfer perception functions. Such transfer functions of perception model the influence of the human head and, possibly, other objects on the signal. A widely known type of transfer function of spatial perception is the so-called Head-Related Transfer Function (HRTF). An alternative type of transfer function of spatial perception, which also takes into account the reflections caused by the walls, ceiling and floor of the room, is the binaural impulse response of the room (BRIR).

Типично, алгоритмы 3-мерного позиционирования применяют HRTF, которые описывают передачу из некоторого местоположения источника звука на барабанные перепонки посредством импульсной характеристики. 3-мерное позиционирование источника звука может применяться к многоканальным сигналам посредством HRTF, тем самым предоставляя бинауральным сигналам возможность поставлять информацию пространственного звука пользователю, например, с использованием пары наушников.Typically, 3D positioning algorithms employ HRTFs, which describe the transfer from a certain location of a sound source to the eardrums via an impulse response. The 3D positioning of the sound source can be applied to multi-channel signals via HRTF, thereby enabling binaural signals to deliver spatial sound information to the user, for example, using a pair of headphones.

Известно, что восприятие угла возвышения преимущественно облегчается определенными пиками и провалами в спектрах, приходящих в оба уха. С другой стороны, (воспринимаемый) курсовой угол источника звука улавливается в 'бинауральных' контрольных сигналах, таких как перепады уровня и разности времен поступления между сигналами на барабанных перепонках. Восприятие расстояния по большей части облегчается общим уровнем сигнала и, в случае реверберирующего окружения, соотношением направленной и реверберационной энергии. В большинстве случаев допускается, чтобы, особенно в последней конечной фазе реверберации, не было контрольных сигналов достоверного определения местоположения источника звука.It is known that the perception of the elevation angle is predominantly facilitated by certain peaks and dips in the spectra coming in both ears. On the other hand, the (perceived) course angle of the sound source is captured in the 'binaural' control signals, such as level differences and differences in arrival times between the signals on the eardrum. The perception of distance is for the most part facilitated by the overall signal level and, in the case of a reverberant environment, the ratio of directed and reverberation energy. In most cases, it is allowed that, especially in the last final phase of the reverb, there are no tell-tale signals to reliably determine the location of the sound source.

Контрольные сигналы восприятия для возвышения, курсового угла и расстояния могут улавливаться посредством (пары) импульсных характеристик: одна импульсная характеристика, чтобы описывать передачу из определенного положения источника звука в левое ухо; и одна для правого уха. Отсюда контрольные сигналы восприятия для возвышения, курсового угла и расстояния определяются соответствующими свойствами (пары) импульсных характеристик HRTF. В большинстве случаев, пара HRTF измеряется для большого набора местоположений источника звука; типично, с пространственным разрешением приблизительно в 5 градусов как по углу возвышения, так и курсовому углу.Perception tell-tales for elevation, course angle and distance can be captured by (a pair) of impulse responses: one impulse response to describe transmission from a specific position of the sound source to the left ear; and one for the right ear. From here, control signals of perception for elevation, course angle and distance are determined by the corresponding properties (pairs) of HRTF impulse characteristics. In most cases, an HRTF pair is measured for a large set of sound source locations; typically with a spatial resolution of approximately 5 degrees both in elevation and course angle.

Традиционный бинауральный 3-мерный синтез содержит фильтрацию (свертку) входного сигнала с парой HRTF для требуемого местоположения источника звука. Однако поскольку HRTF типично измеряются в безэховых условиях, восприятие 'расстояния' или определение местоположения 'вне головы' часто является отсутствующим. Хотя свертка сигнала с безэховыми HRTF не достаточна для 3-мерного синтеза звука, использование безэховых HRTF часто является предпочтительным с точки зрения сложности и гибкости. Эффект содержащей эхо среды (требуемый для создания восприятия расстояния) может добавляться на более поздней стадии, оставляя некоторую гибкость для конечного пользователя модифицировать акустические свойства помещения. Более того, поскольку часто предполагается, что реверберация однонаправленная (без контрольных сигналов направления), этот способ обработки часто более эффективен, чем свертка каждого источника звука с содержащей эхо парой HRTF. Более того, помимо аргументов сложности и гибкости для акустики помещения, использование безэховых HRTF также обладает преимуществом для синтеза сигналов (контрольных сигналов направления) 'с плоским звуком'.Traditional binaural 3-dimensional synthesis contains filtering (convolution) of the input signal with a pair of HRTF for the desired location of the sound source. However, since HRTFs are typically measured in anechoic conditions, perception of 'distance' or location of 'off-head' is often absent. Although convolution of the signal with anechoic HRTFs is not sufficient for 3D sound synthesis, the use of anechoic HRTFs is often preferred in terms of complexity and flexibility. The effect of an echo-containing environment (required to create a perception of distance) can be added at a later stage, leaving some flexibility for the end user to modify the acoustic properties of the room. Moreover, since it is often assumed that reverb is unidirectional (without directional control signals), this processing method is often more efficient than convolving each sound source with an echo-containing HRTF pair. Moreover, in addition to the arguments of complexity and flexibility for room acoustics, the use of anechoic HRTF also has the advantage of synthesizing signals (directional control signals) 'with flat sound'.

Последнее исследование в области 3-мерного позиционирования показало, что частотное разрешение, которое представлено безэховыми импульсными характеристиками HRTF, во многих случаях выше, чем необходимо. Более точно, видится, что для обоих, фазового и амплитудного, спектров нелинейное частотное разрешение, которое предложено шкалой ERB, достаточно для синтеза 3-мерных источников звука с точностью, которая по восприятию не отличается от обработки с полными безэховыми HRTF. Другими словами, спектры безэховых HRTF не требуют спектрального разрешения, которое выше, чем частотное разрешение слуховой системы человека.A recent study of 3D positioning showed that the frequency resolution, which is represented by the anechoic impulse response of HRTF, is in many cases higher than necessary. More precisely, it seems that for both phase and amplitude spectra, the nonlinear frequency resolution proposed by the ERB scale is sufficient for the synthesis of 3-dimensional sound sources with an accuracy that does not differ in perception from processing with full anechoic HRTFs. In other words, the spectra of anechoic HRTFs do not require a spectral resolution that is higher than the frequency resolution of the human auditory system.

Традиционный алгоритм бинаурального синтеза очерчен на фиг.1. Набор входных каналов фильтруется набором HRTF. Каждый входной канал расщепляется на два сигнала (левую 'L' и правую 'R' составляющие); каждый из этих сигналов впоследствии фильтруется HRTF, соответствующей требуемому местоположению источника звука. Все сигналы левого уха впоследствии суммируются, чтобы сформировать левый бинауральный выходной сигнал, а сигналы правого уха суммируются, чтобы сформировать правый бинауральный выходной сигнал.The traditional binaural synthesis algorithm is outlined in FIG. The set of input channels is filtered by the HRTF set. Each input channel is split into two signals (left 'L' and right 'R' components); each of these signals is subsequently filtered by HRTF corresponding to the desired location of the sound source. All left ear signals are subsequently summed to form a left binaural output signal, and right ear signals are summed to form a right binaural output signal.

Свертка HRTF может выполняться во временной области, но часто предпочтительно выполнять фильтрацию в качестве произведения в частотной области. В таком случае, суммирование также может выполняться в частотной области.HRTF convolution can be performed in the time domain, but it is often preferable to perform filtering as a product in the frequency domain. In this case, summation can also be performed in the frequency domain.

Известны системы декодеров, которые могут принимать кодированный сигнал объемного звука и формировать впечатление объемного звука из бинаурального сигнала. Например, известны системы наушников, предоставляющие сигналу объемного звука возможность преобразовываться в бинауральный сигнал объемного звука для предоставления впечатления объемного звука пользователю наушников.Known decoder systems that can receive an encoded surround sound signal and provide the impression of surround sound from a binaural signal. For example, headphone systems are known that provide the surround signal with the ability to convert to a binaural surround signal to provide a surround sound experience to the headphone user.

Фиг.2 иллюстрирует систему, в которой декодер объемного звучания MPEG принимает стереосигнал с пространственными параметрическими данными. Входной поток битов демультиплексируется, давая в результате пространственные параметры и поток битов понижающего микширования. Последний поток битов декодируется с использованием традиционного моно- или стереодекодера. Декодированный сигнал понижающего микширования декодируется пространственным декодером, который формирует многоканальный выходной сигнал на основании переданных пространственных параметров. В заключение, многоканальный выходной сигнал затем обрабатывается каскадом бинаурального синтеза (подобным таковому по фиг.1), давая в результате бинауральный выходной сигнал, дающий впечатление объемного звука пользователю.2 illustrates a system in which an MPEG surround decoder receives a stereo signal with spatial parametric data. The input bitstream is demultiplexed, resulting in spatial parameters and a down-mix bitstream. The last bitstream is decoded using a traditional mono or stereo decoder. The decoded down-mix signal is decoded by a spatial decoder, which generates a multi-channel output signal based on the transmitted spatial parameters. In conclusion, the multi-channel output signal is then processed by a cascade of binaural synthesis (similar to that of FIG. 1), resulting in a binaural output signal giving the impression of surround sound to the user.

Однако такой подход имеет некоторое количество недостатков.However, this approach has a number of disadvantages.

Например, каскадное включение декодера пространственного звука и бинаурального синтеза включает в себя вычисление представления многоканального сигнала в качестве промежуточного этапа, сопровождаемое сверткой HRTF и понижающим микшированием на этапе бинаурального синтеза. Это может иметь следствием повышенную сложность и сниженную производительность.For example, cascading a spatial sound decoder and binaural synthesis involves computing a multi-channel signal representation as an intermediate step, followed by HRTF convolution and downmixing in the binaural synthesis step. This may result in increased complexity and reduced performance.

К тому же, система очень сложна. Например, пространственные декодеры типично работают в области поддиапазонов (QMF). Свертка HRTF, с другой стороны, типично может быть реализована наиболее эффективно в области БПФ (FFT, быстрого преобразования Фурье). Поэтому необходимо каскадное включение многоканальной гребенки фильтров синтеза QMF, многоканального преобразования БПФ и стереопреобразования обратного БПФ, дающее в результате систему с высокими вычислительными потребностями.In addition, the system is very complex. For example, spatial decoders typically operate in the subband domain (QMF). HRTF convolution, on the other hand, can typically be implemented most efficiently in the field of FFT (FFT, Fast Fourier Transform). Therefore, it is necessary to cascade the multichannel comb of QMF synthesis filters, multichannel FFT conversion and stereo inverse FFT conversion, resulting in a system with high computing needs.

Качество обеспечиваемого впечатления пользователя может снижаться. Например, артефакты кодирования, порождаемые пространственным декодером для создания многоканальной реконструкции, по-прежнему будут слышимы в (стерео) бинауральном выходном сигнале.The quality of the user experience provided may be reduced. For example, coding artifacts generated by a spatial decoder to create multi-channel reconstruction will still be heard in the (stereo) binaural output.

Более того, подход требует выделенных декодеров и сложной сигнальной обработки, которая должна выполняться индивидуальными пользовательскими устройствами. Это может замедлять приложение во многих ситуациях. Например, устройства прежних систем, которые способны только к декодированию стереопонижающего микширования, не будут способны обеспечивать пользовательское впечатление окружающего звука.Moreover, the approach requires dedicated decoders and complex signal processing, which must be performed by individual user devices. This can slow down the application in many situations. For example, devices of previous systems that are only capable of decoding stereo downmixes will not be able to provide a user experience of surround sound.

Отсюда было бы полезным улучшенное кодирование/декодирование аудиосигнала.From here, enhanced audio coding / decoding would be useful.

Соответственно, изобретение стремится предпочтительно смягчить, облегчить или устранить один или более из вышеупомянутых недостатков раздельно или в любом сочетании.Accordingly, the invention preferably seeks to mitigate, alleviate or eliminate one or more of the above disadvantages separately or in any combination.

Согласно первому аспекту изобретения предложен кодировщик аудиосигнала, содержащий: средство для приема M-канального аудиосигнала, где M>2; средство понижающего микширования для понижающего микширования M-канального аудиосигнала в первый стереосигнал и связанные параметрические данные; средство формирования для модифицирования первого стереосигнала, чтобы формировать второй стереосигнал, в ответ на связанные параметрические данные и данные пространственных параметров для передаточной функции бинаурального восприятия, второй стереосигнал является бинауральным сигналом; средство для кодирования второго стереосигнала, чтобы формировать кодированные данные; и средство вывода для формирования выходного потока данных, содержащего кодированные данные и связанные параметрические данные.According to a first aspect of the invention, there is provided an audio encoder comprising: means for receiving an M-channel audio signal, where M> 2; down-mix means for down-mixing the M-channel audio signal into a first stereo signal and associated parameter data; generating means for modifying the first stereo signal to generate a second stereo signal, in response to the associated parametric data and spatial parameter data for the binaural perception transfer function, the second stereo signal is a binaural signal; means for encoding a second stereo signal to generate encoded data; and output means for generating an output data stream comprising encoded data and associated parametric data.

Изобретение может предоставлять возможность улучшенного кодирования аудиосигнала. В частности, изобретение может предоставлять возможность эффективного стереокодирования многоканальных сигналов, наряду с предоставлением стереодекодерам прежних систем возможности обеспечивать усиленное пространственное впечатление. Более того, изобретение предоставляет возможность реверсировать процесс бинаурального виртуального пространственного синтеза в декодере, тем самым давая возможность высококачественного многоканального декодирования. Изобретение может предоставлять возможность кодировщика низкой сложности и, в частности, может давать возможность формирования бинаурального сигнала низкой сложности. Изобретение может предоставлять возможность облегченной реализации и повторного использования функциональных возможностей.The invention may provide an opportunity for improved audio coding. In particular, the invention can provide the ability to efficiently stereo-encode multi-channel signals, while providing stereo decoders of previous systems with the ability to provide an enhanced spatial impression. Moreover, the invention provides the ability to reverse the process of binaural virtual spatial synthesis in the decoder, thereby enabling high-quality multi-channel decoding. The invention may provide the ability of a low complexity encoder and, in particular, may enable the formation of a low complexity binaural signal. The invention may provide the possibility of facilitated implementation and reuse of functionality.

Изобретение, в частности, может обеспечивать основанное на параметрах определение бинаурального виртуального пространственного сигнала из многоканального сигнала.The invention, in particular, can provide a parameter-based definition of a binaural virtual spatial signal from a multi-channel signal.

Бинауральный сигнал, более точно, может быть бинауральным виртуальным пространственным сигналом, таким как виртуальный 3-мерный бинауральный стереосигнал. M-канальный аудиосигнал может быть сигналом объемного звучания, таким как сигнал объемного звучания 5.1 или 7.1. Бинауральный виртуальный пространственный сигнал может имитировать одно местоположение источника звука для каждого канала M-канального аудиосигнала. Данные пространственных параметров могут содержать данные, указывающие передаточную функцию из предполагаемого местоположения источника звука на барабанную перепонку предполагаемого пользователя.The binaural signal, more precisely, can be a binaural virtual spatial signal, such as a virtual 3-dimensional binaural stereo signal. The M channel audio signal may be a surround signal, such as a 5.1 or 7.1 surround signal. A binaural virtual surround signal can simulate one location of a sound source for each channel of an M-channel audio signal. The spatial parameter data may contain data indicating a transfer function from the intended location of the sound source to the eardrum of the intended user.

Передаточная функция бинаурального восприятия, например, может быть функцией моделирования восприятия звука человеком (HRTF) или бинауральной импульсной характеристикой помещения (BRIR).The binaural perception transfer function, for example, can be a human sound perception modeling function (HRTF) or a room binaural impulse response characteristic (BRIR).

Согласно дополнительному признаку изобретения средство формирования выполнено с возможностью формировать второй стереосигнал посредством расчета значений данных поддиапазона для второго стереосигнала в ответ на связанные параметрические данные, данные пространственных параметров и значения данных поддиапазона для первого стереосигнала.According to an additional feature of the invention, the generating means is configured to generate a second stereo signal by calculating subband data values for the second stereo signal in response to associated parametric data, spatial parameter data, and subband data values for the first stereo signal.

Это может предоставлять возможность улучшенного кодирования и/или облегченной реализации. Более точно, признак может давать пониженную сложность и/или сокращенные затраты вычислительных ресурсов. Интервалы частотных поддиапазонов первого стереосигнала, второго стереосигнала, связанных параметрических данных и данных пространственных параметров могут быть разными, либо некоторые или все поддиапазоны могут быть по существу идентичными для некоторых или всех из таковых.This may provide improved coding and / or lightweight implementation. More specifically, the feature may provide reduced complexity and / or reduced computational resources. The intervals of the frequency subbands of the first stereo signal, the second stereo signal, the associated parametric data and the spatial parameter data may be different, or some or all of the subbands may be substantially identical for some or all of them.

Согласно дополнительному признаку изобретения средство формирования выполнено с возможностью формировать значения поддиапазона для первого поддиапазона второго стереосигнала в ответ на умножение соответствующих стереозначений поддиапазона для первого стереосигнала на матрицу первого поддиапазона; средство формирования дополнительно содержит средство параметров для определения значений данных для матрицы первого поддиапазона в ответ на связанные параметрические данные и данные пространственных параметров для первого поддиапазона.According to an additional feature of the invention, the generating means is configured to generate subband values for the first subband of the second stereo signal in response to multiplying the corresponding stereo values of the subband for the first stereo signal by the matrix of the first subband; the generating means further comprises parameter means for determining data values for the matrix of the first subband in response to the associated parametric data and spatial parameter data for the first subband.

Это может предоставлять возможность улучшенного кодирования и/или облегченной реализации. Более точно, признак может давать пониженную сложность и/или сокращенные затраты вычислительных ресурсов. Изобретение, в частности, может обеспечивать основанное на параметрах определение бинаурального виртуального пространственного сигнала из многоканального сигнала выполнением матричных операций над отдельными поддиапазонами. Значения матрицы первого поддиапазона могут отражать объединенный результат каскадного включения многоканального декодирования и фильтрации HRTF/BRIR результирующего множества каналов. Умножение матрицы поддиапазона может выполняться для всех поддиапазонов второго стереосигнала.This may provide improved coding and / or lightweight implementation. More specifically, the feature may provide reduced complexity and / or reduced computational resources. The invention, in particular, can provide a parameter-based definition of a binaural virtual spatial signal from a multi-channel signal by performing matrix operations on individual subbands. The values of the matrix of the first subband may reflect the combined result of the cascading inclusion of multi-channel decoding and HRTF / BRIR filtering of the resulting multiple channels. Subband matrix multiplication can be performed for all subbands of the second stereo signal.

Согласно дополнительному признаку изобретения средство формирования дополнительно содержит средство для преобразования значения данных, по меньшей мере, одного из стереосигнала, связанных параметрических данных и данных пространственных параметров, связанных с поддиапазоном, содержащим интервал частот, отличный от интервала первого поддиапазона, в соответствующее значение данных для первого поддиапазона.According to an additional feature of the invention, the generating means further comprises means for converting the data value of at least one of the stereo signal, the associated parametric data and the spatial parameter data associated with a subband containing a frequency interval other than the interval of the first subband to a corresponding data value for the first subrange.

Это может предоставлять возможность улучшенного кодирования и/или облегченной реализации. Более точно, признак может давать пониженную сложность и/или сокращенные затраты вычислительных ресурсов. Более точно, изобретение может предоставлять разным процессам и алгоритмам возможность основываться на разделениях поддиапазонов, наиболее подходящих для индивидуального процесса.This may provide improved coding and / or lightweight implementation. More specifically, the feature may provide reduced complexity and / or reduced computational resources. More specifically, the invention can provide different processes and algorithms with the ability to rely on sub-band separations that are most suitable for an individual process.

Согласно дополнительному признаку изобретения средство формирования выполнено с возможностью определять стереозначения L_B, R_B поддиапазона для первого поддиапазона второго стереосигнала по существу в качестве:According to an additional feature of the invention, the shaping means is configured to determine the stereo values of the subband L _B , R _B for the first subband of the second stereo signal, essentially as:

,

при этом L₀, R₀ - соответствующие значения поддиапазона первого стереосигнала, а средство параметров выполнено с возможностью определять значения данных матрицы умножения по существу в качестве:wherein L ₀ , R ₀ are the corresponding values of the subband of the first stereo signal, and the parameter tool is configured to determine the data values of the multiplication matrix essentially as:

h ₁₁ = m ₁₁ H _L(L)+m ₂₁ H _L(R)+m ₃₁ H _L(C) h ₁₁ = m ₁₁ H _L ( L ) + m ₂₁ H _L ( R ) + m ₃₁ H _L ( C )

h ₁₂ = m ₁₂ H _L(L)+m ₂₂ H _L(R)+m ₃₂ H _L(C) h ₁₂ = m ₁₂ H _L ( L ) + m ₂₂ H _L ( R ) + m ₃₂ H _L ( C )

h ₂₁ = m ₁₁ H _R(L)+m ₂₁ H _R(R)+m ₃₁ H _R(C) h ₂₁ = m ₁₁ H _R ( L ) + m ₂₁ H _R ( R ) + m ₃₁ H _R ( C )

h ₂₂ = m ₁₂ H _R(L)+m ₂₂ H _R(R)+m ₃₂ H _R(C), h ₂₂ = m ₁₂ H _R ( L ) + m ₂₂ H _R ( R ) + m ₃₂ H _R ( C ),

где m_k,l - параметры, определенные в ответ на связанные параметрические данные для понижающего микширования средством понижающего микширования каналов L, R и C в первый стереосигнал; а H_J(X) определяется в ответ на данные пространственных параметров для канала X в отношении выходного стереоканала J второго стереосигнала.where m _{k, l} are parameters determined in response to the associated parametric data for downmixing by means of downmixing channels L, R and C into the first stereo signal; and H _J (X) is determined in response to the spatial parameter data for channel X with respect to the stereo output channel J of the second stereo signal.

Это может предоставлять возможность улучшенного кодирования и/или облегченной реализации. Более точно, признак может давать пониженную сложность и/или сокращенные затраты вычислительных ресурсов.This may provide improved coding and / or lightweight implementation. More specifically, the feature may provide reduced complexity and / or reduced computational resources.

Согласно дополнительному признаку изобретения, по меньшей мере, один из каналов L и R соответствует понижающему микшированию, по меньшей мере, двух подвергнутых понижающему микшированию каналов, а средство параметров выполнено с возможностью определять H_J(X) в ответ на взвешенную комбинацию данных пространственных параметров для, по меньшей мере, двух подвергнутых понижающему микшированию каналов.According to a further feature of the invention, at least one of the channels L and R corresponds to down-mix of at least two down-mixed channels, and the parameter means is configured to determine H _J (X) in response to a weighted combination of spatial parameter data for at least two downmix channels.

Согласно дополнительному признаку изобретения средство параметров выполнено с возможностью определять взвешивание данных пространственных параметров для, по меньшей мере, двух подвергнутых понижающему микшированию каналов в ответ на относительную меру энергии для, по меньшей мере, двух подвергнутых понижающему микшированию каналов.According to an additional feature of the invention, the parameter means is configured to determine the weighting of the spatial parameter data for at least two downmix channels in response to a relative measure of energy for the at least two downmix channels.

Согласно дополнительному признаку изобретения данные пространственных параметров включают в себя, по меньшей мере, один параметр, выбранный из группы, состоящей из: параметра среднего уровня по поддиапазону; параметра среднего времени поступления; фазы, по меньшей мере, одного стереоканала; параметра временной привязки; параметра групповой задержки; фазы между стереоканалами; и параметра взаимной корреляции каналов.According to a further feature of the invention, the spatial parameter data includes at least one parameter selected from the group consisting of: a mid-range parameter over a subband; parameter of average time of receipt; phase of at least one stereo channel; time reference parameter; group delay parameter; phases between stereo channels; and channel cross-correlation parameter.

Эти параметры могут обеспечивать в высокой степени преимущественное кодирование и, в частности, могут быть особенно пригодны для обработки поддиапазонов.These parameters can provide highly predominant coding and, in particular, can be particularly suitable for processing subbands.

Согласно дополнительному признаку изобретения средство вывода выполнено с возможностью включать данные местоположения источника звука в выходной поток.According to an additional feature of the invention, the output means is configured to include location data of the sound source in the output stream.

Это может предоставлять декодеру возможность определять подходящие данные пространственных параметров и/или может давать эффективный способ указания данных пространственных параметров с низкими непроизводительными затратами. Это может обеспечивать эффективный способ реверсирования процесса бинаурального виртуального пространственного синтеза в декодере, тем самым предоставляя возможность высококачественного многоканального декодирования. Признак, более того, может предоставлять возможность улучшенного впечатления пользователя и может давать возможность или облегчать реализацию бинаурального виртуального пространственного сигнала с движущимися источниками звука. Признак, в качестве альтернативы или дополнительно, может предоставлять возможность настройки пространственного синтеза в декодере, например, сначала реверсированием синтеза, выполняемого в кодировщике, сопровождаемым синтезом с использованием настроенной или индивидуализированной передаточной функции бинаурального восприятия.This may provide the decoder with the ability to determine suitable spatial parameter data and / or may provide an efficient way of indicating spatial parameter data with low overhead. This can provide an efficient way to reverse the binaural virtual spatial synthesis process in the decoder, thereby enabling high-quality multi-channel decoding. The feature, moreover, may provide an opportunity for an improved user experience and may enable or facilitate the implementation of binaural virtual spatial signal with moving sound sources. The feature, alternatively or additionally, may provide the ability to configure spatial synthesis in the decoder, for example, by first reversing the synthesis performed in the encoder, followed by synthesis using a customized or individualized binaural perception transfer function.

Согласно дополнительному признаку изобретения средство вывода выполнено с возможностью включать, по меньшей мере, некоторые из данных пространственных параметров в выходной поток.According to an additional feature of the invention, the output means is configured to include at least some of the spatial parameter data in the output stream.

Это может обеспечивать эффективный способ реверсирования процесса бинаурального виртуального пространственного синтеза в декодере, тем самым предоставляя возможность высококачественного многоканального декодирования. Признак, более того, может предоставлять возможность улучшенного впечатления пользователя и может давать возможность или облегчать реализацию бинаурального виртуального пространственного сигнала с движущимися источниками звука. Данные пространственных параметров могут непосредственно или косвенно включаться в выходной поток, например, путем включения в состав информации, которая предоставляет декодеру возможность определять данные пространственных параметров. Признак, в качестве альтернативы или дополнительно, может предоставлять возможность настройки пространственного синтеза в декодере, например, сначала реверсированием синтеза, выполняемого в кодировщике, сопровождаемым синтезом с использованием настроенной или индивидуализированной передаточной функции бинаурального восприятия.This can provide an efficient way to reverse the binaural virtual spatial synthesis process in the decoder, thereby enabling high-quality multi-channel decoding. The feature, moreover, may provide an opportunity for an improved user experience and may enable or facilitate the implementation of binaural virtual spatial signal with moving sound sources. The spatial parameter data can be directly or indirectly included in the output stream, for example, by including in the composition of the information, which provides the decoder with the ability to determine the spatial parameter data. The feature, alternatively or additionally, may provide the ability to configure spatial synthesis in the decoder, for example, by first reversing the synthesis performed in the encoder, followed by synthesis using a customized or individualized binaural perception transfer function.

Согласно дополнительному признаку изобретения кодировщик дополнительно содержит средство для определения данных пространственных параметров в ответ на требуемые местоположения звукового сигнала.According to a further feature of the invention, the encoder further comprises means for determining the spatial parameter data in response to the desired locations of the audio signal.

Это может предоставлять возможность улучшенного кодирования и/или облегченной реализации. Требуемые местоположения звукового сигнала могут соответствовать местоположениям источников звука для отдельных каналов M-канального сигнала.This may provide improved coding and / or lightweight implementation. The desired locations of the audio signal may correspond to the locations of the sound sources for individual channels of the M-channel signal.

Согласно еще одному аспекту изобретения предложен декодер аудиосигнала, содержащий: средство для приема входных данных, содержащих первый стереосигнал и параметрические данные, связанные с подвергнутым понижающему микшированию стереосигналом M-канального аудиосигнала, где M>2, первый стереосигнал является бинауральным сигналом, соответствующим M-канальному аудиосигналу; и средство формирования для модифицирования первого стереосигнала, чтобы формировать подвергнутый понижающему микшированию стереосигнал, в ответ на параметрические данные и первые данные пространственных параметров для передаточной функции бинаурального восприятия, первые данные пространственных параметров являются связанными с первым стереосигналом.According to another aspect of the invention, there is provided an audio decoder comprising: means for receiving input data comprising a first stereo signal and parametric data associated with a down-mixed stereo signal of an M-channel audio signal, where M> 2, the first stereo signal is a binaural signal corresponding to the M-channel audio signal; and generating means for modifying the first stereo signal to generate the down-mixed stereo signal, in response to the parametric data and the first spatial parameter data for the binaural perception transfer function, the first spatial parameter data is associated with the first stereo signal.

Изобретение может предоставлять возможность улучшенного декодирования аудиосигнала. В частности, изобретение может предоставлять возможность высококачественного стереодекодирования и, более точно, может давать процессу бинаурального виртуального пространственного синтеза кодировщика возможность реверсироваться в декодере. Изобретение может предоставлять возможность выполнения декодера аудиосигнала низкой сложности. Изобретение может предоставлять возможность облегченной реализации и повторного использования функциональных возможностей.The invention may provide enhanced audio decoding. In particular, the invention can provide high-quality stereo decoding and, more precisely, can enable the encoder binaural virtual spatial synthesis process to be reversed in a decoder. The invention may provide the ability to perform a low complexity audio decoder. The invention may provide the possibility of facilitated implementation and reuse of functionality.

Бинауральный сигнал, более точно, может быть бинауральным виртуальным пространственным сигналом, таким как виртуальный 3-мерный бинауральный стереосигнал. Данные пространственных параметров могут содержать данные, указывающие передаточную функцию из предполагаемого местоположения источника звука в ухо предполагаемого пользователя. Передаточная функция бинаурального восприятия, например, может быть функцией моделирования восприятия звука человеком (HRTF) или бинауральной импульсной характеристикой помещения (BRIR).The binaural signal, more precisely, can be a binaural virtual spatial signal, such as a virtual 3-dimensional binaural stereo signal. The spatial parameter data may contain data indicating a transfer function from the intended location of the sound source to the intended user's ear. The binaural perception transfer function, for example, can be a human sound perception modeling function (HRTF) or a room binaural impulse response characteristic (BRIR).

Согласно дополнительному признаку изобретения декодер аудиосигнала дополнительно содержит средство для формирования M-канального аудиосигнала в ответ на подвергнутый понижающему микшированию стереосигнал и параметрические данные.According to a further feature of the invention, the audio signal decoder further comprises means for generating an M-channel audio signal in response to the down-mixed stereo signal and parametric data.

Изобретение может предоставлять возможность улучшенного декодирования аудиосигнала. В частности, изобретение может предоставлять возможность высококачественного многоканального декодирования и, более точно, может давать процессу бинаурального виртуального пространственного синтеза кодировщика возможность реверсироваться в декодере. Изобретение может предоставлять возможность декодера аудиосигнала низкой сложности. Изобретение может предоставлять возможность облегченной реализации и повторного использования функциональных возможностей.The invention may provide enhanced audio decoding. In particular, the invention can provide high-quality multi-channel decoding and, more precisely, can enable the encoder binaural virtual spatial synthesis process to be reversed in the decoder. The invention may provide a low complexity audio decoder. The invention may provide the possibility of facilitated implementation and reuse of functionality.

M-канальный аудиосигнал может быть сигналом объемного звучания, таким как сигнал объемного звучания 5.1 или 7.1. Бинауральный сигнал может быть виртуальным пространственным сигналом, который имитирует одно местоположение источника звука для каждого канала M-канального аудиосигнала.The M channel audio signal may be a surround signal, such as a 5.1 or 7.1 surround signal. The binaural signal may be a virtual spatial signal that simulates one location of a sound source for each channel of an M-channel audio signal.

Согласно дополнительному признаку изобретения средство формирования выполнено с возможностью формировать подвергнутый понижающему микшированию стереосигнал посредством расчета значений данных поддиапазона для подвергнутого понижающему микшированию стереосигнала в ответ на связанные параметрические данные, данные пространственных параметров и значения данных поддиапазона для первого стереосигнала.According to a further feature of the invention, the generating means is configured to generate the down-mixed stereo signal by calculating the subband data values for the down-mixed stereo signal in response to the associated parametric data, spatial parameter data and sub-band data values for the first stereo signal.

Это может предоставлять возможность улучшенного декодирования и/или облегченной реализации. Более точно, признак может давать пониженную сложность и/или сокращенные затраты вычислительных ресурсов. Интервалы частотных поддиапазонов первого стереосигнала, подвергнутого понижающему микшированию стереосигнала, связанных параметрических данных и данных пространственных параметров могут быть разными, либо некоторые или все поддиапазоны могут быть по существу идентичными для некоторых или всех из таковых.This may provide improved decoding and / or lightweight implementation. More specifically, the feature may provide reduced complexity and / or reduced computational resources. The intervals of the frequency subbands of the first stereo signal subjected to down-mixing of the stereo signal, the associated parametric data and spatial parameter data may be different, or some or all of the subbands may be substantially identical for some or all of them.

Согласно дополнительному признаку изобретения средство формирования выполнено с возможностью формировать значения поддиапазона для первого поддиапазона подвергнутого понижающему микшированию стереосигнала в ответ на умножение соответствующих стереозначений поддиапазона для первого стереосигнала на матрицу первого поддиапазона;According to a further feature of the invention, the generating means is configured to generate subband values for the first subband of the stereo down-mixed stereo signal in response to multiplying the corresponding stereo subband values for the first stereo signal by the matrix of the first subband;

средство формирования дополнительно содержит средство параметров для определения значений данных для матрицы первого поддиапазона в ответ на параметрические данные и данные пространственных параметров для первого поддиапазона.the generating means further comprises parameter means for determining data values for the matrix of the first subband in response to the parametric data and spatial parameter data for the first subband.

Это может предоставлять возможность улучшенного декодирования и/или облегченной реализации. Более точно, признак может давать пониженную сложность и/или сокращенные затраты вычислительных ресурсов. Значения матрицы первого поддиапазона могут отражать объединенный результат каскадного включения многоканального декодирования и фильтрации HRTF/BRIR результирующего множества каналов. Умножение матрицы поддиапазона может выполняться для всех поддиапазонов подвергнутого понижающему микшированию стереосигнала.This may provide improved decoding and / or lightweight implementation. More specifically, the feature may provide reduced complexity and / or reduced computational resources. The values of the matrix of the first subband may reflect the combined result of the cascading inclusion of multi-channel decoding and HRTF / BRIR filtering of the resulting multiple channels. Subband matrix multiplication can be performed for all subbands of the down-mixed stereo signal.

Согласно дополнительному признаку изобретения входные данные содержат, по меньшей мере, некоторые данные пространственных параметров.According to a further feature of the invention, the input data contains at least some spatial parameter data.

Это может обеспечивать эффективный способ реверсирования процесса бинаурального виртуального пространственного синтеза, выполняемого в кодировщике, тем самым предоставляя возможность высококачественного многоканального декодирования. Признак, более того, может предоставлять возможность улучшенного впечатления пользователя и может давать возможность или облегчать реализацию бинаурального виртуального пространственного сигнала с движущимися источниками звука. Данные пространственных параметров могут непосредственно или косвенно включаться во входные данные, например они могут быть любой информацией, которая предоставляет декодеру возможность определять данные пространственных параметров.This can provide an efficient way to reverse the binaural virtual spatial synthesis process performed in an encoder, thereby enabling high-quality multi-channel decoding. The feature, moreover, may provide an opportunity for an improved user experience and may enable or facilitate the implementation of binaural virtual spatial signal with moving sound sources. The spatial parameter data can be directly or indirectly included in the input data, for example, they can be any information that allows the decoder to determine the spatial parameter data.

Согласно дополнительному признаку изобретения входные данные содержат данные местоположения источника звука, и декодер содержит средство для определения данных пространственных параметров в ответ на данные местоположения источника звука.According to a further feature of the invention, the input data contains location data of the sound source, and the decoder comprises means for determining spatial parameter data in response to the location data of the sound source.

Декодер, например, может содержать хранилище данных, содержащее данные пространственных параметров HRTF, связанные с разными местоположениями источника звука, и может определять данные пространственных параметров для использования посредством извлечения данных параметров для указанных местоположений.The decoder, for example, may comprise a data store containing HRTF spatial parameter data associated with different locations of the sound source, and may determine spatial parameter data for use by retrieving the parameter data for the specified locations.

Согласно дополнительному признаку изобретения декодер аудиосигнала дополнительно содержит блок пространственного декодера для создания пары бинауральных выходных каналов модифицированием первого стереосигнала в ответ на связанные параметрические данные и вторые данные пространственных параметров для второй передаточной функции бинаурального восприятия, вторые данные пространственных параметров являются иными, чем первые данные пространственных параметров.According to an additional feature of the invention, the audio signal decoder further comprises a spatial decoder unit for generating a pair of binaural output channels by modifying the first stereo signal in response to the associated parametric data and second spatial parameter data for the second binaural perception transfer function, the second spatial parameter data is different than the first spatial parameter data .

Признак может предоставлять возможность улучшенного пространственного синтеза и, в частности, может давать возможность индивидуального или настроенного пространственного синтезированного бинаурального сигнала, который является особенно подходящим для определенного пользователя. Это может достигаться по-прежнему, наряду с предоставлением стереодекодерам прежних систем возможности формировать пространственные бинауральные сигналы, не требуя пространственного синтеза в декодере. Отсюда может достигаться улучшенная аудиосистема. Вторая передаточная функция бинаурального восприятия, более точно, может быть иной, чем передаточная функция бинаурального восприятия первых пространственных данных. Вторая передаточная функция бинаурального восприятия и вторые пространственные данные, более точно, могут настраиваться для индивидуального пользователя декодера.The feature may provide an opportunity for improved spatial synthesis and, in particular, may enable an individual or customized spatial synthesized binaural signal, which is especially suitable for a particular user. This can still be achieved, along with providing stereo decoders of previous systems with the ability to generate spatial binaural signals without requiring spatial synthesis in the decoder. From here, an improved audio system can be achieved. The second transfer function of binaural perception, more precisely, may be different than the transfer function of binaural perception of the first spatial data. The second binaural transfer function and the second spatial data, more precisely, can be adjusted for the individual user of the decoder.

Согласно дополнительному признаку изобретения пространственный декодер содержит: блок преобразования параметров для преобразования параметрических данных в параметры бинаурального синтеза с использованием вторых данных пространственных параметров и блок пространственного синтеза для синтеза пары бинауральных каналов с использованием параметров бинаурального синтеза и первого стереосигнала.According to an additional feature of the invention, the spatial decoder comprises: a parameter conversion unit for converting parametric data into binaural synthesis parameters using second spatial parameter data and a spatial synthesis unit for synthesizing a pair of binaural channels using binaural synthesis parameters and a first stereo signal.

Это может предоставлять возможность улучшенной производительности, и/или облегченной реализации, и/или пониженной сложности. Бинауральные параметры могут быть параметрами, которые могут перемножаться с образцами звучания поддиапазона первого стереосигнала и/или подвергнутого понижающему микшированию стереосигнала, чтобы формировать образцы звучания поддиапазона для бинауральных каналов. Умножение, например, может быть матричным умножением.This may provide improved performance, and / or lightweight implementation, and / or reduced complexity. The binaural parameters may be parameters that can be multiplied with the sub-band sound samples of the first stereo signal and / or the down-mixed stereo signal to form sub-band sound samples for binaural channels. Multiplication, for example, can be matrix multiplication.

Согласно дополнительному признаку изобретения параметры бинаурального синтеза содержат коэффициенты матрицы для матрицы 2 на 2, определяющей отношение стереообразцов звучания подвергнутого понижающему микшированию стереосигнала к стереообразцам звучания пары бинауральных выходных каналов.According to an additional feature of the invention, binaural synthesis parameters contain matrix coefficients for a 2 by 2 matrix defining the ratio of stereo samples of the stereo-downmixed stereo signal to stereo samples of a pair of binaural output channels.

Это может предоставлять возможность улучшенной производительности, и/или облегченной реализации, и/или пониженной сложности. Стереообразцы звучания могут быть стереообразцами звучания поддиапазона, например частотных поддиапазонов преобразования QMF или Фурье.This may provide improved performance, and / or lightweight implementation, and / or reduced complexity. The stereo samples of the sound can be stereo samples of the sound of a subband, for example, the frequency subbands of the QMF or Fourier transform.

Согласно дополнительному признаку изобретения параметры бинаурального синтеза содержат коэффициенты матрицы для матрицы 2 на 2, определяющей отношение стереообразцов звучания поддиапазона первого стереосигнала к стереообразцам звучания пары бинауральных выходных каналов.According to an additional feature of the invention, binaural synthesis parameters comprise matrix coefficients for a 2 by 2 matrix defining the ratio of stereo samples of a subband of the first stereo signal to stereo samples of a pair of binaural output channels.

Это может предоставлять возможность улучшенной производительности, и/или облегченной реализации, и/или пониженной сложности. Стереообразцы звучания могут быть стереообразцами звучания поддиапазона, например, частотных поддиапазонов преобразования QMF или Фурье.This may provide improved performance, and / or lightweight implementation, and / or reduced complexity. The stereo samples of the sound can be stereo samples of the sound of a subband, for example, the frequency subbands of the QMF or Fourier transform.

Согласно еще одному аспекту изобретения предложен способ кодирования аудиосигнала, способ содержит: прием M-канального аудиосигнала, где M>2; понижающее микширование M-канального аудиосигнала в первый стереосигнал и связанные параметрические данные; модифицирование первого стереосигнала, чтобы сформировать второй стереосигнал, в ответ на связанные параметрические данные и данные пространственных параметров для передаточной функции бинаурального восприятия, второй стереосигнал является бинауральным сигналом; кодирование второго стереосигнала, чтобы сформировать кодированные данные; и формирование выходного потока данных, содержащего кодированные данные и связанные параметрические данные.According to another aspect of the invention, there is provided a method for encoding an audio signal, the method comprising: receiving an M-channel audio signal, where M> 2; down-mixing the M-channel audio signal into a first stereo signal and associated parametric data; modifying the first stereo signal to generate a second stereo signal, in response to the associated parametric data and spatial parameter data for the binaural perception transfer function, the second stereo signal is a binaural signal; encoding a second stereo signal to generate encoded data; and generating an output data stream containing encoded data and associated parametric data.

Согласно еще одному аспекту изобретения предложен способ декодирования аудиосигнала, способ содержит:According to another aspect of the invention, there is provided a method for decoding an audio signal, the method comprising:

прием входных данных, содержащих первый стереосигнал и параметрические данные, связанные с подвергнутым понижающему микшированию стереосигналом M-канального аудиосигнала, где M>2, первый стереосигнал является бинауральным сигналом, соответствующим M-канальному аудиосигналу; иreceiving input data containing the first stereo signal and parametric data associated with the down-mixed stereo signal of the M-channel audio signal, where M> 2, the first stereo signal is a binaural signal corresponding to the M-channel audio signal; and

модифицирование первого стереосигнала, чтобы сформировать подвергнутый понижающему микшированию стереосигнал, в ответ на параметрические данные и данные пространственных параметров для передаточной функции бинаурального восприятия, данные пространственных параметров являются связанными с первым стереосигналом.modifying the first stereo signal to produce a down-mixed stereo signal, in response to parametric data and spatial parameter data for the binaural perception transfer function, the spatial parameter data is associated with the first stereo signal.

Согласно еще одному аспекту изобретения предложен приемник для приема аудиосигнала, содержащий: средство для приема входных данных, содержащих первый стереосигнал и параметрические данные, связанные с подвергнутым понижающему микшированию стереосигналом M-канального аудиосигнала, где M>2, первый стереосигнал является бинауральным сигналом, соответствующим M-канальному аудиосигналу; и средство формирования для модифицирования первого стереосигнала, чтобы формировать подвергнутый понижающему микшированию стереосигнал, в ответ на параметрические данные и данные пространственных параметров для передаточной функции бинаурального восприятия, данные пространственных параметров являются связанными с первым стереосигналом.According to another aspect of the invention, there is provided a receiver for receiving an audio signal comprising: means for receiving input data comprising a first stereo signal and parametric data associated with a down-mixed stereo signal of an M-channel audio signal, where M> 2, the first stereo signal is a binaural signal corresponding to M -channel audio signal; and generating means for modifying the first stereo signal to generate the down-mixed stereo signal, in response to the parametric data and spatial parameter data for the binaural perception transfer function, the spatial parameter data is associated with the first stereo signal.

Согласно еще одному аспекту изобретения предложен передатчик для передачи выходного потока данных, передатчик содержит: средство для приема M-канального аудиосигнала, где M>2; средство понижающего микширования для понижающего микширования M-канального аудиосигнала в первый стереосигнал и связанные параметрические данные; средство формирования для модифицирования первого стереосигнала, чтобы формировать второй стереосигнал, в ответ на связанные параметрические данные и данные пространственных параметров для передаточной функции бинаурального восприятия, второй стереосигнал является бинауральным сигналом; средство для кодирования второго стереосигнала, чтобы формировать кодированные данные; средство вывода для формирования выходного потока данных, содержащего кодированные данные и связанные параметрические данные; и средство для передачи выходного потока данных.According to another aspect of the invention, there is provided a transmitter for transmitting an output data stream, the transmitter comprising: means for receiving an M-channel audio signal, where M> 2; down-mix means for down-mixing the M-channel audio signal into a first stereo signal and associated parameter data; generating means for modifying the first stereo signal to generate a second stereo signal, in response to the associated parametric data and spatial parameter data for the binaural perception transfer function, the second stereo signal is a binaural signal; means for encoding a second stereo signal to generate encoded data; output means for generating an output data stream containing encoded data and associated parametric data; and means for transmitting the output data stream.

Согласно еще одному аспекту изобретения предложена система передачи для передачи аудиосигнала, система передачи содержит: передатчик, содержащий: средство для приема M-канального аудиосигнала, где M>2, средство понижающего микширования для понижающего микширования M-канального аудиосигнала в первый стереосигнал и связанные параметрические данные, средство формирования для модифицирования первого стереосигнала, чтобы формировать второй стереосигнал, в ответ на связанные параметрические данные и данные пространственных параметров для передаточной функции бинаурального восприятия, второй стереосигнал является бинауральным сигналом, средство для кодирования второго стереосигнала, чтобы формировать кодированные данные, средство вывода для формирования выходного потока данных аудио, содержащего кодированные данные и связанные параметрические данные, и средство для передачи выходного потока данных аудио; и приемник, содержащий: средство для приема выходного потока данных аудио и средство для модифицирования второго стереосигнала, чтобы формировать первый стереосигнал в ответ на параметрические данные и данные пространственных параметров.According to yet another aspect of the invention, there is provided a transmission system for transmitting an audio signal, a transmission system comprising: a transmitter comprising: means for receiving an M-channel audio signal, where M> 2, down-mix means for down-mixing an M-channel audio signal into a first stereo signal and related parametric data , forming means for modifying the first stereo signal to generate a second stereo signal, in response to the associated parametric data and spatial parameter data for a binaural perception transfer function, the second stereo signal is a binaural signal, means for encoding a second stereo signal to generate encoded data, output means for generating an output audio data stream containing encoded data and associated parametric data, and means for transmitting an output audio data stream; and a receiver comprising: means for receiving an output stream of audio data and means for modifying a second stereo signal to generate a first stereo signal in response to parametric data and spatial parameter data.

Согласно еще одному аспекту изобретения предложен способ приема аудиосигнала, способ содержит: прием входных данных, содержащих первый стереосигнал и параметрические данные, связанные с подвергнутым понижающему микшированию стереосигналом M-канального аудиосигнала, где M>2, первый стереосигнал является бинауральным сигналом, соответствующим M-канальному аудиосигналу; и модифицирование первого стереосигнала, чтобы формировать подвергнутый понижающему микшированию стереосигнал, в ответ на параметрические данные и данные пространственных параметров для передаточной функции бинаурального восприятия, данные пространственных параметров являются связанными с первым стереосигналом.According to another aspect of the invention, there is provided a method for receiving an audio signal, the method comprising: receiving input data comprising a first stereo signal and parametric data associated with a down-mixed stereo signal of an M-channel audio signal, where M> 2, the first stereo signal is a binaural signal corresponding to the M-channel audio signal; and modifying the first stereo signal to produce a down-mixed stereo signal in response to parametric data and spatial parameter data for the binaural perception transfer function, the spatial parameter data is associated with the first stereo signal.

Согласно еще одному аспекту изобретения предложен способ передачи выходного потока данных аудио, способ содержит: прием M-канального аудиосигнала, где M>2; понижающее микширование M-канального аудиосигнала в первый стереосигнал и связанные параметрические данные; модифицирование первого стереосигнала, чтобы формировать второй стереосигнал, в ответ на связанные параметрические данные и данные пространственных параметров для передаточной функции бинаурального восприятия, второй стереосигнал является бинауральным сигналом; кодирование второго стереосигнала, чтобы формировать кодированные данные; и формирование выходного потока данных аудио, содержащего кодированные данные и связанные параметрические данные; и передачу выходного потока данных аудио.According to another aspect of the invention, there is provided a method for transmitting an audio data output stream, the method comprising: receiving an M-channel audio signal, where M> 2; down-mixing the M-channel audio signal into a first stereo signal and associated parametric data; modifying the first stereo signal to generate a second stereo signal, in response to the associated parametric data and spatial parameter data for the binaural perception transfer function, the second stereo signal is a binaural signal; encoding a second stereo signal to generate encoded data; and generating an output audio data stream containing encoded data and associated parametric data; and transmitting the audio output data stream.

Согласно еще одному аспекту изобретения предложен способ передачи и приема аудиосигнала, способ содержит: прием M-канального аудиосигнала, где M>2; понижающее микширование M-канального аудиосигнала в первый стереосигнал и связанные параметрические данные; модифицирование первого стереосигнала, чтобы формировать второй стереосигнал, в ответ на связанные параметрические данные и данные пространственных параметров для передаточной функции бинаурального восприятия, второй стереосигнал является бинауральным сигналом; кодирование второго стереосигнала, чтобы формировать кодированные данные; и формирование выходного потока данных аудио, содержащего кодированные данные и связанные параметрические данные; передачу выходного потока данных аудио; прием выходного потока данных аудио; и модифицирование второго стереосигнала, чтобы формировать первый стереосигнал в ответ на параметрические данные и данные пространственных параметров.According to another aspect of the invention, there is provided a method for transmitting and receiving an audio signal, the method comprising: receiving an M-channel audio signal, where M> 2; down-mixing the M-channel audio signal into a first stereo signal and associated parametric data; modifying the first stereo signal to generate a second stereo signal, in response to the associated parametric data and spatial parameter data for the binaural perception transfer function, the second stereo signal is a binaural signal; encoding a second stereo signal to generate encoded data; and generating an output audio data stream containing encoded data and associated parametric data; transmission of the output audio data stream; receiving output audio data stream; and modifying the second stereo signal to generate a first stereo signal in response to parametric data and spatial parameter data.

Согласно еще одному аспекту изобретения предложен компьютерный программный продукт для выполнения любого из вышеописанных способов.According to another aspect of the invention, a computer program product for performing any of the above methods is provided.

Согласно еще одному аспекту изобретения предложено устройство записи аудио, содержащее кодировщик согласно вышеописанному кодировщику.According to another aspect of the invention, there is provided an audio recording apparatus comprising an encoder according to the encoder described above.

Согласно еще одному аспекту изобретения предложено устройство воспроизведения аудио, содержащее декодер согласно вышеописанному декодеру.According to another aspect of the invention, there is provided an audio reproducing apparatus comprising a decoder according to the above-described decoder.

Согласно еще одному аспекту изобретения предложен поток аудиоданных для аудиосигнала, содержащий первый стереосигнал; и параметрические данные, связанные с подвергнутым понижающему микшированию стереосигналом M-канального аудиосигнала, где M>2; при этом первый стереосигнал является бинауральным сигналом, соответствующим M-канальному аудиосигналу.According to another aspect of the invention, there is provided an audio data stream for an audio signal comprising: a first stereo signal; and parametric data associated with the down-mixed stereo signal of the M-channel audio signal, where M> 2; wherein the first stereo signal is a binaural signal corresponding to an M-channel audio signal.

Согласно еще одному аспекту изобретения предложен запоминающий носитель, содержащий сохраненный на нем сигнал, как описанный выше.According to another aspect of the invention, there is provided a storage medium comprising a signal stored thereon, as described above.

Эти и другие аспекты, признаки и преимущества изобретения будут очевидны из и разъяснены со ссылкой на вариант(ы) осуществления, описанный ниже.These and other aspects, features, and advantages of the invention will be apparent from and elucidated with reference to the embodiment (s) described below.

Варианты осуществления изобретения будут описаны только в качестве примера со ссылкой на чертежи, из которыхEmbodiments of the invention will be described by way of example only with reference to the drawings, of which

фиг.1 - иллюстрация бинаурального синтеза в соответствии с предшествующим уровнем техники;figure 1 - illustration of binaural synthesis in accordance with the prior art;

фиг.2 - иллюстрация каскадного включения многоканального декодера и бинаурального синтеза;figure 2 - illustration of the cascade enable multichannel decoder and binaural synthesis;

фиг.3 иллюстрирует систему передачи для передачи аудиосигнала в соответствии с некоторыми вариантами осуществления изобретения;3 illustrates a transmission system for transmitting an audio signal in accordance with some embodiments of the invention;

фиг.4 иллюстрирует кодировщик в соответствии с некоторыми вариантами осуществления изобретения;4 illustrates an encoder in accordance with some embodiments of the invention;

фиг.5 иллюстрирует кодировщик параметрического понижающего микширования объемного звучания;5 illustrates an encoder for parametric surround down-mix;

фиг.6 иллюстрирует пример местоположения источника звука относительно пользователя;6 illustrates an example of the location of the sound source relative to the user;

фиг.7 иллюстрирует многоканальный декодер в соответствии с некоторыми вариантами осуществления изобретения;7 illustrates a multi-channel decoder in accordance with some variants of the invention;

фиг.8 иллюстрирует декодер в соответствии с некоторыми вариантами осуществления изобретения;Fig. 8 illustrates a decoder in accordance with some embodiments of the invention;

фиг.9 иллюстрирует декодер в соответствии с некоторыми вариантами осуществления изобретения;FIG. 9 illustrates a decoder in accordance with some embodiments of the invention; FIG.

фиг.10 иллюстрирует способ кодирования аудиосигнала в соответствии с некоторыми вариантами осуществления изобретения; и10 illustrates an audio encoding method in accordance with some embodiments of the invention; and

фиг.11 иллюстрирует способ декодирования аудиосигнала в соответствии с некоторыми вариантами осуществления изобретения.11 illustrates an audio decoding method in accordance with some embodiments of the invention.

Фиг.3 иллюстрирует систему 300 передачи для передачи аудиосигнала в соответствии с некоторыми вариантами осуществления изобретения. Система 300 передачи содержит передатчик 301, который связан с приемником 303 через сеть 305, которая, более точно, может быть сетью Интернет.FIG. 3 illustrates a transmission system 300 for transmitting an audio signal in accordance with some embodiments of the invention. The transmission system 300 includes a transmitter 301, which is connected to the receiver 303 via a network 305, which, more precisely, may be the Internet.

В отдельном примере, передатчик 301 является устройством записи сигнала, а приемник является устройством 303 проигрывателя сигнала, но будет принято во внимание, что в других вариантах осуществления передатчик и приемник могут использоваться в других применениях и для других целей. Например, передатчик 301 и/или приемник 303 могут быть частью функциональных возможностей перекодировки и, например, могут предусматривать сопряжение с другими источниками или пунктами назначения сигналов.In a separate example, the transmitter 301 is a signal recorder, and the receiver is a signal player device 303, but it will be appreciated that in other embodiments, the transmitter and receiver may be used in other applications and for other purposes. For example, transmitter 301 and / or receiver 303 may be part of the transcoding functionality and, for example, may be coupled to other sources or signal destinations.

В отдельном примере, где поддерживается функция записи сигнала, передатчик 301 содержит цифрователь 307, который принимает аналоговый сигнал, который преобразуется в цифровой сигнал PCM посредством осуществления выборки и аналого-цифрового преобразования. Цифрователь 307 осуществляет выборку множества сигналов, тем самым формируя многоканальный сигнал.In a separate example where a signal recording function is supported, the transmitter 301 comprises a digitizer 307 that receives an analog signal that is converted to a digital PCM signal by sampling and analog-to-digital conversion. Digitizer 307 samples a plurality of signals, thereby forming a multi-channel signal.

Передатчик 301 присоединен к кодировщику 309 по фиг.1, который кодирует многоканальный сигнал в соответствии с алгоритмом кодирования. Кодировщик 309 присоединен к сетевому передатчику 311, который принимает кодированный сигнал и служит средством связи с сетью 305 Интернет. Сетевой передатчик может передавать кодированный сигнал на приемник 303 через сеть 305 Интернет.A transmitter 301 is coupled to an encoder 309 of FIG. 1, which encodes a multi-channel signal in accordance with a coding algorithm. The encoder 309 is connected to a network transmitter 311, which receives the encoded signal and serves as a means of communication with the Internet network 305. The network transmitter may transmit the encoded signal to the receiver 303 via the Internet network 305.

Приемник 303 содержит сетевой приемник 313, который служит средством связи с сетью 305 Интернет и который выполнен с возможностью принимать кодированный сигнал от передатчика 301.The receiver 303 includes a network receiver 313, which serves as a means of communication with the Internet network 305 and which is configured to receive the encoded signal from the transmitter 301.

Сетевой приемник 313 присоединен к декодеру 315. Декодер 315 принимает кодированный сигнал и декодирует его в соответствии с алгоритмом декодирования.The network receiver 313 is connected to the decoder 315. The decoder 315 receives the encoded signal and decodes it in accordance with the decoding algorithm.

В отдельном примере, где поддерживается функция воспроизведения сигнала, приемник 303 дополнительно содержит проигрыватель 317 сигнала, который принимает декодированный аудиосигнал из декодера 315 и представляет таковой пользователю. Более точно, проигрыватель 317 сигнала может содержать цифроаналоговый преобразователь, усилители и громкоговорители, которые требуются для вывода декодированного аудиосигнала.In a separate example where the signal reproduction function is supported, the receiver 303 further comprises a signal player 317 that receives the decoded audio signal from the decoder 315 and presents it to the user. More specifically, the signal player 317 may comprise a digital-to-analog converter, amplifiers and speakers, which are required to output a decoded audio signal.

В отдельном примере, кодировщик 309 принимает пятиканальный сигнал объемного звука и осуществляет понижающее микширование такового в стереосигнал. Стереосигнал затем подвергается постобработке, чтобы сформировать бинауральный сигнал, который, более точно, является бинауральным виртуальным пространственным сигналом в виде 3-мерного бинаурального сигнала понижающего микширования. Посредством использования каскада 3-мерной постобработки, действующего на сигнал понижающего микширования после пространственного кодирования, 3-мерная обработка может инвертироваться в декодере 315. Как результат, многоканальный декодер для проигрывания через громкоговорители не будет показывать никакого значительного ухудшения качества, обусловленного модифицированным стереопонижающим микшированием, наряду с тем, что, одновременно, даже традиционные стереодекодеры будут синтезировать 3-мерный совместимый сигнал. Таким образом, кодировщик 309 может формировать сигнал, который предоставляет возможность высококачественного многоканального декодирования и, одновременно, дает возможность псевдопространственного впечатления от традиционного стереовыходного сигнала, например, такого как из традиционного декодера, питающего пару наушников.In a separate example, encoder 309 receives a five-channel surround signal and downmixes it into a stereo signal. The stereo signal is then post-processed to form a binaural signal, which, more precisely, is a binaural virtual spatial signal in the form of a 3-dimensional binaural downmix signal. By using the 3-D post-processing cascade acting on the downmix signal after spatial coding, the 3-D processing can be inverted in the decoder 315. As a result, the multi-channel decoder for playing through the speakers will not show any significant degradation due to the modified stereo downmix, along with so that, at the same time, even traditional stereo decoders will synthesize a 3-dimensional compatible signal. Thus, the encoder 309 can generate a signal that enables high-quality multi-channel decoding and, at the same time, allows a pseudo-spatial impression of a traditional stereo output signal, for example, such as from a traditional decoder that feeds a pair of headphones.

Фиг.4 иллюстрирует кодировщик 309 более подробно.4 illustrates an encoder 309 in more detail.

Кодировщик 309 содержит многоканальный приемник 401, который принимает многоканальный аудиосигнал. Хотя описанные принципы будут применяться к многоканальному сигналу, содержащему любое количество каналов, больше двух, отдельный пример будет фокусироваться на пятиканальном сигнале, соответствующем стандартному сигналу объемного звука (для ясности и краткости низкочастотный канал, часто используемый для сигналов объемного звучания, будет игнорироваться. Однако специалисту в данной области техники будет ясно, что многоканальный сигнал может иметь дополнительный низкочастотный канал. Этот канал, например, может комбинироваться с центральным каналом процессором понижающего микширования).Encoder 309 comprises a multi-channel receiver 401 that receives a multi-channel audio signal. Although the principles described will apply to a multi-channel signal containing any number of channels, more than two, a separate example will focus on a five-channel signal corresponding to a standard surround signal (for clarity and brevity, the low-frequency channel, often used for surround signals, will be ignored. However, the specialist it will be clear in the art that a multi-channel signal can have an additional low-frequency channel, for example, this channel can be combined with neutral channel down-mix processor).

Многоканальный приемник 401 присоединен к процессору 403 понижающего микширования, который выполнен с возможностью осуществлять понижающее микширование пятиканального аудиосигнала в первый стереосигнал. В дополнение, процессор 403 понижающего микширования формирует параметрические данные 405, связанные с первым стереосигналом и содержащие контрольные сигналы аудио и информацию, определяющую отношение первого стереосигнала к исходным каналам многоканального сигнала.A multi-channel receiver 401 is connected to a downmix processor 403, which is configured to downmix a five-channel audio signal into a first stereo signal. In addition, the downmix processor 403 generates parametric data 405 associated with the first stereo signal and containing control audio signals and information defining a ratio of the first stereo signal to the original channels of the multi-channel signal.

Процессор 403 понижающего микширования, например, может реализовывать многоканальный кодировщик объемного звучания MPEG. Пример такового проиллюстрирован на фиг.5. В примере, многоканальный входной сигнал состоит из каналов Lf (левого фронтального), Ls (левого объемного), C (центрального), Rf (правого фронтального) и Rs (правого объемного). Каналы Lf и Ls подаются в первый понижающий микшер 501 TTO (два в один), который формирует моносигнал понижающего микширования для левого (L) канала, а также параметры, устанавливающие отношение двух входных каналов Lf и Ls к выходному каналу L. Каналы Rf и Rs подаются во второй понижающий микшер 503 TTO, который формирует моносигнал понижающего микширования для правого (R) канала, а также параметры, устанавливающие отношение двух входных каналов Rf и Rs к выходному каналу R. Каналы R, L и C затем подаются в понижающий микшер 505 TTT (три в два), который комбинирует эти сигналы, чтобы сформировать стереосигнал понижающего микширования и дополнительные пространственные параметры.The downmix processor 403, for example, may implement a multi-channel MPEG surround encoder. An example of this is illustrated in FIG. In the example, the multi-channel input signal consists of the channels Lf (left front), Ls (left surround), C (central), Rf (right front) and Rs (right surround). Channels Lf and Ls are fed into the first two-to-one TTO down-mixer 501, which generates a mono down-mix signal for the left (L) channel, as well as parameters setting the ratio of the two input channels Lf and Ls to the output channel L. Channels Rf and Rs fed into the second TTO down-mixer 503, which generates a down-mix mono signal for the right (R) channel, as well as parameters setting the ratio of the two input channels Rf and Rs to the output channel R. The R, L, and C channels are then fed to the TTT down-mixer 505 (three to two) which combines e and signals to generate a stereo down-mix and additional spatial parameters.

Параметры, вытекающие из понижающего микшера 505 TTT, типично состоят из пары коэффициентов предсказания для каждого диапазона параметров, или пары перепадов уровня для описания соотношений энергии трех входных сигналов. Параметры понижающих микшеров 501, 503 TTO типично состоят из перепадов уровня и значений когерентности или взаимной корреляции между входными сигналами для каждой полосы частот.The parameters resulting from the TTT downmixer 505 typically consist of a pair of prediction coefficients for each parameter range, or a pair of level drops to describe the energy ratios of the three input signals. The parameters of the down-mixers 501, 503 TTO typically consist of level differences and coherence or cross-correlation between the input signals for each frequency band.

Сформированный первый стереосигнал, таким образом, является стандартным традиционным стереосигналом, содержащим некоторое количество подвергнутых понижающему микшированию каналов. Многоканальный декодер может воссоздавать исходный многоканальный сигнал посредством повышающего микширования и применения связанных параметрических данных. Однако стандартный стереодекодер будет выдавать только стереосигнал, тем самым теряя пространственную информацию и создавая пониженное впечатление пользователя.The generated first stereo signal is thus a standard conventional stereo signal comprising a number of downmixed channels. A multi-channel decoder can recreate the original multi-channel signal by upmixing and applying related parametric data. However, a standard stereo decoder will only output a stereo signal, thereby losing spatial information and creating a reduced user experience.

Однако в кодировщике 309 подвергнутый понижающему микшированию стереосигнал не кодируется и не передается непосредственно. Вернее, первый стереосигнал подается в пространственный процессор 407, в который также подаются связанные данные 405 параметров из процессора 403 понижающего микширования. Пространственный процессор 407, кроме того, присоединен к процессору 409 HRTF.However, in the encoder 309, the down-mixed stereo signal is not encoded or transmitted directly. Rather, the first stereo signal is supplied to the spatial processor 407, which also receives the associated parameter data 405 from the downmix processor 403. Spatial processor 407 is further coupled to HRTF processor 409.

Процессор 409 HRTF формирует данные параметров функции моделирования восприятия звука человеком (HRTF), используемые пространственным процессором 407 для формирования 3-мерного бинаурального сигнала. Более точно, HRTF описывает передаточную функцию из заданного местоположения источника звука на барабанные перепонки посредством импульсной характеристики. Процессор 409 HRTF, более точно, формирует данные параметров HRTF, соответствующие значению требуемой функции HRTF в частотном поддиапазоне. Процессор 409 HRTF, например, может рассчитывать HRTF для местоположения источника звука одного из каналов многоканального сигнала. Эта передаточная функция может преобразовываться в подходящую область частотных поддиапазонов (такую как область поддиапазонов QMF или БПФ) и может определяться соответствующее значение параметра HRTF в каждом поддиапазоне.The HRTF processor 409 generates the parameter data of a human sound perception modeling function (HRTF) used by the spatial processor 407 to generate a 3D binaural signal. More precisely, HRTF describes a transfer function from a predetermined location of a sound source to the eardrum by means of an impulse response. HRTF processor 409, more precisely, generates HRTF parameter data corresponding to a value of a desired HRTF function in a frequency subband. An HRTF processor 409, for example, can calculate an HRTF for the location of the sound source of one of the channels of a multi-channel signal. This transfer function may be converted to a suitable region of the frequency subbands (such as the QMF or FFT subband region) and the corresponding HRTF parameter value in each subband may be determined.

Будет приниматься во внимание, что, хотя описание фокусируется на применении функций моделирования восприятия звука человеком, описанные подход и принципы равным образом хорошо применяются к другим передаточным функциям (пространственного) бинаурального восприятия, таким как функция бинауральной импульсной характеристики помещения (BRIR). Еще одним примером передаточной функции бинаурального восприятия является простое правило панорамирования амплитуды, которое описывает относительную величину уровня сигнала от одного входного канала до другого из бинауральных стереовыходных каналов.It will be appreciated that although the description focuses on the application of human sound perception modeling functions, the described approach and principles apply equally well to other transfer functions of (spatial) binaural perception, such as the binaural impulse response characteristic of a room (BRIR). Another example of the binaural perception transfer function is a simple amplitude panning rule that describes the relative magnitude of the signal level from one input channel to another of binaural stereo output channels.

В некоторых вариантах осуществления параметры HRTF могут рассчитываться динамически, тогда как в других вариантах осуществления они могут быть предопределены и храниться в пригодном складе данных. Например, параметры HRTF могут храниться в базе данных в качестве функции курсового угла, угла возвышения, расстояния и полосы частот. Надлежащие параметры HRTF для заданного частотного поддиапазона, в таком случае, могут просто извлекаться посредством выбора значений для требуемого пространственного положения источника звука.In some embodiments, HRTF parameters can be calculated dynamically, while in other embodiments, they can be predefined and stored in a suitable data warehouse. For example, HRTF parameters may be stored in a database as a function of heading angle, elevation angle, distance and frequency band. Appropriate HRTF parameters for a given frequency sub-band, in this case, can simply be retrieved by selecting values for the desired spatial position of the sound source.

Пространственный процессор 407 модифицирует первый стереосигнал, чтобы сформировать второй стереосигнал, в ответ на связанные параметрические данные и данные пространственных параметров HRTF. В противоположность первому стереосигналу, второй стереосигнал является бинауральным виртуальным пространственным сигналом, а более точно, 3-мерным бинауральным сигналом, который, когда представляется через традиционную стереофоническую систему (например, парой наушников), может давать расширенное пространственное впечатление, имитирующее наличие более чем двух источников звука в разных местоположениях источников звука.The spatial processor 407 modifies the first stereo signal to generate a second stereo signal, in response to the associated parametric data and HRTF spatial parameter data. In contrast to the first stereo signal, the second stereo signal is a binaural virtual spatial signal, and more specifically, a 3-dimensional binaural signal, which, when presented through a traditional stereo system (for example, a pair of headphones), can give an expanded spatial impression that mimics the presence of more than two sources sound in different locations of sound sources.

Второй стереосигнал подается в процессор 411 кодирования, который присоединен к пространственному процессору 407 и который кодирует второй сигнал в поток данных, пригодный для передачи (например, с применением подходящих уровней квантования и т.п.). Процессор 411 кодирования присоединен к процессору 413 вывода, который формирует выходной поток, комбинируя, по меньшей мере, кодированные вторые данные стереосигнала и связанные данные 405 параметров, сформированные процессором 403 понижающего микширования.The second stereo signal is supplied to an encoding processor 411, which is coupled to the spatial processor 407 and which encodes the second signal into a data stream suitable for transmission (for example, using appropriate quantization levels, etc.). An encoding processor 411 is coupled to an output processor 413 that generates an output stream by combining at least encoded second stereo signal data and associated parameter data 405 generated by the downmix processor 403.

Типично, синтез HRTF требует колебательные сигналы для всех индивидуальных источников звука (например, сигналов громкоговорителей в контексте сигнала объемного звука). Однако в кодировщике 309 пары HRTF подвергаются параметризации для частотных поддиапазонов, тем самым, например, предоставляя виртуальной установке громкоговорителей 5.1 возможность формироваться посредством постобработки с низкой сложностью сигнала понижающего микширования многоканального входного сигнала, с помощью пространственных параметров, которые извлекались во время последовательности операций кодирования (и понижающего микширования).Typically, HRTF synthesis requires vibrational signals for all individual sound sources (for example, speaker signals in the context of a surround sound signal). However, in encoder 309, HRTF pairs are parameterized for the frequency subbands, thereby, for example, allowing the virtual 5.1 speaker setup to be generated by post-processing with low complexity down-mix signal of the multi-channel input signal, using spatial parameters that were extracted during the encoding sequence (and down mix).

Пространственный процессор, более точно, может работать в области поддиапазонов, такой как область поддиапазонов QMF или БПФ. Предпочтительнее, чем декодирование подвергнутого понижающему микшированию первого стереосигнала для формирования исходного многоканального сигнала, сопровождаемого синтезом HRTF с использованием фильтрации HRTF, пространственный процессор 407 формирует значения параметров для каждого поддиапазона, соответствующего комбинированному результату декодирования подвергнутого понижающему микшированию первого стереосигнала в многоканальный сигнал, с последующим повторным кодированием многоканального сигнала в качестве 3-мерного бинаурального сигнала.A spatial processor, more precisely, can operate in a subband domain, such as a QMF or FFT subband domain. Rather than decoding the down-mixed first stereo signal to generate an original multi-channel signal followed by HRTF synthesis using HRTF filtering, the spatial processor 407 generates parameter values for each subband corresponding to the combined result of decoding the down-mixed first stereo signal into a multi-channel signal, followed by re-encoding multi-channel signal as 3-dimensional binaura signal.

Более точно, изобретатели осознали, что 3-мерный бинауральный сигнал может формироваться применением умножения на матрицу 2×2 к значениям сигнала поддиапазона первого сигнала. Результирующие значения сигнала у второго сигнала близко соответствуют значениям сигнала, которые могут быть сформированы каскадным выполнением декодирования и синтеза HRTF. Таким образом, комбинированная сигнальная обработка многоканального кодирования и синтеза HRTF может комбинироваться в четыре значения параметров (коэффициента матрицы), которые могут просто применяться к значениям сигналов поддиапазона, чтобы формировать требуемые значения поддиапазона второго сигнала. Поскольку значения параметров матрицы отражают комбинированную последовательность операций декодирования многоканального сигнала и синтеза HRTF, значения параметров определяются в ответ на связанные параметрические данные из процессора 403 понижающего микширования, а также параметры HRTF.More precisely, the inventors realized that a 3-dimensional binaural signal can be generated by applying multiplication by a 2 × 2 matrix to the sub-band signal values of the first signal. The resulting signal values of the second signal closely correspond to the signal values that can be generated by cascading HRTF decoding and synthesis. Thus, the combined signal processing of multi-channel coding and HRTF synthesis can be combined into four parameter values (matrix coefficient), which can simply be applied to the values of the subband signals to form the required subband values of the second signal. Since the matrix parameter values reflect the combined process of decoding the multi-channel signal and HRTF synthesis, parameter values are determined in response to the associated parametric data from the downmix processor 403, as well as HRTF parameters.

В кодировщике 309 функции HRTF подвергаются параметризации для отдельных полос частот. Назначение параметризации HRTF состоит в том, чтобы зафиксировать наиболее важные контрольные сигналы для определения местоположения источника звука из каждой пары HRTF. Эти параметры могут включать в себя:In encoder 309, HRTF functions are parameterized for individual frequency bands. The purpose of HRTF parameterization is to capture the most important control signals to determine the location of the sound source from each HRTF pair. These options may include:

- (Средний) уровень на частотный поддиапазон для импульсной характеристики левого уха;- (Medium) level per frequency sub-band for impulse response of the left ear;

- (Средний) уровень на частотный поддиапазон для импульсной характеристики правого уха;- (Medium) level per frequency sub-band for impulse response of the right ear;

- (Среднее) время поступления или разность фаз между импульсными характеристиками левого уха и правого уха;- (Average) arrival time or phase difference between the impulse characteristics of the left ear and the right ear;

- (Средняя) абсолютная фаза или время (или групповая задержка) на частотный поддиапазон как для левой, так и для правой импульсных характеристик (в этом случае, время или разность фаз, в большинстве случаев становится абсолютным);- (Average) absolute phase or time (or group delay) per frequency sub-band for both left and right impulse responses (in this case, the time or phase difference, in most cases, becomes absolute);

- Межканальная взаимная корреляция или когерентность на частотный поддиапазон между соответствующими импульсными характеристиками.- Inter-channel cross-correlation or coherence per frequency sub-band between respective impulse responses.

Параметры уровня на частотный поддиапазон могут облегчать синтез угла возвышения (благодаря специальным пикам и провалам в спектре), а также перепады уровня для курсового угла (определяемые по отношению параметров уровня для каждого поддиапазона).Level parameters per frequency subband can facilitate the synthesis of the elevation angle (thanks to special peaks and dips in the spectrum), as well as level differences for the heading angle (determined by the ratio of level parameters for each subband).

Абсолютные значения фазы или значения разности фаз могут фиксировать разности времени поступления между обоими ушами, которые также являются важными контрольными сигналами для курсового угла источника звука. Значение когерентности могло добавляться для имитации перепадов тонкой структуры между обоими ушами, которые не могут быть привнесены в перепады уровня и/или разницы фаз, усредненные по диапазону (параметров).Absolute phase values or phase difference values can capture arrival time differences between both ears, which are also important tell-tales for the heading angle of the sound source. A coherence value could be added to simulate the fine structure drops between both ears, which cannot be introduced into level and / or phase differences, averaged over the range (parameters).

В последующем, описан отдельный пример обработки пространственным процессором 407. В примере местоположение источника звука определяется относительно слушателя азимутальным углом α и расстоянием D, как показано на фиг.6. Источник звука, расположенный слева от слушателя, соответствует положительным азимутальным углам. Передаточная функция из местоположения источника звука в левое ухо обозначена H _L, передаточная функция из местоположения источника звука в правое ухо - H _R.Subsequently, a separate example of processing by the spatial processor 407 is described. In the example, the location of the sound source is determined relative to the listener by the azimuthal angle α and the distance D , as shown in FIG. 6. The sound source located to the left of the listener corresponds to positive azimuthal angles. The transfer function from the location of the sound source to the left ear is designated H _L , the transfer function from the location of the sound source to the left ear is H _R.

Передаточные функции H _L и H _R зависимы от азимутального угла α, расстояния D и угла ε возвышения (не показан на фиг.6). В параметрическом представлении передаточные функции могут быть описаны в качестве набора трех параметров на частотный поддиапазон b _h HRTF. Этот набор параметров включает в себя средний уровень на полосу частот для левой передаточной функции, P _l(α, ε, D, b _h), средний уровень на полосу частот для правой передаточной функции, P _r(α, ε, D, b _h), среднюю разность фаз на полосу частот, ϕ(α, ε, D, b _h). Возможное расширение этого набора должно включать в себя меру когерентности левой и правой передаточных функций на полосу частот HRTF, ρ(α, ε, D, b _h). Эти параметры могут храниться в базе данных в качестве функции курсового угла, угла возвышения, расстояния и полосы частот и/или могут вычисляться с использованием некоторой аналитической функции. Например, параметры P _l и P _r могли бы храниться в качестве функции курсового угла или угла возвышения, наряду с тем, что влияние расстояния достигается делением этих значений на само расстояние (при условии соотношения 1/D между уровнем сигнала и расстоянием). В последующем, обозначение P _l(Lf) обозначает пространственный параметр P _l, соответствующий местоположению источника звука канала Lf.The transfer functions H _L and H _{R are} dependent on the azimuthal angle α, distance D and elevation angle ε (not shown in FIG. 6). In a parametric representation, the transfer functions can be described as a set of three parameters per frequency sub-band b _h HRTF. This set of parameters includes the average level per frequency band for the left transfer function, P _l (α, ε, D , b _h ), the average level per frequency band for the right transfer function, P _r (α, ε, D , b _h ), the average phase difference per frequency band, ϕ (α, ε, D , b _h ). A possible extension of this set should include a measure of the coherence of the left and right transfer functions to the HRTF, ρ (α, ε, D , b _h ) frequency band. These parameters can be stored in the database as a function of heading angle, elevation angle, distance and frequency band and / or can be calculated using some analytical function. For example, the parameters P _l and P _r could be stored as a function of the heading angle or elevation angle, along with the fact that the influence of the distance is achieved by dividing these values by the distance itself (provided that the ratio 1 / D between the signal level and the distance). Subsequently, the notation P _l ( Lf ) denotes the spatial parameter P _l corresponding to the location of the sound source of the channel Lf .

Должно быть отмечено, что количество частотных поддиапазонов для параметризации (b _h) HRTF и полоса пропускания для каждого поддиапазона не обязательно равны частотному разрешению гребенки (k) фильтров (QMF), используемой пространственным процессором 407, или разрешению пространственного параметра процессора 403 понижающего микширования и связанных диапазонов (b _p) параметров. Например, гребенка гибридных фильтров QMF может иметь 71 канал, HRTF может подвергаться параметризации в 28 полосах частот, а пространственное кодирование может выполняться с использованием 10 диапазонов параметров. В таких случаях отображение из пространственных параметров и параметров HRTF в гибридный индекс QMF может применяться, например, с использованием справочной таблицы, либо функции интерполяции, или усреднения. Следующие индексы параметров будут использоваться в описании:It should be noted that the number of frequency subbands for parameterization (b _h) HRTF and the bandwidth of each subband is not necessarily equal to the frequency resolution of the comb (k) filters (QMF), used by the spatial processor 407, or the resolution of the spatial parameter processor 403 downmix and associated ranges ( b _p ) of parameters . For example, a QMF hybrid filter bank may have 71 channels, HRTF may be parameterized in 28 frequency bands, and spatial coding may be performed using 10 parameter ranges. In such cases, the mapping from spatial parameters and HRTF parameters to a hybrid QMF index can be applied, for example, using a look-up table, or an interpolation function, or averaging. The following parameter indices will be used in the description:

ИндексIndex ОписаниеDescription bb _hh Индекс диапазона параметров для HRTFParameter Range Index for HRTF bb _pp Индекс диапазона параметров для многоканального понижающего микшированияParameter Range Index for Multichannel Downmix kk Гибридный индекс диапазона QMFQMF Hybrid Range Index

В отдельном примере пространственный процессор 407 разделяет первый стереосигнал на подходящие частотные поддиапазоны посредством фильтрации QMF. Для каждого поддиапазона значения L_B, R_B поддиапазона определяются в качестве:In a separate example, the spatial processor 407 divides the first stereo signal into suitable frequency subbands by QMF filtering. For each subband, the values of L _B , R _{B of the} subband are determined as:

,

где L₀, R₀ - соответствующие значения поддиапазона первого стереосигнала, а значения h_j,k матрицы - параметры, которые определены из параметров HRTF и связанных с понижающим микшированием параметрических данных.where L ₀ , R ₀ are the corresponding values of the subband of the first stereo signal, and the values of h _{j, k of the} matrix are the parameters that are determined from the HRTF parameters and associated with the down-mix of parametric data.

Коэффициенты матрицы нацелены на воспроизведение свойств понижающего микширования, как будто все отдельные каналы обрабатывались с помощью HRTF, соответствующих требуемому местоположению источника звука, и они включают в себя комбинированный результат декодирования многоканального сигнала и выполнения синтеза HRTF над таковым.The matrix coefficients are aimed at reproducing the down-mix properties, as if all the individual channels were processed using HRTFs corresponding to the desired location of the sound source, and they include the combined result of decoding the multi-channel signal and performing HRTF synthesis on it.

Более точно, со ссылкой на фиг.5 и ее описание, значения матрицы могут быть определены как:More precisely, with reference to figure 5 and its description, the values of the matrix can be defined as:

где m_k,l - параметры, определенные в ответ на параметрические данные, сформированные понижающим микшером 505 TTT.where m _{k, l} are parameters determined in response to the parametric data generated by the TT5 step-down mixer.

Более точно, сигналы L, R и C формируются из стереосигнала L₀, R₀ понижающего микширования согласно:More specifically, the signals L, R and C are formed from the stereo signal L ₀ , R ₀ down-mix according to:

,

где m_k,l зависимы от двух коэффициентов c₁ и c₂ предсказания, которые являются частью переданных пространственных параметров:where m _{k, l are} dependent on two prediction coefficients c ₁ and c ₂ , which are part of the transmitted spatial parameters:

.

Значения H_J(X) определяются в ответ на данные параметров HRTF для канала X в отношении стерео выходного канала J второго стереосигнала, а также надлежащие параметры понижающего микширования.The values of H _J (X) are determined in response to the HRTF parameter data for channel X regarding the stereo output channel J of the second stereo signal, as well as the appropriate downmix parameters.

Более точно, параметры H_J(X) относятся к левому (L) и правому (R) сигналам понижающего микширования, сформированным двумя понижающими микшерами 501, 503 TTO, и могут определяться в ответ на данные параметров HRTF для двух подвергнутых понижающему микшированию каналов. Более точно, может использоваться взвешенная комбинация параметров HRTF для двух отдельных левых (Lf и Ls) или правых (Rf и Rs) каналов. Отдельные параметры могут взвешиваться относительной энергией отдельных сигналов. В качестве отдельного примера следующие значения могут определяться для левого сигнала (L):More specifically, the parameters H _J (X) relate to the left (L) and right (R) downmix signals generated by the two TTO downmixers 501, 503 and can be determined in response to the HRTF parameter data for the two downmixed channels. More precisely, a weighted combination of HRTF parameters can be used for two separate left (Lf and Ls) or right (Rf and Rs) channels. Individual parameters can be weighted by the relative energy of individual signals. As a separate example, the following values can be determined for the left signal (L):

,

где веса w_x заданы согласно:where the weights w _{x are} given according to:

,

а CLD_l является 'перепадом уровней каналов' между левым фронтальным (Lf) и левым объемным (Ls), определенным в децибелах (каковой является частью потока битов пространственных параметров):and CLD _l is the 'channel level difference' between the left front (Lf) and left surround (Ls) defined in decibels (which is part of the spatial parameter bit stream):

,

с σ² _lf, мощностью в поддиапазоне параметров канала Lf, и σ² _ls, мощностью в соответствующем поддиапазоне канала Ls.with σ ² _lf , power in the sub-band of channel parameters Lf, and σ ² _ls , power in the corresponding sub-band of channel Ls.

Подобным образом, следующие значения могут быть определены для правого сигнала (R):Similarly, the following values can be determined for the right signal (R):

,

и для центрального (C) сигнала:and for the central (C) signal:

.

Таким образом, с использованием описанного подхода пространственная обработка с низкой сложностью может предоставлять бинауральному виртуальному пространственному сигналу возможность формироваться на основании подвергнутого понижающему микшированию многоканального сигнала.Thus, using the described approach, spatial processing with low complexity can provide the binaural virtual spatial signal with the opportunity to be formed on the basis of the down-mixed multi-channel signal.

Как упомянуто, преимущество описанного подхода состоит в том, что частотному поддиапазону связанных параметров понижающего микширования, пространственной обработке пространственным процессором 407 и параметрам HRTF не нужно быть теми же самыми. Например, может выполняться отображение между параметрами одного поддиапазона в поддиапазоны пространственной обработки. Например, если поддиапазон пространственной обработки покрывает интервал частот, соответствующий двум поддиапазонам параметров HRTF, пространственный процессор 407 может просто применять (индивидуальную) обработку к поддиапазонам параметров HRTF, используя один и тот же пространственный параметр для всех поддиапазонов параметров HRTF, которые соответствуют такому пространственному параметру.As mentioned, an advantage of the described approach is that the frequency sub-band of the associated down-mix parameters, spatial processing by the spatial processor 407, and HRTF parameters do not need to be the same. For example, a mapping may be performed between the parameters of one subband into subbands of spatial processing. For example, if the spatial processing subband covers a frequency range corresponding to two HRTF parameter subbands, the spatial processor 407 can simply apply (individual) processing to the HRTF parameter subbands using the same spatial parameter for all HRTF parameter subbands that correspond to that spatial parameter.

В некоторых вариантах осуществления кодировщик 309 может быть выполнен с возможностью включать данные местоположения источника звука, которые предоставляют декодеру возможность идентифицировать требуемые данные местоположения одного или более источников звука, в выходной поток. Это предоставляет декодеру возможность определять параметры HRTF, примененные кодировщиком 309, тем самым давая ему возможность реверсировать операцию пространственного процессора 407. Дополнительно или в качестве альтернативы, кодировщик может быть выполнен с возможностью включать, по меньшей мере, некоторые из данных параметров HRTF в выходной поток.In some embodiments, an encoder 309 may be configured to include location data of a sound source that enables a decoder to identify desired location data of one or more sound sources in an output stream. This allows the decoder to determine the HRTF parameters applied by the encoder 309, thereby enabling it to reverse the operation of the spatial processor 407. Additionally or alternatively, the encoder may be configured to include at least some of these HRTF parameters in the output stream.

Таким образом, по выбору, данные параметров HRTF и/или местоположения громкоговорителей могут быть включены в выходной поток. Это, например, может предоставить возможность динамического обновления данных местоположения громкоговорителя в качестве функции времени (в случае передачи местоположения громкоговорителя) или использования индивидуализированных данных HRTF (в случае передачи параметров HRTF).Thus, optionally, HRTF parameter data and / or speaker locations can be included in the output stream. This, for example, can provide the ability to dynamically update the speaker location data as a function of time (in the case of transmitting the speaker location) or using individualized HRTF data (in the case of transmitting HRTF parameters).

В случае, когда параметры HRTF передаются в качестве части потока битов, по меньшей мере, параметры P _l , P _r и ϕ могут передаваться для каждой полосы частот и для каждого местоположения источника звука. Параметры P _l, P _r амплитуды могут квантоваться с использованием квантователя или могут квантоваться в логарифмической области. Фазовые углы ϕ могут квантоваться линейным образом. Индексы квантователя затем могут включаться в поток битов.In the case where the HRTF parameters are transmitted as part of the bit stream, at least the parameters P _l , P _r and ϕ can be transmitted for each frequency band and for each location of the sound source. The amplitude parameters P _l , P _r can be quantized using a quantizer or can be quantized in the logarithmic region. Phase angles ϕ can be quantized linearly. Quantizer indices can then be included in the bitstream.

Более того, фазовые углы ϕ могут предполагаться нулевыми для частот, типично в окрестности 2,5 кГц, поскольку информация о (внутриушной) фазе неуместна в смысле восприятия для высоких частот.Moreover, the phase angles ϕ can be assumed to be zero for frequencies, typically in the vicinity of 2.5 kHz, since information about the (inside) phase is inappropriate in terms of perception for high frequencies.

После квантования различные схемы сжатия без потерь могут применяться к показателям квантователя параметров HRTF. Например, может применяться энтропийное кодирование, возможно, в сочетании с дифференциальным кодированием по полосам частот. В качестве альтернативы, параметры HRTF могут представляться в качестве разности относительно набора общих или средних параметров HRTF. Это поддерживается особенно для параметров амплитуды. В ином случае, фазовые параметры могут довольно точно аппроксимироваться простым кодированием угла возвышения и курсового угла. Посредством расчета разности времен поступления [типично разность времен поступления практически является частотно-зависимой; она главным образом зависит от курсового угла и угла возвышения], если задана разность траекторий до обоих ушей, могут выводиться соответствующие фазовые параметры. В дополнение к измерениям разности могут кодироваться дифференциальным образом в отношении предсказанных значений на основании значений курсового угла и угла возвышения.After quantization, various lossless compression schemes can be applied to the quantizer parameters of the HRTF parameters. For example, entropy coding may be used, possibly in combination with differential coding over frequency bands. Alternatively, HRTF parameters may be presented as a difference with respect to a set of general or average HRTF parameters. This is supported especially for amplitude parameters. Otherwise, the phase parameters can be approximated fairly accurately by simply coding the elevation angle and course angle. By calculating the difference in the arrival times [typically, the difference in the arrival times is practically frequency-dependent; it mainly depends on the heading angle and elevation angle], if the difference of the paths to both ears is given, the corresponding phase parameters can be displayed. In addition to the measurements, the differences can be differential encoded with respect to the predicted values based on the heading angle and elevation angle.

К тому же, могут применяться схемы сжатия без потерь, такие как принципиальное разложение на составляющие, сопровождаемое передачей нескольких наиболее важных весов PCA.In addition, lossless compression schemes may be used, such as the principal componentization, followed by the transfer of several of the most important PCA weights.

Фиг.7 иллюстрирует пример многоканального декодера в соответствии с некоторыми вариантами осуществления изобретения. Декодер, более точно, может быть декодером 315 по фиг.3.7 illustrates an example of a multi-channel decoder in accordance with some embodiments of the invention. The decoder, more precisely, may be the decoder 315 of FIG. 3.

Декодер 315 содержит входной приемник 701, который принимает выходной поток из кодировщика 309. Входной приемник 701 демультиплексирует принятый поток данных и выдает уместные данные в надлежащие функциональные элементы.Decoder 315 comprises an input receiver 701 that receives an output stream from an encoder 309. An input receiver 701 demultiplexes a received data stream and provides relevant data to the appropriate functional elements.

Входной приемник 701 присоединен к процессору 703 декодирования, в который подаются кодированные данные второго стереосигнала. Процессор 703 декодирования декодирует эти данные, чтобы формировать бинауральный виртуальный пространственный сигнал, вырабатываемый пространственным процессором 407.The input receiver 701 is connected to a decoding processor 703, into which encoded data of the second stereo signal is supplied. A decoding processor 703 decodes this data to generate a binaural virtual spatial signal generated by the spatial processor 407.

Процессор 703 декодирования присоединен к процессору 705 реверсирования, который выполнен с возможность реверсировать операцию, выполняемую пространственным процессором 407. Таким образом, процессор 705 реверсирования формирует подвергнутый понижающему микшированию стереосигнал, вырабатываемый процессором 403 понижающего микширования.The decoding processor 703 is coupled to the reversing processor 705, which is configured to reverse the operation performed by the spatial processor 407. Thus, the reversing processor 705 generates the downmixed stereo signal generated by the downmix processor 403.

Более точно, процессор 705 реверсирования формирует стереосигнал понижающего микширования применением матричного умножения к значениям поддиапазона принятого бинаурального виртуального пространственного сигнала. Матричное умножение происходит посредством матрицы, соответствующей обратной матрице от используемой пространственным процессором 407, тем самым реверсируя эту операцию:More specifically, the reversal processor 705 generates a downmix stereo signal by applying matrix multiplication to the subband values of the received binaural virtual spatial signal. Matrix multiplication occurs through a matrix corresponding to the inverse of the matrix used by the spatial processor 407, thereby reversing this operation:

.

Это матричное умножение также может быть описано в виде:This matrix multiplication can also be described as:

.

Коэффициенты q_k,l матрицы определяются из параметрических данных, связанных с сигналом понижающего микширования (и принимаемых в потоке данных из кодировщика 309), а также данных параметров HRTF. Более точно, подход, описанный со ссылкой на кодировщик 309, также может использоваться процессором 409 HRTF для формирования коэффициентов h_xy матрицы. Коэффициенты q_xy матрицы, в таком случае, могут быть найдены стандартным обращением матрицы.The coefficients q _{k, l of the} matrix are determined from the parametric data associated with the down-mix signal (and received in the data stream from the encoder 309), as well as HRTF parameter data. More specifically, the approach described with reference to encoder 309 can also be used by HRTF processor 409 to generate matrix coefficients h _xy . The coefficients q _{xy of the} matrix, in this case, can be found by standard matrix inversion.

Процессор 705 реверсирования присоединен к процессору 707 параметров, который определяет данные параметров HRTF, которые должны использоваться. Параметры HRTF, в некоторых вариантах осуществления, могут быть включены в принимаемый поток данных и могут просто извлекаться из него. В других вариантах осуществления разные параметры HRTF, например, могут храниться в базе данных для разных местоположений источников звука, и процессор 707 параметров может определять параметры HRTF, извлекая значения, соответствующие требуемому местоположению источника сигнала. В некоторых вариантах осуществления требуемое местоположение(я) источника сигнала может включаться в поток данных из кодировщика 309. Процессор 707 параметров может извлекать эту информацию и использовать ее для определения параметров HRTF. Например, он может извлекать параметры HRTF, хранимые для указания местоположения(ий) источника звука.A reverse processor 705 is coupled to a parameter processor 707, which determines the HRTF parameter data to be used. HRTF parameters, in some embodiments, may be included in the received data stream and may simply be retrieved from it. In other embodiments, different HRTF parameters, for example, can be stored in a database for different locations of sound sources, and parameter processor 707 can determine HRTF parameters by retrieving values corresponding to the desired location of the signal source. In some embodiments, the desired location (s) of the signal source may be included in the data stream from encoder 309. Parameter processor 707 may extract this information and use it to determine HRTF parameters. For example, it can retrieve HRTF parameters stored to indicate the location (s) of a sound source.

В некоторых вариантах осуществления стереосигнал, сформированный процессором реверсирования, может выводиться непосредственно. Однако в других вариантах осуществления он может подаваться в многоканальный декодер 709, который может формировать M-канальный сигнал из стереосигнала понижающего микширования и принятых параметрических данных.In some embodiments, the stereo signal generated by the reversal processor may be directly output. However, in other embodiments, it can be supplied to a multi-channel decoder 709, which can generate an M-channel signal from a stereo down-mix signal and received parametric data.

В примере, реверсирование 3-мерного бинаурального синтеза выполняется в области поддиапазонов, такой как в частотных поддиапазонах QMF или Фурье. Таким образом, процессор 703 декодирования может содержать гребенку фильтров QMF или быстрое преобразование Фурье (БПФ) для формирования образцов звучания поддиапазона, подаваемых в процессор 705 реверсирования. Подобным образом, процессор 705 реверсирования или многоканальный декодер 709 могут содержать гребенку фильтров обратного БПФ или QMF для преобразования сигналов обратно во временную область.In an example, 3-D binaural synthesis reversal is performed in a subband region, such as in the QMF or Fourier frequency subbands. Thus, the decoding processor 703 may comprise a comb of QMF filters or a fast Fourier transform (FFT) to form subband sound samples supplied to the reversing processor 705. Similarly, the reverse processor 705 or multi-channel decoder 709 may comprise a comb of inverse FFT or QMF filters to convert the signals back to the time domain.

Формирование 3-мерного бинаурального сигнала на стороне кодировщика предусматривает, чтобы впечатление пространственного прослушивания обеспечивалось для пользователя наушников традиционным стереокодировщиком. Таким образом, описанный подход обладает преимуществом, что унаследованные стереоустройства могут воспроизводить 3-мерный бинауральный сигнал. По существу, для того чтобы воспроизводить 3-мерные бинауральные сигналы, не нужно применяться никакой дополнительной постобработке, имея следствием решение низкой сложности.The generation of a 3-dimensional binaural signal on the encoder side provides that the impression of spatial listening is provided for the headphone user by a traditional stereo encoder. Thus, the described approach has the advantage that the inherited stereo devices can reproduce a 3-dimensional binaural signal. Essentially, in order to reproduce 3-dimensional binaural signals, no additional post-processing is necessary, resulting in a solution of low complexity.

Однако при таком подходе типично используется обобщенная HRTF, каковая, в некоторых случаях, может приводить к субоптимальному пространственному формированию по сравнению с формированием 3-мерного бинаурального сигнала в декодере, использующем специализированные данные HRTF, оптимизированные для определенного пользователя.However, this approach typically uses generalized HRTF, which, in some cases, can lead to suboptimal spatial formation compared to the generation of a 3D binaural signal in a decoder using specialized HRTF data optimized for a particular user.

Более точно, ограниченное восприятие расстояния и возможные погрешности определения местоположения источника звука иногда могут возникать из использования неиндивидуализированных HRTF (таких как импульсные характеристики, измеренные для имитатора головы или другой персоны). В принципе, HRTF отличаются от персоны к персоне вследствие различий в анатомической геометрии человеческого тела. Оптимальные результаты в показателях правильного определения местоположения источника звука, поэтому, могут лучше достигаться с данными индивидуализированной HRTF.More precisely, limited perception of distance and possible errors in determining the location of a sound source can sometimes arise from the use of non-individualized HRTFs (such as impulse responses measured for a head simulator or other person). In principle, HRTFs differ from person to person due to differences in the anatomical geometry of the human body. Optimal results in terms of correct positioning of the sound source, therefore, can be better achieved with individualized HRTF data.

В некоторых вариантах осуществления декодер 315, кроме того, содержит функциональные возможности, сначала для реверсирования пространственной обработки кодировщика 309, сопровождаемой формированием 3-мерного бинаурального сигнала с использованием данных локальной HRTF, более точно, с использованием данных индивидуальной HRTF, оптимизированных для определенного пользователя. Таким образом, в этом варианте осуществления декодер 315 формирует пару бинауральных выходных каналов модифицированием подвергнутого понижающему микшированию стереосигнала с использованием связанных параметрических данных и данных параметров HRTF, которые являются иными, чем данные (HRTF), используемые в кодировщике 309. Отсюда при этом подходе предусмотрено сочетание 3-мерного синтеза на стороне кодировщика, обращения на стороне декодера, сопровождаемого еще одной стадией 3-мерного синтеза на стороне декодера.In some embodiments, the decoder 315 further comprises functionality, first for reversing the spatial processing of the encoder 309, accompanied by generation of a 3D binaural signal using local HRTF data, more specifically, using individual HRTF data optimized for a particular user. Thus, in this embodiment, the decoder 315 generates a pair of binaural output channels by modifying the down-mixed stereo signal using the associated parametric data and HRTF parameter data, which are other than the HRTF data used in encoder 309. From this approach, a combination is provided 3D synthesis on the encoder side, accessing on the decoder side, followed by another stage of 3D synthesis on the decoder side.

Преимущество такого подхода состоит в том, что унаследованные стереоустройства будут иметь 3-мерные бинауральные сигналы в качестве выходных сигналов с обеспечением базового 3-мерного качества, наряду с тем, что усовершенствованные декодеры имеют возможность использовать персонифицированные HRTF, дающие возможность улучшенного 3-мерного качества. Таким образом, совместимый с унаследованным 3-мерный синтез, а также высококачественный специализированный 3-мерный синтез задействуются в одной и той же аудиосистеме.The advantage of this approach is that the inherited stereo devices will have 3-dimensional binaural signals as output signals providing basic 3-dimensional quality, while advanced decoders have the ability to use personalized HRTFs, enabling improved 3-dimensional quality. Thus, legacy 3-D synthesis, as well as high-quality specialized 3-D synthesis, are used in the same audio system.

Простой пример такой системы проиллюстрирован на фиг.8, которая показывает, каким образом дополнительный пространственный процессор 801 может быть добавлен в декодер по фиг.7, чтобы выдавать настроенный под требования заказчика 3-мерный бинауральный выходной сигнал. В некоторых вариантах осуществления пространственный процессор 801 может предусматривать только простой прямой 3-мерный бинауральный синтез с использованием индивидуальных функций HRTF для каждого из аудиоканалов. Таким образом, декодер может воссоздавать исходный многоканальный сигнал и преобразовывать таковой в 3-мерный бинауральный сигнал с использованием настроенной под требования заказчика фильтрации HRTF.A simple example of such a system is illustrated in FIG. 8, which shows how an additional spatial processor 801 can be added to the decoder of FIG. 7 to provide a custom 3-dimensional binaural output signal. In some embodiments, the spatial processor 801 may provide only a simple direct 3-dimensional binaural synthesis using individual HRTF functions for each of the audio channels. Thus, the decoder can recreate the original multi-channel signal and convert it into a 3-dimensional binaural signal using HRTF filtering configured to customer requirements.

В других вариантах осуществления обращение синтеза кодировщика и синтеза декодера могут комбинироваться для обеспечения операции низкой сложности. Более точно, индивидуализированные HRTF, используемые для синтеза декодера, могут подвергаться параметризации и объединяться с (обращенными) параметрами, используемыми 3-мерным синтезом кодировщика.In other embodiments, the implementation of the inverse synthesis of the encoder and synthesis of the decoder can be combined to provide operations of low complexity. More specifically, the individualized HRTFs used to synthesize the decoder can be parameterized and combined with (inverted) parameters used by the 3D encoder synthesis.

Еще точнее, как описано ранее, синтез кодировщика включает в себя умножение стереообразцов звучания поддиапазона подвергнутых понижающему микшированию сигналов на матрицу 2×2:More precisely, as described previously, the synthesis of the encoder involves multiplying stereo samples of the sound of the subband down-mixed signals by a 2 × 2 matrix:

,

где L₀, R₀ - соответствующие значения поддиапазона подвергнутого понижающему микшированию стереосигнала, а значения h_j,k матрицы - параметры, которые определены из параметров HRTF и связанных с понижающим микшированием параметрических данных, как описано ранее.where L ₀ , R ₀ are the corresponding subband values of the stereo down-mixed stereo signal, and the matrix values h _{j, k} are the parameters that are determined from the HRTF parameters and the parametric data associated with the down-mixing, as described previously.

Реверсирование, выполняемое процессором 705 реверсирования, в таком случае может быть задано посредством:The reversal performed by the reverse processor 705 may then be specified by:

,

где L_B, R_B - соответствующие значения поддиапазона подвергнутого понижающему микшированию декодером стереосигнала.where L _B , R _B are the corresponding sub-band values of the down-mixed stereo decoder.

Чтобы гарантировать надлежащую последовательность операций обращения на стороне декодера, параметры HRTF, используемые в кодировщике для формирования 3-мерного бинаурального сигнала, и параметры HRTF, используемые для обращения 3-мерной бинауральной обработки, идентичны или в достаточной мере подобны. Поскольку один поток битов обычно обслуживает несколько декодеров, персонификация 3-мерного бинаурального понижающего микширования трудна для получения посредством синтеза кодировщика.In order to guarantee the proper sequence of accesses on the decoder side, the HRTF parameters used in the encoder to generate the 3D binaural signal and the HRTF parameters used for reversing the 3D binaural processing are identical or sufficiently similar. Since a single bitstream typically serves multiple decoders, the personification of 3D binaural downmix is difficult to obtain through encoder synthesis.

Однако, поскольку последовательность операций 3-мерного бинаурального синтеза обратима, процессор 705 реверсирования регенерирует подвергнутый понижающему микшированию стереосигнал, который затем используется для формирования 3-мерного бинаурального сигнала на основании индивидуализированных HRTF.However, since the 3-D binaural synthesis process is reversible, the reverse processor 705 regenerates the down-mixed stereo signal, which is then used to generate the 3-dimensional binaural signal based on individualized HRTFs.

Более точно, по аналогии с операцией в кодировщике 309, 3-мерный бинауральный синтез в декодере 315 может формироваться простой, связанной с поддиапазонами матричной 2×2 операцией над сигналом L₀, R₀ понижающего микширования для формирования 3-мерного бинаурального сигнала L_B', R_B':More precisely, by analogy with the operation in encoder 309, a 3-dimensional binaural synthesis in decoder 315 can be formed by a simple 2 × 2 matrix operation associated with subbands on a downmix signal L ₀ , R ₀ to generate a 3-dimensional binaural signal L _{B '} , R _{B '} :

,

где параметры p_x,y определяются на основании индивидуализированных HRTF таким же образом, как h_x,y формируются кодировщиком 309 на основании общей HRTF. Более точно, в кодировщике 309 параметры h_x,y определяются из многоканальных параметрических данных и общих HRTF. Так как многоканальные параметрические данные передаются в декодер 315, такой же подход может использоваться таковым для расчета p_x,y на основании индивидуальных HRTF.where the parameters p _{x, y are} determined based on individualized HRTFs in the same way that h _{x, y} are generated by the encoder 309 based on the overall HRTF. More specifically, in encoder 309, the parameters h _{x, y are} determined from multichannel parametric data and common HRTFs. Since multichannel parametric data is transmitted to decoder 315, the same approach can be used as such to calculate p _{x, y} based on individual HRTFs.

Объединение этого с операцией процессора 705 реверсированияCombining this with the operation of the reverse processor 705

.

В этом уравнении элементы h_x,y матрицы получены с использованием общего неиндивидуализированного набора HRTF, используемого в кодировщике, наряду с тем, что p_x,y получены с использованием другого и предпочтительно персонифицированного набора HRTF. Отсюда 3-мерный бинауральный входной сигнал L_B, R_B, сформированный с использованием данных неиндивидуализированных HRTF, преобразуется в альтернативный 3-мерный бинауральный выходной сигнал L_B', R_B' с использованием других данных персонифицированных HRTF.In this equation _, matrix elements h _{x, y} are obtained using the common non-individualized HRTF set used in the encoder, while p _{x, y are} obtained using another and preferably personalized HRTF set. From here, the 3-dimensional binaural input signal L _B , R _B generated using non-individualized HRTF data is converted to an alternative 3-dimensional binaural output signal L _{B '} , R _B' using other personalized HRTF data.

Более того, как проиллюстрировано, комбинированный подход обращения синтеза кодировщика и синтеза декодера может достигаться простой матричной 2×2 операцией. Отсюда вычислительная сложность комбинированной последовательности операций, фактически, является такой же, как для простого 3-мерного бинаурального обращения.Moreover, as illustrated, the combined approach of inverting encoder synthesis and decoder synthesis can be achieved with a simple 2 × 2 matrix operation. Hence, the computational complexity of the combined sequence of operations is, in fact, the same as for simple 3-dimensional binaural handling.

Фиг.9 иллюстрирует пример декодера 315, работающего в соответствии с вышеописанными принципами. Более точно, стереообразцы звучания поддиапазона 3-мерного бинаурального стереосигнала понижающего микширования из кодировщика 309 подаются в процессор 705 реверсирования, который формирует исходные стереообразцы звучания понижающего микширования посредством матричной 2×2 операции.9 illustrates an example of a decoder 315 operating in accordance with the above principles. More specifically, the stereo samples of the subband sound of the 3-D binaural stereo down-mix stereo signal from the encoder 309 are supplied to a reversing processor 705, which generates the original stereo samples of the down-mix sound through a 2 × 2 matrix operation.

.

Результирующие образцы звучания поддиапазона подаются в блок 901 пространственного синтеза, который формирует индивидуализированный 3-мерный бинауральный сигнал умножением этих образцов звучания на матрицу 2×2.The resulting subband sound samples are supplied to spatial synthesis unit 901, which generates an individualized 3-dimensional binaural signal by multiplying these sound samples by a 2 × 2 matrix.

.

Коэффициенты матрицы формируются блоком (903) преобразования параметров, который формирует параметры на основании индивидуализированной HRTF и данных многоканального расширения, принятых из кодировщика 309.Matrix coefficients are generated by a parameter conversion unit (903), which generates parameters based on an individualized HRTF and multi-channel extension data received from encoder 309.

Образцы L_B', R_B' звучания поддиапазона синтеза подаются на преобразование 905 из области поддиапазонов во временную область, которое формирует 3-мерные бинауральные сигналы во временной области, которые могут выдаваться пользователю.Samples of the synthesis subband sound L _{B ′} , R _{B ′} are fed to a transform 905 from the subband region to the time domain, which generates 3-dimensional binaural signals in the time domain that can be provided to the user.

Хотя фиг.9 иллюстрирует этапы 3-мерного обращения на основании неиндивидуализированных HRTF и 3-мерного синтеза на основании индивидуализированных HRTF в качестве последовательных операций посредством разных функциональных блоков, будет приниматься во внимание, что во многих вариантах осуществления эти операции применяются одновременно применением единственной матрицы. Более точно рассчитывается матрица 2×2Although FIG. 9 illustrates the steps of 3-D inversion based on non-individualized HRTFs and 3-D synthesis based on individualized HRTFs as sequential operations through different function blocks, it will be appreciated that in many embodiments these operations are applied simultaneously using a single matrix. The 2 × 2 matrix is more accurately calculated

,

и выходные образцы звучания рассчитываются в видеand output sound samples are calculated as

.

Будет приниматься во внимание, что описанная система предоставляет некоторое количество преимуществ, в том числе:It will be appreciated that the described system provides a number of advantages, including:

- никакого или несущественное ухудшение качества (восприятия) многоканальной реконструкции, так как пространственная стереофоническая обработка может реверсироваться в многоканальных декодерах;- no or insignificant deterioration in the quality (perception) of multichannel reconstruction, since spatial stereo processing can be reversed in multichannel decoders;

- (3-мерное) бинауральное стереофоническое впечатление может обеспечиваться даже традиционными стереодекодерами;- (3-dimensional) binaural stereo impression can be provided even by traditional stereo decoders;

- пониженная сложность по сравнению с существующими способами пространственного позиционирования. Сложность понижается некоторым количеством способов:- reduced complexity compared to existing methods of spatial positioning. Difficulty is reduced in a number of ways:

- эффективное хранение параметров HRTF. Вместо хранения импульсных характеристик HRTF, всего лишь ограниченное количество параметров используется, чтобы характеризовать HRTF;- efficient storage of HRTF parameters. Instead of storing the impulse characteristics of HRTF, only a limited number of parameters are used to characterize HRTF;

- эффективная 3-мерная обработка. Поскольку HRTF характеризуются в качестве параметров при ограниченном частотном разрешении, и применение параметров HRTF выполняется в области (сильно дискретизированных с понижением частоты) параметров, стадия пространственного синтеза более эффективна, чем традиционные способы синтеза, основанные на полной свертке HRTF;- effective 3-dimensional processing. Since HRTFs are characterized as parameters at a limited frequency resolution, and HRTF parameters are applied in the region of (strongly discretized with decreasing frequency) parameters, the spatial synthesis stage is more efficient than traditional synthesis methods based on full HRTF convolution;

- требуемая обработка может выполняться, например, в области QMF, давая в результате меньшую вычислительную и относящуюся к памяти нагрузку, чем основанные на БПФ способы;- the required processing can be performed, for example, in the QMF domain, resulting in less computational and memory related load than FFT based methods;

- эффективное повторное использование существующих блоков построения объемного звука (таких как стандартные функциональные возможности кодирования/декодирования объемного звука MPEG), предоставляющее возможность минимальной сложности реализации;- effective reuse of existing surround sound building blocks (such as standard MPEG surround sound encoding / decoding functionality), providing the possibility of minimal implementation complexity;

- возможность персонификации посредством модифицирования данных (параметризованной) HRTF, передаваемых кодировщиком;- the possibility of personification by modifying the data (parameterized) HRTF transmitted by the encoder;

- местоположения источников звука могут меняться на лету согласно передаваемой информации о местоположении.- locations of sound sources can change on the fly according to the transmitted location information.

Фиг.10 иллюстрирует способ кодирования аудиосигнала в соответствии с некоторыми вариантами осуществления изобретения.10 illustrates an audio coding method in accordance with some embodiments of the invention.

Способ начинается на этапе 1001, на котором принимается M-канальный аудиосигнал (M>2).The method begins at step 1001, which receives the M-channel audio signal (M> 2).

Этап 1001 сопровождается этапом 1003, на котором M-канальный аудиосигнал подвергается понижающему микшированию в первый стереосигнал и связанные параметрические данные.Step 1001 is followed by step 1003, in which the M-channel audio signal is down-mixed into the first stereo signal and the associated parametric data.

Этап 1003 сопровождается этапом 1005, на котором первый стереосигнал модифицируется, чтобы сформировать второй стереосигнал, в ответ на связанные параметрические данные и данные пространственных параметров функции моделирования восприятия звука человеком (HRTF). Второй стереосигнал является бинауральным виртуальным пространственным сигналом.Step 1003 is followed by step 1005, in which the first stereo signal is modified to form a second stereo signal, in response to the associated parametric data and spatial parameter data of the human sound perception modeling function (HRTF). The second stereo signal is a binaural virtual spatial signal.

Этап 1005 сопровождается этапом 1007, на котором второй стереосигнал кодируется, чтобы сформировать кодированные данные.Step 1005 is followed by step 1007, in which a second stereo signal is encoded to generate encoded data.

Этап 1007 сопровождается этапом 1009, на котором формируется выходной поток данных, содержащий кодированные данные и связанные параметрические данные.Step 1007 is followed by step 1009, which generates an output data stream containing encoded data and associated parametric data.

Способ начинается на этапе 1101, на котором декодер принимает входные данные, содержащие первый стереосигнал и параметрические данные, связанные с подвергнутым понижающему микшированию стереосигналом M-канального аудиосигнала, где M>2. Первый стереосигнал является бинауральным виртуальным пространственным сигналом.The method begins at step 1101, in which the decoder receives input data containing the first stereo signal and parametric data associated with the down-mixed stereo signal of the M-channel audio signal, where M> 2. The first stereo signal is a binaural virtual spatial signal.

Этап 1101 сопровождается этапом 1103, на котором первый стереосигнал модифицируется, чтобы сформировать подвергнутый понижающему микшированию стереосигнал, в ответ на параметрические данные и данные пространственных параметров функции моделирования восприятия звука человеком (HRTF), связанные с первым стереосигналом.Step 1101 is followed by step 1103 in which the first stereo signal is modified to form a down-mixed stereo signal in response to parametric data and spatial parameter data of a human sound perception modeling function (HRTF) associated with the first stereo signal.

Этап 1103 сопровождается необязательным этапом 1105, на котором формируется M-канальный аудиосигнал в ответ на подвергнутый понижающему микшированию стереосигнал и параметрические данные.Step 1103 is followed by optional step 1105, in which an M-channel audio signal is generated in response to the down-mixed stereo signal and parametric data.

Будет приниматься во внимание, что вышеприведенное описание, для ясности, описывало варианты осуществления изобретения со ссылкой на разные функциональный блоки и процессоры. Однако будет очевидно, что может использоваться любое подходящее распределение функциональных возможностей между разными функциональными блоками или процессорами, не умаляя изобретения. Например, функциональные возможности, проиллюстрированные выполняемыми отдельными процессорами или контроллерами, могут выполняться одним и тем же процессором или контроллерами. Отсюда ссылки на определенные функциональные блоки должны рассматриваться скорее только в качестве ссылок на пригодное средство для предоставления описанных функциональных возможностей, чем указывающими на строгую логическую или физическую структуру или организацию.It will be appreciated that the foregoing description, for clarity, described embodiments of the invention with reference to different function blocks and processors. However, it will be apparent that any suitable distribution of functionality between different functional units or processors can be used without detracting from the invention. For example, the functionality illustrated by executing separate processors or controllers may be performed by the same processor or controllers. Hence, references to certain functional blocks should be considered only as references to a suitable means for providing the described functionality, rather than indicating a strict logical or physical structure or organization.

Изобретение может быть реализовано в любом пригодном виде, включая аппаратные средства, программное обеспечение, аппаратно-реализованное программное обеспечение или комбинацию таковых. Изобретение, по выбору, может быть реализовано, по меньшей мере частично, в качестве компьютерного программного обеспечения, работающего на одном или более процессоров данных и/или цифровых сигнальных процессоров. Элементы и компоненты варианта осуществления изобретения могут быть реализованы физически, функционально и логически любым подходящим образом. Действительно, функциональные возможности могут быть реализованы в одиночном блоке, множестве блоков или в качестве части других функциональных блоков. По существу, изобретение может быть реализовано в одиночном блоке, или может быть физически или функционально распределено между разными блоками и процессорами.The invention may be implemented in any suitable form, including hardware, software, hardware-implemented software, or a combination thereof. The invention, optionally, may be implemented, at least in part, as computer software running on one or more data processors and / or digital signal processors. The elements and components of an embodiment of the invention may be implemented physically, functionally, and logically in any suitable manner. Indeed, the functionality may be implemented in a single block, multiple blocks, or as part of other functional blocks. Essentially, the invention may be implemented in a single unit, or may be physically or functionally distributed between different units and processors.

Хотя настоящее изобретение было описано в связи с некоторыми вариантами осуществления, оно не подразумевается ограниченным отдельными формами, изложенными в материалах настоящей заявки. Вернее, объем настоящего изобретения ограничен только прилагаемой формулой изобретения. Дополнительно, хотя признак может фигурировать описанным в связи с конкретными вариантами осуществления, специалист в данной области техники будет осознавать, что различные признаки описанных вариантов осуществления могут комбинироваться в соответствии с изобретением. В формуле изобретения термин 'содержит' не исключают присутствия других элементов или этапов.Although the present invention has been described in connection with certain embodiments, it is not intended to be limited to the individual forms set forth in the materials of this application. Rather, the scope of the present invention is limited only by the attached claims. Additionally, although a feature may be described as described in connection with specific embodiments, one skilled in the art will recognize that various features of the described embodiments may be combined in accordance with the invention. In the claims, the term “comprises” does not exclude the presence of other elements or steps.

Более того, хотя и перечислены в отдельности, множество средств, элементов или этапов способа могут быть реализованы, например, одиночным блоком или процессором. Дополнительно, хотя отдельные признаки могут быть включены в разные пункты формулы изобретения, таковые могут комбинироваться преимущественным образом, как только возможно, а включение в разные пункты формулы изобретения не подразумевает, что комбинация признаков не является выполнимой и/или полезной. К тому же, включение признака в одну категорию формулы изобретения не предполагает ограничения этой категорией, а скорее указывает, что признак равным образом применим к категориям другого пункта формулы изобретения надлежащим образом. Более того, очередность признаков в формуле изобретения не подразумевает никакого определенного порядка, в котором признаки должны обрабатываться, и, в частности, очередность отдельных этапов в пункте формулы изобретения о способе не подразумевает, что этапы должны выполняться в этой очередности. Вернее, этапы могут выполняться в любом подходящем порядке. В дополнение, упоминания в единственном числе не исключают множественности. Выражения единственного числа, 'первый', 'второй' и т.п. не устраняют множественности. Символы ссылок в пунктах формулы изобретения предусмотрены только в качестве проясняющих примеров, которые не должны трактоваться в качестве ограничивающих объем формулы изобретения каким бы то ни было образом.Moreover, although they are listed separately, many means, elements or steps of the method can be implemented, for example, by a single unit or processor. Additionally, although individual features may be included in different claims, they can be combined advantageously as soon as possible, and inclusion in different claims does not imply that a combination of features is not feasible and / or useful. In addition, the inclusion of a feature in one category of the claims does not imply a restriction to this category, but rather indicates that the feature is equally applicable to the categories of the other claims. Moreover, the sequence of features in the claims does not imply any particular order in which the features should be processed, and, in particular, the sequence of individual steps in a claim of a method does not imply that steps should be performed in that order. Rather, the steps can be performed in any suitable order. In addition, singular references do not exclude plurality. Singular expressions, 'first', 'second', etc. do not eliminate pluralities. The reference symbols in the claims are provided only as clarifying examples, which should not be construed as limiting the scope of the claims in any way.

Claims

1. An audio encoder comprising:
- means (401) for receiving an M-channel audio signal, where M>2;
- down-mix means (403) for down-mixing the M-channel audio signal into a first stereo signal and associated parametric data;
- forming means (407) for modifying the first stereo signal in order to generate a second stereo signal in response to associated parametric data and spatial parameter data indicating a binaural perception transfer function, the second stereo signal being a binaural signal;
- means (411) for encoding the second stereo signal to generate encoded data and
- output means (413) for generating an output data stream containing encoded data and associated parametric data.

2. The encoder according to claim 1, wherein the generating means (407) is configured to generate a second stereo signal by calculating subband data values for the second stereo signal in response to associated parametric data, spatial parameter data, and subband data values for the first stereo signal.

3. The encoder according to claim 2, wherein the generating means (407) is configured to generate subband values for the first subband of the second stereo signal in response to multiplying the corresponding stereo values of the subband for the first stereo signal by the matrix of the first subband; wherein the generating means (407) further comprises parameter means for determining matrix data values of the first subband in response to the associated parametric data and spatial parameter data for the first subband.

4. The encoder according to claim 3, wherein the generating means (407) further comprises means for converting the data value of at least one of the first stereo signal, related parametric data and spatial parameter data associated with a subband containing a frequency interval other than the interval of the first subband into the corresponding data value for the first subband.

5. The encoder according to claim 3, in which the means (407) of the formation is configured to determine the stereo values L _B , R _{B of the} subband for the first subband of the second stereo signal essentially as:

,
wherein L ₀ , R ₀ are the corresponding values of the subband of the first stereo signal, and the parameter tool is configured to determine the data values of the multiplication matrix essentially as:
h ₁₁ = m ₁₁ H _L (L) + m ₂₁ H _L (R) + m ₃₁ H _L (C);
h ₁₂ = m ₁₂ H _L (L) + m ₂₂ H _L (R) + m ₃₂ H _L (C);
h ₂₁ = m ₁₁ H _R (L) + m ₂₁ H _R (R) + m ₃₁ H _R (C);
h ₂₂ = m ₁₂ H _R (L) + m ₂₂ H _R (R) + m ₃₂ H _R (C),
where m _{k, l} are parameters determined in response to the associated parametric data for downmixing by means of downmixing channels L, R and C into the first stereo signal; a H _j (X) is determined in response to the spatial parameter data for channel X with respect to the output channel J of the second stereo signal.

6. The encoder according to claim 5, in which at least one of the channels L and R corresponds to the down-mix of at least two down-mix channels, and the parameter means is configured to determine H _j (X) in response to a weighted combination of spatial parameter data for at least two downmixed channels.

7. The encoder according to claim 6, in which the parameter means is configured to determine the weighting of the spatial parameters for at least two downmix channels in response to a relative measure of energy for the at least two downmix channels.

8. The encoder according to claim 1, in which the data of the spatial parameters include at least one parameter selected from the group consisting of:
- mid-range parameter for the sub-range;
- parameter of the average time of receipt;
- phases of at least one stereo channel;
- time reference parameter;
- group delay parameter;
- phases between stereo channels and
- parameter cross-correlation of channels.

9. The encoder according to claim 1, wherein the output means (413) is configured to include location data of the sound source in the output stream.

10. The encoder according to claim 1, wherein the output means (413) is configured to include at least some spatial parameter data in the output stream.

11. The encoder according to claim 1, further comprising means (409) for determining the spatial parameter data in response to the desired locations of the audio signal.

12. An audio decoder comprising:
- means (701, 703) for receiving input data containing the first stereo signal and parametric data associated with the down-mixed stereo signal of the M-channel audio signal, where M> 2, the first stereo signal being a binaural signal corresponding to the M-channel audio signal;
- forming means (705) for modifying the first stereo signal in order to generate the down-mixed stereo signal in response to the parametric data and the first spatial parameter data indicating a transfer function of binaural perception, wherein the first spatial parameter data is associated with the first stereo signal.

13. The decoder according to claim 12, further comprising means (709) for generating the M-channel audio signal in response to the down-mixed stereo signal and parametric data.

14. The decoder of claim 12, wherein the generating means (705) is configured to generate the down-mixed stereo signal by calculating the sub-band data values for the down-mixed stereo signal in response to the associated parametric data, the first spatial parameter data and the sub-band data values for the first stereo signal.

15. The decoder of claim 14, wherein the generating means (705) is configured to generate subband values for the first subband of the stereo down-mixed stereo signal in response to multiplying the corresponding stereo subband values for the first stereo signal by the first subband matrix; moreover, the means (705) formation further comprises a means of parameters for determining the data values of the matrix of the first subband in response to parametric data and parameter data of the binaural perception transfer function for the first subband.

16. The decoder of claim 12, wherein the input data comprises at least some of the first spatial parameter data.

17. The decoder according to claim 12, in which the input data contains the location data of the sound source and the decoder comprises means (707) for determining the first spatial parameter data in response to the location data of the sound source.

18. The decoder of claim 12, further comprising:
- a spatial decoder unit (709, 801) for generating a pair of binaural output channels by modifying the first stereo signal in response to the associated parametric data and second spatial parameter data indicating a second transfer function of binaural perception, the second spatial parameter data being different from the first spatial parameter data.

19. The decoder of claim 18, wherein the spatial decoder unit (709, 801) comprises:
- block (903) converting parameters for converting parametric data into binaural synthesis parameters using the second spatial parameter data and
- spatial synthesis unit (901) for synthesizing a pair of binaural channels using binaural synthesis parameters and a first stereo signal.

20. The decoder according to claim 19, in which the binaural synthesis parameters contain matrix coefficients for a 2 by 2 matrix that determines the ratio of stereo samples of the stereo signal down-mixed to stereo samples of a pair of binaural output channels.

21. The decoder according to claim 19, in which the binaural synthesis parameters comprise matrix coefficients for a 2 by 2 matrix defining the ratio of stereo samples of the subband of the first stereo signal to stereo samples of a pair of binaural output channels.

22. A method of encoding an audio signal, wherein the method is that:
- receive (1001) M-channel audio signal, where M>2;
- carry out down-mixing (1003) of the M-channel audio signal to the first stereo signal and the associated parametric data;
- modify (1005) the first stereo signal to generate a second stereo signal in response to the associated parametric data and spatial parameter data indicating a transfer function of binaural perception, the second stereo signal being a binaural signal;
- encode (1007) the second stereo signal to generate encoded data and
- form (1009) the output data stream containing encoded data and associated parametric data.

23. A method for decoding an audio signal, wherein the method is that:
- receive (1101) input data containing the first stereo signal and parametric data related to the down-mixed stereo signal of the M-channel audio signal, where M> 2, the first stereo signal being a binaural signal corresponding to the M-channel audio signal; and
- modify (1103) the first stereo signal to generate subjected to down-mixing stereo signal in response to parametric data and spatial parameter data indicating the transfer function of binaural perception, and the spatial parameter data is associated with the first stereo signal.

24. A receiver for receiving an audio signal comprising:
- means (701, 703) for receiving input data containing the first stereo signal and parametric data associated with the down-mixed stereo signal of the M-channel audio signal, where M> 2, the first stereo signal being a binaural signal corresponding to the M-channel audio signal; and
- forming means (705) for modifying the first stereo signal to form a down-mixed stereo signal in response to parametric data and spatial parameter data indicating a binaural perception transfer function, wherein the spatial parameter data is associated with the first stereo signal.

25. A transmitter (1101) for transmitting an output data stream, the transmitter comprising:
- means (401) for receiving an M-channel audio signal, where M>2;
- down-mix means (403) for down-mixing the M-channel audio signal into a first stereo signal and associated parametric data;
- forming means (407) for modifying the first stereo signal in order to generate a second stereo signal in response to associated parametric data and spatial parameter data indicating a binaural perception transfer function, the second stereo signal being a binaural signal;
- means (411) for encoding the second stereo signal in order to generate encoded data;
- output means (413) for generating an output data stream containing encoded data and associated parametric data; and
- means (311) for transmitting the output data stream.

26. A transmission system for transmitting an audio signal, wherein the transmission system comprises:
- a transmitter containing:
- means (401) for receiving an M-channel audio signal, where M> 2,
- down-mix means (403) for down-mixing the M-channel audio signal into a first stereo signal and associated parametric data,
- forming means (407) for modifying the first stereo signal in order to generate a second stereo signal in response to associated parametric data and spatial parameter data indicating a binaural perception transfer function, the second stereo signal being a binaural signal,
- means (411) for encoding the second stereo signal in order to generate encoded data,
- output means (413) for generating an output audio data stream comprising encoded data and associated parametric data, and
- means (311) for transmitting the output audio stream; and
- a receiver containing:
- means (701, 703) for receiving the output stream of audio data and
- means (705) for modifying the second stereo signal in order to generate a first stereo signal in response to parametric data and spatial parameter data.

27. The method of receiving an audio signal, the method is that:
- receive (1101) input data containing the first stereo signal and parametric data related to the down-mixed stereo signal of the M-channel audio signal, where M> 2, the first stereo signal being a binaural signal corresponding to the M-channel audio signal; and
- modify (1103) the first stereo signal to generate subjected to down-mixing stereo signal in response to parametric data and spatial parameter data indicating the transfer function of binaural perception, and the spatial parameter data is associated with the first stereo signal.

28. The method of transmitting the output stream of audio data, the method is that:
- receive (1001) M-channel audio signal, where M>2;
- carry out down-mixing (1003) of the M-channel audio signal to the first stereo signal and the associated parametric data;
- modify (1005) the first stereo signal to generate a second stereo signal in response to the associated parametric data and spatial parameter data indicating a transfer function of binaural perception, the second stereo signal being a binaural signal;
- encode (1007) the second stereo signal to generate encoded data and
- form (1009) the output audio data stream containing encoded data and associated parametric data; and
- transmit the output stream of audio data.

29. A method for transmitting and receiving an audio signal, wherein the method is that:
- receive (1001) M-channel audio signal, where M>2;
- carry out down-mixing (1003) of the M-channel audio signal to the first stereo signal and the associated parametric data;
- modify (1005) the first stereo signal to generate a second stereo signal in response to the associated parametric data and spatial parameter data indicating a transfer function of binaural perception, the second stereo signal being a binaural signal;
- encode (1007) the second stereo signal to generate encoded data and
- form (1009) the output audio data stream containing encoded data and associated parametric data;
- transmit the output stream of audio data;
- receive (1101) the output stream of audio data and
- modify (1103) the second stereo signal to generate the first stereo signal in response to parametric data and spatial parameter data.

30. A computer-readable storage medium on which computer-executable instructions are stored which, when executed by a processor, cause the computer to implement the method of claim 22.

31. A computer-readable storage medium on which computer-executable instructions are stored which, when executed by a processor, cause the computer to implement the method of claim 23.

32. A computer-readable storage medium on which computer-executable instructions are stored which, when executed by a processor, cause the computer to implement the method of claim 27.

33. A computer-readable storage medium on which computer-executable instructions are stored that, when executed by a processor, cause the computer to implement the method of claim 28.

34. An audio recording device comprising an encoder (309) according to claim 1.

35. The audio playback device containing a decoder (315) according to item 12.