RU2779295C2

RU2779295C2 - Processing of monophonic signal in 3d-audio decoder, providing binaural information material

Info

Publication number: RU2779295C2
Application number: RU2020121890A
Authority: RU
Inventors: Грегори ПАЛЛОН
Original assignee: Оранж
Priority date: 2017-12-19
Filing date: 2018-12-07
Publication date: 2022-09-05

Abstract

FIELD: audio processing.

SUBSTANCE: invention relates to a method for processing of a monophonic signal in a 3D audio decoder, including a processing stage for binauralization of decoded signals intended for spatial playback by a headset. The method consists in that, when indications of non-fulfillment of binauralization processing are detected (E200) in a data stream, which is a monophonic signal, where the indication is associated with playing back spatial position information, the decoded monophonic signal is sent (O-E200) to a stereo playback node, which takes into account position information to create two playback channels (E220). In this case, channels are processed at a stage (E230) of direct mixing, where these two signals are combined with the binauralized signal obtained as a result of binauralization processing for playback (E240) by the audio headset. The present invention also relates to a decoding device, using which a processing method is implemented.

EFFECT: provision of the transmission of a signal for playback in a specific position relatively to the ear of a person wearing an audio headset, regardless of an audio scene played back by the same headset, while optimizing a frequency range required by the used codec.

13 cl, 5 dwg

Description

Настоящее изобретение относится к обработке аудиосигнала в системе декодирования 3D-аудио, такой как кодек, соответствующий стандарту MPEG-H 3D audio. Настоящее изобретение более конкретно относится к обработке монофонического сигнала, предназначенного для воспроизведения головной гарнитурой, которая, кроме того, принимает бинауральные аудиосигналы.The present invention relates to audio signal processing in a 3D audio decoding system such as a codec conforming to the MPEG-H 3D audio standard. The present invention relates more specifically to the processing of a mono signal intended to be played back by a headset which furthermore receives binaural audio signals.

Термин «бинауральный» обозначает воспроизведение головной аудиогарнитурой или парой наушников аудиосигнала, который при этом включает эффекты пространственного ориентирования. Бинауральная обработка аудиосигналов, называемая далее бинаурализацией или бинаурализационной обработкой, применяет фильтры HRTF (передаточная функция с учетом положения головы) в частотной области, или фильтры HRIR, BRIR (импульсный отклик с учетом положения головы, бинауральный импульсный отклик помещения) во временной области, которые воспроизводят акустические передаточные функции между источниками звука и ушами слушателя. Эти фильтры служат цели симуляции подсказок о положении для аудитории, позволяющих слушателю определять местоположение источников звука, как это происходит в ситуациях прослушивания в реальной жизни.The term "binaural" refers to the reproduction of an audio signal by a headset or a pair of headphones, which also includes spatial orientation effects. Binaural audio signal processing, hereinafter referred to as binauralization or binauralization processing, applies HRTF (head position transfer function) filters in the frequency domain, or HRIR, BRIR (head position impulse response, binaural room impulse response) filters in the time domain, which reproduce acoustic transfer functions between sound sources and the listener's ears. These filters serve the purpose of simulating position cues for the audience, allowing the listener to locate sound sources, as they do in real life listening situations.

Сигнал для правого уха получают путем фильтрации монофонического сигнала посредством передаточной функции (HRTF) правого уха, а сигнал для левого уха получают посредством фильтрации того же монофонического сигнала посредством передаточной функции левого уха.The signal for the right ear is obtained by filtering the mono signal through the transfer function (HRTF) of the right ear, and the signal for the left ear is obtained by filtering the same mono signal through the transfer function of the left ear.

В кодеках NGA (next generation audio), таких как MPEG-H 3D audio, который описан в документе со ссылкой на ISO/IEC 23008-3: «High efficiency coding and media delivery in heterogenous environments – Part 3: 3D audio», опубликованной 25/07/2014, или даже AC4, описанном в документе со ссылкой на ETSI TS 103 190: «Digital Audio Compression Standard», опубликованном в апреле 2014, сигналы, принимаемые декодером, сначала декодируют, затем подвергают бинаурализационной обработке, как описано выше, перед воспроизведением головной аудиогарнитурой. В данном документе рассматривается случай, в котором звук, воспроизводимый головной аудиогарнитурой, имеет пространственное ориентирование, т.е. такой, в котором задействован бинаурализированный сигнал.In NGA (next generation audio) codecs such as MPEG-H 3D audio, which is described in the document with reference to ISO/IEC 23008-3: "High efficiency coding and media delivery in heterogenous environments - Part 3: 3D audio", published 25/07/2014, or even AC4 described in the document with reference to ETSI TS 103 190: "Digital Audio Compression Standard", published in April 2014, the signals received by the decoder are first decoded, then subjected to binauralization processing, as described above, before playing on the headset. This document discusses the case in which the sound reproduced by the audio headset is spatially oriented, i.e. one that uses a binauralized signal.

Вышеупомянутые кодеки, таким образом, закладывают основу для возможности воспроизведения множеством виртуальных громкоговорителей бинаурализированного сигнала, прослушиваемого на головной гарнитуре, а также закладывают основу для возможности воспроизведения множеством реальных громкоговорителей пространственно ориентированного звука.The aforementioned codecs thus lay the foundation for being able to reproduce a binauralized signal heard on a headset by multiple virtual speakers, and also lay the foundation for being able to reproduce spatially oriented sound for a plurality of real speakers.

В определенных случаях с бинаурализационной обработкой связана функция, предназначенная для отслеживания головы пользователя (функция отслеживания головы), эта функция также называется динамическим воспроизведением, в противоположность статическому воспроизведению. Этот тип обработки позволяет принимать в расчет перемещение головы слушателя, с тем чтобы модифицировать звук, воспроизводимый в каждом ухе, чтобы сохранить стабильность воспроизведения аудиосцены. Другими словами, слушатель будет воспринимать источники звука как расположенные в одном и том же месте в физическом пространстве независимо от того, двигает ли он головой.In certain cases, a function is associated with binauralization processing to track the user's head (head tracking function), this function is also called dynamic playback, as opposed to static playback. This type of processing allows the movement of the listener's head to be taken into account in order to modify the sound played in each ear in order to maintain stability in the playback of the audio scene. In other words, the listener will perceive the sound sources as being located in the same location in physical space whether or not they move their head.

Это может быть важным при просмотре и прослушивании информационного видеоматериала с углом в 360°.This can be important when viewing and listening to 360° informational video material.

Однако обработка определенных видов информационного материала посредством этого типа обработки является нежелательной. В частности, в определенных случаях, если информационный материал был создан конкретно для бинаурального воспроизведения, например, если сигналы были записаны непосредственно с применением муляжа головы или уже были обработаны посредством бинаурализационной обработки, то они должны быть воспроизведены наушниками головной гарнитуры непосредственно. Эти сигналы не нуждаются в дополнительной бинаурализационной обработке.However, the processing of certain types of information material by this type of processing is undesirable. In particular, in certain cases, if the information material was created specifically for binaural playback, for example, if the signals were recorded directly using a headform or have already been processed through binauralization processing, then they must be reproduced by the headphones of the headset directly. These signals do not need additional binauralization processing.

Подобным образом, создатель информационного материала может пожелать, чтобы аудиосигнал воспроизводился независимо от аудиосцены, т.е. чтобы он воспринимался как звук, отдельный от аудиосцены, например, в случае с закадровым голосом.Similarly, a content creator may want the audio to be played independently of the audio scene, i.e. so that it is perceived as a sound separate from the audio scene, such as in the case of a voice-over.

Этот тип воспроизведения может, например, позволить обеспечивать объяснения, с воспроизведением помимо этого аудиосцены. Например, создатель информационного материала может пожелать, чтобы звук воспроизводился в одно ухо, с целью получения запланированного эффекта «головного телефона», т.е. Так, чтобы звук был слышен только в одном ухе. Также может быть желательным, чтобы этот звук никогда не был слышен в другом ухе, даже если пользователь двигает своей головой, как в случае с предыдущим примером. Создатель информационного материала может также пожелать, чтобы этот звук воспроизводился в конкретном положении в аудиопространстве относительно уха слушателя (и не только лишь внутри одного уха), даже если последний двигает своей головой. This type of reproduction may, for example, allow explanations to be provided, with the reproduction of an audio scene in addition. For example, a content creator may wish to have audio played in one ear in order to achieve the intended "headphone" effect, ie. So that the sound can only be heard in one ear. It may also be desirable that this sound is never heard in the other ear, even if the user moves their head, as in the case of the previous example. The creator of the content may also want this sound to be played at a particular position in audio space relative to the listener's ear (and not just inside one ear), even if the listener is moving his head.

Если такой монофонический сигнал был декодирован и подан на вход системы воспроизведения, такой как кодек MPEG-H 3D audio или AC4, он будет бинаурализирован. Звук тогда будет распределен между двумя ушами (хотя он будет более тихим в противоположном ухе), и если пользователь будет двигать головой, его ухо не будет воспринимать звук таким же образом, поскольку обработка с отслеживанием головы, при ее задействовании, заставит положение источника звука оставаться таким же, как и в начальной аудиосцене: громкость звука в каждом из двух ушей будет, таким образом, казаться переменной в зависимости от положения головы.If such a mono signal has been decoded and fed into a playback system such as an MPEG-H 3D audio or AC4 codec, it will be binauralized. The sound will then be distributed between the two ears (although it will be quieter in the opposite ear), and if the user moves their head, their ear will not perceive the sound in the same way, since head-tracking processing, when enabled, will cause the position of the sound source to remain the same as in the initial audio scene: the volume of the sound in each of the two ears will thus appear to be variable depending on the position of the head.

В одном предложенном изменении стандарта MPEG-H 3D audio, в дополнении, названном «ISO/IEC JTC1/SC29/WG11 MPEG2015/M37265» от октября 2015 предложено идентифицировать информационный материал, который не должен быть изменен посредством бинаурализации.One proposed change to the MPEG-H 3D audio standard, an addendum titled "ISO/IEC JTC1/SC29/WG11 MPEG2015/M37265" dated October 2015, proposes to identify content that should not be modified by binauralization.

Таким образом, «дихотическая» идентификация связана с информационным материалом, который не должен обрабатываться посредством бинаурализации.Thus, "dichotic" identification is associated with information material that should not be processed through binauralization.

Тогда все аудиоэлементы будут бинаурализированы, за исключением тех, которые рассматриваются как «дихотические». Термин «дихотический» означает, что в каждое из ушей подается разный сигнал.Then all audio elements will be binauralized, except for those considered "dichotic". The term dichotic means that a different signal is sent to each ear.

Таким же образом, в стандарте AC4 бит данных обозначает, что сигнал уже был виртуализирован. Этот бит позволяет деактивировать постобработку. Информационный материал, идентифицированный таким образом, представляет собой информационный материал, уже отформатированный для головной аудиогарнитуры, т.е. бинауральный информационный материал. Он содержит два канала.Similarly, in the AC4 standard, a data bit indicates that the signal has already been virtualized. This bit allows you to disable post-processing. The media thus identified is media already formatted for the headset, i. e. binaural information material. It contains two channels.

Эти способы не решают проблему с монофоническим сигналом, в отношении которого создатель аудиосцены не желает выполнять бинаурализацию.These methods do not solve the problem with a mono signal, for which the audio scene creator does not wish to perform binauralization.

Это предотвращает воспроизведение монофонического сигнала независимо от аудиосцены в конкретном положении относительно уха слушателя, что далее будет называться режимом «головного телефона». С применением двухканальных методов из уровня техники одним способом достижения желаемого воспроизведения в одно ухо является создание двухканального информационного материала, состоящего из сигнала в одном из каналов и тишины в другом канале, или, конечно же, создание стереофонического информационного материала, принимающего в расчет желаемое пространственное положение, и идентифицирование этого информационного материала как уже имеющего пространственное ориентирование перед его передачей.This prevents the reproduction of a mono signal regardless of the audio scene at a particular position relative to the listener's ear, which will be referred to as "headphone" mode in the following. Using the two-channel techniques of the prior art, one way to achieve the desired one-ear playback is to create a two-channel media consisting of a signal in one of the channels and silence in the other channel, or, of course, to create a stereo media that takes into account the desired spatial position. , and identifying this information material as already spatially oriented before transmission.

Однако, поскольку этот стереофонический информационный материал должен быть создан, этот тип обработки создает сложности и требует дополнительного диапазона частот для передачи этого стереофонического информационного материала.However, since this stereo content needs to be created, this type of processing is complex and requires additional bandwidth to transmit this stereo content.

Таким образом, существует потребность в обеспечении решения, которое позволяет осуществлять передачу сигнала, который будет воспроизводиться в конкретном положении относительно уха человека, носящего головную аудиогарнитуру, независимо от аудиосцены, воспроизводимой той же головной гарнитурой, с оптимизацией при этом диапазона частот, требуемого применяемым кодеком.Thus, there is a need to provide a solution that allows the transmission of a signal that will be reproduced in a specific position relative to the ear of the person wearing the audio headset, regardless of the audio scene played back by the same headset, while optimizing the frequency range required by the applied codec.

Настоящее изобретение предназначено для улучшения данной ситуации.The present invention is intended to improve this situation.

С этой целью в нем предложен способ обработки монофонического аудиосигнала в декодере 3D-аудио, включающий этап выполнения бинаурализационной обработки декодированных сигналов, предназначенных для пространственного воспроизведения головной аудиогарнитурой. Суть способа заключается в том, чтоTo this end, it proposes a method for processing a mono audio signal in a 3D audio decoder, including the step of performing binauralization processing on decoded signals intended for spatial reproduction by an audio headset. The essence of the method is that

при обнаружении в потоке данных, представляющем монофонический сигнал, указания на невыполнение бинаурализационной обработки, связанного с воспроизведением информации о пространственном положении, декодированный монофонический сигнал направляется на узел стереофонического воспроизведения, который принимает в расчет информацию о положении для создания двух каналов воспроизведения, обработка которых происходит на этапе непосредственного смешивания, где эти два сигнала суммируются с бинаурализированным сигналом, полученным в результате бинаурализационной обработки, с целью воспроизведения головной аудиогарнитурой.upon detecting in a data stream representing a mono signal an indication of non-performing binauralization processing associated with the reproduction of spatial position information, the decoded mono signal is sent to the stereo playback node, which takes into account the position information to create two playback channels, the processing of which occurs on a direct mixing stage where the two signals are added to the binauralized signal resulting from the binauralization processing for playback by the audio headset.

Таким образом, возможно указать, что монофонический информационный материал должен воспроизводиться в конкретном пространственном положении относительно уха слушателя и для этого не проходить бинаурализационной обработки, так что этот воспроизводимый сигнал может обладать эффектом «головного телефона», т.е. слышаться слушателю в определенном положении относительно одного уха, внутри его головы, таким же образом, что и стереофонический сигнал, и даже при перемещении головы слушателя.Thus, it is possible to specify that the monophonic information material should be reproduced in a specific spatial position relative to the listener's ear and for this not to undergo binauralization processing, so that this reproduced signal can have a "headphone" effect, i.e. be heard by the listener at a certain position relative to one ear, inside his head, in the same way as a stereo signal, and even when the listener's head moves.

В частности, стереофонические сигналы отличаются тем фактом, что каждый аудиоисточник присутствует в каждом из 2 (левом и правом) выходных каналов с некоторой разницей в громкости (или ILD, интерауральная разница уровней) и иногда разницей по времени (или ITD, интерауральная разница по времени) между каналами. При прослушивании стереофонического сигнала на головной гарнитуре источники воспринимаются как расположенные внутри головы слушателя, в месте между левым ухом и правым ухом, что зависит от ILD и/или ITD. Бинауральные сигналы отличаются от стереофонических сигналов тем, что в отношении источников применяется фильтр, который воспроизводит акустический путь от источника до уха слушателя. При прослушивании бинаурального сигнала на головной гарнитуре источники воспринимаются снаружи головы, в месте, расположенном на сфере, в зависимости от примененного фильтра.In particular, stereo signals are distinguished by the fact that each audio source is present in each of the 2 (left and right) output channels with some loudness difference (or ILD, Interaural Level Difference) and sometimes a time difference (or ITD, Interaural Time Difference). ) between channels. When listening to a stereo signal on a headset, the sources are perceived to be located inside the listener's head, between the left ear and the right ear, depending on the ILD and/or ITD. Binaural signals differ from stereo signals in that a filter is applied to sources that reproduces the acoustic path from the source to the listener's ear. When listening to a binaural signal on a headset, sources are perceived outside the head, in a place located on the sphere, depending on the applied filter.

Стереофонический и бинауральный сигналы похожи в том, что они состоят из 2 (левого и правого) каналов, а отличаются информационным материалом этих 2 каналов.Stereo and binaural signals are similar in that they consist of 2 (left and right) channels, but differ in the information content of these 2 channels.

Воспроизводимый моносигнал (монофонический сигнал) затем накладывается на другие воспроизводимые сигналы, которые образуют трехмерную аудиосцену.The reproduced mono signal (mono signal) is then superimposed on other reproduced signals, which form a three-dimensional audio scene.

Диапазон частот, необходимый для указания этого типа информационного материала, оптимизирован, поскольку достаточно лишь закодировать указание положения в аудиосцене вдобавок к указанию на невыполнение бинаурализации, чтобы сообщить декодеру о необходимости выполнения обработки, в противоположность способу, требующему кодирования, передачи и последующего декодирования стереофонического сигнала, принимающего в расчет это пространственное положение.The bandwidth required to indicate this type of media is optimized, since it is sufficient to encode an indication of the position in the audio scene, in addition to indicating not to perform binauralization, to tell the decoder to perform processing, as opposed to the method that requires encoding, transmission and subsequent decoding of a stereo signal, taking this spatial position into account.

Различные конкретные варианты осуществления, указанные ниже, могут быть добавлены раздельно или в сочетании друг с другом к этапам способа обработки, определенного выше.Various specific embodiments below may be added alone or in combination with each other to the steps of the processing method defined above.

В одном конкретном варианте осуществления информация о пространственном положении воспроизведения представляет собой двоичные данные, указывающие на один канал воспроизводящей головной аудиогарнитуры.In one particular embodiment, the playback spatial position information is binary data pointing to one channel of the playback headset.

Эта информация требует только одного кодирующего бита, тем самым позволяя ограничить требуемый диапазон частот еще больше.This information requires only one coding bit, thereby allowing the required frequency range to be further limited.

В данном варианте осуществления лишь канал воспроизведения, соответствующий каналу, указанному двоичными данными, суммируется с соответствующим каналом бинаурализированного сигнала на этапе непосредственного смешивания, при этом данное значение для другого канала воспроизведения равно нулю.In this embodiment, only the playback channel corresponding to the channel indicated by the binary data is added to the corresponding channel of the binauralized signal in the direct mixing step, while this value for the other playback channel is zero.

Выполняемое таким образом суммирование просто в реализации и обеспечивает достижение желаемого эффекта «головного телефона», заключающегося в наложении моносигнала на воспроизводимую аудиосцену.The summation performed in this way is simple to implement and achieves the desired "headphone" effect of superimposing a mono signal onto the reproduced audio scene.

В одном конкретном варианте осуществления монофонический сигнал представляет собой сигнал канального типа, который направляется на узел стереофонического воспроизведения совместно с информацией о пространственном положении воспроизведения.In one particular embodiment, the mono signal is a channel-type signal that is routed to the stereo playback node along with playback spatial position information.

Таким образом, монофонический сигнал не проходит этап, на котором выполняется бинаурализационная обработка и не обрабатывается, как сигналы канального типа, обрабатываемые обычным образом в способах из уровня техники. Этот сигнал обрабатывается узлом стереофонического воспроизведения, отличным от существующих узлов воспроизведения, используемых для сигналов канального типа. Этот узел воспроизведения дублирует монофонический сигнал в 2 каналах, но применяет коэффициенты к двум каналам в зависимости от информации о пространственном положении воспроизведения.Thus, the mono signal does not go through the stage in which binauralization processing is performed and is not processed like channel-type signals processed in the conventional manner in prior art methods. This signal is processed by a stereo playback node other than the existing playback nodes used for channel type signals. This playback node duplicates the mono signal in 2 channels, but applies coefficients to the two channels depending on the playback attitude information.

Этот узел стереофонического воспроизведения может, помимо этого, быть встроен в канальный узел воспроизведения, при этом обработка отличается в зависимости от обнаружения, выполненного в отношении сигнала, поступающего на вход этого узла воспроизведения, или в модуль непосредственного смешивания, который суммирует каналы, сгенерированные этим узлом стереофонического воспроизведения, с бинаурализированным сигналом, сгенерированным модулем, который выполняет бинаурализационную обработку.This stereo playback node can, in addition, be embedded in a channel playback node, with processing different depending on the detection performed on the signal input to this playback node, or in a direct mixing module that sums the channels generated by this node. stereo playback, with a binauralized signal generated by a module that performs binauralization processing.

В одном варианте осуществления, связанном с этим сигналом канального типа, информация о пространственном положении воспроизведения представляет собой данные ILD о интерауральной разнице уровней или в целом информацию об отношении уровней правого и левого каналов.In one embodiment associated with this channel-type signal, the playback spatial position information is interaural level difference ILD data or, in general, right and left channel level relationship information.

В другом варианте осуществления монофонический сигнал представляет собой сигнал объектного типа, связанный с набором параметров воспроизведения, содержащим указание на невыполнение бинаурализации и информацию о положении воспроизведения, при этом сигнал направляют в узел стереофонического воспроизведения совместно с информацией о пространственном положении воспроизведения.In another embodiment, the mono signal is an object-type signal associated with a set of playback parameters containing an indication of not performing binauralization and playback position information, and the signal is sent to the stereo playback node together with playback spatial position information.

В этом другом варианте осуществления информация о пространственном положении воспроизведения представляет собой, например, данные об азимутальном угле.In this other embodiment, the playback spatial position information is, for example, azimuth angle data.

Эта информация позволяет точно определить положение воспроизведения относительно уха человека, носящего головную аудиогарнитуру, так что этот звук воспроизводится с наложением на аудиосцену.This information makes it possible to accurately determine the playback position relative to the ear of the person wearing the audio headset, so that the sound is reproduced superimposed on the audio scene.

Таким образом, монофонический сигнал не проходит этап, на котором выполняется бинаурализационная обработка и не обрабатывается, как сигналы объектного типа, обрабатываемые обычным образом в способах из уровня техники. Этот сигнал обрабатывается узлом стереофонического воспроизведения, отличным от существующих узлов воспроизведения, используемых для сигналов объектного типа. Указание на невыполнение бинаурализационной обработки и информация о положении воспроизведения содержатся в параметрах воспроизведения (метаданных), связанных с сигналом объектного типа. Этот узел воспроизведения может, помимо этого, быть встроен в объектный узел воспроизведения или в модуль непосредственного смешивания, который суммирует каналы, сгенерированные этим узлом стереофонического воспроизведения, с бинаурализированным сигналом, сгенерированным модулем, который выполняет бинаурализационную обработку.Thus, the mono signal does not go through the stage in which binauralization processing is performed and is not processed like object-type signals processed in the usual way in the methods of the prior art. This signal is processed by a stereo playback node other than the existing playback nodes used for object type signals. An indication of not performing binauralization processing and playback position information are contained in the playback parameters (metadata) associated with the object type signal. This playback node may furthermore be embedded in an object playback node or in a direct mixing module that sums the channels generated by this stereo playback node with a binauralized signal generated by a module that performs binauralization processing.

Настоящее изобретение также относится к устройству для обработки монофонического аудиосигнала, содержащему модуль для выполнения бинаурализационной обработки декодированных сигналов, предназначенных для пространственного воспроизведения головной аудиогарнитурой. Это устройство содержит:The present invention also relates to an apparatus for processing a mono audio signal, comprising a module for performing binauralization processing of decoded signals intended for spatial reproduction by an audio headset. This device contains:

- модуль обнаружения, способный обнаруживать в потоке данных, представляющем монофонический сигнал, указание на невыполнение бинаурализационной обработки, связанное с информацией о пространственном положении воспроизведения;- a detection module capable of detecting in the data stream representing the mono signal, an indication of the failure of binauralization processing associated with information about the spatial position of the reproduction;

- модуль для перенаправления, способный, в случае подтвержденного обнаружения модулем обнаружения, направлять декодированный монофонический сигнал на узел стереофонического воспроизведения;- a forwarding module capable, in the event of a confirmed detection by the detection module, forwarding the decoded mono signal to the stereo playback node;

- узел стереофонического воспроизведения, способный принимать в расчет информацию о положении для создания двух каналов воспроизведения;a stereo playback unit capable of taking into account position information to create two playback channels;

- модуль непосредственного смешивания, способный непосредственно обрабатывать два канала воспроизведения посредством их суммирования с бинаурализированным сигналом, сгенерированным модулем для выполнения бинаурализационной обработки, с целью воспроизведения головной аудиогарнитурой.- a direct mixing module capable of directly processing two playback channels by summing them with a binauralized signal generated by the binauralization processing module for playback by an audio headset.

Данное устройство имеет те же преимущества, что и описанный ранее способ, который оно реализует.This device has the same advantages as the previously described method that it implements.

В одном конкретном варианте осуществления узел стереофонического воспроизведения встроен в модуль непосредственного смешивания.In one particular embodiment, the stereo playback unit is built into the direct mixing module.

Таким образом, каналы воспроизведения создаются лишь в модуле непосредственного смешивания, вследствие чего на модуль непосредственного смешивания передается лишь информация о положении совместно с моносигналом. Сигнал может быть канального типа или объектного типа.Thus, playback channels are only created in the direct mix module, whereby only position information is transmitted to the direct mix module together with the mono signal. The signal may be a channel type or an object type.

В одном варианте осуществления монофонический сигнал представляет собой сигнал канального типа, и узел стереофонического воспроизведения встроен в канальный узел воспроизведения, который, к тому же, создает каналы воспроизведения для многоканальных сигналов.In one embodiment, the mono signal is a channel type signal, and the stereo playback node is embedded in the channel playback node, which also creates playback channels for multi-channel signals.

В другом варианте осуществления монофонический сигнал представляет собой сигнал объектного типа, и узел стереофонического воспроизведения встроен в объектный узел воспроизведения, который, к тому же, создает каналы воспроизведения для монофонических сигналов, связанных с наборами параметров воспроизведения.In another embodiment, the mono signal is an object-type signal, and the stereo playback node is embedded in the object playback node, which also creates playback channels for the mono signals associated with playback parameter sets.

Настоящее изобретение относится к аудиодекодеру, содержащему устройство обработки, подобное описанному, и к компьютерной программе, содержащей команды программного кода для реализации этапов описанного способа обработки при выполнении этих команд процессором.The present invention relates to an audio decoder comprising a processing device as described, and to a computer program containing program code instructions for implementing the steps of the described processing method when these instructions are executed by a processor.

Наконец, изобретение относится к необязательно извлекаемому считываемому процессором информационному носителю, который может быть или не быть интегрирован в устройство обработки, и который хранит компьютерную программу, содержащую команды для выполнения способа обработки, описанного выше.Finally, the invention relates to an optionally removable, processor-readable storage medium, which may or may not be integrated into a processing device, and which stores a computer program containing instructions for performing the processing method described above.

Другие признаки и преимущества настоящего изобретения станут более очевидными из прочтения нижеследующего описания, приведенного только в качестве неограничивающего примера, со ссылкой на прилагаемые графические материалы, на которых:Other features and advantages of the present invention will become more apparent from a reading of the following description, given by way of non-limiting example only, with reference to the accompanying drawings, in which:

на фиг. 1 изображен декодер MPEG-H 3D audio, такой как известный из уровня техники;in fig. 1 shows an MPEG-H 3D audio decoder such as is known in the art;

на фиг. 2 изображены этапы способа обработки в соответствии с одним вариантом осуществления настоящего изобретения;in fig. 2 shows the steps of a processing method in accordance with one embodiment of the present invention;

на фиг. 3 изображен декодер, содержащий устройство обработки в соответствии с первым вариантом осуществления настоящего изобретения;in fig. 3 shows a decoder including a processing device according to the first embodiment of the present invention;

на фиг. 4 изображен декодер, содержащий устройство обработки в соответствии со вторым вариантом осуществления настоящего изобретения; иin fig. 4 shows a decoder including a processing device according to a second embodiment of the present invention; and

на фиг. 5 изображено аппаратное представление устройства обработки в соответствии с одним вариантом осуществления настоящего изобретения.in fig. 5 shows a hardware representation of a processing device in accordance with one embodiment of the present invention.

На фиг. 1 схематически изображен декодер, такой как стандартизированный в стандарте MPEG-H 3D audio, обозначенном в документе, на который была дана ссылка выше. Блок 101 представляет собой модуль декодирования, который декодирует как многоканальные аудиосигналы (Ch.) «канального» типа, так и монофонические аудиосигналы (Obj.) «объектного» типа, связанные с (содержащимися в метаданных) параметрами (Obj.MeDa.) пространственного ориентирования, а также аудиосигналы в аудиоформате HOA (система Ambisonics высшего порядка).In FIG. 1 is a schematic representation of a decoder such as that standardized in the MPEG-H 3D audio standard referred to in the document referenced above. Unit 101 is a decoding unit that decodes both "channel" type multi-channel audio signals (Ch.) and "object" type mono audio signals (Obj.) associated with (contained in metadata) spatial orientation parameters (Obj.MeDa.) , as well as audio signals in HOA (Higher Order Ambisonics) audio format.

Сигнал канального типа декодируется и обрабатывается канальным узлом 102 воспроизведения (также называемым «конвертером формата» в стандарте MPEG-H 3D audio), чтобы приспособить этот канальный сигнал к системе аудиовоспроизведения. Канальный узел воспроизведения знает характеристики системы воспроизведения и, таким образом, осуществляет передачу по одному сигналу на канал (Rdr.Ch) воспроизведения с целью приведения в действие либо реальных громкоговорителей, либо виртуальных громкоговорителей (которые затем будут бинаурализированы для воспроизведения головной гарнитурой).The channel type signal is decoded and processed by the channel playback node 102 (also called a "format converter" in the MPEG-H 3D audio standard) to fit this channel signal to an audio playback system. The playback channel node knows the characteristics of the playback system and thus transmits one signal per playback channel (Rdr.Ch) to drive either real speakers or virtual speakers (which will then be binauralized for headset playback).

Эти каналы воспроизведения смешиваются посредством модуля 110 смешивания с другими каналами воспроизведения, сгенерированными объектными и HOA-узлами 103, 105 воспроизведения, которые описаны ниже.These playback channels are mixed by mixing module 110 with other playback channels generated by the object and HOA playback nodes 103, 105, which are described below.

Сигналы (Obj.) объектного типа представляют собой монофонические сигналы, связанные с метаданными, такими как параметры пространственного ориентирования (азимутальные углы, подъем), которые позволяют расположить монофонический сигнал на аудиосцене, имеющей пространственное ориентирование, параметры приоритета или параметры громкости аудио. Эти объектные сигналы и связанные параметры декодируются модулем 101 декодирования и обрабатываются объектным узлом 103 воспроизведения, который, зная характеристики системы воспроизведения, адаптирует эти монофонические сигналы к этим характеристикам. Разные каналы (Rdr.Obj.) воспроизведения, таким образом, смешиваются с другими каналами воспроизведения, сгенерированными канальными и HOA-узлами воспроизведения, посредством модуля 110 смешивания.Object type signals (Obj.) are mono signals associated with metadata such as spatial orientation parameters (azimuth angles, elevation) that allow a mono signal to be positioned in a spatially oriented audio scene, priority parameters, or audio loudness parameters. These object signals and associated parameters are decoded by the decoding module 101 and processed by the playback object 103, which, knowing the characteristics of the playback system, adapts these mono signals to these characteristics. The different playback channels (Rdr.Obj.) are thus mixed with the other playback channels generated by the playback channel and HOA nodes by the mixing unit 110 .

Таким же образом, сигналы HOA (cистема Ambisonics высшего порядка) декодируются и декодированные компоненты системы Ambisonics подаются на вход HOA-узла 105 воспроизведения с целью адаптирования этих компонентов к системе аудиовоспроизведения.In the same way, HOA (Higher Order Ambisonics) signals are decoded, and the decoded components of the Ambisonics system are input to the HOA playback node 105 in order to adapt these components to the audio playback system.

Каналы (Rdr.HOA) воспроизведения, созданные этим HOA-узлом воспроизведения, смешиваются на этапе 110 с каналами воспроизведения, созданными другими узлами 102 и 103 воспроизведения.Playback channels (Rdr.HOA) created by this HOA playback node are mixed in step 110 with playback channels created by other playback nodes 102 and 103 .

Сигналы на выходе из модуля 110 смешивания могут быть воспроизведены реальными громкоговорителями HP, расположенными в комнате воспроизведения. В этом случае сигналы на выходе из модуля смешивания могут быть поданы непосредственно на эти реальные громкоговорители, при этом один канал соответствует одному громкоговорителю.The signals output from the mixing module 110 can be reproduced by real HP speakers located in the playback room. In this case, the signals at the output of the mixing module can be applied directly to these real loudspeakers, with one channel corresponding to one loudspeaker.

В случае, если сигналы на выходе из модуля смешивания предназначены для воспроизведения головной аудиогарнитурой CA, эти сигналы обрабатываются модулем 120 для выполнения бинаурализационной обработки с применением методик бинаурализации, таких как, например, описанных в цитируемом документе в отношении стандарта MPEG-H 3D audio.In the event that the signals output from the mixing module are intended to be played back by the audio headset CA, these signals are processed by the module 120 to perform binauralization processing using binauralization techniques such as, for example, those described in the cited document in relation to the MPEG-H 3D audio standard.

Таким образом, все сигналы, предназначенные для воспроизведения головной аудиогарнитурой, обрабатываются модулем 120 для выполнения бинаурализационной обработки.Thus, all signals intended to be played back by the audio headset are processed by module 120 to perform binauralization processing.

На фиг. 2 изображены этапы способа обработки в соответствии с одним вариантом осуществления настоящего изобретения.In FIG. 2 depicts the steps of a processing method in accordance with one embodiment of the present invention.

Этот способ относится к обработке монофонического сигнала в 3D-аудиодекодере. На этапе E200 обнаруживают, содержит ли поток (SMo) данных, представляющем монофонический сигнал (например, поток битов на входе аудиодекодера), указание на невыполнение бинаурализации, связанное с информацией о пространственном положении воспроизведения. В противоположном случае (N на этапе E200) сигнал должен быть бинаурализирован. Он обрабатывается посредством выполнения бинаурализационной обработки на этапе E210 перед воспроизведением на этапе E240 посредством воспроизводящей головной аудиогарнитуры. Этот бинаурализированный сигнал может быть смешан с другими стереофоническими сигналами, сгенерированными на этапе E220, описанном выше.This method refers to the processing of a mono signal in a 3D audio decoder. In step E200, it is detected whether the data stream (SMo) representing a mono signal (eg, an audio decoder input bit stream) contains an indication of not performing binauralization associated with playback spatial position information. Otherwise (N in step E200), the signal must be binauralized. It is processed by performing binauralization processing in step E210 before being played back in step E240 by the playback headset. This binauralized signal may be mixed with other stereo signals generated in step E220 above.

В случае, если поток данных, представляющем монофонический сигнал, содержит как указание (Di.) на невыполнение бинаурализации, так и информацию (Pos.) о пространственном положении воспроизведения (Y на этапе E200), декодированный монофонический сигнал направляется на узел стереофонического воспроизведения для обработки на этапе E220.In case the data stream representing a mono signal contains both an indication (Di.) of not performing binauralization and information (Pos.) about the playback spatial position (Y in step E200), the decoded mono signal is sent to the stereo playback node for processing. at step E220.

Это указание на невыполнение бинаурализации может, например, как в уровне техники, представлять собой «дихотическую» идентификацию, данную монофоническому сигналу, или иную идентификацию, понимаемую как указание не обрабатывать сигнал посредством бинаурализационной обработки. Информация о пространственном положении воспроизведения может, например, представлять собой азимутальный угол, указывающий на положение воспроизведения звука относительно левого или правого уха, или даже указание на разницу уровня между левым и правым каналами, как например, информацию ILD, позволяющую распределять энергию монофонического сигнала между левым и правым каналами, или даже указание на то, что должен использоваться один канал воспроизведения, соответствующий левому или правому уху. В последнем случае эта информация представляет собой двоичную информацию, которая требует очень незначительного диапазона частот (1 единственный бит данных).This indication of not performing binauralization may, for example, as in the prior art, be a "dichotic" identification given to a monophonic signal, or another identification understood as an indication not to process the signal through binauralization processing. The playback attitude information may, for example, be an azimuth angle indicating the position of the sound reproduction relative to the left or right ear, or even an indication of the level difference between the left and right channels, such as ILD information, allowing the energy of a mono signal to be distributed between the left and right channels, or even an indication that one playback channel corresponding to the left or right ear should be used. In the latter case, this information is binary information which requires very little bandwidth (1 single bit of data).

На этапе E220 информация о положении принимается в расчет для создания двух каналов воспроизведения для двух наушников головной аудиогарнитуры. Эти два канала воспроизведения, созданные таким образом, обрабатываются непосредственно на этапе Е230 непосредственного смешивания, в котором эти два стереофонических канала суммируются с двумя каналами бинаурализированного сигнала, полученными вследствие бинаурализационной обработки E210.In step E220, the position information is taken into account to create two playback channels for the two headphones of the audio headset. These two playback channels thus created are processed directly in a direct mixing step E230, in which these two stereo channels are added to the two channels of the binauralized signal resulting from the binauralization processing E210.

Каждый из стереофонических каналов воспроизведения затем суммируется с соответствующим бинаурализированным сигналом.Each of the stereo playback channels is then added to the corresponding binauralized signal.

После этого этапа непосредственного смешивания два канала воспроизведения, сгенерированные на этапе Е230 смешивания, воспроизводятся на этапе E240 посредством головной аудиогарнитуры CA.After this direct mixing step, the two playback channels generated in the mixing step E230 are reproduced in step E240 by the headset CA.

В варианте осуществления, где информация о пространственном положении воспроизведения представляет собой двоичные данные, указывающие на один канал воспроизводящей головной аудиогарнитуры, это означает, что монофонический сигнал должен воспроизводиться только одним наушником этой головной гарнитуры. Данные два канала воспроизведения, созданные на этапе E220 посредством узла стереофонического воспроизведения, таким образом, состоят из одного канала, содержащего монофонический сигнал, при этом второй из них равен нулю и, следовательно, может отсутствовать.In an embodiment where the playback spatial position information is binary data pointing to one channel of the reproducing headset, this means that the mono signal should be reproduced by only one earpiece of that headset. These two playback channels created in step E220 by the stereo playback node thus consist of one channel containing a mono signal, the second of which is zero and therefore may be omitted.

На этапе Е230 непосредственного смешивания единственный канал, таким образом, суммируется с соответствующим каналом бинаурализированного сигнала, при этом другой канал равен нулю. Этот этап смешивания, таким образом, упрощается.In direct mixing step E230, a single channel is thus summed with the corresponding channel of the binauralized signal, with the other channel equal to zero. This mixing step is thus simplified.

Таким образом, слушатель, носящий головную аудиогарнитуру, слышит, с одной стороны, пространственно ориентированную аудиосцену, сгенерированную из бинаурализированного сигнала (в случае динамического воспроизведения физическое размещение аудиосцены, слышимой слушателем, остается тем же, даже если он двигает головой) и, с другой стороны, звук, расположенный внутри своей головы, между одним ухом и центром своей головы, независимо накладываемый на аудиосцену, т.е. если слушатель двигает своей головой, этот звук слышен в том же положении относительно одного уха.Thus, a listener wearing a headset hears, on the one hand, a spatially oriented audio scene generated from a binauralized signal (in the case of dynamic playback, the physical placement of the audio scene heard by the listener remains the same even if he moves his head) and, on the other hand , a sound located inside its head, between one ear and the center of its head, independently superimposed on the audio scene, i.e. if the listener moves his head, this sound is heard in the same position relative to one ear.

Этот звук, таким образом, воспринимается как наложенный на другие бинаурализированные звуки аудиосцены, и будет, например, функционировать как закадровый голос в этой аудиосцене.This sound is thus perceived as superimposed on other binauralized sounds in the audio scene, and will, for example, function as a voice-over in that audio scene.

Таким образом достигается эффект «головного телефона».Thus, the effect of the "headphone" is achieved.

На фиг. 3 изображен первый вариант осуществления декодера, содержащего устройство обработки, которое реализует способ обработки, описанный со ссылкой на фиг. 2. В этом примерном варианте осуществления монофонический сигнал, обрабатываемый посредством реализуемого способа, представляет собой сигнал канального типа (Ch.).In FIG. 3 shows a first embodiment of a decoder including a processing device that implements the processing method described with reference to FIG. 2. In this exemplary embodiment, the mono signal processed by the implemented method is a channel type (Ch.) signal.

Сигналы (Obj.) объектного типа и сигналы (HOA) НОА-типа обрабатываются посредством соответствующих блоков 303, 304 и 305 таким же образом, как и в отношении блоков 103, 104 и 105, описанных со ссылкой на фиг. 1. Таким же образом, блок 310 смешивания выполняет смешивание таким же образом, как это было описано в отношении блока 110 на фиг. 1.Object-type signals (Obj.) and HOA-type signals (HOA) are processed by the respective blocks 303, 304, and 305 in the same manner as with blocks 103, 104, and 105 described with reference to FIG. 1. In the same way, the mixing block 310 performs mixing in the same manner as described with respect to the block 110 in FIG. one.

Блок 330, который принимает сигналы канального типа, обрабатывает монофонический сигнал, содержащий указание (Di.) на невыполнение бинаурализации, связанное с информацией (Pos.) о пространственном положении воспроизведения, отличным образом по сравнению с другим сигналом, который не содержит этих элементов информации, в частности многоканальным сигналом. Что касается этих сигналов, не содержащих этих элементов информации, они обрабатываются блоком 302 таким же образом, как и в блоке 102, описанном со ссылкой на фиг. 1.Block 330, which receives channel-type signals, processes a mono signal containing an indication (Di.) of not performing binauralization associated with information (Pos.) about the spatial position of the playback, in a different way compared to another signal that does not contain these information elements, in particular a multi-channel signal. As for these signals not containing these information elements, they are processed by block 302 in the same manner as in block 102 described with reference to FIG. one.

Для монофонического сигнала, содержащего указание на невыполнение бинаурализации, связанное с информацией о пространственном положении воспроизведения, блок 330 действует как маршрутизатор или коммутатор и направляет декодированный монофонический сигнал (Mo.) на узел 331 стереофонического воспроизведения. Узел стереофонического воспроизведения, помимо прочего, принимает от модуля декодирования информацию (Pos.) о пространственном положении воспроизведения. Используя эту информацию, он создает два канала (2 Vo.) воспроизведения, соответствующие левому и правому каналам воспроизводящей головной аудиогарнитуры, так что эти каналы могут быть воспроизведены головной аудиогарнитурой CA.For a mono signal containing an indication of non-execution of binauralization associated with playback spatial position information, block 330 acts as a router or switch and directs the decoded mono signal (Mo.) to stereo playback node 331 . The stereo playback unit, among other things, receives information (Pos.) about the playback spatial position from the decoding module. Using this information, it creates two playback channels (2 Vo.) corresponding to the left and right channels of the playback headset so that these channels can be played back by the CA's audio headset.

В одном примерном варианте осуществления информация о пространственном положении воспроизведения представляет собой информацию о интерауральной разнице уровней между левым и правым каналами. Эта информация позволяет коэффициенту, который должен быть применен к каждому из каналов воспроизведения, обеспечить достижение этого пространственного положения воспроизведения, подлежащего определению.In one exemplary embodiment, the playback spatial position information is information about the interaural level difference between the left and right channels. This information allows a factor to be applied to each of the playback channels to achieve that playback spatial position to be determined.

Эти коэффициенты могут быть определены, как в документе со ссылкой на MPEG-2 AAC: ISO/IEC 13818-4:2004/DCOR 2, AAC в разделе 7.2, описывающем интенсивность стерео.These coefficients can be defined as in the document referring to MPEG-2 AAC: ISO/IEC 13818-4:2004/DCOR 2, AAC in section 7.2 describing stereo intensity.

Перед воспроизведением головной аудиогарнитурой эти каналы воспроизведения суммируются с каналами бинаурализированного сигнала, сгенерированными модулем 320 бинаурализации, который выполняет бинаурализационную обработку таким же образом, что и блок 120 на фиг. 1.Before being played back by the headset, these playback channels are added to the binauralized signal channels generated by binauralization module 320, which performs binauralization processing in the same manner as block 120 in FIG. one.

Этот этап суммирования каналов выполняется модулем 340 непосредственного смешивания, который суммирует левый канал, сгенерированный узлом 331 стереофонического воспроизведения, с левым каналом бинаурализированного сигнала, сгенерированным модулем 320 бинаурализационной обработки, а также правый канал, сгенерированный узлом 331 стереофонического воспроизведения, с правым каналом бинаурализированного сигнала, полученным от модуля 320 бинаурализационной обработки, перед воспроизведением головной гарнитурой CA.This channel summing step is performed by the direct mixing module 340, which sums the left channel generated by the stereo playback node 331 with the left channel of the binauralized signal generated by the binauralization processing module 320, as well as the right channel generated by the stereo playback node 331 with the right channel of the binauralized signal, received from the binaural processing module 320 before being played back by the headset CA.

Таким образом, монофонический сигнал не проходит через модуль 320 бинаурализационной обработки, он передается непосредственно на узел 331 стереофонического воспроизведения перед смешиванием непосредственно с бинаурализированным сигналом.Thus, the mono signal does not pass through the binauralization processing module 320, it is passed directly to the stereo playback unit 331 before being mixed directly with the binauralized signal.

Этот сигнал также не будет подвергаться обработке с отслеживанием головы. Воспроизводимый звук, таким образом, будет находиться в некотором положении воспроизведения относительно одного уха слушателя, и будет оставаться в этом положении, даже если слушатель двигает своей головой.This signal will also not be processed with head tracking. The reproduced sound will thus be in some position of reproduction relative to one ear of the listener, and will remain in this position even if the listener moves his head.

В этом варианте осуществления узел 331 стереофонического воспроизведения может быть встроен в канальный узел 302 воспроизведения. В этом случае этот канальный узел воспроизведения реализует как адаптирование традиционных сигналов канального типа, как описано со ссылкой на фиг. 1, так и создание двух каналов воспроизведения узла 331 воспроизведения, как описано выше, когда принимается информация (Pos.) о пространственном положении воспроизведения. Только два канала воспроизведения тогда перенаправляются на модуль 340 непосредственного смешивания перед воспроизведением головной аудиогарнитурой CA.In this embodiment, the node 331 stereo playback can be built into the channel node 302 playback. In this case, this channel playback node implements as an adaptation of conventional channel type signals as described with reference to FIG. 1 and creating two playback paths of the playback unit 331 as described above when playback spatial position information (Pos.) is received. Only the two playback channels are then redirected to the direct mix module 340 before being played back by the CA headset.

В одном иллюстративном варианте осуществления узел 331 стереофонического воспроизведения встроен в модуль 340 непосредственного смешивания. В этом случае модуль 330 маршрутизации направляет декодированный монофонический сигнал (для которого были обнаружены указание на невыполнение бинаурализации и информация о пространственном положении воспроизведения) на модуль 340 непосредственного смешивания. Кроме того, на модуль 340 непосредственного смешивания также передается декодированная информация (Pos.) о пространственном положении воспроизведения. Поскольку этот модуль непосредственного смешивания в таком случае содержит узел стереофонического воспроизведения, посредством него реализуется создание двух каналов воспроизведения, принимающих в расчет информацию о пространственном положении воспроизведения, и смешивание этих двух каналов воспроизведения с каналами воспроизведения бинаурализированного сигнала, сгенерированными модулем 320 бинаурализационной обработки.In one exemplary embodiment, the stereo playback unit 331 is built into the direct mixing module 340 . In this case, routing module 330 routes the decoded mono signal (for which binauralization failure indication and playback spatial position information have been detected) to direct mixing module 340 . In addition, the decoded information (Pos.) About the playback spatial position is also transmitted to the direct mixing module 340 . Since this direct mixing module then contains a stereo playback unit, it realizes the creation of two playback channels taking into account playback spatial position information, and mixing these two playback channels with the playback channels of the binauralized signal generated by the binauralization processing module 320.

На фиг. 4 изображен второй вариант осуществления декодера, содержащего устройство обработки, которое реализует способ обработки, описанный со ссылкой на фиг. 2. В этом примерном варианте осуществления монофонический сигнал, обрабатываемый посредством реализуемого способа, представляет собой сигнал (Obj.) объектного типа.In FIG. 4 shows a second embodiment of a decoder comprising a processing device that implements the processing method described with reference to FIG. 2. In this exemplary embodiment, the mono signal processed by the implemented method is an object type signal (Obj.).

Сигналы (Ch.) канального типа и сигналы (HOA) НОА-типа обрабатываются посредством соответствующих блоков 402 и 405 таким же образом, как и в отношении блоков 102 и 105, описанных со ссылкой на фиг. 1. Таким же образом, блок 410 смешивания выполняет смешивание так же, как это было описано в отношении блока 110 на фиг. 1.Channel-type signals (Ch.) and HOA-type signals (HOA) are processed by the respective blocks 402 and 405 in the same manner as with respect to blocks 102 and 105 described with reference to FIG. 1. In the same way, the mixing block 410 performs mixing in the same way as described with respect to the block 110 in FIG. one.

Блок 430, который принимает сигналы (Obj.) объектного типа, обрабатывает монофонический сигнал, для которого было обнаружено, что указание (Di.) на невыполнение бинаурализации, связанное с информацией (Pos.) о пространственном положении воспроизведения, отличается от такового для другого монофонического сигнала, для которого эти элементы информации не были обнаружены.Block 430, which receives object-type signals (Obj.), processes a mono signal for which it has been found that an indication (Di.) of not performing binauralization associated with playback spatial position information (Pos.) is different from that of another mono signal. signal for which these information elements were not detected.

Что касается монофонических сигналов, для которых эти элементы информации не были обнаружены, они обрабатываются блоком 403 таким же образом, как и в блоке 103, описанном со ссылкой на фиг. 1, с применением параметров, декодированных блоком 404, который декодирует метаданные таким же образом, что и блок 104 согласно фиг. 1.For mono signals for which these information elements have not been detected, they are processed by block 403 in the same manner as in block 103 described with reference to FIG. 1 using the parameters decoded by block 404, which decodes the metadata in the same manner as block 104 of FIG. one.

В отношении монофонического сигнала объектного типа, для которого было обнаружено указание на невыполнение бинаурализации, связанное с информацией о пространственном положении воспроизведения, блок 430 действует как маршрутизатор или коммутатор и направляет декодированный монофонический сигнал (Mo.) на узел 431 стереофонического воспроизведения.With respect to the object-type mono signal for which a binauralization failure indication associated with playback spatial position information has been detected, block 430 acts as a router or switch and directs the decoded mono signal (Mo.) to stereo playback node 431 .

Указание (Di.) на невыполнение бинаурализации и информация (Pos.) о пространственном положении воспроизведения декодируются блоком 404 для декодирования метаданных или параметров, связанных с сигналами объектного типа. Указание (Di.) на невыполнение бинаурализации передается на блок 430 маршрутизации, и информация о пространственном положении воспроизведения передается на узел 431 стереофонического воспроизведения.An indication (Di.) of not performing binauralization and information (Pos.) about the spatial position of the playback are decoded by block 404 to decode metadata or parameters associated with object type signals. An indication (Di.) of not performing binauralization is transmitted to the routing unit 430, and playback spatial position information is transmitted to the stereo playback node 431 .

Узел стереофонического воспроизведения, который, таким образом, принимает информацию (Pos.) о пространственном положении воспроизведения, создает два канала воспроизведения, соответствующие левому и правому каналам воспроизводящей головной аудиогарнитуры, так что эти каналы могут быть воспроизведены головной аудиогарнитурой CA.The stereo playback unit, which thus receives playback spatial position information (Pos.), creates two playback channels corresponding to the left and right channels of the playback headset, so that these channels can be played back by the headset CA.

В одном примерном варианте осуществления информация о пространственном положении воспроизведения представляет собой информацию об азимутальном угле, образующем угол между желаемым положением воспроизведения и центром головы слушателя.In one exemplary embodiment, the playback spatial position information is azimuth angle information forming the angle between the desired playback position and the center of the listener's head.

Эта информация позволяет коэффициенту, который должен быть применен к каждому из каналов воспроизведения, обеспечить достижение этого пространственного положения воспроизведения, подлежащего определению.This information allows a factor to be applied to each of the playback channels to achieve that playback spatial position to be determined.

Коэффициенты передачи для левого и правого каналов могут быть вычислены способом, представленным в документе, озаглавленном «Virtual Sound Source Positioning Using Vector Base Amplitude Panning» от Ville Pulkki в J. Audio Eng. Soc., том 45, № 6, июнь 1997.The gains for the left and right channels can be calculated in the manner presented in the paper entitled "Virtual Sound Source Positioning Using Vector Base Amplitude Panning" by Ville Pulkki in J. Audio Eng. Soc., Vol. 45, No. 6, June 1997.

Например, коэффициенты передачи узла стереофонического воспроизведения могут быть заданы как:For example, the gains of a stereo playback node can be given as:

g1 = (cosO.sinH + sinO.cosH)/(2.cosH.sinH),g1 = (cosO.sinH + sinO.cosH)/(2.cosH.sinH),

g2 = (cosO.sinH - sinO.cosH)/(2.cosH.sinH),g2 = (cosO.sinH - sinO.cosH)/(2.cosH.sinH),

где g1 и g2 соответствуют коэффициентам для сигналов левого и правого каналов, O представляет собой угол между фронтальным направлением и объектом (называемый азимутом), и H представляет собой угол между фронтальным направлением и положением виртуального громкоговорителя (соответствующий половине угла между громкоговорителями), который задан равным, например, 45°.where g1 and g2 correspond to the coefficients for the left and right channel signals, O is the angle between the front direction and the object (called the azimuth), and H is the angle between the front direction and the position of the virtual speaker (corresponding to half the angle between the speakers), which is set to e.g. 45°.

Перед воспроизведением головной аудиогарнитурой эти каналы воспроизведения суммируются с каналами бинаурализированного сигнала, сгенерированными модулем 420 бинаурализации, который выполняет бинаурализационную обработку таким же образом, что и блок 120 на фиг. 1.Before being played back by the headset, these playback channels are added to the binauralized signal channels generated by the binauralization module 420, which performs binauralization processing in the same manner as block 120 in FIG. one.

Этот этап суммирования каналов выполняется модулем 440 непосредственного смешивания, который суммирует левый канал, сгенерированный узлом 431 стереофонического воспроизведения, с левым каналом бинаурализированного сигнала, сгенерированным модулем 420 бинаурализационной обработки, а также правый канал, сгенерированный узлом 431 стереофонического воспроизведения, с правым каналом бинаурализированного сигнала, полученным от модуля 420 бинаурализационной обработки, перед воспроизведением головной гарнитурой CA.This channel summing step is performed by the direct mixing module 440, which sums the left channel generated by the stereo playback node 431 with the left channel of the binauralized signal generated by the binauralization processing module 420, as well as the right channel generated by the stereo playback node 431 with the right channel of the binauralized signal, received from the binauralization processing module 420 before being played back by the headset CA.

Таким образом, монофонический сигнал не проходит через модуль 420 бинаурализационной обработки, он передается непосредственно на узел 431 стереофонического воспроизведения перед смешиванием непосредственно с бинаурализированным сигналом.Thus, the mono signal does not pass through the binauralization processing module 420, it is passed directly to the stereo playback unit 431 before being mixed directly with the binauralized signal.

В этом варианте осуществления узел 431 стереофонического воспроизведения может быть встроен в объектный узел 403 воспроизведения. В этом случае этот объектный узел воспроизведения реализует как адаптирование традиционных сигналов объектного типа, как описано со ссылкой на фиг. 1, так и создание двух каналов воспроизведения узла 431 воспроизведения, как описано выше, когда принимается информация (Pos.) о пространственном положении воспроизведения от модуля 404 декодирования параметров. Только два канала (2Vo.) воспроизведения тогда перенаправляются на модуль 440 непосредственного смешивания перед воспроизведением головной аудиогарнитурой CA.In this embodiment, the node 431 stereo playback can be built into the object node 403 playback. In this case, this object playback node implements as an adaptation of conventional object type signals as described with reference to FIG. 1 and creating two playback paths of the playback node 431 as described above when playback spatial position information (Pos.) is received from the parameter decoding unit 404 . Only two channels (2Vo.) of playback are then routed to the direct mix module 440 before being played back by the CA headset.

В одном иллюстративном варианте осуществления узел 431 стереофонического воспроизведения встроен в модуль 440 непосредственного смешивания. В этом случае модуль 430 маршрутизации направляет декодированный монофонический сигнал (Mo.) (для которого были обнаружены указание на невыполнение бинаурализации и информация о пространственном положении воспроизведения) на модуль 440 непосредственного смешивания. Кроме того, на модуль 440 непосредственного смешивания также передается декодированная информация (Pos.) о пространственном положении воспроизведения посредством модуля 404 декодирования параметров. Поскольку этот модуль непосредственного смешивания в таком случае содержит узел стереофонического воспроизведения, посредством него реализуется создание двух каналов воспроизведения, принимающих в расчет информацию о пространственном положении воспроизведения, и смешивание этих двух каналов воспроизведения с каналами воспроизведения бинаурализированного сигнала, сгенерированными модулем 420 бинаурализационной обработки.In one illustrative embodiment, the node 431 stereo playback is built into the module 440 direct mixing. In this case, the routing module 430 routes the decoded mono signal (Mo.) (for which the binauralization failure indication and playback spatial position information have been detected) to the direct mixing module 440 . In addition, the module 440 direct mixing is also transmitted decoded information (Pos.) about the spatial position of the playback through the module 404 decoding parameters. Since this direct mixing module then contains a stereo playback unit, it realizes the creation of two playback channels taking into account playback spatial position information, and mixing these two playback channels with the playback channels of the binauralized signal generated by the binauralization processing module 420.

На фиг. 5 изображен пример аппаратного варианта осуществления устройства обработки, способного реализовывать способ обработки согласно настоящему изобретению.In FIG. 5 depicts an exemplary hardware embodiment of a processing device capable of implementing the processing method of the present invention.

Устройство DIS содержит некоторый объем 530 для хранения, например, запоминающее устройство MEM, и блок 520 обработки, который содержит процессор PROC, управляемый компьютерной программой Pg, хранимой в запоминающем устройстве 530, и реализующей способ обработки согласно настоящему изобретению.The DIS device includes a storage volume 530, such as a memory device MEM, and a processing unit 520, which contains a PROC processor controlled by a computer program Pg stored in the memory device 530 and implements the processing method according to the present invention.

Компьютерная программа Pg содержит команды программного кода для реализации этапов способа обработки согласно настоящему изобретению при выполнении этих команд процессором PROC, и, в частности, при обнаружении в потоке данных, представляющем монофонический сигнал, указания на невыполнение бинаурализационной обработки, связанного с информацией о пространственном положении воспроизведения, выполнения этапа направления декодированного монофонического сигнала на узел стереофонического воспроизведения, который принимает в расчет информацию о положении для создания двух каналов воспроизведения, непосредственная обработка которых происходит на этапе непосредственного смешивания, где эти два сигнала суммируются с бинаурализированным сигналом, полученным в результате бинаурализационной обработки, с целью воспроизведения головной аудиогарнитурой.The computer program Pg contains program code instructions for implementing the steps of the processing method according to the present invention when these instructions are executed by the processor PROC, and in particular, when an indication is found in the data stream representing a mono signal that binauralization processing associated with playback spatial position information has not been performed. , performing the step of sending the decoded mono signal to the stereo playback node, which takes into account the position information to create two playback channels, the direct processing of which occurs in the direct mixing step, where these two signals are added to the binauralized signal obtained as a result of the binauralization processing, with for playback by an audio headset.

Как правило, описание на фиг. 2 применимо к этапам алгоритма такой компьютерной программы.Typically, the description in FIG. 2 applies to the algorithm steps of such a computer program.

При запуске команды кода программы Pg, например, загружаются в RAM (не показано) перед их выполнением процессором PROC блока 520 обработки. Команды программы могут храниться в информационном носителе, таком как флеш-память, жесткий диск или любой другой постоянный информационный носитель.On startup, program code instructions Pg are, for example, loaded into RAM (not shown) before they are executed by the processor PROC of the processing unit 520. Program instructions may be stored on a storage medium such as flash memory, a hard drive, or any other permanent storage medium.

Устройство DIS содержит приемный модуль 510, способный принимать поток данных SMo, представляющий, в частности, монофонический сигнал. Оно содержит модуль 540 обнаружения, способный обнаруживать в данном потоке данных указание на невыполнение бинаурализационной обработки, связанное с информацией о пространственном положении воспроизведения. Оно содержит модуль 550 для направления, в случае подтвержденного обнаружения модулем 540 обнаружения, декодированного монофонического сигнала на узел 560 стереофонического воспроизведения, при этом узел 560 стереофонического воспроизведения способен принимать в расчет информацию о положении для создания двух каналов воспроизведения.The DIS device includes a receiving module 510 capable of receiving an SMo data stream representing, in particular, a mono signal. It comprises a detection module 540 capable of detecting in a given data stream an indication of not performing binauralization processing associated with playback spatial position information. It contains a module 550 for forwarding, in the case of a confirmed detection by the detection module 540, a decoded mono signal to the stereo playback node 560, wherein the stereo playback node 560 is able to take into account the position information to create two playback channels.

Устройство DIS также содержит модуль 570 непосредственного смешивания, способный непосредственно обрабатывать два канала воспроизведения посредством суммирования их с двумя каналами бинаурализированного сигнала, сгенерированными модулем бинаурализационной обработки. Полученные таким образом каналы воспроизведения передаются на головную аудиогарнитуру CA посредством выходного модуля 560 для воспроизведения.The DIS device also includes a direct mixing module 570 capable of directly processing two playback channels by summing them with two binaural signal channels generated by the binaural processing module. The playback channels thus obtained are transmitted to the headset CA via the output module 560 for playback.

Варианты осуществления этих разнообразных модулей такие, как описано со ссылкой на фиг. 3 и 4.Embodiments of these various modules, such as those described with reference to FIG. 3 and 4.

Термин «модуль» может соответствовать либо программному компоненту, либо аппаратному компоненту, либо совокупности аппаратных и программных компонентов, при этом программный компонент как таковой соответствует одной или более компьютерным программам или подпрограммам или в более общем виде - любому элементу программы, способному реализовывать функцию или набор функций, как было описано в отношении рассматриваемых модулей. Подобным образом, аппаратный компонент соответствует любому элементу аппаратной совокупности, способной реализовывать функцию или набор функций в отношении рассматриваемого модуля (встроенная схема, печатная плата, карта памяти и т.д.).The term "module" can refer to either a software component, or a hardware component, or a combination of hardware and software components, with a software component as such referring to one or more computer programs or subroutines, or more generally, any program element capable of implementing a function or set of functions as described for the modules in question. Similarly, a hardware component corresponds to any element of a hardware collection capable of implementing a function or set of functions in relation to the module in question (embedded circuit, printed circuit board, memory card, etc.).

Устройство может быть встроено в аудиодекодер, как это изображено на фиг. 3 или 4, и может, например, быть встроено в мультимедийное оборудование, такое как телевизионная приставка или устройство считывания аудио- и видеоинформационного материала. Они также могут быть встроены в оборудование связи, такое как сотовый телефон или коммуникационный шлюз.The device may be embedded in an audio decoder, as shown in FIG. 3 or 4 and may, for example, be embedded in multimedia equipment such as a set-top box or an audio/video reader. They may also be embedded in communications equipment such as a cell phone or communications gateway.

Claims

1. A method for processing a mono audio signal in a 3D audio decoder, including the step of performing binauralization processing of decoded signals intended for spatial reproduction by an audio headset, characterized in that

upon detecting (E200) in the data stream representing a mono signal an indication of non-execution of binauralization processing associated with playback spatial position information, the decoded mono signal is sent (O-E200) to a stereo playback unit and/or a mixing module, which takes into account position information to create two channels (E220) playback, direct processing of which occurs in the stage (E230) direct mixing, where these two signals are added to the binauralized signal obtained as a result of binauralization processing, with the aim of playback (E240) headphone audio.

2. The method of claim 1, wherein the playback spatial position information is binary data indicative of one channel of the reproducing headset.

3. The method according to claim 2, characterized in that only the playback channel corresponding to the channel indicated by the binary data is added to the corresponding channel of the binauralized signal in the direct mixing step, while this value for the other playback channel is zero.

4. The method according to claim 1, characterized in that the mono signal is a channel-type signal, which is sent to the stereo playback unit and/or mixing module together with playback spatial position information.

5. The method of claim 4, wherein the playback spatial position information is interaural level difference (ILD) data.

6. The method according to claim 1, characterized in that the mono signal is an object type signal associated with a set of playback parameters containing an indication of not performing binauralization and playback position information, while the signal is sent to the stereo playback unit and / or mixing module together with playback position information.

7. The method of claim 6, wherein the playback spatial position information is azimuth angle data.

8. A device for processing a monophonic audio signal, containing a module for performing binauralization processing of decoded signals intended for spatial reproduction by an audio headset, characterized in that it contains:

- a detection module (330, 430) capable of detecting in the data stream representing a monophonic signal an indication of non-execution of binauralization processing associated with playback spatial position information;

a forwarding module (330, 430) capable, in the event of a confirmed detection by the detection module, forwarding the decoded mono signal to the stereo playback node;

- a stereo playback unit (331, 431) and/or a mixing module (340, 440) capable of taking into account position information to create two playback channels and capable of directly processing two playback channels by summing them with a binauralized signal generated by the module (320 , 420) to perform binauralization processing to be played back with an audio headset.

9. Processing device according to claim 8, characterized in that the stereo playback unit is built into the direct mixing module.

10. The device according to claim 8, characterized in that the mono signal is a channel type signal and the stereo playback unit is embedded in the channel playback unit, which also creates playback channels for multi-channel signals.

11. The device according to claim 8, characterized in that the mono signal is an object type signal and the stereo playback node is embedded in the object playback node, which, in addition, creates playback channels for mono signals associated with playback parameter sets.

12. An audio decoder comprising a processing device according to any one of claims 8-11.

13. A processor-readable storage medium storing a computer program containing instructions for performing the processing method according to any one of claims 1 to 7.