RU2406164C2 - Signal coding/decoding device and method - Google Patents
Signal coding/decoding device and method Download PDFInfo
- Publication number
- RU2406164C2 RU2406164C2 RU2008136007/09A RU2008136007A RU2406164C2 RU 2406164 C2 RU2406164 C2 RU 2406164C2 RU 2008136007/09 A RU2008136007/09 A RU 2008136007/09A RU 2008136007 A RU2008136007 A RU 2008136007A RU 2406164 C2 RU2406164 C2 RU 2406164C2
- Authority
- RU
- Russia
- Prior art keywords
- signal
- information
- downmix
- downmix signal
- filter
- Prior art date
Links
Images
Landscapes
- Stereophonic System (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
Область техники Technical field
Настоящее изобретение относится к способу кодирования/декодирования и устройству кодирования/декодирования, более конкретно, к устройству кодирования/декодирования, которое может обрабатывать аудиосигнал так, чтобы можно было создавать трехмерные (3D) звуковые эффекты, и способу кодирования/декодирования, использующему устройство кодирования/декодирования. The present invention relates to an encoding / decoding method and an encoding / decoding device, and more particularly, to an encoding / decoding device that can process an audio signal so that three-dimensional (3D) sound effects can be generated, and an encoding / decoding method using an encoding device / decoding.
Предшествующий уровень техникиState of the art
Устройство кодирования выполняет понижающее микширование многоканального сигнала в сигнал с меньшим количеством каналов и передает сигнал понижающего микширования на устройство декодирования. Затем устройство декодирования восстанавливает многоканальный сигнал из сигнала понижающего микширования и генерирует восстановленный многоканальный сигнал с использованием трех или больше динамиков, например, 5.1-канальных динамиков.The encoding device down-mixes the multi-channel signal into a signal with fewer channels and transmits the down-mix signal to the decoding device. The decoding apparatus then restores the multi-channel signal from the down-mix signal and generates the restored multi-channel signal using three or more speakers, for example, 5.1-channel speakers.
Многоканальные сигналы могут быть воспроизведены двухканальными динамиками, такими как наушники. В этом случае, чтобы создать у пользователя ощущение, как будто звуки, выведенные из двухканальных динамиков, были воспроизведены из трех или более источников звука, необходимо разработать трехмерные (3D) способы обработки, способные кодировать или декодировать многоканальные сигналы так, чтобы могли создаваться трехмерные эффекты. Multi-channel signals can be played back by dual-channel speakers, such as headphones. In this case, in order to make the user feel as if the sounds output from the two-channel speakers were reproduced from three or more sound sources, it is necessary to develop three-dimensional (3D) processing methods that can encode or decode multi-channel signals so that three-dimensional effects can be created .
Раскрытие изобретенияDisclosure of invention
Техническая проблемаTechnical problem
Настоящее изобретение обеспечивает устройство кодирования/декодирования и способ кодирования/декодирования, которые могут генерировать многоканальные сигналы в различных средах воспроизведения, эффективно обрабатывая сигналы с 3D эффектами. The present invention provides an encoding / decoding apparatus and an encoding / decoding method that can generate multi-channel signals in various playback environments, efficiently processing signals with 3D effects.
Техническое решениеTechnical solution
Согласно аспекту настоящего изобретения предложен способ декодирования для восстановления многоканального сигнала, причем способ декодирования включает в себя извлечение трехмерного (3D) сигнала понижающего микширования и пространственной информации из входного потока битов, удаление 3D эффектов из 3D сигнала понижающего микширования путем выполнения операции 3D воспроизведения над 3D сигналом понижающего микширования, и генерацию многоканального сигнала, используя пространственную информацию и сигнал понижающего микширования, полученный посредством удаления.According to an aspect of the present invention, there is provided a decoding method for reconstructing a multi-channel signal, the decoding method including extracting a three-dimensional (3D) downmix signal and spatial information from an input bit stream, removing 3D effects from a 3D downmix signal by performing a 3D reproduction operation on a 3D signal down-mix, and multi-channel signal generation using spatial information and a down-mix signal, we get through removal.
Согласно другому аспекту настоящего изобретения предложен способ декодирования для восстановления многоканального сигнала, причем способ декодирования включает в себя извлечение 3D сигнала понижающего микширования и пространственной информации из входного потока битов, генерацию многоканального сигнала, используя 3D сигнал понижающего микширования и пространственную информацию, и удаление 3D эффектов из многоканального сигнала путем выполнения операции 3D воспроизведения над многоканальным сигналом.According to another aspect of the present invention, there is provided a decoding method for reconstructing a multi-channel signal, the decoding method comprising extracting a 3D down-mix signal and spatial information from an input bit stream, generating a multi-channel signal using a 3D down-mix signal and spatial information, and removing 3D effects from a multi-channel signal by performing 3D playback on the multi-channel signal.
Согласно другому аспекту настоящего изобретения предложен способ кодирования для кодирования многоканального сигнала с множеством каналов, причем способ кодирования включает в себя кодирование многоканального сигнала в сигнал понижающего микширования с меньшим количеством каналов, генерацию пространственной информации относительно множества каналов, генерацию 3D сигнала понижающего микширования путем выполнения операции 3D воспроизведения над сигналом понижающего микширования, и генерацию потока битов, включающего в себя 3D сигнал понижающего микширования и пространственную информацию.According to another aspect of the present invention, there is provided an encoding method for encoding a multi-channel signal with multiple channels, the encoding method comprising encoding the multi-channel signal into a downmix signal with fewer channels, generating spatial information regarding the plurality of channels, generating a 3D downmix signal by performing a 3D operation playback over the downmix signal, and generating a bit stream including a 3D signal downmix and the spatial information.
Согласно другому аспекту настоящего изобретения предложен способ кодирования для кодирования многоканального сигнала с множеством каналов, причем способ кодирования включает в себя выполнение операции 3D воспроизведения над многоканальным сигналом, кодирование многоканального сигнала, полученного операцией 3D воспроизведения, в 3D сигнал понижающего микширования с меньшим количеством каналов, генерацию пространственной информации относительно множества каналов и генерацию потока битов, включающего в себя 3D сигнал понижающего микширования и пространственную информацию.According to another aspect of the present invention, there is provided an encoding method for encoding a multi-channel signal with multiple channels, the encoding method including performing a 3D playback operation on a multi-channel signal, encoding a multi-channel signal obtained by a 3D playback operation into a 3D downmix signal with fewer channels, generating spatial information regarding a plurality of channels; and generating a bit stream including a 3D downmix signal tion and spatial information.
Согласно другому аспекту настоящего изобретения предложено устройство декодирования для восстановления многоканального сигнала, причем устройство декодирования включает в себя блок распаковки битов, который извлекает кодированный 3D сигнал понижающего микширования и пространственную информацию из входного потока битов, декодер понижающего микширования, который декодирует кодированный 3D сигнал понижающего микширования, блок 3D воспроизведения, который удаляет 3D эффекты из декодированного 3D сигнала понижающего микширования, полученного декодированием, выполненным декодером понижающего микширования, посредством выполнения операции 3D воспроизведения над декодированным 3D сигналом понижающего микширования, и многоканальный декодер, который генерирует многоканальный сигнал, используя пространственную информацию и сигнал понижающего микширования, полученный удалением, выполненным блоком 3D воспроизведения.According to another aspect of the present invention, there is provided a decoding apparatus for reconstructing a multi-channel signal, wherein the decoding apparatus includes a bit decompression unit that extracts a 3D encoded downmix signal and spatial information from an input bit stream, a downmix decoder that decodes an encoded 3D downmix signal, a 3D reproducing unit that removes 3D effects from a decoded 3D down-mix signal obtained Nogo decoding performed by the decoder downmix by performing 3D playback of 3D decoded downmix signal and multi-channel decoder which generates a multichannel signal using the spatial information and the downmix signal obtained by removing the formed 3D playback unit.
Согласно другому аспекту настоящего изобретения предложено устройство декодирования для восстановления многоканального сигнала, причем устройство декодирования включает в себя блок распаковки битов, который извлекает кодированный 3D сигнал понижающего микширования и пространственную информацию из входного потока битов, декодер понижающего микширования, который декодирует кодированный 3D сигнал понижающего микширования, многоканальный декодер, который генерирует многоканальный сигнал, используя пространственную информацию и 3D сигнал понижающего микширования, полученный декодированием, выполненным декодером понижающего микширования, и блок 3D воспроизведения, который удаляет 3D эффекты из многоканального сигнала, выполняя операцию 3D воспроизведения над многоканальным сигналом.According to another aspect of the present invention, there is provided a decoding apparatus for reconstructing a multi-channel signal, wherein the decoding apparatus includes a bit decompression unit that extracts a 3D encoded downmix signal and spatial information from an input bit stream, a downmix decoder that decodes a 3D encoded downmix signal, a multi-channel decoder that generates a multi-channel signal using spatial information and 3D s nal downmix signal obtained by decoding, the decoder downmix and 3D playback unit that removes 3D effects from the multi-channel signal by performing 3D playback operation on a multichannel signal.
Согласно другому аспекту настоящего изобретения предложено устройство кодирования для кодирования многоканального сигнала с множеством каналов, причем устройство кодирования включает в себя многоканальный кодер, который кодирует многоканальный сигнал в сигнал понижающего микширования с меньшим количеством каналов и генерирует пространственную информацию относительно множества каналов, блок 3D воспроизведения, который генерирует 3D сигнал понижающего микширования, выполняя операцию 3D воспроизведения над сигналом понижающего микширования, кодер понижающего микширования, который кодирует 3D сигнал понижающего микширования, и блок компоновки битов, который генерирует поток битов, включающий в себя кодированный 3D сигнал понижающего микширования и пространственную информацию.According to another aspect of the present invention, there is provided an encoding device for encoding a multi-channel signal with multiple channels, the encoding device including a multi-channel encoder that encodes the multi-channel signal into a downmix signal with fewer channels and generates spatial information regarding the plurality of channels, a 3D rendering unit that generates a 3D down-mix signal by performing a 3D playback operation on the down-mix signal tion, the encoder downmix, which encodes 3D down-mix signal, and a block of bits arrangement, which generates a bitstream comprising an encoded 3D down-mix signal and spatial information.
Согласно другому аспекту настоящего изобретения предложено устройство кодирования для кодирования многоканального сигнала с множеством каналов, причем устройство кодирования включает в себя блок 3D воспроизведения, который выполняет операцию 3D воспроизведения над многоканальным сигналом, многоканальный кодер, который кодирует многоканальный сигнал, полученный операцией 3D воспроизведения, в трехмерный сигнал понижающего микширования с меньшим количеством каналов, и генерирует пространственную информацию относительно множества каналов, кодер понижающего микширования, который кодирует 3D сигнал понижающего микширования, и блок компоновки битов, который генерирует поток битов, включающий в себя кодированный 3D сигнал понижающего микширования и пространственную информацию.According to another aspect of the present invention, there is provided an encoding device for encoding a multi-channel signal with multiple channels, the encoding device including a 3D playback unit that performs a 3D playback operation on a multi-channel signal, a multi-channel encoder that encodes a multi-channel signal obtained by a 3D playback operation into three-dimensional a downmix signal with fewer channels, and generates spatial information regarding a plurality of channels nalov, a down-mix encoder that encodes a 3D down-mix signal, and a bit composition unit that generates a bit stream including an encoded 3D down-mix signal and spatial information.
Согласно другому аспекту настоящего изобретения предложен поток битов, включающий в себя поле данных, которое включает в себя информацию относительно 3D сигнала понижающего микширования, поле информации фильтра, которое включает в себя информацию фильтра, идентифицирующую фильтр, используемый для генерации 3D сигнала понижающего микширования, первое поле заголовка, которое включает в себя информацию, указывающую, содержит ли поле информации фильтра информацию фильтра, второе поле заголовка, которое включает в себя информацию, указывающую, содержит ли поле информации фильтра коэффициенты фильтра или коэффициенты инверсного фильтра для фильтра, и поле пространственной информации, которое включает в себя пространственную информацию относительно множества каналов.According to another aspect of the present invention, there is provided a bitstream including a data field that includes information regarding a 3D downmix signal, a filter information field that includes filter information identifying a filter used to generate a 3D downmix signal, a first field a header, which includes information indicating whether the filter information field contains filter information, a second header field, which includes information indicating whether the filter information field contains filter coefficients or inverse filter coefficients for the filter, and a spatial information field that includes spatial information regarding the plurality of channels.
Согласно другому аспекту настоящего изобретения предложен машиночитаемый носитель записи, имеющий компьютерную программу для выполнения любого из вышеописанных способов декодирования и вышеописанных способов кодирования.According to another aspect of the present invention, there is provided a computer readable recording medium having a computer program for performing any of the above decoding methods and the above encoding methods.
Полезные эффектыBeneficial effects
Согласно настоящему изобретению возможно эффективно кодировать многоканальные сигналы с 3D эффектами и адаптивно восстанавливать и воспроизводить аудиосигналы с оптимальным качеством звучания согласно особенностям среды воспроизведения. According to the present invention, it is possible to efficiently encode multi-channel signals with 3D effects and adaptively restore and reproduce audio signals with optimal sound quality according to the characteristics of the playback environment.
Краткое описание чертежейBrief Description of the Drawings
Фиг. 1 - блок-схема устройства кодирования/декодирования согласно варианту осуществления настоящего изобретения;FIG. 1 is a block diagram of an encoding / decoding apparatus according to an embodiment of the present invention;
Фиг. 2 - блок-схема устройства кодирования согласно варианту осуществления настоящего изобретения;FIG. 2 is a block diagram of an encoding device according to an embodiment of the present invention;
Фиг. 3 - блок-схема устройства декодирования согласно варианту осуществления настоящего изобретения;FIG. 3 is a block diagram of a decoding apparatus according to an embodiment of the present invention;
Фиг. 4 - блок-схема устройства кодирования согласно другому варианту осуществления настоящего изобретения; FIG. 4 is a block diagram of an encoding device according to another embodiment of the present invention;
Фиг. 5 - блок-схема устройства декодирования согласно другому варианту осуществления настоящего изобретения; FIG. 5 is a block diagram of a decoding apparatus according to another embodiment of the present invention;
Фиг. 6 - блок-схема устройства декодирования согласно другому варианту осуществления настоящего изобретения; FIG. 6 is a block diagram of a decoding apparatus according to another embodiment of the present invention;
Фиг. 7 - блок-схема трехмерного (3D) устройства воспроизведения согласно варианту осуществления настоящего изобретения; FIG. 7 is a block diagram of a three-dimensional (3D) reproducing apparatus according to an embodiment of the present invention;
Фиг. 8-11 иллюстрируют потоки битов согласно вариантам осуществления настоящего изобретения; FIG. 8-11 illustrate bit streams according to embodiments of the present invention;
Фиг. 12 - блок-схема устройства кодирования/декодирования для обработки произвольного сигнала понижающего микширования согласно варианту осуществления настоящего изобретения; FIG. 12 is a block diagram of an encoding / decoding apparatus for processing an arbitrary downmix signal according to an embodiment of the present invention;
Фиг. 13 - блок-схема произвольного блока 3D воспроизведения/компенсации сигнала понижающего микширования согласно варианту осуществления настоящего изобретения; FIG. 13 is a block diagram of an arbitrary down-mix signal reproduction /
Фиг. 14 - блок-схема устройства декодирования для обработки совместимого сигнала понижающего микширования согласно варианту осуществления настоящего изобретения; FIG. 14 is a block diagram of a decoding apparatus for processing a compatible downmix signal according to an embodiment of the present invention;
Фиг. 15 - блок-схема блока 3D воспроизведения/обработки совместимости понижающего микширования согласно варианту осуществления настоящего изобретения; и FIG. 15 is a block diagram of a 3D down-mix compatibility playback / processing unit according to an embodiment of the present invention; and
Фиг. 16 - блок-схема устройства декодирования для компенсации перекрестной связи согласно варианту осуществления настоящего изобретения.FIG. 16 is a block diagram of a decoding apparatus for compensating cross-coupling according to an embodiment of the present invention.
Лучший режим выполнения изобретения The best mode of carrying out the invention
Настоящее изобретение будет в дальнейшем описано более полно со ссылками на иллюстрирующие чертежи, на которых представлены приведенные для примера варианты осуществления изобретения. The present invention will be further described more fully with reference to the accompanying drawings, in which exemplary embodiments of the invention are presented.
На фиг. 1 показана блок-схема устройства кодирования/декодирования согласно варианту осуществления настоящего изобретения. Согласно фиг. 1 блок 100 кодирования 100 включает в себя многоканальный кодер 110, блок 120 3D воспроизведения, кодер 130 понижающего микширования и блок 140 компоновки битов 140. In FIG. 1 is a block diagram of an encoding / decoding apparatus according to an embodiment of the present invention. According to FIG. 1, coding unit 100 includes a multi-channel encoder 110, a 3D rendering unit 120, a down-mix encoder 130, and a bitmap unit 140.
Многоканальный кодер 110 выполняет понижающее микширование многоканального сигнала с множеством каналов в сигнал понижающего микширования, такой как стереосигнал или моносигнал, и генерирует пространственную информацию относительно каналов многоканального сигнала. Пространственная информация необходима, чтобы восстановить многоканальный сигнал из сигнала понижающего микширования. The multi-channel encoder 110 downmixes a multi-channel multi-channel signal into a down-mix signal, such as a stereo signal or a mono signal, and generates spatial information regarding the channels of the multi-channel signal. Spatial information is needed to reconstruct a multi-channel signal from a downmix signal.
Примеры пространственной информации включают разность уровней каналов (CLD), которая указывает различие между уровнями энергии пары каналов, коэффициент предсказания канала (CRC), который является коэффициентом предсказания, используемым для генерации 3-канального сигнала, основанного на 2-канальном сигнале, межканальную корреляцию (ICC), которая указывает корреляцию между парой каналов, и разность времени каналов (CTD), которая является временным интервалом между парой каналов. Examples of spatial information include a channel level difference (CLD), which indicates the difference between the energy levels of a channel pair, a channel prediction coefficient (CRC), which is a prediction coefficient used to generate a 3-channel signal based on a 2-channel signal, inter-channel correlation ( ICC), which indicates a correlation between a pair of channels, and a channel time difference (CTD), which is a time interval between a pair of channels.
Блок 120 3D воспроизведения генерирует 3D сигнал понижающего микширования, основанный на сигнале понижающего микширования. 3D сигнал понижающего микширования может быть 2-канальным сигналом с тремя или более направленностями и может, таким образом, воспроизводиться 2-канальными динамиками, такими как наушники с 3D эффектами. Другими словами, 3D сигнал понижающего микширования может быть воспроизведен 2-канальными динамиками так, чтобы пользователь мог воспринимать, как будто 3D сигнал понижающего микширования был воспроизведен из источника звука с тремя или более каналами. Направление источника звука может быть определено, основываясь, по меньшей мере, на одном из разности между интенсивностями двух звуков соответственно приходящих на оба уха, временного интервала между двумя звуками и разности фаз двух звуков. Поэтому блок 120 3D воспроизведения может преобразовать сигнал понижающего микширования в 3D сигнал понижающего микширования, основываясь на том, как люди могут определить 3D местоположение источника звука своими органами слуха.The 3D reproduction unit 120 generates a 3D downmix signal based on the downmix signal. The 3D down-mix signal can be a 2-channel signal with three or more directions and can thus be played back by 2-channel speakers, such as headphones with 3D effects. In other words, the 3D down-mix signal can be reproduced by 2-channel speakers so that the user can perceive as if the 3D down-mix signal was reproduced from a sound source with three or more channels. The direction of the sound source can be determined based on at least one of the difference between the intensities of the two sounds respectively coming to both ears, the time interval between the two sounds and the phase difference of the two sounds. Therefore, the 3D reproducing unit 120 can convert the downmix signal to a 3D downmix signal based on how people can determine the 3D location of the sound source with their hearing organs.
Блок 120 3D воспроизведения может генерировать 3D сигнал понижающего микширования путем фильтрации сигнала понижающего микширования, используя фильтр. В этом случае, связанная с фильтром информация, например коэффициент фильтра, может быть введена в блок 120 3D воспроизведения внешним источником. Блок 120 3D воспроизведения может использовать пространственную информацию, предоставленную многоканальным кодером 110, чтобы генерировать 3D сигнал понижающего микширования, основанный на сигнале понижающего микширования. Более конкретно, блок 120 3D воспроизведения может преобразовать сигнал понижающего микширования в 3D сигнал понижающего микширования путем преобразования сигнала понижающего микширования в воображаемый многоканальный сигнал, используя пространственную информацию и фильтруя воображаемый многоканальный сигнал.The 3D reproduction unit 120 may generate a 3D downmix signal by filtering the downmix signal using a filter. In this case, filter related information, for example, a filter coefficient, may be input to the 3D rendering unit 120 by an external source. The 3D reproducing unit 120 may use the spatial information provided by the multi-channel encoder 110 to generate a 3D downmix signal based on the downmix signal. More specifically, the 3D reproducing unit 120 can convert the downmix signal to a 3D downmix signal by converting the downmix signal into an imaginary multi-channel signal using spatial information and filtering the imaginary multi-channel signal.
Блок 120 3D воспроизведения может генерировать 3D сигнал понижающего микширования путем фильтрации сигнала понижающего микширования, используя фильтр со связанной с головой передаточной функцией (HRTF).The 3D reproduction unit 120 may generate a 3D downmix signal by filtering the downmix signal using a head-related transfer function filter (HRTF).
HRTF - передаточная функция, которая описывает передачу звуковых волн между источником звука в произвольном местоположении и барабанной перепонкой, и возвращает значение, которое изменяется согласно направлению и высоте источника звука. Если сигнал без направленности фильтруется с использованием HRTF, то сигнал может прослушиваться так, как будто он был воспроизведен из определенного направления.HRTF is a transfer function that describes the transmission of sound waves between a sound source at an arbitrary location and the eardrum, and returns a value that changes according to the direction and height of the sound source. If a signal with no directivity is filtered using HRTF, then the signal can be listened as if it was reproduced from a specific direction.
Блок 120 3D воспроизведения может выполнить операцию 3D воспроизведения в частотной области, например, области дискретного преобразования Фурье (ДПФ), области быстрого преобразования Фурье (БПФ). В этом случае, блок 3D воспроизведения 120 может выполнить ДПФ или БПФ перед операцией 3D воспроизведения или может выполнить обратное ДПФ (ОДПФ) или обратное БПФ (ОБПФ) после операции 3D воспроизведения.The 3D reproduction unit 120 may perform 3D reproduction in the frequency domain, for example, the discrete Fourier transform (DFT) region, the fast Fourier transform (FFT) region. In this case, the 3D rendering unit 120 may perform DFT or FFT before the 3D playback operation, or may perform the inverse DFT (ODPF) or the inverse FFT (OBPF) after the 3D playback operation.
Блок 120 3D воспроизведения может выполнить операцию 3D воспроизведения в области квадратурного зеркального фильтра (QMF)/гибридной области. В этом случае, блок 120 3D воспроизведения 120 может выполнить операции QMF/гибридного анализа и синтеза до или после операции 3D воспроизведения.The 3D reproduction unit 120 may perform a 3D reproduction operation in the quadrature mirror filter (QMF) / hybrid region. In this case, the 3D rendering unit 120 may perform QMF / hybrid analysis and synthesis operations before or after the 3D playback operation.
Блок 120 3D воспроизведения может выполнить операцию 3D воспроизведения во временной области. Блок 120 3D воспроизведения может определить, в какой области должна быть выполнена операция 3D воспроизведения согласно необходимому качеству звучания и операционным возможностям устройства кодирования/декодирования.The 3D reproduction unit 120 may perform 3D reproduction in the time domain. The 3D playback unit 120 may determine in which area the 3D playback operation is to be performed according to the desired sound quality and the operational capabilities of the encoding / decoding device.
Кодер 130 понижающего микширования кодирует сигнал понижающего микширования, выведенный многоканальным кодером 110, или сигнал 3D понижающего микширования, выведенный блоком 120 3D воспроизведения. Кодер 130 понижающего микширования может кодировать сигнал понижающего микширования, выведенный многоканальным кодером 110, или 3D сигнал понижающего микширования, выведенный блоком 120 3D воспроизведения, использующим способ аудиокодирования, способ усовершенствованного аудио кодирования (AAC), способ MPEG уровня 3 (MP3) или способ кодирования с использованием разрядной арифметики (BSAC).The down-mix encoder 130 encodes the down-mix signal output by the multi-channel encoder 110, or the down-
Кодер 130 понижающего микширования может кодировать не-3D сигнал понижающего микширования или 3D сигнал понижающего микширования. В этом случае, кодированный не-3D сигнал понижающего микширования и кодированный 3D сигнал понижающего микширования могут оба быть включены в поток битов, который должен передаваться.The downmix encoder 130 may encode a non-3D downmix signal or a 3D downmix signal. In this case, the encoded non-3D down-mix signal and the encoded 3D down-mix signal can both be included in the bit stream to be transmitted.
Блок 140 компоновки битов генерирует поток битов на основе пространственной информации и либо кодированного не-3D сигнала понижающего микширования, либо кодированного 3D сигнала понижающего микширования.The bitmap unit 140 generates a bitstream based on spatial information and either an encoded non-3D downmix signal or an encoded 3D downmix signal.
Поток битов, сгенерированный блоком 140 компоновки битов, может включать в себя пространственную информацию, информацию идентификации понижающего микширования, указывающую, является ли сигнал понижающего микширования, включенный в поток битов, не-3D сигналом понижающего микширования или 3D сигналом понижающего микширования, и информацию, идентифицирующую фильтр, используемый блоком 120 3D воспроизведения (например, информацию коэффициентов HRTF).The bitstream generated by the bitmap unit 140 may include spatial information, downmix identification information indicating whether the downmix signal included in the bitstream is a non-3D downmix signal or a 3D downmix signal, and information identifying a filter used by 3D rendering unit 120 (e.g., HRTF coefficient information).
Другими словами, поток битов, сгенерированный блоком 140 компоновки битов, может включать в себя, по меньшей мере, один из не-3D сигнала понижающего микширования, который еще не прошел 3D обработку, и 3D сигнала понижающего микширования кодера, который получен операцией 3D-обработки, выполненной устройством кодирования, и информацию идентификации понижающего микширования, идентифицирующую тип сигнала понижающего микширования, включенного в поток битов.In other words, the bitstream generated by the bitmap unit 140 may include at least one of a non-3D downmix signal that has not yet undergone 3D processing, and a 3D encoder downmix signal that is obtained by the 3D processing operation performed by the encoding device and downmix identification information identifying the type of downmix signal included in the bit stream.
Может быть определено, какой из не-3D сигнала понижающего микширования и 3D сигнала понижающего микширования кодера должен быть включен в поток битов, сгенерированный блоком 140 компоновки битов, по выбору пользователя или согласно функциональным возможностям устройства кодирования/декодирования, проиллюстрированного на фиг. 1, и характеристикам среды воспроизведения.It can be determined which of the non-3D downmix signal and the 3D encoder downmix signal should be included in the bit stream generated by the bit mapper 140, as selected by the user or according to the functionality of the encoding / decoding apparatus illustrated in FIG. 1, and the characteristics of the playback environment.
Информация коэффициентов HRTF может включать в себя коэффициенты обратной функции HRTF, используемой блоком 120 3D воспроизведения. Информация коэффициентов HRTF может только включать краткую информацию коэффициентов HRTF, используемую блоком 120 3D воспроизведения, например, информацию огибающей коэффициентов HRTF. Если поток битов, включающий в себя коэффициенты обратной функции HRTF, передается на устройство декодирования, то устройству декодирования не требуется выполнять операцию преобразования коэффициентов HRTF, и таким образом, объем вычислений устройства декодирования может быть уменьшен.The HRTF coefficient information may include the coefficients of the inverse HRTF function used by the 3D rendering unit 120. The HRTF coefficient information may only include a brief HRTF coefficient information used by the 3D rendering unit 120, for example, envelope information of HRTF coefficients. If the bitstream including the inverse HRTF coefficients is transmitted to the decoding device, the decoding device does not need to perform the HRTF coefficient conversion operation, and thus, the computation amount of the decoding device can be reduced.
Поток битов, сгенерированный блоком 140 компоновки битов, может также включать в себя информацию относительно изменения энергии в сигнале, обусловленного фильтрацией на основе HRTF, то есть информацию относительно различия между энергией сигнала, подлежащего фильтрации, и энергией сигнала, который был отфильтрован, или отношения энергии сигнала, подлежащего фильтрации, и энергии сигнала, который был отфильтрован.The bitstream generated by the bitmap unit 140 may also include information regarding the energy change in the signal due to HRTF filtering, that is, information regarding the difference between the energy of the signal to be filtered and the energy of the signal that has been filtered, or the energy ratio the signal to be filtered, and the energy of the signal that has been filtered.
Поток битов, сгенерированный блоком 140 компоновки битов, может также включать в себя информацию, указывающую, включает ли он коэффициенты функции HRTF. Если коэффициенты функции HRTF включены в поток битов, сгенерированный блоком 140 компоновки битов, поток битов также может включать в себя информацию, указывающую, включает ли он коэффициенты функции HRTF, используемой блоком 120 3D воспроизведения, или коэффициенты обратной функции HRTF.The bitstream generated by the bitmap unit 140 may also include information indicating whether it includes HRTF coefficients. If the coefficients of the HRTF function are included in the bit stream generated by the bitmap unit 140, the bit stream may also include information indicating whether it includes the coefficients of the HRTF function used by the 3D rendering unit 120 or the coefficients of the inverse HRTF function.
Согласно фиг. 1 первый блок 200 декодирования включает в себя блок 210 распаковки битов, декодер 220 понижающего микширования, блок 230 3D воспроизведения и многоканальный декодер 240.According to FIG. 1, the first decoding unit 200 includes a bit decompression unit 210, a downmix decoder 220, a 3D playback unit 230, and a multi-channel decoder 240.
Блок 210 распаковки битов принимает входной поток битов из блока 100 кодирования и извлекает кодированный сигнал понижающего микширования и пространственную информацию из входного потока битов. Декодер 220 понижающего микширования декодирует кодированный сигнал понижающего микширования. Декодер 220 понижающего микширования может декодировать кодированный сигнал понижающего микширования, используя способ декодирования аудиосигнала, такой как способ AAC, способ MP3 или способ BSAC.The bit decompression unit 210 receives the input bit stream from the encoding unit 100 and extracts the encoded down-mix signal and spatial information from the input bit stream. The downmix decoder 220 decodes the encoded downmix signal. The downmix decoder 220 may decode the encoded downmix signal using an audio decoding method such as an AAC method, an MP3 method, or a BSAC method.
Как описано выше, кодированный сигнал понижающего микширования, извлеченный из входного потока битов, может быть кодированным не-3D сигналом понижающего микширования или кодированным 3D сигналом понижающего микширования кодера. Информация, указывающая, является ли кодированный сигнал понижающего микширования, извлеченный из входного потока битов, кодированным не-3D сигналом понижающего микширования или кодированным 3D сигналом понижающего микширования кодера, может быть включена во входной поток битов.As described above, the encoded downmix signal extracted from the input bitstream may be an encoded non-3D downmix signal or an encoded 3D encoder downmix signal. Information indicating whether the encoded downmix signal extracted from the input bitstream is an encoded non-3D downmix signal or a encoded 3D encoder downmix signal may be included in the input bitstream.
Если кодированный сигнал понижающего микширования, извлеченный из входного потока битов, является 3D сигналом понижающего микширования кодера, то кодированный сигнал понижающего микширования может быть просто воспроизведен, будучи декодированным декодером 220 понижающего микширования.If the encoded downmix signal extracted from the input bitstream is a 3D encoder downmix signal, then the encoded downmix signal can be simply reproduced by being decoded by the downmix decoder 220.
С другой стороны, если кодированный сигнал понижающего микширования, извлеченный из входного потока битов, является не-3D сигналом понижающего микширования, то кодированный сигнал понижающего микширования может быть декодирован декодером 220 понижающего микширования, и сигнал понижающего микширования, полученный декодированием, может быть преобразован в 3D сигнал понижающего микширования декодера посредством операции 3D воспроизведения, выполняемой третьим блоком 233 воспроизведения. 3D сигнал понижающего микширования декодера может быть просто воспроизведен.On the other hand, if the encoded downmix signal extracted from the input bit stream is a non-3D downmix signal, then the encoded downmix signal can be decoded by the downmix decoder 220, and the downmix signal obtained by decoding can be converted to 3D a decoder down-mix signal by a 3D playback operation performed by the third playback unit 233. The 3D decoder down-mix signal can be simply played back.
Блок 230 3D воспроизведения содержит первый блок 231 воспроизведения, второй блок 232 воспроизведения и третий блок 233 воспроизведения. Первый блок 231 воспроизведения генерирует сигнал понижающего микширования, выполняя операцию 3D воспроизведения над 3D сигналом понижающего микширования кодера, предоставленным декодером 220 понижающего микширования. Например, первый блок 231 воспроизведения может генерировать не-3D сигнал понижающего микширования, удаляя 3D эффекты из 3D сигнала понижающего микширования кодера. 3D эффекты 3D сигнала понижающего микширования кодера не могут быть полностью удалены первым блоком 231 воспроизведения. В этом случае, сигнал понижающего микширования, выведенный первым блоком 231 воспроизведения, может иметь некоторые 3D эффекты.The 3D reproducing unit 230 comprises a first reproducing unit 231, a second reproducing unit 232 and a third reproducing unit 233. The first reproducing unit 231 generates a downmix signal by performing a 3D reproduction operation on a 3D encoder downmix signal provided by the downmix decoder 220. For example, the first reproduction unit 231 may generate a non-3D down-mix signal by removing 3D effects from the 3D encoder down-mix signal. 3D effects of the 3D encoder downmix signal cannot be completely removed by the first reproduction unit 231. In this case, the down-mix signal output by the first reproducing unit 231 may have some 3D effects.
Первый блок 231 воспроизведения может преобразовать 3D сигнал понижающего микширования, предоставленный декодером 220 понижающего микширования, в сигнал понижающего микширования с удаленными из него 3D эффектами, используя фильтр, инверсный фильтру, используемому блоком 120 3D воспроизведения блока 100 кодирования. Информация относительно фильтра, используемого блоком 120 3D воспроизведения, или фильтра, инверсного фильтру, используемому блоком 120 3D воспроизведения, может быть включена во входной поток битов.The first reproducing unit 231 may convert the 3D downmix signal provided by the downmix decoder 220 into a downmix signal with 3D effects removed from it using a filter inverse to the filter used by the 3D reproducing unit 120 of the encoding unit 100. Information regarding a filter used by the 3D reproducing unit 120, or a filter inverse to the filter used by the 3D reproducing unit 120, may be included in the input bitstream.
Фильтр, используемый блоком 120 3D воспроизведения, может быть фильтром HRTF. В этом случае, коэффициенты HRTF, используемой блоком 100 кодирования 100, или коэффициенты инверсной функции HRTF, могут также быть включены во входной поток битов. Если коэффициенты HRTF, используемой блоком 100 кодирования, включены во входной поток битов, коэффициенты HRTF могут быть обратно преобразованы, и результаты обратного преобразования могут использоваться во время операции 3D воспроизведения, выполняемой первым блоком 231 воспроизведения. Если коэффициенты инверсной функции HRTF, используемой блоком 100 кодирования, включены во входной поток битов, они могут просто использоваться во время операции 3D воспроизведения, выполняемой первым блоком 231 воспроизведения, не подвергаясь никакой операции инверсного преобразования. В этом случае, объем вычислительных операций первого устройства 100 декодирования может быть уменьшен.The filter used by the 3D rendering unit 120 may be an HRTF filter. In this case, the HRTF coefficients used by the coding unit 100, or the HRTF inverse function coefficients, may also be included in the input bit stream. If the HRTF coefficients used by the coding unit 100 are included in the input bitstream, the HRTF coefficients may be inverted, and the inverse transform results may be used during the 3D playback operation performed by the first playback unit 231. If the coefficients of the inverse HRTF function used by the encoding unit 100 are included in the input bit stream, they can simply be used during the 3D playback operation performed by the first playback unit 231 without undergoing any inverse conversion operation. In this case, the computational volume of the first decoding apparatus 100 can be reduced.
Входной поток битов может также включать информацию фильтра (например, информацию, указывающую, включены ли коэффициенты HRTF, используемой блоком 100 кодирования, во входной поток битов) и информацию, указывающую, была ли информация фильтра подвергнута инверсному преобразованию.The input bit stream may also include filter information (for example, information indicating whether the HRTF coefficients used by the encoding unit 100 are included in the input bit stream) and information indicating whether the filter information has been inverted.
Многоканальный декодер 240 генерирует 3D многоканальный сигнал с тремя или более каналами на основе сигнала понижающего микширования с удаленными 3D эффектами и пространственной информации, извлеченной из входного потока битов.Multichannel decoder 240 generates a 3D multichannel signal with three or more channels based on a downmix signal with remote 3D effects and spatial information extracted from the input bit stream.
Второй блок 232 воспроизведения может генерировать 3D сигнал понижающего микширования с 3D эффектами, выполняя операцию 3D воспроизведения над сигналом понижающего микширования с удаленными 3D эффектами. Другими словами, первый блок 231 воспроизведения удаляет 3D эффекты из 3D сигнала понижающего микширования кодера, предоставленного декодером 220 понижающего микширования. После этого, второй блок 232 воспроизведения может генерировать объединенный 3D сигнал понижающего микширования с 3D эффектами, желательными для первого устройства 200 декодирования 200, выполняя операцию 3D воспроизведения над сигналом понижающего микширования, полученным удалением, выполненным первым блоком 231 воспроизведения с использованием фильтра первого устройства 200 декодирования.The second playback unit 232 may generate a 3D downmix signal with 3D effects by performing a 3D reproduction operation on the downmix signal with 3D effects removed. In other words, the first reproducing unit 231 removes 3D effects from the 3D encoder downmix signal provided by the downmix decoder 220. Thereafter, the second reproducing unit 232 may generate a combined 3D downmix signal with 3D effects desired for the first decoding apparatus 200 by performing a 3D reproducing operation on the downmix signal obtained by deletion performed by the first reproducing unit 231 using a filter of the first decoding apparatus 200 .
Первое устройство 200 декодирования может включать в себя блок воспроизведения, в который встроены два или более первых, вторых и третьих блоков 231, 232 и 233 воспроизведения, которые выполняют те же самые операции.The first decoding device 200 may include a playback unit in which two or more first, second and third playback units 231, 232 and 233 are integrated that perform the same operations.
Поток битов, генерированный блоком 100 кодирования, может быть введен во второе устройство 300 декодирования, которое имеет структуру, отличающуюся от структуры первого устройства 200 декодирования. Второе устройство 300 декодирования может генерировать 3D сигнал понижающего микширования, основанный на сигнале понижающего микширования, включенном в подаваемый на него входной поток битов.The bitstream generated by the encoding unit 100 may be input to the second decoding device 300, which has a structure different from that of the first decoding device 200. The second decoding device 300 may generate a 3D down-mix signal based on the down-mix signal included in the input bit stream supplied thereto.
Более определенно, второе устройство 300 декодирования включает в себя блок 310 распаковки, декодер понижающего микширования 320 и блок 330 3D воспроизведения 330. Блок 310 распаковки битов принимает входной поток битов от блока 100 кодирования и извлекает кодированный сигнал понижающего микширования и пространственную информацию из входного потока битов. Декодер 320 понижающего микширования декодирует кодированный сигнал понижающего микширования. Блок 330 3D воспроизведения выполняет операцию 3D воспроизведения над декодированным сигналом понижающего микширования так, чтобы декодированный сигнал понижающего микширования мог быть преобразован в 3D сигнал понижающего микширования.More specifically, the second decoding device 300 includes an decompression unit 310, a downmix decoder 320, and a 3D reproducer 330 330. The bit decompression unit 310 receives an input bit stream from an encoding unit 100 and extracts the encoded downmix signal and spatial information from the input bit stream . The downmix decoder 320 decodes the encoded downmix signal. The 3D reproducing unit 330 performs a 3D reproducing operation on the decoded down-mix signal so that the decoded down-mix signal can be converted to a 3D down-mix signal.
Фиг. 2 - блок-схема устройства кодирования согласно варианту осуществления настоящего изобретения. Согласно фиг. 2 устройство кодирования включает в себя блоки 400 и 420 воспроизведения и многоканальный кодер 410. Детальные описания тех же самых процессов кодирования, что и для варианта осуществления по фиг. 1, будут опущены.FIG. 2 is a block diagram of an encoding apparatus according to an embodiment of the present invention. According to FIG. 2, the encoding device includes
Согласно фиг. 2 блоки 400 и 420 3D воспроизведения могут быть соответственно расположены перед и после многоканального кодера 410. Таким образом, многоканальный сигнал может трехмерно воспроизводиться блоком 400 3D воспроизведения и затем трехмерно воспроизведенный многоканальный сигнал может кодироваться многоканальным кодером 410, таким образом, генерируя предварительно обработанный 3D сигнал понижающего микширования кодера. Альтернативно, многоканальный сигнал может быть подвергнут понижающему микшированию многоканальным кодером 410, и затем сигнал понижающего микширования может быть трехмерно воспроизведен блоком 420 3D воспроизведения, таким образом генерируя прошедший постобработку сигнал понижающего микширования кодера.According to FIG. 2, the
Информация, указывающая, был ли многоканальный сигнал трехмерно воспроизведен до или после понижающего микширования, может быть включена в поток битов, подлежащий передаче.Information indicating whether the multi-channel signal has been three-dimensionally reproduced before or after the down-mix can be included in the bit stream to be transmitted.
Блоки 400 и 420 могут оба быть расположены перед или позади многоканального кодирующего устройства 410.
Фиг. 3 - блок-схема устройства декодирования согласно варианту осуществления настоящего изобретения. Согласно фиг. 3 устройство декодирования включает в себя блоки 430 и 450 3D воспроизведения и многоканальный декодер 440. Детальные описания тех же самых процессов декодирования, что и в варианте осуществления по фиг. 1, будут опущены.FIG. 3 is a block diagram of a decoding apparatus according to an embodiment of the present invention. According to FIG. 3, the decoding apparatus includes
Согласно фиг. 3 блоки 430 и 450 3D воспроизведения могут быть соответственно расположены перед и после многоканального декодера 440. Блок 430 3D воспроизведения может удалить 3D эффекты из 3D сигнала понижающего микширования кодера и ввести сигнал понижающего микширования, полученный удалением, в многоканальный декодер 430. Затем многоканальный декодер 430 может декодировать поданный на него входной сигнал понижающего микширования, таким образом генерируя предварительно обработанный 3D многоканальный сигнал. Альтернативно, многоканальный декодер 430 может восстановить многоканальный сигнал из кодированного 3D сигнала понижающего микширования, и блок 450 3D воспроизведения может удалить 3D эффекты из восстановленного многоканального сигнала, таким образом, формируя прошедший постобработку 3D многоканальный сигнал.According to FIG. 3, the
Если 3D сигнал понижающего микширования кодера, предоставленный устройством кодирования, был генерирован выполнением операции 3D воспроизведения и затем операции понижающего микширования, то 3D сигнал понижающего микширования кодера может быть декодирован путем выполнения многоканальной операции декодирования и затем операции 3D воспроизведения. С другой стороны, если 3D сигнал понижающего микширования кодера был генерирован путем выполнения операции понижающего микширования и затем операции 3D воспроизведения, то 3D сигнал понижающего микширования может быть декодирован путем выполнения операции 3D воспроизведения и затем операции многоканального декодирования.If the 3D encoder down-mix signal provided by the encoding device was generated by performing the 3D playback operation and then the down-mix operation, the 3D encoder down-mix signal can be decoded by performing a multi-channel decoding operation and then the 3D playback operation. On the other hand, if a 3D encoder downmix signal was generated by performing a downmix operation and then a 3D playback operation, then the 3D downmix signal can be decoded by performing a 3D playback operation and then a multi-channel decoding operation.
Информация, указывающая, был ли кодированный 3D сигнал понижающего микширования получен путем выполнения операции 3D воспроизведения до или после операции понижающего микширования, может быть извлечена из потока битов, переданного устройством кодирования.Information indicating whether the encoded 3D down-mix signal has been obtained by performing the 3D playback operation before or after the down-mix operation can be extracted from the bit stream transmitted by the encoding device.
Блоки 430 и 450 3D воспроизведения могут оба быть расположены перед или после многоканального декодера 440.
Фиг. 4 - блок-схема устройства кодирования согласно другому варианту осуществления настоящего изобретения. Согласно фиг. 4 устройство кодирования включает в себя многоканальный кодер 500, блок 510 3D воспроизведения, кодер 520 понижающего микширования и блок 530 компоновки битов. Детальные описания тех же самых процессов кодирования, что и в варианте осуществления по фиг.1, будут опущены.FIG. 4 is a block diagram of an encoding device according to another embodiment of the present invention. According to FIG. 4, an encoding device includes a
Согласно фиг. 4 многоканальный кодер 500 генерирует сигнал понижающего микширования и пространственную информацию, основанную на входном многоканальном сигнале. Блок 510 3D воспроизведения генерирует 3D сигнал понижающего микширования, выполняя операцию 3D воспроизведения над сигналом понижающего микширования.According to FIG. 4, a
Может быть определено, следует ли выполнять операцию 3D воспроизведения над сигналом понижающего микширования по выбору пользователя или согласно функциональным возможностям устройства кодирования, характеристикам среды воспроизведения или требуемого качества звучания.It can be determined whether to perform the 3D playback operation on the downmix signal of the user's choice or according to the functionality of the encoding device, the characteristics of the playback environment, or the desired sound quality.
Кодер 520 понижающего микширования кодирует сигнал понижающего микширования, генерированный многоканальным кодером 500 или 3D сигнал понижающего микширования, генерированный блоком 510 3D воспроизведения.The
Блок 530 компоновки битов генерирует поток битов, основываясь на пространственной информации или кодированном сигнале понижающего микширования, или кодированном 3D сигнале понижающего микширования кодера. Поток битов, сгенерированный блоком 530 компоновки битов, может включать в себя информацию идентификации понижающего микширования, указывающую, является ли кодированный сигнал понижающего микширования, включенный в поток битов, не-3D сигналом понижающего микширования без 3D эффектов или 3D сигналом понижающего микширования кодера с 3D эффектами. Более определенно, информация идентификации понижающего микширования может указывать, включает ли поток битов, генерированный блоком 530 компоновки битов, не-3D сигнал понижающего микширования, 3D сигнал понижающего микширования кодера или оба эти сигнала.The
Фиг. 5 - блок-схема устройства декодирования согласно другому варианту осуществления настоящего изобретения. Согласно фиг. 5 устройство декодирования включает в себя блок 540 распаковки, декодер 550 понижающего микширования и блок 560 3D воспроизведения. Детальные описания тех же самых процессов декодирования, что и варианте осуществления по фиг. 1, будут опущены.FIG. 5 is a block diagram of a decoding apparatus according to another embodiment of the present invention. According to FIG. 5, the decoding apparatus includes an
Согласно фиг. 5 блок 540 распаковки битов извлекает кодированный сигнал понижающего микширования, пространственную информацию и информацию идентификации понижающего микширования из входного потока битов. Информация идентификации понижающего микширования указывает, является ли кодированный сигнал понижающего микширования кодированным не-3D сигналом понижающего микширования без 3D эффектов или кодированным 3D сигналом понижающего микширования с 3D эффектами.According to FIG. 5, the
Если входной поток битов включает в себя как не-3D сигнал понижающего микширования, так и 3D сигнал понижающего микширования, только один из не-3D сигнала понижающего микширования и 3D сигнала понижающего микширования может быть извлечен из входного потока битов по выбору пользователя или согласно функциональным возможностям устройства декодирования, характеристикам среды воспроизведения или требуемого качества звучания.If the input bitstream includes both a non-3D downmix signal and a 3D downmix signal, only one of the non-3D downmix signal and the 3D downmix signal can be extracted from the input bitstream at the user's choice or according to functionality decoding device, the characteristics of the playback environment or the desired sound quality.
Декодер 550 понижающего микширования 550 декодирует кодированный сигнал понижающего микширования. Если сигнал понижающего микширования, полученный декодированием, выполненным декодером 550 понижающего микширования, является 3D сигналом понижающего микширования кодера, полученным выполнением операции 3D воспроизведения, сигнал понижающего микширования может быть просто воспроизведен.The
С другой стороны, если сигнал понижающего микширования, полученный декодированием, выполненным декодером 550 понижающего микширования, является сигналом понижающего микширования без 3D эффектов, блок 560 3D воспроизведения может генерировать 3D сигнал понижающего микширования декодера, выполняя операцию 3D воспроизведения над сигналом понижающего микширования, полученным декодированием, выполненным декодером 550 понижающего микширования.On the other hand, if the downmix signal obtained by decoding by the
Фиг. 6 - блок-схема устройства декодирования согласно другому варианту осуществления настоящего изобретения. Согласно фиг. 6 устройство декодирования включает блок 600 распаковки, декодер 610 понижающего микширования, первый блок 620 3D воспроизведения, второй блок 630 3D воспроизведения и блок 640 хранения информации фильтра. Детальные описания тех же самых процессов декодирования, что и в варианте осуществления по фиг. 1, будут опущены.FIG. 6 is a block diagram of a decoding apparatus according to another embodiment of the present invention. According to FIG. 6, the decoding device includes an
Блок 600 распаковки битов извлекает кодированный трехмерный сигнал понижающего микширования кодера и пространственную информацию из входного потока битов. Декодер 610 понижающего микширования декодирует кодированный 3D сигнал понижающего микширования кодера.The
Первый блок 620 3D воспроизведения удаляет 3D эффекты из 3D сигнала понижающего микширования кодера, полученного декодированием, выполненным декодером 610 понижающего микширования, используя фильтр, инверсный фильтру устройства кодирования, для выполнения операции 3D воспроизведения. Второй блок 630 воспроизведения генерирует объединенный 3D сигнал понижающего микширования с 3D эффектами, выполняя операцию 3D воспроизведения над сигналом понижающего микширования, полученным удалением, выполненным первым блоком 620 3D воспроизведения, с использованием фильтра, сохраненного в устройстве декодирования.The first
Второй блок 630 3D воспроизведения может выполнить операцию 3D воспроизведения, используя фильтр, имеющий характеристики, отличные от характеристик фильтра блока кодирования, используемого для выполнения операции 3D воспроизведения. Например, второй блок 630 3D воспроизведения может выполнить операцию 3D воспроизведения, используя HRTF, имеющую коэффициенты, отличные от коэффициентов для HRTF, используемой устройством кодирования.The second
Блок 640 хранения информации фильтра хранит информацию фильтра, касающуюся фильтра, используемого для выполнения 3D воспроизведения, например, информацию коэффициентов HRTF. Второй блок 630 3D воспроизведения может генерировать объединенное 3D понижающее микширование, используя информацию фильтра, сохраненную в блоке 640 хранения информации фильтра 640.A filter
Блок 640 хранения информации фильтра 640 может хранить множество частей информации фильтра, соответственно множеству фильтров. В этом случае, одна из множества частей информации фильтра может быть отобрана по выбору пользователя или согласно функциональным возможностям устройства декодирования или требованиям качества звучания.A filter
Люди различных рас могут иметь различные структуры уха. Таким образом, коэффициенты HRTF, оптимизированные для различных людей, могут отличаться друг от друга. Устройство декодирования, проиллюстрированное на фиг. 6, может генерировать 3D сигнал понижающего микширования, оптимизированный для пользователя. Кроме того, устройство декодирования, проиллюстрированное на фиг. 6, может генерировать 3D сигнал понижающего микширования с 3D эффектами, соответствующими фильтру HRTF, желательному для пользователя, независимо от типа HRTF, предоставляемого провайдером 3D сигнала понижающего микширования.People of different races may have different ear structures. Thus, HRTF coefficients optimized for different people can differ from each other. The decoding device illustrated in FIG. 6, can generate a 3D downmix signal optimized for the user. In addition, the decoding apparatus illustrated in FIG. 6, can generate a 3D down-mix signal with 3D effects corresponding to the HRTF filter desired by the user, regardless of the type of HRTF provided by the 3D down-mix signal provider.
Фиг. 7 - блок-схема устройства 3D воспроизведения согласно варианту осуществления настоящего изобретения. Согласно фиг. 7 устройство 3D воспроизведения включает первый и второй блоки 700 и 720 преобразования поля и блок 710 3D воспроизведения. Чтобы выполнить операцию 3D воспроизведения в предопределенной области, первый и второй блоки 700 и 720 преобразования области могут быть соответственно расположены перед и после блока 710 3D воспроизведения.FIG. 7 is a block diagram of a 3D reproducing apparatus according to an embodiment of the present invention. According to FIG. 7, the 3D reproducing apparatus includes first and second
Согласно фиг. 7 входной сигнал понижающего микширования преобразуется в сигнал понижающего микширования частотной области первым блоком 700 преобразования области. Более определенно, первый блок 700 преобразования области может преобразовать входной сигнал понижающего микширования в сигнал понижающего микширования области ДПФ или сигнал понижающего микширования области БПФ, выполняя ДПФ или БПФ.According to FIG. 7, the downmix input is converted to a downmix signal of the frequency domain by the first
Блок 710 3D воспроизведения генерирует многоканальный сигнал, применяя пространственную информацию к сигналу понижающего микширования частотной области, предоставленному первым блоком 700 преобразования области. Затем блок 710 3D воспроизведения 710 генерирует 3D сигнал понижающего микширования, фильтруя многоканальный сигнал.The
3D сигнал понижающего микширования, генерированный блоком 710 3D воспроизведения, преобразуется в 3D сигнал понижающего микширования временной области вторым блоком 720 преобразования области. Более определенно, второй блок 720 преобразования области может выполнить ОДПФ или ОБПФ над 3D сигналом понижающего микширования, сгенерированным блоком 710 3D воспроизведения.The 3D down-mix signal generated by the
Во время преобразования частотной области 3D сигнала понижающего микширования в 3D сигнал понижающего микширования временной области может произойти потеря данных или искажение данных, такое как наложение спектров (помеха дискретизации).During the conversion of the frequency domain of a 3D down-mix signal to a 3D time-domain down-mix signal, data loss or data distortion, such as spectral overlapping (sampling interference), may occur.
Чтобы генерировать многоканальный сигнал и 3D сигнал понижающего микширования в частотной области, пространственная информация для каждого параметрического диапазона может быть отображена на частотную область, и множество коэффициентов фильтра могут быть преобразованы в частотную область.In order to generate a multi-channel signal and a 3D down-mix signal in the frequency domain, spatial information for each parametric range can be mapped to the frequency domain, and a plurality of filter coefficients can be converted to the frequency domain.
Блок 710 3D воспроизведения может генерировать 3D сигнал понижающего микширования путем умножения сигнала понижающего микширования частотной области, предоставленного первым блоком 700 преобразования области, пространственной информации и коэффициентов фильтра.The
Сигнал временной области, полученный умножением сигнала понижающего микширования, пространственной информации и множества коэффициентов фильтра, которые все представлены в М-точечной частотной области, имеет М действительных сигналов. Чтобы представить сигнал понижающего микширования, пространственную информацию и фильтр в М-точечной частотной области, может быть выполнено М-точечное ДПФ или М-точечное БПФ.The time-domain signal obtained by multiplying the down-mix signal, spatial information and a plurality of filter coefficients, which are all represented in the M-point frequency domain, has M real signals. To represent the downmix signal, spatial information, and a filter in the M-point frequency domain, an M-point DFT or M-point FFT can be performed.
Действительные сигналы являются сигналами, которые не обязательно имеют значение 0. Например, всего x действительных сигналов может генерироваться получением x сигналов из аудиосигнала посредством дискретизации. Из x действительных сигналов, y действительных сигналов могут быть дополнены нулями. Тогда количество действительных сигналов сокращается до (x-y). После этого, сигнал с а действительными сигналами и сигнал с b действительными сигналами подвергаются свертке, таким образом, получая в общей сложности (a+b-1) действительных сигналов.Valid signals are signals that do not necessarily have a value of 0. For example, a total of x valid signals can be generated by obtaining x signals from an audio signal by sampling. Of the x valid signals, y valid signals can be padded with zeros. Then the number of valid signals is reduced to (x-y). After that, the signal with a valid signals and the signal with b valid signals are convolved, thereby obtaining a total of (a + b-1) valid signals.
Умножение сигнала понижающего микширования, пространственной информации и коэффициентов фильтра в М-точечной частотной области может обеспечить тот же самый эффект, что и свертка сигнала понижающего микширования, пространственной информации и коэффициентов фильтра во временной области. Сигнал с (3·M-2) действительными сигналами может быть сгенерирован путем преобразования сигнала понижающего микширования, пространственной информации и коэффициентов фильтра в М-точечной частотной области и свертки результатов преобразования.Multiplying the down-mix signal, spatial information and filter coefficients in the M-point frequency domain can provide the same effect as the convolution of the down-mix signal, spatial information and filter coefficients in the time domain. A signal with (3 · M-2) real signals can be generated by converting a down-mix signal, spatial information and filter coefficients in the M-point frequency domain and convolution of the conversion results.
Поэтому число действительных сигналов для сигнала, полученного умножением сигнала понижающего микширования, пространственной информации и коэффициентов фильтра в частотной области и преобразованием результата умножения во временную область, может отличаться от числа действительных сигналов для сигнала, полученного сверткой сигнала понижающего микширования, пространственной информации и коэффициентов фильтра во временной области. В результате наложение спектров может произойти во время преобразования 3D сигнала понижающего микширования в частотной области в сигнал временной области.Therefore, the number of valid signals for the signal obtained by multiplying the down-mix signal, spatial information and filter coefficients in the frequency domain and converting the multiplication result to the time domain may differ from the number of valid signals for the signal obtained by convolution of the down-mix signal, spatial information and filter coefficients in time domain. As a result, superposition of the spectra can occur during the conversion of the 3D down-mix signal in the frequency domain into a time-domain signal.
Чтобы предотвратить наложение спектров, сумма числа действительных сигналов для сигнала понижающего микширования во временной области, числа действительных сигналов пространственной информации, отображенных в частотную область, и числа коэффициентов фильтра, не должна быть больше, чем М. Число действительных сигналов пространственной информации, отображенных на частотную область, может быть определено числом точек частотной области. Другими словами, если пространственная информация, представленная для каждого параметрического диапазона, отображается на N-точечную частотную область, число действительных сигналов пространственной информации может быть равно N.To prevent overlapping spectra, the sum of the number of valid signals for the downmix signal in the time domain, the number of valid spatial information signals mapped to the frequency domain, and the number of filter coefficients should not be more than M. The number of valid spatial information signals mapped to the frequency region, can be determined by the number of points in the frequency domain. In other words, if the spatial information provided for each parametric range is mapped to an N-point frequency domain, the number of valid spatial information signals may be N.
Согласно фиг. 7 первый блок 700 преобразования области включает в себя первый блок 701 заполнения нулями и первый блок 702 преобразования частотной области. Третий блок 710 воспроизведения включает в себя блок 711 отображения, блок 712 преобразования временной области, второй блок 713 заполнения нулями, второй блок 714 преобразования частотной области, блок 715 генерации многоканального сигнала, третий блок 716 заполнения нулями, третий блок 717 преобразования частотной области и блок 718 генерации 3D сигнала понижающего микширования.According to FIG. 7, the first
Первый блок 701 заполнения нулями выполняет операцию заполнения нулями над сигналом понижающего микширования с X выборками во временной области так, чтобы число выборок сигнала понижающего микширования могло быть увеличено от X до М. Первый блок 702 преобразования частотной области преобразует дополненный нулями сигнал понижающего микширования в М-точечный сигнал частотной области. Дополненный нулями сигнал понижающего микширования имеет М выборок. Из М выборок дополненного нулями сигнала понижающего микширования только X выборок являются действительными сигналами.The first zero-
Блок 711 отображения отображает пространственную информацию для каждого параметрического диапазона в N-точечную область. Блок 712 преобразования временной области преобразует пространственную информацию, полученную отображением, выполненным блоком 711 отображения, во временную область. Пространственная информация, полученная преобразованием, выполненным блоком 712 преобразования временной области, имеет N выборок.A
Второй блок 713 заполнения нулями выполняет операцию дополнения нулями над пространственной информацией с N выборками во временной области так, чтобы число выборок пространственной информации могло быть увеличено от N до М. Второй блок 714 преобразования частотной области преобразует дополненную нулями пространственную информацию в М-точечный сигнал частотной области. Дополненная нулями пространственная информация имеет N выборок. Из N выборок дополненной нулями пространственной информации, только N выборок являются действительными.The second zero padding unit 713 performs a zero padding operation on spatial information with N samples in the time domain so that the number of spatial information samples can be increased from N to M. A second frequency
Блок 715 генерации многоканального сигнала генерирует многоканальный сигнал, умножая сигнал понижающего микширования, предоставленный первым блоком 715 генерации многоканального сигнала, и пространственную информацию, предоставленную вторым блоком 714 преобразования частотной области. Многоканальный сигнал, сгенерированный блоком 715 генерации многоканального сигнала, имеет М действительных сигналов. С другой стороны, многоканальный сигнал, полученный сверткой во временной области сигнала понижающего микширования, предоставленного первым блоком 712 преобразования временной области, и пространственной информации, предоставленной вторым блоком 714 преобразования частотной поля, имеет (X+N-1) действительных сигналов.The multi-channel
Третий блок 716 дополнения нулями может выполнить операцию дополнения нулями над Y коэффициентами фильтра, которые представлены во временной области, так, чтобы число выборок могло быть увеличено до М. Третий блок 717 преобразования частотной области преобразует дополненные нулями коэффициенты фильтра в М-точечную частотную область. Дополненные нулями коэффициенты фильтра имеют М выборок. Из М выборок только Y выборок являются действительными сигналами.The third zeros block 716 can perform the zeros operation on the Y filter coefficients that are presented in the time domain so that the number of samples can be increased to M. The third frequency
Блок 718 генерации 3D сигнала понижающего микширования генерирует 3D сигнал понижающего микширования, умножая многоканальный сигнал, сгенерированный блоком 715 генерации многоканального сигнала, и множество коэффициентов фильтра, предоставленных третьим блоком 717 преобразования частотной области. 3D сигнал понижающего микширования, сгенерированный блоком 718 генерации 3D сигнала понижающего микширования, имеет М действительных сигналов. С другой стороны, 3D сигнал понижающего микширования, полученный сверткой во временной области многоканального сигнала, сгенерированного блоком 715 генерации многоканального сигнала, и коэффициенты фильтра, предоставленные третьим блоком 717 преобразования частотной области, имеет (X+N+Y-2) действительных сигналов.The 3D downmix
Возможно предотвратить наложение спектров, устанавливая М точечную частотную области, используемую первым, вторым и третьим блоками 702, 714 и 717 преобразования частотной области, чтобы удовлетворять следующему уравнению: M≥(X+N+Y-2). Другими словами, возможно предотвратить наложение спектров, обеспечивая возможность первому, второму и третьему блокам 702, 714 и 717 преобразования частотной области выполнять М-точечное ДПФ или М-точечное БПФ, которое удовлетворяет следующему уравнению: M≥(X+N+Y-2).It is possible to prevent aliasing by setting the M dot frequency domain used by the first, second and third frequency domain transform blocks 702, 714 and 717 to satisfy the following equation: M≥ (X + N + Y-2). In other words, it is possible to prevent overlapping spectra by allowing the first, second, and third frequency domain transform blocks 702, 714, and 717 to perform an M-point DFT or M-point FFT that satisfies the following equation: M≥ (X + N + Y-2 )
Преобразование в частотную область может быть выполнено с использованием банка фильтров иного, чем банк фильтров ДПФ, банк фильтров БПФ и банк QMF. Генерация 3D сигнала понижающего микширования может быть выполнена с использованием фильтра HRTF.Conversion to the frequency domain can be performed using a filter bank other than the DFT filter bank, the FFT filter bank, and the QMF bank. The generation of a 3D down-mix signal can be performed using an HRTF filter.
Число действительных сигналов пространственной информации может быть настроено с использованием способа иного, чем вышеупомянутый способ, или может быть настроено с использованием одного из вышеупомянутых способов, который является самым эффективным и требует наименьшего количества вычислений.The number of valid spatial information signals may be tuned using a method other than the aforementioned method, or may be tuned using one of the aforementioned methods, which is the most efficient and requires the least calculation.
Наложение спектров может произойти не только во время преобразования сигнала, коэффициента или пространственной информации из частотной области во временную область или наоборот, но также и во время преобразования сигнала, коэффициента или пространственной информации из области QMF в гибридную область или наоборот. Вышеупомянутые способы предотвращения наложения спектров могут также использоваться, чтобы препятствовать тому, чтобы наложение спектров произошло во время преобразования сигнала, коэффициента или пространственной информации из области QMF в гибридную область или наоборот.The superposition of spectra can occur not only during the conversion of the signal, coefficient or spatial information from the frequency domain to the time domain or vice versa, but also during the conversion of the signal, coefficient or spatial information from the QMF to the hybrid region or vice versa. The aforementioned methods of preventing spectral aliasing can also be used to prevent the aliasing of spectra from occurring during the conversion of a signal, coefficient or spatial information from a QMF region to a hybrid region or vice versa.
Пространственная информация, используемая для генерации многоканального сигнала или 3D сигнала понижающего микширования, может измениться. В результате изменения пространственной информации могут произойти нарушения непрерывности сигнала в виде шума в выходном сигнале.The spatial information used to generate the multi-channel signal or 3D down-mix signal may change. As a result of changes in spatial information, signal continuity disturbances in the form of noise in the output signal may occur.
Шум в выходном сигнале может быть уменьшен с использованием способа сглаживания, которым может быть предотвращено быстрое изменение пространственной информации.Noise in the output signal can be reduced using a smoothing method that can prevent a rapid change in spatial information.
Например, когда первая пространственная информация, применяемая к первому кадру, отличается от второй пространственной информации, применяемой ко второму кадру, когда первый кадр и второй кадр будут смежными друг с другом, весьма вероятно, что разрыв непрерывности произойдет между первым и вторым кадрами.For example, when the first spatial information applied to the first frame is different from the second spatial information applied to the second frame, when the first frame and the second frame are adjacent to each other, it is very likely that a continuity gap will occur between the first and second frames.
В этом случае, вторая пространственная информация может быть скомпенсирована в отношении использования первой пространственной информации, или первая пространственная информация может быть скомпенсирована в отношении использования второй пространственной информации так, чтобы различие между первой пространственной информацией и второй пространственной информацией могло быть уменьшено, и шум, вызванный разрывом непрерывности между первым и вторым кадрами, мог быть уменьшен. Более конкретно, по меньшей мере, одна из первой пространственной информации и второй пространственной информации может быть заменена средним значением первой пространственной информации и второй пространственной информации, таким образом, уменьшая шум.In this case, the second spatial information can be compensated for the use of the first spatial information, or the first spatial information can be compensated for the use of the second spatial information so that the difference between the first spatial information and the second spatial information can be reduced, and noise caused gap continuity between the first and second frames, could be reduced. More specifically, at least one of the first spatial information and the second spatial information can be replaced by an average value of the first spatial information and the second spatial information, thereby reducing noise.
Шум, вероятно, будет также генерироваться из-за разрыва непрерывности между парой смежных параметрических диапазонов. Например, когда третья пространственная информация, соответствующая первому параметрическому диапазону, отличается от четвертой пространственной информации, соответствующей второму параметрическому диапазону, когда первый и второй параметрические диапазоны являются смежными друг с другом, нарушение непрерывности, вероятно, произойдет между первым и вторым параметрическими диапазонами.Noise is also likely to be generated due to a continuity gap between a pair of adjacent parametric ranges. For example, when the third spatial information corresponding to the first parametric range is different from the fourth spatial information corresponding to the second parametric range, when the first and second parametric ranges are adjacent to each other, discontinuity is likely to occur between the first and second parametric ranges.
В этом случае третья пространственная информация может быть скомпенсирована в отношении использования четвертой пространственной информации, или четвертая пространственная информация может быть скомпенсирована в отношении использования третьей пространственной информации так, чтобы различие между третьей пространственной информацией и четвертой пространственной информацией могло быть уменьшено, и шум, вызванный нарушением непрерывности между первым и вторым параметрическими дипазонами, мог быть уменьшен. Более конкретно, по меньшей мере, одна из третьей пространственной информации и четвертой пространственной информации может быть заменена средним значением третьей пространственной информации и четвертой пространственной информации, таким образом, уменьшая шум.In this case, the third spatial information can be compensated for the use of the fourth spatial information, or the fourth spatial information can be compensated for the use of the third spatial information so that the difference between the third spatial information and the fourth spatial information can be reduced, and the noise caused by the violation continuity between the first and second parametric ranges could be reduced. More specifically, at least one of the third spatial information and the fourth spatial information can be replaced by an average value of the third spatial information and the fourth spatial information, thereby reducing noise.
Шум, вызванный нарушением непрерывности между парой смежных кадров или парой смежных параметрических диапазонов, может быть уменьшен, используя способы иные, чем вышеупомянутые способы.Noise caused by the disruption of continuity between a pair of adjacent frames or a pair of adjacent parametric ranges can be reduced using methods other than the above methods.
Более конкретно, каждый кадр может быть умножен на окно, такое как Hanning-окно, и схема "наложение и добавление" может быть применена к результатам умножения так, чтобы изменения между кадрами могли быть уменьшены. Альтернативно, выходной сигнал, к которому применяется множество частей пространственной информации, может быть сглажен так, чтобы изменения между множеством кадров выходного сигнала могли быть предотвращены.More specifically, each frame can be multiplied by a window, such as a Hanning window, and the overlay and add scheme can be applied to the multiplication results so that changes between frames can be reduced. Alternatively, the output signal to which the plurality of pieces of spatial information is applied may be smoothed so that changes between the plurality of frames of the output signal can be prevented.
Декорреляция между каналами в области ДПФ, используя пространственную информацию, например, ICC, может быть настроена следующим образом.Decorrelation between channels in the DFT region using spatial information, for example, ICC, can be configured as follows.
Степень декорреляции может быть настроена, умножая коэффициент сигнала, введенного в блок «один к двум» (OTT) или «два к трем» (TTT), на предопределенное значение. Предопределенное значение может быть определено следующим уравнением: (А+(l-A·A)^0,5·i), где A указывает значение ICC, примененное к предопределенному диапазону блока OTT или TTT, и i указывает мнимую часть. Мнимая часть может быть положительной или отрицательной.The degree of decorrelation can be adjusted by multiplying the coefficient of the signal input to the one-to-two (OTT) or two-to-three (TTT) block by a predetermined value. The predefined value can be determined by the following equation: (A + (l-A · A) ^ 0.5 · i), where A indicates the ICC value applied to the predefined range of the OTT or TTT block, and i indicates the imaginary part. The imaginary part can be positive or negative.
Предопределенное значение может соответствовать весовому коэффициенту согласно характеристикам сигнала, например уровня энергии сигнала, характеристикам энергии каждой частоты сигнала, или типа блока, к которому применено значение А ICC. В результате введения весового коэффициента степень декорреляции может быть дополнительно настроена, и может быть применено межкадровое сглаживание или интерполяция. The predetermined value may correspond to a weighting coefficient according to the characteristics of the signal, for example, the signal energy level, the energy characteristics of each signal frequency, or the type of unit to which the ICC value A is applied. By introducing the weight coefficient, the degree of decorrelation can be further adjusted, and interframe smoothing or interpolation can be applied.
Как описано выше со ссылкой на фиг. 7, 3D сигнал понижающего микширования может генерироваться в частотной области с использованием HRTF или связанной с головой импульсной характеристики (HRIR), которая преобразована в частотную область.As described above with reference to FIG. 7, a 3D down-mix signal can be generated in the frequency domain using HRTF or a head-related impulse response (HRIR) that is converted to the frequency domain.
Альтернативно, 3D сигнал понижающего микширования может генерироваться сверткой HRIR и сигнала понижающего микширования во временной области. 3D сигнал понижающего микширования, сгенерированный в частотной области, можно оставить в частотной области, не подвергая инверсному преобразованию области.Alternatively, a 3D downmix signal may be generated by convolution of the HRIR and the downmix signal in the time domain. The 3D down-mix signal generated in the frequency domain can be left in the frequency domain without undergoing inverse transform of the domain.
Для свертки HRIR и сигнала понижающего микширования во временной области может использоваться фильтр с конечным импульсным откликом (FIR) или фильтр с бесконечным импульсным откликом (IIR).For the convolution of the HRIR and the downmix signal in the time domain, a finite impulse response filter (FIR) or an infinite impulse response filter (IIR) can be used.
Как описано выше, устройство кодирования или устройство декодирования согласно варианту осуществления настоящего изобретения могут генерировать 3D сигнал понижающего микширования, используя первый способ, который предусматривает использование HRTF в частотной области, или HRIR, преобразованный в частотную область, второй способ, который предусматривает свертку HRIR во временной области, или комбинацию первого и второго способов.As described above, an encoding device or a decoding device according to an embodiment of the present invention can generate a 3D down-mix signal using the first method, which involves the use of HRTF in the frequency domain, or HRIR converted to the frequency domain, the second method, which involves convolution of HRIR in time areas, or a combination of the first and second methods.
Фиг. 8 - 11 иллюстрируют потоки битов согласно вариантам осуществления настоящего изобретения.FIG. 8 to 11 illustrate bit streams according to embodiments of the present invention.
Согласно фиг. 8 поток битов включает в себя поле информации многоканального декодирования, которое содержит информацию, необходимую для генерации многоканального сигнала, поле информации 3D воспроизведения, которое содержит информацию, необходимую для генерации 3D сигнала понижающего микширования, и поле заголовка, которое содержит информацию заголовка, необходимую для использования информации, включенной в поле информации многоканального декодирования, и информации, включенной в поле информации 3D воспроизведения. Поток битов может включать в себя только одно или два из полей информации многоканального декодирования, поля информации 3D воспроизведения и поля заголовка.According to FIG. 8, the bitstream includes a multi-channel decoding information field that contains information necessary for generating a multi-channel signal, a 3D playback information field that contains information necessary to generate a 3D down-mix signal, and a header field that contains header information necessary for use information included in the multi-channel decoding information field, and information included in the 3D playback information field. The bitstream may include only one or two of the multi-channel decoding information fields, 3D playback information fields, and header fields.
Согласно фиг. 9 поток битов, который содержит побочную информацию, необходимую для операции декодирования, может включать в себя поле заголовка конкретной конфигурации, которое содержит информацию заголовка всего кодированного сообщения и множество полей данных кадра, которые содержат побочную информацию относительно множества кадров. Более определенно, каждое из полей данных кадра может включать в себя поле заголовка кадра, которое содержит информацию заголовка соответствующего кадра, и поле данных параметра кадра, которое содержит пространственную информацию соответствующего кадра. Альтернативно, каждое из полей данных кадра может включать в себя только поле данных параметра кадра.According to FIG. 9, a bit stream that contains side information necessary for a decoding operation may include a specific configuration header field that contains header information of the entire encoded message and a plurality of frame data fields that contain side information regarding the plurality of frames. More specifically, each of the frame data fields may include a frame header field that contains header information of a corresponding frame and a frame parameter data field that contains spatial information of a corresponding frame. Alternatively, each of the frame data fields may include only a frame parameter data field.
Каждое из полей данных параметра кадра может включать множество модулей, причем каждый модуль включает в себя данные параметра и флаг. Модули представляют собой наборы данных, включая данные параметра, такие как пространственная информация и другие данные, такие как данные усиления понижающего микширования и сглаживания, которые необходимы для улучшения качества звучания сигнала.Each of the frame parameter data fields may include multiple modules, each module including parameter data and a flag. Modules are data sets, including parameter data, such as spatial information and other data, such as downmix gain and smoothing data, which are necessary to improve the sound quality of a signal.
Если данные модуля относительно информации, определенной областями заголовка кадра, приняты без какого-нибудь дополнительного флага, если информация, определенная полями заголовка кадра дополнительно классифицирована, или если приняты дополнительный флаг и данные в связи с информацией, не определенной заголовком кадра, то данные модуля могут не включать какого-либо флага.If the module data regarding the information defined by the frame header regions is received without any additional flag, if the information defined by the frame header fields is further classified, or if the additional flag and data are received in connection with information not defined by the frame header, then the module data may do not include any flag.
Побочная информация относительно 3D сигнала понижающего микширования, например информация коэффициентов HRTF, может быть включена в, по меньшей мере, одно из полей заголовка конкретной конфигурации, полей заголовка кадра и полей данных параметров кадра.Side information regarding the 3D downmix signal, for example, HRTF coefficient information, may be included in at least one of the specific configuration header fields, frame header fields, and frame parameter data fields.
Согласно фиг. 10 поток битов может включать в себя множество полей информации многоканального декодирования, которые содержат информацию, необходимую для генерации многоканальных сигналов и множество полей информации 3D воспроизведения, которые содержат информацию, необходимую для генерации 3D сигналов понижающего микширования.According to FIG. 10, the bitstream may include a plurality of multi-channel decoding information fields that contain information necessary for generating multi-channel signals and a plurality of 3D playback information fields that contain information necessary for generating 3D down-mix signals.
При приеме потока битов устройство декодирования может использовать поля информации многоканального декодирования или поля информации 3D воспроизведения, чтобы выполнить операцию декодирования, и пропустить какие-либо из полей информации многоканального декодирования и полей информации 3D воспроизведения поля, не используемые в операции декодирования. В этом случае, может быть определено, какие из полей информации многоканального декодирования и полей информации 3D воспроизведения должны использоваться, чтобы выполнить операцию декодирования согласно типу сигналов, подлежащих воспроизведению.Upon receiving the bitstream, the decoding device may use the multichannel decoding information fields or 3D playback information fields to perform the decoding operation, and skip any of the multichannel decoding information fields and 3D playback information fields fields not used in the decoding operation. In this case, it can be determined which of the multi-channel decoding information fields and the 3D playback information fields should be used to perform the decoding operation according to the type of signals to be reproduced.
Другими словами, чтобы генерировать многоканальные сигналы, устройство декодирования может пропустить поля информации 3D воспроизведения и считать информацию, включенную в поля информации многоканального декодирования. С другой стороны, чтобы генерировать 3D сигналы понижающего микширования, устройство декодирования может пропустить поля информации многоканального декодирования и считать информацию, включенную в поля информации 3D воспроизведения.In other words, in order to generate multi-channel signals, the decoding device can skip the fields of 3D playback information and read the information included in the fields of multi-channel decoding information. On the other hand, in order to generate 3D down-mix signals, the decoding device may skip the fields of multi-channel decoding information and read the information included in the fields of 3D playback information.
Способы пропуска некоторых из множества полей в потоке битов описаны ниже.Ways to skip some of the many fields in the bitstream are described below.
Во-первых, информация длины поля относительно размера в битах поля может быть включена в поток битов. В этом случае, поле может быть пропущено путем пропуска количества битов, соответствующего размеру в битах поля. Информация длины поля может быть расположена в начале поля.First, field length information regarding the size in bits of a field may be included in the bitstream. In this case, the field can be skipped by skipping the number of bits corresponding to the size in the bits of the field. Field length information may be located at the beginning of the field.
Во-вторых, синхрослово может быть расположено в конце или начале поля. В этом случае, поле может быть пропущено, путем определения местонахождения поля, основываясь на местоположении синхрослова.Secondly, the sync word can be located at the end or beginning of the field. In this case, the field may be omitted by locating the field based on the location of the sync word.
В-третьих, если длина поля определена заранее и фиксирована, то поле может быть пропущено путем пропуска некоторого количества данных, соответствующего длине поля. Фиксированная информация длины поля относительно длины поля может быть включена в поток битов или может храниться в устройстве декодирования.Thirdly, if the field length is predetermined and fixed, then the field can be skipped by skipping a certain amount of data corresponding to the field length. The fixed field length information relative to the field length may be included in the bitstream or may be stored in a decoding device.
В-четвертых, одно из множества полей может быть пропущено, используя комбинацию двух или более из вышеупомянутых способов пропуска поля.Fourth, one of a plurality of fields may be omitted using a combination of two or more of the aforementioned methods of skipping a field.
Информация пропуска поля, которая является информацией, необходимой для пропуска поля, такой как информация длины поля, синхрослово или фиксированная информация длины поля, может быть включена в одно из конкретных полей заголовка конфигурации, полей заголовка кадра и полей данных параметров кадра, проиллюстрированных на фиг. 9, или может быть включена в поле иное, чем проиллюстрированные на фиг. 9.Field skip information, which is information necessary for field skipping, such as field length information, sync word or fixed field length information, can be included in one of the specific configuration header fields, frame header fields, and frame parameter data fields illustrated in FIG. 9, or may be included in a field other than those illustrated in FIG. 9.
Например, для генерации многоканальных сигналов, устройство декодирования может пропустить поля информации 3D воспроизведения со ссылкой на информацию поля длины, синхрослово или фиксированную информацию длины поля, расположенную в начале каждого из полей информации 3D воспроизведения, и считать информацию, включенную в поля информации многоканального декодирования.For example, to generate multi-channel signals, the decoding device can skip the fields of 3D playback information with reference to the information of the field of length, a sync word or the fixed information of the field length located at the beginning of each of the fields of 3D playback information, and read the information included in the fields of information of multi-channel decoding.
С другой стороны, для генерации 3D сигналов понижающего микширования, устройство декодирования может пропустить поля информации многоканального декодирования со ссылкой на информацию длины поля, синхрослово или фиксированную информацию длины поля, расположенную в начале каждого из полей информации многоканального декодирования, и считать информацию, включенную в поля информации 3D воспроизведения.On the other hand, to generate 3D down-mix signals, the decoding device can skip the fields of multi-channel decoding information with reference to the field length information, a sync word or fixed field length information located at the beginning of each of the fields of multi-channel decoding information, and read the information included in the
Поток битов может включать в себя информацию, указывающую, необходимы ли данные, включенные в поток битов, для генерации многоканальных сигналов или для генерации 3D сигналов понижающего микширования.The bitstream may include information indicating whether the data included in the bitstream is necessary for generating multi-channel signals or for generating 3D down-mix signals.
Однако, даже если поток битов не содержит какой-либо пространственной информации, такой как CLD, а содержит только данные (например, коэффициенты фильтра HRTF), необходимые для генерации 3D сигнала понижающего микширования, многоканальный сигнал может быть воспроизведен через декодирование с использованием данных, необходимых для генерации 3D сигнала понижающего микширования, без требования пространственной информации.However, even if the bitstream does not contain any spatial information, such as CLD, but contains only the data (for example, HRTF filter coefficients) needed to generate the 3D down-mix signal, the multi-channel signal can be reproduced through decoding using the data necessary to generate a 3D down-mix signal, without requiring spatial information.
Например, параметр стерео, который является пространственной информацией относительно двух каналов, получается из сигнала понижающего микширования. Затем параметр стерео преобразуется в пространственную информацию относительно множества каналов, подлежащих воспроизведению, и многоканальный сигнал генерируется, применяя пространственную информацию, полученную преобразованием в сигнал понижающего микширования.For example, a stereo parameter, which is spatial information regarding two channels, is obtained from a downmix signal. Then, the stereo parameter is converted into spatial information regarding a plurality of channels to be reproduced, and a multi-channel signal is generated using spatial information obtained by converting to a downmix signal.
С другой стороны, даже если поток битов включает только данные, необходимые для генерации многоканального сигнала, сигнал понижающего микширования может быть воспроизведен без требования дополнительной операции декодирования, или 3D сигнал понижающего микширования может быть воспроизведен, выполняя 3D обработку над сигналом понижающего микширования, используя дополнительный фильтр HRTF.On the other hand, even if the bitstream includes only the data necessary to generate the multi-channel signal, the downmix signal can be reproduced without requiring an additional decoding operation, or the 3D downmix signal can be reproduced by performing 3D processing on the downmix signal using an additional filter HRTF.
Если поток битов включает в себя данные, необходимые для генерации многоканального сигнала, и данные, необходимые для генерации 3D сигнала понижающего микширования, пользователь имеет возможность решить, следует ли генерировать многоканальный сигнал или 3D сигнал понижающего микширования.If the bitstream includes the data necessary to generate a multi-channel signal and the data necessary to generate a 3D down-mix signal, the user is able to decide whether to generate a multi-channel signal or a 3D down-mix signal.
Способы пропуска данных будут в дальнейшем описаны подробно в отношении соответствующих синтаксисов.Data skipping methods will now be described in detail with respect to the corresponding syntaxes.
Синтаксис 1 указывает способ декодирования аудиосигнала в блоках кадров.Syntax 1 indicates a method for decoding an audio signal in blocks of frames.
[Синтаксис 1][Syntax 1]
В синтаксисе 1, OttData() и TttData() являются модулями, которые представляют параметры (такие как пространственная информация, включающая CLD, ICC и CPC), необходимые для восстановления многоканального сигнала из сигнала понижающего микширования, и SmgData(), TempShapeData(), Arbitrary-DownmixData() и ResidualData() являются модулями, которые представляют информацию, необходимую для улучшения качества звука путем коррекции искажений сигнала, которые могут возникнуть во время операции кодирования.In syntax 1, OttData () and TttData () are modules that represent parameters (such as spatial information including CLD, ICC and CPC) needed to recover a multi-channel signal from a downmix signal, and SmgData (), TempShapeData (), Arbitrary-DownmixData () and ResidualData () are modules that provide the information necessary to improve sound quality by correcting signal distortions that may occur during the encoding operation.
Например, если параметр, такой как CLD, ICC или СРС, и информация, включенная в модуль ArbitraryDownmixData(), используются во время операции декодирования, то модули SmgData() и TempShapeData(), которые расположены между модулями TttData() и ArbitraryDownmixData(), могут быть ненужными. Таким образом, является эффективным пропустить модули SmgData() и TempShapeData().For example, if a parameter, such as CLD, ICC or CPC, and the information included in the ArbitraryDownmixData () module are used during the decoding operation, then the SmgData () and TempShapeData () modules, which are located between the TttData () and ArbitraryDownmixData () modules may be unnecessary. Thus, it is efficient to skip the SmgData () and TempShapeData () modules.
Способ пропуска модулей согласно варианту осуществления настоящего изобретения будет в дальнейшем описан подробно в отношении Синтаксиса 2 ниже.A module skipping method according to an embodiment of the present invention will hereinafter be described in detail with respect to Syntax 2 below.
[Синтаксис 2] [Syntax 2]
Что касается Синтаксиса 2, модуль SkipData() может быть расположен перед модулем, который должен быть пропущен, и размер в битах модуля, который должен быть пропущен, определен в модуле SkipData() как bsSkipBits.As for Syntax 2, the SkipData () module can be located in front of the module to be skipped, and the bit size of the module to be skipped is defined in the SkipData () module as bsSkipBits.
Другими словами, предполагая, что модули SmgData() и TempShapeData() должны быть пропущены, и что размер в битах объединенных модулей SmgData() и TempShapeData() равен 150, модули SmgData() и TempShapeData() могут быть пропущены путем установки bsSkipBits на 150.In other words, assuming that the SmgData () and TempShapeData () modules should be skipped, and that the bit size of the combined SmgData () and TempShapeData () modules is 150, the SmgData () and TempShapeData () modules can be skipped by setting bsSkipBits to 150.
Способ пропуска модулей согласно другому варианту осуществления настоящего изобретения будет в дальнейшем описан подробно в отношении Синтаксиса 3.A module skipping method according to another embodiment of the present invention will hereinafter be described in detail with respect to Syntax 3.
[Синтаксис 3][Syntax 3]
Что касается Синтаксиса 3, ненужный модуль может быть пропущен с использованием bsSkipSyncflag, который является флагом, указывающим, следует ли использовать синхрослово, и bsSkipSyncword, который является синхрословом, которое может быть расположено в конце модуля, подлежащего пропуску.As for Syntax 3, an unnecessary module can be skipped using bsSkipSyncflag, which is a flag indicating whether to use a sync word, and bsSkipSyncword, which is a sync word that can be located at the end of a module to be skipped.
Более определенно, если флаг bsSkipSyncflag установлен таким образом, что синхрослово может использоваться, то один или более модулей между флагом bsSkipSyncflag и синхрословом bsSkipSyncword, то есть модули SmgData() и TempShapeData(), могут быть пропущены.More specifically, if the bsSkipSyncflag flag is set so that a sync word can be used, then one or more modules between the bsSkipSyncflag flag and the bsSkipSyncword sync flag, i.e., SmgData () and TempShapeData (), can be omitted.
Согласно фиг. 11 поток битов может включать поле многоканального заголовка, которое включает информацию заголовка, необходимую для воспроизведения многоканального сигнала, поле заголовка 3D воспроизведения, которое включает информацию заголовка, необходимую для воспроизведения 3D сигнала понижающего микширования, и множество полей информации многоканального декодирования, которые включают данные, необходимые для воспроизведения многоканального сигнала.According to FIG. 11, the bitstream may include a multi-channel header field that includes header information necessary for reproducing a multi-channel signal, a 3D playback header field that includes header information necessary for reproducing a 3D downmix signal, and a plurality of multi-channel decoding information fields that include data needed to play a multi-channel signal.
Чтобы воспроизвести многоканальный сигнал, устройство декодирования может пропустить поле заголовка 3D воспроизведения и считать данные из поля многоканального заголовка и полей информации многоканального декодирования.To reproduce the multi-channel signal, the decoding device may skip the 3D playback header field and read data from the multi-channel header field and the multi-channel decoding information fields.
Способ пропуска поля заголовка 3D воспроизведения является тем же самым, что и способы пропуска полей, описанные выше в отношении фиг. 10, и поэтому его детальное описание будет опущено.The method for skipping a field of a 3D playback header is the same as the method for skipping fields described above with respect to FIG. 10, and therefore, a detailed description thereof will be omitted.
Чтобы воспроизвести 3D сигнал понижающего микширования, устройство декодирования может считать данные из полей информации многоканального декодирования и поля 3D заголовка воспроизведения. Например, устройство декодирования может генерировать 3D сигнал понижающего микширования, используя сигнал понижающего микширования, включенный в поле информации многоканального декодирования, и информацию коэффициентов HRTF, включенную в 3D сигнал понижающего микширования.To reproduce the 3D down-mix signal, the decoding device can read data from the multi-channel decoding information fields and the 3D playback header field. For example, a decoding device may generate a 3D downmix signal using the downmix signal included in the multi-channel decoding information field and HRTF coefficient information included in the 3D downmix signal.
На фиг. 12 показана блок-схема устройства кодирования/декодирования для обработки произвольного сигнала понижающего микширования согласно варианту осуществления настоящего изобретения. Согласно фиг. 12 произвольный сигнал понижающего микширования является сигналом понижающего микширования иным, чем сигнал понижающего микширования, генерированный многоканальным кодером 801, включенным в устройство 800 кодирования. Будут опущены детальные описания процессов, которые являются теми же самыми, что и процессы в варианте осуществления по фиг. 1.In FIG. 12 is a block diagram of an encoding / decoding apparatus for processing an arbitrary downmix signal according to an embodiment of the present invention. According to FIG. 12, an arbitrary down-mix signal is a down-mix signal other than the down-mix signal generated by the
Согласно фиг. 12 устройство 800 кодирования включает в себя многоканальный кодер 801, блок 802 синтезирования пространственной информации и блок 803 сравнения.According to FIG. 12, an
Многоканальный кодер 801 выполняет понижающее преобразование входного многоканального сигнала в стерео или моносигнал понижающего микширования и генерирует основную пространственную информацию, необходимую для восстановления многоканального сигнала из сигнала понижающего микширования.
Блок 803 сравнения сравнивает сигнал понижающего микширования с произвольным сигналом понижающего микширования и генерирует информацию компенсации, основанную на результате сравнения. Информация компенсации необходима для выполнения компенсации для произвольного сигнала понижающего микширования таким образом, чтобы произвольный сигнал понижающего микширования мог быть преобразован, чтобы быть близким к сигналу понижающего микширования. Устройство декодирования может выполнить компенсацию для произвольного сигнала понижающего микширования, используя информацию компенсации, и восстановить многоканальный сигнал, используя скомпенсированный произвольный сигнал понижающего микширования. Восстановленный многоканальный сигнал более подобен исходному входному многоканальному сигналу, чем многоканальный сигнал, восстановленный из произвольного сигнала понижающего микширования, генерированного многоканальным кодером 801.
Информация компенсации может быть разностью между сигналом понижающего микширования и произвольным сигналом понижающего микширования. Устройство декодирования может выполнить компенсацию для произвольного сигнала понижающего микширования, добавляя к произвольному сигналу понижающего микширования разность между сигналом понижающего микширования и произвольным сигналом понижающего микширования.The compensation information may be the difference between the downmix signal and an arbitrary downmix signal. The decoding apparatus can compensate for an arbitrary downmix signal by adding to the arbitrary downmix signal a difference between the downmix signal and the arbitrary downmix signal.
Разность между сигналом понижающего микширования и произвольным сигналом понижающего микширования может быть усилением понижающего микширования, которое указывает на разность между уровнями энергии сигнала понижающего микширования и произвольного сигнала понижающего микширования.The difference between the downmix signal and an arbitrary downmix signal can be a downmix gain that indicates the difference between the energy levels of the downmix signal and an arbitrary downmix signal.
Усиление понижающего микширования может быть определено для каждого диапазона частот, для каждого времени/временного сегмента и/или для каждого канала. Например, одна часть усиления понижающего микширования может быть определена для каждого диапазона частот, а другая часть усиления понижающего микширования может быть определена для каждого временного сегмента.The downmix gain can be determined for each frequency range, for each time / time segment and / or for each channel. For example, one part of the down-mix gain can be determined for each frequency range, and another part of the down-mix gain can be determined for each time segment.
Усиление понижающего микширования может быть определено для каждого параметрического диапазона или для каждого диапазона частот, оптимизированного для произвольного сигнала понижающего микширования. Параметрические диапазоны являются частотными интервалами, к которым применена пространственная информация для типа параметра.The down-mix gain can be determined for each parametric range or for each frequency range optimized for an arbitrary down-mix signal. Parametric ranges are frequency intervals to which spatial information is applied for the type of parameter.
Разность между уровнями энергии сигнала понижающего микширования и произвольного сигнала понижающего микширования может квантоваться. Разрешение уровней квантования для квантования разности между уровнями энергии сигнала понижающего микширования и произвольного сигнала понижающего микширования может быть тем же самым или отличающимся от разрешения уровней квантования для квантования CLD между сигналом понижающего микширования и произвольным сигналом понижающего микширования. Кроме того, квантование разности между уровнями энергии сигнала понижающего микширования и произвольного сигнала понижающего микширования может предусматривать использование всех или некоторых из уровней квантования для квантования CLD между сигналом понижающего микширования и произвольным сигналом понижающего микширования.The difference between the energy levels of the downmix signal and an arbitrary downmix signal can be quantized. The resolution of the quantization levels for quantizing the difference between the energy levels of the downmix signal and the arbitrary downmix signal may be the same or different from the resolution of the quantization levels for quantizing CLD between the downmix signal and the arbitrary downmix signal. In addition, quantization of the difference between the energy levels of the downmix signal and an arbitrary downmix signal may include the use of all or some of the quantization levels to quantize the CLD between the downmix signal and the arbitrary downmix signal.
Так как разрешение разности между уровнями энергии сигнала понижающего микширования и произвольного сигнала понижающего микширования в общем случае ниже, чем разрешение CLD между сигналом понижающего микширования и произвольным сигналом понижающего микширования, то разрешение уровней квантования для квантования разности между уровнями энергии сигнала понижающего микширования и произвольного сигнала понижающего микширования может иметь незначительную величину по сравнению с разрешением уровней квантования для квантования CLD между сигналом понижающего микширования и произвольным сигналом понижающего микширования.Since the resolution of the difference between the energy levels of the downmix signal and an arbitrary downmix signal is generally lower than the resolution of the CLD between the downmix signal and an arbitrary downmix signal, the resolution of quantization levels to quantize the difference between the energy levels of the downmix signal and an arbitrary downmix signal mixing may be negligible compared to the resolution of the quantization levels for quantizing CLD between a downmix signal and an arbitrary downmix signal.
Информация компенсации для выполнения компенсации для произвольного сигнала понижающего микширования может быть информацией расширения, включающей остаточную информацию, которая определяет компоненты входного многоканального сигнала, которые не могут быть восстановлены, используя произвольный сигнал понижающего микширования или усиление понижающего микширования. Устройство декодирования может восстановить компоненты входного многоканального сигнала, который не может быть восстановлен с использованием произвольного сигнала понижающего микширования или усиления понижающего микширования, используя информацию расширения, восстанавливая тем самым сигнал, практически неотличимый от исходного входного многоканального сигнала.Compensation information for performing compensation for an arbitrary downmix signal may be extension information including residual information that determines components of the input multi-channel signal that cannot be reconstructed using an arbitrary downmix signal or downmix gain. The decoding device can reconstruct the components of the input multi-channel signal, which cannot be reconstructed using an arbitrary down-mix signal or amplify the down-mix using extension information, thereby restoring a signal that is practically indistinguishable from the original input multi-channel signal.
Способы генерации информации расширения являются следующими.Methods for generating extension information are as follows.
Многоканальный кодер 801 может генерировать информацию относительно компонентов входного многоканального сигнала, в которых испытывает недостаток сигнал понижающего микширования, в качестве первой информации расширения. Устройство декодирования может восстановить сигнал, почти неотличимый от исходного входного многоканального сигнала, применяя первую информацию расширения для генерации многоканального сигнала с использованием сигнала понижающего микширования и основной пространственной информации.
Альтернативно, многоканальный кодер 801 может восстановить многоканальный сигнал, используя сигнал понижающего микширования и основную пространственную информацию, и генерировать разность между восстановленным многоканальным сигналом и исходным входным многоканальным сигналом в качестве первой информации расширения.Alternatively,
Блок 803 сравнения может генерировать, в качестве второй информации расширения, информацию относительно компонентов сигнала понижающего микширования, в которых испытывает недостаток произвольный сигнал понижающего микширования, то есть компоненты сигнала понижающего микширования, для которых не может быть выполнена компенсация с использованием усиления понижающего микширования. Устройство декодирования может восстановить сигнал, почти неотличимый от сигнала понижающего микширования, используя произвольный сигнал понижающего микширования и вторую информацию расширения.The
Информация расширения может быть генерирована с использованием способов кодирования остатка иных, чем вышеописанный способ.Extension information may be generated using residue encoding methods other than the above method.
Усиление понижающего микширования и информация расширения могут использоваться как информация компенсации. Более конкретно, усиление понижающего микширования и информация расширения могут быть получены для всего частотного диапазона сигнала понижающего микширования и могут использоваться вместе как информация компенсации. Альтернативно, усиление понижающего микширования может использоваться как информация компенсации для одной части частотного диапазона сигнала понижающего микширования, а информация расширения может использоваться как информация компенсации для другой части частотного диапазона сигнала понижающего микширования. Например, информация расширения может использоваться как информация компенсации для низкочастотного диапазона сигнала понижающего микширования, а усиление понижающего микширования может использоваться как информация компенсации для высокочастотного диапазона сигнала понижающего микширования.The downmix gain and extension information can be used as compensation information. More specifically, the downmix gain and extension information can be obtained for the entire frequency range of the downmix signal and can be used together as compensation information. Alternatively, the downmix gain can be used as compensation information for one part of the frequency range of the downmix signal, and the extension information can be used as compensation information for another part of the frequency range of the downmix signal. For example, extension information can be used as compensation information for the low-frequency range of the down-mix signal, and amplification of down-mix can be used as compensation information for the high-frequency range of the down-mix signal.
Информация расширения относительно частей сигнала понижающего микширования иных, чем низкочастотный диапазон сигнала понижающего микширования, таких как пики или провалы, которые могут значительно повлиять на качество звучания, может также использоваться как информация компенсации.Extension information regarding portions of the down-mix signal other than the low-frequency range of the down-mix signal, such as peaks or dips, which can significantly affect the sound quality, can also be used as compensation information.
Блок 802 синтезирования пространственной информации синтезирует основную пространственную информацию (например, CLD, СРС, ICC и CTD) и информацию компенсации, тем самым, генерируя пространственную информацию. Другими словами, пространственная информация, которая передается на устройство декодирования, может включать в себя основную пространственную информацию, усиление понижающего микширования, а также первую и вторую информацию расширения.The spatial
Пространственная информация может быть включена в поток битов наряду с произвольным сигналом понижающего микширования, и поток битов может быть передан на устройство декодирования.Spatial information may be included in the bitstream along with an arbitrary downmix signal, and the bitstream may be transmitted to the decoding device.
Информация расширения и произвольный сигнал понижающего микширования могут кодироваться с использованием способа аудиокодирования, такого как способ AAC, способ MP3 или способ BSAC. Информация расширения и произвольный сигнал понижающего микширования могут кодироваться с использованием того же самого способа аудиокодирования или различных способов аудиокодирования.Extension information and an arbitrary downmix signal may be encoded using an audio coding method such as an AAC method, an MP3 method, or a BSAC method. Extension information and an arbitrary down-mix signal may be encoded using the same audio coding method or different audio coding methods.
Если информация расширения и произвольный сигнал понижающего микширования кодируются с использованием того же самого способа аудиокодирования, то устройство декодирования может декодировать как информацию расширения, так и произвольный сигнал понижающего микширования, используя единственный способ аудиодекодирования. В этом случае, так как произвольный сигнал понижающего микширования может всегда декодироваться, информация расширения также может всегда декодироваться. Однако, так как произвольный сигнал понижающего микширования в общем случае вводится в устройство декодирования как сигнал импульсно-кодовой модуляции (PCM), то тип аудиокодека, используемого для кодирования произвольного сигнала понижающего микширования, не может быть легко идентифицирован, и таким образом, тип аудиокодека, используемого для кодирования информации расширения, также не может быть легко идентифицирован.If the extension information and an arbitrary down-mix signal are encoded using the same audio coding method, the decoding device can decode both the extension information and an arbitrary down-mix signal using a single audio decoding method. In this case, since an arbitrary down-mix signal can always be decoded, the extension information can also always be decoded. However, since an arbitrary downmix signal is generally input to the decoding device as a pulse code modulation (PCM) signal, the type of audio codec used to encode an arbitrary downmix signal cannot be easily identified, and thus the type of audio codec used to encode extension information also cannot be easily identified.
Поэтому информация аудиокодека относительно типа аудиокодека, использованного для кодирования произвольного сигнала понижающего микширования, и информация расширения могут быть вставлены в поток битов.Therefore, the audio codec information regarding the type of audio codec used to encode an arbitrary downmix signal, and extension information can be inserted into the bitstream.
Более конкретно, информация аудиокодека может быть вставлена в конкретное поле заголовка конфигурации потока битов. В этом случае, устройство декодирования может извлечь информацию аудиокодека из конкретного поля заголовка конфигурации потока битов и использовать извлеченную информацию аудиокодека для декодирования произвольного сигнала понижающего микширования и информации расширения.More specifically, the audio codec information may be inserted into a specific header field of the bitstream configuration. In this case, the decoding apparatus can extract audio codec information from a specific header field of the bitstream configuration and use the extracted audio codec information to decode an arbitrary downmix signal and extension information.
С другой стороны, если произвольный сигнал понижающего микширования и информация расширения кодированы с использованием различных способов аудиокодирования, то информация расширения, возможно, не сможет быть декодирована. В этом случае, так как часть информации расширения не может быть идентифицирована, никакая дальнейшая операция декодирования не может быть выполнена.On the other hand, if an arbitrary down-mix signal and extension information are encoded using various audio coding methods, then the extension information may not be able to be decoded. In this case, since part of the extension information cannot be identified, no further decoding operation can be performed.
Для решения этой проблемы информация аудиокодека относительно типов аудиокодеков, использованных, соответственно, для кодирования произвольного сигнала понижающего микширования и информации расширения, может быть вставлена в конкретное поле заголовка конфигурации потока битов. Тогда устройство декодирования может считать информацию аудиокодека из конкретного поля заголовка конфигурации потока битов и использовать считанную информацию для декодирования информации расширения. Если устройство декодирования не включает никакого блока декодирования, способного декодировать информацию расширения, то декодирование информации расширения не может далее продолжаться, и считывается информация, следующая с информацией расширения.To solve this problem, the audio codec information regarding the types of audio codecs used, respectively, to encode an arbitrary downmix signal and extension information, can be inserted into a specific header field of the bitstream configuration. Then, the decoding device can read the audio codec information from a specific header field of the bitstream configuration and use the read information to decode the extension information. If the decoding device does not include any decoding unit capable of decoding the extension information, then decoding of the extension information cannot continue, and information following the extension information is read.
Информация аудиокодека относительно типа аудио кодека, используемого для кодирования информации расширения, может быть представлена элементом синтаксиса, включенным в конкретное поле заголовка конфигурации потока битов. Например, информация аудиокодека может быть представлена элементом bsResidualCodecType, который является 4-битовым элементом синтаксиса, как указано в Таблице 1 ниже.The audio codec information regarding the type of audio codec used to encode extension information may be represented by a syntax element included in a specific bitstream configuration header field. For example, audio codec information may be represented by a bsResidualCodecType element, which is a 4-bit syntax element, as shown in Table 1 below.
Информация расширения может включать не только остаточную информацию, но также и информацию расширения каналов. Информация расширения каналов - это информация, необходимая для расширения многоканального сигнала, полученного посредством декодирования с использованием пространственной информации, в многоканальный сигнал с большим количеством каналов. Например, информация расширения каналов может быть информацией, необходимой для того, чтобы расширить сигнал с 5.1 каналами или сигнал с 7.1 каналами в сигнал с 9.1 каналами.Extension information may include not only residual information, but also channel extension information. Channel extension information is information necessary for expanding a multi-channel signal obtained by decoding using spatial information into a multi-channel signal with a large number of channels. For example, the channel extension information may be information necessary to expand a signal with 5.1 channels or a signal with 7.1 channels into a signal with 9.1 channels.
Информация расширения может быть включена в поток битов, и поток битов может быть передан на устройство декодирования. Затем устройство декодирования может выполнить компенсацию для сигнала понижающего микширования или расширить многоканальный сигнал, используя информацию расширения. Однако устройство декодирования может пропустить информацию расширения, вместо того, чтобы извлечь информацию расширения из потока битов. Например, в случае генерации многоканального сигнала с использованием 3D сигнала понижающего микширования, включенного в поток битов, или генерации 3D сигнала понижающего микширования с использованием сигнала понижающего микширования, включенного в поток битов, устройство декодирования может пропустить информацию расширения.Extension information may be included in the bitstream, and the bitstream may be transmitted to the decoding device. The decoding device may then compensate for the downmix signal or expand the multi-channel signal using the extension information. However, the decoding apparatus may skip the extension information, instead of extracting the extension information from the bitstream. For example, in the case of generating a multi-channel signal using a 3D down-mix signal included in a bit stream, or generating a 3D down-mix signal using a down-mix signal included in a bit stream, a decoding device may skip extension information.
Способ пропуска информации расширения, включенной в поток битов, может быть тем же самым, что и один из способов пропуска полей, описанных выше со ссылками на фиг. 10.The method for skipping extension information included in the bitstream may be the same as one of the methods for skipping fields described above with reference to FIG. 10.
Например, информация расширения может быть пропущена, используя, по меньшей мере, одно из информации размера в битах, которая присоединена к началу потока битов, включающему в себя информацию расширения, и указывает размер в битах информации расширения, синхрослова, которое присоединено к началу или концу поля, включающему в себя информацию расширения, и информации фиксированного размера в битах, которая указывает фиксированный размер в битах информации расширения. Информация размера в битах, синхрослово и информация фиксированного размера в битах могут все быть включены в поток битов. Информация фиксированного размера в битах может также храниться в устройстве декодирования.For example, extension information may be skipped using at least one of the bit size information that is attached to the beginning of the bit stream including the extension information and indicates the bit size of the extension information, a sync word that is attached to the beginning or end a field including extension information and information of a fixed bit size that indicates a fixed bit size of the extension information. Bit size information, a sync word, and fixed bit size information may all be included in the bit stream. Information of a fixed bit size may also be stored in a decoding device.
Согласно фиг. 12 блок 810 декодирования включает в себя блок 811 компенсации понижающего микширования, блок 815 3D воспроизведения и многоканальный декодер 816.According to FIG. 12, the
Блок 811 компенсации понижающего микширования выполняет компенсацию для произвольного сигнала понижающего микширования, используя информацию компенсации, включенную в пространственную информацию, например, используя усиление понижающего микширования или информацию расширения.The
Блок 815 3D воспроизведения генерирует 3D сигнал понижающего микширования декодера, выполняя операцию 3D воспроизведения над скомпенсированным сигналом понижающего микширования. Многоканальный декодер 816 генерирует 3D многоканальный сигнал, используя скомпенсированный сигнал понижающего микширования и основную пространственную информацию, которая включена в пространственную информацию.The
Блок 811 компенсации понижающего микширования может выполнить компенсацию для произвольного сигнала понижающего микширования следующим образом.The
Если информация компенсации представляет собой усиление понижающего микширования, то блок 811 компенсации понижающего микширования 811 выполняет компенсацию для уровня энергии произвольного сигнала понижающего микширования, используя усиление понижающего микширования так, чтобы произвольный сигнал понижающего микширования мог быть преобразован в сигнал, подобный сигналу понижающего микширования.If the compensation information is a downmix gain, the
Если информация компенсации представляет собой вторую информацию расширения, то блок 811 компенсации понижающего микширования может выполнить компенсацию для компонентов, в которых испытывает недостаток произвольный сигнал понижающего микширования, используя вторую информацию расширения.If the compensation information is the second extension information, then the
Многоканальный декодер 816 может генерировать многоканальный сигнал, последовательно применяя предматрицу М1, смешанную матрицу M2 и постматрицу M3 к сигналу понижающего микширования. В этом случае, вторая информация расширения может использоваться для выполнения компенсации для сигнала понижающего микширования при применении смешанной матрицы M2 к сигналу понижающего микширования. Другими словами, вторая информация расширения может использоваться для выполнения компенсации для сигнала понижающего микширования, к которому уже была применена предматрица М1.
Как описано выше, каждый из множества каналов может быть избирательно скомпенсирован, применяя информацию расширения к генерации многоканального сигнала. Например, если информация расширения применена к центральному каналу смешанной матрицы M2, то компоненты левого и правого канала сигнала понижающего микширования могут быть скомпенсированы посредством информации расширения. Если информация расширения применена к левому каналу смешанной матрицы M2, компонент левого канала сигнала понижающего микширования может быть скомпенсирован посредством информации расширения.As described above, each of the plurality of channels can be selectively compensated by applying extension information to the generation of a multi-channel signal. For example, if the extension information is applied to the center channel of the mixed matrix M2, then the left and right channel components of the downmix signal can be compensated by the extension information. If the extension information is applied to the left channel of the mixed matrix M2, the left channel component of the down-mix signal can be compensated by the extension information.
Усиление понижающего микширования и информация расширения могут использоваться как информация компенсации. Например, низкочастотный диапазон произвольного сигнала понижающего микширования может быть скомпенсирован с использованием информации расширения, а высокочастотный диапазон произвольного сигнала понижающего микширования может быть скомпенсирован с использованием усиления понижающего микширования. Кроме того, части произвольного сигнала понижающего микширования иные, чем низкочастотный диапазон произвольного сигнала понижающего микширования, например, пики или провалы, которые могут значительно повлиять на качество звучания, могут также быть скомпенсированы с использованием информации расширения. Информация относительно части, подлежащей компенсации посредством информации расширения, может быть включена в поток битов. Информация, указывающая, является ли сигнал понижающего микширования, включенный в поток битов, произвольным сигналом понижающего микширования или нет, и информация, указывающая, включает ли поток битов информацию компенсации, может быть включена в поток битов.The downmix gain and extension information can be used as compensation information. For example, the low-frequency range of an arbitrary down-mix signal can be compensated for using the extension information, and the high-frequency range of an arbitrary down-mix signal can be compensated for using the down-mix gain. In addition, portions of an arbitrary down-mix signal other than the low-frequency range of an arbitrary down-mix signal, such as peaks or dips that can significantly affect sound quality, can also be compensated for using the extension information. Information regarding the part to be compensated by the extension information may be included in the bit stream. Information indicating whether the down-mix signal included in the bit stream is an arbitrary down-mix signal or not, and information indicating whether the bit stream includes compensation information can be included in the bit stream.
Чтобы предотвратить ограничение сигнала понижающего микширования, генерированного блоком 800 кодирования, сигнал понижающего микширования может быть разделен на предопределенное усиление. Предопределенное усиление может иметь статическое значение или динамическое значение.In order to prevent the down-mix signal generated by the
Блок 811 компенсации понижающего микширования может восстановить исходный сигнал понижающего микширования путем выполнения компенсации для сигнала понижающего микширования, который ослаблен, чтобы предотвратить ограничение, используя предопределенное усиление.The
Произвольный сигнал понижающего микширования, скомпенсированный блоком 811 компенсации понижающего микширования, может быть легко воспроизведен. Альтернативно, произвольный сигнал понижающего микширования, подлежащий компенсации, может быть введен в блок 815 3D воспроизведения и может быть преобразован в 3D сигнал понижающего микширования декодера блоком 815 3D воспроизведения.An arbitrary downmix signal compensated by the
Согласно фиг. 12 блок 811 компенсации понижающего микширования включает в себя первый преобразователь 812 области, процессор 813 компенсации и второй преобразователь 814 области.According to FIG. 12, the
Первый преобразователь 812 области преобразует произвольный сигнал понижающего микширования в предопределенную область. Процессор 813 компенсации компенсирует произвольный сигнал понижающего микширования в предопределенной области, используя информацию компенсации, например, усиление понижающего микширования или информацию расширения.The
Компенсация произвольного сигнала понижающего микширования может быть выполнена в QMF/гибридной области. Для этого первый преобразователь 812 области может выполнить QMF/гибридный анализ на произвольном сигнале понижающего микширования. Первый преобразователь 812 области может преобразовать область произвольного сигнала понижающего микширования в область иную, чем QMF/гибридная область, например частотную область, такую как область ДПФ или БПФ. Компенсация произвольного сигнала понижающего микширования может также быть выполнена в области иной, чем QMF/гибридная область, например в частотной области или временной области.Compensation of an arbitrary down-mix signal can be performed in the QMF / hybrid region. To this end, the
Второй преобразователь 814 области преобразует область скомпенсированного произвольного сигнала понижающего микширования в ту же самую область, что и исходный произвольный сигнал понижающего микширования. Более конкретно, второй преобразователь 814 области преобразует область скомпенсированного произвольного сигнала понижающего микширования в ту же самую область, что и исходный произвольный сигнал понижающего микширования, путем инверсного выполнения операции преобразования области, выполненной первым преобразователем 812 области. The
Например, второй преобразователь 814 области может преобразовать скомпенсированный произвольный сигнал понижающего микширования в сигнал временной области, выполняя QMF/гибридный синтез на скомпенсированном произвольном сигнале понижающего микширования. Кроме того, второй преобразователь 814 области может выполнить ОДПФ или ОБПФ на скомпенсированном произвольном сигнале понижающего микширования.For example, the
Блок 815 3D воспроизведения, как и блок 710 3D воспроизведения, проиллюстрированный на фиг. 7, может выполнить операцию 3D воспроизведения на скомпенсированном произвольном сигнале понижающего микширования в частотной области, QMF/гибридной области или временной области. Для этого блок 815 3D воспроизведения может включать в себя преобразователь области (не показан). Преобразователь области преобразует область скомпенсированного произвольного сигнала понижающего микширования в область, в которой должна быть выполнена операция 3D воспроизведения, или преобразует область сигнала, полученного операцией 3D воспроизведения.The
Область, в которой процессор компенсации 813 выполняет компенсацию для произвольного сигнала понижающего микширования, может быть той же самый или отличающейся от области, в которой блок 815 3D воспроизведения выполняет операцию 3D воспроизведения над скомпенсированным произвольным сигналом понижающего микширования.The area in which the
На фиг. 13 представлена блок-схема блока 820 компенсации понижающего микширования/3D воспроизведения согласно варианту осуществления настоящего изобретения. Согласно фиг. 13 блок 820 компенсации понижающего микширования/3D воспроизведения включает в себя первый преобразователь 821 области, второй преобразователь 822 области, процессор 823 компенсации/3D воспроизведения и третий преобразователь 824 области.In FIG. 13 is a block diagram of a downmix / 3D
Блок 820 компенсации понижающего микширования/3D воспроизведения может выполнить и операцию компенсации, и операцию 3D воспроизведения над произвольным сигналом понижающего микширования в единой области, таким образом, уменьшая объем вычислений устройства декодирования.The downmix / 3D
Более конкретно, первый преобразователь 821 области преобразует область произвольного сигнала понижающего микширования в первую область, в которой должны быть выполнены операция компенсации и операция 3D воспроизведения. Второй преобразователь 822 области преобразует пространственную информацию, включая основную пространственную информацию, необходимую для генерации многоканального сигнала, и информацию компенсации, необходимую для выполнения компенсации для произвольного сигнала понижающего микширования, так, чтобы пространственная информация могла применяться в первой области. Информация компенсации может включать в себя, по меньшей мере, одно из усиления понижающего микширования и информации расширения.More specifically, the
Например, второй преобразователь 822 области может отобразить информацию компенсации, соответствующую параметрическому диапазону в QMF/гибридной области, на диапазон частот так, чтобы информация компенсации могла быть легко применимой в частотной области.For example, the
Первая область может быть частотной областью, такой как область ДПФ или БПФ, QMF/гибридной областью или временной областью. Альтернативно, первая область может быть областью иной, чем указанные выше.The first region may be a frequency domain, such as a DFT or FFT region, a QMF / hybrid region, or a time domain. Alternatively, the first region may be a region other than those indicated above.
Во время преобразования информации компенсации может иметь место временная задержка. Чтобы решить эту проблему, второй преобразователь 822 области может выполнить операцию компенсации временной задержки так, чтобы временная задержка между областью информации компенсации и первой областью могла быть скомпенсирована.There may be a time delay during the conversion of compensation information. To solve this problem, the
Процессор 823 компенсации/3D воспроизведения выполняет операцию компенсации над произвольным сигналом понижающего микширования в первой области, используя преобразованную пространственную информацию, и затем выполняет операцию 3D воспроизведения над сигналом, полученным операцией компенсации. Процессор 23 компенсации/3D воспроизведения может выполнять операцию компенсации и операцию 3D воспроизведения в порядке, отличающемся от описанного выше.The compensation /
Процессор 823 компенсации/3D воспроизведения может выполнить операцию компенсации и операцию 3D воспроизведения над произвольным сигналом понижающего микширования в то же самое время. Например, процессор 823 компенсации/3D воспроизведения может генерировать скомпенсированный 3D сигнал понижающего микширования, выполняя операцию 3D воспроизведения над произвольным сигналом понижающего микширования в первой области, используя новый коэффициент фильтра, который является комбинацией информации компенсации и существующего коэффициента фильтра, в типовом случае используемого в операции 3D воспроизведения.Compensation /
Третий преобразователь 824 области преобразует 3D сигнал понижающего микширования, сгенерированного процессором 823 компенсации/3D воспроизведения в частотной области.The third region converter 824 converts the 3D down-mix signal generated by the compensation /
На фиг. 14 показана блок-схема устройства 900 декодирования для обработки совместимого сигнала понижающего микширования согласно варианту осуществления настоящего изобретения. Согласно фиг. 14 устройство 900 декодирования включает в себя первый многоканальный декодер 910, блок 920 обработки совместимости понижающего микширования, второй многоканальный декодер 930 и блок 940 3D воспроизведения. Детальные описания процессов декодирования, аналогичных процессам в варианте осуществления по фиг. 1, будут опущены.In FIG. 14 is a block diagram of a
Совместимый сигнал понижающего микширования представляет собой сигнал понижающего микширования, который может быть декодирован двумя или более многоканальными декодерами. Другими словами, совместимый сигнал понижающего микширования - это сигнал понижающего микширования, который первоначально оптимизирован для предопределенного многоканального декодера, и который может быть преобразован затем в сигнал, оптимизированный для многоканального декодера иного, чем предопределенный многоканальный декодер, посредством операции обработки совместимости.A compatible downmix signal is a downmix signal that can be decoded by two or more multi-channel decoders. In other words, a compatible downmix signal is a downmix signal that is initially optimized for a predetermined multi-channel decoder, and which can then be converted to a signal optimized for a multi-channel decoder other than a predetermined multi-channel decoder, through a compatibility processing operation.
Ссылаясь на фиг. 14, предположим, что входной совместимый сигнал понижающего микширования оптимизирован для первого многоканального декодера 910. Для того чтобы второй многоканальный декодер 930 мог декодировать входной совместимый сигнал понижающего микширования, блок 920 обработки совместимости понижающего микширования может выполнить операцию обработки совместимости над входным совместимым сигналом понижающего микширования так, чтобы входной совместимый сигнал понижающего микширования мог быть преобразован в сигнал, оптимизированный для второго многоканального декодера 930. Первый многоканальный декодер 910 генерирует первый многоканальный сигнал путем декодирования входного совместимого сигнала понижающего микширования. Первый многоканальный декодер 910 может генерировать многоканальный сигнал посредством декодирования, просто используя входной совместимый сигнал понижающего микширования без требования пространственной информации.Referring to FIG. 14, suppose that the input compatible downmix signal is optimized for the first
Второй многоканальный декодер 930 генерирует второй многоканальный сигнал, используя сигнал понижающего микширования, полученный операцией обработки совместимости, выполненной блоком 920 обработки совместимости понижающего микширования. Блок 940 3D воспроизведения может генерировать 3D сигнал понижающего микширования декодера, выполняя операцию 3D воспроизведения над сигналом понижающего микширования, полученным операцией обработки совместимости, выполненной блоком 920 обработки совместимости понижающего микширования.The second
Совместимый сигнал понижающего микширования, оптимизированный для предопределенного многоканального декодера, может быть преобразован в сигнал понижающего микширования, оптимизированный для многоканального декодера иного, чем предопределенный многоканальный декодер, используя информацию совместимости, такую как матрица инверсии. Например, когда имеются первый и второй многоканальные кодеры, использующие различные способы кодирования, и первый и второй многоканальные декодеры, использующие различные способы кодирования/декодирования, устройство кодирования может применить матрицу к сигналу понижающего микширования, сгенерированному первым многоканальным кодером, таким образом, генерируя совместимый сигнал понижающего микширования, который оптимизирован для второго многоканального декодера. Тогда устройство декодирования может применить матрицу инверсии к совместимому сигналу понижающего микширования, сгенерированному устройством кодирования, таким образом, генерируя совместимый сигнал понижающего микширования, который оптимизирован для первого многоканального декодера.A compatible downmix signal optimized for a predetermined multichannel decoder can be converted to a downmix signal optimized for a multichannel decoder other than a predetermined multichannel decoder using compatibility information such as an inversion matrix. For example, when there are first and second multi-channel encoders using different encoding methods, and the first and second multi-channel decoders using different encoding / decoding methods, the encoding device can apply a matrix to the down-mix signal generated by the first multi-channel encoder, thereby generating a compatible signal downmix, which is optimized for a second multi-channel decoder. Then, the decoding apparatus can apply the inversion matrix to the compatible downmix signal generated by the encoding device, thereby generating a compatible downmix signal that is optimized for the first multi-channel decoder.
Согласно фиг. 14 блок 920 обработки совместимости понижающего микширования может выполнить операцию обработки совместимости над входным совместимым сигналом понижающего микширования, используя матрицу инверсии, таким образом, генерируя сигнал понижающего микширования, который оптимизирован для второго многоканального декодера 930.According to FIG. 14, a downmix
Информация относительно матрицы инверсии, используемой блоком 920 обработки совместимости понижающего микширования, может быть сохранена в устройстве 900 декодирования 900 заранее или может быть включена во входной поток битов, переданный устройством кодирования. Кроме того, информация, указывающая, является ли сигнал понижающего микширования, включенный во входной поток битов, произвольным сигналом понижающего микширования или совместимым сигналом понижающего микширования, может быть включена во входной поток битов.Information regarding the inversion matrix used by the downmix
Согласно фиг. 14 блок 920 обработки совместимости понижающего микширования включает в себя первый преобразователь 921 области, процессор 922 совместимости и второй преобразователь 923 области.According to FIG. 14, the downmix
Первый преобразователь 921 области преобразует область входного совместимого сигнала понижающего микширования в предопределенную область, и процессор 922 совместимости выполняет операцию обработки совместимости, используя информацию совместимости, такую как матрица инверсии, чтобы входной совместимый сигнал понижающего микширования в предопределенной области мог быть преобразован в сигнал, оптимизированный для второго многоканального декодера 930.The
Процессор 922 совместимости может выполнить операцию обработки совместимости в QMF/гибридной области. Для этого первый пребразователь 921 области может выполнить QMF/гибридный анализ над входным совместимым сигналом понижающего микширования. Кроме того, первый пребразователь 921 области может преобразовать область входного совместимого сигнала понижающего микширования в область иную, чем QMF/гибридная область, например частотную область, такую как область ДПФ или область БПФ, и процессор 922 совместимости может выполнить операцию обработки совместимости в области иной, чем QMF/гибридная область, например, в частотной области или временной области.
Второй пребразователь 923 области преобразует область совместимого сигнала понижающего микширования, полученного операцией обработки совместимости. Более конкретно, второй пребразователь 923 области может преобразовать область совместимого сигнала понижающего микширования, полученного операцией обработки совместимости, в ту же самую область, что и область исходного входного совместимого сигнала понижающего микширования, инверсно выполняя операцию преобразования области, выполненную первым преобразователем 921 области.The
Например, второй пребразователь 923 области может преобразовать совместимый сигнал понижающего микширования, полученный операцией обработки совместимости, в сигнал временной области, выполняя QMF/гибридный синтез над совместимым сигналом понижающего микширования, полученным операцией обработки совместимости. Альтернативно, второй пребразователь 923 области может выполнить ОДПФ или ОБПФ над совместимым сигналом понижающего микширования, полученным операцией обработки совместимости.For example, the
Блок 940 3D воспроизведения может выполнить операцию 3D воспроизведения над совместимым сигналом понижающего микширования, полученным операцией обработки совместимости, в частотной области, QMF/гибридной области или временной области. Для этого блок 940 3D воспроизведения может включать в себя преобразователь области (не показан). Преобразователь области преобразует область входного совместимого сигнала понижающего микширования в область, в которой должна быть выполнена операция 3D воспроизведения, или преобразует область сигнала, полученного операцией 3D воспроизведения.The
Область, в которой процессор 922 совместимости выполняет операцию обработки совместимости, может быть той же самой или отличающейся от области, в которой блок 940 3D воспроизведения выполняет операцию 3D воспроизведения.The area in which the
На фиг. 15 показана блок-схема блока 950 обработки совместимости понижающего микширования/3D воспроизведения согласно варианту осуществления настоящего изобретения. Согласно фиг. 15, блок 950 обработки совместимости понижающего микширования/3D воспроизведения содержит первый пребразователь 951 области, второй пребразователь 952 области, процессор 953 совместимости/3D воспроизведения и третий пребразователь 954 области. In FIG. 15 is a flowchart of a downmix / 3D playback
Блок 950 обработки совместимости понижающего микширования/3D воспроизведения выполняет операцию обработки совместимости и операцию 3D воспроизведения в единой области, таким образом, уменьшая объем вычислений устройства декодирования.The downmix / 3D playback
Первый пребразователь 951 области преобразует входной совместимый сигнал понижающего микширования в первую область, в которой должны быть выполнены операция обработки совместимости и операция 3D воспроизведения. Второй пребразователь 952 области преобразует пространственную информацию и информацию совместимости, например матрицу инверсии, чтобы пространственная информация и информация совместимости могли применяться в первой области.The
Например, второй пребразователь 952 области отображает матрицу инверсии, соответствующую параметрическому диапазону в QMF/гибридной области, в частотную область, чтобы матрица инверсии могла быть легко применимой в частотной области.For example, the
Первая область может быть частотной областью, такой как область ДПФ или область БПФ, QMF/гибридной областью или временной областью. Альтернативно, первая область может быть областью иной, чем указанные выше.The first region may be a frequency domain, such as a DFT region or an FFT region, a QMF / hybrid region, or a time domain. Alternatively, the first region may be a region other than those indicated above.
Во время преобразования пространственной информации и информации совместимости может иметь место временная задержка. There may be a time delay during the conversion of spatial and compatibility information.
Чтобы решить эту проблему, второй пребразователь 952 области может выполнить операцию компенсации временной задержки, чтобы временная задержка между областью пространственной информации и информации компенсации и первой областью могла быть скомпенсирована.To solve this problem, the
Процессор 953 совместимости/3D воспроизведения выполняет операцию обработки совместимости над входным совместимым сигналом понижающего микширования в первой области, используя преобразованную информацию совместимости, и затем выполняет операцию 3D воспроизведения над совместимым сигналом понижающего микширования, полученным операцией обработки совместимости. Процессор 953 совместимости/3D воспроизведения может выполнить операцию обработки совместимости и операцию 3D воспроизведения в порядке ином, чем описанный выше.A compatibility /
Процессор 953 совместимости/3D воспроизведения может выполнить операцию обработки совместимости и операцию 3D воспроизведения над входным совместимым сигналом понижающего микширования в то же самое время. Например, процессор 953 совместимости/3D воспроизведения может генерировать 3D сигнал понижающего микширования, выполняя операцию 3D воспроизведения над входным совместимым сигналом понижающего микширования в первой области, используя новый коэффициент фильтра, который является комбинацией информации совместимости и существующего коэффициента фильтра, в типовом случае используемого в операции 3D воспроизведения.Compatibility /
Третий пребразователь 954 области преобразует область 3D сигнала понижающего микширования, сгенерированного процессором 953 совместимости/3D воспроизведения, в частотную область.The
На фиг. 16 показана блок-схема устройства декодирования для компенсации перекрестной связи согласно варианту осуществления настоящего изобретения. Согласно фиг. 16 устройство декодирования включает в себя блок 960 распаковки битов, декодер 970 понижающего микширования, блок 980 3D воспроизведения и блок 990 компенсации перекрестной связи. Детальные описания процессов декодирования, аналогичных описанным выше для варианта осуществления по фиг. 1, будут опущены. In FIG. 16 is a block diagram of a decoding apparatus for compensating cross-coupling according to an embodiment of the present invention. According to FIG. 16, the decoding apparatus includes a
3D сигнал понижающего микширования, сгенерированный блоком 980 3D воспроизведения, может быть воспроизведен наушником. Однако, когда 3D сигнал понижающего микширования воспроизводится динамиками, которые удалены от пользователя, может возникнуть межканальная перекрестная связь.The 3D downmix signal generated by the
Поэтому устройство декодирования может включать в себя блок 990 компенсации перекрестной связи, который выполняет операцию компенсации перекрестной связи над 3D сигналом понижающего микширования.Therefore, the decoding device may include a
Устройство декодирования может выполнить операцию обработки звукового поля.The decoding device may perform a sound field processing operation.
Информация звукового поля, используемая в операции обработки звукового поля, то есть информация, идентифицирующая место, в котором должен быть воспроизведен 3D сигнал понижающего микширования, может быть включена во входной поток битов, переданный устройством кодирования, или может быть выбрана устройством декодирования.The sound field information used in the sound field processing operation, that is, information identifying the place where the 3D down-mix signal is to be played, may be included in the input bit stream transmitted by the encoding device, or may be selected by a decoding device.
Входной поток битов может включать в себя информацию времени реверберации. Фильтр, используемый в операции обработки звукового поля, может управляться согласно информации времени реверберации.The input bitstream may include reverberation time information. The filter used in the sound field processing operation may be controlled according to reverberation time information.
Операция обработки звукового поля может быть выполнена по-разному для начальной части и конечной части реверберации. Например, начальная часть может быть обработана с использованием фильтра FIR, а последняя часть реверберациии может быть обработана с использованием фильтра IIR.The sound field processing operation may be performed differently for the initial part and the final part of the reverb. For example, the initial part can be processed using the FIR filter, and the last part of the reverb can be processed using the IIR filter.
Более конкретно, операция обработки звукового поля может быть выполнена над начальной частью путем выполнения операции свертки во временной области с использованием фильтра FIR или путем выполнения операции умножения в частотной области и преобразования результата операции умножения во временную область. Операция обработки звукового поля может быть выполнена над последней частью реверберации во временной области.More specifically, a sound field processing operation can be performed on the initial part by performing a convolution operation in the time domain using the FIR filter or by performing a multiplication operation in the frequency domain and converting the result of the multiplication operation into the time domain. The sound field processing operation may be performed on the last part of the reverb in the time domain.
Настоящее изобретение может быть реализовано как считываемый компьютером код, записанный на машиночитаемом носителе записи. Машиночитаемый носитель записи может быть устройством записи любого типа, в котором данные сохраняются в машиночитаемой форме. Примеры машиночитаемого носителя записи включают в себя ROM, RAM, CD-ROM, магнитную ленту, гибкий диск, оптическое ЗУ данных и несущее колебание (например, передача данных через Интернет). Машиночитаемый носитель записи может быть распределен по множеству компьютерных систем, связанных с сетью так, чтобы машиночитаемый код мог записываться на них и исполняться с них децентрализованным способом. Функциональные программы, код и сегменты кода, необходимые для реализации настоящего изобретения, могут быть без труда истолкованы специалистами в данной области техники.The present invention can be implemented as computer readable code recorded on a computer readable recording medium. The computer-readable recording medium may be any type of recording device in which data is stored in computer-readable form. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and carrier wave (e.g., data transmission over the Internet). The computer-readable recording medium may be distributed across a plurality of computer systems connected to the network so that the computer-readable code can be written to and executed from them in a decentralized manner. Functional programs, code, and code segments necessary for implementing the present invention can be readily interpreted by those skilled in the art.
Как описано выше, согласно настоящему изобретению возможно эффективно кодировать многоканальные сигналы с 3D эффектами и адаптивно восстанавливать и воспроизводить аудиосигналы с оптимальным качеством звучания в соответствии с характеристиками среды воспроизведения.As described above, according to the present invention, it is possible to efficiently encode multi-channel signals with 3D effects and adaptively restore and reproduce audio signals with optimal sound quality in accordance with the characteristics of the playback environment.
Промышленная применимость Industrial applicability
Другие реализации находятся в пределах объема приведенных далее пунктов формулы изобретения. Например, группирование, кодирование данных и энтропийное кодирование согласно настоящему изобретению могут быть применены к различным областям применения и различным продуктам. Носители данных, хранящие данные, к которым применен аспект настоящего изобретения, входят в объем настоящего изобретения.Other implementations are within the scope of the following claims. For example, grouping, data coding and entropy coding according to the present invention can be applied to various applications and various products. Data carriers storing data to which an aspect of the present invention is applied are included in the scope of the present invention.
Claims (11)
прием трехмерного (3D) сигнала понижающего микширования и пространственной информации;
декодирование 3D сигнала понижающего микширования;
извлечение информации, относящейся к фильтру, из входного потока битов;
удаление 3D эффекта из 3D сигнала понижающего микширования путем выполнения операции 3D воспроизведения над 3D сигналом понижающего микширования с использованием фильтра, инверсного фильтру, используемому для генерации 3D сигнала понижающего микширования, на основании информации, относящейся к фильтру; и
генерацию многоканального сигнала, используя пространственную информацию и сигнал понижающего микширования, из которого удален 3D эффект.1. A method for decoding a signal, comprising
receiving three-dimensional (3D) signal down-mixing and spatial information;
decoding of a 3D down-mix signal;
extracting filter related information from the input bitstream;
removing the 3D effect from the 3D downmix signal by performing a 3D playback operation on the 3D downmix signal using a filter inverse to the filter used to generate the 3D downmix signal based on the filter related information; and
generating a multi-channel signal using spatial information and a down-mix signal from which the 3D effect is removed.
блок распаковки битов, принимающий трехмерный (3D) сигнал понижающего микширования и пространственную информацию;
декодер понижающего микширования, декодирующий 3D сигнал понижающего микширования;
блок 3D воспроизведения, удаляющий 3D эффект из 3D сигнала понижающего микширования путем выполнения операции 3D воспроизведения над 3D сигналом понижающего микширования с использованием фильтра, инверсного фильтру, используемому для генерации 3D сигнала понижающего микширования, на основании информации, относящейся к фильтру; и
многоканальный декодер, генерирующий многоканальный сигнал, используя пространственную информацию и сигнал понижающего микширования, из которого удален 3D эффект.7. A device for decoding a signal containing
a bit decompression unit receiving a three-dimensional (3D) down-mix signal and spatial information;
a downmix decoder decoding a 3D downmix signal;
a 3D reproducing unit removing the 3D effect from the 3D downmix signal by performing a 3D reproduction operation on the 3D downmix signal using a filter inverse to the filter used to generate the 3D downmix signal based on information related to the filter; and
a multi-channel decoder generating a multi-channel signal using spatial information and a down-mix signal from which the 3D effect is removed.
Applications Claiming Priority (13)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US76574706P | 2006-02-07 | 2006-02-07 | |
US60/765,747 | 2006-02-07 | ||
US77147106P | 2006-02-09 | 2006-02-09 | |
US60/771,471 | 2006-02-09 | ||
US60/773,337 | 2006-02-15 | ||
US77577506P | 2006-02-23 | 2006-02-23 | |
US60/775,775 | 2006-02-23 | ||
US60/781,750 | 2006-03-14 | ||
US78251906P | 2006-03-16 | 2006-03-16 | |
US60/782,519 | 2006-03-16 | ||
US60/792,329 | 2006-04-17 | ||
US79365306P | 2006-04-21 | 2006-04-21 | |
US60/793,653 | 2006-04-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2008136007A RU2008136007A (en) | 2010-03-20 |
RU2406164C2 true RU2406164C2 (en) | 2010-12-10 |
Family
ID=42136804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2008136007/09A RU2406164C2 (en) | 2006-02-07 | 2007-02-07 | Signal coding/decoding device and method |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2406164C2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2608847C1 (en) * | 2013-05-24 | 2017-01-25 | Долби Интернешнл Аб | Audio scenes encoding |
RU2609097C2 (en) * | 2012-08-10 | 2017-01-30 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Device and methods for adaptation of audio information at spatial encoding of audio objects |
RU2628177C2 (en) * | 2013-05-24 | 2017-08-15 | Долби Интернешнл Аб | Methods of coding and decoding sound, corresponding machine-readable media and corresponding coding device and device for sound decoding |
RU2648945C2 (en) * | 2012-07-02 | 2018-03-28 | Сони Корпорейшн | Decoding device, decoding method, coding device, coding method and program |
RU2710949C1 (en) * | 2016-02-17 | 2020-01-14 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Device and method for stereophonic filling in multichannel coding |
US10971163B2 (en) | 2013-05-24 | 2021-04-06 | Dolby International Ab | Reconstruction of audio scenes from a downmix |
-
2007
- 2007-02-07 RU RU2008136007/09A patent/RU2406164C2/en not_active IP Right Cessation
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2648945C2 (en) * | 2012-07-02 | 2018-03-28 | Сони Корпорейшн | Decoding device, decoding method, coding device, coding method and program |
RU2609097C2 (en) * | 2012-08-10 | 2017-01-30 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Device and methods for adaptation of audio information at spatial encoding of audio objects |
US10497375B2 (en) | 2012-08-10 | 2019-12-03 | Fraunhofer—Gesellschaft zur Foerderung der angewandten Forschung e.V. | Apparatus and methods for adapting audio information in spatial audio object coding |
US10026408B2 (en) | 2013-05-24 | 2018-07-17 | Dolby International Ab | Coding of audio scenes |
US10726853B2 (en) | 2013-05-24 | 2020-07-28 | Dolby International Ab | Decoding of audio scenes |
RU2608847C1 (en) * | 2013-05-24 | 2017-01-25 | Долби Интернешнл Аб | Audio scenes encoding |
US10347261B2 (en) | 2013-05-24 | 2019-07-09 | Dolby International Ab | Decoding of audio scenes |
US10468040B2 (en) | 2013-05-24 | 2019-11-05 | Dolby International Ab | Decoding of audio scenes |
US10468039B2 (en) | 2013-05-24 | 2019-11-05 | Dolby International Ab | Decoding of audio scenes |
US10468041B2 (en) | 2013-05-24 | 2019-11-05 | Dolby International Ab | Decoding of audio scenes |
RU2628177C2 (en) * | 2013-05-24 | 2017-08-15 | Долби Интернешнл Аб | Methods of coding and decoding sound, corresponding machine-readable media and corresponding coding device and device for sound decoding |
US11894003B2 (en) | 2013-05-24 | 2024-02-06 | Dolby International Ab | Reconstruction of audio scenes from a downmix |
US9818412B2 (en) | 2013-05-24 | 2017-11-14 | Dolby International Ab | Methods for audio encoding and decoding, corresponding computer-readable media and corresponding audio encoder and decoder |
US11682403B2 (en) | 2013-05-24 | 2023-06-20 | Dolby International Ab | Decoding of audio scenes |
US10971163B2 (en) | 2013-05-24 | 2021-04-06 | Dolby International Ab | Reconstruction of audio scenes from a downmix |
US11315577B2 (en) | 2013-05-24 | 2022-04-26 | Dolby International Ab | Decoding of audio scenes |
US11580995B2 (en) | 2013-05-24 | 2023-02-14 | Dolby International Ab | Reconstruction of audio scenes from a downmix |
US10733999B2 (en) | 2016-02-17 | 2020-08-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for stereo filling in multichannel coding |
US11727944B2 (en) | 2016-02-17 | 2023-08-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for stereo filling in multichannel coding |
RU2710949C1 (en) * | 2016-02-17 | 2020-01-14 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Device and method for stereophonic filling in multichannel coding |
Also Published As
Publication number | Publication date |
---|---|
RU2008136007A (en) | 2010-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9626976B2 (en) | Apparatus and method for encoding/decoding signal | |
RU2406164C2 (en) | Signal coding/decoding device and method | |
MX2008009565A (en) | Apparatus and method for encoding/decoding signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20180208 |