RU2417549C2 - Audio signal processing method and device - Google Patents
Audio signal processing method and device Download PDFInfo
- Publication number
- RU2417549C2 RU2417549C2 RU2009125909/09A RU2009125909A RU2417549C2 RU 2417549 C2 RU2417549 C2 RU 2417549C2 RU 2009125909/09 A RU2009125909/09 A RU 2009125909/09A RU 2009125909 A RU2009125909 A RU 2009125909A RU 2417549 C2 RU2417549 C2 RU 2417549C2
- Authority
- RU
- Russia
- Prior art keywords
- information
- signal
- downmix
- processing
- channel
- Prior art date
Links
Images
Landscapes
- Stereophonic System (AREA)
Abstract
Description
Область техникиTechnical field
Настоящее изобретение относится к способу и устройству для обработки аудиосигнала, а конкретнее к способу и устройству для декодирования аудиосигнала, принятого на цифровом носителе, например сигнала вещания и так далее.The present invention relates to a method and apparatus for processing an audio signal, and more particularly, to a method and apparatus for decoding an audio signal received on a digital medium, for example, a broadcast signal and so on.
Предшествующий уровень техникиState of the art
При микшировании с понижением нескольких аудиообъектов в монофонический или стереофонический сигнал могут извлекаться параметры из отдельных сигналов объектов. Эти параметры могут использоваться в декодере аудиосигнала, и изменение положения/панорамирование отдельных источников может управляться по выбору пользователя.When mixing down a few audio objects into a monophonic or stereo signal, parameters can be extracted from individual object signals. These parameters can be used in an audio decoder, and the positioning / panning of individual sources can be controlled by the user.
Раскрытие изобретенияDisclosure of invention
Техническая проблемаTechnical problem
Однако чтобы управлять отдельными сигналами объектов, изменение положения/панорамирование отдельных источников, включенных в сигнал, микшированный с понижением, должно выполняться соответствующим образом.However, in order to control the individual signals of the objects, changing the position / panning of the individual sources included in the downmix signal must be performed accordingly.
Однако для обратной совместимости по отношению к канально-ориентированному способу декодирования (например, MPEG Surround) параметр объекта должен гибко преобразовываться в многоканальный параметр, требуемый в процессе повышающего микширования.However, for backward compatibility with respect to the channel-oriented decoding method (for example, MPEG Surround), the object parameter must be flexibly transformed into the multi-channel parameter required during the upmixing process.
Техническое решениеTechnical solution
Соответственно, настоящее изобретение направлено на способ и устройство для обработки аудиосигнала, которые в значительной степени устраняют одну или несколько проблем вследствие ограничений и недостатков предшествующего уровня техники.Accordingly, the present invention is directed to a method and apparatus for processing an audio signal that substantially eliminates one or more problems due to limitations and disadvantages of the prior art.
Цель настоящего изобретения - предоставить способ и устройство для обработки аудиосигнала, чтобы неограниченно управлять усилением и панорамированием объекта.The purpose of the present invention is to provide a method and apparatus for processing an audio signal in order to infinitely control the gain and panning of an object.
Другая цель настоящего изобретения - предоставить способ и устройство для обработки аудиосигнала, чтобы управлять усилением и панорамированием объекта на основе выбора пользователя.Another objective of the present invention is to provide a method and apparatus for processing an audio signal in order to control gain and panning of an object based on a user's selection.
Дополнительные преимущества, цели и признаки изобретения будут изложены частично в описании, которое следует ниже, и частично станут очевидны обычным специалистам в данной области техники после экспертизы нижеследующего описания, либо могут быть изучены при применении изобретения на практике. Цели и другие преимущества изобретения могут быть реализованы и достигнуты посредством конструкции, подробно показанной в описании и формуле изобретения, а также прилагаемых чертежах.Additional advantages, objects, and features of the invention will be set forth in part in the description that follows, and in part will become apparent to those of ordinary skill in the art after examination of the following description, or may be studied by putting the invention into practice. The objectives and other advantages of the invention can be realized and achieved through the design shown in detail in the description and claims, as well as the accompanying drawings.
Полезные результатыUseful Results
Настоящее изобретение обеспечивает следующие результаты или преимущества.The present invention provides the following results or advantages.
Во-первых, настоящее изобретение может предоставить способ и устройство для обработки аудиосигнала, чтобы неограниченно управлять усилением и панорамированием объекта.First, the present invention can provide a method and apparatus for processing an audio signal to infinitely control the gain and panning of an object.
Во-вторых, настоящее изобретение может предоставить способ и устройство для обработки аудиосигнала, чтобы управлять усилением и панорамированием объекта на основе выбора пользователя.Secondly, the present invention can provide a method and apparatus for processing an audio signal to control amplification and panning of an object based on a user's selection.
Описание чертежейDescription of drawings
Прилагаемые чертежи, которые включаются для обеспечения дополнительного понимания изобретения и составляют часть этой заявки, иллюстрируют варианты осуществления изобретения и вместе с описанием служат для объяснения принципа изобретения. На чертежах:The accompanying drawings, which are included to provide an additional understanding of the invention and form part of this application, illustrate embodiments of the invention and together with the description serve to explain the principle of the invention. In the drawings:
Фиг.1 - типовая блок-схема для объяснения основной идеи воспроизведения сигнала, микшированного с понижением, на основе конфигурации воспроизведения и пользовательского управления.1 is a typical block diagram for explaining a basic idea of reproducing a downmix signal based on a reproduction configuration and user control.
Фиг.2 - типовая блок-схема устройства для обработки аудиосигнала согласно одному варианту осуществления настоящего изобретения, соответствующему первой схеме.2 is an exemplary block diagram of an apparatus for processing an audio signal according to one embodiment of the present invention, corresponding to a first circuit.
Фиг.3 - типовая блок-схема устройства для обработки аудиосигнала согласно другому варианту осуществления настоящего изобретения, соответствующему первой схеме.FIG. 3 is an exemplary block diagram of an apparatus for processing an audio signal according to another embodiment of the present invention corresponding to a first circuit.
Фиг.4 - типовая блок-схема устройства для обработки аудиосигнала согласно одному варианту осуществления настоящего изобретения, соответствующему второй схеме.4 is a typical block diagram of an apparatus for processing an audio signal according to one embodiment of the present invention, corresponding to a second circuit.
Фиг.5 - типовая блок-схема устройства для обработки аудиосигнала согласно другому варианту осуществления настоящего изобретения, соответствующему второй схеме.5 is a typical block diagram of an apparatus for processing an audio signal according to another embodiment of the present invention, corresponding to the second scheme.
Фиг.6 - типовая блок-схема устройства для обработки аудиосигнала согласно другому варианту осуществления настоящего изобретения, соответствующему второй схеме.6 is a typical block diagram of an apparatus for processing an audio signal according to another embodiment of the present invention, corresponding to the second scheme.
Фиг.7 - типовая блок-схема устройства для обработки аудиосигнала согласно одному варианту осуществления настоящего изобретения, соответствующему третьей схеме.7 is a typical block diagram of an apparatus for processing an audio signal according to one embodiment of the present invention, corresponding to a third circuit.
Фиг.8 - типовая блок-схема устройства для обработки аудиосигнала согласно другому варианту осуществления настоящего изобретения, соответствующему третьей схеме.FIG. 8 is an exemplary block diagram of an apparatus for processing an audio signal according to another embodiment of the present invention, corresponding to a third circuit.
Фиг.9 - типовая блок-схема для объяснения основной идеи модуля воспроизведения.Fig.9 is a typical block diagram for explaining the main idea of the playback module.
Фиг.10A-10C - типовые блок-схемы первого варианта осуществления модуля обработки микширования с понижением, проиллюстрированного на Фиг.7.10A-10C are exemplary block diagrams of a first embodiment of a downmix processing module illustrated in FIG. 7.
Фиг.11 - типовая блок-схема второго варианта осуществления модуля обработки микширования с понижением, проиллюстрированного на Фиг.7.11 is a typical block diagram of a second embodiment of a downmix processing module illustrated in FIG. 7.
Фиг.12 - типовая блок-схема третьего варианта осуществления модуля обработки микширования с понижением, проиллюстрированного на Фиг.7.FIG. 12 is a typical block diagram of a third embodiment of a downmix processing module illustrated in FIG. 7.
Фиг.13 - типовая блок-схема четвертого варианта осуществления модуля обработки микширования с понижением, проиллюстрированного на Фиг.7.FIG. 13 is a typical block diagram of a fourth embodiment of a downmix processing module illustrated in FIG. 7.
Фиг.14 - типовая блок-схема структуры потока двоичных сигналов сжатого аудиосигнала согласно второму варианту осуществления настоящего изобретения.14 is a typical block diagram of a binary audio stream structure of a compressed audio signal according to a second embodiment of the present invention.
Фиг.15 - типовая блок-схема устройства для обработки аудиосигнала согласно второму варианту осуществления настоящего изобретения.15 is a typical block diagram of an apparatus for processing an audio signal according to a second embodiment of the present invention.
Фиг.16 - типовая блок-схема структуры потока двоичных сигналов сжатого аудиосигнала согласно третьему варианту осуществления настоящего изобретения.FIG. 16 is an exemplary block diagram of a binary audio stream structure of a compressed audio signal according to a third embodiment of the present invention. FIG.
Фиг.17 - типовая блок-схема устройства для обработки аудиосигнала согласно четвертому варианту осуществления настоящего изобретения.17 is an exemplary block diagram of an apparatus for processing an audio signal according to a fourth embodiment of the present invention.
Фиг.18 - типовая блок-схема для объяснения схемы передачи для переменного типа объекта.Fig. 18 is a typical block diagram for explaining a transmission scheme for a variable object type.
Фиг.19 - типовая блок-схема устройства для обработки аудиосигнала согласно пятому варианту осуществления настоящего изобретения.19 is an exemplary block diagram of an apparatus for processing an audio signal according to a fifth embodiment of the present invention.
Лучший вариант осуществления изобретенияThe best embodiment of the invention
Для достижения этих целей и других преимуществ и в соответствии с целью изобретения, которая реализуется и в общих чертах описывается в этом документе, предоставляется способ для обработки аудиосигнала, содержащий получение сигнала, микшированного с понижением, информации об объекте и информации о микшировании; формирование информации об обработке микширования с понижением с использованием информации об объекте и информации о микшировании; обработку сигнала, микшированного с понижением, с использованием информации об обработке микширования с понижением и формирование многоканальной информации с использованием информации об объекте и информации о микшировании, в которой количество каналов у сигнала, микшированного с понижением, равно количеству каналов у обработанного сигнала, микшированного с понижением.To achieve these goals and other advantages and in accordance with the purpose of the invention, which is implemented and broadly described in this document, a method for processing an audio signal is provided, comprising: receiving a down-mixed signal, object information and mixing information; generating information about downmix processing using object information and mixing information; processing the downmixed signal using downmix processing information and generating multi-channel information using object information and mixing information in which the number of channels of the downmixed signal is equal to the number of channels of the processed downmix .
Согласно настоящему изобретению информация об объекте включает в себя по меньшей мере одну из информации об уровне объекта и информации о корреляции объекта.According to the present invention, object information includes at least one of object level information and object correlation information.
Согласно настоящему изобретению информация об обработке микширования с понижением соответствует информации для управления панорамированием объекта, если количество каналов у сигнала, микшированного с понижением, соответствует по меньшей мере двум.According to the present invention, the downmix processing information corresponds to information for controlling panning of an object if the number of channels of the downmix signal corresponds to at least two.
Согласно настоящему изобретению информация об обработке микширования с понижением соответствует информации для управления усилением объекта.According to the present invention, downmix processing information corresponds to information for controlling gain of an object.
Согласно настоящему изобретению обработка сигнала, микшированного с понижением, выполняется с помощью модуля 2×2, если сигнал, микшированный с понижением, соответствует стереофоническому сигналу.According to the present invention, the processing of the downmix signal is performed using a 2 × 2 module if the downmix signal corresponds to a stereo signal.
Согласно настоящему изобретению один канал обработанного сигнала, микшированного с понижением, соответствует сочетанию одного канала сигнала, микшированного с понижением, умноженного на первый коэффициент усиления, и другого канала сигнала, микшированного с понижением, умноженного на второй коэффициент усиления, если сигнал, микшированный с понижением, соответствует стереофоническому сигналу.According to the present invention, one channel of the processed downmix signal corresponds to a combination of one channel of the downmix signal multiplied by the first gain and another channel of the downmix signal multiplied by the second gain, if the signal is mixed down corresponds to a stereo signal.
Согласно настоящему изобретению дополнительно содержится формирование выходного сигнала во временной области, используя обработанный сигнал, микшированный с понижением.According to the present invention, further comprising generating an output signal in a time domain using a processed downmix signal.
Согласно настоящему изобретению сигнал, микшированный с понижением, соответствует сигналу области поддиапазона, сформированному с помощью набора фильтров анализа поддиапазона.According to the present invention, the downmix signal corresponds to a subband region signal generated by a set of subband analysis filters.
Согласно настоящему изобретению многоканальная информация включает в себя по меньшей мере одну из информации об уровне канала и информации о корреляции канала.According to the present invention, multi-channel information includes at least one of channel level information and channel correlation information.
Согласно настоящему изобретению дополнительно содержится формирование многоканального сигнала, используя обработанный сигнал, микшированный с понижением, и многоканальную информацию.According to the present invention, further comprising generating a multi-channel signal using a downmix processed signal and multi-channel information.
Согласно настоящему изобретению информация о микшировании формируется с использованием по меньшей мере одной из информации о положении объекта и информации о конфигурации воспроизведения.According to the present invention, mixing information is generated using at least one of the position information of the object and the playback configuration information.
Согласно настоящему изобретению сигнал, микшированный с понижением, принимается как сигнал вещания.According to the present invention, a downmix signal is received as a broadcast signal.
Согласно настоящему изобретению сигнал, микшированный с понижением, принимается на цифровом носителе.According to the present invention, a downmix signal is received on a digital medium.
В другом аспекте настоящего изобретения предоставляется способ для обработки аудиосигнала, содержащий: получение сигнала, микшированного с понижением, информации об объекте и информации о микшировании; разложение сигнала, микшированного с понижением, на сигнал поддиапазона; формирование информации об обработке микширования с понижением с использованием информации об объекте и информации о микшировании и обработку сигнала поддиапазона с использованием информации об обработке микширования с понижением; формирование выходного сигнала с использованием обработанного сигнала поддиапазона, где количество каналов у сигнала, микшированного с понижением, равно количеству выходных сигналов, и выходной сигнал соответствует сигналу временной области.In another aspect of the present invention, there is provided a method for processing an audio signal, comprising: receiving a downmix signal, object information and mixing information; decomposing the downmix signal into a subband signal; generating information about downmix processing using object information and mixing information and processing a subband signal using downmix processing information; generating an output signal using the processed subband signal, where the number of channels of the downmix signal is equal to the number of output signals, and the output signal corresponds to a time-domain signal.
В другом аспекте настоящего изобретения предоставляется машиночитаемый носитель с сохраненными на нем командами, которые при выполнении процессором заставляют процессор выполнять операции, содержащие: получение сигнала, микшированного с понижением, информации об объекте и информации о микшировании; формирование информации об обработке микширования с понижением с использованием информации об объекте и информации о микшировании; обработку сигнала, микшированного с понижением, с использованием информации об обработке микширования с понижением и формирование многоканальной информации с использованием информации об объекте и информации о микшировании, в которой количество каналов у сигнала, микшированного с понижением, равно количеству каналов у обработанного сигнала, микшированного с понижением.In another aspect of the present invention, there is provided a computer-readable medium with instructions stored thereon which, when executed by a processor, cause the processor to perform operations comprising: receiving a downmix signal, object information and mixing information; generating information about downmix processing using object information and mixing information; processing the downmixed signal using downmix processing information and generating multi-channel information using object information and mixing information in which the number of channels of the downmixed signal is equal to the number of channels of the processed downmix .
В другом аспекте настоящего изобретения предоставляется машиночитаемый носитель с сохраненными на нем командами, которые при выполнении процессором заставляют процессор выполнять операции, содержащие: получение сигнала, микшированного с понижением, информации об объекте и информации о микшировании; разложение сигнала, микшированного с понижением, на сигнал поддиапазона; формирование информации об обработке микширования с понижением с использованием информации об объекте и информации о микшировании и обработку сигнала поддиапазона с использованием информации об обработке микширования с понижением; формирование выходного сигнала с использованием обработанного сигнала поддиапазона, где количество каналов у сигнала, микшированного с понижением, равно количеству выходных сигналов, и выходной сигнал соответствует сигналу временной области.In another aspect of the present invention, there is provided a computer-readable medium with instructions stored thereon which, when executed by a processor, cause the processor to perform operations comprising: receiving a downmix signal, object information and mixing information; decomposing the downmix signal into a subband signal; generating information about downmix processing using object information and mixing information and processing a subband signal using downmix processing information; generating an output signal using the processed subband signal, where the number of channels of the downmix signal is equal to the number of output signals, and the output signal corresponds to a time-domain signal.
В другом аспекте настоящего изобретения предоставляется устройство для обработки аудиосигнала, содержащее: модуль формирования информации, получающий информацию об объекте и информацию о микшировании и формирующий информацию об обработке микширования с понижением с использованием информации об объекте и информации о микшировании, и формирующий многоканальную информацию с использованием информации об объекте и информации о микшировании; и модуль обработки микширования с понижением, получающий сигнал, микшированный с понижением, и информацию об обработке микширования с понижением, и обрабатывающий сигнал, микшированный с понижением, с использованием информации об обработке микширования с понижением; где количество каналов у сигнала, микшированного с понижением, равно количеству каналов у обработанного сигнала, микшированного с понижением.In another aspect of the present invention, there is provided an apparatus for processing an audio signal comprising: an information generating module receiving information about an object and mixing information and generating information about downmix processing using object information and mixing information and generating multi-channel information using information about the facility and mixing information; and a downmix processing processing unit receiving the downmix signal and downmix processing information and a downmix processing signal using the downmix processing information; where the number of channels of the downmix signal is equal to the number of channels of the processed downmix signal.
В другом аспекте настоящего изобретения предоставляется устройство для обработки аудиосигнала, содержащее: модуль формирования информации, получающий сигнал, микшированный с понижением, информацию об объекте и информацию о микшировании, причем модуль формирования информации формирует информацию об обработке микширования с понижением с использованием информации об объекте и информации о микшировании; и модуль обработки микширования с понижением, раскладывающий сигнал, микшированный с понижением, на сигнал поддиапазона, обрабатывающий сигнал поддиапазона с использованием информации об обработке микширования с понижением и формирующий выходной сигнал с использованием обработанного сигнала поддиапазона, где количество каналов у сигнала, микшированного с понижением, равно количеству выходных сигналов, и выходной сигнал соответствует сигналу временной области.In another aspect of the present invention, there is provided an apparatus for processing an audio signal, comprising: an information generating module receiving a downmix signal, object information and mixing information, the information generating module generating down mixing information using the object information and information about mixing; and a downmix processing module, decomposing the downmix signal into a subband signal, processing the subband signal using downmix processing information, and generating an output signal using the processed subband signal, where the number of channels of the downmix signal is the number of output signals, and the output signal corresponds to a time-domain signal.
В другом аспекте настоящего изобретения предоставляется способ для обработки аудиосигнала, содержащий: получение сигнала, микшированного с понижением, с использованием сигнала множества объектов; формирование информации об объекте, представляющей связь между сигналами множества объектов, используя сигналы множества объектов и сигнал, микшированный с понижением, и передачу сигнала, микшированного с понижением, и информации об объекте, где сигналу, микшированному с понижением, разрешается быть обработанным сигналом, микшированным с понижением, для того, чтобы количество каналов у сигнала, микшированного с понижением, было равно количеству обработанных сигналов, микшированных с понижением.In another aspect of the present invention, there is provided a method for processing an audio signal, the method comprising: receiving a downmix signal using a signal of a plurality of objects; generating information about an object representing the relationship between signals of a plurality of objects using signals from a plurality of objects and a downmix signal, and transmitting a downmix signal and information about an object where a downmix signal is allowed to be processed by a signal mixed with by decreasing, so that the number of channels of the signal mixed with decreasing is equal to the number of processed signals mixed with decreasing.
Следует понимать, что как вышеизложенное общее описание, так и нижеследующее подробное описание настоящего изобретения являются иллюстративными и пояснительными и предназначаются для предоставления дополнительного пояснения заявленного изобретения.It should be understood that both the foregoing general description and the following detailed description of the present invention are illustrative and explanatory and are intended to provide further explanation of the claimed invention.
Варианты осуществления для изобретенияEmbodiments for the invention
Сейчас будет сделана подробная ссылка на предпочтительные варианты осуществления настоящего изобретения, примеры которых иллюстрируются на прилагаемых чертежах. Где, возможно, будут использоваться одинаковые ссылочные позиции на чертежах, чтобы ссылаться на одинаковые или похожие части.Detailed reference will now be made to preferred embodiments of the present invention, examples of which are illustrated in the accompanying drawings. Where, possibly, the same reference numbers in the drawings will be used to refer to the same or similar parts.
Перед описанием настоящего изобретения необходимо отметить, что большинство терминов, раскрытых в настоящем изобретении, соответствуют общим терминам, хорошо известным в данной области техники, но некоторые термины выбраны заявителем в соответствии с необходимостью и будут раскрыты ниже в последующем описании настоящего изобретения. Поэтому предпочтительно, чтобы термины, определенные заявителем, понимались на основе их значений в настоящем изобретении.Before describing the present invention, it should be noted that most of the terms disclosed in the present invention correspond to general terms well known in the art, but some terms are selected by the applicant as necessary and will be disclosed below in the following description of the present invention. Therefore, it is preferred that the terms defined by the applicant be understood based on their meanings in the present invention.
В частности, "параметр" в нижеследующем описании означает информацию, включающую в себя значения, параметры в узком смысле, коэффициенты, элементы и так далее. В дальнейшем термин "параметр" будет использоваться вместо термина "информация" как параметр объекта, параметр микширования, параметр обработки микширования с понижением и так далее, что не накладывает ограничение на настоящее изобретение.In particular, “parameter” in the following description means information including values, parameters in the narrow sense, coefficients, elements, and so on. Hereinafter, the term “parameter” will be used instead of the term “information” as an object parameter, a mixing parameter, a downmix processing parameter, and so on, which does not impose a limitation on the present invention.
В микшировании сигналов нескольких каналов или сигналов объекта может извлекаться параметр объекта и пространственный параметр. Декодер может формировать выходной сигнал, используя сигнал, микшированный с понижением, и параметр объекта (или пространственный параметр). Выходной сигнал может воспроизводиться декодером на основе конфигурации воспроизведения и пользовательского управления. Процесс воспроизведения объяснен ниже подробно со ссылкой на Фиг.1.In mixing the signals of several channels or signals of an object, an object parameter and a spatial parameter can be extracted. A decoder can generate an output signal using a downmix signal and an object parameter (or spatial parameter). The output signal may be reproduced by the decoder based on the playback configuration and user control. The reproduction process is explained below in detail with reference to FIG.
Фиг.1 - типовая схема для объяснения основной идеи воспроизведения сигнала, микшированного с понижением, на основе конфигурации воспроизведения и пользовательского управления. Согласно Фиг.1 декодер 100 может включать в себя модуль 110 формирования информации воспроизведения и модуль 120 воспроизведения, а также может включать в себя рендерер 110a и синтез 120a вместо модуля 110 формирования информации воспроизведения и модуля 120 воспроизведения.1 is a typical diagram for explaining a basic idea of reproducing a downmix signal based on a reproduction configuration and user control. 1,
Модуль 110 формирования информации воспроизведения может быть сконфигурирован для получения от кодера дополнительной информации, включающей параметр объекта или пространственный параметр, а также для получения конфигурации воспроизведения или пользовательского управления из настройки устройства или интерфейса пользователя. Параметр объекта может соответствовать параметру, извлеченному в микшировании с понижением по меньшей мере одного сигнала объекта, и пространственный параметр может соответствовать параметру, извлеченному в микшировании с понижением по меньшей мере одного сигнала канала. Кроме того, информация о типе и характерная информация для каждого объекта могут включаться в дополнительную информацию. Информация о типе и характерная информация могут описывать название инструмента, имя исполнителя и так далее. Конфигурация воспроизведения может включать в себя положение динамика и окружающую информацию (виртуальное положение динамика), и пользовательское управление может соответствовать управляющей информации, введенной пользователем, чтобы управлять положениями объектов и усилениями объектов, и также может соответствовать управляющей информации, чтобы управлять конфигурацией воспроизведения. Между тем, конфигурация воспроизведения и пользовательское управление могут представляться в виде информации о микшировании, что не накладывает ограничение на настоящее изобретение.The playback
Модуль 110 формирования информации воспроизведения может быть сконфигурирован для формирования информации воспроизведения, используя информацию о микшировании (конфигурацию воспроизведения и пользовательское управление) и принятую дополнительную информацию. Модуль 120 воспроизведения может конфигурироваться для формирования многоканального параметра, используя информацию воспроизведения, если не передается микширование с понижением аудиосигнала (сокращенно "сигнал, микшированный с понижением"), и формирования многоканальных сигналов, используя информацию воспроизведения и сигнал, микшированный с понижением, если передается микширование с понижением аудиосигнала.The reproduction
Рендерер 110a может быть сконфигурирован для формирования многоканальных сигналов, используя информацию о микшировании (конфигурацию воспроизведения и пользовательское управление) и принятую дополнительную информацию. Синтез 120a может быть сконфигурирован для синтеза многоканальных сигналов, используя многоканальные сигналы, сформированные рендерером 110a.The renderer 110a may be configured to generate multi-channel signals using mixing information (playback configuration and user control) and received additional information.
Как излагалось ранее, декодер может воспроизводить сигнал, микшированный с понижением, на основе конфигурации воспроизведения и пользовательского управления. Между тем, чтобы управлять отдельными сигналами объектов, декодер может получить параметр объекта в качестве дополнительной информации и управлять панорамированием объекта и усилением объекта на основе переданного параметра объекта.As previously stated, a decoder can reproduce a downmix signal based on a reproduction configuration and user control. Meanwhile, in order to control individual object signals, the decoder can obtain the object parameter as additional information and control the object’s panning and object gain based on the transmitted object parameter.
1. Управление усилением и панорамированием сигналов объектов1. Control gain and panning of object signals
Могут предоставляться изменяемые способы для управления отдельными сигналами объектов. Во-первых, если декодер получает параметр объекта и формирует отдельные сигналы объектов с использованием параметра объекта, то можно управлять отдельными сигналами объектов на основании информации о микшировании (конфигурации воспроизведения, уровня объекта и т.д.).Variable methods for controlling individual object signals may be provided. First, if the decoder receives an object parameter and generates individual object signals using the object parameter, then individual object signals can be controlled based on mixing information (playback configuration, object level, etc.).
Во-вторых, если декодер формирует многоканальный параметр для ввода в многоканальный декодер, то многоканальный декодер может раскладывать сигнал, микшированный с понижением, принятый от кодера, используя многоканальный параметр. Вышеупомянутый второй способ может классифицироваться на три типа схем. В частности, могут предоставляться 1) использование традиционного многоканального декодера, 2) изменение многоканального декодера, 3) обработка микширования с понижением аудиосигналов перед введением в многоканальный декодер. Традиционный многоканальный декодер может соответствовать канально-ориентированному пространственному звуковому кодированию (например, декодеру MPEG Surround), что не накладывает ограничение на настоящее изобретение. Подробности трех типов схем будут объясняться ниже.Secondly, if the decoder generates a multi-channel parameter for input into the multi-channel decoder, then the multi-channel decoder can decompose the down-mixed signal received from the encoder using the multi-channel parameter. The above second method can be classified into three types of circuits. In particular, 1) the use of a traditional multi-channel decoder, 2) a change to a multi-channel decoder, 3) mixing processing with lowering audio signals before being introduced into a multi-channel decoder can be provided. A conventional multi-channel decoder may correspond to channel-oriented spatial audio coding (eg, MPEG Surround decoder), which does not impose a limitation on the present invention. Details of the three types of schemes will be explained below.
1.1 Использование многоканального декодера1.1 Using a multi-channel decoder
Первая схема может использовать традиционный многоканальный декодер как есть, без изменения многоканального декодера. Сначала случай использования ADG (произвольное усиление сигнала, микшированного с понижением) для управления усилениями объектов и случай использования конфигурации 5-2-5 для управления панорамированием объекта объяснен ниже со ссылкой на Фиг.2. Далее, случай связи с модулем повторного микширования сцены объяснен ниже со ссылкой на Фиг.3.The first scheme can use the traditional multi-channel decoder as is, without changing the multi-channel decoder. First, the case of using ADG (arbitrary amplification of a signal mixed down) to control the gain of objects and the case of using the configuration 5-2-5 to control panning of an object is explained below with reference to FIG. Next, the case of communication with the scene re-mixing module is explained below with reference to FIG. 3.
Фиг.2 - типовая блок-схема устройства для обработки аудиосигнала согласно одному варианту осуществления настоящего изобретения, соответствующему первой схеме. Согласно Фиг.2 устройство 200 для обработки аудиосигнала (в дальнейшем просто "декодер 200") может включать в себя модуль 210 формирования информации и многоканальный декодер 230. Модуль 210 формирования информации может получать дополнительную информацию, включающую параметр объекта, от кодера и информацию о микшировании из интерфейса пользователя и может формировать многоканальный параметр, включающий произвольное усиление сигнала, микшированного с понижением, или усиление изменения усиления (в дальнейшем просто "ADG"). ADG может описывать отношение первого коэффициента усиления, оцененного на основе информации о микшировании и информации об объекте, ко второму коэффициенту усиления, оцененному на основе информации об объекте. В частности, модуль 210 формирования информации может формировать ADG, только если сигнал, микшированный с понижением, соответствует монофоническому сигналу. Многоканальный декодер 230 может получать микширование с понижением аудиосигнала от кодера и многоканальный параметр от модуля 210 формирования информации и может формировать многоканальный выходной сигнал, используя сигнал, микшированный с понижением, и многоканальный параметр.2 is an exemplary block diagram of an apparatus for processing an audio signal according to one embodiment of the present invention, corresponding to a first circuit. 2, an
Многоканальный параметр может включать в себя разницу уровней каналов (в дальнейшем сокращенно "CLD"), межканальную корреляцию (в дальнейшем сокращенно "ICC"), коэффициент предсказания канала (в дальнейшем сокращенно "CPC").The multi-channel parameter may include the difference in channel levels (hereinafter abbreviated as “CLD”), inter-channel correlation (hereinafter abbreviated as “ICC”), and the channel prediction coefficient (hereinafter abbreviated as “CPC”).
Так как CLD, ICC и CPC описывают разницу интенсивности или корреляцию между двумя каналами, они предназначены для управления панорамированием и корреляцией объекта. Можно управлять положениями объекта и диффузностью (звучностью) объекта, используя CLD, ICC и т.д. Между тем, CLD описывает относительную разницу уровней вместо абсолютного уровня, и энергия двух разделенных каналов сохраняется. Поэтому нельзя управлять усилениями объектов путем манипулирования CLD и т.д. Другими словами, конкретный объект не может быть приглушен или увеличен по громкости с использованием CLD и т.д.Since the CLD, ICC, and CPC describe the intensity difference or correlation between the two channels, they are designed to control the pan and correlation of an object. You can control the position of the object and the diffuseness (sonicity) of the object using CLD, ICC, etc. Meanwhile, the CLD describes the relative level difference instead of the absolute level, and the energy of the two separated channels is conserved. Therefore, you cannot control the amplification of objects by manipulating the CLD, etc. In other words, a particular object cannot be muted or increased in volume using CLD, etc.
Кроме того, ADG описывает зависимое от времени и частоты усиление для управления поправочным коэффициентом с помощью пользователя. Если этот поправочный коэффициент применяется, можно управлять изменением сигнала, микшированного с понижением, перед многоканальным разложением. Поэтому, если параметр ADG принимается от модуля 210 формирования информации, многоканальный декодер 230 может управляться усилениями объектов с конкретным временем и частотой, используя параметр ADG.In addition, the ADG describes a time and frequency dependent gain for controlling a correction factor by a user. If this correction factor is applied, it is possible to control the variation of the downmix signal before multi-channel decomposition. Therefore, if the ADG parameter is received from the
Случай, когда принятый стереофонический сигнал, микшированный с понижением, выводится как стереоканал, может задаваться следующей формулой 1.The case when the received stereo signal, mixed down, is output as a stereo channel, can be specified by the following
[формула 1][Formula 1]
где x[] - входные каналы, y[] - выходные каналы, gx - усиления и wxx - вес.where x [] are the input channels, y [] are the output channels, g x are the amplifications, and w xx is the weight.
Необходимо контролировать перекрестную связь между левым каналом и правым каналом для панорамирования объекта. В частности, часть левого канала в сигнале, микшированном с понижением, может выводиться как правый канал выходного сигнала, часть правого канала в сигнале, микшированном с понижением, может выводиться как левый канал выходного сигнала. В формуле 1 w12 и w21 могут быть перекрестными компонентами.It is necessary to control the cross-link between the left channel and the right channel to pan the object. In particular, part of the left channel in the signal mixed with decreasing can be output as the right channel of the output signal, part of the right channel in the signal mixed with decreasing can be output as the left channel of the output signal. In the
Вышеупомянутый случай соответствует конфигурации 2-2-2, которая означает 2-канальный ввод, 2-канальную передачу и 2-канальный выход. Чтобы выполнить конфигурацию 2-2-2, может использоваться конфигурация 5-2-5 (2-канальный ввод, 5-канальная передача и 2-канальный выход) в традиционном канально-ориентированном пространственном звуковом кодировании (например, MPEG Surround). Сначала, чтобы вывести 2 канала для конфигурации 2-2-2, некоторый канал из 5 выходных каналов в конфигурации 5-2-5 может быть установлен в заблокированный канал (ложный канал). Чтобы получить перекрестную связь между 2 переданными каналами и 2 выходными каналами, могут регулироваться вышеупомянутые CLD и CPC. Коэффициент усиления gx в формуле (1) получается с использованием вышеупомянутого ADG, и весовой коэффициент w11~w22 в формуле (1) получается с использованием CLD и CPC.The above case corresponds to a 2-2-2 configuration, which means 2-channel input, 2-channel transmission and 2-channel output. To perform a 2-2-2 configuration, a 5-2-5 configuration (2-channel input, 5-channel transmission and 2-channel output) in conventional channel-oriented spatial sound coding (e.g., MPEG Surround) can be used. First, in order to output 2 channels for a 2-2-2 configuration, a channel of 5 output channels in a 5-2-5 configuration can be set to a blocked channel (false channel). In order to obtain cross-coupling between 2 transmitted channels and 2 output channels, the above-mentioned CLDs and CPCs can be adjusted. The gain g x in formula (1) is obtained using the above-mentioned ADG, and the weight coefficient w 11 ~ w 22 in formula (1) is obtained using CLD and CPC.
В реализации конфигурации 2-2-2 с использованием конфигурации 5-2-5, чтобы уменьшить сложность, может применяться режим по умолчанию из традиционного пространственного аудиокодирования. Поскольку характеристика CLD по умолчанию предполагается для вывода 2 каналов, можно уменьшить объем вычислений, если применяется CLD по умолчанию. В частности, поскольку не нужно синтезировать ложный канал, можно значительно уменьшить объем вычислений. Поэтому применение режима по умолчанию является правильным. В частности, для декодирования используется только CLD по умолчанию из 3 CLD (соответствующих 0, 1 и 2 в стандарте MPEG Surround). С другой стороны, 4 CLD из левого канала, правого канала и центрального канала (соответствующие 3, 4, 5 и 6 в стандарте MPEG Surround) и 2 ADG (соответствующие 7 и 8 в стандарте MPEG Surround) формируются для управления объектом. В этом случае CLD, соответствующие 3 и 5, которые описывают разницу уровней каналов между левым каналом плюс правым каналом и центральным каналом ((l+r)/c), правильно установить в 150 дБ (почти бесконечным), чтобы приглушить центральный канал. И чтобы реализовать перекрестную связь, может выполняться основанное на энергии разложение или основанное на предсказании разложение, которое вызывается, если режим TTT ("bsTttModeLow" в стандарте MPEG Surround) соответствует основанному на энергии режиму (с вычитанием, задействована совместимость матриц) (3-й режим) или режиму предсказания (1-й режим или 2-й режим).In implementing a 2-2-2 configuration using a 5-2-5 configuration, in order to reduce complexity, a default mode of conventional spatial audio coding can be applied. Since the default CLD characteristic is assumed to output 2 channels, it is possible to reduce the amount of computation if the default CLD is used. In particular, since it is not necessary to synthesize a false channel, the amount of computation can be significantly reduced. Therefore, applying the default mode is correct. In particular, only the default CLD of 3 CLDs (corresponding to 0, 1, and 2 in the MPEG Surround standard) is used for decoding. On the other hand, 4 CLDs from the left channel, right channel, and center channel (corresponding to 3, 4, 5, and 6 in the MPEG Surround standard) and 2 ADGs (corresponding to 7 and 8 in the MPEG Surround standard) are formed to control the object. In this case, the CLDs corresponding to 3 and 5, which describe the difference in channel levels between the left channel plus the right channel and the center channel ((l + r) / c), should be correctly set to 150 dB (almost infinite) to mute the center channel. And in order to realize cross-coupling, energy-based decomposition or prediction-based decomposition can be performed, which is caused if the TTT mode ("bsTttModeLow" in the MPEG Surround standard) corresponds to the energy-based mode (with subtraction, matrix compatibility is enabled) (3rd mode) or prediction mode (1st mode or 2nd mode).
Фиг.3 - типовая блок-схема устройства для обработки аудиосигнала согласно другому варианту осуществления настоящего изобретения, соответствующему первой схеме. Согласно Фиг.3 устройство 300 для обработки аудиосигнала согласно другому варианту осуществления настоящего изобретения (в дальнейшем просто декодер 300) может включать в себя модуль 310 формирования информации, модуль 320 воспроизведения сцены, многоканальный декодер 330 и модуль 350 повторного микширования сцены.FIG. 3 is an exemplary block diagram of an apparatus for processing an audio signal according to another embodiment of the present invention corresponding to a first circuit. 3, an
Модуль 310 формирования информации может быть сконфигурирован для получения дополнительной информации, включающей параметр объекта от кодера, если сигнал, микшированный с понижением, соответствует сигналу моноканала (то есть количество каналов микширования с понижением равно "1"), может получать информацию о микшировании из интерфейса пользователя и может формировать многоканальный параметр, используя дополнительную информацию и информацию о микшировании. Количество каналов микширования с понижением может оцениваться на основе информации флажка, включенной в дополнительную информацию, а также самого сигнала, микшированного с понижением, и выбора пользователя. Модуль 310 формирования информации может иметь такую же конфигурацию, как и упомянутый выше модуль 210 формирования информации. Многоканальный параметр вводится в многоканальный декодер 330, многоканальный декодер 330 может иметь такую же конфигурацию, как и упомянутый выше многоканальный декодер 230.The
Модуль 320 воспроизведения сцены может быть сконфигурирован для получения дополнительной информации, включающей параметр объекта от кодера, если сигнал, микшированный с понижением, соответствует сигналу не моноканала (то есть количество каналов микширования с понижением больше "2"), может получать информацию о микшировании из интерфейса пользователя и может формировать параметр повторного микширования, используя дополнительную информацию и информацию о микшировании. Параметр повторного микширования соответствует параметру, чтобы повторно микшировать стереоканал и сформировать более чем 2-канальные результаты. Параметр повторного микширования вводится в модуль 350 повторного микширования сцены. Модуль 350 повторного микширования сцены может быть сконфигурирован для повторного микширования сигнала, микшированного с понижением, с использованием параметра повторного микширования, если сигнал, микшированный с понижением, является более чем 2-канальным сигналом.The
Вкратце, два тракта могли бы рассматриваться в качестве отдельных реализаций для отдельных применений в декодере 300.In short, two paths could be considered as separate implementations for individual applications in the
1.2 Изменение многоканального декодера1.2 Changing the multi-channel decoder
Вторая схема может изменять традиционный многоканальный декодер. Сначала ниже поясняется случай использования виртуального выхода для управления усилениями объектов и случай изменения настройки устройства для управления панорамированием объекта со ссылкой на Фиг.4. Далее поясняется случай выполнения функциональности TBT(2×2) в многоканальном декодере со ссылкой на Фиг.5.The second circuit may modify a conventional multi-channel decoder. First, the case of using the virtual output to control the amplification of objects and the case of changing the settings of the device for controlling the panning of the object with reference to FIG. Next, a case of performing TBT functionality (2 × 2) in a multi-channel decoder will be explained with reference to FIG. 5.
Фиг.4 - типовая блок-схема устройства для обработки аудиосигнала согласно одному варианту осуществления настоящего изобретения, соответствующему второй схеме. Согласно Фиг.4 устройство 400 для обработки аудиосигнала согласно одному варианту осуществления настоящего изобретения, соответствующему второй схеме (в дальнейшем просто "декодер 400"), может включать в себя модуль 410 формирования информации, внутренний многоканальный синтез 420 и выходной модуль 430 преобразования. Внутренний многоканальный синтез 420 и выходной модуль 430 преобразования могут включаться в модуль синтеза.4 is a typical block diagram of an apparatus for processing an audio signal according to one embodiment of the present invention, corresponding to a second circuit. 4, an
Модуль 410 формирования информации может быть сконфигурирован для получения дополнительной информации, включающей параметр объекта от кодера и параметр обработки микширования с понижением из интерфейса пользователя. И модуль 410 формирования информации может быть сконфигурирован для формирования многоканального параметра и информации о настройке устройства, используя дополнительную информацию и информацию о микшировании. Многоканальный параметр может иметь ту же конфигурацию, что и упомянутый выше многоканальный параметр. Поэтому подробности многоканального параметра в нижеследующем описании будут пропущены. Информация о настройке устройства может соответствовать параметризованной HRTF для бинауральной обработки, которая будет объясняться в описании "1.2.2 Использование информации о настройке устройства".The
Внутренний многоканальный синтез 420 может быть сконфигурирован для получения многоканального параметра и информации о настройке устройства от модуля 410 формирования параметров и сигнала, микшированного с понижением, от кодера. Внутренний многоканальный синтез 420 может быть сконфигурирован для формирования временного многоканального выхода, включающего виртуальный выход, который будет объясняться в описании "1.2.1 Использование виртуального выхода".The internal
1.2.1 Использование виртуального выхода1.2.1 Using virtual output
Поскольку многоканальный параметр (например, CLD) может управлять панорамированием объекта, сложно управлять усилением объекта, а также панорамированием объекта с помощью традиционного многоканального декодера.Since a multi-channel parameter (e.g., CLD) can control the panning of an object, it is difficult to control the gain of the object, as well as the panning of the object using a traditional multi-channel decoder.
Между тем, чтобы управлять усилением объекта, декодер 400 (в особенности внутренний многоканальный синтез 420) может преобразовать относительную энергию объекта в виртуальный канал (например, центральный канал). Относительная энергия объекта соответствует энергии, которую нужно уменьшить. Например, чтобы приглушить некоторый объект, декодер 400 может преобразовать более 99,9% энергии объекта в виртуальный канал. Затем декодер 400 (в особенности выходной модуль 430 преобразования) не выводит виртуальный канал, в который преобразуется остальная энергия объекта. В заключение, если больше 99,9% объекта преобразуется в виртуальный канал, который не выводится, нужный объект может быть практически приглушен.Meanwhile, in order to control the gain of the object, the decoder 400 (especially the internal multi-channel synthesis 420) can convert the relative energy of the object into a virtual channel (for example, a central channel). The relative energy of the object corresponds to the energy that needs to be reduced. For example, to mute an object,
1.2.2 Использование информации о настройке устройства1.2.2 Using device setup information
Декодер 400 может приспосабливать информацию о настройке устройства, чтобы управлять панорамированием объекта и усилением объекта. Например, декодер может быть сконфигурирован для формирования параметризованной HRTF для бинауральной обработки в стандарте MPEG Surround. Параметризованная HRTF может быть переменной в соответствии с настройкой устройства. Можно предположить, что сигналы объектов могут управляться в соответствии со следующей формулой 2.
[формула 2][formula 2]
где objk - сигналы объектов, Lnew и Rnew - нужный стереофонический сигнал и ak и bk - коэффициенты для управления объектом.where obj k are the signals of the objects, L new and R new are the desired stereo signal and a k and b k are the coefficients for controlling the object.
Информация объекта о сигналах objk объектов может оцениваться из параметра объекта, включенного в переданную дополнительную информацию. Коэффициенты ak, bk, которые задаются в соответствии с усилением объекта и панорамированием объекта, могут оцениваться из информации о микшировании. Нужные усиление объекта и панорамирование объекта могут регулироваться с использованием коэффициентов ak, bk.The object information about the signals obj k of the objects can be estimated from the parameter of the object included in the transmitted additional information. The coefficients a k , b k, which are set in accordance with the gain of the object and the panning of the object, can be estimated from the mixing information. The desired object gain and object panning can be adjusted using the coefficients a k , b k .
Коэффициенты ak, bk могут устанавливаться для соответствия параметру HRTF для бинауральной обработки, которая будет подробно объясняться ниже.The coefficients a k , b k can be set to match the HRTF parameter for binaural processing, which will be explained in detail below.
В стандарте MPEG Surround (конфигурация 5-1-51) (из документа ISO/IEC FDIS 23003-1:2006(E), Information Technology - MPEG Audio Technologies - Part1: MPEG Surround) бинауральная обработка происходит следующим образом.In the MPEG Surround standard (configuration 5-1-5 1 ) (from document ISO / IEC FDIS 23003-1: 2006 (E), Information Technology - MPEG Audio Technologies - Part1: MPEG Surround) binaural processing is as follows.
[формула 3][formula 3]
где yB - выход, матрица H - матрица преобразования для бинауральной обработки.where y B is the output, the matrix H is the transformation matrix for binaural processing.
[формула 4][formula 4]
Элементы матрицы H задаются следующим образом:Elements of the matrix H are defined as follows:
[формула 5][formula 5]
[формула 6][formula 6]
[формула 7][formula 7]
1.2.3 Выполнение функциональности TBT (2×2) в многоканальном декодере 1.2.3 Execution of TBT (2 × 2) functionality in a multi-channel decoder
Фиг.5 - типовая блок-схема устройства для обработки аудиосигнала согласно другому варианту осуществления настоящего изобретения, соответствующему второй схеме. Фиг.5 - типовая блок-схема функциональности TBT в многоканальном декодере. Согласно Фиг.5 модуль 510 TBT может быть сконфигурирован для получения входных сигналов и управляющей информации TBT и для формирования выходных сигналов. Модуль 510 TBT может включаться в декодер 200 из Фиг.2 (или, в частности, в многоканальный декодер 230). Многоканальный декодер 230 может быть реализован в соответствии со стандартом MPEG Surround, что не накладывает ограничение на настоящее изобретение.5 is a typical block diagram of an apparatus for processing an audio signal according to another embodiment of the present invention, corresponding to the second scheme. 5 is a typical block diagram of the functionality of TBT in a multi-channel decoder. 5, a TBT module 510 may be configured to receive input signals and TBT control information and to generate output signals. TBT module 510 may be included in
[формула 9][formula 9]
где x - входные каналы, y - выходные каналы и w - вес.where x are input channels, y are output channels, and w is weight.
Выход y1 может соответствовать сочетанию входа x1 из сигнала, микшированного с понижением, умноженного на первый коэффициент w11 усиления, и входа x2, умноженного на второй коэффициент w12 усиления.Output y 1 may correspond to a combination of input x 1 from the downmix signal multiplied by the first gain factor w 11 and input x 2 multiplied by the second gain factor w 12 .
Управляющая информация TBT, введенная в модуль 510 TBT, включает в себя элементы, которые могут составлять вес w (w11, w12, w21, w22).The TBT control information inputted to the TBT module 510 includes elements that can make up the weight w (w 11 , w 12 , w 21 , w 22 ).
В стандарте MPEG Surround модуль OTT (Один-в-Два) и модуль TTT (Два-в-Три) не являются подходящими для повторного микширования входного сигнала, хотя модуль OTT и модуль TTT могут раскладывать входной сигнал.In the MPEG Surround standard, the OTT (One-in-Two) module and the TTT (Two-in-Three) module are not suitable for remixing an input signal, although the OTT module and TTT module can decompose the input signal.
Чтобы повторно микшировать входной сигнал, может предоставляться модуль 510 TBT (2×2) (в дальнейшем сокращенно "модуль 510 TBT"). Модуль 510 TBT может быть сконфигурирован для получения стереофонического сигнала и вывода повторно микшированного стереофонического сигнала. Вес w может формироваться с использованием CLD и ICC.To remix the input signal, a TBT module 510 (2 × 2) (hereinafter abbreviated as “TBT module 510”) may be provided. The TBT module 510 may be configured to receive a stereo signal and output a remixed stereo signal. Weight w can be formed using CLD and ICC.
Если элемент w11~w22 веса передается в качестве управляющей информации TBT, то декодер может управлять усилением объекта, а также панорамированием объекта, используя принятый элемент веса. В передаче элемента w веса может предоставляться изменяющаяся схема. Сначала управляющая информация TBT включает в себя перекрестный член наподобие w12 и w21. Во-вторых, управляющая информация TBT не включает в себя перекрестный член наподобие w12 и w21. В-третьих, количество членов в управляющей информации TBT адаптивно меняется.If the weight element w 11 ~ w 22 is transmitted as TBT control information, then the decoder can control the gain of the object as well as the pan of the object using the received weight element. In the transfer of the weight element w, a variable circuit may be provided. First, the TBT control information includes a cross term like w 12 and w 21 . Secondly, TBT control information does not include a cross term like w 12 and w 21 . Third, the number of members in TBT control information is adaptively changing.
Сначала нужно принять перекрестный член наподобие w12 и w21, чтобы управлять панорамированием объекта, когда левый сигнал входного канала идет в правый сигнал выходного канала. В случае N входных каналов и M выходных каналов члены, количество которых равно N×M, могут передаваться в качестве управляющей информации TBT. Члены могут квантоваться на основе таблицы квантования параметров CLD, представленной в MPEG Surround, что не накладывает ограничение на настоящее изобретение.First you need to take a cross term like w 12 and w 21 to control the panning of an object when the left signal of the input channel goes to the right signal of the output channel. In the case of N input channels and M output channels, members whose number is N × M can be transmitted as TBT control information. Members can be quantized based on the CLD parameter quantization table provided in MPEG Surround, which does not limit the present invention.
Во-вторых, пока левый объект сдвигается в правое положение (т.е. когда левый объект перемещается в более левое положение или левое положение рядом с центральным положением, или когда регулируется только уровень объекта), не нужно использовать перекрестный член. В этом случае осуществляется передача корректным образом, без перекрестного члена. В случае N входных каналов и M выходных каналов может передаваться N членов.Secondly, while the left object is shifted to the right position (i.e., when the left object moves to the more left position or the left position near the center position, or when only the level of the object is adjusted), it is not necessary to use the cross term. In this case, the transfer is carried out in the correct way, without a cross member. In the case of N input channels and M output channels, N terms may be transmitted.
В-третьих, количество управляющей информации TBT адаптивно меняется в соответствии с потребностью в перекрестном члене, чтобы уменьшить скорость передачи битов управляющей информации TBT. Информация флажка "cross_flag", указывающая, имеется ли перекрестный член, задается для передачи в качестве управляющей информации TBT. Значение информации флажка "cross_flag" показывается в следующей таблице 1.Third, the amount of TBT control information adaptively varies according to the need for a cross term to reduce the bit rate of TBT control information. The cross_flag flag information indicating whether there is a cross member is specified for transmission as TBT control information. The value of the cross_flag flag information is shown in the following table 1.
Значение cross_flagTable 1
Cross_flag
(присутствуют только w11 и w22)No cross member (includes only non-cross member)
(only w 11 and w 22 are present)
(присутствуют w11, w12, w21 и w22)Includes Cross Member
(w 11 , w 12 , w 21 and w 22 are present)
Если "cross_flag" равен 0, то управляющая информация TBT не включает в себя перекрестный член, присутствует только неперекрестный член наподобие w11 и w22. В противном случае ("cross_flag" равен 1) управляющая информация TBT включает в себя перекрестный член.If "cross_flag" is 0, then the TBT control information does not include a cross term, only a non-cross term like w 11 and w 22 is present. Otherwise ("cross_flag" is 1), the TBT control information includes a cross term.
Кроме того, информация флажка "reverse_flag", указывающая, имеется ли перекрестный член или неперекрестный член, задается для передачи в качестве управляющей информации TBT. Значение информации флажка "reverse_flag" показывается в следующей таблице 2.In addition, the flag information "reverse_flag" indicating whether there is a cross member or non-cross member is set for transmission as TBT control information. The meaning of the reverse_flag flag information is shown in the following table 2.
Значение reverse_flagtable 2
Reverse_flag
(присутствуют только w11 и w22)No cross member (includes only non-cross member)
(only w 11 and w 22 are present)
(присутствуют только w12 и w21)Cross member only
(only w 12 and w 21 are present)
Если "reverse_flag" равен 0, то управляющая информация TBT не включает в себя перекрестный член, присутствует только неперекрестный член наподобие w11 и w22. В противном случае ("reverse_flag" равен 1) управляющая информация TBT включает в себя только перекрестный член.If "reverse_flag" is 0, then the TBT control information does not include a cross term, only a non-cross term like w 11 and w 22 is present. Otherwise ("reverse_flag" is 1), the TBT control information includes only the cross term.
Более того, информация флажка "side_flag", указывающая, имеется ли перекрестный член и неперекрестный член, задается для передачи в качестве управляющей информации TBT. Значение информации флажка "side_flag" показывается в следующей таблице 3.Moreover, the side_flag flag information indicating whether there is a cross member and a non-cross member is set for transmission as TBT control information. The value of the side_flag flag information is shown in the following table 3.
Значение side_flagTable 3
Side_flag
(присутствуют только w11 и w22)No cross member (includes only non-cross member)
(only w 11 and w 22 are present)
(присутствуют w11, w12, w21 и w22)Includes Cross Member
(w 11 , w 12 , w 21 and w 22 are present)
(присутствуют только w12 и w21)The opposite
(only w 12 and w 21 are present)
Поскольку таблица 3 соответствует сочетанию таблицы 1 и таблицы 2, подробности таблицы 3 будут пропущены.Since table 3 corresponds to the combination of table 1 and table 2, details of table 3 will be omitted.
1.2.4 Выполнение функциональности TBT (2×2) в многоканальном декодере путем изменения стереофонического декодера 1.2.4 Performing TBT (2 × 2) functionality in a multi-channel decoder by changing the stereo decoder
Случай "1.2.2 Использование информации о настройке устройства" может выполняться без изменения стереофонического декодера. Ниже со ссылкой на Фиг.6 показано выполнение функциональности TBT путем изменения стереофонического декодера, применяемого в декодере MPEG Surround.The case "1.2.2 Using the device setup information" can be performed without changing the stereo decoder. Below with reference to Fig.6 shows the implementation of the functionality of TBT by changing the stereo decoder used in the MPEG Surround decoder.
Фиг.6 - типовая блок-схема устройства для обработки аудиосигнала согласно другому варианту осуществления настоящего изобретения, соответствующему второй схеме. В частности, устройство 630 для обработки аудиосигнала, показанное на Фиг.6, может соответствовать бинауральному декодеру, включенному в многоканальный декодер 230 из Фиг.2, или модулю синтеза из Фиг.4, что не накладывает ограничение на настоящее изобретение.6 is a typical block diagram of an apparatus for processing an audio signal according to another embodiment of the present invention, corresponding to the second scheme. In particular, the audio
Устройство 630 для обработки аудиосигнала (в дальнейшем "бинауральный декодер 630") может включать в себя анализ 632 QMF, преобразование 634 параметров, пространственный синтез 636 и синтез 638 QMF. Элементы бинаурального декодера 630 могут иметь ту же конфигурацию, что и у бинаурального декодера MPEG Surround по стандарту MPEG Surround. Например, пространственный синтез 636 может быть сконфигурирован состоящим из 1 матрицы 2×2 (фильтр), в соответствии с формулой 10:An
[формула 10][formula 10]
причем y 0 являются входными каналами области QMF, а y B являются бинауральными выходными каналами, k представляет индекс канала гибридной QMF, и i - индекс отвода в фильтре HRTF, и n - индекс интервала QMF. Бинауральный декодер 630 может быть сконфигурирован для выполнения вышеупомянутой функциональности, описанной в подпункте "1.2.2 Использование информации о настройке устройства". Однако элементы hij могут быть сформированы с использованием многоканального параметра и информации о микшировании вместо многоканального параметра и параметра HRTF. В этом случае бинауральный декодер 600 может выполнять функциональность модуля 510 TBT на Фиг.5. Подробности элементов бинаурального декодера 630 будут пропущены.where y 0 are the input channels of the QMF domain, and y B are binaural output channels, k represents the channel index of the hybrid QMF, and i is the tap index in the HRTF filter, and n is the QMF interval index.
Бинауральный декодер 630 может работать в соответствии с информацией флажка "binaural_flag". В частности, бинауральный декодер 630 может обходиться, если информация флажка binaural_flag равна "0", в противном случае (binaural_flag равен "1") бинауральный декодер 630 может работать следующим образом.The
Значение binaural_flagTable 4
Binaural_flag
1.3 Обработка микширования с понижением аудиосигналов перед вводом в многоканальный декодер1.3 Processing downmix audio mixing before entering a multi-channel decoder
Первая схема использования традиционного многоканального декодера объяснена в подпункте "1.1", вторая схема изменения многоканального декодера объяснена в подпункте "1.2". Третья схема обработки микширования с понижением аудиосигналов перед вводом в многоканальный декодер будет объясняться ниже.The first scheme for using a traditional multi-channel decoder is explained in subclause "1.1", the second scheme for changing a multi-channel decoder is explained in subclause "1.2". A third circuit for processing down-mix mixing before being input to a multi-channel decoder will be explained below.
Фиг.7 - типовая блок-схема устройства для обработки аудиосигнала согласно одному варианту осуществления настоящего изобретения, соответствующему третьей схеме. Фиг.8 - типовая блок-схема устройства для обработки аудиосигнала согласно другому варианту осуществления настоящего изобретения, соответствующему третьей схеме. Согласно Фиг.7 устройство 700 для обработки аудиосигнала (в дальнейшем просто "декодер 700") может включать в себя модуль 710 формирования информации, модуль 720 обработки микширования с понижением и многоканальный декодер 730. Согласно Фиг.8 устройство 800 для обработки аудиосигнала (в дальнейшем просто "декодер 800") может включать в себя модуль 810 формирования информации и модуль 840 многоканального синтеза, имеющий многоканальный декодер 830. Декодер 800 может быть другой особенностью декодера 700. Другими словами, модуль 810 формирования информации имеет такую же конфигурацию, как и модуль 710 формирования информации, многоканальный декодер 830 имеет такую же конфигурацию, как и многоканальный декодер 730, и модуль 840 многоканального синтеза может иметь такую же конфигурацию, как модуль 720 обработки микширования с понижением и многоканальный модуль 730. Поэтому элементы декодера 700 будут объясняться подробно, а подробности элементов декодера 800 будут пропущены.7 is a typical block diagram of an apparatus for processing an audio signal according to one embodiment of the present invention, corresponding to a third circuit. FIG. 8 is an exemplary block diagram of an apparatus for processing an audio signal according to another embodiment of the present invention, corresponding to a third circuit. 7, an apparatus 700 for processing an audio signal (hereinafter simply “decoder 700”) may include an
Модуль 710 формирования информации может быть сконфигурирован для получения дополнительной информации, включающей параметр объекта от кодера и информацию о микшировании из интерфейса пользователя, и для формирования многоканального параметра для вывода в многоканальный декодер 730. С этой точки зрения модуль 710 формирования информации имеет ту же конфигурацию, что и упомянутый выше модуль 210 формирования информации из Фиг.2. Параметр обработки микширования с понижением может соответствовать параметру для управления усилением объекта и панорамированием объекта. Например, можно изменить либо положение объекта, либо усиление объекта, если сигнал объекта находится в левом канале и правом канале. Также можно воспроизвести сигнал объекта, который должен находиться в противоположном положении, если сигнал объекта находится только в одном из левого канала и правого канала. Чтобы эти случаи выполнялись, модуль 720 обработки микширования с понижением может быть модулем TBT (матричная операция 2×2). Если модуль 710 формирования информации может быть сконфигурирован для формирования ADG, описанного со ссылкой на Фиг.2, чтобы управлять усилением объекта, то параметр обработки микширования с понижением может включать в себя параметр для управления панорамированием объекта, а не усилением объекта.The
Кроме того, модуль 710 формирования информации может быть сконфигурирован для получения информации HRTF из базы данных HRTF и для формирования дополнительного многоканального параметра, включающего параметр HRTF, для ввода в многоканальный декодер 730. В этом случае модуль 710 формирования информации может формировать многоканальный параметр и дополнительный многоканальный параметр в той же области поддиапазона и передавать их синхронно друг с другом многоканальному декодеру 730. Дополнительный многоканальный параметр, включающий в себя параметр HRTF, будет объясняться подробно в подпункте "3. Обработка в бинауральном режиме".In addition, the
Модуль 720 обработки микширования с понижением может быть сконфигурирован для получения микширования с понижением аудиосигнала от кодера и параметра обработки микширования с понижением от модуля 710 формирования информации и для разложения сигнала области поддиапазона с использованием набора фильтров анализа поддиапазона. Модуль 720 обработки микширования с понижением может быть сконфигурирован для формирования обработанного сигнала, микшированного с понижением, с использованием сигнала, микшированного с понижением, и параметра обработки микширования с понижением. В этой обработке можно предварительно обработать сигнал, микшированный с понижением, чтобы управлять панорамированием объекта и усилением объекта. Обработанный сигнал, микшированный с понижением, может вводиться в многоканальный декодер 730 для разложения.Downmix processing module 720 may be configured to receive downmix audio from an encoder and downmix processing parameter from
Кроме того, обработанный сигнал, микшированный с понижением, с тем же успехом может выводиться и проигрываться через динамик. Чтобы напрямую вывести обработанный сигнал через динамики, модуль 720 обработки микширования с понижением может выполнить набор фильтров с синтезом, используя предложенный сигнал области поддиапазона, и вывести сигнал PCM временной области. Посредством выбора пользователя можно выбрать, выводить ли напрямую в виде сигнала PCM или вводить в многоканальный декодер.In addition, the processed signal, mixed down, with the same success can be output and play through the speaker. In order to directly output the processed signal through the speakers, the downmix processing module 720 may perform a set of synthesis filters using the proposed subband domain signal and output the time domain PCM signal. By selecting a user, one can choose whether to output directly as a PCM signal or input to a multi-channel decoder.
Многоканальный декодер 730 может быть сконфигурирован для формирования многоканального выходного сигнала с использованием обработанного сигнала, микшированного с понижением, и многоканального параметра. Многоканальный декодер 730 может ввести задержку, когда обработанный сигнал, микшированный с понижением, и многоканальный параметр вводятся в многоканальный декодер 730. Обработанный сигнал, микшированный с понижением, может быть синтезирован в частотной области (например, области QMF, области гибридной QMF и т.д.), а многоканальный параметр может быть синтезирован во временной области. В стандарте MPEG Surround вводятся задержка и синхронизация для связи с HE-AAC. Поэтому многоканальный декодер 730 может ввести задержку в соответствии со стандартом MPEG Surround.Multichannel decoder 730 may be configured to generate a multichannel output signal using a downmix processed signal and a multichannel parameter. The multi-channel decoder 730 may introduce a delay when the processed downmix signal and the multi-channel parameter are input to the multi-channel decoder 730. The processed downmix signal can be synthesized in the frequency domain (eg, QMF region, hybrid QMF region, etc. .), and a multichannel parameter can be synthesized in the time domain. MPEG Surround introduces delay and timing for communication with HE-AAC. Therefore, the multi-channel decoder 730 may introduce a delay in accordance with the MPEG Surround standard.
Конфигурация модуля 720 обработки микширования с понижением будет подробно объясняться со ссылкой на Фиг.9-Фиг.13.The configuration of the downmix processing processing unit 720 will be explained in detail with reference to FIGS. 9 to 13.
1.3.1 Общий случай и специальные случаи модуля обработки микширования с понижением1.3.1 General case and special cases of the downmix processing module
Фиг.9 - типовая блок-схема для объяснения основной идеи модуля воспроизведения. Согласно Фиг.9 модуль 900 воспроизведения может быть сконфигурирован для формирования M выходных сигналов, используя N входных сигналов, конфигурацию воспроизведения и пользовательское управление. N входных сигналов могут соответствовать либо сигналам объектов, либо канальным сигналам. Кроме того, N входных сигналов могут соответствовать либо параметру объекта, либо многоканальному параметру. Конфигурация модуля 900 воспроизведения может быть реализована в одном из модуля 720 обработки микширования с понижением из Фиг.7, упомянутого выше модуля 120 воспроизведения из Фиг.1 и упомянутого выше рендерера 110a из Фиг.1, что не накладывает ограничение на настоящее изобретение.Fig.9 is a typical block diagram for explaining the main idea of the playback module. 9, a reproducing
Если модуль 900 воспроизведения может быть сконфигурирован для непосредственного формирования M канальных сигналов, используя N сигналов объектов без суммирования отдельных сигналов объектов, соответствующих определенному каналу, то конфигурация модуля 900 воспроизведения может представляться следующей формулой 11.If the
[формула 11][formula 11]
Ci - i-й канальный сигнал, Oj - j-й входной сигнал, и R ji - матрица, преобразующая j-й входной сигнал в i-й канал.C i is the i-th channel signal, O j is the j-th input signal, and R ji is the matrix transforming the j-th input signal into the i-th channel.
Если матрица R разделяется на составляющую E энергии и составляющую декорреляции, то формула 11 может быть представлена следующим образом.If the matrix R is divided into a component E of energy and a component of decorrelation, then formula 11 can be represented as follows.
[формула 12][formula 12]
Можно управлять положениями объекта, используя составляющую E энергии, и можно управлять диффузностью объекта, используя составляющую D декорреляции.You can control the position of the object using the energy component E, and you can control the diffuseness of the object using the decorrelation component D.
Допуская, что вводится только i-й входной сигнал, который должен выводиться через j-й канал и k-й канал, формула 12 может представляться следующим образом.Assuming that only the i-th input signal is input, which should be output through the j-th channel and the k-th channel, formula 12 can be represented as follows.
[формула 13][formula 13]
αj_i - часть усиления, преобразованная в j-й канал, βk_i - часть усиления, преобразованная в k-й канал, θ - уровень диффузности и D(oi) - декоррелированный результат.α j_i is the gain part converted to the j-th channel, β k_i is the gain part converted to the k-th channel, θ is the diffuseness level, and D (o i ) is the decorrelated result.
Допуская, что декорреляция пропускается, формула (13) может быть упрощена следующим образом.Assuming that decorrelation is skipped, formula (13) can be simplified as follows.
[формула 14][formula 14]
Если весовые значения для всех входов, преобразованных в определенный канал, оцениваются в соответствии с вышеизложенным способом, можно получить весовые значения для каждого канала с помощью следующего способа.If the weight values for all inputs converted to a specific channel are estimated in accordance with the above method, weights can be obtained for each channel using the following method.
1) Суммирование весовых значений для всех входов, преобразованных в определенный канал. Например, если вводится вход 1 O1 и вход 2 O2, и выходной канал соответствует левому каналу L, центральному каналу C и правому каналу R, то итоговые весовые значения αL(tot), αC(tot), αR(tot) могут быть получены следующим образом:1) Summation of weight values for all inputs converted to a specific channel. For example, if input 1 O 1 and input 2 O 2 are input, and the output channel corresponds to the left channel L, the central channel C and the right channel R, then the resulting weight values α L (tot) , α C (tot) , α R (tot ) can be obtained as follows:
[формула 15][formula 15]
где αL1 - весовое значение для входа 1, преобразованного в левый канал L, αC1 - весовое значение для входа 1, преобразованного в центральный канал C, αC2 - весовое значение для входа 2, преобразованного в центральный канал C, и αR2 - весовое значение для входа 2, преобразованного в правый канал R.where α L1 is the weight value for
В этом случае только вход 1 преобразуется в левый канал, только вход 2 преобразуется в правый канал, вход 1 и вход 2 преобразуются вместе в центральный канал.In this case,
2) Суммирование весовых значений для всех входов, преобразованных в определенный канал, затем деление суммы на наиболее преобладающую пару каналов и преобразование декоррелированного сигнала в другой канал для эффекта окружающего звука. В этом случае преобладающая пара каналов может соответствовать левому каналу и центральному каналу, если определенный вход располагается в точке между левым и центральным каналом.2) Summing the weight values for all inputs converted to a specific channel, then dividing the sum by the most prevailing pair of channels and converting the decorrelated signal to another channel for the effect of the surround sound. In this case, the predominant pair of channels can correspond to the left channel and the central channel, if a certain input is located at a point between the left and central channel.
3) Оценка весового значения наиболее преобладающего канала, отдавая ослабленный свернутый сигнал другому каналу, чье значение является относительной величиной оцененного весового значения.3) Evaluation of the weight value of the most prevailing channel, giving the attenuated convoluted signal to another channel, whose value is the relative value of the estimated weight value.
4) Использование весовых значений для каждой пары каналов, должным образом объединяя декоррелированный сигнал, затем задание дополнительной информации для каждого канала.4) Using weight values for each channel pair, properly combining the decorrelated signal, then setting additional information for each channel.
1.3.2 Случай, когда модуль обработки микширования с понижением включает в себя участок микширования, соответствующий матрице 2×4 1.3.2 The case where the downmix processing module includes a mixing section corresponding to a 2 × 4 matrix
Фиг.10A-10C - типовые блок-схемы первого варианта осуществления модуля обработки микширования с понижением, проиллюстрированного на Фиг.7. Как говорилось ранее, первый вариант осуществления модуля 720a микширования (в дальнейшем просто "модуль 720a обработки микширования с понижением") может быть реализацией модуля 900 воспроизведения.10A-10C are exemplary block diagrams of a first embodiment of a downmix processing module illustrated in FIG. 7. As mentioned previously, the first embodiment of the
Во-первых, предполагая, что , формула 12 упрощается следующим образом.First, assuming that , formula 12 is simplified as follows.
[формула 15][formula 15]
Модуль обработки микширования с понижением в соответствии с формулой 15 иллюстрируется на Фиг.10А. Обращаясь к Фиг.10А, модуль 720a обработки микширования с понижением может быть сконфигурирован для обхода входного сигнала в случае монофонического входного сигнала (m) и для обработки входного сигнала в случае стереофонического входного сигнала (L, R). Модуль 720a обработки микширования с понижением может включать в себя участок 722a декорреляции и участок 724a микширования. Участок 722a декорреляции имеет декоррелятор aD и декоррелятор bD, которые могут быть сконфигурированы для декорреляции входного сигнала. Участок 722a декорреляции может соответствовать матрице 2×2. Участок 724a микширования может быть сконфигурирован для преобразования входного сигнала и декоррелированного сигнала в каждый канал. Участок 724a микширования может соответствовать матрице 2×4.The downmix processing module in accordance with Formula 15 is illustrated in FIG. 10A. Referring to FIG. 10A, the
Во-вторых, предполагая, что и формула 12 упрощается следующим образом.Secondly, assuming that and formula 12 is simplified as follows.
[формула 15-2][formula 15-2]
Модуль обработки микширования с понижением в соответствии с формулой 15 иллюстрируется на Фиг.10B. Обращаясь к Фиг.10В, участок 722' декорреляции, включающий два декоррелятора D1, D2, может быть сконфигурирован для формирования декоррелированных сигналов D1(a*O1+b*O2), D2(c*O1+d*O2).The downmix processing module in accordance with Formula 15 is illustrated in FIG. 10B. Referring to FIG. 10B, a decorrelation section 722 ′ including two decorrelators D 1 , D 2 can be configured to generate decorrelated signals D 1 (a * O 1 + b * O 2 ), D 2 (c * O 1 + d * O 2 ).
В-третьих, допуская, что , формула 12 упрощается следующим образом.Third, assuming that , formula 12 is simplified as follows.
[формула 15-3][formula 15-3]
Модуль обработки микширования с понижением в соответствии с формулой (15) иллюстрируется на Фиг.10C. Согласно Фиг.10C, участок 722'' декорреляции, включающий два декоррелятора D1, D2, может быть сконфигурирован для формирования декоррелированных сигналов D1(O1), D2(O2).The downmix processing module in accordance with formula (15) is illustrated in FIG. 10C. 10C, the decorrelation section 722 ″ including two decorrelators D 1 , D 2 can be configured to generate decorrelated signals D 1 (O 1 ), D 2 (O 2 ).
1.3.2 Случай, когда модуль обработки микширования с понижением включает в себя участок микширования, соответствующий матрице 2×3 1.3.2 The case where the downmix processing module includes a mixing section corresponding to a 2 × 3 matrix
Формула (15) может представляться следующим образом:Formula (15) can be represented as follows:
[формула 16][formula 16]
Матрица R является матрицей 2×3, матрица O является матрицей 3×1, и C является матрицей 2×1.The matrix R is a 2 × 3 matrix, the O matrix is a 3 × 1 matrix, and C is a 2 × 1 matrix.
Фиг.11 - типовая блок-схема второго варианта осуществления модуля обработки микширования с понижением, проиллюстрированного на Фиг.7. Как говорилось ранее, второй вариант осуществления модуля 720b обработки микширования с понижением (в дальнейшем просто "модуль 720b обработки микширования с понижением") может быть реализацией модуля 900 воспроизведения, как и модуль 720а обработки микширования с понижением. Обращаясь к Фиг.11А, модуль 720b обработки микширования с понижением может быть сконфигурирован для пропуска входного сигнала в случае монофонического входного сигнала (m) и для обработки входного сигнала в случае стереофонического входного сигнала (L, R). Модуль 720b обработки микширования с понижением может включать в себя участок 722b декорреляции и участок 724b микширования. Участок 722b декорреляции имеет декоррелятор D, который может быть сконфигурирован для декорреляции входного сигнала O1, O2 и вывода декоррелированного сигнала D(O1+O2). Участок 722b декорреляции может соответствовать матрице 1×2. Участок 724b микширования может быть сконфигурирован для преобразования входного сигнала и декоррелированного сигнала в каждый канал. Участок 724b микширования может соответствовать матрице 2×3, которая может быть показана как матрица R в формуле (16).11 is a typical block diagram of a second embodiment of a downmix processing module illustrated in FIG. 7. As mentioned earlier, the second embodiment of the downmix
Кроме того, участок 722b декорреляции может быть сконфигурирован для декорреляции разностного сигнала O1-O2 в качестве общего сигнала из двух входных сигналов O1, O2. Участок 724b микширования может быть сконфигурирован для преобразования входного сигнала и декоррелированного общего сигнала в каждый канал.In addition, the
1.3.3 Случай, когда модуль обработки микширования с понижением включает в себя участок микширования с несколькими матрицами1.3.3 The case where the downmix processing module includes a multi-matrix mixing section
Определенный сигнал объекта может быть слышимым как аналогичное ощущение без позиционирования в заданном положении, что может называться "пространственный звуковой сигнал". Например, аплодисменты или шумы концертного зала могут быть примером пространственного аудиосигнала. Пространственный звуковой сигнал нужно воспроизводить через все динамики. Если пространственный звуковой сигнал воспроизводится как один и тот же сигнал через все динамики, сложно ощутить "пространственность" сигнала из-за высокой внутренней корреляции (IC) сигнала. Поэтому имеется необходимость добавить коррелированный сигнал к сигналу каждого канального сигнала.A certain object signal may be audible as a similar sensation without being positioned in a predetermined position, which may be called a “spatial sound signal”. For example, the applause or noise of a concert hall may be an example of a spatial audio signal. The spatial sound signal must be reproduced through all speakers. If the spatial sound signal is reproduced as the same signal through all the speakers, it is difficult to sense the “spatiality” of the signal due to the high internal correlation (IC) of the signal. Therefore, there is a need to add a correlated signal to the signal of each channel signal.
Фиг.12 - типовая блок-схема третьего варианта осуществления модуля обработки микширования с понижением, проиллюстрированного на Фиг.7. Согласно фиг.12, третий вариант осуществления модуля 720с обработки микширования с понижением (в дальнейшем просто "модуль 720с обработки микширования с понижением") может быть сконфигурирован для формирования пространственного аудиосигнала с использованием входного сигнала Oi, который может включать в себя участок 722c декорреляции с N декорреляторами участок 724c микширования. Участок 722c декорреляции может иметь N декорреляторов D1, D2, …, DN, которые могут быть сконфигурированы для декорреляции входного сигнала Oi. Участок 724c микширования может иметь N матриц Rj, Rk, …, Rl, которые могут быть сконфигурированы для формирования выходных сигналов Cj, Ck, …, Cl с использованием входного сигнала Oi и декоррелированного сигнала DX(Oi). Матрица Rj может быть представлена в виде следующей формулы.FIG. 12 is a typical block diagram of a third embodiment of a downmix processing module illustrated in FIG. 7. 12, a third embodiment of a downmix
[формула 17][formula 17]
Oi - i-й входной сигнал, Rj - матрица, преобразующая i-й входной сигнал Oi в j-й канал, и Cj_i - j-й выходной сигнал. Значение θj_i является коэффициентом декорреляции.O i is the i-th input signal, R j is the matrix transforming the i-th input signal O i into the j-th channel, and C j_i is the j-th output signal. The value θ j_i is the decorrelation coefficient.
Значение θj_i может оцениваться на основе ICC, включенной в многоканальный параметр. Кроме того, участок 724c микширования может формировать выходные сигналы на основе информации о пространственности, составляющей коэффициент θj_i декорреляции, принятый из интерфейса пользователя посредством модуля 710 формирования информации, что не накладывает ограничение на настоящее изобретение.Θ j_i can be estimated based on the ICC included in the multi-channel parameter. Furthermore, 724c mixing section may generate output signals based on the spatial information, component θ j_i decorrelation coefficient received from the
Количество (N) декорреляторов может быть равно количеству выходных каналов. С другой стороны, декоррелированный сигнал может добавляться к выходным каналам, выбранным пользователем. Например, можно поместить некоторый пространственный звуковой сигнал слева, справа и по центру и вывести в виде пространственного аудиосигнала через динамик левого канала.The number (N) of decorrelators may be equal to the number of output channels. Alternatively, the decorrelated signal may be added to output channels selected by the user. For example, you can place some spatial audio signal on the left, right, and center and output as a spatial audio signal through the speaker of the left channel.
1.3.4 Случай, когда модуль обработки микширования с понижением включает в себя дополнительный участок микширования1.3.4 The case where the downmix processing module includes an additional mixing section
Фиг.13 - типовая блок-схема четвертого варианта осуществления модуля обработки микширования с понижением, проиллюстрированного на Фиг.7. Четвертый вариант осуществления модуля 720d обработки микширования с понижением (в дальнейшем просто "модуль 720d обработки микширования с понижением") может быть сконфигурирован для обхода, если входной сигнал соответствует монофоническому сигналу (m). Модуль 720d обработки микширования с понижением включает в себя дополнительный участок 722d микширования, который может быть сконфигурирован для микширования стереофонического сигнала в монофонический сигнал, если входной сигнал соответствует стереофоническому сигналу. Дополнительный монофонический канал (m) микширования с понижением используется в качестве входных данных в многоканальный декодер 730. Многоканальный декодер 730 может управлять панорамированием объекта (в особенности наводкой) с использованием монофонического входного сигнала. В этом случае модуль 710 формирования информации может формировать многоканальный параметр на основе конфигурации 5-1-51 по стандарту MPEG Surround.FIG. 13 is a typical block diagram of a fourth embodiment of a downmix processing module illustrated in FIG. 7. A fourth embodiment of the
Кроме того, если применяется усиление для монофонического сигнала, микшированного с понижением, например вышеупомянутое художественное усиление сигнала, микшированного с понижением, (ADG) из Фиг.2, то можно проще управлять панорамированием объекта и усилением объекта. ADG может формироваться с помощью модуля 710 формирования информации на основе информации о микшировании.In addition, if amplification is applied to a monaural downmix signal, for example, the aforementioned artistic amplification of a downmix signal (ADG) of FIG. 2, then it is easier to control the panning of the object and the gain of the object. An ADG may be generated using the
2. Микширование с повышением канальных сигналов и управление сигналами объектов2. Mixing with increasing channel signals and control signals of objects
Фиг.14 - типовая блок-схема структуры потока двоичных сигналов сжатого аудиосигнала согласно второму варианту осуществления настоящего изобретения. Фиг.15 - типовая блок-схема устройства для обработки аудиосигнала согласно второму варианту осуществления настоящего изобретения. Обращаясь к части (а) Фиг.14, сигнал, микшированный с понижением, α, многоканальный параметр β и параметр γ объекта включаются в структуру потока двоичных сигналов. Многоканальный параметр β является параметром для разложения сигнала, микшированного с понижением. С другой стороны, параметр γ объекта является параметром для управления панорамированием объекта и усилением объекта. Согласно части (b) Фиг.14, сигнал, микшированный с понижением, α, параметр β' по умолчанию и параметр γ объекта включаются в структуру потока двоичных сигналов. Параметр β' по умолчанию может включать в себя предварительно установленную информацию для управления усилением объекта и панорамированием объекта. Предварительно установленная информация может соответствовать примеру, предложенному изготовителем кодера. Например, предварительно установленная информация может описывать, что сигнал гитары располагается в точке между левым и центром, и уровень гитары устанавливается в определенную громкость, и количество выходных каналов в это время устанавливается в определенный канал. В потоке двоичных сигналов может присутствовать параметр по умолчанию либо для каждого кадра, либо для заданного кадра. В потоке двоичных сигналов может присутствовать информация флажка, указывающая, отличается ли параметр по умолчанию для этого кадра от параметра по умолчанию у предыдущего кадра. Путем включения параметра по умолчанию в поток двоичных сигналов можно применить меньшую скорость передачи битов, чем дополнительная информация с параметром объекта, которая включается в поток двоичных сигналов. Кроме того, на Фиг.14 пропускается информация заголовка потока двоичных сигналов. Последовательность потока двоичных сигналов может быть перегруппирована.14 is a typical block diagram of a binary audio stream structure of a compressed audio signal according to a second embodiment of the present invention. 15 is a typical block diagram of an apparatus for processing an audio signal according to a second embodiment of the present invention. Turning to part (a) of FIG. 14, a downmix signal, α, a multi-channel parameter β, and an object parameter γ are included in the structure of the binary signal stream. The multi-channel parameter β is a parameter for decomposing a downmix signal. On the other hand, the parameter γ of the object is a parameter for controlling the panning of the object and the gain of the object. According to part (b) of FIG. 14, a downmix signal, α, default parameter β 'and object parameter γ are included in the binary signal stream structure. The default parameter β 'may include preset information for controlling the gain of the subject and panning of the subject. The preset information may correspond to the example proposed by the encoder manufacturer. For example, preset information may describe that the guitar signal is located at a point between the left and center, and the guitar level is set to a certain volume, and the number of output channels at that time is set to a specific channel. In the binary signal stream, a default parameter may be present either for each frame or for a given frame. Binary information may include flag information indicating whether the default setting for this frame is different from the default setting for the previous frame. By including the default parameter in the binary signal stream, you can apply a lower bit rate than the additional information with the object parameter, which is included in the binary signal stream. In addition, in FIG. 14, header information of a binary stream is skipped. The binary stream sequence can be rearranged.
Согласно Фиг.15, устройство 1000 для обработки аудиосигнала в соответствии со вторым вариантом осуществления настоящего изобретения (в дальнейшем просто "декодер 1000") может включать в себя демультиплексор 1005 потока двоичных сигналов, модуль 1010 формирования информации, модуль 1020 обработки микширования с понижением и многоканальный декодер 1030. Демультиплексор 1005 может быть сконфигурирован для разделения мультиплексированного аудиосигнала на сигнал, микшированный с понижением, α, первый многоканальный параметр β и параметр γ объекта. Модуль 1010 формирования информации может быть сконфигурирован для формирования второго многоканального параметра с использованием параметра γ объекта и параметра обработки микширования с понижением. Параметр обработки микширования с понижением содержит информацию о режиме, указывающую, применяется ли первая многоканальная информация β к обработанному сигналу, микшированному с понижением. Информация о режиме может соответствовать информации для выбора пользователем. В соответствии с информацией о режиме модуль 1010 формирования информации решает, передавать ли первый многоканальный параметр β или второй многоканальный параметр.15, an audio
Модуль 1020 обработки микширования с понижением может быть сконфигурирован для определения схемы обработки в соответствии с информацией о режиме, включенной в информацию о микшировании. Кроме того, модуль 1020 обработки микширования с понижением может быть сконфигурирован для обработки сигнала, микшированного с понижением, α в соответствии с определенной схемой обработки. Затем модуль 1020 обработки микширования с понижением передает обработанный сигнал, микшированный с понижением, многоканальному декодеру 1030.The downmix
Многоканальный декодер 1030 может быть сконфигурирован для получения либо первого многоканального параметра β, либо второго многоканального параметра. Если параметр β' по умолчанию включается в поток двоичных сигналов, то многоканальный декодер 1030 может использовать параметр β' по умолчанию вместо многоканального параметра β.
Тогда многоканальный декодер 1030 может быть сконфигурирован для формирования многоканального выходного сигнала с использованием обработанного сигнала, микшированного с понижением, и принятого многоканального параметра. Многоканальный декодер 1030 может иметь ту же конфигурацию, что и упомянутый выше многоканальный декодер 730, что не накладывает ограничение на настоящее изобретение.Then, the
3. Бинауральная обработка3. Binaural processing
Многоканальный декодер может работать в бинауральном режиме. Этот дает возможность многоканального ощущения через наушники посредством фильтрации с функцией моделирования восприятия звука (HRTF). Для стороны бинаурального декодирования сигнал, микшированный с понижением, и многоканальные параметры используются в сочетании с фильтрами HRTF, добавленными к декодеру.A multi-channel decoder can operate in binaural mode. This enables multi-channel sensation through the headphones through filtering with the function of modeling sound perception (HRTF). For the binaural decoding side, the downmix signal and multi-channel parameters are used in conjunction with HRTF filters added to the decoder.
Фиг.16 - типовая блок-схема устройства для обработки аудиосигнала согласно третьему варианту осуществления настоящего изобретения. Согласно Фиг.16 устройство для обработки аудиосигнала в соответствии с третьим вариантом осуществления (в дальнейшем просто "декодер 1100") может содержать модуль 1110 формирования информации, модуль 1120 обработки микширования с понижением и многоканальный декодер 1130 с участком 1130a согласования синхронизации.Fig. 16 is an exemplary block diagram of an apparatus for processing an audio signal according to a third embodiment of the present invention. According to FIG. 16, an audio signal processing apparatus according to a third embodiment (hereinafter simply “
Модуль 1110 формирования информации может иметь ту же конфигурацию, что и модуль 710 формирования информации из Фиг.7, с формированием динамической HRTF. Модуль 1120 обработки микширования с понижением может иметь ту же конфигурацию, что и модуль 720 обработки микширования с понижением из Фиг.7. Как и предшествующие элементы, многоканальный декодер 1130, за исключением участка 1130a согласования синхронизации, является таким же случаем упомянутых выше элементов. Поэтому подробности модуля 1110 формирования информации, модуля 1120 обработки микширования с понижением и многоканального декодера 1130 будут пропущены.The
Динамическая HRTF описывает связь между сигналами объектов и сигналами виртуального динамика, соответствующими азимутальному углу и углу возвышения HRTF, что является зависящей от времени информацией в соответствии с пользовательским управлением в режиме реального времени.Dynamic HRTF describes the relationship between object signals and virtual speaker signals corresponding to the azimuthal angle and elevation angle of HRTF, which is time-dependent information in accordance with real-time user control.
Динамическая HRTF может соответствовать одному из коэффициентов самого фильтра HRTF, информации о параметризованном коэффициенте и индексной информации, если многоканальный декодер содержит весь набор фильтров HRTF.Dynamic HRTF may correspond to one of the coefficients of the HRTF filter itself, parameterized coefficient information, and index information if the multi-channel decoder contains the entire set of HRTF filters.
Существует необходимость согласовать информацию о динамической HRTF с кадром сигнала, микшированного с понижением, независимо от вида динамической HRTF. Чтобы согласовать информацию HRTF с сигналом, микшированным с понижением, можно предоставить три типа схем, а именно:There is a need to reconcile dynamic HRTF information with a frame of a downmix signal, regardless of the type of dynamic HRTF. To match the HRTF information with a downmix signal, three types of circuits can be provided, namely:
1) Вставка разметочной информации в каждую информацию HRTF и потоковый сигнал, микшированный с понижением, затем согласование HRTF с потоковым сигналом, микшированным с понижением, на основе вставленной разметочной информации. В этой схеме характерно, что разметочная информация может включаться во вспомогательное поле в стандарте MPEG Surround. Разметочная информация может представляться в виде информации о времени, информации о счетчике, индексной информации и т.д.1) Insertion of marking information into each HRTF information and downstream mixed signal, then matching HRTF with downstream mixed signal based on the inserted marking information. In this scheme, it is typical that the marking information can be included in the auxiliary field in the MPEG Surround standard. The marking information may be presented in the form of time information, counter information, index information, etc.
2) Вставка информации HRTF в кадр потока двоичных сигналов. В этой схеме можно задать информацию о режиме, указывающую, соответствует ли текущий кадр режиму по умолчанию. Если применяется режим по умолчанию, который описывает информацию HRTF текущего кадра, идентичную информации HRTF предыдущего кадра, то можно уменьшить скорости передачи битов у информации HRTF.2) Insert HRTF information in a frame of a stream of binary signals. In this diagram, mode information can be set indicating whether the current frame corresponds to the default mode. If a default mode is applied that describes the HRTF information of the current frame identical to the HRTF information of the previous frame, then the bit rates of the HRTF information can be reduced.
2-1) Кроме того, можно определить информацию передачи, указывающую, передана ли уже информация HRTF текущего кадра. Если применяется информация передачи, которая описывает информацию HRTF текущего кадра, идентичную переданной информации HRTF кадра, то также можно уменьшить скорости передачи битов у информации HRTF.2-1) In addition, it is possible to determine transmission information indicating whether the HRTF information of the current frame has already been transmitted. If transmission information is used that describes the HRTF information of the current frame identical to the transmitted HRTF information of the frame, it is also possible to reduce the bit rates of the HRTF information.
3) Передача нескольких информаций HRTF заранее, затем передача идентифицирующей информации, указывающей, какая HRTF среди переданных информаций HRTF на каждый кадр.3) Transmitting multiple HRTF information in advance, then transmitting identifying information indicating which HRTF among the transmitted HRTF information for each frame.
Кроме того, если неожиданно меняется коэффициент HRTF, то может формироваться искажение. Чтобы уменьшить это искажение, нужно выполнить сглаживание коэффициента или воспроизведенного сигнала.In addition, if the HRTF coefficient changes unexpectedly, distortion may be generated. To reduce this distortion, you need to smooth the coefficient or the reproduced signal.
4. Воспроизведение4. Playback
Фиг.17 - типовая блок-схема устройства для обработки аудиосигнала согласно четвертому варианту осуществления настоящего изобретения. Устройство 1200 для обработки аудиосигнала в соответствии с четвертым вариантом осуществления настоящего изобретения (в дальнейшем просто "процессор 1200") может содержать кодер 1210 на кодирующей стороне 1200A и модуль 1220 воспроизведения и модуль 1230 синтеза на декодирующей стороне 1200B. Кодер 1210 может быть сконфигурирован для получения многоканального сигнала объекта и формирования микширования с понижением аудиосигнала и дополнительной информации. Модуль 1220 воспроизведения может быть сконфигурирован для получения дополнительной информации от кодера 1210, конфигурации воспроизведения и пользовательского управления из настройки устройства или интерфейса пользователя и формирования информации воспроизведения с использованием дополнительной информации, конфигурации воспроизведения и пользовательского управления. Модуль 1230 синтеза может быть сконфигурирован для синтеза многоканального выходного сигнала с использованием информации воспроизведения и принятого сигнала, микшированного с понижением, от кодера 1210.17 is an exemplary block diagram of an apparatus for processing an audio signal according to a fourth embodiment of the present invention. An audio
4.1 Применение режима эффектов4.1 Applying Effect Mode
Режим эффектов является режимом для повторно микшированного или восстановленного сигнала. Например, могут присутствовать "живой" режим, "клубный" режим, режим "караоке" и т.д. Информация о режиме эффектов может соответствовать набору параметров микширования, сформированному изготовителем, другим пользователем и т.д. Если применяется информация о режиме эффектов, конечному пользователю не нужно в полной мере управлять панорамированием объекта и усилением объекта, так как пользователь может выбрать одну из заранее установленных информаций о режиме эффектов.An effect mode is a mode for remixing or restoring a signal. For example, there may be a "live" mode, a "club" mode, a karaoke mode, etc. The effect mode information may correspond to a set of mixing parameters generated by the manufacturer, another user, etc. If information about the effect mode is applied, the end user does not need to fully control the panning of the object and the gain of the object, since the user can select one of the predefined information about the effect mode.
Могут выделяться два способа формирования информации о режиме эффектов. Во-первых, можно, чтобы информация о режиме эффектов формировалась кодером 1200A и передавалась к декодеру 1200B. Во-вторых, информация о режиме эффектов может формироваться автоматически на декодирующей стороне. Подробности двух способов будут описываться ниже.Two methods of generating information about the effect mode can be distinguished. Firstly, it is possible that the effect mode information is generated by the 1200A encoder and transmitted to the 1200B decoder. Secondly, information about the effects mode can be generated automatically on the decoding side. Details of the two methods will be described below.
4.1.1 Передача информации о режиме эффектов декодирующей стороне4.1.1 Transmission of effect mode information to the decoding side
Информация о режиме эффектов может формироваться изготовителем на кодере 1200A. В соответствии с этим способом декодер 1200B может быть сконфигурирован для получения дополнительной информации, включающей информацию о режиме эффектов, и вывода интерфейса пользователя, с помощью которого пользователь может выбрать одну из информаций о режиме эффектов. Декодер 1200B может быть сконфигурирован для формирования выходного канала на основе выбранной информации о режиме эффектов.Effect mode information can be generated by the manufacturer on the 1200A encoder. In accordance with this method, the
Кроме того, слушателю неприемлемо услышать сигнал, микшированный с понижением, как есть, если кодер 1200A микширует с понижением сигнал, чтобы поднять качество сигналов объектов. Однако, если информация о режиме эффектов применяется в декодере 1200B, можно воспроизвести сигнал, микшированный с понижением, с максимальным качеством.In addition, it is unacceptable for the listener to hear the downmix signal as it is if the 1200A encoder downmixes the signal to improve the signal quality of the objects. However, if the effect mode information is applied to the 1200B decoder, the downmix signal can be reproduced with maximum quality.
4.1.2 Формирование информации о режиме эффектов на декодирующей стороне4.1.2 Generating information about the effect mode on the decoding side
Информация о режиме эффектов может формироваться на декодере 1200B. Декодер 1200B может быть сконфигурирован для поиска подходящих информаций о режиме эффектов для сигнала, микшированного с понижением. Тогда декодер 1200B может быть сконфигурирован для самостоятельного выбора одного из найденных режимов эффектов (режим автоматической регулировки) или предоставления пользователю возможности выбрать один из них (режим выбора пользователя). Далее, декодер 1200B может быть сконфигурирован для получения информации об объекте (количество объектов, названия инструментов и т.д.), включенной в дополнительную информацию, и управления объектом на основе выбранной информации о режиме эффектов и информации об объекте.Effect mode information may be generated at the 1200B decoder.
Кроме того, можно управлять похожими объектами в общей массе. Например, связанные с ритмом инструменты могут быть похожими объектами в случае "режима ощущения ритма". Управление в общей массе означает управление каждым объектом одновременно, а не управление объектам с использованием одинакового параметра.In addition, you can control similar objects in the mass. For example, rhythm-related instruments may be similar objects in the case of a “rhythm feel mode”. Control in the total mass means controlling each object at the same time, and not controlling objects using the same parameter.
Кроме того, можно управлять объектом на основе настройки декодера и окружения устройства (включая то, используются ли наушники или динамики). Например, если настройка громкости у устройства низкая, то может подчеркиваться объект, соответствующий основной мелодии, если настройка громкости у устройства высокая, то может подавляться объект, соответствующий основной мелодии.In addition, you can control the object based on the settings of the decoder and the environment of the device (including whether headphones or speakers are used). For example, if the volume setting of the device is low, the object corresponding to the main melody can be emphasized, if the volume setting of the device is high, the object corresponding to the main melody can be suppressed.
4.2 Тип объекта входного сигнала на кодирующей стороне4.2 Type of input signal object on the coding side
Входной сигнал, введенный в кодер 1200A, может классифицироваться на три типа следующим образом.The input signal input to the
1) Монофонический объект (объект монофонического канала)1) Monophonic object (monophonic channel object)
Монофонический объект является наиболее общим типом объекта. Можно синтезировать внутренний сигнал, микшированный с понижением, путем простого суммирования объектов. Также можно синтезировать внутренний сигнал, микшированный с понижением, с использованием усиления объекта и панорамирования объекта, которые могут быть одним из пользовательского управления и предоставленной информации. В формировании внутреннего сигнала, микшированного с понижением, также можно сформировать информацию воспроизведения, используя по меньшей мере одно из характеристики объекта, ввода пользователя и предоставленной вместе с объектом информации.A monophonic object is the most common type of object. You can synthesize an internal downmix signal by simply adding objects. You can also synthesize an internal signal down-mixed using object gain and object panning, which can be one of the user controls and the information provided. In generating the downmix internal signal, it is also possible to generate playback information using at least one of an object’s characteristics, user input, and information provided with the object.
Если присутствует внешний сигнал, микшированный с понижением, то можно извлечь и передать информацию, указывающую связь между внешним сигналом, микшированным с понижением, и объектом.If there is an external signal down-mixed, then information indicating the relationship between the external down-mixed signal and the object can be extracted and transmitted.
2) Стереофонический объект (объект стереофонического канала)2) Stereo object (stereo channel object)
Можно синтезировать внутренний сигнал, микшированный с понижением, путем простого суммирования объектов, как в случае упомянутого выше монофонического объекта. Также можно синтезировать внутренний сигнал, микшированный с понижением, с использованием усиления объекта и панорамирования объекта, которые могут быть одним из пользовательского управления и предоставленной информации. Если сигнал, микшированный с понижением, соответствует монофоническому сигналу, то можно, чтобы кодер 1200A использовал объект, преобразованный в монофонический сигнал, для формирования сигнала, микшированного с понижением. В этом случае можно извлечь и передать информацию, ассоциированную с объектом (например, информацию о панорамировании в каждой частотно-временной области), при преобразовании в монофонический сигнал. Как и у предшествующего монофонического объекта, в формировании внутреннего сигнала, микшированного с понижением, также можно сформировать информацию воспроизведения, используя по меньшей мере одно из характеристики объекта, ввода пользователя и предоставленной вместе с объектом информации. Как и у предшествующего монофонического объекта, если присутствует внешний сигнал, микшированный с понижением, то можно извлечь и передать информацию, указывающую связь между внешним сигналом, микшированным с понижением, и объектом.You can synthesize an internal signal down-mixed by simply adding up the objects, as in the case of the monophonic object mentioned above. You can also synthesize an internal signal down-mixed using object gain and object panning, which can be one of the user controls and the information provided. If the downmix signal corresponds to a monaural signal, then it is possible for the 1200A encoder to use an object converted to a monaural signal to generate a downmix signal. In this case, it is possible to extract and transmit information associated with the subject (for example, pan information in each time-frequency domain) when converted to a monaural signal. As with the previous monophonic object, in the formation of the internal signal mixed downwardly, it is also possible to generate playback information using at least one of the characteristics of the object, user input and information provided with the object. As with the previous monophonic object, if there is an external signal mixed with decreasing, then information indicating the relationship between the external signal mixed with decreasing and the object can be extracted and transmitted.
3) Многоканальный объект3) Multichannel object
В случае многоканального объекта можно выполнить упомянутый выше способ, описанный с монофоническим объектом и стереофоническим объектом. Кроме того, можно ввести многоканальный объект в качестве вида MPEG Surround. В этом случае можно сформировать основанное на объекте микширование с понижением (например, микширование с понижением SAOC), используя канал микширования с понижением объекта, и использовать многоканальную информацию (например, пространственную информацию в MPEG Surround) для формирования многоканальной информации и информации воспроизведения. Поэтому можно уменьшить объем вычислений, так как многоканальный объект, присутствующий в виде MPEG Surround, не нужно декодировать и кодировать с использованием объектно-ориентированного кодера (например, кодера SAOC). Если микширование с понижением объекта соответствует стереофоническому, и микширование с понижением (например, микширование с понижением SAOC) в этом случае соответствует монофоническому, то можно применить вышеупомянутый способ, описанный со стереофоническим объектом.In the case of a multi-channel object, it is possible to perform the above method described with a monaural object and a stereo object. In addition, you can enter a multi-channel object as an MPEG Surround view. In this case, it is possible to generate object-based downmixing (e.g., downmixing SAOC) using the downmix channel and use multi-channel information (e.g. spatial information in MPEG Surround) to generate multi-channel information and playback information. Therefore, it is possible to reduce the amount of computation, since a multi-channel object present in the form of MPEG Surround does not need to be decoded and encoded using an object-oriented encoder (for example, an SAOC encoder). If the downmix of the object corresponds to stereo and the downmix (for example, SAOC downmix) in this case is monophonic, then the aforementioned method described with the stereo object can be applied.
4) Схема передачи для переменного типа объекта4) Transfer scheme for a variable object type
Как отмечено выше, переменный тип объекта (монофонический объект, стереофонический объект и многоканальный объект) может передаваться от кодера 1200A к декодеру 1200B. Схема передачи для переменного типа объекта может предоставляться следующим образом.As noted above, a variable type of object (monaural object, stereo object and multi-channel object) can be transmitted from the
Согласно Фиг.18, когда сигнал, микшированный с понижением, включает в себя множественный объект, дополнительная информация включает в себя информацию для каждого объекта. Например, когда множественный объект состоит из N-го монофонического объекта (А), левого канала (N+1)-го объекта (В) и правого канала (N+1)-го объекта (С), дополнительная информация включает в себя информацию для 3 объектов (А, В, С).According to FIG. 18, when a downmix signal includes a plural object, additional information includes information for each object. For example, when a multiple object consists of the Nth monophonic object (A), the left channel of the (N + 1) th object (B), and the right channel of the (N + 1) th object (C), additional information includes information for 3 objects (A, B, C).
Дополнительная информация может содержать информацию флажка о корреляции, указывающую, является ли объект частью стереофонического или многоканального объекта, например монофоническим объектом, одним каналом (L или R) стереофонического объекта, и так далее. Например, информация флажка о корреляции равна "0", если присутствует монофонический объект, информация флажка о корреляции равна "1", если присутствует один канал стереофонического объекта. Когда одна часть стереофонического объекта и другая часть стереофонического объекта передаются последовательно, информация флажка о корреляции для другой части стереофонического объекта может быть любым значением (например, "0", "1" или чем-нибудь еще). Кроме того, информация флажка о корреляции для другой части стереофонического объекта может не передаваться.The additional information may include correlation flag information indicating whether the object is part of a stereo or multi-channel object, for example a monophonic object, one channel (L or R) of a stereo object, and so on. For example, the correlation flag information is “0” if a monophonic object is present, the correlation flag information is “1” if there is one channel of the stereo object. When one part of the stereo object and another part of the stereo object are transmitted sequentially, the correlation flag information for the other part of the stereo object can be any value (for example, “0”, “1”, or something else). In addition, correlation flag information for another part of the stereo object may not be transmitted.
Кроме того, в случае многоканального объекта информация флажка о корреляции для одной части многоканального объекта может быть значением, описывающим количество многоканальных объектов. Например, в случае 5.1-канального объекта информация флажка о корреляции для левого канала из 5.1 канала может быть "5", информация флажка о корреляции для другого канала (R, Lr, Rr, C, LFE) из 5.1 канала может быть либо "0", либо не передаваться.In addition, in the case of a multi-channel object, the correlation flag information for one part of the multi-channel object may be a value describing the number of multi-channel objects. For example, in the case of a 5.1-channel object, the correlation flag information for the left channel from 5.1 channel can be “5”, the correlation flag information for the other channel (R, Lr, Rr, C, LFE) from 5.1 channel can be either “0 "or not be transmitted.
4.3 Атрибут объекта4.3 Object Attribute
Объект может обладать тремя видами атрибутов, а именно:An object can have three types of attributes, namely:
а) Единственный объектa) The only object
Единственный объект может быть сконфигурирован в качестве источника. Можно применить один параметр к единственному объекту для управления панорамированием объекта и усилением объекта при формировании сигнала, микшированного с понижением, и воспроизведении. "Один параметр" может означать не только один параметр для всей временной/частотной области, но также и один параметр для каждого временного/частотного интервала.A single object can be configured as a source. You can apply one parameter to a single object to control the panning of the object and the gain of the object during the formation of the signal mixed with decreasing, and playback. “One parameter” can mean not only one parameter for the entire time / frequency domain, but also one parameter for each time / frequency interval.
b) Групповой объектb) Group entity
Единственный объект может быть сконфигурирован как более двух источников. Можно применить один параметр к групповому объекту для управления панорамированием объекта и усилением объекта, хотя групповой объект вводится по меньшей мере как два источника. Подробности группового объекта пояснены со ссылкой на Фиг.19 следующим образом. Согласно Фиг.19, кодер 1300 включает в себя группировочный модуль 1310 и модуль 1320 микширования с понижением. Группировочный модуль 1310 может быть сконфигурирован для группирования по меньшей мере двух объектов среди введенных входных данных нескольких объектов на основе группировочной информации. Группировочная информация может формироваться изготовителем кодирующей стороны. Модуль 1320 микширования с понижением может быть сконфигурирован для формирования сигнала, микшированного с понижением, с использованием сгруппированного объекта, сформированного группировочным модулем 1310. Модуль 1320 микширования может быть сконфигурирован для формирования дополнительной информации для сгруппированного объекта.A single object can be configured as more than two sources. You can apply one parameter to a group object to control the panning of the object and the gain of the object, although the group object is entered at least as two sources. Details of the group entity are explained with reference to FIG. 19 as follows. According to FIG. 19, the
с) Комбинированный объектc) Combined object
Комбинированный объект является объектом, объединенным по меньшей мере с одним источником. Можно управлять панорамированием и усилением объекта в общей массе, но сохранять связь между объединенными объектами без изменений. Например, в случае барабана можно управлять барабаном, но сохранять связь между большим барабаном, тамтамом и цимбалами без изменений. Например, когда большой барабан находится в центральной точке, а цимбалы находятся в левой точке, можно расположить большой барабан в правой точке и расположить цимбалы в точке между центральной и правой, если барабан двигается в правом направлении.A combined object is an object combined with at least one source. You can control the pan and gain of the object in the total mass, but keep the connection between the combined objects unchanged. For example, in the case of a drum, you can control the drum, but keep the connection between the big drum, tom-tom and cymbals unchanged. For example, when the snare drum is at the center point and the cymbals are at the left point, you can position the snare drum at the right point and position the zymbals at the point between the center and right if the drum is moving in the right direction.
Информация о связи между объединенными объектами может передаваться декодеру. С другой стороны, декодер может извлекать информацию о связи, используя комбинированный объект.Communication information between the combined entities may be transmitted to the decoder. On the other hand, the decoder can retrieve communication information using a combined entity.
4.4 Иерархическое управление объектами4.4 Hierarchical management of objects
Можно управлять объектами иерархически. Например, после управления барабаном можно управлять каждым подэлементом барабана. Чтобы иерархически управлять объектами, ниже предоставляются три схемы:You can manage objects hierarchically. For example, after controlling the drum, each sub-element of the drum can be controlled. To hierarchically manage objects, three schemes are provided below:
а) UI (интерфейс пользователя)a) UI (user interface)
Только представляющий элемент может отображаться без отображения всех объектов. Если представляющий элемент выбирается пользователем, отображаются все объекты.Only the representing element can be displayed without displaying all objects. If the representing element is selected by the user, all objects are displayed.
b) Группирование объектовb) Grouping objects
После группирования объектов для представления представляющего элемента можно управлять представляющим элементом, чтобы управлять всеми объектам, сгруппированными в виде представляющего элемента. Информация, извлеченная в процессе группирования, может передаваться декодеру. Также информация о группировании может формироваться в декодере. Применение управляющей информации в общей массе может выполняться на основе заранее установленной управляющей информации для каждого элемента.After grouping the objects to represent the representing element, you can control the representing element to manage all objects grouped as a representing element. Information extracted during grouping can be transmitted to the decoder. Also, grouping information may be generated in the decoder. The application of control information in the total mass can be performed based on predefined control information for each element.
с) Конфигурация объектаc) Object configuration
Можно использовать вышеупомянутый комбинированный объект. Информация об элементах комбинированного объекта может формироваться либо в кодере, либо в декодере. Информация об элементах от кодера может передаваться в качестве другого вида, отличного от информации о комбинированном объекте.You can use the above combined object. Information about the elements of the combined object can be generated either in the encoder or in the decoder. Information about the elements from the encoder can be transmitted as another form, different from information about the combined object.
Специалистам в данной области техники будет очевидно, что в настоящем изобретении могут быть сделаны различные модификации и изменения без отклонения от сущности или объема изобретения. Таким образом, имеется в виду, что настоящее изобретение охватывает модификации и изменения этого изобретения в том случае, если они подпадают под объем прилагаемой формулы изобретения и ее эквивалентов.It will be apparent to those skilled in the art that various modifications and changes can be made to the present invention without departing from the spirit or scope of the invention. Thus, it is intended that the present invention cover the modifications and variations of this invention provided they come within the scope of the appended claims and their equivalents.
Промышленная применимостьIndustrial applicability
Соответственно, настоящее изобретение применимо для кодирования и декодирования аудиосигнала.Accordingly, the present invention is applicable to encoding and decoding an audio signal.
Claims (19)
получают сигнал, микшированный с понижением, информацию об объекте и информацию о микшировании;
формируют информацию об обработке микширования с понижением с использованием информации об объекте и информации о микшировании;
обрабатывают сигнал, микшированный с понижением, с использованием информации об обработке микширования с понижением; и
формируют многоканальную информацию с использованием информации об объекте и информации о микшировании, при этом количество каналов сигнала, микшированного с понижением, равно количеству каналов обработанного сигнала, микшированного с понижением.1. A method for processing an audio signal, comprising the steps of:
receiving a downmix signal, object information and mixing information;
generating downmix processing information using object information and mixing information;
processing the downmix signal using downmix processing information; and
form multi-channel information using information about the object and information about mixing, while the number of channels of the signal mixed with decreasing is equal to the number of channels of the processed signal mixed with decreasing.
формируют выходной сигнал во временной области с использованием обработанного сигнала, микшированного с понижением.7. The method according to claim 1, additionally containing a stage in which:
form the output signal in the time domain using the processed signal mixed down.
формируют многоканальный сигнал с использованием обработанного сигнала, микшированного с понижением, и многоканальной информации.10. The method according to claim 1, additionally containing phase, in which:
form a multi-channel signal using the processed signal, mixed down, and multi-channel information.
принимают сигнал, микшированный с понижением, информацию об объекте и информацию о микшировании;
раскладывают сигнал, микшированный с понижением, на сигнал поддиапазона;
формируют информацию об обработке микширования с понижением с использованием информации об объекте и информации о микшировании; и
обрабатывают сигнал поддиапазона с использованием информации об обработке микширования с понижением;
формируют выходной сигнал с использованием обработанного сигнала поддиапазона,
где количество каналов сигнала, микшированного с понижением, равно количеству выходных сигналов, и выходной сигнал соответствует сигналу временной области.14. A method for processing an audio signal, comprising the steps of:
receiving a downmix signal, object information and mixing information;
decomposing the downmix signal into a subband signal;
generating downmix processing information using object information and mixing information; and
processing a subband signal using downmix processing information;
generating an output signal using the processed subband signal,
where the number of channels of the downmix signal is equal to the number of output signals, and the output signal corresponds to a time-domain signal.
прием сигнала, микшированного с понижением, информации об объекте и информации о микшировании;
формирование информации об обработке микширования с понижением с использованием информации об объекте и информации о микшировании;
обработку сигнала, микшированного с понижением, с использованием информации об обработке микширования с понижением; и
формирование многоканальной информации с использованием информации об объекте и информации о микшировании,
причем количество каналов сигнала, микшированного с понижением, равно количеству каналов обработанного сигнала, микшированного с понижением.15. A machine-readable medium with instructions stored on it that, when executed by a processor, cause the processor to perform operations comprising:
receiving a downmixed signal, object information and mixing information;
generating information about downmix processing using object information and mixing information;
processing the downmix signal using the downmix processing information; and
formation of multichannel information using information about the object and information about mixing,
moreover, the number of channels of the signal mixed with decreasing is equal to the number of channels of the processed signal mixed with decreasing.
прием сигнала, микшированного с понижением, информации об объекте и информации о микшировании;
разложение сигнала, микшированного с понижением, на сигнал поддиапазона;
формирование информации об обработке микширования с понижением с использованием информации об объекте и информации о микшировании; и
обработку сигнала поддиапазона с использованием информации об обработке микширования с понижением;
формирование выходного сигнала с использованием обработанного сигнала поддиапазона,
причем количество каналов сигнала, микшированного с понижением, равно количеству выходных сигналов, и выходной сигнал соответствует сигналу временной области.16. A machine-readable medium with instructions stored on it, which, when executed by a processor, causes the processor to perform operations comprising:
receiving a downmixed signal, object information and mixing information;
decomposing the downmix signal into a subband signal;
generating information about downmix processing using object information and mixing information; and
subband signal processing using downmix processing information;
generating an output signal using the processed subband signal,
moreover, the number of channels of the downmix signal is equal to the number of output signals, and the output signal corresponds to a time-domain signal.
модуль формирования информации, принимающий информацию об объекте и информацию о микшировании и формирующий информацию об обработке микширования с понижением с использованием информации об объекте и информации о микшировании, и формирующий многоканальную информацию с использованием информации об объекте и информации о микшировании; и
модуль обработки микширования с понижением, принимающий сигнал, микшированный с понижением, и информацию об обработке микширования с понижением и обрабатывающий сигнал, микшированный с понижением, с использованием информации об обработке микширования с понижением;
причем количество каналов сигнала, микшированного с понижением, равно количеству каналов обработанного сигнала, микшированного с понижением.17. An apparatus for processing an audio signal, comprising:
an information generation module that receives information about the object and information about mixing and generates information about the processing of mixing downward using information about the object and information about mixing, and generates multi-channel information using information about the object and information about mixing; and
a downmix processing module receiving a downmix signal and downmix processing information and a downmix processing signal using downmix processing information;
moreover, the number of channels of the signal mixed with decreasing is equal to the number of channels of the processed signal mixed with decreasing.
модуль формирования информации, принимающий сигнал, микшированный с понижением, информацию об объекте и информацию о микшировании, причем модуль формирования информации формирует информацию об обработке микширования с понижением с использованием информации об объекте и информации о микшировании; и
модуль обработки микширования с понижением, раскладывающий сигнал, микшированный с понижением, на сигнал поддиапазона, обрабатывающий сигнал поддиапазона с использованием информации об обработке микширования с понижением и формирующий выходной сигнал с использованием обработанного сигнала поддиапазона,
причем количество каналов сигнала, микшированного с понижением, равно количеству выходных сигналов, и выходной сигнал соответствует сигналу временной области.18. An apparatus for processing an audio signal, comprising:
an information generating unit receiving a downmix signal, object information and mixing information, wherein the information generating unit generates downmix processing information using object information and mixing information; and
a downmix processing module, decomposing the downmix signal into a subband signal, processing a subband signal using downmix processing information, and generating an output signal using the processed subband signal,
moreover, the number of channels of the downmix signal is equal to the number of output signals, and the output signal corresponds to a time-domain signal.
принимают сигнал, микшированный с понижением, с использованием сигнала множества объектов;
формируют информацию об объекте, представляющую связь между сигналами множества объектов, используя сигналы множества объектов и сигнал, микшированный с понижением, и
причем сигнал, микшированный с понижением, может быть обработанным сигналом, микшированным с понижением, чтобы количество каналов сигнала, микшированного с понижением, было равно количеству обработанных сигналов, микшированных с понижением. 19. A method for processing an audio signal, comprising the steps of:
receiving a downmixed signal using a signal of a plurality of objects;
generating information about an object representing a relationship between signals of a plurality of objects using signals of a plurality of objects and a signal mixed downwardly, and
wherein the downmix signal may be a downmix signal so that the number of channels of the downmix signal is equal to the number of processed downmix signals.
Applications Claiming Priority (16)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US86907706P | 2006-12-07 | 2006-12-07 | |
US60/869,077 | 2006-12-07 | ||
US87713406P | 2006-12-27 | 2006-12-27 | |
US60/877,134 | 2006-12-27 | ||
US60/883,569 | 2007-01-05 | ||
US88404307P | 2007-01-09 | 2007-01-09 | |
US60/884,043 | 2007-01-09 | ||
US60/884,347 | 2007-01-10 | ||
US88458507P | 2007-01-11 | 2007-01-11 | |
US60/884,585 | 2007-01-11 | ||
US88534307P | 2007-01-17 | 2007-01-17 | |
US60/885,343 | 2007-01-17 | ||
US60/885,347 | 2007-01-17 | ||
US60/889,715 | 2007-02-13 | ||
US95539507P | 2007-08-13 | 2007-08-13 | |
US60/955,395 | 2007-08-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2009125909A RU2009125909A (en) | 2011-01-20 |
RU2417549C2 true RU2417549C2 (en) | 2011-04-27 |
Family
ID=44731731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2009125909/09A RU2417549C2 (en) | 2006-12-07 | 2007-12-06 | Audio signal processing method and device |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2417549C2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2604337C2 (en) * | 2012-08-03 | 2016-12-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Decoder and method of multi-instance spatial encoding of audio objects using parametric concept for cases of the multichannel downmixing/upmixing |
US9653084B2 (en) | 2012-09-12 | 2017-05-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for providing enhanced guided downmix capabilities for 3D audio |
-
2007
- 2007-12-06 RU RU2009125909/09A patent/RU2417549C2/en active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2604337C2 (en) * | 2012-08-03 | 2016-12-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Decoder and method of multi-instance spatial encoding of audio objects using parametric concept for cases of the multichannel downmixing/upmixing |
US10176812B2 (en) | 2012-08-03 | 2019-01-08 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases |
US9653084B2 (en) | 2012-09-12 | 2017-05-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for providing enhanced guided downmix capabilities for 3D audio |
RU2635884C2 (en) * | 2012-09-12 | 2017-11-16 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Device and method for delivering improved characteristics of direct downmixing for three-dimensional audio |
Also Published As
Publication number | Publication date |
---|---|
RU2009125909A (en) | 2011-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5290988B2 (en) | Audio processing method and apparatus | |
RU2417549C2 (en) | Audio signal processing method and device |