KR20080093879A - A method and apparatus for processing an audio signal - Google Patents

A method and apparatus for processing an audio signal Download PDF

Info

Publication number
KR20080093879A
KR20080093879A KR1020080033458A KR20080033458A KR20080093879A KR 20080093879 A KR20080093879 A KR 20080093879A KR 1020080033458 A KR1020080033458 A KR 1020080033458A KR 20080033458 A KR20080033458 A KR 20080033458A KR 20080093879 A KR20080093879 A KR 20080093879A
Authority
KR
South Korea
Prior art keywords
information
enhanced
signal
downmix
enhanced object
Prior art date
Application number
KR1020080033458A
Other languages
Korean (ko)
Inventor
정양원
오현오
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Publication of KR20080093879A publication Critical patent/KR20080093879A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

An audio signal processing method and a device thereof are provided to include bit allocation information of a downmix signal in enhanced object information, thereby maximally reducing errors during quantization of an enhanced object and the downmix signal and avoiding noise generation. An information receiver receives more than one selection object and downmix information mixed with a basic object, and receives object information and enhanced object information. An information generation unit(220) extracts more than one selection object from the downmix information, by using the object information and the enhanced object information. The enhanced object information includes bit information of the downmix information.

Description

오디오 신호 처리 방법 및 이의 장치{A METHOD AND APPARATUS FOR PROCESSING AN AUDIO SIGNAL}Audio signal processing method and apparatus therefor {A METHOD AND APPARATUS FOR PROCESSING AN AUDIO SIGNAL}

본 발명은 오디오 신호 처리 방법 및 장치에 관한 것으로, 보다 상세하게는 디지털 매체, 방송 신호 등으로 수신된 오디오 신호를 처리할 수 있는 오디오 신호 처리 방법 및 장치에 관한 것이다.The present invention relates to an audio signal processing method and apparatus, and more particularly, to an audio signal processing method and apparatus capable of processing an audio signal received in a digital medium, a broadcast signal and the like.

다수 개의 오브젝트를 포함하는 오디오 신호를, 모노 또는 스테레오 신호로 다운믹스하는 과정에 있어서, 각각의 오브젝트 신호로부터 파라미터들이 추출된다. 이러한 파라미터들은 디코더에서 사용되는데, 각각의 오브젝트들의 패닝(panning)과 게인(gain)은 유저의 선택에 의하여 컨트롤 될 수 있다.In the process of downmixing an audio signal including a plurality of objects into a mono or stereo signal, parameters are extracted from each object signal. These parameters are used in the decoder, and the panning and gain of each object can be controlled by the user's choice.

각각의 오브젝트 시그널을 제어하기 위해서는, 다운믹스에 포함되어 있는 각각의 소스들이 적절히 포지셔닝 또는 패닝되어야 한다. 또한, 채널 기반(channel-oriented) 디코딩 방식으로 하향 호환성을 갖기 위해서는, 오브젝트 파라미터는 업믹싱을 위한 멀티 채널 파라미터로 유연하게 변환되어야 한다.In order to control each object signal, each source included in the downmix must be properly positioned or panned. In addition, to be backward compatible with channel-oriented decoding, object parameters must be flexibly converted to multi-channel parameters for upmixing.

그러나 특정 오브젝트의 처리에 있어서, 각 오브젝트에 대한 작은 양의 정보만을 가지고 처리하기에는 한계를 갖는 경우가 존재한다.However, in the processing of a specific object, there are cases where there is a limit to processing with only a small amount of information for each object.

또한, 오브젝트 시그널을 다중으로 처리하여 이용하는 경우에는 양자화기에 의한 오차에 의하여 최종 출력에서 잡음이 발생하는 문제점이 발생한다.In addition, when the object signal is processed and used in multiplex, noise occurs in the final output due to an error caused by the quantizer.

본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 오브젝트 정보와 별도로 생성된 인핸스드 오브젝트 정보를 이용하여 일부 오브젝트의 게인과 패닝을 컨트롤할 수 있는 오디오 신호 처리 방법 및 장치를 제공하는 데 그 목적이 있다.The present invention has been made to solve the above problems, and provides an audio signal processing method and apparatus capable of controlling gain and panning of some objects by using enhanced object information generated separately from the object information. There is a purpose.

본 발명의 또 다른 목적은, 인핸스드 오브젝트 정보에 다운믹스 신호의 비트할당 정보를 포함함으로써, 다운믹스 신호 및 인핸스드 오브젝트의 양자화시 오차를 최대한으로 감소시켜 노이즈 발생을 방지하는 오디오 신호 처리 방법 및 장치를 제공하는 데 있다. Another object of the present invention is to include bit allocation information of the downmix signal in the enhanced object information, thereby reducing the error in the quantization of the downmix signal and the enhanced object to the maximum to prevent the occurrence of noise and an audio signal processing method To provide a device.

본 발명은 다음과 같은 효과와 이점을 제공한다.The present invention provides the following effects and advantages.

우선, 목적에 따라 오브젝트 신호 중 일부를 완전하게 억압하는 경우에도, 게인 조정에 따른 음질의 왜곡을 방지할 수 있다.First, even when part of an object signal is completely suppressed according to the purpose, distortion of sound quality due to gain adjustment can be prevented.

둘째, 선택 오브젝트가 둘 이상인 경우에도 게인 조정에 따른 음질의 왜곡을 방지할 수 있다.Second, even when there are two or more selection objects, distortion of sound quality due to gain adjustment can be prevented.

셋째, 다운믹스 신호에 대한 비트할당 정보를 이용함으로써, 인핸스드 오브젝트에 포함되는 오브젝트 신호와 다운믹스 신호에 포함되는 동일 오브젝트간의 오차를 감소시켜 양자화(quantization)에 의한 노이즈의 발생을 방지할 수 있다.Third, by using the bit allocation information for the downmix signal, it is possible to reduce the error between the object signal included in the enhanced object and the same object included in the downmix signal to prevent the occurrence of noise due to quantization (quantization) .

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

본 발명의 실시예들은 당해 기술 분야에서 통상의 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위하여 제공되는 것이며, 하기 실시예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 하기 실시예에 한정되는 것은 아니다. 도면상에서 동일 부호는 동일한 요소를 지칭한다.The embodiments of the present invention are provided to more fully explain the present invention to those skilled in the art, and the following examples can be modified in various other forms, and the scope of the present invention is It is not limited to an Example. Like numbers refer to like elements in the figures.

특히, 본 명세서에서 정보(information)란, 값(values), 파라미터(parameters), 계수(coefficients), 성분(elements) 등을 모두 아우르는 용어로서, 경우에 따라 그 의미는 달리 해석될 수 있는 바, 그러나 본 발명은 이에 한정되지 아니한다.In particular, in the present specification, information is a term encompassing values, parameters, coefficients, elements, and the like, and in some cases, the meaning may be interpreted differently. However, the present invention is not limited thereto.

특히, 오브젝트란, 오브젝트 기반 신호(object based signal) 및 채널 기반 신호(channel based signal)를 포함하는 개념이지만, 경우에 따라 오브젝트 기반 신호만을 지칭할 수 있다.In particular, an object is a concept including an object based signal and a channel based signal, but in some cases, may refer to only an object based signal.

도 1은 본 발명의 실시예에 따른 오디오 신호 처리 장치의 구성을 보여주는 도면이다. 도 1을 참조하면, 우선, 본 발명의 실시예에 따른 오디오 신호 처리 장치는 인코더(100) 및 디코더(200)를 포함하며, 상기 인코더(100)는 오브젝트 인코딩부(110), 인핸스드 오브젝트 인코딩부(120), 및 멀티 플렉서(130)를 포함하고, 상기 디코더(200)는 디멀티플렉서(210), 정보 생성부(220), 다운믹스 프로세싱부(230), 및 멀티채널 디코더(240)를 포함한다.1 is a diagram illustrating a configuration of an audio signal processing apparatus according to an embodiment of the present invention. Referring to FIG. 1, first, an audio signal processing apparatus according to an exemplary embodiment of the present invention includes an encoder 100 and a decoder 200, and the encoder 100 includes an object encoding unit 110 and an enhanced object encoding. And a decoder 120 and a multiplexer 130. The decoder 200 includes a demultiplexer 210, an information generator 220, a downmix processor 230, and a multichannel decoder 240. Include.

먼저, 상기 오브젝트 인코딩부(110)는 다운믹싱부(미도시)를 포함하며, 하나 이상의 오브젝트들(obj1,..., objN)로부터 다운믹스 신호(DMX) 및 오브젝트 정보(object parameter)(OP)를 생성한다. 상기 오브젝트들은 하나 이상의 선택 오브젝트 및 기본 오브젝트를 포함할 수 있으며, 예를 들어, 상기 선택 오브젝트는 보컬 또는 대사(Dialog)일 수 있고, 상기 기본 오브젝트는 기타, 드럼, 또는 배경 음악일 수 있다.First, the object encoding unit 110 includes a downmixing unit (not shown), and the downmix signal DMX and object parameter OP from one or more objects obj1,..., ObjN. ) The objects may include one or more selection objects and basic objects. For example, the selection objects may be vocals or dialogs, and the basic objects may be guitar, drums, or background music.

또한, 상기 오브젝트 정보는 다운믹스 신호(downmix signal)(DMX) 내에 포함되어 있는 오브젝트들에 관한 정보로서, 오브젝트 레벨 정보(object level information), 오브젝트 상관 정보(object correlation information), 오브젝트 게인 정보(object gain information) 등을 포함할 수 있다. 상기 오브젝트 레벨 정보(object level information)는 참조 정보(reference information)을 이용하여 오브젝트 레벨을 정규화함으로써 생성된 것으로, 상기 참조 정보(reference information)는 오브젝트 레벨 중 하나일 수 있으며, 상세하게는, 모든 오브젝트 레벨 중 가장 큰 레벨일 수 있다. 상기 오브젝트 상관 정보(object correlation information)는 두 개의 오브젝트간의 연관성을 나타내는 것으로, 선택된 두 개의 오브젝트가 동일한 기원(origin)을 갖는 스테레오 출력의 각기 다른 채널의 신호임을 나타낸다. 상기 오브젝트 게인 정보(object gain information)는 다운믹스 신호(DMX)를 생성하기 위하여, 각각의 다운믹스 신호의 채널에 대한 오브젝트의 기여도에 관한 값을 나타내며, 상세하게는 오브젝트의 기여도를 변형시키기 위한 값을 나타낸다.In addition, the object information is information about objects included in a downmix signal (DMX), object level information (object level information), object correlation information (object correlation information), object gain information (object gain information) and the like. The object level information is generated by normalizing an object level using reference information. The reference information may be one of object levels. In detail, all objects It may be the largest level of the level. The object correlation information indicates an association between two objects, indicating that two selected objects are signals of different channels of a stereo output having the same origin. The object gain information indicates a value relating to an object's contribution to a channel of each downmix signal to generate a downmix signal DMX, and in detail, a value for modifying an object's contribution. Indicates.

한편, 오브젝트 인코더(110)에서는 오브젝트들 중 하나 이상의 오브젝트 신호를 그룹핑하여 다운믹스를 생성할 수 있으며, 이는 인핸스드 오브젝트 인코더(120)에서 하나 이상의 오브젝트를 그룹핑하여 인핸스드 오브젝트를 생성하는 과정과 동일할 수 있으나 본 발명은 이에 한정되지 아니한다.Meanwhile, the object encoder 110 may generate a downmix by grouping one or more object signals among the objects, which is the same as the process of generating an enhanced object by grouping one or more objects in the enhanced object encoder 120. The present invention is not limited thereto.

오브젝트 인코더(110)에서 다운믹스 신호(DMX)를 생성하는 경우, 상기 다운믹스 신호(DMX)의 비트할당 정보(bit allocation information)(BI)를 함께 생성할 수 있다. 상기 비트할당 정보(BI)는 상기 다운믹스 신호(DMX)와 함께 인핸스드 오브젝트 인코딩부(120)에서 인핸스드 오브젝트를 생성하기 위하여 이용되며, 이에 대한 상세한 설명은 이하에서 언급하기로 한다.When the object encoder 110 generates the downmix signal DMX, bit allocation information BI of the downmix signal DMX may be generated together. The bit allocation information BI is used to generate an enhanced object in the enhanced object encoding unit 120 together with the downmix signal DMX, which will be described in detail later.

인핸스드 오브젝트 인코더(120)는 하나 이상의 오브젝트(objM)를 이용하여 인핸스드 오브젝트 정보(OP) 및 다운믹스(DMX)(LL, RL)를 생성한다. 보다 상세하게 는, 인핸스드 오브젝트 인코더(120)는 상기 오브젝트 인코더(110)에서 생성되는 구체적인 제어 또는 조절을 필요로 하는 오브젝트 신호를 입력받아 그룹핑하여 인핸스드 오브젝트(EO)를 생성하고, 상기 인핸스드 오브젝트(EO), 상기 오브젝트 인코더(110)로부터 입력받은 다운믹스 신호(L,R), 및 상기 비트할당 정보(BI)를 이용하여 인핸스드 오브젝트 정보(enhanced object parameter)(EOP)를 생성한다. 상기 인핸스드 오브젝트 정보(EOP)는 인핸스드 오브젝트의 레벨 정보를 포함하는 에너지 정보, 레지듀얼 정보일 수 있으며, 이에 대하여는 도 2 내지 도 4 를 참고하여 후술하기로 한다. The enhanced object encoder 120 generates the enhanced object information OP and the downmix DMX L L and R L using one or more objects objM. In more detail, the enhanced object encoder 120 generates an enhanced object EO by receiving and grouping an object signal requiring specific control or adjustment generated by the object encoder 110, and enhancing the enhanced object EO. The enhanced object parameter EOP is generated using the object EO, the downmix signals L and R received from the object encoder 110, and the bit allocation information BI. The enhanced object information (EOP) may be energy information or residual information including level information of the enhanced object, which will be described later with reference to FIGS. 2 to 4.

본 발명의 인핸스드 오브젝트(EO)는 디코더(200)에서 독립적으로 제어 또는 조절될 수 있으며, 이러한 독립적인 제어를 위하여 선택되므로 상기 인핸스드 오브젝트(EO)에 포함되는 오브젝트들을 선택 오브젝트라 지칭할 수 있다. 또한, 인핸스드 오브젝트 인코딩부(120)에 입력되지 아니하고, 오브젝트 인코딩부(110)에만 입력되어 다운믹스 신호(L,R)에 포함된 오브젝트들을 모두 기본 오브젝트라 지칭하기로 한다.The enhanced object EO of the present invention may be independently controlled or adjusted at the decoder 200, and is selected for such independent control, so that the objects included in the enhanced object EO may be referred to as selection objects. have. In addition, all of the objects that are not input to the enhanced object encoding unit 120 but are input only to the object encoding unit 110 and included in the downmix signals L and R are referred to as basic objects.

멀티플렉서(130)는 오브젝트 인코더(110)에서 생성된 오브젝트 정보(OP), 및 인핸스드 오브젝트 인코더(120)에서 생성된 인핸스드 오브젝트 정보(EOP)를 멀티플렉싱하여, 부가 정보 비트스트림을 생성한다. 한편, 부가 정보 비트스트림은, 상기 채널 기반 신호에 대한 공간 정보(spatial information)(SP)(미도시)가 포함할 수 있다. 공간 정보란, 채널 기반 신호를 디코딩하기 위해 필요한 정보로서, 채널 레벨 정보(channel level information), 및 채널 상관 정보(channel correlation information) 등을 포함할 수 있지만, 본 발명은 이에 한정되지 아니한다.The multiplexer 130 multiplexes the object information OP generated by the object encoder 110 and the enhanced object information EOP generated by the enhanced object encoder 120 to generate an additional information bitstream. Meanwhile, the additional information bitstream may include spatial information (SP) (not shown) for the channel-based signal. The spatial information is information necessary for decoding the channel-based signal and may include channel level information, channel correlation information, and the like, but the present invention is not limited thereto.

디코더(200)의 디멀티플렉서(210)는 부가 정보 비트스트림으로부터 오브젝트 정보(OP) 및 인핸스드 오브젝트 정보(EOP)를 추출한다. 부가 정보 비트스트림에 상기 공간 정보(SP)가 포함되는 경우, 공간 정보(SP)를 더 추출한다.The demultiplexer 210 of the decoder 200 extracts the object information OP and the enhanced object information EOP from the side information bitstream. If the spatial information SP is included in the additional information bitstream, the spatial information SP is further extracted.

정보 생성부(information generating unit)(220)은 오브젝트 정보(object parameter)(OP) 및 인핸스드 오브젝트 정보(enhanced object parameter)(EOP)를 오디오 신호 비트스트림으로부터 수신한다. 이후, 상기 오브젝트 정보, 인핸스드 오브젝트 정보, 및 다운믹스 신호를 이용하여 다운믹스 프로세싱 정보(downmix processing information)(DPI) 및 멀티채널 정보(multi-channel information)(MI)을 생성한다. 상기 정보 생성 유닛에서 다운믹스 프로세싱 정보 및 멀티채널 정보를 생성하는 과정에 대하여는 이하 도 5 내지 도 6에서 상세히 살펴보기로 한다.The information generating unit 220 receives an object parameter OP and an enhanced object parameter EOP from an audio signal bitstream. Subsequently, downmix processing information (DPI) and multi-channel information (MI) are generated using the object information, enhanced object information, and downmix signal. A process of generating downmix processing information and multichannel information in the information generating unit will be described in detail with reference to FIGS. 5 to 6.

다운믹스 프로세싱 유닛(230)은 다운믹스 프로세싱 정보(DPI)를 이용하여 다운믹스(DMX)를 프로세싱한다. 예를 들어, 오브젝트의 게인 또는 패닝을 조절하기 위해 다운믹스(DMX)를 프로세싱할 수 있다.The downmix processing unit 230 processes the downmix DMX using the downmix processing information DPI. For example, the downmix (DMX) can be processed to adjust the gain or panning of the object.

멀티채널 디코더(multi-channel decoder)(240)는 프로세싱된 다운믹스(processed downmix)를 수신하고, 멀티채널 정보(MI)를 이용하여 프로세싱된 다운믹스 신호를 업믹싱하여 멀티채널 신호를 생성한다. The multi-channel decoder 240 receives the processed downmix and upmixes the processed downmix signal using the multichannel information MI to generate a multichannel signal.

이하에서는 도 2 내지 도 4를 참조하면서, 인코더(100)의 인핸스드 오브젝트 인코더(120)의 세부 구성의 다양한 실시예에 대하여, 도 5 및 도 6 을 참조하면서, 디코더(200)의 정보 생성 유닛(220)의 세부 구성에 대해서 설명하고자 한다.Hereinafter, various embodiments of the detailed configuration of the enhanced object encoder 120 of the encoder 100 will be described with reference to FIGS. 2 to 4, and the information generating unit of the decoder 200 will be described with reference to FIGS. 5 and 6. A detailed configuration of 220 will be described.

도 2 는 본 발명의 일실시예에 따른 인핸스드 오브젝트 인코더(120)의 구성을 나타내는 것이다. 인핸스드 오브젝트 인코더(120)는 크게 인핸스드 오브젝트 생성부(121)와 인핸스드 오브젝트 정보 생성부(122)를 포함한다. 2 illustrates a configuration of an enhanced object encoder 120 according to an embodiment of the present invention. The enhanced object encoder 120 largely includes an enhanced object generator 121 and an enhanced object information generator 122.

먼저, 인핸스드 오브젝트 생성부(121)는 외부로부터 선택 오브젝트(obj 1,..., objM, M<N)를 입력받고, 오브젝트 인코딩부(110)로부터 입력된 비트할당 정보(BI)를 이용하여, 인핸스드 오브젝트(EO)를 생성한다. 상기 비트할당 정보(BI)는 오브젝트 인코딩부(110)에서 생성된 다운믹스 신호에 관한 것으로, 이를 이용하여 인핸스드 오브젝트 인코더(120)는 인핸스드 오브젝트의 비트율을 상기 다운믹스 신호의 비트율과 동일하게 생성할 수 있다. 상기 인핸스드 오브젝트의 비트율이 상기 다운믹스 신호의 비트율과 동일하게 생성되는 경우, 인핸스드 오브젝트에 포함되는 선택 오브젝트 신호와 다운믹스 신호에 포함되는 선택 오브젝트 사이의 오차를 줄일 수 있으므로 양자화(quantization)에 의한 노이즈의 발생을 방지할 수 있게 된다. 상기 양자화에 대한 내용은 추후 도 7 내지 도 8d에서 상세히 후술하기로 한다.First, the enhanced object generation unit 121 receives the selection objects obj 1,... ObjM, M <N from the outside, and uses the bit allocation information BI input from the object encoding unit 110. To generate the enhanced object EO. The bit allocation information BI relates to the downmix signal generated by the object encoding unit 110. The enhanced object encoder 120 uses the same bit rate as the bit rate of the downmix signal. Can be generated. When the bit rate of the enhanced object is generated to be the same as the bit rate of the downmix signal, an error between the selection object signal included in the enhanced object and the selection object included in the downmix signal may be reduced. It is possible to prevent the occurrence of noise due to. The content of the quantization will be described later in detail with reference to FIGS. 7 to 8D.

상기 인핸스드 오브젝트(EO)는 고품질의 제어를 하기 위하여 선택 오브젝트들을 그룹핑하는 것으로, 예를 들면 기본 오브젝트에 비하여 인핸스드 오브젝트(EO)가 독립적으로 완전히 억압되거나, 기본 오브젝트들이 완전히 억압되고 인핸스드 오브젝트들만이 완전히 재생되도록 하기 위한 것일 수 있다. 만일, 가라오케 모드와 같이 특정 오브젝트인 보컬 신호를 전체 신호로부터 완전히 억압하기 위한 제어 정보로 사용할 수 있다. 상기 인핸스드 오브젝트(EO)를 생성하는 선택 오브 젝트는 채널 기반 신호가 아닌 오브젝트 기반 신호일 수 있다. 또한, 인핸스드 오브젝트(EO)는 하나의 오브젝트로 이루어질 수 있고, 둘 이상의 선택 오브젝트를 더하여 생성될 수 있다.The enhanced object EO is a grouping of selected objects for high quality control. For example, the enhanced object EO is completely suppressed independently or completely suppressed and the enhanced object is compared to the base object. Only the fields may be intended to be completely reproduced. If it is a karaoke mode, it can be used as control information for completely suppressing the vocal signal that is a specific object from the entire signal. The selection object for generating the enhanced object EO may be an object based signal rather than a channel based signal. In addition, the enhanced object EO may be formed of one object and may be generated by adding two or more selection objects.

인핸스드 오브젝트 정보생성부(122)는 인핸스드 오브젝트 생성부(121)로부터 입력되는 인핸스드 오브젝트 신호(EO)와 오브젝트 인코딩부(110)로부터 입력되는 다운믹스 신호로부터 인핸스드 오브젝트 정보(EOP) 및 임시 다운믹스 신호(L1,R1)를 생성하며, 상기 임시 다운믹스 신호(L1,R1)는 오브젝트 인코딩부(110)에서 생성된 다운믹스 신호(L,R)와 인핸스드 오브젝트 생성부(121)에서 생성되는 인핸스드 오브젝트를 더해서 생성될 수 있다. 또한, 상기 인핸스드 오브젝트 정보(EOP)는 레지듀얼 정보, 인핸스드 오브젝트(EO)의 레벨 정보를 포함하는 에너지 정보를 부호화한 비트스트림일 수 있으며, 인핸스드 오브젝트(EO)에 대하여 추가적으로 시간축 해상도, 또는 주파수 해상도를 높여서 얻어진 인핸스드 오브젝트 레벨 정보 또는 인핸스드 오브젝트 상관 정보를 부호화한 비트스트림일 수 있다. 인핸스드 오브젝트(EO) 및 다운믹스(DMX)간의 관계일 수 있고, 인핸스드 오브젝트(EO)에 대한 시간 영역에서의 프리딕션(prediction) 정보 또는 포락선(envelope) 정보를 부호화한 비트스트림일 수 있다. 또한, 본 발명에 따른 레지듀얼 신호는 상기 다운믹스 신호 및 상기 인핸스드 오브젝트간의 차 신호를 나타내며, 이는 다운믹스 신호에 아무런 영향을 주지 않을 수 있다. The enhanced object information generation unit 122 may include the enhanced object information EOP from the enhanced object signal EO input from the enhanced object generation unit 121 and the downmix signal input from the object encoding unit 110. The temporary downmix signals L1 and R1 are generated, and the temporary downmix signals L1 and R1 are enhanced with the downmix signals L and R generated by the object encoder 110 and the enhanced object generator 121. It can be created by adding the enhanced object created in. In addition, the enhanced object information EOP may be a bitstream obtained by encoding energy information including residual information and level information of the enhanced object EO. Alternatively, the bit stream may be a bit stream obtained by encoding enhanced object level information or enhanced object correlation information obtained by increasing the frequency resolution. It may be a relationship between the enhanced object EO and the downmix DMX, and may be a bitstream obtained by encoding prediction information or envelope information in the time domain with respect to the enhanced object EO. . In addition, the residual signal according to the present invention represents a difference signal between the downmix signal and the enhanced object, which may not affect the downmix signal.

상기 인핸스드 오브젝트 생성부(121)는 하나의 인핸스드 오브젝트(EO)만을 생성하였기 때문에, 상기 인핸스드 오브젝트 정보생성부(122) 또한 하나로 구성될 수 있으며, 이 경우 임시 다운믹스 신호(L1,R1)가 최종 다운믹스 신호(LL,RL)일 수 있다. Since the enhanced object generation unit 121 generates only one enhanced object EO, the enhanced object information generation unit 122 may also be configured as one, in this case, the temporary downmix signals L1 and R1. May be the final downmix signals LL and RL.

만일 인핸스드 오브젝트 생성부(121)가 두 개 이상의 인핸스드 오브젝트(EO1, EO2,...,EOM)를 생성하는 경우, 이에 대한 별개의 인핸스드 오브젝트 정보(EOP1, EOP2, ..., EOPM)의 생성을 위하여 인핸스드 오브젝트 정보생성부(122)는 두 개 이상으로 구성될 수 있다. 이에 대하여 도 3 에서 살펴보도록 한다.If the enhanced object generation unit 121 generates two or more enhanced objects (EO1, EO2, ..., EOM), separate enhanced object information (EOP1, EOP2, ..., EOPM) for this Enhanced object information generation unit 122 may be composed of two or more. This will be described in FIG. 3.

도 3 를 참조하면, 도 2에 도시된 본 발명의 일실시예와 마찬가지로, 인핸스드 오브젝트 생성부(121A)는 선택 오브젝트(obj1, ..., objM)을 수신한다. 다만, 도 3의 인핸스드 오브젝트 생성부(121A)는 상기 선택 오브젝트를 하나의 인핸스드 오브젝트로 그룹핑하지 아니하고, 두 개의 인핸스드 오브젝트(EO1, EO2)로 그룹핑한다는 점에서 차이가 있다. 따라서, 생성된 두 개의 인핸스드 오브젝트에 대응하는 인핸스드 오브젝트 정보를 생성하기 위하여, 인핸스드 오브젝트 정보생성부(122A)는 제 1 인핸스드 오브젝트 정보생성부(122A-1) 및 제 2 인핸스드 오브젝트 정보생성부(122A-2)를 포함한다.Referring to FIG. 3, as in the exemplary embodiment of the present invention illustrated in FIG. 2, the enhanced object generating unit 121A receives the selection objects obj1,..., ObjM. However, the enhanced object generating unit 121A of FIG. 3 differs in that the selected object is not grouped into one enhanced object but grouped into two enhanced objects EO1 and EO2. Accordingly, in order to generate the enhanced object information corresponding to the generated two enhanced objects, the enhanced object information generation unit 122A may include the first enhanced object information generation unit 122A-1 and the second enhanced object. And an information generation unit 122A-2.

상기 제 1 인핸스드 오브젝트 생성부(122A-1)는 오브젝트 인코더(110)로부터 입력되는 다운믹스 신호(L,R), 및 제 1 인핸스드 오브젝트 신호(EO1)를 이용하여, 제 1 인핸스드 오브젝트 정보(EOP1) 및 제1 임시 다운믹스 신호(L1,R1)를 생성한다. 상기 인핸스드 오브젝트 신호(EO1)는 오브젝트 인코더(110)로부터 입력된 비트할당 정보(BI)를 이용하여 생성된 것이므로, 상기 제 1 인핸스드 오브젝트 정보(EOP1)가 레지듀얼 신호인 경우, 레지듀얼 신호의 오차의 범위는 사용된 양자화 기의 LSB(Least Significant bit)만큼으로 감소될 수 있다.The first enhanced object generation unit 122A-1 uses the downmix signals L and R and the first enhanced object signal EO1 input from the object encoder 110 to generate a first enhanced object. Information EOP1 and first temporary downmix signals L1 and R1 are generated. Since the enhanced object signal EO1 is generated using the bit allocation information BI input from the object encoder 110, when the first enhanced object information EOP1 is a residual signal, a residual signal The range of error can be reduced by as much as the Least Significant Bit (LSB) of the quantizer used.

제2 인핸스드 오브젝트 생성부(122A-2)는 제2 인핸스드 오브젝트 신호(EO2)와 제 1 임시 다운믹스 신호(L1,R1)도 이용하여, 제 2 인핸스드 오브젝트 정보(EOP2), 및 최종 다운믹스(LL, RL)로서 제 2 임시 다운믹스 신호(L2, R2)를 생성한다. 상기 제 2 인핸스드 오브젝트 정보(EOP2) 또한 레지듀얼 신호인 경우, 오차의 범위는 사용된 양자화기의 LSB(Least Significant bit)만큼으로 감소될 수 있다.The second enhanced object generation unit 122A-2 also uses the second enhanced object signal EO2 and the first temporary downmix signals L 1 and R 1 to display the second enhanced object information EOP2, And generate second temporary downmix signals L 2 , R 2 as final downmix L L , R L. If the second enhanced object information EOP2 is also a residual signal, the range of the error may be reduced by the LSB (Least Significant bit) of the used quantizer.

도 4를 참조하면, 도 3에 도시된 본 발명의 일실시예와 달리, 인핸스드 오브젝트 생성부(121B)에서 총 L개의 보컬 오브젝트를 선택 오브젝트로 입력받아, 총 L개의 인핸스드 오브젝트(Vocal1, ..., VocalL)가 생성된다는 점에서 차이가 있다. 따라서, 인핸스드 오브젝트 정보 생성부(122B)는 제 1 인핸스드 오브젝트 정보 생성부(122B-1) 내지 제 L 인핸스드 오브젝트 정보 생성부(122B-L)를 구비한다는 점에서 차이점이 있다. 도 4 에 도시된 본 발명의 일실시예에 따르면, 제 L 인핸스드 오브젝트 정보 생성부(122B-L)는 제 L-1 인핸스드 오브젝트 정보 생성부(122B-L-1)에서 생성된 제 L-1 임시 다운믹스 신호(LL-1, RL-1) 및 제 L 인핸스드 오브젝트(VocalL)를 이용하여 제L 인핸스드 오브젝트 정보(EOPL, resL) 및 다운믹스 신호(LL,RL)(DMX)를 생성하게 된다. 또한, 상기 제 1 내지 제 L 인핸스드 오브젝트 정보 생성부에서 생성되는 각각의 인핸스드 오브젝트 정보(EOP1, ..., EOPL)는 레지듀얼 신호인 경우, 비트할당 정보에 의하여 인핸스드 오브젝트를 생성함에 따라, 오차의 범위가 사용된 양자화기의 LSB(Least Significant bit)만큼으로 감소될 수 있다.Referring to FIG. 4, unlike the exemplary embodiment of the present invention illustrated in FIG. 3, a total of L vocal objects are received by the enhanced object generation unit 121B as a selection object, and a total of L enhanced objects Vocal 1 are included. , ..., Vocal L ) is different. Accordingly, there is a difference in that the enhanced object information generator 122B includes the first enhanced object information generator 122B-1 to the L th enhanced object information generator 122B-L. According to an embodiment of the present invention shown in FIG. 4, the L th enhanced object information generator 122B-L is the L th generated by the L-1 enhanced object information generator 122B-L-1. -L enhanced object information (EOP L , res L ) and downmix signal (L L , R) using the temporary downmix signals LL-1 and RL-1 and the L th enhanced object Vocal L L ) (DMX) will be generated. In addition, when the enhanced object information (EOP1, ..., EOPL) generated by the first to Lth enhanced object information generation units is a residual signal, the enhanced object is generated by bit allocation information. Accordingly, the range of error can be reduced by as much as the LSB (Least Significant bit) of the quantizer used.

본 발명의 실시예에 따른 오디오 신호 처리 장치 중 디코더(200)는 상기와 같이 생성된 부가 정보 비트스트림 및 다운믹스를 수신하여 디코딩할 수 있다. The decoder 200 of the audio signal processing apparatus according to an embodiment of the present invention may receive and decode the additional information bitstream and downmix generated as described above.

도 5는 본 발명의 실시예에 따른 오디오 신호 처리 장치 중 정보 생성 유닛(220)의 세부 구성을 보여주는 도면이다. 정보 생성 유닛(220)은 오브젝트 정보 디코딩부(222), 인핸스드 오브젝트 정보 디코딩부(224), 및 멀티채널 정보 생성부(226)를 포함한다. 한편, 디멀티플렉서(210)로부터 기본 오브젝트를 컨트롤하기 위한 공간 정보(SP)가 수신된 경우, 이 공간 정보(SP)는 인핸스드 오브젝트 정보 디코딩부(224) 및 오브젝트 정보 디코딩부(222)에서 사용되지 않고, 바로 멀티채널 정보 생성부(226)에 전달될 수 있다.5 is a diagram illustrating a detailed configuration of an information generating unit 220 of an audio signal processing apparatus according to an embodiment of the present invention. The information generating unit 220 includes an object information decoding unit 222, an enhanced object information decoding unit 224, and a multichannel information generation unit 226. On the other hand, when the spatial information SP for controlling the basic object is received from the demultiplexer 210, the spatial information SP is not used in the enhanced object information decoding unit 224 and the object information decoding unit 222. Instead, the multichannel information generation unit 226 may be directly transmitted.

우선, 인핸스드 오브젝트 정보 디코딩부(224)는 디멀티플렉서(210)로부터 수신한 오브젝트 정보(OP) 및 인핸스드 오브젝트 정보(EOP)를 이용하여 인핸스드 오브젝트(EO)를 추출하고, 다운믹스 신호(L, R)를 출력한다. 인핸스드 오브젝트 정보 디코딩부(224)의 세부 구성의 일 예가 도 6에 도시되어 있다.First, the enhanced object information decoding unit 224 extracts the enhanced object EO by using the object information OP and the enhanced object information EOP received from the demultiplexer 210, and then extracts the downmix signal L. FIG. , R) An example of a detailed configuration of the enhanced object information decoding unit 224 is illustrated in FIG. 6.

도 6 을 참조하면, 인핸스드 오브젝트 정보 디코딩부(224)는 제 1 인핸스드 오브젝트 정보 디코딩부(224-1) 내지 제 L 인핸스드 오브젝트 정보 디코딩부(224-L)를 포함한다. 제 1 인핸스드 오브젝트 디코딩부(224-1)는 제 1 인핸스드 오브젝트 정보(EOPL)를 이용하여, 다운믹스(LL,RL)를 제 1 인핸스드 오브젝트(EOL) 및 제 1 임시 다운믹스 신호(LL-1, RL-1)로 분리하기 위한 백그라운드 파라미터(미도 시)(Backgound Parameter, BP1)를 생성한다. Referring to FIG. 6, the enhanced object information decoding unit 224 includes a first enhanced object information decoding unit 224-1 to an L th enhanced object information decoding unit 224-L. The first enhanced object decoding unit 224-1 may convert the downmix LL and RL into the first enhanced object EOL and the first temporary downmix signal using the first enhanced object information EOPL. Create a background parameter (BP1) for separation into LL-1 and RL-1.

마찬가지 방법으로, 제 L 인핸스드 오브젝트 정보 디코딩부(224-L)는 제 L 인핸스드 오브젝트 정보(EOP1)를 이용하여, 제 L-1 임시 다운믹스 신호(L1, R1)를 제 L 인핸스드 오브젝트(EO1) 및 다운믹스 신호(L, R)로 분리하기 위한 백그라운드 파라미터(BP)를 생성한다.In a similar manner, the L th enhanced object information decoding unit 224-L uses the L th enhanced object information EOP1 to perform L th enhancement on the L-1 temporary downmix signals L 1 and R 1 . A background parameter BP is generated to separate the de object EO 1 and the downmix signals L and R.

한편, 인핸스드 오브젝트 정보 디코딩부(224)가 상기와 같은 백그라운드 파라미터(BP)를 생성하기 위해서는, 인핸스드 오브젝트 정보(EOP)에 포함된 비트할당 정보(BI)를 이용할 수 있다. 이하에서, 비트할당 정보(BI)를 이용하는 목적과 이점에 대하여 설명하기로 한다.Meanwhile, in order for the enhanced object information decoding unit 224 to generate the background parameter BP as described above, the bit allocation information BI included in the enhanced object information EOP may be used. Hereinafter, the purpose and advantage of using the bit allocation information (BI) will be described.

본 발명의 일실시예에 따른 오디오 신호 처리 방법에 있어서, 인핸스드 오브젝트의 인코딩은 오브젝트 신호들을 포함하는 다운믹스 신호의 압축을 위하여 사용된 것과 동일한 코어 코덱(core codec)을 이용하는 것이 바람직하다. 일반적으로 코어 코덱 인코더(core codec encoder)는 지각적 부호화 방법을 사용하며, 이러한 지각적 부호화 방법은 심리음향모델에 근거하여 대역별로 비트를 할당하는 특성을 갖는다. 따라서, 상기 인코더는 입력신호 및 각 대역에 따라 각각 다른 양자화기가 사용되는 것과 같은 특징을 갖는다.In the audio signal processing method according to an embodiment of the present invention, the encoding of the enhanced object preferably uses the same core codec used for the compression of the downmix signal including the object signals. In general, a core codec encoder uses a perceptual encoding method, and the perceptual encoding method has a characteristic of allocating bits for each band based on a psychoacoustic model. Accordingly, the encoder has a feature such that different quantizers are used according to the input signal and each band.

본 발명의 오브젝트 인코더(110)는 선택 오브젝트 및 기본 오브젝트를, 인핸스드 오브젝트 인코더(120)는 선택 오브젝트를 입력신호로 하기 때문에, 일반적으로 오브젝트 인코더(110)와 인핸스드 오브젝트 인코더(120)는 각각 다른 양자화기 를 사용하는 경우에 해당되며, 양자화기에 의한 오차 발생에 의하여 최종 출력에 원하지 않는 노이즈가 발생하게 된다. Since the object encoder 110 of the present invention uses the selection object and the basic object, and the enhanced object encoder 120 uses the selection object as an input signal, the object encoder 110 and the enhanced object encoder 120 are generally This is the case with other quantizers. Undesired noise is generated at the final output due to the error caused by the quantizer.

반면, 본 발명의 오디오 신호 처리 방법 및 장치는 인핸스드 오브젝트 정보에 포함되는 선택 오브젝트와 다운믹스 신호 내에 존재하는 선택 오브젝트에 대응하는 오브젝트 신호가 동일함으로써, 디코더 단에서 선택 오브젝트들의 제거 또는 처리가 가능하도록 하는 것을 목적으로 한다. On the other hand, the audio signal processing method and apparatus of the present invention have the same object signal corresponding to the selection object included in the enhanced object information and the selection object present in the downmix signal, thereby eliminating or processing the selection objects at the decoder stage. It is intended to be.

도 7 은 본 발명의 일실시예에 따른 인코딩 및 디코딩 과정을 양자화 에러 발생과정으로 모델링한 블록도의 구성을 나타낸 것으로, 도 7 를 참조하면 모델링된 양자화를 각각 Q1, Q2로 표현할 수 있다. 상기 양자화 방법은 선형 양자화일 수 있지만, 비선형 양자화 등 다른 형태의 양자화 방법을 이용할 수 있으며, 본 발명에 한정되지 아니한다. Q1의 입력을 x1, Q2의 입력을 x2라 하면, 상기 x1, x2 은 하기 수학식 1과 같이 나타낼 수 있다.FIG. 7 is a block diagram illustrating a model of encoding and decoding processes according to an embodiment of the present invention as a quantization error generation process. Referring to FIG. 7, the modeled quantization may be represented as Q1 and Q2, respectively. The quantization method may be linear quantization, but other types of quantization methods such as nonlinear quantization may be used and are not limited to the present invention. When the input of Q1 is x1 and the input of Q2 is x2, x1 and x2 can be expressed as in Equation 1 below.

x1 = (s1 +q1) + (s2 + q2)x1 = (s1 + q1) + (s2 + q2)

x2 = s2 + q2x2 = s2 + q2

여기서, s1, s2 는 각 오브젝트가 독립적으로 인가될 때 양자화기에 의하여 양자화된 신호를 나타낼 수 있으며, q1, q2 는 양자화시 발생하는 양자화 오차를 나타낸다.Here, s1 and s2 may represent signals quantized by the quantizer when each object is independently applied, and q1 and q2 represent quantization errors occurring during quantization.

예를 들어, s1 는 본 발명의 일실시예에 따른 오브젝트 인코더(110)에 입력되는 기본 오브젝트 신호일 수 있고, s2는 인핸스드 오브젝트 인코더(120)에 입력 되는 선택 오브젝트 신호일 수 있다.For example, s1 may be a basic object signal input to the object encoder 110 according to an embodiment of the present invention, and s2 may be a selection object signal input to the enhanced object encoder 120.

상기 x1 및 x2 신호가 각각 양자화기 Q1 및 Q2 에 인가되어 얻어진 출력은 다음 수학식 2와 같이 나타낼 수 있다.The outputs obtained by applying the x1 and x2 signals to the quantizers Q1 and Q2, respectively, can be represented by Equation 2 below.

Q1(x1) = s1 + s2 + eQ1 (x1) = s1 + s2 + e

Q2(x2) = s2Q2 (x2) = s2

여기서, 상기 e 는, 비트할당 정보를 이용하여 선택 오브젝트 및 기본 오브젝트를 포함하는 다운믹스 신호의 비트율과 인핸스드 오브젝트의 비트율을 동일하도록 제어하므로, 양자화 오차인 q1, q2 값에 따라 최대 (+/- step size) 의 값을 갖게 된다. Here, since e controls the bit rate of the downmix signal including the selection object and the base object to be the same as the bit rate of the enhanced object using bit allocation information, the maximum value (+ /) depends on the quantization error q1 and q2. -step size).

이 때, Q1 의 출력에서 Q2 의 출력을 뺀 최종 출력 y는 수학식 3으로 나타낼 수 있다.In this case, the final output y obtained by subtracting the output of Q2 from the output of Q1 may be represented by Equation 3.

y = s1 + ey = s1 + e

상기 최종 출력 y 는 (s1 + q1) 또는 (s1) 의 형태임이 바람직하나, 양자화기(Q1, Q2)를 통과함에 의하여 이는 불가능하며, 본 발명의 일실시예에 따른 최종 출력은 e 만큼의 오차가 발생하게 된다.Preferably, the final output y is in the form of (s1 + q1) or (s1), but this is impossible by passing through the quantizers Q1 and Q2, and the final output according to an embodiment of the present invention has an error of e. Will occur.

상기 e 는 언급한 바와 같이, 최대 +/- step size 값의 오차를 갖게 되는데, 이 크기는 s1 에 비하여 굉장히 작은 값으로 실제 음질에 대한 영향은 무시할 수 있으므로, 본 발명의 일실시예에 따른 오디오 신호 처리 방법은 인핸스드 오브젝트 정보에 포함되는 선택 오브젝트와 다운믹스 신호 내에 존재하는 선택 오브젝트에 대응하는 오브젝트 신호가 거의 동일하도록 생성할 수 있다.As mentioned above, e has an error of the maximum +/- step size value, which is a very small value compared to s1, and thus the influence on the actual sound quality can be ignored, and according to an embodiment of the present invention, The signal processing method may generate a selection object included in the enhanced object information and an object signal corresponding to the selection object existing in the downmix signal.

이는 다운믹스 신호의 비트할당 정보(도 7의 Q1에서의 비트할당 정보)를 인핸스드 오브젝트 생성시(도 7의 Q2) 사용함에 따라 얻어지는 효과로, 상기 비트할당 정보에 의하여 다운믹스 신호와 인핸스드 오브젝트가 동일한 비트율로 부호화되어 동일한 양자화기를 사용함에 따라 가능하다. This is an effect obtained by using bit allocation information (bit allocation information in Q1 of FIG. 7) of the downmix signal when generating an enhanced object (Q2 of FIG. 7), and enhanced with the downmix signal by the bit allocation information. This is possible because the objects are coded at the same bit rate and use the same quantizer.

도 7 은 비트할당 정보를 이용하여 Q1 과 Q2 가 같은 비트율로 부호화를 수행한 경우를 나타낸다. 그러나 만약 비트율이 다른 경우로, 예를 들어, Q1의 비트율이 Q2보다 큰 경우, Q2 양자화는 도 7에서 나타낸 바와 같이 동일한 스텝 사이즈(step size)로 모든 대역에 대하여 양자화를 수행할 수 없게 된다.7 illustrates a case where Q1 and Q2 perform encoding at the same bit rate using bit allocation information. However, if the bit rate is different, for example, if the bit rate of Q1 is larger than Q2, Q2 quantization cannot perform quantization for all bands with the same step size as shown in FIG.

이러한 경우, Q1의 비트율과 다른 비트율로 생성된 Q2의 출력에 대하여 새로운 비트할당 연산을 수행하는 것 보다, 현재의 비트율을 이용하여 표현이 가능한 대역까지만 양자화하여 전송하고, 나머지 대역은 0으로 설정하여 전송하는 것이 바람직하다.In this case, rather than performing a new bit allocation operation on the output of Q2 generated at a bit rate different from the bit rate of Q1, only the band that can be expressed using the current bit rate is transmitted, and the remaining bands are set to 0. It is desirable to transmit.

도 8a 내지 8d 는 Q1의 비트율이 Q2 보다 큰 경우, 상기와 같은 방법으로 표현이 불가능한 Q2의 대역에 대하여 0으로 설정하여 전송하는 경우를 나타내는 그래프이다. 도 8a 는 s1 및 s2 신호를 나타내고, 도 8b는 Q1를 거친 신호를 나타내며, 도 8c는 Q2를 거친 출력신호를 나타내며, Q1에 비하여 비트가 모자라 대역을 제한한 형태로, 나머지 대역은 0으로 설정한 신호를 나타낸다. 도 8d는 최종출력 y를 나타내는 것으로, 이상적으로는 도 8a에 나타난 s1의 신호와 동일한 것이 바람직하 다.8A to 8D are graphs showing a case where a transmission rate is set to 0 for a band of Q2 that cannot be expressed by the above method when the bit rate of Q1 is larger than Q2. 8a shows the s1 and s2 signals, FIG. 8b shows the signal passing through Q1, and FIG. 8c shows the output signal passing through Q2, with less bits than Q1, limiting the band, and setting the rest of the band to 0 Indicates one signal. 8d shows the final output y, ideally the same as the signal of s1 shown in FIG. 8a.

도 8d를 참조하면, 최종출력 y는 s2 통과대역까지는 s1의 신호와 거의 동일한 (s1+e) 의 신호를 얻을 수 있고, s2가 0 으로 설정되어 전송된 대역에 대하여는 (s1+s2+e) 형태의 신호를 얻을 수 있다. 이는 s2가 충분히 작은 대역인 경우, (s1+s2+e) 는 (s1+e)의 신호와 거의 동일한 값을 가질 수 있게 된다.Referring to FIG. 8D, the final output y can obtain a signal of (s1 + e) that is almost the same as the signal of s1 up to the s2 passband, and (s1 + s2 + e) for the transmitted band with s2 set to 0. A signal of the form can be obtained. This means that when s2 is a sufficiently small band, (s1 + s2 + e) can have almost the same value as the signal of (s1 + e).

이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다. As described above, although the present invention has been described by way of limited embodiments and drawings, the present invention is not limited thereto and is intended by those skilled in the art to which the present invention pertains. Of course, various modifications and variations are possible within the scope of equivalents of the claims to be described.

본 발명은 오디오 신호를 인코딩하고 디코딩하는 데 적용될 수 있다.The present invention can be applied to encoding and decoding audio signals.

도 1은 본 발명의 실시예에 따른 오디오 신호 처리 장치의 구성을 나타내는 것이다. 1 shows a configuration of an audio signal processing apparatus according to an embodiment of the present invention.

도 2 는 본 발명의 일실시예에 따른 인핸스드 오브젝트 인코더(120)의 구성을 나타내는 것이다. 2 illustrates a configuration of an enhanced object encoder 120 according to an embodiment of the present invention.

도 3 는 본 발명의 다른 일실시예에 따른 인핸스드 오브젝트 인코더(120)의 구성을 나타내는 것이다.3 illustrates a configuration of an enhanced object encoder 120 according to another embodiment of the present invention.

도 4 는 본 발명의 또다른 일실시예에 따른 인핸스드 오브젝트 인코더(120)의 구성을 나타내는 것이다.4 illustrates a configuration of an enhanced object encoder 120 according to another embodiment of the present invention.

도 5는 본 발명의 실시예에 따른 오디오 신호 처리 장치 중 정보 생성 유닛(220)의 세부 구성을 나타내는 것이다.5 illustrates a detailed configuration of the information generating unit 220 in the audio signal processing apparatus according to the embodiment of the present invention.

도 6은 본 발명의 실시예에 따른 오디오 신호 처리 장치 중 인핸스드 오브젝트 정보 디코딩부(224)의 세부 구성을 나타내는 것이다.6 illustrates a detailed configuration of an enhanced object information decoding unit 224 of an audio signal processing apparatus according to an embodiment of the present invention.

도 7 은 본 발명의 일실시예에 따른 인코딩 및 디코딩 과정을 양자화 에러 발생과정으로 모델링한 블록도의 구성을 나타낸 것이다.FIG. 7 is a block diagram illustrating a model of encoding and decoding processes according to an embodiment of the present invention as a quantization error generation process. Referring to FIG.

도 8a 내지 도 8d 는 본 발명의 일실시예에 따른 오디오 신호의 처리 결과를 나타내는 그래프이다.8A to 8D are graphs showing processing results of an audio signal according to an embodiment of the present invention.

Claims (18)

하나 이상의 선택 오브젝트, 및 기본 오브젝트가 다운믹스된 다운믹스 신호를 수신하는 단계;Receiving at least one selection object and a downmix signal from which the base object is downmixed; 오브젝트 정보 및 인핸스드 오브젝트 정보를 수신하는 단계; 및Receiving object information and enhanced object information; And 상기 오브젝트 정보 및 상기 인핸스드 오브젝트 정보를 이용하여, 상기 다운믹스 신호로부터 하나 이상의 선택 오브젝트를 추출하는 단계를 포함하고,Extracting one or more selection objects from the downmix signal using the object information and the enhanced object information, 상기 인핸스드 오브젝트 정보는 상기 다운믹스 신호로부터 수신된 비트할당 정보를 이용하여 생성된 인핸스드 오브젝트에 관한 것을 특징으로 하는 오디오 신호 처리 방법.And the enhanced object information relates to an enhanced object generated using bit allocation information received from the downmix signal. 제 1 항에 있어서,The method of claim 1, 상기 인핸스드 오브젝트는 상기 비트할당 정보를 이용하여, 상기 다운믹스 신호의 비트율과 동일한 비트율로 양자화된 것을 특징으로 하는 오디오 신호 처리 방법.And the enhanced object is quantized using the bit allocation information at the same bit rate as the bit rate of the downmix signal. 제 1 항에 있어서,The method of claim 1, 상기 다운믹스 신호의 비트율은 상기 인핸스드 오브젝트의 비트율과 상이한 것을 특징으로 하는 오디오 신호 처리 방법.And a bit rate of the downmix signal is different from a bit rate of the enhanced object. 제 1 항에 있어서,The method of claim 1, 상기 인핸스드 오브젝트 정보는 레지듀얼 신호를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.The enhanced object information includes a residual signal. 제 4 항에 있어서,The method of claim 4, wherein 상기 레지듀얼 신호는 상기 다운믹스 신호 및 상기 인핸스드 오브젝트간의 차 신호에 관한 것을 특징으로 하는 오디오 신호 처리 방법. And the residual signal relates to a difference signal between the downmix signal and the enhanced object. 제 1 항에 있어서,The method of claim 1, 상기 인핸스드 오브젝트 정보는 상기 오브젝트 정보에 비하여 높은 주파수 해상도를 갖는, 상기 선택 오브젝트 및 상기 기본 오브젝트에 대한 정보에 해당하는 것을 특징으로 하는 오디오 신호 처리 방법.And the enhanced object information corresponds to information about the selection object and the basic object having a higher frequency resolution than the object information. 제 1 항에 있어서,The method of claim 1, 상기 선택 오브젝트는 오브젝트 기반 신호인 것을 특징으로 하는 오디오 신호 처리 방법.And the selection object is an object based signal. 제 1 항에 있어서,The method of claim 1, 상기 기본 오브젝트는 하나 이상의 채널 기반 신호를 포함하거나, 하나 이상의 채널 기반 신호가 다운믹스된 신호인 것을 특징으로 하는 오디오 신호 처리 방 법.The basic object may include one or more channel-based signals or one or more channel-based signals may be downmixed signals. 제 1 항에 있어서,The method of claim 1, 상기 기본 오브젝트는, 오브젝트 기반 신호인 것을 특징으로 하는 오디오 신호 처리 방법.And the basic object is an object-based signal. 제 1 항에 있어서,The method of claim 1, 상기 오브젝트 정보는 상기 선택 오브젝트 및 상기 기본 오브젝트에 대한 정보에 해당하는 것을 특징으로 하는 오디오 신호 처리 방법.And the object information corresponds to information about the selection object and the basic object. 제 10 항에 있어서,The method of claim 10, 상기 오브젝트 정보는 상기 선택 오브젝트 및 상기 기본 오브젝트간의 레벨 정보, 및 상관 정보 중 하나 이상을 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.And the object information includes one or more of level information between the selection object and the basic object and correlation information. 기본 오브젝트 신호가 다운믹스된 다운믹스 신호를 수신하는 단계;Receiving a downmix signal in which the basic object signal is downmixed; 오브젝트 정보 및 선택 오브젝트 신호로부터 생성된 인핸스드 오브젝트 정보를 수신하는 단계; 및Receiving enhanced object information generated from the object information and the selected object signal; And 상기 오브젝트 정보 및 상기 인핸스드 오브젝트 정보를 이용하여, 상기 인핸스드 오브젝트 정보로부터 상기 선택 오브젝트 신호를 추출하는 단계를 포함하고,Extracting the selection object signal from the enhanced object information using the object information and the enhanced object information, 상기 인핸스드 오브젝트 정보는 상기 다운믹스 신호로부터 수신된 비트할당 정보를 이용하여 생성된 인핸스드 오브젝트 신호에 관한 것을 특징으로 하는 오디오 신호 처리 방법.And the enhanced object information relates to an enhanced object signal generated using bit allocation information received from the downmix signal. 제 12 항에 있어서,The method of claim 12, 상기 인핸스드 오브젝트 정보는 레지듀얼 신호를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.The enhanced object information includes a residual signal. 제 13 항에 있어서,The method of claim 13, 상기 레지듀얼 신호는 상기 다운믹스 신호에 포함되지 않은 상기 선택 오브젝트 신호를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법. The residual signal includes the selection object signal not included in the downmix signal. 제 1 항에 있어서,The method of claim 1, 상기 다운믹스 정보는, 방송 신호를 통해 수신된 것을 특징으로 하는 오디오 신호 처리 방법.The downmix information is received via a broadcast signal. 제 1 항에 있어서,The method of claim 1, 상기 다운믹스 정보는, 디지털 매체를 통해 수신된 것을 특징으로 하는 오디오 신호 처리 방법.The downmix information is received via a digital medium. 제 1 항에 기재된 방법을 실행하기 위한 프로그램이 저장된 컴퓨터로 읽을 수 있는 기록 매체.A computer-readable recording medium having stored thereon a program for executing the method of claim 1. 하나 이상의 선택 오브젝트, 및 기본 오브젝트가 다운믹스된 다운믹스 정보를 수신하고, 오브젝트 정보 및 인핸스드 오브젝트 정보를 수신하는 정보 수신부; 및,An information receiver configured to receive one or more selection objects and downmix information downmixed with the base object, and receive object information and enhanced object information; And, 상기 오브젝트 정보 및 상기 인핸스드 오브젝트 정보를 이용하여, 상기 다운믹스로부터 하나 이상의 선택 오브젝트를 추출하는 정보 생성 유닛을 포함하고An information generating unit for extracting one or more selection objects from the downmix using the object information and the enhanced object information; 상기 인핸스드 오브젝트 정보는 상기 다운믹스 정보의 비트 정보를 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.And the enhanced object information includes bit information of the downmix information.
KR1020080033458A 2007-04-18 2008-04-11 A method and apparatus for processing an audio signal KR20080093879A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US91249907A 2007-04-18 2007-04-18
US60/912,499 2007-04-18

Publications (1)

Publication Number Publication Date
KR20080093879A true KR20080093879A (en) 2008-10-22

Family

ID=40154304

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080033458A KR20080093879A (en) 2007-04-18 2008-04-11 A method and apparatus for processing an audio signal

Country Status (1)

Country Link
KR (1) KR20080093879A (en)

Similar Documents

Publication Publication Date Title
KR101100214B1 (en) A method and an apparatus for processing an audio signal
AU2011200680C1 (en) Temporal Envelope Shaping for Spatial Audio Coding using Frequency Domain Weiner Filtering
JP4809370B2 (en) Adaptive bit allocation in multichannel speech coding.
JP5455647B2 (en) Audio decoder
RU2406165C2 (en) Methods and devices for coding and decoding object-based audio signals
US8712784B2 (en) Encoding method and encoding device, decoding method and decoding device and transcoding method and transcoder for multi-object audio signals
JP6474845B2 (en) Reduced complexity converter SNR calculation
KR20190050755A (en) Apparatus for encoding and decoding multi-object audio supporting post downmix signal
MX2008012986A (en) Methods and apparatuses for encoding and decoding object-based audio signals.
KR20070005468A (en) Method for generating encoded audio signal, apparatus for encoding multi-channel audio signals generating the signal and apparatus for decoding the signal
MX2014010098A (en) Phase coherence control for harmonic signals in perceptual audio codecs.
TWI501220B (en) Embedding and extracting ancillary data
KR100891666B1 (en) Apparatus for processing audio signal and method thereof
KR20080093879A (en) A method and apparatus for processing an audio signal
JP2002023798A (en) Speech encoding method

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination