KR20080093879A - A method and apparatus for processing an audio signal - Google Patents
A method and apparatus for processing an audio signal Download PDFInfo
- Publication number
- KR20080093879A KR20080093879A KR1020080033458A KR20080033458A KR20080093879A KR 20080093879 A KR20080093879 A KR 20080093879A KR 1020080033458 A KR1020080033458 A KR 1020080033458A KR 20080033458 A KR20080033458 A KR 20080033458A KR 20080093879 A KR20080093879 A KR 20080093879A
- Authority
- KR
- South Korea
- Prior art keywords
- information
- enhanced
- signal
- downmix
- enhanced object
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 29
- 230000005236 sound signal Effects 0.000 title abstract description 20
- 238000013139 quantization Methods 0.000 abstract description 17
- 238000003672 processing method Methods 0.000 abstract description 8
- 239000000284 extract Substances 0.000 abstract description 4
- 230000001755 vocal effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000004091 panning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 240000001973 Ficus microcarpa Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
본 발명은 오디오 신호 처리 방법 및 장치에 관한 것으로, 보다 상세하게는 디지털 매체, 방송 신호 등으로 수신된 오디오 신호를 처리할 수 있는 오디오 신호 처리 방법 및 장치에 관한 것이다.The present invention relates to an audio signal processing method and apparatus, and more particularly, to an audio signal processing method and apparatus capable of processing an audio signal received in a digital medium, a broadcast signal and the like.
다수 개의 오브젝트를 포함하는 오디오 신호를, 모노 또는 스테레오 신호로 다운믹스하는 과정에 있어서, 각각의 오브젝트 신호로부터 파라미터들이 추출된다. 이러한 파라미터들은 디코더에서 사용되는데, 각각의 오브젝트들의 패닝(panning)과 게인(gain)은 유저의 선택에 의하여 컨트롤 될 수 있다.In the process of downmixing an audio signal including a plurality of objects into a mono or stereo signal, parameters are extracted from each object signal. These parameters are used in the decoder, and the panning and gain of each object can be controlled by the user's choice.
각각의 오브젝트 시그널을 제어하기 위해서는, 다운믹스에 포함되어 있는 각각의 소스들이 적절히 포지셔닝 또는 패닝되어야 한다. 또한, 채널 기반(channel-oriented) 디코딩 방식으로 하향 호환성을 갖기 위해서는, 오브젝트 파라미터는 업믹싱을 위한 멀티 채널 파라미터로 유연하게 변환되어야 한다.In order to control each object signal, each source included in the downmix must be properly positioned or panned. In addition, to be backward compatible with channel-oriented decoding, object parameters must be flexibly converted to multi-channel parameters for upmixing.
그러나 특정 오브젝트의 처리에 있어서, 각 오브젝트에 대한 작은 양의 정보만을 가지고 처리하기에는 한계를 갖는 경우가 존재한다.However, in the processing of a specific object, there are cases where there is a limit to processing with only a small amount of information for each object.
또한, 오브젝트 시그널을 다중으로 처리하여 이용하는 경우에는 양자화기에 의한 오차에 의하여 최종 출력에서 잡음이 발생하는 문제점이 발생한다.In addition, when the object signal is processed and used in multiplex, noise occurs in the final output due to an error caused by the quantizer.
본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 오브젝트 정보와 별도로 생성된 인핸스드 오브젝트 정보를 이용하여 일부 오브젝트의 게인과 패닝을 컨트롤할 수 있는 오디오 신호 처리 방법 및 장치를 제공하는 데 그 목적이 있다.The present invention has been made to solve the above problems, and provides an audio signal processing method and apparatus capable of controlling gain and panning of some objects by using enhanced object information generated separately from the object information. There is a purpose.
본 발명의 또 다른 목적은, 인핸스드 오브젝트 정보에 다운믹스 신호의 비트할당 정보를 포함함으로써, 다운믹스 신호 및 인핸스드 오브젝트의 양자화시 오차를 최대한으로 감소시켜 노이즈 발생을 방지하는 오디오 신호 처리 방법 및 장치를 제공하는 데 있다. Another object of the present invention is to include bit allocation information of the downmix signal in the enhanced object information, thereby reducing the error in the quantization of the downmix signal and the enhanced object to the maximum to prevent the occurrence of noise and an audio signal processing method To provide a device.
본 발명은 다음과 같은 효과와 이점을 제공한다.The present invention provides the following effects and advantages.
우선, 목적에 따라 오브젝트 신호 중 일부를 완전하게 억압하는 경우에도, 게인 조정에 따른 음질의 왜곡을 방지할 수 있다.First, even when part of an object signal is completely suppressed according to the purpose, distortion of sound quality due to gain adjustment can be prevented.
둘째, 선택 오브젝트가 둘 이상인 경우에도 게인 조정에 따른 음질의 왜곡을 방지할 수 있다.Second, even when there are two or more selection objects, distortion of sound quality due to gain adjustment can be prevented.
셋째, 다운믹스 신호에 대한 비트할당 정보를 이용함으로써, 인핸스드 오브젝트에 포함되는 오브젝트 신호와 다운믹스 신호에 포함되는 동일 오브젝트간의 오차를 감소시켜 양자화(quantization)에 의한 노이즈의 발생을 방지할 수 있다.Third, by using the bit allocation information for the downmix signal, it is possible to reduce the error between the object signal included in the enhanced object and the same object included in the downmix signal to prevent the occurrence of noise due to quantization (quantization) .
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
본 발명의 실시예들은 당해 기술 분야에서 통상의 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위하여 제공되는 것이며, 하기 실시예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 하기 실시예에 한정되는 것은 아니다. 도면상에서 동일 부호는 동일한 요소를 지칭한다.The embodiments of the present invention are provided to more fully explain the present invention to those skilled in the art, and the following examples can be modified in various other forms, and the scope of the present invention is It is not limited to an Example. Like numbers refer to like elements in the figures.
특히, 본 명세서에서 정보(information)란, 값(values), 파라미터(parameters), 계수(coefficients), 성분(elements) 등을 모두 아우르는 용어로서, 경우에 따라 그 의미는 달리 해석될 수 있는 바, 그러나 본 발명은 이에 한정되지 아니한다.In particular, in the present specification, information is a term encompassing values, parameters, coefficients, elements, and the like, and in some cases, the meaning may be interpreted differently. However, the present invention is not limited thereto.
특히, 오브젝트란, 오브젝트 기반 신호(object based signal) 및 채널 기반 신호(channel based signal)를 포함하는 개념이지만, 경우에 따라 오브젝트 기반 신호만을 지칭할 수 있다.In particular, an object is a concept including an object based signal and a channel based signal, but in some cases, may refer to only an object based signal.
도 1은 본 발명의 실시예에 따른 오디오 신호 처리 장치의 구성을 보여주는 도면이다. 도 1을 참조하면, 우선, 본 발명의 실시예에 따른 오디오 신호 처리 장치는 인코더(100) 및 디코더(200)를 포함하며, 상기 인코더(100)는 오브젝트 인코딩부(110), 인핸스드 오브젝트 인코딩부(120), 및 멀티 플렉서(130)를 포함하고, 상기 디코더(200)는 디멀티플렉서(210), 정보 생성부(220), 다운믹스 프로세싱부(230), 및 멀티채널 디코더(240)를 포함한다.1 is a diagram illustrating a configuration of an audio signal processing apparatus according to an embodiment of the present invention. Referring to FIG. 1, first, an audio signal processing apparatus according to an exemplary embodiment of the present invention includes an
먼저, 상기 오브젝트 인코딩부(110)는 다운믹싱부(미도시)를 포함하며, 하나 이상의 오브젝트들(obj1,..., objN)로부터 다운믹스 신호(DMX) 및 오브젝트 정보(object parameter)(OP)를 생성한다. 상기 오브젝트들은 하나 이상의 선택 오브젝트 및 기본 오브젝트를 포함할 수 있으며, 예를 들어, 상기 선택 오브젝트는 보컬 또는 대사(Dialog)일 수 있고, 상기 기본 오브젝트는 기타, 드럼, 또는 배경 음악일 수 있다.First, the
또한, 상기 오브젝트 정보는 다운믹스 신호(downmix signal)(DMX) 내에 포함되어 있는 오브젝트들에 관한 정보로서, 오브젝트 레벨 정보(object level information), 오브젝트 상관 정보(object correlation information), 오브젝트 게인 정보(object gain information) 등을 포함할 수 있다. 상기 오브젝트 레벨 정보(object level information)는 참조 정보(reference information)을 이용하여 오브젝트 레벨을 정규화함으로써 생성된 것으로, 상기 참조 정보(reference information)는 오브젝트 레벨 중 하나일 수 있으며, 상세하게는, 모든 오브젝트 레벨 중 가장 큰 레벨일 수 있다. 상기 오브젝트 상관 정보(object correlation information)는 두 개의 오브젝트간의 연관성을 나타내는 것으로, 선택된 두 개의 오브젝트가 동일한 기원(origin)을 갖는 스테레오 출력의 각기 다른 채널의 신호임을 나타낸다. 상기 오브젝트 게인 정보(object gain information)는 다운믹스 신호(DMX)를 생성하기 위하여, 각각의 다운믹스 신호의 채널에 대한 오브젝트의 기여도에 관한 값을 나타내며, 상세하게는 오브젝트의 기여도를 변형시키기 위한 값을 나타낸다.In addition, the object information is information about objects included in a downmix signal (DMX), object level information (object level information), object correlation information (object correlation information), object gain information (object gain information) and the like. The object level information is generated by normalizing an object level using reference information. The reference information may be one of object levels. In detail, all objects It may be the largest level of the level. The object correlation information indicates an association between two objects, indicating that two selected objects are signals of different channels of a stereo output having the same origin. The object gain information indicates a value relating to an object's contribution to a channel of each downmix signal to generate a downmix signal DMX, and in detail, a value for modifying an object's contribution. Indicates.
한편, 오브젝트 인코더(110)에서는 오브젝트들 중 하나 이상의 오브젝트 신호를 그룹핑하여 다운믹스를 생성할 수 있으며, 이는 인핸스드 오브젝트 인코더(120)에서 하나 이상의 오브젝트를 그룹핑하여 인핸스드 오브젝트를 생성하는 과정과 동일할 수 있으나 본 발명은 이에 한정되지 아니한다.Meanwhile, the
오브젝트 인코더(110)에서 다운믹스 신호(DMX)를 생성하는 경우, 상기 다운믹스 신호(DMX)의 비트할당 정보(bit allocation information)(BI)를 함께 생성할 수 있다. 상기 비트할당 정보(BI)는 상기 다운믹스 신호(DMX)와 함께 인핸스드 오브젝트 인코딩부(120)에서 인핸스드 오브젝트를 생성하기 위하여 이용되며, 이에 대한 상세한 설명은 이하에서 언급하기로 한다.When the
인핸스드 오브젝트 인코더(120)는 하나 이상의 오브젝트(objM)를 이용하여 인핸스드 오브젝트 정보(OP) 및 다운믹스(DMX)(LL, RL)를 생성한다. 보다 상세하게 는, 인핸스드 오브젝트 인코더(120)는 상기 오브젝트 인코더(110)에서 생성되는 구체적인 제어 또는 조절을 필요로 하는 오브젝트 신호를 입력받아 그룹핑하여 인핸스드 오브젝트(EO)를 생성하고, 상기 인핸스드 오브젝트(EO), 상기 오브젝트 인코더(110)로부터 입력받은 다운믹스 신호(L,R), 및 상기 비트할당 정보(BI)를 이용하여 인핸스드 오브젝트 정보(enhanced object parameter)(EOP)를 생성한다. 상기 인핸스드 오브젝트 정보(EOP)는 인핸스드 오브젝트의 레벨 정보를 포함하는 에너지 정보, 레지듀얼 정보일 수 있으며, 이에 대하여는 도 2 내지 도 4 를 참고하여 후술하기로 한다. The enhanced
본 발명의 인핸스드 오브젝트(EO)는 디코더(200)에서 독립적으로 제어 또는 조절될 수 있으며, 이러한 독립적인 제어를 위하여 선택되므로 상기 인핸스드 오브젝트(EO)에 포함되는 오브젝트들을 선택 오브젝트라 지칭할 수 있다. 또한, 인핸스드 오브젝트 인코딩부(120)에 입력되지 아니하고, 오브젝트 인코딩부(110)에만 입력되어 다운믹스 신호(L,R)에 포함된 오브젝트들을 모두 기본 오브젝트라 지칭하기로 한다.The enhanced object EO of the present invention may be independently controlled or adjusted at the
멀티플렉서(130)는 오브젝트 인코더(110)에서 생성된 오브젝트 정보(OP), 및 인핸스드 오브젝트 인코더(120)에서 생성된 인핸스드 오브젝트 정보(EOP)를 멀티플렉싱하여, 부가 정보 비트스트림을 생성한다. 한편, 부가 정보 비트스트림은, 상기 채널 기반 신호에 대한 공간 정보(spatial information)(SP)(미도시)가 포함할 수 있다. 공간 정보란, 채널 기반 신호를 디코딩하기 위해 필요한 정보로서, 채널 레벨 정보(channel level information), 및 채널 상관 정보(channel correlation information) 등을 포함할 수 있지만, 본 발명은 이에 한정되지 아니한다.The multiplexer 130 multiplexes the object information OP generated by the
디코더(200)의 디멀티플렉서(210)는 부가 정보 비트스트림으로부터 오브젝트 정보(OP) 및 인핸스드 오브젝트 정보(EOP)를 추출한다. 부가 정보 비트스트림에 상기 공간 정보(SP)가 포함되는 경우, 공간 정보(SP)를 더 추출한다.The
정보 생성부(information generating unit)(220)은 오브젝트 정보(object parameter)(OP) 및 인핸스드 오브젝트 정보(enhanced object parameter)(EOP)를 오디오 신호 비트스트림으로부터 수신한다. 이후, 상기 오브젝트 정보, 인핸스드 오브젝트 정보, 및 다운믹스 신호를 이용하여 다운믹스 프로세싱 정보(downmix processing information)(DPI) 및 멀티채널 정보(multi-channel information)(MI)을 생성한다. 상기 정보 생성 유닛에서 다운믹스 프로세싱 정보 및 멀티채널 정보를 생성하는 과정에 대하여는 이하 도 5 내지 도 6에서 상세히 살펴보기로 한다.The
다운믹스 프로세싱 유닛(230)은 다운믹스 프로세싱 정보(DPI)를 이용하여 다운믹스(DMX)를 프로세싱한다. 예를 들어, 오브젝트의 게인 또는 패닝을 조절하기 위해 다운믹스(DMX)를 프로세싱할 수 있다.The
멀티채널 디코더(multi-channel decoder)(240)는 프로세싱된 다운믹스(processed downmix)를 수신하고, 멀티채널 정보(MI)를 이용하여 프로세싱된 다운믹스 신호를 업믹싱하여 멀티채널 신호를 생성한다. The
이하에서는 도 2 내지 도 4를 참조하면서, 인코더(100)의 인핸스드 오브젝트 인코더(120)의 세부 구성의 다양한 실시예에 대하여, 도 5 및 도 6 을 참조하면서, 디코더(200)의 정보 생성 유닛(220)의 세부 구성에 대해서 설명하고자 한다.Hereinafter, various embodiments of the detailed configuration of the enhanced
도 2 는 본 발명의 일실시예에 따른 인핸스드 오브젝트 인코더(120)의 구성을 나타내는 것이다. 인핸스드 오브젝트 인코더(120)는 크게 인핸스드 오브젝트 생성부(121)와 인핸스드 오브젝트 정보 생성부(122)를 포함한다. 2 illustrates a configuration of an enhanced
먼저, 인핸스드 오브젝트 생성부(121)는 외부로부터 선택 오브젝트(obj 1,..., objM, M<N)를 입력받고, 오브젝트 인코딩부(110)로부터 입력된 비트할당 정보(BI)를 이용하여, 인핸스드 오브젝트(EO)를 생성한다. 상기 비트할당 정보(BI)는 오브젝트 인코딩부(110)에서 생성된 다운믹스 신호에 관한 것으로, 이를 이용하여 인핸스드 오브젝트 인코더(120)는 인핸스드 오브젝트의 비트율을 상기 다운믹스 신호의 비트율과 동일하게 생성할 수 있다. 상기 인핸스드 오브젝트의 비트율이 상기 다운믹스 신호의 비트율과 동일하게 생성되는 경우, 인핸스드 오브젝트에 포함되는 선택 오브젝트 신호와 다운믹스 신호에 포함되는 선택 오브젝트 사이의 오차를 줄일 수 있으므로 양자화(quantization)에 의한 노이즈의 발생을 방지할 수 있게 된다. 상기 양자화에 대한 내용은 추후 도 7 내지 도 8d에서 상세히 후술하기로 한다.First, the enhanced
상기 인핸스드 오브젝트(EO)는 고품질의 제어를 하기 위하여 선택 오브젝트들을 그룹핑하는 것으로, 예를 들면 기본 오브젝트에 비하여 인핸스드 오브젝트(EO)가 독립적으로 완전히 억압되거나, 기본 오브젝트들이 완전히 억압되고 인핸스드 오브젝트들만이 완전히 재생되도록 하기 위한 것일 수 있다. 만일, 가라오케 모드와 같이 특정 오브젝트인 보컬 신호를 전체 신호로부터 완전히 억압하기 위한 제어 정보로 사용할 수 있다. 상기 인핸스드 오브젝트(EO)를 생성하는 선택 오브 젝트는 채널 기반 신호가 아닌 오브젝트 기반 신호일 수 있다. 또한, 인핸스드 오브젝트(EO)는 하나의 오브젝트로 이루어질 수 있고, 둘 이상의 선택 오브젝트를 더하여 생성될 수 있다.The enhanced object EO is a grouping of selected objects for high quality control. For example, the enhanced object EO is completely suppressed independently or completely suppressed and the enhanced object is compared to the base object. Only the fields may be intended to be completely reproduced. If it is a karaoke mode, it can be used as control information for completely suppressing the vocal signal that is a specific object from the entire signal. The selection object for generating the enhanced object EO may be an object based signal rather than a channel based signal. In addition, the enhanced object EO may be formed of one object and may be generated by adding two or more selection objects.
인핸스드 오브젝트 정보생성부(122)는 인핸스드 오브젝트 생성부(121)로부터 입력되는 인핸스드 오브젝트 신호(EO)와 오브젝트 인코딩부(110)로부터 입력되는 다운믹스 신호로부터 인핸스드 오브젝트 정보(EOP) 및 임시 다운믹스 신호(L1,R1)를 생성하며, 상기 임시 다운믹스 신호(L1,R1)는 오브젝트 인코딩부(110)에서 생성된 다운믹스 신호(L,R)와 인핸스드 오브젝트 생성부(121)에서 생성되는 인핸스드 오브젝트를 더해서 생성될 수 있다. 또한, 상기 인핸스드 오브젝트 정보(EOP)는 레지듀얼 정보, 인핸스드 오브젝트(EO)의 레벨 정보를 포함하는 에너지 정보를 부호화한 비트스트림일 수 있으며, 인핸스드 오브젝트(EO)에 대하여 추가적으로 시간축 해상도, 또는 주파수 해상도를 높여서 얻어진 인핸스드 오브젝트 레벨 정보 또는 인핸스드 오브젝트 상관 정보를 부호화한 비트스트림일 수 있다. 인핸스드 오브젝트(EO) 및 다운믹스(DMX)간의 관계일 수 있고, 인핸스드 오브젝트(EO)에 대한 시간 영역에서의 프리딕션(prediction) 정보 또는 포락선(envelope) 정보를 부호화한 비트스트림일 수 있다. 또한, 본 발명에 따른 레지듀얼 신호는 상기 다운믹스 신호 및 상기 인핸스드 오브젝트간의 차 신호를 나타내며, 이는 다운믹스 신호에 아무런 영향을 주지 않을 수 있다. The enhanced object
상기 인핸스드 오브젝트 생성부(121)는 하나의 인핸스드 오브젝트(EO)만을 생성하였기 때문에, 상기 인핸스드 오브젝트 정보생성부(122) 또한 하나로 구성될 수 있으며, 이 경우 임시 다운믹스 신호(L1,R1)가 최종 다운믹스 신호(LL,RL)일 수 있다. Since the enhanced
만일 인핸스드 오브젝트 생성부(121)가 두 개 이상의 인핸스드 오브젝트(EO1, EO2,...,EOM)를 생성하는 경우, 이에 대한 별개의 인핸스드 오브젝트 정보(EOP1, EOP2, ..., EOPM)의 생성을 위하여 인핸스드 오브젝트 정보생성부(122)는 두 개 이상으로 구성될 수 있다. 이에 대하여 도 3 에서 살펴보도록 한다.If the enhanced
도 3 를 참조하면, 도 2에 도시된 본 발명의 일실시예와 마찬가지로, 인핸스드 오브젝트 생성부(121A)는 선택 오브젝트(obj1, ..., objM)을 수신한다. 다만, 도 3의 인핸스드 오브젝트 생성부(121A)는 상기 선택 오브젝트를 하나의 인핸스드 오브젝트로 그룹핑하지 아니하고, 두 개의 인핸스드 오브젝트(EO1, EO2)로 그룹핑한다는 점에서 차이가 있다. 따라서, 생성된 두 개의 인핸스드 오브젝트에 대응하는 인핸스드 오브젝트 정보를 생성하기 위하여, 인핸스드 오브젝트 정보생성부(122A)는 제 1 인핸스드 오브젝트 정보생성부(122A-1) 및 제 2 인핸스드 오브젝트 정보생성부(122A-2)를 포함한다.Referring to FIG. 3, as in the exemplary embodiment of the present invention illustrated in FIG. 2, the enhanced
상기 제 1 인핸스드 오브젝트 생성부(122A-1)는 오브젝트 인코더(110)로부터 입력되는 다운믹스 신호(L,R), 및 제 1 인핸스드 오브젝트 신호(EO1)를 이용하여, 제 1 인핸스드 오브젝트 정보(EOP1) 및 제1 임시 다운믹스 신호(L1,R1)를 생성한다. 상기 인핸스드 오브젝트 신호(EO1)는 오브젝트 인코더(110)로부터 입력된 비트할당 정보(BI)를 이용하여 생성된 것이므로, 상기 제 1 인핸스드 오브젝트 정보(EOP1)가 레지듀얼 신호인 경우, 레지듀얼 신호의 오차의 범위는 사용된 양자화 기의 LSB(Least Significant bit)만큼으로 감소될 수 있다.The first enhanced
제2 인핸스드 오브젝트 생성부(122A-2)는 제2 인핸스드 오브젝트 신호(EO2)와 제 1 임시 다운믹스 신호(L1,R1)도 이용하여, 제 2 인핸스드 오브젝트 정보(EOP2), 및 최종 다운믹스(LL, RL)로서 제 2 임시 다운믹스 신호(L2, R2)를 생성한다. 상기 제 2 인핸스드 오브젝트 정보(EOP2) 또한 레지듀얼 신호인 경우, 오차의 범위는 사용된 양자화기의 LSB(Least Significant bit)만큼으로 감소될 수 있다.The second enhanced
도 4를 참조하면, 도 3에 도시된 본 발명의 일실시예와 달리, 인핸스드 오브젝트 생성부(121B)에서 총 L개의 보컬 오브젝트를 선택 오브젝트로 입력받아, 총 L개의 인핸스드 오브젝트(Vocal1, ..., VocalL)가 생성된다는 점에서 차이가 있다. 따라서, 인핸스드 오브젝트 정보 생성부(122B)는 제 1 인핸스드 오브젝트 정보 생성부(122B-1) 내지 제 L 인핸스드 오브젝트 정보 생성부(122B-L)를 구비한다는 점에서 차이점이 있다. 도 4 에 도시된 본 발명의 일실시예에 따르면, 제 L 인핸스드 오브젝트 정보 생성부(122B-L)는 제 L-1 인핸스드 오브젝트 정보 생성부(122B-L-1)에서 생성된 제 L-1 임시 다운믹스 신호(LL-1, RL-1) 및 제 L 인핸스드 오브젝트(VocalL)를 이용하여 제L 인핸스드 오브젝트 정보(EOPL, resL) 및 다운믹스 신호(LL,RL)(DMX)를 생성하게 된다. 또한, 상기 제 1 내지 제 L 인핸스드 오브젝트 정보 생성부에서 생성되는 각각의 인핸스드 오브젝트 정보(EOP1, ..., EOPL)는 레지듀얼 신호인 경우, 비트할당 정보에 의하여 인핸스드 오브젝트를 생성함에 따라, 오차의 범위가 사용된 양자화기의 LSB(Least Significant bit)만큼으로 감소될 수 있다.Referring to FIG. 4, unlike the exemplary embodiment of the present invention illustrated in FIG. 3, a total of L vocal objects are received by the enhanced
본 발명의 실시예에 따른 오디오 신호 처리 장치 중 디코더(200)는 상기와 같이 생성된 부가 정보 비트스트림 및 다운믹스를 수신하여 디코딩할 수 있다. The
도 5는 본 발명의 실시예에 따른 오디오 신호 처리 장치 중 정보 생성 유닛(220)의 세부 구성을 보여주는 도면이다. 정보 생성 유닛(220)은 오브젝트 정보 디코딩부(222), 인핸스드 오브젝트 정보 디코딩부(224), 및 멀티채널 정보 생성부(226)를 포함한다. 한편, 디멀티플렉서(210)로부터 기본 오브젝트를 컨트롤하기 위한 공간 정보(SP)가 수신된 경우, 이 공간 정보(SP)는 인핸스드 오브젝트 정보 디코딩부(224) 및 오브젝트 정보 디코딩부(222)에서 사용되지 않고, 바로 멀티채널 정보 생성부(226)에 전달될 수 있다.5 is a diagram illustrating a detailed configuration of an
우선, 인핸스드 오브젝트 정보 디코딩부(224)는 디멀티플렉서(210)로부터 수신한 오브젝트 정보(OP) 및 인핸스드 오브젝트 정보(EOP)를 이용하여 인핸스드 오브젝트(EO)를 추출하고, 다운믹스 신호(L, R)를 출력한다. 인핸스드 오브젝트 정보 디코딩부(224)의 세부 구성의 일 예가 도 6에 도시되어 있다.First, the enhanced object
도 6 을 참조하면, 인핸스드 오브젝트 정보 디코딩부(224)는 제 1 인핸스드 오브젝트 정보 디코딩부(224-1) 내지 제 L 인핸스드 오브젝트 정보 디코딩부(224-L)를 포함한다. 제 1 인핸스드 오브젝트 디코딩부(224-1)는 제 1 인핸스드 오브젝트 정보(EOPL)를 이용하여, 다운믹스(LL,RL)를 제 1 인핸스드 오브젝트(EOL) 및 제 1 임시 다운믹스 신호(LL-1, RL-1)로 분리하기 위한 백그라운드 파라미터(미도 시)(Backgound Parameter, BP1)를 생성한다. Referring to FIG. 6, the enhanced object
마찬가지 방법으로, 제 L 인핸스드 오브젝트 정보 디코딩부(224-L)는 제 L 인핸스드 오브젝트 정보(EOP1)를 이용하여, 제 L-1 임시 다운믹스 신호(L1, R1)를 제 L 인핸스드 오브젝트(EO1) 및 다운믹스 신호(L, R)로 분리하기 위한 백그라운드 파라미터(BP)를 생성한다.In a similar manner, the L th enhanced object information decoding unit 224-L uses the L th enhanced object information EOP1 to perform L th enhancement on the L-1 temporary downmix signals L 1 and R 1 . A background parameter BP is generated to separate the de object EO 1 and the downmix signals L and R.
한편, 인핸스드 오브젝트 정보 디코딩부(224)가 상기와 같은 백그라운드 파라미터(BP)를 생성하기 위해서는, 인핸스드 오브젝트 정보(EOP)에 포함된 비트할당 정보(BI)를 이용할 수 있다. 이하에서, 비트할당 정보(BI)를 이용하는 목적과 이점에 대하여 설명하기로 한다.Meanwhile, in order for the enhanced object
본 발명의 일실시예에 따른 오디오 신호 처리 방법에 있어서, 인핸스드 오브젝트의 인코딩은 오브젝트 신호들을 포함하는 다운믹스 신호의 압축을 위하여 사용된 것과 동일한 코어 코덱(core codec)을 이용하는 것이 바람직하다. 일반적으로 코어 코덱 인코더(core codec encoder)는 지각적 부호화 방법을 사용하며, 이러한 지각적 부호화 방법은 심리음향모델에 근거하여 대역별로 비트를 할당하는 특성을 갖는다. 따라서, 상기 인코더는 입력신호 및 각 대역에 따라 각각 다른 양자화기가 사용되는 것과 같은 특징을 갖는다.In the audio signal processing method according to an embodiment of the present invention, the encoding of the enhanced object preferably uses the same core codec used for the compression of the downmix signal including the object signals. In general, a core codec encoder uses a perceptual encoding method, and the perceptual encoding method has a characteristic of allocating bits for each band based on a psychoacoustic model. Accordingly, the encoder has a feature such that different quantizers are used according to the input signal and each band.
본 발명의 오브젝트 인코더(110)는 선택 오브젝트 및 기본 오브젝트를, 인핸스드 오브젝트 인코더(120)는 선택 오브젝트를 입력신호로 하기 때문에, 일반적으로 오브젝트 인코더(110)와 인핸스드 오브젝트 인코더(120)는 각각 다른 양자화기 를 사용하는 경우에 해당되며, 양자화기에 의한 오차 발생에 의하여 최종 출력에 원하지 않는 노이즈가 발생하게 된다. Since the
반면, 본 발명의 오디오 신호 처리 방법 및 장치는 인핸스드 오브젝트 정보에 포함되는 선택 오브젝트와 다운믹스 신호 내에 존재하는 선택 오브젝트에 대응하는 오브젝트 신호가 동일함으로써, 디코더 단에서 선택 오브젝트들의 제거 또는 처리가 가능하도록 하는 것을 목적으로 한다. On the other hand, the audio signal processing method and apparatus of the present invention have the same object signal corresponding to the selection object included in the enhanced object information and the selection object present in the downmix signal, thereby eliminating or processing the selection objects at the decoder stage. It is intended to be.
도 7 은 본 발명의 일실시예에 따른 인코딩 및 디코딩 과정을 양자화 에러 발생과정으로 모델링한 블록도의 구성을 나타낸 것으로, 도 7 를 참조하면 모델링된 양자화를 각각 Q1, Q2로 표현할 수 있다. 상기 양자화 방법은 선형 양자화일 수 있지만, 비선형 양자화 등 다른 형태의 양자화 방법을 이용할 수 있으며, 본 발명에 한정되지 아니한다. Q1의 입력을 x1, Q2의 입력을 x2라 하면, 상기 x1, x2 은 하기 수학식 1과 같이 나타낼 수 있다.FIG. 7 is a block diagram illustrating a model of encoding and decoding processes according to an embodiment of the present invention as a quantization error generation process. Referring to FIG. 7, the modeled quantization may be represented as Q1 and Q2, respectively. The quantization method may be linear quantization, but other types of quantization methods such as nonlinear quantization may be used and are not limited to the present invention. When the input of Q1 is x1 and the input of Q2 is x2, x1 and x2 can be expressed as in
x2 = s2 + q2x2 = s2 + q2
여기서, s1, s2 는 각 오브젝트가 독립적으로 인가될 때 양자화기에 의하여 양자화된 신호를 나타낼 수 있으며, q1, q2 는 양자화시 발생하는 양자화 오차를 나타낸다.Here, s1 and s2 may represent signals quantized by the quantizer when each object is independently applied, and q1 and q2 represent quantization errors occurring during quantization.
예를 들어, s1 는 본 발명의 일실시예에 따른 오브젝트 인코더(110)에 입력되는 기본 오브젝트 신호일 수 있고, s2는 인핸스드 오브젝트 인코더(120)에 입력 되는 선택 오브젝트 신호일 수 있다.For example, s1 may be a basic object signal input to the
상기 x1 및 x2 신호가 각각 양자화기 Q1 및 Q2 에 인가되어 얻어진 출력은 다음 수학식 2와 같이 나타낼 수 있다.The outputs obtained by applying the x1 and x2 signals to the quantizers Q1 and Q2, respectively, can be represented by
Q2(x2) = s2Q2 (x2) = s2
여기서, 상기 e 는, 비트할당 정보를 이용하여 선택 오브젝트 및 기본 오브젝트를 포함하는 다운믹스 신호의 비트율과 인핸스드 오브젝트의 비트율을 동일하도록 제어하므로, 양자화 오차인 q1, q2 값에 따라 최대 (+/- step size) 의 값을 갖게 된다. Here, since e controls the bit rate of the downmix signal including the selection object and the base object to be the same as the bit rate of the enhanced object using bit allocation information, the maximum value (+ /) depends on the quantization error q1 and q2. -step size).
이 때, Q1 의 출력에서 Q2 의 출력을 뺀 최종 출력 y는 수학식 3으로 나타낼 수 있다.In this case, the final output y obtained by subtracting the output of Q2 from the output of Q1 may be represented by Equation 3.
상기 최종 출력 y 는 (s1 + q1) 또는 (s1) 의 형태임이 바람직하나, 양자화기(Q1, Q2)를 통과함에 의하여 이는 불가능하며, 본 발명의 일실시예에 따른 최종 출력은 e 만큼의 오차가 발생하게 된다.Preferably, the final output y is in the form of (s1 + q1) or (s1), but this is impossible by passing through the quantizers Q1 and Q2, and the final output according to an embodiment of the present invention has an error of e. Will occur.
상기 e 는 언급한 바와 같이, 최대 +/- step size 값의 오차를 갖게 되는데, 이 크기는 s1 에 비하여 굉장히 작은 값으로 실제 음질에 대한 영향은 무시할 수 있으므로, 본 발명의 일실시예에 따른 오디오 신호 처리 방법은 인핸스드 오브젝트 정보에 포함되는 선택 오브젝트와 다운믹스 신호 내에 존재하는 선택 오브젝트에 대응하는 오브젝트 신호가 거의 동일하도록 생성할 수 있다.As mentioned above, e has an error of the maximum +/- step size value, which is a very small value compared to s1, and thus the influence on the actual sound quality can be ignored, and according to an embodiment of the present invention, The signal processing method may generate a selection object included in the enhanced object information and an object signal corresponding to the selection object existing in the downmix signal.
이는 다운믹스 신호의 비트할당 정보(도 7의 Q1에서의 비트할당 정보)를 인핸스드 오브젝트 생성시(도 7의 Q2) 사용함에 따라 얻어지는 효과로, 상기 비트할당 정보에 의하여 다운믹스 신호와 인핸스드 오브젝트가 동일한 비트율로 부호화되어 동일한 양자화기를 사용함에 따라 가능하다. This is an effect obtained by using bit allocation information (bit allocation information in Q1 of FIG. 7) of the downmix signal when generating an enhanced object (Q2 of FIG. 7), and enhanced with the downmix signal by the bit allocation information. This is possible because the objects are coded at the same bit rate and use the same quantizer.
도 7 은 비트할당 정보를 이용하여 Q1 과 Q2 가 같은 비트율로 부호화를 수행한 경우를 나타낸다. 그러나 만약 비트율이 다른 경우로, 예를 들어, Q1의 비트율이 Q2보다 큰 경우, Q2 양자화는 도 7에서 나타낸 바와 같이 동일한 스텝 사이즈(step size)로 모든 대역에 대하여 양자화를 수행할 수 없게 된다.7 illustrates a case where Q1 and Q2 perform encoding at the same bit rate using bit allocation information. However, if the bit rate is different, for example, if the bit rate of Q1 is larger than Q2, Q2 quantization cannot perform quantization for all bands with the same step size as shown in FIG.
이러한 경우, Q1의 비트율과 다른 비트율로 생성된 Q2의 출력에 대하여 새로운 비트할당 연산을 수행하는 것 보다, 현재의 비트율을 이용하여 표현이 가능한 대역까지만 양자화하여 전송하고, 나머지 대역은 0으로 설정하여 전송하는 것이 바람직하다.In this case, rather than performing a new bit allocation operation on the output of Q2 generated at a bit rate different from the bit rate of Q1, only the band that can be expressed using the current bit rate is transmitted, and the remaining bands are set to 0. It is desirable to transmit.
도 8a 내지 8d 는 Q1의 비트율이 Q2 보다 큰 경우, 상기와 같은 방법으로 표현이 불가능한 Q2의 대역에 대하여 0으로 설정하여 전송하는 경우를 나타내는 그래프이다. 도 8a 는 s1 및 s2 신호를 나타내고, 도 8b는 Q1를 거친 신호를 나타내며, 도 8c는 Q2를 거친 출력신호를 나타내며, Q1에 비하여 비트가 모자라 대역을 제한한 형태로, 나머지 대역은 0으로 설정한 신호를 나타낸다. 도 8d는 최종출력 y를 나타내는 것으로, 이상적으로는 도 8a에 나타난 s1의 신호와 동일한 것이 바람직하 다.8A to 8D are graphs showing a case where a transmission rate is set to 0 for a band of Q2 that cannot be expressed by the above method when the bit rate of Q1 is larger than Q2. 8a shows the s1 and s2 signals, FIG. 8b shows the signal passing through Q1, and FIG. 8c shows the output signal passing through Q2, with less bits than Q1, limiting the band, and setting the rest of the band to 0 Indicates one signal. 8d shows the final output y, ideally the same as the signal of s1 shown in FIG. 8a.
도 8d를 참조하면, 최종출력 y는 s2 통과대역까지는 s1의 신호와 거의 동일한 (s1+e) 의 신호를 얻을 수 있고, s2가 0 으로 설정되어 전송된 대역에 대하여는 (s1+s2+e) 형태의 신호를 얻을 수 있다. 이는 s2가 충분히 작은 대역인 경우, (s1+s2+e) 는 (s1+e)의 신호와 거의 동일한 값을 가질 수 있게 된다.Referring to FIG. 8D, the final output y can obtain a signal of (s1 + e) that is almost the same as the signal of s1 up to the s2 passband, and (s1 + s2 + e) for the transmitted band with s2 set to 0. A signal of the form can be obtained. This means that when s2 is a sufficiently small band, (s1 + s2 + e) can have almost the same value as the signal of (s1 + e).
이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다. As described above, although the present invention has been described by way of limited embodiments and drawings, the present invention is not limited thereto and is intended by those skilled in the art to which the present invention pertains. Of course, various modifications and variations are possible within the scope of equivalents of the claims to be described.
본 발명은 오디오 신호를 인코딩하고 디코딩하는 데 적용될 수 있다.The present invention can be applied to encoding and decoding audio signals.
도 1은 본 발명의 실시예에 따른 오디오 신호 처리 장치의 구성을 나타내는 것이다. 1 shows a configuration of an audio signal processing apparatus according to an embodiment of the present invention.
도 2 는 본 발명의 일실시예에 따른 인핸스드 오브젝트 인코더(120)의 구성을 나타내는 것이다. 2 illustrates a configuration of an
도 3 는 본 발명의 다른 일실시예에 따른 인핸스드 오브젝트 인코더(120)의 구성을 나타내는 것이다.3 illustrates a configuration of an
도 4 는 본 발명의 또다른 일실시예에 따른 인핸스드 오브젝트 인코더(120)의 구성을 나타내는 것이다.4 illustrates a configuration of an
도 5는 본 발명의 실시예에 따른 오디오 신호 처리 장치 중 정보 생성 유닛(220)의 세부 구성을 나타내는 것이다.5 illustrates a detailed configuration of the
도 6은 본 발명의 실시예에 따른 오디오 신호 처리 장치 중 인핸스드 오브젝트 정보 디코딩부(224)의 세부 구성을 나타내는 것이다.6 illustrates a detailed configuration of an enhanced object
도 7 은 본 발명의 일실시예에 따른 인코딩 및 디코딩 과정을 양자화 에러 발생과정으로 모델링한 블록도의 구성을 나타낸 것이다.FIG. 7 is a block diagram illustrating a model of encoding and decoding processes according to an embodiment of the present invention as a quantization error generation process. Referring to FIG.
도 8a 내지 도 8d 는 본 발명의 일실시예에 따른 오디오 신호의 처리 결과를 나타내는 그래프이다.8A to 8D are graphs showing processing results of an audio signal according to an embodiment of the present invention.
Claims (18)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US91249907A | 2007-04-18 | 2007-04-18 | |
US60/912,499 | 2007-04-18 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20080093879A true KR20080093879A (en) | 2008-10-22 |
Family
ID=40154304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080033458A KR20080093879A (en) | 2007-04-18 | 2008-04-11 | A method and apparatus for processing an audio signal |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20080093879A (en) |
-
2008
- 2008-04-11 KR KR1020080033458A patent/KR20080093879A/en not_active Application Discontinuation
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101100214B1 (en) | A method and an apparatus for processing an audio signal | |
AU2011200680C1 (en) | Temporal Envelope Shaping for Spatial Audio Coding using Frequency Domain Weiner Filtering | |
JP4809370B2 (en) | Adaptive bit allocation in multichannel speech coding. | |
JP5455647B2 (en) | Audio decoder | |
RU2406165C2 (en) | Methods and devices for coding and decoding object-based audio signals | |
US8712784B2 (en) | Encoding method and encoding device, decoding method and decoding device and transcoding method and transcoder for multi-object audio signals | |
JP6474845B2 (en) | Reduced complexity converter SNR calculation | |
KR20190050755A (en) | Apparatus for encoding and decoding multi-object audio supporting post downmix signal | |
MX2008012986A (en) | Methods and apparatuses for encoding and decoding object-based audio signals. | |
KR20070005468A (en) | Method for generating encoded audio signal, apparatus for encoding multi-channel audio signals generating the signal and apparatus for decoding the signal | |
MX2014010098A (en) | Phase coherence control for harmonic signals in perceptual audio codecs. | |
TWI501220B (en) | Embedding and extracting ancillary data | |
KR100891666B1 (en) | Apparatus for processing audio signal and method thereof | |
KR20080093879A (en) | A method and apparatus for processing an audio signal | |
JP2002023798A (en) | Speech encoding method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Withdrawal due to no request for examination |