KR102191260B1 - Apparatus and method for encoding/decoding of audio using multi channel audio codec and multi object audio codec - Google Patents
Apparatus and method for encoding/decoding of audio using multi channel audio codec and multi object audio codec Download PDFInfo
- Publication number
- KR102191260B1 KR102191260B1 KR1020130094386A KR20130094386A KR102191260B1 KR 102191260 B1 KR102191260 B1 KR 102191260B1 KR 1020130094386 A KR1020130094386 A KR 1020130094386A KR 20130094386 A KR20130094386 A KR 20130094386A KR 102191260 B1 KR102191260 B1 KR 102191260B1
- Authority
- KR
- South Korea
- Prior art keywords
- audio
- bitstream
- signal
- downmix
- channel
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
Abstract
다채널 오디오 코덱과 다객체 오디오 코덱을 이용한 오디오 부호화/복호화 장치 및 방법이 개시된다.
오디오 부호화 장치는 입력 신호를 다운믹스한 제1 다운믹스 신호와 음성 객체 신호를 다운믹스하여 제2 다운믹스 신호를 생성하고, 상기 음성 객체 신호를 부호화하는 다객체 오디오 부호화부; 상기 제2 다운믹스 신호를 부호화하는 다운믹스 오디오 부호화부; 및 상기 입력 신호를 부호화한 비트스트림, 상기 음성 객체 신호를 부호화한 비트스트림 및 상기 제2 다운믹스 신호를 부호화한 비트스트림을 다중화하여 부호화 비트스트림을 생성하는 비트스트림 다중화부를 포함할 수 있다.Disclosed are an audio encoding/decoding apparatus and method using a multi-channel audio codec and a multi-object audio codec.
The audio encoding apparatus includes: a multi-object audio encoder configured to downmix a first downmix signal obtained by downmixing an input signal and a voice object signal to generate a second downmix signal and encode the voice object signal; A downmix audio encoder that encodes the second downmix signal; And a bitstream multiplexer configured to generate an encoded bitstream by multiplexing the bitstream encoding the input signal, the bitstream encoding the speech object signal, and the bitstream encoding the second downmix signal.
Description
본 발명은 다채널 오디오 코덱과 다객체 오디오 코덱을 이용한 오디오 부호화/복호화 장치 및 방법에 관한 것으로, 보다 상세하게는 다채널 오디오 코덱과 다객체 오디오 코덱으로 스테레오 시스템 및 다채널 오디오 시스템에서 음성신호와 주변음 간의 볼륨 차를 제어하여 음성신호가 명료하게 재생되도록 하는 장치 및 방법에 관한 것이다. The present invention relates to an audio encoding/decoding apparatus and method using a multi-channel audio codec and a multi-object audio codec, and more particularly, to a multi-channel audio codec and a multi-object audio codec. The present invention relates to an apparatus and method for clearly reproducing a voice signal by controlling a volume difference between ambient sounds.
TV방송의 본격적인 디지털화와 5.1채널 오디오 시스템의 보급으로 인하여 다양한 오디오 서비스가 제공되고 있다. Various audio services are provided due to the full-scale digitalization of TV broadcasting and the spread of 5.1-channel audio systems.
한국공개특허 제10-2012-0009150호(공개일 2012년 02월 01일)에는 다채널 오디오 신호를 부호화 및 복호화하는 기술이 개시되어 있다. 그러나, 다채널 오디오 콘텐츠는 음장을 재현하기 위하여 모노 콘텐츠나 스테레오 콘텐츠에 비하여 주변 잡음이나 악기음이 많이 재생될 수 있다. Korean Patent Publication No. 10-2012-0009150 (published on February 01, 2012) discloses a technique for encoding and decoding a multi-channel audio signal. However, in order to reproduce a sound field, multi-channel audio content may reproduce more ambient noise or musical instrument sound than mono content or stereo content.
따라서, 다채널 오디오 콘텐츠를 그대로 부호화 및 복호화하면, 주변 잡음이나 악기음 때문에 대사나 가수의 목소리와 같이 시청자가 원하는 내용이 포함된 음성 신호가 명료하게 들리지 않는 경우가 발생할 수 있다.Accordingly, when multi-channel audio content is encoded and decoded as it is, there may be a case in which an audio signal including a content desired by a viewer, such as a dialogue or a singer's voice, cannot be clearly heard due to ambient noise or musical instrument sound.
따라서, 다채널 오디오 콘텐츠에서 음성 신호가 명료하게 재생되도록 하는 방법이 요청되고 있다.Accordingly, there is a demand for a method of clearly reproducing an audio signal in multi-channel audio content.
본 발명은 다채널 오디오 코덱과 다객체 오디오 코덱을 결합하여 오디오 신호를 부호화함으로써, 스테레오 시스템 및 다채널 오디오 시스템에서 음성신호의 음질을 개선하거나 음성신호와 주변음 간의 볼륨 차를 제어하여 음성신호가 명료하게 재생되도록 하는 장치 및 방법을 제공할 수 있다.The present invention encodes an audio signal by combining a multi-channel audio codec and a multi-object audio codec, thereby improving the sound quality of a voice signal in a stereo system and a multi-channel audio system, or controlling the volume difference between the voice signal and the surrounding sound, thereby generating a voice signal. It is possible to provide an apparatus and method for clearly playing back.
본 발명의 일실시예에 따른 오디오 부호화 장치는 입력 신호를 다운믹스한 제1 다운믹스 신호와 음성 객체 신호를 다운믹스하여 제2 다운믹스 신호를 생성하고, 상기 음성 객체 신호를 부호화하는 다객체 오디오 부호화부; 상기 제2 다운믹스 신호를 부호화하는 다운믹스 오디오 부호화부; 및 상기 입력 신호를 부호화한 비트스트림, 상기 음성 객체 신호를 부호화한 비트스트림 및 상기 제2 다운믹스 신호를 부호화한 비트스트림을 다중화하여 부호화 비트스트림을 생성하는 비트스트림 다중화부를 포함할 수 있다.The audio encoding apparatus according to an embodiment of the present invention generates a second downmix signal by downmixing a first downmix signal obtained by downmixing an input signal and a voice object signal, and encodes the voice object signal. An encoding unit; A downmix audio encoder that encodes the second downmix signal; And a bitstream multiplexer configured to generate an encoded bitstream by multiplexing the bitstream encoding the input signal, the bitstream encoding the speech object signal, and the bitstream encoding the second downmix signal.
본 발명의 일실시예에 따른 오디오 부호화 장치는 상기 입력 신호를 다운믹스하여 상기 제1 다운믹스 신호를 생성하고, 상기 입력 신호를 부호화하는 다채널 오디오 부호화부를 더 포함할 수 있다.The audio encoding apparatus according to an embodiment of the present invention may further include a multi-channel audio encoder configured to downmix the input signal to generate the first downmix signal and encode the input signal.
본 발명의 일실시예에 따른 오디오 부호화 장치의 다채널 오디오 부호화부는 상기 제1 다운믹스 신호에서 상기 입력 신호를 복원하기 위한 부가 정보를 생성하여, 상기 다객체 오디오 부호화부에 전송할 수 있다.The multi-channel audio encoder of the audio encoding apparatus according to an embodiment of the present invention may generate additional information for reconstructing the input signal from the first downmix signal and transmit it to the multi-object audio encoder.
본 발명의 일실시예에 따른 오디오 부호화 장치의 다객체 오디오 부호화부는 상기 부가 정보와 렌더링 정보를 이용하여 상기 제1 다운믹스 신호에서 상기 음원 객체 신호를 추출할 수 있다.The multi-object audio encoding unit of the audio encoding apparatus according to an embodiment of the present invention may extract the sound source object signal from the first downmix signal using the additional information and rendering information.
본 발명의 일실시예에 따른 오디오 복호화 장치는 수신한 부호화 비트스트림을 입력 신호를 부호화한 비트스트림, 음성 객체 신호를 부호화한 비트스트림 및 제2 다운믹스 신호를 부호화한 비트스트림으로 역 다중화하는 비트스트림 역다중화부; 상기 제2 다운믹스 신호를 부호화한 비트스트림에서 제2 다운믹스 신호를 복호화하는 다운믹스 오디오 복호화부; 상기 음성 객체 신호를 부호화한 비트스트림과 상기 제2 다운믹스 신호를 이용하여 음성 객체 신호와 제1 다운믹스 신호를 복호화하는 다객체 오디오 복호화부; 및 상기 제1 다운믹스 신호와 상기 입력 신호를 부호화한 비트스트림을 이용하여 입력 신호를 복호화하는 다채널 오디오 복호화부를 포함할 수 있다.In an audio decoding apparatus according to an embodiment of the present invention, a bit for demultiplexing a received encoded bitstream into an input signal encoded bitstream, an audio object signal encoded bitstream, and a second downmix signal encoded bitstream Stream demultiplexer; A downmix audio decoder configured to decode a second downmix signal from the bitstream in which the second downmix signal is encoded; A multi-object audio decoding unit that decodes the voice object signal and the first downmix signal by using the bitstream encoded by the voice object signal and the second downmix signal; And a multi-channel audio decoder that decodes the input signal by using the first downmix signal and the bitstream encoded by the input signal.
본 발명의 일실시예에 따른 오디오 복호화 장치는 렌더링 정보에 기초하여 상기 음성 객체 신호의 크기 및 상기 입력 신호의 크기를 제어하여 출력하는 렌더링부를 더 포함할 수 있다.The audio decoding apparatus according to an embodiment of the present invention may further include a rendering unit that controls and outputs the size of the voice object signal and the size of the input signal based on rendering information.
본 발명의 일실시예에 따른 오디오 복호화 장치의 다객체 오디오 복호화부는 상기 제2 다운믹스 신호를 부호화한 비트스트림과 상기 제2 다운믹스 신호를 기초로 상기 제1 다운믹스 신호에서 상기 입력 신호를 복원하기 위한 트랜스코딩 된 다채널 부가 정보를 생성할 수 있다.The multi-object audio decoder of the audio decoding apparatus according to an embodiment of the present invention restores the input signal from the first downmix signal based on the bitstream encoded by the second downmix signal and the second downmix signal. It is possible to generate transcoded multi-channel side information for use.
본 발명의 일실시예에 따른 오디오 부호화 장치는 다채널 입력 신호의 특정 채널과 음성 객체 신호를 다운믹스한 제1 다운믹스 신호와 상기 다채널 입력 신호에서 상기 특정 채널을 제외한 나머지 채널을 다운믹스하여 제2 다운믹스 신호를 생성하고, 상기 나머지 채널을 부호화하는 다채널 오디오 부호화부; 상기 제2 다운믹스 신호를 부호화하는 다운믹스 오디오 부호화부; 및 상기 특정 채널과 상기 음성 객체 신호를 부호화한 비트스트림, 상기 나머지 채널을 부호화한 비트스트림, 및 상기 제2 다운믹스 신호를 부호화한 비트스트림을 다중화하여 부호화 비트스트림을 출력하는 비트스트림 다중화부를 포함할 수 있다.The audio encoding apparatus according to an embodiment of the present invention downmixes a first downmix signal obtained by downmixing a specific channel of a multi-channel input signal and an audio object signal, and a remaining channel other than the specific channel in the multi-channel input signal. A multi-channel audio encoder that generates a second downmix signal and encodes the remaining channels; A downmix audio encoder that encodes the second downmix signal; And a bitstream multiplexer configured to output an encoded bitstream by multiplexing the specific channel and the bitstream encoding the speech object signal, the bitstream encoding the remaining channels, and the bitstream encoding the second downmix signal. can do.
본 발명의 일실시예에 따른 오디오 부호화 장치는 상기 특정 채널과 음성 객체 신호를 다운믹스하여 상기 제1 다운믹스 신호를 생성하고, 상기 특정 채널과 음성 객체 신호를 부호화하는 다객체 오디오 부호화부를 더 포함할 수 있다.The audio encoding apparatus according to an embodiment of the present invention further includes a multi-object audio encoder configured to generate the first downmix signal by downmixing the specific channel and the speech object signal, and encoding the specific channel and the speech object signal. can do.
본 발명의 일실시예에 따른 오디오 복호화 장치는 수신한 부호화 비트스트림을 입력 신호의 특정 채널과 음성 객체 신호를 부호화한 비트스트림, 상기 입력 신호의 나머지 채널을 부호화한 비트스트림, 및 제2 다운믹스 신호를 부호화한 비트스트림으로 역 다중화하는 비트스트림 역다중화부; 상기 제2 다운믹스 신호를 부호화한 비트스트림에서 제2 다운믹스 신호를 복호화하는 다운믹스 오디오 복호화부; 상기 나머지 채널을 부호화한 비트스트림과 상기 제2 다운믹스 신호를 이용하여 상기 나머지 채널과 제1 다운믹스 신호를 복호화하는 다채널 오디오 복호화부; 및 상기 제1 다운믹스 신호와 상기 특정 채널과 음성 객체 신호를 부호화한 비트스트림을 이용하여 상기 특정 채널과 음성 객체 신호를 복호화하는 다객체 오디오 복호화부를 포함할 수 있다.The audio decoding apparatus according to an embodiment of the present invention uses a received encoded bitstream into a specific channel of an input signal and a bitstream obtained by encoding an audio object signal, a bitstream encoding the remaining channels of the input signal, and a second downmix. A bitstream demultiplexer for demultiplexing the signal into an encoded bitstream; A downmix audio decoder configured to decode a second downmix signal from the bitstream in which the second downmix signal is encoded; A multi-channel audio decoder for decoding the remaining channels and the first downmix signal by using the bitstream encoded by the remaining channels and the second downmix signal; And a multi-object audio decoder configured to decode the specific channel and the speech object signal by using the first downmix signal and the bitstream obtained by encoding the specific channel and the speech object signal.
본 발명의 일실시예에 따른 오디오 복호화 장치는 상기 다객체 오디오 부호화부가 상기 특정 채널을 복호화하는 과정에서 발생하는 지연에 기초하여 상기 나머지 채널에 지연을 인가하여 출력하는 지연부를 더 포함할 수 있다.The audio decoding apparatus according to an embodiment of the present invention may further include a delay unit for applying a delay to the remaining channels and outputting a delay based on a delay generated in a process of the multi-object audio encoding unit decoding the specific channel.
본 발명의 일실시예에 따른 오디오 부호화 방법은 입력 신호를 다운믹스한 제1 다운믹스 신호와 음성 객체 신호를 다운믹스하여 제2 다운믹스 신호를 생성하고, 상기 음성 객체 신호를 부호화하는 단계; 상기 제2 다운믹스 신호를 부호화하는 단계; 및 상기 입력 신호를 부호화한 비트스트림, 상기 음성 객체 신호를 부호화한 비트스트림 및 상기 제2 다운믹스 신호를 부호화한 비트스트림을 다중화하여 부호화 비트스트림을 생성하는 단계를 포함할 수 있다.An audio encoding method according to an embodiment of the present invention includes downmixing a first downmix signal obtained by downmixing an input signal and an audio object signal to generate a second downmix signal, and encoding the audio object signal; Encoding the second downmix signal; And generating an encoded bitstream by multiplexing the bitstream encoding the input signal, the bitstream encoding the speech object signal, and the bitstream encoding the second downmix signal.
본 발명의 일실시예에 따른 오디오 복호화 방법은 수신한 부호화 비트스트림을 입력 신호를 부호화한 비트스트림, 음성 객체 신호를 부호화한 비트스트림 및 제2 다운믹스 신호를 부호화한 비트스트림으로 역 다중화하는 단계; 상기 제2 다운믹스 신호를 부호화한 비트스트림에서 제2 다운믹스 신호를 복호화하는 단계; 상기 음성 객체 신호를 부호화한 비트스트림과 상기 제2 다운믹스 신호를 이용하여 음성 객체 신호와 제1 다운믹스 신호를 복호화하는 단계; 및 상기 제1 다운믹스 신호와 상기 입력 신호를 부호화한 비트스트림을 이용하여 입력 신호를 복호화하는 단계를 포함할 수 있다.An audio decoding method according to an embodiment of the present invention includes demultiplexing a received encoded bitstream into an input signal encoded bitstream, an audio object signal encoded bitstream, and a second downmix signal encoded bitstream. ; Decoding a second downmix signal from the bitstream in which the second downmix signal is encoded; Decoding an audio object signal and a first downmix signal using the bitstream encoded by the audio object signal and the second downmix signal; And decoding an input signal by using the first downmix signal and a bitstream obtained by encoding the input signal.
본 발명의 일실시예에 의하면, 다채널 오디오 코덱과 다객체 오디오 코덱을 결합하여 오디오 신호를 부호화함으로써, 스테레오 시스템 및 다채널 오디오 시스템에서 음성신호의 음질을 개선하거나 음성신호와 주변음 간의 볼륨 차를 제어하여 음성신호가 명료하게 재생되게 할 수 있다.According to an embodiment of the present invention, the audio signal is encoded by combining a multi-channel audio codec and a multi-object audio codec, thereby improving sound quality of an audio signal in a stereo system and a multi-channel audio system, or a volume difference between the audio signal and the surrounding sound. By controlling the sound signal can be clearly reproduced.
도 1은 본 발명의 제1 실시예에 따른 오디오 부호화 장치를 나타내는 도면이다.
도 2은 본 발명의 제1 실시예에 따른 오디오 부호화 장치의 구성간 정보 입출력을 나타내는 도면이다.
도 3은 본 발명의 제1 실시예에 따른 오디오 복호화 장치를 나타내는 도면이다.
도 4는 본 발명의 제1 실시예에 따른 오디오 복호화 장치의 구성간 정보 입출력을 나타내는 도면이다.
도 5는 본 발명의 제1 실시예에 따른 오디오 복호화 장치의 오디오 트랜스코더와 주변 구성간 정보 입출력을 나타내는 도면이다.
도 6은 본 발명의 제2 실시예에 따른 오디오 부호화 장치를 나타내는 도면이다.
도 7은 본 발명의 제2 실시예에 따른 오디오 부호화 장치의 구성간 정보 입출력을 나타내는 도면이다.
도 8은 본 발명의 제2 실시예에 따른 오디오 복호화 장치를 나타내는 도면이다.
도 9는 본 발명의 제2 실시예에 따른 오디오 복호화 장치의 구성간 정보 입출력을 나타내는 도면이다.
도 10은 본 발명의 제1 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
도 11은 본 발명의 제1 실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
도 12는 본 발명의 제2 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
도 13은 본 발명의 제2 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.1 is a diagram illustrating an audio encoding apparatus according to a first embodiment of the present invention.
2 is a diagram showing input/output of information between configurations of an audio encoding apparatus according to a first embodiment of the present invention.
3 is a diagram illustrating an audio decoding apparatus according to a first embodiment of the present invention.
4 is a diagram illustrating input/output of information between configurations of an audio decoding apparatus according to a first embodiment of the present invention.
5 is a diagram illustrating input/output of information between an audio transcoder and peripheral components of the audio decoding apparatus according to the first embodiment of the present invention.
6 is a diagram illustrating an audio encoding apparatus according to a second embodiment of the present invention.
7 is a diagram illustrating input/output of information between configurations of an audio encoding apparatus according to a second embodiment of the present invention.
8 is a diagram illustrating an audio decoding apparatus according to a second embodiment of the present invention.
9 is a diagram illustrating input/output of information between configurations of an audio decoding apparatus according to a second embodiment of the present invention.
10 is a flowchart showing an audio encoding method according to the first embodiment of the present invention.
11 is a flowchart illustrating an audio decoding method according to the first embodiment of the present invention.
12 is a flowchart showing an audio encoding method according to a second embodiment of the present invention.
13 is a flowchart illustrating an audio encoding method according to a second embodiment of the present invention.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 본 발명의 일실시예에 따른 오디오 부호화 방법 및 복호화 방법은 오디오 부호화 장치 및 복호화 장치에 의해 수행될 수 있다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. An audio encoding method and a decoding method according to an embodiment of the present invention may be performed by an audio encoding apparatus and a decoding apparatus.
도 1은 본 발명의 일실시예에 따른 오디오 부호화 장치를 나타내는 도면이다. 1 is a diagram illustrating an audio encoding apparatus according to an embodiment of the present invention.
도 1을 참고하면, 본 발명의 일실시예에 따른 오디오 부호화 장치(100)는 다채널 오디오 부호화부(110), 다객체 오디오 부호화부(120), 다운믹스 오디오 부호화부(130), 및 비트스트림 다중화부(140)를 포함할 수 있다.Referring to FIG. 1, an
다채널 오디오 부호화부(110)는 입력 신호를 다운믹스하여 제1 다운믹스 신호를 생성하고, 입력 신호를 부호화하여 다채널 오디오 부가 정보 비트스트림을 생성할 수 있다. 예를 들어, 다채널 오디오 부호화부(110)는 MPS(MPEG Surround)를 이용하여 입력 신호를 부호화할 수 있다.The
그리고, 다채널 오디오 부호화부(110)는 제1 다운믹스 신호를 다객체 오디오 부호화부(120)로 전송하고, 다채널 오디오 부가 정보 비트스트림을 비트스트림 다중화부(140)로 전송할 수 있다.In addition, the
또한, 다채널 오디오 부호화부(110)는 제1 다운믹스 신호에서 입력 신호를 복호화할 때 필요한 부가 정보를 생성하여, 다객체 오디오 부호화부(120)에 전송할 수도 있다.In addition, the
다객체 오디오 부호화부(120)는 음성 객체 신호와 다채널 오디오 부호화부(110)가 입력 신호를 다운믹스하여 생성한 제1 다운믹스 신호를 수신할 수 있다. 그리고, 다객체 오디오 부호화부(120)는 수신한 제1 다운믹스 신호와 음성 객체 신호를 다운믹스하여 제2 다운믹스 신호를 생성하고, 음성 객체 신호를 부호화하여 다객체 오디오 부가 정보 비트스트림을 생성할 수 있다. 예를 들어, 다객체 오디오 부호화부(120)는 SAOC(Spatial Audio Object Coding)로 음성 객체 신호를 부호화할 수 있다.The
또한, 다객체 오디오 부호화부(120)는 제2 다운믹스 신호를 다운믹스 오디오 부호화부(130)로 전송하고, 다객체 오디오 부가 정보 비트스트림을 비트스트림 다중화부(140)로 전송할 수 있다.Also, the
그리고, 다채널 오디오 부호화부(110)가 부가 정보를 생성한 경우, 다객체 오디오 부호화부(120)는 부가 정보와 렌더링 정보를 이용하여 제1 다운믹스 신호에서 음원 객체 신호를 추출할 수도 있다.In addition, when the
또한, 다채널 오디오 부호화부(110)가 생성하는 제1 다운믹스 신호, 또는 다객체 오디오 부호화부(120)가 생성하는 제2 다운믹스 신호에 포함된 채널의 개수는 입력 신호에 포함된 개수보다 적거나 동일할 수 있다. 예를 들어, 입력 신호는 5.1 채널이고, 제1 다운믹스 신호 및 제2 다운믹스 신호는 모노 신호, 또는 스테레오 신호일 수 있다.In addition, the number of channels included in the first downmix signal generated by the
다운믹스 오디오 부호화부(130)는 다객체 오디오 부호화부(120)가 생성한 제2 다운믹스 신호를 부호화할 수 있다.The
비트스트림 다중화부(140)는 다채널 오디오 부호화부(110)가 생성한 다채널 오디오 부가정보 비트스트림과 다객체 오디오 부호화부(120)가 생성한 다객체 오디오 부가정보 비트스트림 및 다운믹스 오디오 부호화부(130)가 생성한 다운믹스 오디오 비트스트림을 하나의 비트스트림 구조로 다중화하여 부호화 비트스트림을 생성할 수 있다.
The
도 2은 본 발명의 제1 실시예에 따른 오디오 부호화 장치의 구성간 정보 입출력을 나타내는 도면이다. 2 is a diagram showing input/output of information between configurations of an audio encoding apparatus according to a first embodiment of the present invention.
먼저, 다채널 오디오 부호화부(110)는 도 2에 도시된 바와 같이 복수의 채널을 포함하는 입력 신호(200)를 수신할 수 있다. 예를 들어, 입력 신호(200)는 정면 스피커에 대응하는 C(Center) 채널, 오른쪽 전방 스피커에 대응하는 FR(Front Right) 채널, 왼쪽 전방 스피커에 대응하는 FL(Front Left) 채널, 오른쪽 환경 스피커에 대응하는 RR(Rear Right) 채널, 왼쪽 전방 스피커에 대응하는 RL(Rear Left) 채널, 및 서브 우퍼 스피커에 대응하는 LFE(Low Frequency Effects) 채널을 포함하는 5.1 채널의 신호일 수 있다.First, as illustrated in FIG. 2, the
그리고, 다채널 오디오 부호화부(110)는 수신한 입력 신호(200)를 부호화하여 다채널 오디오 부가 정보 비트스트림(211)을 생성하고, 생성한 다채널 오디오 부가 정보 비트스트림(211)을 비트스트림 다중화부(140)로 전송할 수 있다.In addition, the
또한, 다채널 오디오 부호화부(110)는 수신한 입력 신호(200)를 다운믹스하여 제1 다운믹스 신호(212)를 생성하고, 생성한 제1 다운믹스 신호(212)를 다객체 오디오 부호화부(120)로 전송할 수 있다.In addition, the
다음으로, 다객체 오디오 부호화부(120)는 외부 구성으로부터 음성 객체 신호를 수신하고, 다채널 오디오 부호화부(110)로부터 제1 다운믹스 신호(212)를 수신할 수 있다. 예를 들어, 외부 구성은 입력 신호(201)에서 음성 객체 신호를 추출할 수 있는 오디오 객체 추출 장치일 수 있다.Next, the
이때, 다객체 오디오 부호화부(120)는 음성 객체 신호를 부호화하여 다객체 오디오 부가 정보 비트스트림(221)을 생성하고, 생성한 다객체 오디오 부가 정보 비트스트림(221)을 비트스트림 다중화부(140)로 전송할 수 있다.At this time, the multi-object
또한, 다객체 오디오 부호화부(120)는 제1 다운믹스 신호와 음성 객체 신호를 다운믹스하여 제2 다운믹스 신호(222)를 생성하고, 생성한 제2 다운믹스 신호(222)를 다운믹스 오디오 부호화부(130)로 전송할 수 있다.In addition, the
이때, 제1 다운믹스 신호(212) 및 제2 다운믹스 신호(222)는 모노 신호, 또는 스테레오 신호일 수 있다.In this case, the
그 다음으로, 다운믹스 오디오 부호화부(130)는 수신한 제2 다운믹스 신호(222)를 부호화하여 다운믹스 오디오 비트스트림(231)을 생성하고, 생성한 다운믹스 오디오 비트스트림(231)을 비트스트림 다중화부(140)로 전송할 수 있다.Next, the
마지막으로 비트스트림 다중화부(140)는 다채널 오디오 부호화부(110)로부터 다채널 오디오 부가정보 비트스트림(211)을 수신하고, 다객체 오디오 부호화부(120)로부터 다객체 오디오 부가정보 비트스트림(221)을 수신하며, 다운믹스 오디오 부호화부(130)로부터 다운믹스 오디오 비트스트림(231)을 수신할 수 있다.Finally, the
그리고, 비트스트림 다중화부(140)는 다채널 오디오 부가정보 비트스트림(211), 다객체 오디오 부가정보 비트스트림(221), 및 다운믹스 오디오 비트스트림(231)을 하나의 비트스트림 구조로 다중화하여 부호화 비트스트림(241)을 생성할 수 있다.
In addition, the
도 3은 본 발명의 제1 실시예에 따른 오디오 복호화 장치를 나타내는 도면이다. 3 is a diagram illustrating an audio decoding apparatus according to a first embodiment of the present invention.
도 3을 참고하면, 본 발명의 일실시예에 따른 오디오 복호화 장치(300)는 비트스트림 역다중화부(310), 다운믹스 오디오 복호화부(320), 다객체 오디오 복호화부(330), 다채널 오디오 복호화부(340), 및 렌더링부(350)를 포함할 수 있다.Referring to FIG. 3, the
비트스트림 역다중화부(310)는 오디오 부호화 장치(100)로부터 수신한 부호화 비트스트림을 입력 신호를 부호화한 다채널 오디오 부가 정보 비트스트림, 음성 객체 신호를 부호화한 다객체 오디오 부가 정보 비트스트림 및 제2 다운믹스 신호를 부호화한 다운믹스 오디오 비트스트림으로 역 다중화할 수 있다.The
이때, 비트스트림 역 다중화부(310)는 다채널 오디오 부가 정보 비트스트림을 다채널 오디오 복호화부(340)에 전송하고, 다객체 오디오 부가 정보 비트스트림을 다객체 오디오 복호화부(330)에 전송하며, 다운믹스 오디오 비트스트림을 다운믹스 오디오 복호화부(320)에 전송할 수 있다.At this time, the
또한 비트스트림 역다중화부(310)는 부호화 비트스트림에 프리셋(preset)의 형태로 포함된 렌더링 정보를 추출하여 렌더링부(350)에 전송할 수 있다.In addition, the
다운믹스 오디오 복호화부(320)는 비트스트림 역다중화부(310)로부터 수신한 다운믹스 오디오 비트스트림에서 제2 다운믹스 신호를 복호화할 수 있다. 이때, 다운믹스 오디오 복호화부(320)는 다운믹스 오디오 부호화부(130)가 제2 다운믹스를 부호화하기 위하여 이용한 부호화 방법에 기초하여 다운믹스 오디오 비트스트림에서 제2 다운믹스 신호를 복호화할 수 있다.The
다객체 오디오 복호화부(330)는 비트스트림 역다중화부(310)로부터 수신한 다객체 오디오 부가정보 비트스트림과 다운 믹스 오디오 복호화부(320)가 복호화한 제2 다운믹스 신호를 이용하여 음성 객체 신호와 제1 다운믹스 신호를 복호화할 수 있다. 예를 들어, 다객체 오디오 복호화부(330)는 다객체 오디오 부가정보 비트스트림과 제2 다운믹스 신호에 SAOC를 적용하여 음성 객체 신호와 제1 다운믹스 신호를 복호화할 수 있다.The multi-object
다채널 오디오 복호화부(340)는 비트스트림 역다중화부(310)로부터 수신한 다채널 오디오 부가 정보 비트스트림과, 다객체 오디오 복호화부(330)가 복호화한 제1 다운믹스 신호를 이용하여 입력 신호를 복호화할 수 있다. 예를 들어, 다채널 오디오 복호화부(340)는 다채널 오디오 부가 정보 비트스트림과, 제1 다운믹스 신호에 MPS를 적용하여 입력 신호를 복호화할 수 있다.The multi-channel
렌더링부(350)는 렌더링 정보에 기초하여 다객체 오디오 복호화부(330)가 복호화한 음성 객체 신호의 크기 및 다채널 오디오 복호화부(340)가 복호화한 입력 신호의 크기를 제어하여 출력할 수 있다.The
이때, 렌더링부(350)는 사용자의 요청에 따라 음성 객체 신호의 크기 및 입력 신호의 크기를 제어함으로써, 사용자가 입력 신호에 포함된 음성 신호를 보다 명확하게 인식 가능하도록 할 수 있다.In this case, the
또한, 렌더링부(350)는 부호화 비트스트림에 프리셋(preset)의 형태로 렌더링 정보가 포함되지 않은 경우, 사용자에 의하여 외부로부터 렌더링 정보를 입력 받을 수도 있다.In addition, when rendering information is not included in the encoded bitstream in the form of a preset, the
입력 신호와 음성신호가 SAOC 인코더에 의해서 부호화되어 부호화 비트스트림이 된 경우, 다객체 오디오 복호화부(330)는 다객체/다채널 트랜스코더를 포함할 수 있다.When an input signal and an audio signal are encoded by an SAOC encoder to form an encoded bitstream, the multi-object
이때, 다객체/다채널 트랜스코더를 포함하는 다객체 오디오 복호화부(330)는 다객체 오디오 부가정보 비트스트림과 제2 다운믹스 신호를 이용하여 음성 객체 신호를 복호화하고, 렌더링 정보를 기초로 음성 객체 신호와 배경음의 크기를 조정하여 제1 다운믹스 신호를 생성할 수도 있다.At this time, the multi-object
또한, 다객체/다채널 트랜스코더를 포함하는 다객체 오디오 복호화부(330)는 다객체 오디오 부가정보 비트스트림과 제2 다운믹스 신호를 기초로 제1 다운믹스 신호를 다채널로 확장하여 입력 신호를 복호화하기 위한 부가 정보를 생성할 수 있다. 이때, 다객체/다채널 트랜스코더를 포함하는 다객체 오디오 복호화부(330)가 생성하는 부가 정보는 트랜스코딩 된 다채널 오디오 부가 정보 비트스트림일 수 있다. In addition, the multi-object
그리고, 다채널 오디오 복호화부(340)는 제1 다운믹스 신호와 트랜스코딩 된 다채널 오디오 부가 정보 비트스트림을 이용하여 입력 신호를 복호화할 수 있다.
In addition, the multi-channel
도 4는 본 발명의 제1 실시예에 따른 오디오 복호화 장치의 구성간 정보 입출력을 나타내는 도면이다. 4 is a diagram illustrating input/output of information between configurations of an audio decoding apparatus according to a first embodiment of the present invention.
먼저, 비트스트림 역다중화부(310)는 오디오 부호화 장치(100)로부터 부호화 비트스트림(400)을 수신할 수 있다.First, the
이때, 비트스트림 역다중화부(310)는 수신한 비트스트림(400)을 입력 신호를 부호화한 다채널 오디오 부가 정보 비트스트림(413), 음성 객체 신호를 부호화한 다객체 오디오 부가 정보 비트스트림(412) 및 제2 다운믹스 신호를 부호화한 다운믹스 오디오 비트스트림(411)으로 역 다중화할 수 있다. 또한, 비트스트림 역 다중화부(310)는 다채널 오디오 부가 정보 비트스트림(413)을 다채널 오디오 복호화부(340)에 전송하고, 다객체 오디오 부가 정보 비트스트림(412)을 다객체 오디오 복호화부(330)에 전송하며, 다운믹스 오디오 비트스트림(411)을 다운믹스 오디오 복호화부(320)에 전송할 수 있다.At this time, the
다음으로, 다운믹스 오디오 복호화부(320)는 수신한 다운믹스 오디오 비트스트림(411)에서 제2 다운믹스 신호(421)를 복호화할 수 있다. 이때, 다운 믹스 오디오 복호화부(320)는 제2 다운믹스 신호(421)를 다객체 오디오 복호화부(330)로 전송할 수 있다.Next, the
그 다음으로, 다객체 오디오 복호화부(330)는 수신한 다객체 오디오 부가정보 비트스트림(412)과 제2 다운믹스 신호(421)를 이용하여 음성 객체 신호(431)와 제1 다운믹스 신호(432)를 복호화할 수 있다. 이때, 다객체 오디오 복호화부(330)는 음성 객체 신호(431)을 렌더링부(350)로 전송하고, 제1 다운믹스 신호(432)를 다채널 오디오 복호화부(340)로 전송할 수 있다.Next, the multi-object
다음으로, 다채널 오디오 복호화부(340)는 수신한 다채널 오디오 부가 정보 비트스트림(413)과, 제1 다운믹스 신호(432)를 이용하여 입력 신호(441)를 복호화할 수 있다.Next, the
마지막으로 렌더링부(350)는 사용자에 의하여 외부로부터 렌더링 정보를 입력 받고, 입력 받은 렌더링 정보에 기초하여 다객체 오디오 복호화부(330)가 복호화한 음성 객체 신호(431)의 크기 및 다채널 오디오 복호화부(340)가 복호화한 입력 신호(441)의 크기를 제어하여 출력할 수 있다.Finally, the
이때, 렌더링부(350)는 사용자의 요청에 따라 음성 객체 신호(431)의 크기 및 입력 신호의 크기를 제어함으로써, 사용자가 입력 신호에 포함된 음성 신호를 보다 명확하게 인식 가능하도록 할 수 있다.In this case, the
또한, 렌더링부(350)는 부호화 비트스트림(400)에 프리셋(preset)의 형태로 렌더링 정보가 포함된 경우, 비트스트림 역다중화부(310)로부터 렌더링 정보를 입력 받을 수도 있다.
In addition, the
도 5는 본 발명의 제1 실시예에 따른 오디오 복호화 장치의 오디오 트랜스코더와 주변 구성간 정보 입출력을 나타내는 도면이다. 5 is a diagram illustrating input/output of information between an audio transcoder and peripheral components of the audio decoding apparatus according to the first embodiment of the present invention.
입력 신호와 음성신호가 SAOC 인코더에 의해서 부호화되어 부호화 비트스트림이 된 경우, 다객체 오디오 복호화부(330)는 다객체/다채널 오디오 트랜스코더부(500)를 포함할 수 있다.When the input signal and the voice signal are encoded by the SAOC encoder to become an encoded bitstream, the multi-object
이때, 다객체/다채널 오디오 트랜스코더부(500)는 다객체 오디오 부가정보 비트스트림(412)과 제2 다운믹스 신호(421)를 이용하여 음성 객체 신호(431)를 복호화하고, 렌더링 정보를 기초로 음성 객체 신호와 배경음의 크기를 조정하여 제1 다운믹스 신호(432)를 생성할 수 있다. 비트스트림 역다중화부(310)과 다운믹스 오디오 복호화부(320)의 동작은 도 4와 동일하므로 구체적인 설명은 생략한다. 이때, 다객체/다채널 오디오 트랜스코더부(500)는 복호화한 음성 객체 신호(431)를 렌더링부(350)로 전송할 수 있다.At this time, the multi-object/multi-channel
또한, 다객체/다채널 오디오 트랜스코더부(500)는 다객체 오디오 부가정보 비트스트림(412)과 제2 다운믹스 신호(421)를 기초로 제1 다운믹스 신호(432)를 다채널로 확장하기 위한 확장 부가 정보를 생성할 수 있다. 이때, 다객체/다채널 오디오 트랜스코더부(500)가 생성하는 확장 부가 정보는 트랜스코딩 된 다채널 오디오 부가정보 비트스트림(501)일 수 있다. 예를 들어, 다객체/다채널 오디오 트랜스코더부(500)는 비트스트림 역다중화부(310)가 역 다중화한 다채널 오디오 부가 정보 비트스트림을 트래스코딩하여 확장 부가 정보를 생성할 수 있다.In addition, the multi-object/multi-channel
다음으로, 다채널 오디오 복호화부(340)는 제1 다운믹스 신호(432)와 트랜스코딩 된 다채널 오디오 부가 정보 비트스트림(501)을 이용하여 입력 신호를 복호화할 수 있다.Next, the
마지막으로 렌더링부(350)는 렌더링 정보에 따라 다객체/다채널 오디오 트랜스코더부(500)로부터 수신한 음성 객체 신호(431)와 다채널 오디오 복호화부(340)가 복호화한 입력 신호를 함께 렌더링하여 다채널 오디오 신호를 출력할 수 있다.
Finally, the
도 6은 본 발명의 제2 실시예에 따른 오디오 부호화 장치를 나타내는 도면이다. 6 is a diagram illustrating an audio encoding apparatus according to a second embodiment of the present invention.
도 6을 참고하면, 본 발명의 일실시예에 따른 오디오 부호화 장치(600)는 다객체 오디오 부호화부(610), 다채널 오디오 부호화부(620), 다운믹스 오디오 부호화부(630), 및 비트스트림 다중화부(640)를 포함할 수 있다.Referring to FIG. 6, the
다객체 오디오 부호화부(610)는 다채널 입력 신호의 특정 채널과 음성 객체 신호를 다운믹스하여 제1 다운믹스 신호를 생성할 수 있다. 또한, 다객체 오디오 부호화부(610)는 다채널 입력 신호의 특정 채널과 음성 객체 신호를 부호화하여 다객체 오디오 부가 정보 비트스트림을 생성할 수 있다. 예를 들어, 다객체 오디오 부호화부(610)는 SAOC로 특정 채널과 음성 객체 신호를 부호화할 수 있다.The
이때, 특정 채널은 다채널 입력 신호에 포함된 복수의 채널 중 일정 방향에 위치한 적어도 하나의 채널일 수 있다. 예를 들어, 입력 신호가 5.1 채널인 경우, 다객체 오디오 부호화부(610)는 FL 채널, FR 채널, C 채널과 같은 전방 채널을 수신하고, 수신한 전방 채널을 다운믹스하여 제1 다운믹스 신호를 생성할 수 있다. 이때, 제1 다운믹스 신호는 모노 신호, 스테레오 신호, 또는 변형된 FL 채널, FR 채널, C 채널로 구성되는 3채널이 될 수 있다.In this case, the specific channel may be at least one channel positioned in a predetermined direction among a plurality of channels included in the multi-channel input signal. For example, when the input signal is a 5.1 channel, the
그리고, 다객체 오디오 부호화부(610)는 제1 다운믹스 신호를 다채널 오디오 부호화부(620)로 전송하고, 다객체 오디오 부가 정보 비트스트림을 비트스트림 다중화부(640)로 전송할 수 있다.In addition, the
다채널 오디오 부호화부(620)는 다채널 입력 신호에서 특정 채널을 제외한 나머지 채널을 수신할 수 있다. 예를 들어, 특정 채널이 5.1 채널의 전방 채널인 경우, 나머지 채널은 LFE 채널, RL 채널, 및 R 채널일 수 있다.The
또한, 다채널 오디오 부호화부(620)는 다객체 오디오 부호화부(610)로부터 수신한 제1 다운믹스 신호와 나머지 신호를 다운믹스하여 제2 다운믹스 신호를 생성하고, 나머지 채널을 부호화하여 다채널 오디오 부가정보 비트스트림을 생성할 수 있다. 예를 들어, 다채널 오디오 부호화부(620)는 MPS를 이용하여 나머지 채널을 부호화할 수 있다.In addition, the
그리고, 다채널 오디오 부호화부(620)는 제2 다운믹스 신호를 다운믹스 오디오 부호화부(630)로 전송하고, 다채널 오디오 부가 정보 비트스트림을 비트스트림 다중화부(640)로 전송할 수 있다.In addition, the
다운믹스 오디오 부호화부(630)는 다채널 오디오 부호화부(620)로부터 수신한 제2 다운믹스 신호를 부호화하여 다운믹스 오디오 비트스트림을 생성할 수 있다. 이때, 다운믹스 오디오 부호화부(630)는 다운믹스 오디오 부가 정보 비트스트림을 비트스트림 다중화부(640)로 전송할 수 있다.The
비트스트림 다중화부(640)는 다객체 오디오 부호화부(610)로부터 수신한 다객체 오디오 부가정보 비트스트림, 다채널 오디오 부호화부(620)로부터 수신한 다채널 오디오 부가정보 비트스트림, 및 다운믹스 오디오 부호화부(630)로부터 수신한 다운믹스 오디오 비트스트림을 하나의 비트스트림이나 패키지로 다중화할 수 있다.
The
도 7은 본 발명의 제2 실시예에 따른 오디오 부호화 장치의 구성간 정보 입출력을 나타내는 도면이다. 7 is a diagram illustrating input/output of information between configurations of an audio encoding apparatus according to a second embodiment of the present invention.
먼저, 다객체 오디오 부호화부(610)는 다채널 입력 신호에 포함된 신호들 중 전방 채널(701)과 음성 객체 신호(702)를 수신할 수 있다.First, the
그리고, 다객체 오디오 부호화부(610)는 수신한 전방 채널(701)과 음성 객체 신호(702)를 다운믹스하여 제1 다운믹스 신호(712)를 생성할 수 있다. 이때, 다객체 오디오 부호화부(610)는 제1 다운믹스 신호(712)를 다채널 오디오 부호화부(620)로 전송하고,In addition, the
또한, 다객체 오디오 부호화부(610)는 다채널 입력 신호의 특정 채널과 음성 객체 신호를 부호화하여 다객체 오디오 부가 정보 비트스트림(711)을 생성할 수 있다. 이때, 다객체 오디오 부호화부(610)는 다객체 오디오 부가 정보 비트스트림(711)을 비트스트림 다중화부(640)로 전송할 수 있다.In addition, the
다음으로, 다채널 오디오 부호화부(620)는 다채널 입력 신호에서 전방 채널을 제외한 나머지 채널(703)을 수신할 수 있다. Next, the
그리고, 다채널 오디오 부호화부(620)는 수신한 제1 다운믹스 신호(712)와 나머지 신호(703)를 다운믹스하여 제2 다운믹스 신호(722)를 생성하고, 제2 다운믹스 신호(722)를 다운믹스 오디오 부호화부(630)로 전송하고,Further, the
또한, 다채널 오디오 부호화부(620)는 나머지 채널(703)을 부호화하여 다채널 오디오 부가정보 비트스트림(721)을 생성하고, 다채널 오디오 부가 정보 비트스트림(721)을 비트스트림 다중화부(640)로 전송할 수 있다.In addition, the
그 다음으로, 다운믹스 오디오 부호화부(630)는 수신한 제2 다운믹스 신호(722)를 부호화하여 다운믹스 오디오 비트스트림(731)을 생성하고, 다운믹스 오디오 부가 정보 비트스트림(731)을 비트스트림 다중화부(640)로 전송할 수 있다.Next, the
마지막으로, 비트스트림 다중화부(640)는 수신한 다객체 오디오 부가정보 비트스트림(711), 다채널 오디오 부가정보 비트스트림(721), 및 다운믹스 오디오 비트스트림(731)을 하나의 비트스트림이나 패키지로 다중화하여 부호화 비트스트림(741)을 생성할 수 있다.
Finally, the
도 8은 본 발명의 제2 실시예에 따른 오디오 복호화 장치를 나타내는 도면이다. 8 is a diagram illustrating an audio decoding apparatus according to a second embodiment of the present invention.
도 8을 참고하면, 본 발명의 일실시예에 따른 오디오 복호화 장치(800)는 비트스트림 역다중화부(810), 다운믹스 오디오 복호화부(820), 다채널 오디오 복호화부(830), 다객체 오디오 복호화부(840), 및 지연부(850)를 포함할 수 있다.Referring to FIG. 8, an
비트스트림 역다중화부(810)는 오디오 부호화 장치(600)로부터 수신한 부호화 비트스트림을 입력 신호의 특정 채널과 음성 객체 신호를 부호화한 다객체 오디오 부가 정보 비트스트림, 입력 신호의 나머지 채널을 부호화한 다채널 오디오 부가 정보 비트스트림, 및 제2 다운믹스 신호를 부호화한 다운믹스 오디오 비트스트림으로 역 다중화할 수 있다.The
이때, 비트스트림 역 다중화부(810)는 다객체 오디오 부가 정보 비트스트림을 다객체 오디오 복호화부(840)에 전송하고, 다채널 오디오 부가 정보 비트스트림을 다채널 오디오 복호화부(830)에 전송하며, 다운믹스 오디오 비트스트림을 다운믹스 오디오 복호화부(820)에 전송할 수 있다.At this time, the
또한 비트스트림 역다중화부(810)는 부호화 비트스트림에 프리셋(preset)의 형태로 포함된 렌더링 정보를 추출하여 다객체 오디오 복호화부(840)에 전송할 수 있다.In addition, the
다운믹스 오디오 복호화부(820)는 비트스트림 역다중화부(810)로부터 수신한 다운믹스 오디오 비트스트림에서 제2 다운믹스 신호를 복호화할 수 있다. 이때, 다운믹스 오디오 복호화부(820)는 복호화한 제2 다운믹스 신호를 다채널 오디오 부호화부(830)로 전송할 수 있다.The
다채널 오디오 복호화부(830)는 비트스트림 역다중화부(810)로부터 수신한 다채널 오디오 부가 정보 비트스트림과 다운믹스 오디오 복호화부(820)로부터 수신한 제2 다운믹스 신호를 이용하여 입력 신호의 나머지 채널과 제1 다운믹스 신호를 복호화할 수 있다. 이때, 입력 신호의 나머지 채널은 입력 신호에 포함된 채널 중에서 다객체 오디오 부호화부(610)가 부호화하지 않은 채널일 수 있다. 예를 들어, 다채널 오디오 복호화부(830)는 다채널 오디오 부가 정보 비트스트림과, 제2 다운믹스 신호에 MPS를 적용하여 나머지 채널과 제1 다운믹스 신호를 복호화할 수 있다.The
또한, 다채널 오디오 복호화부(830)는 제1 다운 믹스 신호를 다객체 오디오 복호화부(840)에 전송하고, 나머지 채널을 지연부(850)에 전송할 수 있다.In addition, the multi-channel
다객체 오디오 복호화부(840)는 비트스트림 역다중화부(810)로부터 수신한 다객체 오디오 부가 정보 비트스트림과 다채널 오디오 복호화부(830)로부터 수신한 제1 다운믹스 신호를 이용하여 입력 신호의 특정 채널과 음성 객체 신호를 복호화할 수 있다. 예를 들어, 다객체 오디오 복호화부(330)는 다객체 오디오 부가정보 비트스트림과 제1 다운믹스 신호에 SAOC를 적용하여 입력 신호의 특정 채널과 음성 객체 신호를 복호화할 수 있다.The multi-object
이때, 다객체 오디오 복호화부(840)는 렌더링 정보에 기초하여 음성 객체 신호의 크기 및 입력 신호의 특정 채널의 크기를 제어하여 출력할 수 있다.In this case, the
지연부(850)는 다객체 오디오 부호화부(840)가 특정 채널을 복호화하는 과정에서 발생하는 지연에 기초하여 다채널 오디오 복호화부(830)가 복호화한 나머지 채널에 지연을 인가하여 출력할 수 있다.The
다채널 오디오 복호화부(830)가 나머지 신호를 복호화하는 시점에서 특정 채널은 아직 제1 다운믹스 신호로 부호화된 상태일 수 있다. 그리고, 다객체 오디오 복호화부(840)가 제1 다운믹스 신호에서 특정 채널을 복호화 하는 과정은 일정 시간을 필요로 한다. 그러므로, 복호화된 나머지 신호를 그대로 출력할 경우, 다객체 오디오 복호화부(840)가 출력하는 특정 채널과 재생 위치 또는 시간이 어긋날 수 있다.When the
즉, 지연부(850)는 다객체 오디오 복호화부(840)가 제1 다운믹스 신호에서 특정 채널을 복호화 하는 과정에 소요되는 시간만큼 나머지 신호를 지연시켜 출력함으로써, 다채널 오디오 복호화부(830)가 출력하는 특정 채널과 지연부(850)가 출력하는 나머지 신호를 동기화할 수 있다.
That is, the
도 9는 본 발명의 제2 실시예에 따른 오디오 복호화 장치의 구성간 정보 입출력을 나타내는 도면이다. 9 is a diagram illustrating input/output of information between configurations of an audio decoding apparatus according to a second embodiment of the present invention.
먼저, 비트스트림 역다중화부(810)는 오디오 부호화 장치(600)로부터 부호화 비트스트림(901)을 수신할 수 있다. 그리고, 비트스트림 역다중화부(810)는 부호화 비트스트림(901)을 입력 신호의 특정 채널과 음성 객체 신호를 부호화한 다객체 오디오 부가 정보 비트스트림(911), 입력 신호의 나머지 채널을 부호화한 다채널 오디오 부가 정보 비트스트림(913), 및 제2 다운믹스 신호를 부호화한 다운믹스 오디오 비트스트림(912)으로 역 다중화할 수 있다.First, the
이때, 비트스트림 역 다중화부(810)는 다객체 오디오 부가 정보 비트스트림(911)을 다객체 오디오 복호화부(840)에 전송하고, 다채널 오디오 부가 정보 비트스트림(913)을 다채널 오디오 복호화부(830)에 전송하며, 다운믹스 오디오 비트스트림(912)을 다운믹스 오디오 복호화부(820)에 전송할 수 있다.At this time, the
다음으로, 다운믹스 오디오 복호화부(820)는 수신한 다운믹스 오디오 비트스트림(912)에서 제2 다운믹스 신호(921)를 복호화할 수 있다. 이때, 다운믹스 오디오 복호화부(820)는 복호화한 제2 다운믹스 신호(921)를 다채널 오디오 부호화부(830)로 전송할 수 있다.Next, the
그 다음으로, 다채널 오디오 복호화부(830)는 수신한 다채널 오디오 부가 정보 비트스트림(913)과 제2 다운믹스 신호(830)를 이용하여 입력 신호의 나머지 채널(932)과 제1 다운믹스 신호(931)를 복호화할 수 있다. 이때, 입력 신호의 나머지 채널은 입력 신호에 포함된 채널 중에서 다객체 오디오 부호화부(610)가 부호화하지 않은 채널일 수 있다. 또한, 다채널 오디오 복호화부(830)는 제1 다운 믹스 신호(931)를 다객체 오디오 복호화부(840)에 전송하고, 나머지 채널(932)을 지연부(850)에 전송할 수 있다.Next, the
다음으로, 다객체 오디오 복호화부(840)는 수신한 다객체 오디오 부가 정보 비트스트림(911)과 제1 다운믹스 신호(931)를 이용하여 입력 신호의 특정 채널(941)과 음성 객체 신호를 복호화할 수 있다. 이때, 다객체 오디오 복호화부(840)는 렌더링 정보에 기초하여 음성 객체 신호의 크기 및 입력 신호의 특정 채널(941)의 크기를 제어하여 출력할 수 있다.Next, the multi-object
그리고, 지연부(850)는 다객체 오디오 부호화부(840)가 특정 채널(941)을 복호화하는 과정에서 발생하는 시간만큼 나머지 채널(932)의 출력에 지연을 인가하여 출력할 수 있다. 구체적으로 지연부(850)는 나머지 채널(932)을 지연시켜 다객체 오디오 부호화부(840)가 출력하는 특정 채널(941)과 동기화하고, 동기화된 나머지 채널(951)을 출력할 수 있다.
In addition, the
도 10은 본 발명의 제1 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.10 is a flowchart showing an audio encoding method according to the first embodiment of the present invention.
단계(1010)에서 다채널 오디오 부호화부(110)는 입력 신호를 다운믹스하여 제1 다운믹스 신호를 생성하고, 입력 신호를 부호화하여 다채널 오디오 부가 정보 비트스트림을 생성할 수 있다.In
단계(1020)에서 다객체 오디오 부호화부(120)는 음성 객체 신호와 단계(1010)에서 생성한 제1 다운믹스 신호를 수신할 수 있다. 그리고, 다객체 오디오 부호화부(120)는 수신한 제1 다운믹스 신호와 음성 객체 신호를 다운믹스하여 제2 다운믹스 신호를 생성하고, 음성 객체 신호를 부호화하여 다객체 오디오 부가 정보 비트스트림을 생성할 수 있다.In
단계(1030)에서 다운믹스 오디오 부호화부(130)는 단계(1020)에서 생성한 제2 다운믹스 신호를 부호화할 수 있다.In
단계(1040)에서 비트스트림 다중화부(140)는 단계(1010)에서 생성한 다채널 오디오 부가정보 비트스트림과 단계(1020)에서 생성한 다객체 오디오 부가정보 비트스트림 및 단계(1030)에서 생성한 다운믹스 오디오 비트스트림을 하나의 비트스트림 구조로 다중화하여 부호화 비트스트림을 생성할 수 있다.
In
도 11은 본 발명의 제1 실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.11 is a flowchart showing an audio decoding method according to the first embodiment of the present invention.
단계(1110)에서 비트스트림 역다중화부(310)는 오디오 부호화 장치(100)로부터 부호화 비트스트림을 수신할 수 있다. 그리고, 비트스트림 역다중화부(310)는 수신한 부호화 비트스트림을 입력 신호를 부호화한 다채널 오디오 부가 정보 비트스트림, 음성 객체 신호를 부호화한 다객체 오디오 부가 정보 비트스트림 및 제2 다운믹스 신호를 부호화한 다운믹스 오디오 비트스트림으로 역 다중화할 수 있다.In
또한 비트스트림 역다중화부(310)는 부호화 비트스트림에 프리셋(preset)의 형태로 포함된 렌더링 정보를 추출할 수 있다.Also, the
단계(1120)에서 다운믹스 오디오 복호화부(320)는 단계(1110)에서 생성한 다운믹스 오디오 비트스트림에서 제2 다운믹스 신호를 복호화할 수 있다. In
단계(1130)에서 다객체 오디오 복호화부(330)는 단계(1110)에서 생성한 다객체 오디오 부가정보 비트스트림과 단계(1120)에서 복호화한 제2 다운믹스 신호를 이용하여 음성 객체 신호와 제1 다운믹스 신호를 복호화할 수 있다.In
단계(1140)에서 다채널 오디오 복호화부(340)는 단계(1110)에서 생성한 다채널 오디오 부가 정보 비트스트림과, 단계(1130)에서 복호화한 제1 다운믹스 신호를 이용하여 입력 신호를 복호화할 수 있다.In
단계(1150)에서 렌더링부(350)는 단계(1110)에서 추출한 렌더링 정보, 또는 외부에서 입력된 렌더링 정보에 기초하여 단계(1130)에서 복호화한 음성 객체 신호의 크기 및 단계(1140)에서 복호화한 입력 신호의 크기를 제어하여 출력할 수 있다.
In
도 12는 본 발명의 제2 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.12 is a flowchart showing an audio encoding method according to a second embodiment of the present invention.
단계(1210)에서 다객체 오디오 부호화부(610)는 다채널 입력 신호의 특정 채널과 음성 객체 신호를 다운믹스하여 제1 다운믹스 신호를 생성할 수 있다. 또한, 다객체 오디오 부호화부(610)는 다채널 입력 신호의 특정 채널과 음성 객체 신호를 부호화하여 다객체 오디오 부가 정보 비트스트림을 생성할 수 있다.In
단계(1220)에서 다채널 오디오 부호화부(620)는 다채널 입력 신호에서 특정 채널을 제외한 나머지 채널을 수신할 수 있다. 또한, 다채널 오디오 부호화부(620)는 단계(1210)에서 생성한 제1 다운믹스 신호와 수신한 나머지 신호를 다운믹스하여 제2 다운믹스 신호를 생성하고, 나머지 채널을 부호화하여 다채널 오디오 부가정보 비트스트림을 생성할 수 있다.In
단계(1230)에서 다운믹스 오디오 부호화부(630)는 단계(1220)에서 생성한 제2 다운믹스 신호를 부호화하여 다운믹스 오디오 비트스트림을 생성할 수 있다. In
단계(1240)에서 비트스트림 다중화부(640)는 단계(1210)에서 생성한 다객체 오디오 부가정보 비트스트림, 단계(1220)에서 생성한 다채널 오디오 부가정보 비트스트림, 및 단계(1230)에서 생성한 다운믹스 오디오 비트스트림을 하나의 비트스트림이나 패키지로 다중화하여 부호화 비트스트림을 생성할 수 있다.
In
도 13은 본 발명의 제2 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.13 is a flowchart illustrating an audio encoding method according to a second embodiment of the present invention.
단계(1310)에서 비트스트림 역다중화부(810)는 오디오 부호화 장치(600)로부터 부호화 비트스트림을 수신할 수 있다. 그리고, 비트스트림 역다중화부(810)는 수신한 부호화 비트스트림을 입력 신호의 특정 채널과 음성 객체 신호를 부호화한 다객체 오디오 부가 정보 비트스트림, 입력 신호의 나머지 채널을 부호화한 다채널 오디오 부가 정보 비트스트림, 및 제2 다운믹스 신호를 부호화한 다운믹스 오디오 비트스트림으로 역 다중화할 수 있다.In
또한, 비트스트림 역다중화부(810)는 부호화 비트스트림에 프리셋(preset)의 형태로 포함된 렌더링 정보를 추출할 수 있다.In addition, the
단계(1320)에서 다운믹스 오디오 복호화부(820)는 단계(1310)에서 생성한 다운믹스 오디오 비트스트림에서 제2 다운믹스 신호를 복호화할 수 있다. In
단계(1330)에서 다채널 오디오 복호화부(830)는 단계(1310)에서 생성한 다채널 오디오 부가 정보 비트스트림과 단계(1320)에서 생성한 제2 다운믹스 신호를 이용하여 입력 신호의 나머지 채널과 제1 다운믹스 신호를 복호화할 수 있다. 이때, 입력 신호의 나머지 채널은 입력 신호에 포함된 채널 중에서 다객체 오디오 부호화부(610)가 부호화하지 않은 채널일 수 있다.In
단계(1340)에서 다객체 오디오 복호화부(840)는 단계(1310)에서 생성한 다객체 오디오 부가 정보 비트스트림과 단계(1330)에서 복호화한 제1 다운믹스 신호를 이용하여 입력 신호의 특정 채널과 음성 객체 신호를 복호화할 수 있다.In
단계(1350)에서 다객체 오디오 복호화부(840)는 단계(1310)에서 추출한 렌더링 정보, 또는 외부에서 입력된 렌더링 정보에 기초하여 단계(1340)에서 복호화한 음성 객체 신호의 크기 및 입력 신호의 특정 채널의 크기를 제어하여 출력할 수 있다.In
단계(1360)에서 지연부(850)는 단계(1340)가 수행되는 과정에서 발생하는 지연에 기초하여 단계(1330)에서 복호화한 나머지 채널에 지연을 인가하여 출력할 수 있다.In
구체적으로, 지연부(850)는 단계(1340)가 수행되는 과정에 소요되는 시간만큼 나머지 신호를 지연시켜 출력함으로써, 단계(1350)에서 출력하는 특정 채널과 단계(1360)에서 출력하는 나머지 신호를 동기화할 수 있다.
Specifically, the
본 발명은 MPS로 대표되는 파라메트릭 다채널 오디오 코덱과 SAOC로 대표되는 파라메트릭 다객체 오디오 코덱을 결합하여 오디오 신호를 부호화함으로써, 스테레오 시스템 및 다채널 오디오 시스템에서 음성신호의 음질을 개선하거나 음성신호와 주변음 간의 볼륨 차를 제어하여 음성신호가 명료하게 재생되게 할 수 있다.
The present invention encodes an audio signal by combining a parametric multi-channel audio codec represented by MPS and a parametric multi-object audio codec represented by SAOC, thereby improving sound quality of a speech signal in a stereo system and a multi-channel audio system, or By controlling the volume difference between the sound and the surrounding sound, the audio signal can be clearly reproduced.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.As described above, although the present invention has been described by the limited embodiments and drawings, the present invention is not limited to the above embodiments, and various modifications and variations from these descriptions are those of ordinary skill in the field to which the present invention belongs. This is possible.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.Therefore, the scope of the present invention is limited to the described embodiments and should not be defined, but should be defined by the claims to be described later as well as equivalents to the claims.
110: 다채널 오디오 부호화부
120: 다객체 오디오 부호화부
130: 다운믹스 오디오 부호화부
140: 비트스트림 다중화부110: multi-channel audio encoder
120: multi-object audio encoder
130: downmix audio encoder
140: bitstream multiplexer
Claims (20)
상기 제1 다운믹스 신호 및 상기 N개 채널들 중 M개 채널을 제외한 나머지 채널들에 대응하는 다채널 오디오 신호를 다운믹스하여 제2 다운믹스 신호를 생성하고, 상기 나머지 채널들에 대응하는 다채널 오디오 신호를 부호화하여 다채널 오디오 부가정보 비트스트림을 생성하는 다채널 오디오 부호화부;
상기 제2 다운믹스 신호를 부호화하여 다운믹스 오디오 비트스트림을 생성하는 다운믹스 오디오 부호화부; 및
상기 다객체 오디오 부가정보 비트스트림, 다채널 오디오 부가정보 비트스트림 및 다운믹스 오디오 비트스트림을 다중화하여 부호화 비트스트림을 출력하는 비트스트림 다중화부
를 포함하는 오디오 부호화 장치.A first downmix signal is generated by downmixing a multi-channel audio signal and a voice object signal corresponding to specified M channels among N channels, and a multi-channel audio signal and a voice object corresponding to the M channels A multi-object audio encoder that encodes a signal and generates a multi-object audio side information bitstream -M is a number less than N-;
A second downmix signal is generated by downmixing the first downmix signal and a multi-channel audio signal corresponding to the remaining channels except for M channels among the N channels, and a multi-channel corresponding to the remaining channels A multi-channel audio encoder for encoding an audio signal to generate a multi-channel audio side information bitstream;
A downmix audio encoder configured to generate a downmix audio bitstream by encoding the second downmix signal; And
A bitstream multiplexer for outputting an encoded bitstream by multiplexing the multi-object audio side information bitstream, a multichannel audio side information bitstream, and a downmix audio bitstream
Audio encoding device comprising a.
상기 다운믹스 오디오 비트스트림에서 제2 다운믹스 신호를 복호화하는 다운믹스 오디오 복호화부;
상기 다채널 오디오 부가 정보 비트스트림과 상기 제2 다운믹스 신호를 이용하여 상기 나머지 채널과 제1 다운믹스 신호를 복호화하는 다채널 오디오 복호화부; 및
상기 제1 다운믹스 신호와 상기 다객체 오디오 부가정보 비트스트림을 이용하여 상기 M개 채널과 음성 객체 신호를 복호화하는 다객체 오디오 복호화부
를 포함하는 오디오 복호화 장치.A bitstream demultiplexer that demultiplexes the encoded bitstream received from the audio encoding device into a multi-object audio side information bitstream, a multi-channel audio side information bitstream, and a downmix audio bitstream.- The multi-object audio side information bitstream is , A multi-channel audio signal and a voice object signal corresponding to specified M channels among N channels are encoded, and the multi-channel audio side information bitstream is the remaining channels excluding M channels among N channels. Is encoded with a multi-channel audio signal corresponding to, M is a number less than N;
A downmix audio decoding unit decoding a second downmix signal from the downmix audio bitstream;
A multi-channel audio decoder that decodes the remaining channels and the first downmix signal by using the multi-channel audio side information bitstream and the second downmix signal; And
A multi-object audio decoding unit that decodes the M channels and voice object signals using the first downmix signal and the multi-object audio side information bitstream
Audio decoding device comprising a.
상기 다객체 오디오 복호화부가 상기 M개 채널을 복호화하는 과정에서 발생하는 지연에 기초하여 상기 나머지 채널에 지연을 인가하여 출력하는 지연부
를 더 포함하는 오디오 복호화 장치.The method of claim 13,
Delay unit for applying a delay to the remaining channels and outputting the delay based on the delay generated in the process of decoding the M channels by the multi-object audio decoding unit
Audio decoding apparatus further comprising a.
상기 비트스트림 역다중화부는,
상기 부호화 비트스트림에 프리셋 형태로 포함된 렌더링 정보를 추출하는 오디오 복호화 장치.The method of claim 13,
The bitstream demultiplexer,
An audio decoding apparatus for extracting rendering information included in the encoded bitstream in a preset form.
상기 다객체 오디오 복호화부는,
렌더링 정보에 기초하여 상기 음성 객체 신호의 크기 및 상기 M개 채널의 크기를 제어하여 출력하는 오디오 복호화 장치.The method of claim 13,
The multi-object audio decoding unit,
An audio decoding apparatus configured to control and output the size of the voice object signal and the M channels based on rendering information.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130043382 | 2013-04-19 | ||
KR20130043382 | 2013-04-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140126222A KR20140126222A (en) | 2014-10-30 |
KR102191260B1 true KR102191260B1 (en) | 2020-12-16 |
Family
ID=51995665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130094386A KR102191260B1 (en) | 2013-04-19 | 2013-08-08 | Apparatus and method for encoding/decoding of audio using multi channel audio codec and multi object audio codec |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102191260B1 (en) |
-
2013
- 2013-08-08 KR KR1020130094386A patent/KR102191260B1/en active IP Right Grant
Non-Patent Citations (2)
Title |
---|
J.Breebaart, et al. MPEG spatial audio coding/MPEG surround: overview and current status. Audio Engineering Society Convention 119. 2005.10.10. |
Jonas Engdegard, et al. Spatial audio object coding (SAOC) - The upcoming MPEG standard on parametric object based audio coding. Audio Engineering Society Convention 124. 2008.05.20. |
Also Published As
Publication number | Publication date |
---|---|
KR20140126222A (en) | 2014-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101506837B1 (en) | Method and apparatus for generating side information bitstream of multi object audio signal | |
KR101283783B1 (en) | Apparatus for high quality multichannel audio coding and decoding | |
CA2645912C (en) | Methods and apparatuses for encoding and decoding object-based audio signals | |
JP4601669B2 (en) | Apparatus and method for generating a multi-channel signal or parameter data set | |
RU2618383C2 (en) | Encoding and decoding of audio objects | |
JP4943418B2 (en) | Scalable multi-channel speech coding method | |
KR101100214B1 (en) | A method and an apparatus for processing an audio signal | |
RU2406166C2 (en) | Coding and decoding methods and devices based on objects of oriented audio signals | |
JP2012063782A (en) | System, medium, and method of encoding/decoding multi-channel audio signals | |
JP2009532712A (en) | Media signal processing method and apparatus | |
KR100636145B1 (en) | Exednded high resolution audio signal encoder and decoder thereof | |
KR101949756B1 (en) | Apparatus and method for audio signal processing | |
KR20090039642A (en) | Method of decoding a dmb signal and apparatus of decoding thereof | |
KR102191260B1 (en) | Apparatus and method for encoding/decoding of audio using multi channel audio codec and multi object audio codec | |
KR20140017344A (en) | Apparatus and method for audio signal processing | |
KR20120071072A (en) | Broadcastiong transmitting and reproducing apparatus and method for providing the object audio | |
KR20080035448A (en) | Method and apparatus for encoding/decoding multi channel audio signal | |
WO2006011367A1 (en) | Audio signal encoder and decoder | |
KR101950455B1 (en) | Apparatus and method for audio signal processing | |
KR101949755B1 (en) | Apparatus and method for audio signal processing | |
Breebaart et al. | 19th INTERNATIONAL CONGRESS ON ACOUSTICS MADRID, 2-7 SEPTEMBER 2007 | |
KR20140128565A (en) | Apparatus and method for audio signal processing | |
KR20080030847A (en) | Method for encoding and decoding an audio signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
X091 | Application refused [patent] | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |