KR102335911B1 - 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치 - Google Patents

객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치 Download PDF

Info

Publication number
KR102335911B1
KR102335911B1 KR1020200128172A KR20200128172A KR102335911B1 KR 102335911 B1 KR102335911 B1 KR 102335911B1 KR 1020200128172 A KR1020200128172 A KR 1020200128172A KR 20200128172 A KR20200128172 A KR 20200128172A KR 102335911 B1 KR102335911 B1 KR 102335911B1
Authority
KR
South Korea
Prior art keywords
audio signal
signal
audio
reverberation
rendering
Prior art date
Application number
KR1020200128172A
Other languages
English (en)
Other versions
KR20200119225A (ko
Inventor
백승권
서정일
이태진
강경옥
성종모
김진웅
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020130069101A external-priority patent/KR20140047509A/ko
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20200119225A publication Critical patent/KR20200119225A/ko
Priority to KR1020210170074A priority Critical patent/KR102478163B1/ko
Application granted granted Critical
Publication of KR102335911B1 publication Critical patent/KR102335911B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

오디오 부/복호화 장치를 개시한다. 보다 구체적으로 오디오 부호화 장치는 오디오 신호를 부호화하는 오디오 신호 부호화부; 및 상기 부호화된 오디오 신호를 비트스트림으로 변환하여 전송하는 비트스트림 전송부를 포함하고, 상기 오디오 신호는 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 포함할 수 있다.

Description

객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치{AUDIO CODING/DECODING APPARATUS USING REVERBERATION SIGNAL OF OBJECT AUDIO SIGNAL}
아래의 설명은 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치에 관한 것으로 보다 구체적으로 객체 오디오 신호의 잔향 신호를 포함하는 오디오 신호를 이용하여 오디오 부호화 또는 오디오 복호화하는 오디오 부/복호화 장치에 관한 것이다.
종래의 음향 장면을 구성하는 방법에 있어서, MPEG SAOC(Spatial Audio Object Coding)와 Dolby Atmos는 각각 입력 받는 입력 신호 또는 객체를 이용하여 음향 장면을 구성한다.
MPEG SAOC은 입력 오디오 신호를 객체로 간주하고, 해당 입력 오디오 신호를 입력 받는다. 그리고, MPEG SAOC은 입력되는 렌더링 정보에 대해서 음향장면을 구성한다. 특히, MPEG SAOC은 저비트율로 전송이 가능하며, 고압축 방식으로 spatial audio coding 방식을 이용한다.
그리고, Dolby Atmos는 극장용 다채널 오디오 포맷으로, Beds라는 채널 신호와 object라는 객체신호를 전송 혹은 저장하며, 메타데이터를 이용하여 음향 장면을 구성한다.
그러나, 이러한 종래의 방식은 입력 오디오 신호 또는 객체 신호를 이용하여 음향장면을 구성하기 때문에, 입력 오디오 신호 또는 객체 신호에 따른 콘텐츠의 의도에 대응하지 않지 않는 음향장면을 포함하는 경우가 발생한다. 이는 음향장면을 구성하기 위한 기본적인 신호만을 포함하고 있기 때문이다.
따라서, 입력 오디오 신호 또는 객체 신호에 따른 콘텐츠의 의도에 대응하여 정확한 음향장면을 구성할 수 있는 방법이 강구되어야 한다.
다채널 오디오 신호를 재현하는데 있어서, 채널 오디오 신호, 객체 오디오 신호 및 객체 오디오 신호의 잔향 신호를 이용함으로써, 보다 효과적이며 현실감 있는 오디오 신호를 재현할 수 있는 오디오 부/복호화 장치를 제공하는 것이다.
객체 오디오 신호와 해당 객체 오디오 신호에 대응하는 객체 오디오 신호의 잔향 신호를 렌더링함으로써, 객체 오디오 신호의 잔향 신호에 따른 실감나는 음향 장면을 재구성할 수 있는 부/복호화 장치를 제공하는 것이다.
일실시예에 따른 오디오 부호화 장치는 오디오 신호를 부호화하는 오디오 신호 부호화부; 및 상기 부호화된 오디오 신호를 비트스트림으로 변환하여 전송하는 비트스트림 전송부를 포함하고, 상기 오디오 신호는 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 포함할 수 있다.
일실시예에 따른 오디오 복호화 장치는 부호화된 오디오 신호를 포함하는 비트스트림을 수신하는 비트스트림 수신부; 및 상기 비트스트림에 포함된 오디오 신호를 복호화하여 상기 비트스트림으로부터 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 추출하는 오디오 신호 복호화부를 포함할 수 있다.
일실시예에 따른 오디오 복호화 장치는 상기 비트스트림에 포함된 렌더링 정보에 기초하여 상기 추출된 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 렌더링하는 오디오 렌더링부를 더 포함할 수 있다.
일실시예에 따른 오디오 부호화 방법은 오디오 신호를 부호화하는 단계; 및 상기 부호화된 오디오 신호를 비트스트림으로 변환하여 전송하는 단계를 포함하고, 상기 오디오 신호는 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 포함할 수 있다.
일실시예에 따른 오디오 복호화 방법은 부호화된 오디오 신호를 포함하는 비트스트림을 수신하는 단계; 상기 비트스트림에 포함된 오디오 신호를 복호화하여 상기 비트스트림으로부터 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 추출하는 단계; 및 상기 비트스트림에 포함된 렌더링 정보에 기초하여 상기 추출된 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 렌더링하는 단계를 포함할 수 있다.
일실시예에 따른 오디오 부/복호화 장치는 다채널 오디오 신호를 재현하는데 있어서, 채널 오디오 신호, 객체 오디오 신호 및 객체 오디오 신호의 잔향 신호를 이용함으로써, 보다 효과적이며 현실감 있는 오디오 신호를 재현할 수 있다.
일실시예에 따른 오디오 부/복호화 장치는 객체 오디오 신호와 해당 객체 오디오 신호에 대응하는 객체 오디오 신호의 잔향 신호를 렌더링함으로써, 객체 오디오 신호의 잔향 신호에 따른 실감나는 음향 장면을 재구성할 수 있다.
도 1은 일실시예에 따른 오디오 부/복호화 장치를 도시한 도면이다.
도 2는 일실시예에 따른 오디오 부호화 장치를 도시한 도면이다.
도 3은 일실시예에 따른 오디오 복호화 장치를 도시한 도면이다.
도 4는 일실시예에 따른 도2의 오디오 부호화 장치를 구체화한 도면이다.
도 5는 일실시예에 따른 도3의 오디오 복호화 장치를 구체화한 도면이다.
도 6은 일실시예에 따른 렌더링 정보의 구성을 도시한 도면이다.
도 7은 일실시예에 따른 오디오 부호화 방법을 도시한 도면이다.
도 8은 일실시예에 따른 오디오 복호화 방법을 도시한 도면이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 일실시예에 따른 오디오 부/복호화 장치를 도시한 도면이다.
도 1을 참고하면, 오디오 부호화 장치(101)는 채널 오디오 신호, 객체 오디오 신호 및 객체 오디오 신호의 잔향 신호를 포함하는 오디오 신호를 수신할 수 있다. 이 때, 오디오 부호화 장치(101)는 채널 오디오 신호, 객체 오디오 신호를 포함하여 객체 오디오 신호의 잔향 신호를 객체로 간주하여 오디오 신호를 수신할 수 있다. 그리고, 오디오 부호화 장치(101)는 위에서 언급한 3가지 형태의 오디오 신호를 포함하는 오디오 신호를 반드시 수신해야 한다.
그리고, 오디오 부호화 장치(101)는 렌더링 정보를 수신할 수 있다. 렌더링 정보는 부가 데이터로써, 이득값 기반의 렌더링 정보 및 시간 지연과 관련된 렌더링 정보를 포함할 수 있다. 또한, 렌더링 정보는 오디오 신호를 출력하는 경우, 오디오 신호에 대응하는 장면 정보를 포함할 수 있다.
오디오 부호화 장치(101)는 수신한 오디오 신호를 부호화 할 수 있다. 그리고, 오디오 부호화 장치(101)는 렌더링 정보를 비트열로 변환할 수 있다. 일례로, 오디오 부호화 장치(101)는 바이너리(Binary) 변환하여 렌더링 정보를 비트열로 변환할 수 있다. 또한, 오디오 부호화 장치(101)는 오디오 신호와 렌더링 정보를 동시에 부호화 할 수 있다. 이 때, 오디오 부호화 장치(101)는 렌더링 정보를 비트열로 변환할 수 있는 블록을 포함할 수 있다.
그리고, 오디오 부호화 장치(101)는 부호화 된 오디오 신호를 비트스트림으로 변환할 수 있다. 오디오 부호화 장치(101)는 렌더링 정보를 비트열로 변환할 수 있는 블록을 포함할 수 있다. 오디오 부호화 장치(101)는 렌더링 정보와 부호화 된 오디오 신호를 비트스트림으로 변환할 수 있다. 비트스트림은 렌더링 정보와 부호화 된 오디오 신호를 포함할 수 있다. 그리고, 오디오 부호화 장치(101)는 변환된 비트스트림을 오디오 복호화 장치(102)로 전송할 수 있다.
오디오 복호화 장치(102)는 오디오 부호화 장치(101)로부터 변환된 비트스트림을 수신할 수 있다. 그리고, 오디오 복호화 장치(102)는 수신한 비트스트림에 포함된 오디오 신호를 복호화하여 비트스트림으로부터 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 추출할 수 있다. 그리고, 오디오 복호화 장치(102)는 비트스트림에 포함된 렌더링 정보에 기초하여 상기 추출된 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 렌더링할 수 있다. 오디오 복호화 장치(102)는 렌더링 된 다채널의 오디오 신호를 출력할 수 있다.
도 2는 일실시예에 따른 오디오 부호화 장치를 도시한 도면이다.
도 2를 참고하면, 오디오 부호화 장치(201)은 오디오 신호 부호화부(202), 비트스트림 전송부(203)을 포함할 수 있다.
오디오 신호 부호화부(202)는 오디오 신호를 부호화할 수 있다. 오디오 신호는 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 포함할 수 있다.
채널 오디오 신호는 일반적으로 사용되는 채널 오디오 신호로 재생 시 임의의 재생 장치의 채널로 할당되는 신호일 수 있다. 여기서, 채널 오디오 신호는 렌더링 정보에 의해서 가변되지 않는 신호일 수 있다. 그리고, 채널 오디오 신호는 N개의 채널 오디오 신호에 대해서 다음과 같은 수학식 1을 이용하여 vector 열로 정리할 수 있다.
Figure 112020104895441-pat00001
객체 오디오 신호는 복수의 오디오 신호 중 특정 오디오 신호를 객체 오디오 신호로 정의하여 렌더링을 수행하는 주체로 활용할 수 있다. 여기서, 객체 오디오 신호는 재생 장치의 기하학 위치 해석을 거쳐 임의의 지점에 정의될 수 있는 신호일 수 있다. 객체 오디오 신호는 M개의 객체 오디오 신호에 대하여 다음과 같은 수학식 2를 이용하여 vertor열로 구성된 행렬로 표현할 수 있다.
Figure 112020104895441-pat00002
이 때, 수학식 2는 객체 오디오 신호의 위치 정보와 객체 오디오 신호의 지연 정보에 대하여 독립적으로 렌더링을 수행할 때, 사용할 수 있다.
객체 오디오 신호가 행렬로 표현될 수 있는 이유는 각각의 객체 오디오 신호는 여러 개의 채널 오디오 신호로 구성될 수 있기 때문이다. 일례로, 객체 오디오 신호는 첫 번째 객체 오디오 신호
Figure 112020104895441-pat00003
가 스테레오로 구성되어 있다면, 수학식 3와 같이 표현할 수 있다.
Figure 112020104895441-pat00004
객체 오디오 신호의 잔향 신호는 객체 오디오 신호에 적용되는 잔향 신호로써, 객체 오디오 신호의 음장감을 표현할 수 있다. 그리고, 객체 오디오 신호의 잔향 신호는 객체 오디오 신호에 대응하는 신호로 M개의 객체 오디오 신호에 대한 잔향 신호를 포함할 수 있다. 객체 오디오 신호의 잔향 신호는 수학식 4와 과 같이 표현할 수 있다.
Figure 112020104895441-pat00005
또한, 객체 오디오 신호의 잔향 신호는 객체 오디오 신호와 동일하게 여러 개의 채널 오디오 신호로 구성될 수 있다. 일례로, 객체 오디오 신호의 잔향 신호는 5.1의 5채널로 구성될 경우, 수학식 5와 같이 표현할 수 있다.
Figure 112020104895441-pat00006
여기서, 오디오 신호 부호화부(202)는 객체 오디오 신호에 대하여 다양한 레이아웃을 갖는 잔향 신호를 포함하여, 오디오 신호를 부호화할 수 있다.
비트스트림 전송부(203)는 부호화된 오디오 신호를 비트스트림으로 변환할 수 있다. 비트스트림 전송부(203)는 상기 부호화된 오디오 신호 및 상기 오디오 신호의 출력을 위한 렌더링 정보를 비트스트림으로 생성할 수 있다. 렌더링 정보는 오디오 신호에 대한 부가 데이터일 수 있다. 다시 말해, 렌더링 정보는 오디오 신호에 적용되어 음향과 관련된 장면 정보를 재생할 수 있는 정보일 수 있다. 렌더링 정보는 오디오 객체의 위치 정보, 오디오 객체의 음압 정보 및 오디오 객체의 지연 정보 중 적어도 하나를 포함할 수 있다. 렌더링 정보는 수학식 6과 같이 표현할 수 있다.
Figure 112020104895441-pat00007
R(t)는 객체 오디오 신호의 위치 정보이며, Gi(t)는 객체 오디오 신호의 음압일 수 있다. 그리고, D(t)는 객체 오디오 신호의 지연을 나타낼 수 있다. G1(t)과 G2(t)는 수신한 객체 오디오 신호에 대하여 음압 조절을 위한 스케일 행렬 일 수 있다. 그리고, t는 시간에 대한 인덱스일 수 있다.
이 때, 객체 오디오 신호의 위치 정보와 객체 오디오 신호의 지연 정보를 동시에 렌더링을 수행할 경우, 수학식 7과 같이 표현할 수 있다.
Figure 112020104895441-pat00008
그리고, 비트스트림 전송부(203)는 변환된 비트스트림을 오디오 복호화 장치로 전송할 수 있다.
3은 일실시예에 따른 오디오 복호화 장치를 도시한 도면이다.
도 3을 참고하면, 오디오 복호화 장치(301)는 비트스트림 수신부(302), 오디오 신호 복호화부(303), 오디오 렌더링부(304)를 포함할 수 있다.
비트스트림 수신부(302)는 오디오 부호화 장치로부터 부호화된 오디오 신호를 포함하는 비트스트림을 수신할 수 있다.
오디오 신호 복호화부(303)는 비트스트림에 포함된 오디오 신호를 복호화 할수 있다. 구체적으로 오디오 신호 복호화부(303)는 비트스트림으로부터 채널 오디오 신호, 객체 오디오 신호 및 객체 오디오 신호의 잔향 신호를 추출할 수 있다. 일례로, 오디오 신호 복호화부(303)는 추출된 채널 오디오 신호, 객체 오디오 신호 및 객체 오디오 신호의 잔향 신호에 대응하여 수학식 8, 수학식 9, 수학식 10와 같이 표현될 수 있다.
Figure 112020104895441-pat00009
Figure 112020104895441-pat00010
Figure 112020104895441-pat00011
오디오 렌더링부(304)는 비트스트림에 포함된 렌더링 정보에 기초하여 상기 추출된 채널 오디오 신호, 객체 오디오 신호 및 객체 오디오 신호의 잔향 신호를 렌더링할 수 있다. 또한, 오디오 렌더링부(304)는 렌더링 정보의 음향과 관련된 장면정보에 기초하여 음향장면을 구성할 수 있다.
구체적으로, 오디오 렌더링부(304)는 오디오 신호를 렌더링하는 동작 원리를 수학식 11과 같이 표현할 수 있다.
Figure 112020104895441-pat00012
수학식 11에서 첫 번째 항이 적용되는 과정을 살펴보면, 객체 오디오 신호는 음압이 조절될 수 있다. 객체 오디오 신호의 음압이 조절되는 과정은 수학식 12과 같이 표현될 수 있다.
Figure 112020104895441-pat00013
음압이 조절된
Figure 112020104895441-pat00014
는 음상 정위 행렬 P(t)에 의하여 실제적으로 출력되는 재생 장치의 스피커 위치에 할당될 수 있다. 그리고, 음상 정위 행렬 P(t)의 요소는 음압의 이득 값으로 표현될 수 있다. 여기서, 이득 값은 0에서 1사이의 실수 값을 포함할 수 있다. 그리고, 출력할 수 있는 채널의 수가 N인 경우,
Figure 112020104895441-pat00015
는 수학식 13와 같은 음상 정위 행렬이 적용될 수 있다.
Figure 112020104895441-pat00016
수학식 13에서 객체 오디오 신호는 객체 오디오 신호
Figure 112020104895441-pat00017
J개의 layout으로 구성되어 있는 경우, 수학식 14과 같이 표현될 수 있다.
Figure 112020104895441-pat00018
그리고, 음상 정위 행렬은 수학식 15를 이용하여 음상 정위 행렬의 요소 별로 연산 과정을 확인할 수 있다.
Figure 112020104895441-pat00019
따라서, 음상 정위 행렬 P(t)에 의해 출력되는 신호는 수학식 16와 같이 표현할 수 있다.
Figure 112020104895441-pat00020
그리고, 수학식 10에서 두 번째 항은 동일한 dimension의 행렬 연산을 수행할 수 있다. 그리고, dimension의 행렬 연산은 수학식 17과 같이 표현될 수 있다.
Figure 112020104895441-pat00021
또한, 수학식 17에서 객체 오디오 신호는 객체 오디오 신호
Figure 112020104895441-pat00022
J개의 layout으로 구성되어 있는 경우, 수학식 18과 같이 표현될 수 있다.
Figure 112020104895441-pat00023
여기서, 객체 오디오 신호의 지연 연산 과정은 음상 정위 행렬 적용 연산과 같이 행렬 곱셈으로 표현될 수 없어서 연산자
Figure 112020104895441-pat00024
를 활용하여 표현할 수 있다. 그리고, 지연 연산 행렬 D(t)에 의해서 출력되는 신호는 수학식 19과 같이 표현할 수 있다.
Figure 112020104895441-pat00025
오디오 렌더링부(304)는 음상 정위 행렬과 지연 연산 행렬이 독립적으로 렌더링 과정에 적용할 수 있다. 그리고, 오디오 렌더링부(304)는 음상 정위 행렬과 지연 연산 행렬을 동시에 적용하는 경우, 수학식 20을 이용하여 PD(t) 행렬을 표현할 수 있다.
Figure 112020104895441-pat00026
오디오 렌더링부(304)는 수학식 20의 연산 과정을 통해 수학식 21과 같은 결과를 추출할 수 있다.
Figure 112020104895441-pat00027
오디오 렌더링부(304)는 위에서 언급한 수학식을 이용하여 객체 오디오 신호를 출력할 수 있는 채널 신호로 할당할 수 있다. 그리고, 오디오 렌더링부(304)는 할당된 객체 오디오 신호를 복호화 된 채널 오디오 신호와 취합할 수 있다. 그리고, 오디오 렌더링부(304)는 최종적으로 출력할 수 있는 출력 신호를 생성할 수 있다.
그리고, 오디오 렌더링부(304)는 객체 오디오 신호의 잔향 신호를 수학식 22 또는 수학식 23와 같은 과정을 통해 렌더링할 수 있다.
Figure 112020104895441-pat00028
Figure 112020104895441-pat00029
수학식 22과 수학식 23을 이용한 객체 오디오 신호의 잔향 신호에 렌더링 과정은 객체 오디오 신호를 렌더링할 수 있으며, 객체 오디오 신호에 대응하는 객체 오디오 신호의 잔향 신호를 렌더링함으로써, 보다 현실감 높은 음향 장면을 연출할 수 있다.
또한, 오디오 렌더링부(304)는 상기 객체 오디오 신호를 제어하는 경우, 해당 객체 오디오 신호에 대응하는 객체 오디오 신호의 잔향 신호를 제어할 수 있다. 일례로, 오디오 렌더링부(304)는 객체 오디오 신호
Figure 112020104895441-pat00030
를 렌더링하는 과정에서 제고하고자 할 때, 수학식 11의 이득 값에서
Figure 112020104895441-pat00031
와 같이 값의 해를 할당할 수 있다. 그리고, 오디오 렌더링부(304)는 수학식 11의
Figure 112020104895441-pat00032
와 동일하게 객체 오디오 신호의 잔향 신호를 객체 오디오 신호의 인덱스에 대응하여 제어할 수 있다. 또한, 오디오 렌더링부(304)는 수학식 22의 이득 값에서
Figure 112020104895441-pat00033
와 같이 값의 해를 할당하거나, 수학식 23에서
Figure 112020104895441-pat00034
와 같이 객체 오디오 신호를 제어할 수 있다.
그리고, 최종적으로 출력할 수 있는 출력 신호는 렌더링 된 객체 오디오 신호, 렌더링 된 객체 오디오 신호의 잔향 신호 및 복호화 된 채널 오디오 신호가 통합된 신호일 수 있다. 그리고, 출력 신호는 수학식 24과 같이 표현될 수 있다.
Figure 112020104895441-pat00035
수학식 24에서는
Figure 112020104895441-pat00036
Figure 112020104895441-pat00037
로 구분할 수 있다. 다시 말해, 출력 신호는 렌더링 된 객체 오디오 신호의 정보와 렌더링 된 객체 오디오 신호의 잔향 신호의 정보를 서로 다른 방식을 통해 전송될 수 있다. 따라서, 수학식 23에서는 각각의 렌더링 정보로써 와 로 전송되어야 한다고 명시하고 있다.
그리고, 수학식 23에서 복호화 된 채널 오디오 신호를
Figure 112020104895441-pat00038
로 표기한 것은 최종적인 출력할 수 있는 채널의 수와 복호화 된 채널 오디오 신호가 다를 경우, 복호화 된 채널 오디오 신호
Figure 112020104895441-pat00039
가 다운 믹스 된 형태의 신호로 표현했기 때문이다. 일례로, 복호화 된 채널 오디오 신호는 N개였으나,
Figure 112020104895441-pat00040
Figure 112020104895441-pat00041
에 의해 출력되는 출력 신호와 채널의 수를 K개로 한다면, 다운 믹스 행렬을 통해
Figure 112020104895441-pat00042
Figure 112020104895441-pat00043
로 변환할 수 있다. 다시 말해,
Figure 112020104895441-pat00044
Figure 112020104895441-pat00045
의 열 행렬의 차원 수도 K개가 될 수 있다.
여기서, 다운 믹스 행렬은 수학식 25와 같이 표현될 수 있다.
Figure 112020104895441-pat00046
그리고, 수학식 25를 기초하여 복호화 된 채널 오디오 신호가 N개, 출력 신호가 K개일 때의 다운 믹스 과정은 수학식 26와 같이 표현될 수 있다.
Figure 112020104895441-pat00047
이 때, 복호화 된 채널 오디오 신호가
Figure 112020104895441-pat00048
Figure 112020104895441-pat00049
의 열행렬의 차원수도 N인 경우, 출력 신호는 수학식 23에 수학식 24을 반영함으로써, 수학식 27과 같이 표현될 수 있다.
Figure 112020104895441-pat00050
다시 말해, 출력 신호는 N개의 채널 오디오 신호에 대한 렌더링을 수행한 후, DMX(t)를 적용하여 다운 믹스를 수행할 수 있다. 또한, 시간 인덱스 t는 DMX(t)의 정보의 시간에 따라 변화될 수 있다.
오디오 부호화 장치(101) 및 오디오 복호화 장치(102)는 객체 오디오 신호에 대응하는 객체 오디오 신호의 잔향 신호를 이용함으로써, 원 음향 엔지니어의 콘텐츠 생성 저작 의도를 충분히 반영할 수 있다. 그리고, 오디오 부호화 장치(101) 및 오디오 복호화 장치(102)는 객체 오디오 신호의 잔향 신호를 제어할 수 있다. 따라서, 오디오 부호화 장치(101) 및 오디오 복호화 장치(102)는 객체 오디오 신호의 잔향 신호를 추가적으로 제어하기 위하여 객체 오디오 신호의 잔향 신호에 해당하는 렌더링 정보를 포함할 수 있다.
도 4는 일실시예에 따른 도2의 오디오 부호화 장치를 구체화한 도면이다.
도 4를 참고하면, 오디오 부호화 장치는 오디오 신호 부호화부(401), 비트스트림 전송부(402)를 포함할 수 있다.
오디오 신호 부호화부(401)는 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 수신할 수 있다. 이 때, 오디오 신호 부호화부(401)는 객체 오디오 신호의 잔향 신호를 수신함으로써, 보다 높은 음향 장면을 연출할 수 있다. 그리고, 오디오 신호 부호화부(401)는 수신한 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 오디오 신호로 부호화 할 수 있다.
그리고, 오디오 부호화 장치는 렌더링 정보(403)를 수신할 수 있다. 그리고, 오디오 부호화 장치는 렌더링 정보(403)를 바이너리로 변환할 수 있는 블록을 포함할 수 있다.
이 때, 오디오 신호 부호화부(401)가 렌더링 정보(403)를 변환할 수 있는 블록을 포함하는 경우, 오디오 신호 부호화부(401)는 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호 및 렌더링 정보(403)를 포함하는 오디오 신호로 부호화할 수 있다.
비트스트림 전송부(402)는 부호화 된 오디오 신호를 비트스트림으로 변환할 수 있다. 비트스트림 전송부(402)는 변환된 비트스트림을 오디오 복호화 장치로 전송할 수 있다. 이 때, 비트스트림은 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 포함하는 오디오 신호 및 렌더링 정보(403)를 포함할 수 있다. 그리고, 비트스트림 전송부(402)는 다채널 장면 정보를 생성을 위해 비트스트림을 전송할 수 있다. 다채널 장면 정보은 렌더링 정보(403)를 기초하여 생성할 수 있다. 그리고, 렌더링 정보(403)는 객체 오디오 신호의 잔향 신호에 대한 부가 데이터로 사용될 수 있다.
도 5는 일실시예에 따른 도3의 오디오 복호화 장치를 구체화한 도면이다.
오디오 복호화 장치는 비트스트림 수신부(501), 오디오 신호 복호화부(502), 오디오 렌더링부(503)을 포함할 수 있다.
비트스트림 수신부(501)는 오디오 부호화 장치로부터 비트스트림을 수신할 수 있다. 수신한 비트스트림은 오디오 신호 및 렌더링 정보를 포함할 수 있다.
오디오 신호 복호화부(502)는 오디오 신호를 복호화 할 수 있다. 다시 말해, 오디오 신호 복호화부(502)는 오디오 신호에 포함된 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 추출할 수 있다.
오디오 렌더링부(503)는 복호화 된 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 렌더링할 수 있다. 객체 오디오 신호는 도 3의 렌더링 과정을 기초하여 렌더링 될 수 있다. 그리고, 객체 오디오 신호의 잔향 신호는 객체 오디오 신호가 렌더링 되는 경우, 해당 객체 오디오 신호의 인덱스에 따라 렌더링 될 수 있다. 그리고, 객체 오디오 신호의 잔향 신호는 객체 오디오 신호가 제어됨에 따라 동일하게 제어됨으로써, 보다 현실적인 음향 영상을 제공할 수 있다.
오디오 렌더링부(503)는 복호화 된 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 렌더링함으로써, 출력 신호를 생성할 수 있다. 이 때, 출력 신호는 렌더링 된 객체 오디오 신호, 렌더링 된 객체 오디오 신호의 잔향 신호 및 복호화 된 채널 오디오 신호를 포함할 수 있다. 그리고, 출력 신호는 다채널의 오디오 신호로 각각의 채널에 출력될 수 있다.
도 6은 일실시예에 따른 렌더링 정보의 구성을 도시한 도면이다.
도 6을 참고하면, 렌더링 정보(600)는 행렬(Matrix) 형태로 표현될 수 있다. 이 때, 렌더링 정보(600)의 각각의 행렬은 렌더링 정보를 표현하기 위해 대치 값으로 표현될 수 있다. 일례로, 객체의 위치 정보는 수평면과 수직면의 각도로 표현될 수 있다. 그리고, 지연 정보와 관련된 행렬 값과 이득 값은 거리감을 나타내는 값으로 대치될 수 있다. 또한, 렌더링 정보(600)는 객체 오디오 신호의 잔향 신호의 부가 데이터로 사용되기 위해 입력되는 다양한 형태의 렌더링 정보(600)에 대응하여 렌더링 된 객체 오디오 신호와 렌더링 된 객체 오디오 신호의 잔향 신호에 적용될 수 있도록 행렬의 값으로 변환되어 표현되어야 한다.
도 7은 일실시예에 따른 오디오 부호화 방법을 도시한 도면이다.
단계(701)에서 오디오 부호화 장치는 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 수신할 수 있다. 채널 오디오 신호는 일반적으로 사용되는 채널 오디오 신호로 재생 시 임의의 재생 장치의 채널로 할당되는 신호일 수 있다. 객체 오디오 신호는 복수의 오디오 신호 중 특정 오디오 신호를 객체 오디오 신호로 정의하여 렌더링을 수행하는 주체로 활용할 수 있다. 그리고, 객체 오디오 신호의 잔향 신호는 객체 오디오 신호에 적용되는 잔향 신호로써, 객체 오디오 신호의 음장감을 표현할 수 있다.
또한, 오디오 부호화 장치는 수시한 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 포함하는 오디오 신호로 부호화 할 수 있다.
단계(702)에서 오디오 부호화 장치는 부호화 된 오디오 신호를 비트스트림으로 변환할 수 있다. 이 때, 비트스트림은 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 포함하는 오디오 신호 및 렌더링 정보(403)를 포함할 수 있다. 오디오 부호화 장치는 다채널 장면 정보를 생성을 위해 비트스트림을 전송할 수 있다.
도 8은 일실시예에 따른 오디오 복호화 방법을 도시한 도면이다.
단계(801)에서 오디오 복호화 장치는 오디오 부호화 장치로부터 비트스트림을 수신할 수 있다. 수신한 비트스트림은 오디오 신호 및 렌더링 정보를 포함할 수 있다.
단계(802)에서 오디오 복호화 장치는 오디오 신호를 복호화하여 오디오 신호에 포함된 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 추출할 수 있다.
단계(803)에서 오디오 복호화 장치는 오디오 복호화 장치는 비트스트림에 포함된 렌더링 정보에 기초하여 상기 추출된 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 렌더링할 수 있다. 오디오 복호화 장치는 객체 오디오 신호의 잔향 신호는 객체 오디오 신호가 렌더링 되는 경우, 해당 객체 오디오 신호의 인덱스에 따라 렌더링 될 수 있다. 그리고, 객체 오디오 신호의 잔향 신호는 객체 오디오 신호가 제어됨에 따라 동일하게 제어됨으로써, 보다 현실적인 음향 영상을 제공할 수 있다. 또한, 오디오 복호화 장치는 복호화 된 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 렌더링함으로써, 출력 신호를 생성할 수 있다.
본 발명의 실시 예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
101: 오디오 부호화 장치
102: 오디오 보고화 장치

Claims (4)

  1. 삭제
  2. 삭제
  3. 부호화된 오디오 신호를 포함하는 비트스트림을 수신하는 비트스트림 수신부;
    상기 부호화된 오디오 신호를 복호화하는 오디오 복호화부; 및
    상기 복호화된 오디오 신호를 렌더링하는 오디오 렌더링부
    를 포함하고,
    상기 오디오 신호는 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 포함하고,
    상기 객체 오디오 신호는, 상기 잔향 신호, 이득값 기반의 렌더링 정보 및 시간 지연과 관련된 렌더링 정보에 기초하여 렌더링되고,
    상기 렌더링은,
    음상 정위 행렬과 지연 연산 행렬을 이용하여 상기 채널 오디오 신호, 객체 기반 오디오 신호 및 잔향 신호를 렌더링하는 것인 오디오 복호화 장치.
  4. 부호화된 오디오 신호를 포함하는 비트스트림을 수신하는 단계;
    상기 부호화된 오디오 신호를 복호화하는 단계; 및
    상기 복호화된 오디오 신호를 렌더링하는 단계
    를 포함하고,
    상기 오디오 신호는 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 포함하고,
    상기 객체 오디오 신호는, 상기 잔향 신호, 이득값 기반의 렌더링 정보 및 시간 지연과 관련된 렌더링 정보에 기초하여 렌더링되고,
    상기 렌더링은,
    음상 정위 행렬과 지연 연산 행렬을 이용하여 상기 채널 오디오 신호, 객체 기반 오디오 신호 및 잔향 신호를 렌더링하는 것인 오디오 복호화 방법.
KR1020200128172A 2012-10-12 2020-10-05 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치 KR102335911B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210170074A KR102478163B1 (ko) 2012-10-12 2021-12-01 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR20120113604 2012-10-12
KR1020120113604 2012-10-12
KR1020130069101A KR20140047509A (ko) 2012-10-12 2013-06-17 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020130069101A Division KR20140047509A (ko) 2012-10-12 2013-06-17 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020210170074A Division KR102478163B1 (ko) 2012-10-12 2021-12-01 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치

Publications (2)

Publication Number Publication Date
KR20200119225A KR20200119225A (ko) 2020-10-19
KR102335911B1 true KR102335911B1 (ko) 2021-12-07

Family

ID=50477576

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200128172A KR102335911B1 (ko) 2012-10-12 2020-10-05 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치

Country Status (2)

Country Link
KR (1) KR102335911B1 (ko)
WO (1) WO2014058138A1 (ko)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756713B2 (en) * 2004-07-02 2010-07-13 Panasonic Corporation Audio signal decoding device which decodes a downmix channel signal and audio signal encoding device which encodes audio channel signals together with spatial audio information
KR100733965B1 (ko) * 2005-11-01 2007-06-29 한국전자통신연구원 객체기반 오디오 전송/수신 시스템 및 그 방법
EP2278582B1 (en) * 2007-06-08 2016-08-10 LG Electronics Inc. A method and an apparatus for processing an audio signal
CN102171754B (zh) * 2009-07-31 2013-06-26 松下电器产业株式会社 编码装置以及解码装置
EP2465114B1 (en) * 2009-08-14 2020-04-08 Dts Llc System for adaptively streaming audio objects
KR20120038311A (ko) * 2010-10-13 2012-04-23 삼성전자주식회사 공간 파라미터 부호화 장치 및 방법,그리고 공간 파라미터 복호화 장치 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jonas Engdegard, et al. Spatial audio object coding (SAOC) - The upcoming MPEG standard on parametric object based audio coding. Audio Engineering Society Convention 124. 2008.05.20.*
Nicolas Tsingos, et al. Surround sound with height in games using dolby pro logic iiz. Audio Engineering Society Conference: 41st International Conference: Audio for Games. 2011.*

Also Published As

Publication number Publication date
WO2014058138A1 (ko) 2014-04-17
KR20200119225A (ko) 2020-10-19

Similar Documents

Publication Publication Date Title
KR102478163B1 (ko) 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
KR101852951B1 (ko) 향상된 공간적 오디오 오브젝트 코딩을 위한 장치 및 방법
JP6346278B2 (ja) ジョイント符号化残留信号を用いたオーディオエンコーダ、オーディオデコーダ、方法、およびコンピュータプログラム
EP3025329B1 (en) Concept for audio encoding and decoding for audio channels and audio objects
TWI590234B (zh) 編碼聲訊資料之方法和裝置,以及解碼已編碼聲訊資料之方法和裝置
CN105723453B (zh) 用于对降混合矩阵解码及编码的方法、编码器及解码器
US9761229B2 (en) Systems, methods, apparatus, and computer-readable media for audio object clustering
US9966080B2 (en) Audio object encoding and decoding
RU2643644C2 (ru) Кодирование и декодирование аудиосигналов
WO2015056383A1 (ja) オーディオエンコード装置及びオーディオデコード装置
JP2013137550A (ja) トランスコーディング装置
KR20140128564A (ko) 음상 정위를 위한 오디오 시스템 및 방법
CN105659319A (zh) 使用被插值矩阵的多通道音频的渲染
KR102288111B1 (ko) 스테레오 신호의 인코딩 및 디코딩 방법과, 인코딩 및 디코딩 장치
KR20150028147A (ko) 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
KR20140128567A (ko) 위치기반 오디오 신호처리 방법
CN112823534B (zh) 信号处理设备和方法以及程序
KR102335911B1 (ko) 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
KR101949756B1 (ko) 오디오 신호 처리 방법 및 장치
KR102059846B1 (ko) 오디오 신호 처리 방법 및 장치
JP5345024B2 (ja) 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
KR102421292B1 (ko) 오디오 객체 신호 재생 시스템 및 그 방법
KR101950455B1 (ko) 오디오 신호 처리 방법 및 장치
KR101949755B1 (ko) 오디오 신호 처리 방법 및 장치
JP2011002574A (ja) 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant