KR20220157848A - 다채널 오디오 신호 처리 장치 및 방법 - Google Patents

다채널 오디오 신호 처리 장치 및 방법 Download PDF

Info

Publication number
KR20220157848A
KR20220157848A KR1020210140581A KR20210140581A KR20220157848A KR 20220157848 A KR20220157848 A KR 20220157848A KR 1020210140581 A KR1020210140581 A KR 1020210140581A KR 20210140581 A KR20210140581 A KR 20210140581A KR 20220157848 A KR20220157848 A KR 20220157848A
Authority
KR
South Korea
Prior art keywords
channel
audio
audio signal
type
downmixing
Prior art date
Application number
KR1020210140581A
Other languages
English (en)
Inventor
손윤재
고상철
남우현
김경래
김정규
이태미
정현권
황성희
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to CN202280035900.2A priority Critical patent/CN117321680A/zh
Priority to EP22804931.8A priority patent/EP4310839A4/en
Priority to PCT/KR2022/006983 priority patent/WO2022245076A1/ko
Priority to US17/749,840 priority patent/US20220386055A1/en
Publication of KR20220157848A publication Critical patent/KR20220157848A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함하고, 적어도 하나의 프로세서는,
비트스트림으로부터 다운믹싱된 오디오 신호를 획득하고, 비트스트림으로부터, 다운믹싱 관련 정보를 획득하고, 프레임 단위로 생성된 다운믹싱 관련 정보를 이용하여, 다운믹싱된 오디오 신호를 디믹싱하고,
디믹싱된 오디오 신호를 기초로, 적어도 하나의 프레임을 포함하는 오디오 신호를 복원하는 것을 특징으로 하는, 일 실시예에 따른 오디오 처리 장치가 개시된다. 이때, 다운믹싱 관련 정보는 오디오 씬 타입을 이용하여, 프레임 단위로 생성된 정보일 수 있다.

Description

다채널 오디오 신호 처리 장치 및 방법 {APPARATUS AND METHOD OF PROCESSING MULTI-CHANNEL AUDIO SIGNAL}
본 개시는 다채널 오디오 신호를 처리하는 분야에 관한 것이다. 보다 구체적으로, 본 개시는 다채널 오디오 신호로부터 하위 채널 레이아웃(예를 들어, 청자 전방의 3차원 오디오 채널 레이아웃)의 오디오 신호를 처리하는 분야에 관한 것이다. 본 개시는 오디오 씬 타입(audio scene type)에 따라, 다채널 오디오 신호를 다운믹싱 처리 또는 업믹싱 처리하는 분야에 관한 것이다. 또한, 본 개시는 높이 채널(Height channel)의 오디오 신호의 에너지 값에 따라, 다채널 오디오 신호를 다운믹싱 또는 업믹싱 처리하는 분야에 관한 것이다.
오디오 신호는 2 채널, 5.1 채널, 7.1 채널, 및 9.1 채널의 오디오 신호와 같은 2차원 오디오 신호가 일반적이다.
하지만, 2차원 오디오 신호는 높이 방향의 오디오 정보가 불확실하기 때문에 음향의 공간적인 입체감을 제공하기 위해 3차원 오디오 신호(n채널 오디오 신호, 혹은 다채널 오디오 신호; n은 2보다 큰 정수)를 생성할 필요성이 있다.
3차원 오디오 신호를 위한 종래 채널 레이아웃은 청자를 중심으로 전방향(omni-direction)으로 채널이 배치가 된다. 다만, OTT 서비스(Over-The-Top service)의 확대, TV의 해상도 증가, 태블릿과 같은 전자 기기의 화면의 대형화에 따라, 홈 환경에서 극장용 컨텐츠와 같은 이머시브 사운드(Immersive Sound)를 경험하고자 하는 시청자의 니즈(Needs)가 증가하고 있다. 따라서, 화면상의 객체(음원)의 음상(Sound) 표현을 고려하여, 청자를 중심으로 전방에 채널이 배치되는 3차원 오디오 채널 레이아웃(청자 전방의 3차원 오디오 채널 레이아웃)의 오디오 신호를 처리할 필요성이 있다.
또한, 종래 3차원 오디오 신호 처리 시스템의 경우, 3차원 오디오 신호의 각 독립 채널들에 대한 독립적인 오디오 신호를 부/복호화하였고, 특히, 종래 스테레오 오디오 신호와 같은 2차원 오디오 신호를 복원하기 위해서는, 반드시 3차원 오디오 신호를 복원한 후에, 복원된 3차원 오디오 신호를 다운믹싱해야 하는 문제점이 있었다.
일 실시예는, 청자 전방의 3차원 오디오 채널 레이아웃을 지원하는 다채널 오디오 신호를 처리하는 것을 기술적 과제로 한다.
일 실시예에 따른 오디오 처리 방법은, 적어도 하나의 프레임을 포함하는 오디오 신호에 대해 오디오 씬 타입(audio scene type)을 확인(identify)하는 단계; 상기 오디오 씬 타입에 대응하도록, 프레임 단위로, 다운믹싱(down-mix) 관련 정보를 결정하는 단계; 상기 프레임 단위로 결정된 다운믹싱 관련 정보를 이용하여, 상기 적어도 하나의 프레임을 포함하는 오디오 신호를 다운믹싱하는 단계; 및 상기 다운믹싱된 오디오 신호 및 상기 프레임 단위로 결정된 다운믹싱 관련 정보를 송신하는 단계를 포함한다.
상기 오디오 씬 타입을 확인하는 단계는, 상기 적어도 하나의 프레임을 포함하는 오디오 신호로부터 센터 채널(center channel)의 오디오 신호를 획득하는 단계; 상기 획득된 센터 채널의 오디오 신호로부터 대화 타입을 확인(identify)하는 단계; 상기 적어도 하나의 프레임을 포함하는 신호로부터 프론트 채널(front channel)의 오디오 신호 및 사이드 채널(side channel)의 오디오 신호를 획득하는 단계; 상기 프론트 채널의 오디오 신호 및 사이드 채널의 오디오 신호를 기초로, 효과음 타입을 확인하는 단계; 및 상기 확인된 대화 타입 및 상기 확인된 효과음 타입 중 적어도 하나를 기초로, 상기 오디오 씬 타입을 확인하는 단계를 포함할 수 있다.
상기 대화 타입을 확인하는 단계는, 상기 대화 타입을 확인하기 위한 제 1 뉴럴 네트워크를 이용하여 상기 대화 타입을 확인하는 단계를 포함하고, 상기 대화 타입을 확인하기 위한 제 1 뉴럴 네트워크를 이용하여 상기 대화 타입을 확인하는 단계는, 상기 제 1 뉴럴 네트워크를 이용하여 확인된 대화 타입의 확률값이 제 1 대화 타입에 대한 소정의 제 1 확률값보다 큰 경우, 상기 대화 타입을 제 1 대화 타입으로 확인하는 단계; 및 상기 제 1 뉴럴 네트워크를 이용하여 확인된 대화 타입의 확률값이 상기 소정의 제 1 확률값보다 작거나 같은 경우, 상기 대화 타입을 디폴트 타입으로 확인하는 단계;를 포함할 수 있다.
상기 효과음 타입을 확인하는 단계는, 상기 효과음 타입을 확인하기 위한 제 2 뉴럴 네트워크를 이용하여 효과음 타입을 확인하는 단계를 포함하고, 상기 효과음 타입을 확인하기 위한 제 2 뉴럴 네트워크를 이용하여 효과음 타입을 확인하는 단계는, 상기 제 2 뉴럴 네트워크를 이용하여 확인된 효과음 타입의 확률값이 제 1 효과음 타입에 대한 소정의 제 2 확률값보다 큰 경우, 상기 효과음 타입을 제 1 효과음 타입으로 확인하는 단계; 및 상기 제 2 뉴럴 네트워크를 이용하여 확인된 효과음 타입의 확률값이 상기 소정의 제 2 확률값보다 작거나 같은 경우, 상기 효과음 타입을 디폴트 타입으로 확인하는 단계를 포함할 수 있다.
상기 확인된 대화 타입 및 상기 확인된 효과음 타입 중 적어도 하나를 기초로, 상기 오디오 씬 타입을 확인하는 단계는, 상기 대화 타입이 제 1 대화 타입인 경우, 상기 오디오 씬 타입을 제 1 대화 타입으로 확인하는 단계; 상기 효과음 타입이 제 1 효과음 타입인 경우, 상기 오디오 씬 타입을 제 1 효과음 타입으로 확인하는 단계; 및 상기 대화 타입이 디폴트 타입이고, 상기 효과음 타입이 디폴트 타입인 경우, 상기 오디오 씬 타입을 디폴트 타입으로 확인할 수 있다.
상기 송신된 다운믹싱 관련 정보는 복수의 오디오 씬 타입 중 하나를 나타내는 인덱스 정보를 포함할 수 있다.
상기 오디오 처리 방법은, 음원 객체를 감지하는 단계; 및 상기 감지된 음원 객체의 정보를 기초로, 서라운드 채널로부터 높이 채널로의 믹싱(mixing)을 위한 추가 가중치 파라미터를 확인하는 단계;를 더 포함하고, 상기 다운믹싱 관련 정보는 상기 추가 가중치 파라미터를 더 포함할 수 있다.
상기 적어도 하나의 프레임을 포함하는 오디오 신호로부터 높이 채널의 오디오 신호의 에너지 값을 확인하는 단계; 상기 적어도 하나의 프레임을 오디오 신호로부터 서라운드 채널의 오디오 신호의 에너지 값을 확인하는 단계; 및 상기 확인된 높이 채널의 오디오 신호의 에너지 값 및 상기 확인된 서라운드 채널의 오디오 신호의 에너지 값을 기초로, 상기 서라운드 채널로부터 상기 높이 채널로의 믹싱을 위한 추가 가중치 파라미터를 확인하는 단계를 더 포함하고, 상기 다운믹싱 관련 정보는 상기 추가 가중치 파라미터를 더 포함할 수 있다.
상기 서라운드 채널로부터 상기 높이 채널로의 믹싱을 위한 추가 가중치 파라미터를 확인하는 단계는, 상기 높이 채널의 오디오 신호의 에너지 값이 소정의 제 1 값보다 크고, 상기 높이 채널의 오디오 신호의 에너지 값과 서라운드 채널의 오디오 신호의 에너지 값의 비율이 소정의 제 2 값보다 큰 경우, 상기 추가 가중치 파라미터를 제 1 값으로 확인하는 단계; 및 상기 높이 채널의 오디오 신호의 에너지 값이 소정의 제 1 값보다 작거나 같거나, 상기 비율이 소정의 제 2 값보다 작거나 같은 경우, 상기 추가 가중치 파라미터를 제 2 값으로 확인하는 단계를 포함할 수 있다.
상기 서라운드 채널로부터 상기 높이 채널로의 믹싱을 위한 추가 가중치 파라미터를 확인하는 단계는, 오디오 컨텐츠 내 가중치 목표 비율을 기초로, 상기 적어도 하나의 프레임을 포함하는 오디오 신호의 적어도 하나의 시간 구간에 대한 가중치의 레벨을 확인하는 단계; 및 상기 가중치의 레벨에 대응하는 추가 가중치 파라미터를 확인하는 단계를 포함하고, 제 1 시간 구간과 제 2 시간 구간의 경계 구간의 가중치는 상기 제 1 시간 구간에서 경계 구간을 제외한 나머지 구간의 가중치와 상기 제 2 시간 구간에 경계 구간을 제외한 나머지 구간의 가중치 사이의 값일 수 있다.
상기 다운믹싱하는 단계는, 상기 오디오 씬 타입에 대응하는 다운믹싱 프로파일을 확인하는 단계; 상기 다운믹싱 프로파일에 따라, 적어도 하나의 제 1 채널의 오디오 신호로부터 제 2 채널의 오디오 신호로의 믹싱을 위한 다운믹싱 가중치 파라미터를 획득하는 단계; 및 상기 획득된 다운믹싱 가중치 파라미터를 기초로, 상기 적어도 하나의 프레임을 포함하는 오디오 신호를 다운믹싱하는 단계를 포함하고, 상기 오디오 씬 타입에 대응하는 다운믹싱 가중치 파라미터는 미리 결정될 수 있다.
상기 음원 객체를 감지하는 단계는, 상기 적어도 하나의 프레임을 포함하는 오디오 신호의 채널 간의 상관성 및 딜레이를 기초로, 상기 음원 객체의 움직임 및 방향을 확인하는 단계: 및 상기 적어도 하나의 프레임을 포함하는 오디오 신호로부터 가우시안 혼합 모델 기반 객체 추정 확률 모델을 이용하여 상기 음원 객체의 종류 및 특성을 확인하는 단계를 포함하고, 상기 감지된 음원 객체의 정보는 상기 음원 객체의 움직임, 방향, 종류 및 특성 중 적어도 하나에 관한 정보를 포함하고,
상기 추가 가중치 파라미터를 확인하는 단계는, 상기 음원 객체의 움직임, 방향, 종류 및 특성 중 적어도 하나를 기초로, 서라운드 채널로부터 높이 채널로의 믹싱을 위한 추가 가중치 파라미터를 확인하는 단계를 포함할 수 있다.
다른 실시예에 따른 오디오 처리 방법은, 비트스트림으로부터 다운믹싱된 오디오 신호를 획득하는 단계; 상기 비트스트림으로부터, 다운믹싱 관련 정보를 획득하는 단계, 상기 다운믹싱 관련 정보는 오디오 씬 타입을 이용하여, 프레임 단위로 생성된 정보이고; 상기 프레임 단위로 생성된 다운믹싱 관련 정보를 이용하여, 상기 다운믹싱된 오디오 신호를 디믹싱하는 단계; 및 상기 디믹싱된 오디오 신호를 기초로, 적어도 하나의 프레임을 포함하는 오디오 신호를 복원하는 단계를 포함한다.
상기 오디오 씬 타입은 대화 타입 및 효과음 타입 중 적어도 하나를 기초로 확인된 타입일 수 있다.
상기 적어도 하나의 프레임을 포함하는 오디오 신호는 업믹스 채널 그룹의 오디오 신호를 포함하고, 상기 업믹스 채널 그룹의 오디오 신호는 적어도 하나의 업믹스 채널의 오디오 신호를 포함하고, 상기 적어도 하나의 업믹스 채널의 오디오 신호는 적어도 하나의 제 1 채널의 오디오 신호로부터의 디믹싱을 통해 획득된 제 2 채널의 오디오 신호일 수 있다.
상기 다운믹싱 관련 정보는 높이 채널로부터 서라운드 채널로의 디믹싱을 위한 추가 가중치 파라미터에 관한 정보를 더 포함하고, 상기 적어도 하나의 프레임을 포함하는 오디오 신호를 복원하는 단계는, 다운믹싱 가중치 파라미터 및 상기 추가 가중치 파라미터에 관한 정보를 이용하여, 상기 적어도 하나의 프레임을 포함하는 오디오 신호를 복원하는 단계를 포함할 수 있다.
일 실시예에 따른 오디오 처리 장치는, 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 적어도 하나의 프레임을 포함하는 오디오 신호에 대해 오디오 씬 타입(audio scene type)을 확인(identify)하고, 상기 오디오 씬 타입에 대응하도록, 프레임 단위로, 다운믹싱(down-mix) 관련 정보를 결정하고, 상기 프레임 단위로 결정된 다운믹싱 관련 정보를 이용하여, 상기 적어도 하나의 프레임을 포함하는 오디오 신호를 다운믹싱하고, 상기 다운믹싱된 오디오 신호 및 상기 프레임 단위로 결정된 다운믹싱 관련 정보를 송신한다.
다른 실시예에 따른 오디오 처리 장치는, 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 비트스트림으로부터 다운믹싱된 오디오 신호를 획득하고; 상기 비트스트림으로부터, 다운믹싱 관련 정보를 획득하고, 상기 다운믹싱 관련 정보는 오디오 씬 타입을 이용하여, 프레임 단위로 생성된 정보이고; 상기 프레임 단위로 생성된 다운믹싱 관련 정보를 이용하여, 상기 다운믹싱된 오디오 신호를 디믹싱하고; 상기 디믹싱된 오디오 신호를 기초로, 적어도 하나의 프레임을 포함하는 오디오 신호를 복원한다.
일 실시예에 따른 오디오 처리 방법은, 적어도 하나의 프레임을 포함하는 오디오 신호에 대해 오디오 씬 타입(audio scene type)을 확인(identify)하는 단계;상기 오디오 씬 타입에 대응하도록, 다운믹싱(down-mix) 관련 정보를 결정하는 단계; 상기 다운믹싱 관련 정보를 이용하여, 상기 적어도 하나의 프레임을 포함하는 오디오 신호를 다운믹싱하는 단계; 이전 프레임의 오디오 씬 타입과 현재 프레임의 오디오 씬 타입을 기초로, 상기 이전 프레임의 오디오 씬 타입과 상기 현재 프레임의 오디오 씬 타입이 동일한지 여부를 나타내는 플래그 정보를 생성하는 단계; 및 상기 다운믹싱된 오디오 신호, 상기 플래그 정보 및 상기 다운믹싱 관련 정보 중 적어도 하나를 송신하는 단계를 포함한다.
상기 송신하는 단계는, 상기 이전 프레임의 오디오 씬 타입이 상기 현재 프레임의 오디오 씬 타입과 동일한 경우, 상기 다운믹싱된 오디오 신호, 상기 이전 프레임의 오디오 씬 타입과 상기 현재 프레임의 오디오 씬 타입이 동일함을 나타내는 플래그 정보 및 상기 이전 프레임에 대한 다운믹싱 관련 정보를 송신하는 단계를 포함하고, 상기 현재 프레임에 대한 다운믹싱 관련 정보는 송신되지 않을 수 있다.
상기 송신하는 단계는, 상기 이전 프레임의 오디오 씬 타입이 상기 현재 프레임의 오디오 씬 타입과 동일한 경우, 상기 다운믹싱된 오디오 신호 및 상기 이전 프레임에 대한 다운믹싱 관련 정보를 송신하는 단계를 포함하고, 상기 이전 프레임의 오디오 씬 타입과 상기 현재 프레임의 오디오 씬 타입이 동일함을 나타내는 플래그 정보 및 상기 현재 프레임에 대한 다운믹싱 관련 정보는 송신되지 않을 수 있다.
다른 실시예에 따른 오디오 처리 장치는, 비트스트림으로부터 다운믹싱된 오디오 신호를 획득하는 단계; 상기 비트스트림으로부터 이전 프레임의 오디오 씬 타입과 현재 프레임의 오디오 씬 타입이 동일한지 여부를 나타내는 플래그 정보를 획득하는 단계; 상기 플래그 정보를 기초로, 현재 프레임의 다운믹싱 관련 정보를 획득하는 단계, 상기 현재 프레임의 다운믹싱 관련 정보는 오디오 씬 타입을 이용하여 생성된 정보이고; 상기 현재 프레임의 다운믹싱 관련 정보를 이용하여, 다운믹싱된 오디오 신호를 디믹싱하는 단계; 및 상기 디믹싱된 오디오 신호를 기초로, 적어도 하나의 프레임을 포함하는 오디오 신호를 복원하는 단계를 포함한다.
상기 현재 프레임의 다운믹싱 관련 정보를 획득하는 단계는, 상기 플래그 정보가 상기 이전 프레임의 오디오 씬 타입이 상기 현재 프레임의 오디오 씬 타입과 동일함을 나타내는 경우, 상기 이전 프레임에 대한 다운믹싱 관련 정보를 기초로, 상기 현재 프레임에 대한 다운믹싱 관련 정보를 획득하는 단계를 포함할 수 있다.
상기 플래그 정보가 상기 이전 프레임의 오디오 씬 타입이 상기 현재 프레임의 오디오 씬 타입과 동일하지 않음을 나타내는 경우, 상기 비트스트림으로부터, 상기 현재 프레임에 대한 다운믹싱 관련 정보를 획득하는 단계를 포함할 수 있다.
일 실시예의 다채널 오디오 신호 처리 방법 또는 그 장치에 따르면, 종래 스테레오(2채널) 오디오 신호와의 하위 호환을 지원하면서, 청자 전방의 3차원 오디오 채널 레이아웃의 오디오 신호를 부호화하고, 나아가, 청자 전방향의 3차원 오디오 채널 레이아웃의 오디오 신호를 부호화할 수 있다.
다만, 일 실시예에 따른 다채널 오디오 신호의 처리 장치 및 방법이 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 명세서에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1a는 일 실시예에 따른 스케일러블 오디오 채널 레이아웃 구조(scalable channel layout structure)를 설명하기 위한 도면이다.
도 1b는 구체적인 스케일러블 오디오 채널 레이아웃 구조의 일 예를 설명하기 위한 도면이다.
도 2a는 일 실시예에 따른 오디오 부호화 장치의 구성을 도시하는 블록도이다.
도 2b는 일 실시예에 따른 오디오 부호화 장치의 구성을 도시하는 블록도이다.
도 2c는 일 실시예에 따른 다채널 오디오 신호 처리부의 구성을 도시하는 블록도이다.
도 2d는 오디오 신호 분류부의 구체적인 동작의 일 예를 설명하기 위한 도면이다.
도 3a는 일 실시예에 따른 다채널 오디오 복호화 장치의 구성을 도시하는 블록도이다.
도 3b는 일 실시예에 따른 다채널 오디오 복호화 장치의 구성을 도시하는 블록도이다.
도 3c는 일 실시예에 따른 다채널 오디오 신호 복원부의 구성을 도시하는 블록도이다.
도 3d는 일 실시예에 따른 업믹스 채널 오디오 생성부의 구성을 도시하는 블록도이다.
도 4a는 다른 실시예에 따른 오디오 부호화 장치의 구성을 도시하는 블록도이다.
도 4b는 일 실시예에 따른 복원부의 구성을 도시하는 블록도이다.
도 5a는 다른 실시예에 따른 오디오 복호화 장치의 구성을 도시하는 블록도이다.
도 5b는 일 실시예에 따른 다채널 오디오 신호 복원부의 구성을 도시하는 블록도이다.
도 6은, 일 실시예에 따른 오디오 부호화 장치(200,400)가 각 채널 그룹 내 오디오 스트림의 전송 순서 및 규칙을 설명하기 위한 도면이다.
도 7a는 일 실시예에 따른 오디오 부호화 장치의 구성을 도시하는 블록도이다.
도 7b는 일 실시예에 따른 오디오 부호화 장치의 구성을 도시하는 블록도이다.
도 8은 일 실시예에 따른 오디오 부호화 장치의 구성을 도시하는 블록도이다.
도 9a는 일 실시예에 따른 다채널 오디오 복호화 장치의 구성을 도시하는 블록도이다.
도 9b는 일 실시예에 따른 오디오 복호화 장치의 구성을 도시하는 블록도이다.
도 10은 일 실시예에 따른 오디오 복호화 장치의 구성을 도시하는 블록도이다.
도 11은 일 실시예에 따른 오디오 부호화 장치(700)가 오디오 씬 컨텐츠 타입을 식별하는 과정을 구체적으로 설명하기 위한 도면이다.
도 12는 일 실시예에 따른 대화 타입을 식별하기 위한 제 1 DNN(1200)을 설명하기 위한 도면이다.
도 13은 일 실시예에 따른 효과음 타입을 식별하기 위한 제 2 DNN(1300)을 설명하기 위한 도면이다.
도 14는 일 실시예에 따른 오디오 부호화 장치(800)가 서라운드 채널로부터 높이 채널로의 믹싱을 위한 추가 디믹싱 파라미터 가중치를 식별하는 과정을 구체적으로 설명하기 위한 도면이다.
도 15는 다른 실시예에 따른 오디오 부호화 장치(800)가 서라운드 채널로부터 높이 채널로의 믹싱을 위한 추가 디믹싱 파라미터 가중치를 식별하는 과정을 구체적으로 설명하기 위한 도면이다.
도 16은 일 실시예에 따른, 오디오 처리 방법의 흐름도를 도시한다
도 17a는 일 실시예에 따른, 오디오 처리 방법의 흐름도를 도시한다.
도 17b는 일 실시예에 따른, 오디오 처리 방법의 흐름도를 도시한다.
도 17c 는 일 실시예에 따른, 오디오 처리 방법의 흐름도를 도시한다.
도 17d 는 일 실시예에 따른, 오디오 처리 방법의 흐름도를 도시한다.
도 18a는 일 실시예에 따른, 오디오 처리 방법의 흐름도를 도시한다.
도 18b는 일 실시예에 따른, 오디오 처리 방법의 흐름도를 도시한다.
도 18c는 일 실시예에 따른, 오디오 처리 방법의 흐름도를 도시한다.
도 18d 는 일 실시예에 따른, 오디오 처리 방법의 흐름도를 도시한다.
본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 설명하고자 한다. 그러나, 이는 본 개시를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
실시예를 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 실시예의 설명 과정에서 이용되는 숫자(예를 들어, 제 1, 제 2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
또한, 본 명세서에서 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 명세서에서 '~부(유닛)', '모듈' 등으로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 또한, 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다
본 명세서에서 'DNN(deep neural network)'은 뇌 신경을 모사한 인공신경망 모델의 대표적인 예시로써, 특정 알고리즘을 사용한 인공신경망 모델로 한정되지 않는다.
본 명세서에서 '파라미터'는 뉴럴 네트워크를 이루는 각 레이어의 연산 과정에서 이용되는 값으로서 예를 들어, 입력 값을 소정 연산식에 적용할 때 이용되는 가중치(및 바이어스)를 포함할 수 있다. 파라미터는 행렬 형태로 표현될 수 있다. 파라미터는 훈련의 결과로 설정되는 값으로서, 필요에 따라 별도의 훈련 데이터(training data)를 통해 갱신될 수 있다.
본 명세서에서 '다채널 오디오 신호'는 n채널(n은, 2보다 큰 정수)의 오디오 신호를 의미할 수 있다. '모노 채널 오디오 신호'는 1차원 오디오 신호이고, 또는 '스테레오 채널 오디오 신호'는 2차원 오디오 신호일 수 있고, '다채널 오디오 신호'는 3차원 오디오 신호일 수 있다.
본 명세서에서 '채널(스피커) 레이아웃'은 적어도 하나의 채널의 조합을 나타낼 수 있고, 채널들(스피커들)의 공간적인 배치를 특정할 수 있다. 여기서의 채널은 실제로 오디오 신호가 출력되는 채널이므로, 표시 채널(presentation channel)이라 할 수 있다.
예를 들어, 채널 레이아웃은 X.Y.Z 채널 레이아웃일 수 있다. 여기서, X는 서라운드 채널의 개수, Y는 서브우퍼 채널의 개수, Z는 높이 채널의 개수일 수 있다. '채널 레이아웃'에 의하여, 서라운드 채널/서브우퍼 채널/높이 채널 각각의 공간적인 위치가 특정될 수 있다.
'채널(스피커) 레이아웃'의 예로, 1.0.0 채널(모노 채널) 레이아웃, 2.0.0 채널(스테레오 채널) 레이아웃, 5.1.0 채널 레이아웃, 5.1.2 채널 레이아웃, 5.1.4 채널 레이아웃, 7.1.0 레이아웃, 7.1.2 레이아웃, 3.1.2 채널 레이아웃이 있으나, 이에 제한되지 않고, 다양한 채널 레이아웃이 있을 수 있다.
'채널(스피커) 레이아웃'에 의해 특정되는 채널들의 명칭은 다양할 수 있으나, 설명의 편의상 통일하기로 한다.
각 채널들의 공간적인 위치를 기초로, 다음과 같이 '채널(스피커) 레이아웃'의 채널들이 명명될 수 있다.
예를 들어, 1.0.0 채널 레이아웃의 제 1 서라운드 채널은 모노 채널(Mono Channel)로 명명될 수 있다. 2.0.0 채널 레이아웃의 제 1 서라운드 채널은 L2 채널로 명명될 수 있고, 제 2 서라운드 채널은 R2 채널로 명명될 수 있다.
여기서 "L"은 청자 기준으로 왼쪽에 위치하는 채널임을 나타내고, "R"은 청자 기준으로 오른쪽에 위치하는 채널임을 나타낸다. "2"는 서라운드 채널이 총 2개의 채널인 경우의 서라운드 채널임을 나타낸다.
5.1.0 채널 레이아웃의 제 1 서라운드 채널은 L5 채널, 제 2 서라운드 채널은 R5 채널, 제 3 서라운드 채널은 C 채널, 제 4 서라운드 채널은 Ls5 채널, 제 5 서라운드 채널은 Rs5 채널로 명명될 수 있다. 여기서 "C"는 청자 기준으로 중심(Center)에 위치하는 채널임을 나타낸다. "s"는 측방에 위치하는 채널임을 의미한다. 5.1.0 채널 레이아웃의 제 1 서브 우퍼 채널은 LFE 채널로 명명될 수 있다. 여기서, LFE는 저주파 효과(Low Frequency Effect)를 의미할 수 있다. 즉, LFE 채널은 저주파 효과음을 출력하기 위한 채널일 수 있다.
5.1.2 채널 레이아웃 및 5.1.4 채널 레이아웃의 서라운드 채널과 5.1.0 채널 레이아웃의 서라운드 채널의 명칭은 동일할 수 있다. 마찬가지로, 5.1.2 채널 레이아웃 및 5.1.4 채널 레이아웃의 서브 우퍼 채널과 5.1.0 채널 레이아웃의 서브 우퍼 채널의 명칭은 동일할 수 있다.
5.1.2 채널 레이아웃의 제 1 높이 채널은 Hl5로 명명될 수 있다. 여기서 H는 높이 채널을 나타낸다. 제 2 높이 채널은 Hr5로 명명될 수 있다.
한편, 5.1.4 채널 레이아웃의 제 1 높이 채널은 Hfl 채널, 제 2 높이 채널은 Hfr, 제 3 높이 채널은 Hbl 채널, 제 4 높이 채널은 Hbr 채널로 명명될 수 있다. 여기서, f는 청자 중심으로 전방 채널, b는 후방 채널임을 나타낸다.
7.1.0 채널 레이아웃의 제 1 서라운드 채널은 L 채널, 제 2 서라운드 채널은 R 채널, 제 3 서라운드 채널은 C 채널, 제 4 서라운드 채널은 Ls 채널, 제 5 서라운드 채널은 Rs5 채널, 제 6 서라운드 채널은 Lb 채널, 제 7 서라운드 채널은 Rb 채널로 명명될 수 있다.
7.1.2 채널 레이아웃 및 7.1.4 채널 레이아웃의 서라운드 채널과 7.1.0 채널 레이아웃의 서라운드 채널의 명칭은 동일할 수 있다. 마찬가지로, 7.1.2 채널 레이아웃 및 7.1.4 채널 레이아웃의 서브 우퍼 채널과 7.1.0 채널 레이아웃의 서브 우퍼 채널의 명칭은 동일할 수 있다.
7.1.2 채널 레이아웃의 제 1 높이 채널은 Hl7 채널, 제 2 높이 채널은 Hr7 채널로 명명될 수 있다.
7.1.4 채널 레이아웃의 제 1 높이 채널은 Hfl 채널, 제 2 높이 채널은 Hfr 채널, 제 3 높이 채널은 Hbl 채널, 제 4 높이 채널은 Hbr 채널로 명명될 수 있다.
3.1.2 채널의 제 1 서라운드 채널은 L3 채널, 제 2 서라운드 채널은 R3 채널, 제 3 서라운드 채널은 C 채널로 명명될 수 있다. 3.1.2 채널의 제 1 서브우퍼 채널은 LFE 채널로 명명될 수 있다. 3.1.2 채널의 제 1 높이 채널은 Hfl3 채널(Tl 채널), 제 2 높이 채널은 Hfr3 채널(Tr 채널)로 명명될 수 있다.
여기서, 일부 채널은 채널 레이아웃에 따라 달리 명명되나, 동일한 채널을 나타낼 수 있다. 예를 들어, Hl5 채널과 Hl7 채널은 동일한 채널일 수 있다. 마찬가지로, Hr5 채널과 Hr7 채널은 동일한 채널일 수 있다.
한편, 전술한 채널들의 명칭에 제한되지 않고, 다양한 채널의 명칭이 이용될 수 있다.
예를 들어, L2 채널은 L'' 채널, R2 채널은 R'' 채널, L3 채널은 ML3 채널(L' 채널), R3 채널은 MR3 채널(R' 채널), Hfl3 채널은 MHL3 채널, Hfr3 채널은 MHR3 채널, Ls5 채널은 MSL5 채널(Ls' 채널), Rs5 채널은 MSR5 채널, Hl5 채널은 MHL5 채널(Hl'), Hr5 채널은 MHR5 채널(Hr'), C 채널은 MC 채널로 명명될 수 있다.
전술한 레이아웃에 대한 채널 레이아웃의 채널들의 명칭을 정리하면, 하기 표 1과 같다.
채널 레이아웃 채널들의 명칭
1.0.0 Mono
2.0.0 L2/R2
5.1.0 L5/C/R5/Ls5/Rs5/LFE
5.1.2 L5/C/R5/Ls5/Rs5/Hl5/Hr5/LFE
5.1.4  L5/C/R5/Ls5/Rs5/Hfl/Hfr/Hbl/Hbr/LFE
7.1.0 L/C/R/Ls/Rs/Lb/Rb/LFE
7.1.2 L/C/R/Ls/Rs/Lb/Rb/Hl7/Hr7/LFE
7.1.4 L/C/R/Ls/Rs/Lb/Rb/Hfl/Hfr/Hbl/Hbr/LFE
3.1.2  L3/C/R3/Hfl3/Hfr3/LFE
한편, '전송 채널(Transmission Channel)'은 압축된 오디오 신호를 전송하기 위한 채널로, '전송 채널(Transmission Channel)'의 일부는 '표시 채널(Presentation channel)'과 동일할 수 있으나, 이에 제한되지 않고, 다른 일부는 표시 채널의 오디오 신호가 믹싱된 오디오 신호의 채널(믹스 채널)일 수 있다. 즉, '전송 채널(Transmission Channel)'은 '표시 채널(presentation channel)'의 오디오 신호를 담은 채널이나, 일부는 표시 채널과 동일하고, 나머지는 표시 채널과 다른 채널(믹스 채널)일 수 있다.
'전송 채널(Transmission Channel)'은 '표시 채널'과 구별하여 명명될 수 있다. 예를 들어, 전송 채널이 A/B 채널인 경우, A/B 채널은 L2/R2 채널의 오디오 신호를 담을 수 있다. 전송 채널이 T/P/Q 채널인 경우, T/P/Q 채널은 C/LFE/Hfl3,Hfr3 채널의 오디오 신호를 담을 수 있다. 전송 채널이 S/U/V 채널 인 경우, S/U/V 채널은 L,R/Ls,Rs/Hfl,Hfr 채널의 오디오 신호를 담을 수 있다.
본 명세서에서, '3차원 오디오 신호'는 3차원 공간에서의 사운드의 분포와 음원들의 위치를 알아낼 수 있는 오디오 신호를 의미할 수 있다.
본 명세서에서, '청자 전방 3차원 오디오 채널'은, 청자의 전방에 배치되는 오디오 채널의 레이아웃에 기초한, 3차원 오디오 채널을 의미할 수 있다. '청자 전방 3차원 오디오 채널'은 '프론트 3D(Front 3D) 오디오 채널'로 지칭될 수도 있다. 특히, '청자 전방 3차원 오디오 채널'은, 청자 전방에 위치하는 화면을 중심으로 배치되는 오디오 채널의 레이아웃에 기초한, 3차원 오디오 채널이기 때문에, '화면 중심(screen centered) 3차원 오디오 채널'이라고 칭할 수 있다.
본 명세서에서, '청자 전방향(Omni-direction) 3차원 오디오 채널'은, 청자 중심으로 전방향으로 배치되는 오디오 채널의 레이아웃에 기초한, 3차원 오디오 채널을 의미할 수 있다. '청자 전방향 3차원 오디오 채널'은 '풀 3D(Full 3D) 오디오 채널'로 지칭될 수도 있다. 여기서 전방향은 전방, 측방 및 후방을 모두 포함하는 방향을 의미할 수 있다. 특히, '청자 전방향 3차원 오디오 채널'은, 청자를 중심으로 전방향(Omni-direction)으로 배치되는 오디오 채널의 레이아웃에 기초한, 3차원 오디오 채널이기 때문에, '청자 중심(Listener centered) 3차원 오디오 채널'이라고 칭할 수 있다.
본 명세서에서, '채널 그룹(Channel Group)'은 일종의 데이터 단위로, 적어도 하나의 채널의 (압축) 오디오 신호를 포함할 수 있다. 구체적으로, 다른 채널 그룹과 독립적인 기본 채널 그룹(Base Channel Group)과, 적어도 하나의 채널 그룹에 종속하는 종속 채널 그룹(Dependent Channel Group) 중 적어도 하나를 포함할 수 있다. 이때, 종속 채널 그룹이 종속하는 대상 채널 그룹은 다른 종속 채널 그룹일 수 있고, 특히, 하위의 채널 레이아웃과 관련된 종속 채널 그룹일 수 있다. 또는, 종속 채널 그룹이 종속하는 채널 그룹은 기본 채널 그룹일 수 있다. '채널 그룹(Channel Group)'은 일종의 채널 그룹의 데이터를 포함하므로, '데이터 그룹(Coding Group)'으로 칭할 수 있다. 종속 채널 그룹(Dependent Channel Group)은 기본 채널 그룹에 포함된 채널로부터, 채널의 개수를 추가적으로 확장하기 위해 이용되는 그룹으로, 확장 채널 그룹(Scalable Channel Group 또는 Extended Channel Group)로 칭할 수 있다.
'기본 채널 그룹'의 오디오 신호는 모노 채널의 오디오 신호 또는 스테레오 채널의 오디오 신호를 포함할 수 있다. 이에 제한되지 않고, '기본 채널 그룹'의 오디오 신호는 청자 전방 3차원 오디오 채널의 오디오 신호를 포함할 수도 있다.
예를 들어, '종속 채널 그룹'의 오디오 신호는 청자 전방 3차원 오디오 채널의 오디오 신호 또는 청자 전방향 3차원 오디오 채널의 오디오 신호 중 '기본 채널 그룹'의 오디오 신호를 제외한 나머지 채널의 오디오 신호를 포함할 수 있다. 이때, 상기 나머지 채널의 오디오 신호의 일부는 적어도 하나의 채널의 오디오 신호가 믹싱된 오디오 신호(즉, 믹싱 채널의 오디오 신호)일 수 있다.
예를 들어, '기본 채널 그룹'의 오디오 신호는 모노 채널의 오디오 신호 또는 스테레오 채널의 오디오 신호일 수 있다.'기본 채널 그룹' 및 '종속 채널 그룹'의 오디오 신호를 기초로 복원되는 '다채널 오디오 신호'는 청자 전방 3차원 오디오 채널의 오디오 신호 또는 청자 전방향 3차원 오디오 채널의 오디오 신호일 수 있다.
본 명세서에서, '업믹싱(up-mixing)'는 디믹싱(de-mixing)을 통하여, 입력된 오디오 신호의 표시 채널의 개수에 비해, 출력되는 오디오 신호의 표시 채널의 개수가 늘어나게 되는 동작을 의미할 수 있다.
본 명세서에서, '디믹싱(de-mixing)'는 다양한 채널의 오디오 신호가 믹싱된 오디오 신호(즉, 믹스 채널(mixed channel)의 오디오 신호)로부터, 특정 채널의 오디오 신호를 분리하는 동작으로, 믹싱 동작 중 하나를 의미할 수 있다. 이때, '디믹싱'는 '디믹싱 행렬'(또는 이에 대응되는 '다운믹싱 행렬')를 이용한 연산으로 구현될 수 있고, '디믹싱 행렬'는 디믹싱 행렬(또는 이에 대응되는 '다운믹싱 행렬')의 계수로서 적어도 하나의 '디믹싱 가중치 파라미터'(또는 이에 대응되는 '다운믹싱 가중치 파라미터')를 포함할 수 있다. 또는, '디믹싱'는 '디믹싱 행렬'(또는 이에 대응되는 '다운믹싱 행렬')의 일부를 기초로 한 수학식 연산으로 구현될 수 있고, 이에 제한되지 않고, 다양한 방식으로 구현될 수 있다. 전술한 바와 같이, '디믹싱'는 '업믹싱'와 관련될 수 있다.
'믹싱'은 복수의 채널의 오디오 신호 각각에 각각의 대응 가중치를 곱하여 획득된 각각의 값들을 합하여(즉, 복수의 채널의 오디오 신호를 섞어) 새로운 채널(즉, 믹스 채널)의 오디오 신호를 생성하는 모든 동작을 의미한다.
'믹싱'은 오디오 부호화 장치에서 수행되는 좁은 의미의 '믹싱'과, 오디오 복호화 장치에서 수행되는 '디믹싱'으로 구분될 수 있다.
오디오 부호화 장치에서 수행되는 '믹싱'은 '(다운)믹싱 매트릭스'를 이용한 연산으로 구현될 수 있고, '(다운)믹싱 매트릭스'는 (다운)믹싱 매트릭스의 계수로서 적어도 하나의 '(다운)믹싱 가중치 파라미터'를 포함할 수 있다. 또는, '(다운)믹싱'는 '(다운)믹싱 매트릭스'의 일부를 기초로 한 수학식 연산으로 구현될 수 있고, 이에 제한되지 않고, 다양한 방식으로 구현될 수 있다.
본 명세서에서, '업믹스(up-mix) 채널 그룹'은 적어도 하나의 업믹스 채널을 포함하는 그룹을 의미하고, '업믹스(up-mixed) 채널'은 부/복호화된 채널의 오디오 신호에 대한 디믹싱을 통해 분리된 디믹스 채널(de-mixed channel)을 의미할 수 있다. 좁은 의미의 '업믹스(up-mix) 채널 그룹'은 '업믹스 채널'만을 포함할 수 있다. 하지만, 넓은 의미의 '업믹스(up-mix) 채널 그룹'은 '업믹스 채널'뿐 아니라, '부/복호화된 채널'을 더 포함할 수 있다. 여기서, '부/복호화된 채널'이란, 부호화(압축)되어 비트스트림에 포함된 오디오 신호의 독립 채널 또는 비트스트림으로부터 복호화되어 획득된 오디오 신호의 독립 채널을 의미한다. 이때, 부/복호화된 채널의 오디오 신호를 획득하기 위해 별도의 (디)믹싱 동작은 필요하지 않다.
넓은 의미의 '업믹스(up-mix) 채널 그룹'의 오디오 신호는 다채널 오디오 신호일 수 있고, 출력 다채널 오디오 신호는 스피커와 같은 장치로 출력되는 오디오 신호로, 적어도 하나의 다채널 오디오 신호(즉, 적어도 하나의 업믹스 채널 그룹의 오디오 신호) 중 하나일 수 있다.
본 명세서에서, '다운 믹싱(down-mixing)'는 믹싱(mixing)을 통해 입력된 오디오 신호의 표시 채널의 개수에 비하여, 출력되는 오디오 신호의 표시 채널의 개수가 줄어들게 되는 동작을 의미할 수 있다.
본 명세서에서, '에러 제거(Error Removal)를 위한 펙터(factor)'은 손실 부호화(Lossy Coding)로 인하여 생성된 오디오 신호의 에러를 제거하기 위한 펙터일 수 있다.
손실 부호화로 인하여 생성된 신호의 에러는 양자화로 인한 에러, 구체적으로, 심리청각특성(Phycho-acoustic characteristic)에 기초한 부호화(양자화)로 인한 에러 등을 포함할 수 있다. '에러 제거를 위한 펙터'는 '부호화 에러 제거 펙터(Coding Error Removal Factor; CER Factor)' 또는 '에러 제거 비율(Error Cancellation Ratio)' 등으로 칭할 수 있다. 특히, 에러 제거 동작은 실질적으로 스케일 동작에 대응되므로, '에러 제거를 위한 펙터'는 '스케일 펙터'로 칭할 수 있다.
이하, 본 개시의 기술적 사상에 의한 실시예들을 차례로 상세히 설명한다.
도 1a는 일 실시예에 따른 스케일러블 오디오 채널 레이아웃 구조(scalable channel layout structure)를 설명하기 위한 도면이다.
종래의 3차원 오디오 복호화 장치는, 특정 채널 레이아웃의 독립 채널들의 압축 오디오 신호를 비트스트림으로부터 수신하였다. 종래의 3차원 오디오 복호화 장치는, 비트스트림으로부터 수신한 독립 채널들의 압축 오디오 신호를 이용하여, 청자 전방향의 3차원 오디오 채널의 오디오 신호를 복원하였다. 이때, 특정 채널 레이아웃의 오디오 신호만이 복원될 수 있었다.
또는, 종래의 3차원 오디오 복호화 장치는, 특정 채널 레이아웃의 독립 채널들(제 1 독립 채널 그룹)의 압축 오디오 신호를 비트스트림으로부터 수신하였다. 예를 들어, 특정 채널 레이아웃은 5.1 채널 레이아웃일 수 있고, 이때, 제 1 독립 채널 그룹의 압축 오디오 신호는 5개의 서라운드 채널 및 1개의 서브우퍼 채널의 압축 오디오 신호일 수 있다.
여기서, 채널의 개수의 증가를 위해, 종래의 3차원 오디오 복호화 장치는, 추가적으로 제 1 독립 채널 그룹과 독립적인 다른 채널들(제 2 독립 채널 그룹)의 압축 오디오 신호를 수신하였다. 예를 들어, 제 2 독립 채널 그룹의 압축 오디오 신호는 2개의 높이 채널의 압축 오디오 신호일 수 있다.
즉, 종래의 3차원 오디오 복호화 장치는, 비트스트림으로부터 수신한 제 1 독립 채널 그룹의 압축 오디오 신호와 별개로, 비트스트림으로부터 수신한 제 2 독립 채널 그룹의 압축 오디오 신호를 이용하여, 청자 전방향의 3차원 오디오 채널의 오디오 신호를 복원하였다. 따라서, 채널의 개수가 증가된 오디오 신호가 복원되었다. 여기서, 청자 전방향의 3차원 오디오 채널의 오디오 신호는 5.1.2 채널의 오디오 신호일 수 있다.
반면에, 스테레오 채널의 오디오 신호의 재생만을 지원하는 레거시 오디오 복호화 장치는 상기 비트스트림에 포함된 압축 오디오 신호를 제대로 처리하지 못하였다.
또한, 3차원 오디오 신호의 재생을 지원하는 종래의 3차원 오디오 복호화 장치도, 스테레오 채널의 오디오 신호를 재생하기 위해, 먼저 제 1 독립 채널 그룹 및 제 2 독립 채널 그룹의 압축 오디오 신호를 압축 해제(복호화)하였다. 그러고 나서, 종래의 3차원 오디오 복호화 장치는, 압축해제 하여 생성된 오디오 신호를 업믹싱을 수행하였다. 하지만, 스테레오 채널의 오디오 신호를 재생하기 위해 업믹싱과 같은 동작이 반드시 수행되어야 하는 번거로움이 있었다.
따라서, 레거시 오디오 복호화 장치에서 압축 오디오 신호를 처리할 수 있는 스케일러블 채널 레이아웃 구조가 요구된다. 게다가, 다양한 실시예에 따른 3차원 오디오 신호의 재생을 지원하는 오디오 복호화 장치(300,500)에서, 재생 지원되는 3차원 오디오 채널 레이아웃에 따라, 압축 오디오 신호를 처리할 수 있는, 스케일러블 채널 레이아웃 구조가 요구된다. 여기서, 스케일러블 채널 레이아웃 구조는 기본 채널 레이아웃으로부터 자유롭게 채널 개수의 증가가 가능한 레이아웃 구조를 의미한다.
다양한 실시예에 따른 오디오 복호화 장치(300,500)는 비트스트림으로부터 스케일러블 채널 레이아웃 구조의 오디오 신호를 복원할 수 있다. 일 실시예에 따른 스케일러블 채널 레이아웃 구조에 따르면, 스테레오 채널 레이아웃(100)으로부터 청자 전방의 3차원 오디오 채널 레이아웃(110)으로 채널 개수의 증가가 가능하다. 더 나아가, 스케일러블 채널 레이아웃 구조에 따르면, 청자 전방의 3차원 오디오 채널 레이아웃(110)으로부터 청자 전방향의 3차원 오디오 채널 레이아웃(120)으로, 채널 개수의 증가가 가능하다. 예를 들어, 청자 전방의 3차원 오디오 채널 레이아웃(110)는 3.1.2 채널 레이아웃일 수 있다. 청자 전방향의 3차원 오디오 채널 레이아웃(120)는 5.1.2 또는 7.1.2 채널 레이아웃일 수 있다. 하지만 본 개시에서 구현 가능한 스케일러블 채널 레이아웃은 이에 한정되지는 않는다.
기본 채널 그룹으로서, 종래 스테레오 채널의 오디오 신호가 압축될 수 있다. 레거시 오디오 복호화 장치는 비트스트림으로부터 기본 채널 그룹의 압축 오디오 신호를 압축 해제할 수 있기 때문에, 종래 스테레오 채널의 오디오 신호를 원활하게 재생할 수 있다.
추가적으로, 종속 채널 그룹으로서, 다채널 오디오 신호 중 종래 스테레오 채널의 오디오 신호를 제외한 나머지 채널의 오디오 신호가 압축될 수 있다.
다만, 채널의 개수를 증가시키는 과정에서, 채널 그룹의 오디오 신호의 일부는, 특정 채널 레이아웃의 오디오 신호 중 일부 독립 채널의 신호가 믹싱된 오디오 신호일 수 있다.
따라서, 오디오 복호화 장치(300,500)에서 기본 채널 그룹의 오디오 신호와 종속 채널 그룹의 오디오 신호 중 일부는 디믹싱되어, 특정 채널 레이아웃에 포함된 업믹스 채널의 오디오 신호가 생성될 수 있다.
한편, 하나 이상의 종속 채널 그룹이 존재할 수 있다. 예를 들어, 청자 전방의 3차원 오디오 채널 레이아웃(110)의 오디오 신호 중 스테레오 채널의 오디오 신호를 제외한 나머지 채널의 오디오 신호가, 제 1 종속 채널 그룹의 오디오 신호로서 압축될 수 있다.
청자 전방향의 3차원 오디오 채널 레이아웃(120)의 오디오 신호 중 기본 채널 그룹과 제 1 종속 채널 그룹으로부터 복원된 채널들의 오디오 신호를 제외한 나머지 채널의 오디오 신호가, 제 2 종속 채널 그룹의 오디오 신호로서 압축될 수 있다.
일 실시예에 따른 오디오 복호화 장치(300,500)는, 청자 전방향의 3차원 오디오 채널 레이아웃(120)의 오디오 신호에 대한 재생을 지원할 수 있다.
따라서, 일 실시예에 따른 오디오 복호화 장치(300,500)는 기본 채널 그룹의 오디오 신호, 제 1 종속 채널 그룹 및 제 2 종속 채널 그룹의 오디오 신호를 기초로, 청자 전방향의 3차원 오디오 채널 레이아웃(120)의 오디오 신호를 복원할 수 있다.
레거시 오디오 신호 처리 장치는 비트스트림으로부터 복원하지 못하는 종속 채널 그룹의 압축 오디오 신호를 무시하고, 비트스트림으로부터 복원된 스테레오 채널의 오디오 신호만을 재생할 수 있다.
마찬가지로, 오디오 복호화 장치(300,500)는 기본 채널 그룹 및 종속 채널 그룹의 압축 오디오 신호를 처리하여, 스케일러블 채널 레이아웃 중에서 지원가능한 채널 레이아웃의 오디오 신호를 복원할 수 있다. 오디오 복호화 장치(300,500)는 비트스트림으로부터, 지원하지 않는 상위 채널 레이아웃에 관한 압축 오디오 신호를 복원하지 못한다. 따라서, 오디오 복호화 장치(300,500)에서 지원하지 않는 상위 채널 레이아웃에 관한 압축 오디오 신호를 무시하고, 지원가능한 채널 레이아웃의 오디오 신호만을 비트스트림으로부터 복원할 수 있다.
특히, 종래의 오디오 부호화 장치 및 오디오 복호화 장치는 특정 채널 레이아웃의 독립적인 채널의 오디오 신호만을 압축 및 압축 해제하였다. 따라서, 제한적인 채널 레이아웃의 오디오 신호의 압축과 압축 해제만이 가능하였다.
하지만, 스케일러블 채널 레이아웃을 지원하는 장치인 다양한 실시예의 오디오 부호화 장치 및 오디오 복호화 장치(200,300,400,500)에 의하면, 스테레오 채널의 레이아웃의 오디오 신호의 전송 및 복원이 가능하다. 또한, 다양한 실시예의 오디오 부호화 장치 및 오디오 복호화 장치(200,300,400,500)에 의하면, 청자 전방의 3차원 채널 레이아웃의 오디오 신호의 전송 및 복원이 가능하다. 나아가, 다양한 실시예의 오디오 부호화 장치 및 오디오 복호화 장치(200,300,400,500)에 의하면, 청자 전방향의 3차원 채널 레이아웃의 오디오 신호를 전송 및 복원이 가능할 수 있다.
즉, 다양한 실시예에 따른 오디오 부호화 장치 및 오디오 복호화 장치(200,300,400,500)는 스테레오 채널의 레이아웃에 따른 오디오 신호를 전송 및 복원할 수 있다. 그뿐 아니라, 다양한 실시예에 따른 오디오 부호화/복호화 장치(200,300,400,500)는 현재 채널 레이아웃의 오디오 신호들을 다른 채널 레이아웃의 오디오 신호들로 자유로이 변환할 수 있다. 서로 다른 채널 레이아웃에 포함된 채널들의 오디오 신호 간의 믹싱/디믹싱을 통하여 채널 레이아웃들 간의 변환이 가능하다. 다양한 실시예에 따른 오디오 부호화/복호화 장치(200,300,400,500)는 다양한 채널 레이아웃들 간의 변환을 지원하므로, 다양한 3차원 채널 레이아웃들의 오디오 신호를 전송 및 재생할 수 있다. 즉, 청자 전방의 채널 레이아웃과 청자 전방향의 채널 레이아웃 사이, 또는, 스테레오 채널 레이아웃과 청자 전방의 채널 레이아웃 사이에는, 채널의 독립성이 보장되지는 않지만, 오디오 신호의 믹싱/디믹싱을 통하여 자유로이 변환이 가능하다.
다양한 실시예에 따른 오디오 부호화/복호화 장치(200,300,400,500)는, 청자 전방의 채널 레이아웃의 오디오 신호의 처리를 지원하므로, 화면 중심으로 배치된 스피커에 대응되는 오디오 신호를 전송 및 복원함으로써 청자의 몰입감이 증대될 수 있다.
다양한 실시예에 따른 오디오 부호화/복호화 장치(200,300,400,500)의 구체적인 동작은 도 2a 내지 도 5b를 참고하여 후술하기로 한다.
도 1b는 구체적인 스케일러블 오디오 채널 레이아웃 구조의 일 예를 설명하기 위한 도면이다.
도 1b를 참조하면, 스테레오 채널 레이아웃(160)의 오디오 신호를 전송하기 위해, 오디오 부호화 장치(200,400)는 L2/R2 신호를 압축하여 기본 채널 그룹의 압축 오디오 신호(A/B 신호)를 생성할 수 있다.
이때, 오디오 부호화 장치(200,400)는 L2/R2 신호를 압축하여 기본 채널 그룹의 오디오 신호를 생성할 수 있다.
또한, 청자 전방 3차원 오디오 채널 중 하나인 3.1.2 채널의 레이아웃(170)의 오디오 신호를 전송하기 위해, 오디오 부호화 장치(200,400)는 C, LFE, Hfl3, Hfr3 신호를 압축하여 종속 채널 그룹의 압축 오디오 신호를 생성할 수 있다. 오디오 복호화 장치(300,500)는 기본 채널 그룹의 압축 오디오 신호를 압축 해제하여, L2/R2 신호를 복원할 수 있다. 또한, 오디오 복호화 장치(300,500)는 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여, C, LFE, Hfl3, Hfr3 신호를 복원할 수 있다.
오디오 복호화 장치(300,500)는 L2 신호 및 C 신호를 디믹싱(1)하여 3.1.2 채널 레이아웃(170)의 L3 신호를 복원할 수 있다. 오디오 복호화 장치(300,500)는 R2 신호 및 C 신호를 디믹싱(2)하여 3.1.2 채널의 R3 신호를 복원할 수 있다.
결국, 오디오 복호화 장치(300,500)는 L3, R3, C, Lfe, Hfl3, Hfr3 신호를, 3.1.2 채널 레이아웃(170)의 오디오 신호로 출력할 수 있다.
한편, 청자 전방향 5.1.2 채널 레이아웃(180)의 오디오 신호를 전송하기 위해, 오디오 부호화 장치(200,400)는 L5, R5 신호를 추가적으로 압축하여, 제 2 종속 채널 그룹의 압축 오디오 신호를 생성할 수 있다.
전술한 바와 같이, 오디오 복호화 장치(300,500)는 기본 채널 그룹의 압축된 오디오 신호를 압축 해제하여, L2/R2 신호를 복원할 수 있고, 제 1 종속 채널 그룹의 압축된 오디오 신호를 압축 해제하여, C, LFE, Hfl3, Hfr3 신호를 복원할 수 있다. 추가적으로, 오디오 복호화 장치(300,500)는 제 2 종속 채널 그룹의 압축된 오디오 신호를 압축 해제하여 L5, R5 신호를 복원할 수 있다. 또한, 전술한 바와 같이, 오디오 복호화 장치(300,500)는 압축 해제된 오디오 신호 중 일부의 신호를 디믹싱하여, L3 및 R3 신호를 복원할 수 있다.
추가적으로, 오디오 복호화 장치(300,500)는 L3 및 L5 신호를 디믹싱(3)하여 Ls5 신호를 복원할 수 있다. 오디오 복호화 장치(300,500)는 R3 및 R5 신호를 디믹싱(4)하여 Rs5 신호를 복원할 수 있다.
오디오 복호화 장치(300,500)는 Hfl3 신호 및 Ls5 신호를 디믹싱(5)하여 Hl5 신호를 복원할 수 있다.
오디오 복호화 장치(300,500)는 Hfr3 신호 및 Rs5 신호를 디믹싱(6)하여 Hr5 신호를 복원할 수 있다. Hfr3 및 Hr5는 각각 높이 채널 중 전방의 오른쪽 채널이다.
결국, 오디오 복호화 장치(300,500)는 Hl5, Hr5, LFE, L, R, C, Ls5, Rs5 신호를 5.1.2 채널 레이아웃(180)의 오디오 신호로 출력할 수 있다.
한편, 7.1.4 채널 레이아웃(190)의 오디오 신호를 전송하기 위해, 오디오 부호화 장치(200,400)는 Hfl, Hfr, Ls, Rs 신호를 제 3 종속 채널 그룹의 오디오 신호로서 추가적으로 압축할 수 있다.
전술한 바와 같이, 오디오 복호화 장치(300,500)는 기본 채널 그룹의 압축 오디오 신호, 제 1 종속 채널 그룹의 압축 오디오 신호 및 제 2 종속 채널 그룹의 압축 오디오 신호를 압축 해제하고, 디믹싱 (1),(2),(3),(4),(5) 및 (6)을 통해 Hl5, Hr5, LFE, L, R, C, Ls5, Rs5 신호를 복원할 수 있다.
추가적으로, 오디오 복호화 장치(300,500)는 제 3 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여 Hfl, Hfr, Ls, Rs 신호를 복원할 수 있다. 오디오 복호화 장치(300,500)는 Ls5 신호 및 Ls 신호를 디믹싱(7)하여 7.1.4 채널 레이아웃(190)의 Lb 신호를 복원할 수 있다.
오디오 복호화 장치(300,500)는 Rs5 신호 및 Rs 신호를 디믹싱(8)하여 7.1.4 채널 레이아웃(190)의 Rb 신호를 복원할 수 있다.
오디오 복호화 장치(300,500)는 Hfl 신호 및 Hl5 신호를 디믹싱(9)하여 7.1.4 채널 레이아웃(190)의 Hbl 신호를 복원할 수 있다.
오디오 복호화 장치(300,500)는 Hfr 신호 및 Hr5 신호를 디믹싱(또는 믹싱)(10)하여 7.1.4 채널 레이아웃(190)의 Hbr 신호를 복원할 수 있다.
결국, 오디오 복호화 장치(300,500)는 Hfl, Hfr, LFE, C, L, R, Ls, Rs, Lb, Rb, Hbl, Hbr 신호를 7.1.4 채널 레이아웃(190)의 오디오 신호로 출력할 수 있다.
따라서, 오디오 복호화 장치(300,500)는 디믹싱 동작을 통해 채널의 개수가 증가되는 스케일러블 채널 레이아웃을 지원함으로써, 종래 스테레오 채널 레이아웃의 오디오 신호뿐 아니라, 청자 전방의 3차원 오디오 채널의 오디오 신호 및 청자 전방향 3차원 오디오 채널의 오디오 신호까지 복원할 수 있다.
이상, 도 1b를 참조하여 구체적으로 설명한 스케일러블 채널 레이아웃 구조는 일 예에 불과하고, 다양한 채널 레이아웃을 포함하는 형태로, 채널 레이아웃 구조가 스케일러블하게 구현될 수 있다.
도 2a는 일 실시예에 따른 오디오 부호화 장치의 구성을 도시하는 블록도이다.
오디오 부호화 장치(200)는 메모리(210) 및 프로세서(230)를 포함한다. 오디오 부호화 장치(200)는 서버, TV, 카메라, 휴대폰, 태블릿 PC, 노트북 등 오디오 처리가 가능한 기기로 구현될 수 있다.
도 2a에는 메모리(210) 및 프로세서(230)가 개별적으로 도시되어 있으나, 메모리(210) 및 프로세서(230)는 하나의 하드웨어 모듈(예를 들어, 칩)을 통해 구현될 수 있다.
프로세서(230)는 신경망 기반의 오디오 처리를 위한 전용 프로세서로 구현될 수 있다. 또는, 프로세서(230)는 AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.
프로세서(230)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.
메모리(210)는 오디오 처리를 위한 하나 이상의 인스트럭션을 저장할 수 있다. 일 실시예에서, 메모리(210)는 신경망을 저장할 수 있다. 신경망이 인공 지능을 위한 전용 하드웨어 칩 형태로 구현되거나, 기존의 범용 프로세서(예를 들어, CPU 또는 애플리케이션 프로세서) 또는 그래픽 전용 프로세서(예를 들어, GPU)의 일부로 구현되는 경우에는, 신경망이 메모리(210)에 저장되지 않을 수 있다. 신경망은 외부 장치(예를 들어, 서버)에 의해 구현될 수 있고, 이 경우, 오디오 부호화 장치(200)는 요청하고, 외부 장치로부터 신경망에 기초한 결과 정보를 수신할 수 있다.
프로세서(230)는 메모리(210)에 저장된 인스트럭션에 따라 연속된 프레임들을 순차적으로 처리하여 연속된 부호화(압축) 프레임들을 획득한다. 연속된 프레임은 오디오를 구성하는 프레임들을 의미할 수 있다.
프로세서(230)는 원본 오디오 신호를 입력으로 하여, 오디오 처리 동작을 수행하여 압축 오디오 신호를 포함하는 비트스트림을 출력할 수 있다. 이때, 원본 오디오 신호는 다채널 오디오 신호일 수 있다. 압축 오디오 신호는 원본 오디오 신호의 채널의 개수보다 작거나 같은 개수의 채널을 갖는 다채널 오디오 신호일 수 있다.
이때, 비트스트림은 기본 채널 그룹을 포함하고, 나아가, n개의 종속 채널 그룹(n은 1보다 크거나 같은 정수)을 포함할 수 있다. 따라서, 종속 채널 그룹의 개수에 따라, 채널의 개수를 자유롭게 증가시킬 수 있다.
도 2b는 일 실시예에 따른 오디오 부호화 장치의 구성을 도시하는 블록도이다.
도 2b를 참조하면, 오디오 부호화 장치(200)는 다채널 오디오 부호화부(250), 비트스트림 생성부(280) 및 부가 정보 생성부(285)를 포함할 수 있다. 다채널 오디오 부호화부(250)는 다채널 오디오 신호 처리부(260) 및 압축부(270)을 포함할 수 있다.
도 2a를 다시 참조하면, 전술한 바와 같이, 오디오 부호화 장치(200)는 메모리(210) 및 프로세서(230)를 포함할 수 있고, 도 2b의 각 구성요소(250, 260, 270, 280, 285)를 구현하기 위한 인스트럭션은 도 2a의 메모리(210)에 저장될 수 있다. 프로세서(230)는 메모리(210)에 저장된 인스트럭션을 실행할 수 있다.
다채널 오디오 신호 처리부(260)는 원본 오디오 신호로부터 기본 채널 그룹의 적어도 하나의 오디오 신호 및 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 획득할 수 있다. 예를 들어, 원본 오디오 신호가 7.1.4 채널 레이아웃의 오디오 신호인 경우, 다채널 오디오 신호 처리부(260)는 7.1.4 채널 레이아웃의 오디오 신호에서, 2채널(스테레오 채널)의 오디오 신호를 기본 채널 그룹의 오디오 신호로서 획득할 수 있다.
다채널 오디오 신호 처리부(260)는 청자 전방의 3차원 오디오 채널 중 하나인 3.1.2 채널 레이아웃의 오디오 신호를 복원하기 위해, 3.1.2 채널 레이아웃의 오디오 신호에서 2채널의 오디오 신호를 제외한, 나머지 채널의 오디오 신호를 제 1 종속 채널 그룹의 오디오 신호로서 획득할 수 있다. 이때, 제 1 종속 채널 그룹의 일부 채널의 오디오 신호를 디믹싱하여, 디믹싱된 채널(de-mixed channel)의 오디오 신호를 생성할 수 있다.
다채널 오디오 신호 처리부(260)는 청자 전후방 3차원 오디오 채널 중 하나인 5.1.2 채널 레이아웃의 오디오 신호를 복원하기 위해, 5.1.2 채널 레이아웃의 오디오 신호에서 기본 채널 그룹 및 제 1 종속 채널 그룹의 오디오 신호를 제외한 나머지 채널의 오디오 신호를 제 2 종속 채널 그룹의 오디오 신호로서 획득할 수 있다. 이때, 제 2 종속 채널 그룹의 일부 채널의 오디오 신호를 디믹싱하여, 디믹싱된 채널(de-mixed channel)의 오디오 신호를 생성할 수 있다.
다채널 오디오 신호 처리부(260)는 청자 전방향 3차원 오디오 채널 중 7.1.4 채널 레이아웃의 오디오 신호를 복원하기 위해, 7.1.4 레이아웃의 오디오 신호에서, 기본 채널 그룹, 제 1 종속 채널 그룹 및 제 2 종속 채널 그룹의 오디오 신호를 제외한 나머지 채널의 오디오 신호를 제 3 종속 채널 그룹의 오디오 신호로서 획득할 수 있다. 마찬가지로, 제 3 종속 채널 그룹의 일부 채널의 오디오 신호를 디믹싱하여, 디믹싱된 채널(de-mixed channel)의 오디오 신호가 획득될 수 있다.
다채널 오디오 신호 처리부(260)의 구체적인 동작은 도 2c를 참조하여 후술하겠다.
압축부(270)는 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호를 압축할 수 있다. 즉, 압축부(270)는 기본 채널 그룹의 적어도 하나의 오디오 신호를 압축하여 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 획득할 수 있다. 여기서 압축이란, 다양한 오디오 코덱에 기초한 압축을 의미할 수 있다. 예를 들어, 압축은, 변환 및 양자화 프로세스를 포함할 수 있다.
여기서, 기본 채널 그룹의 오디오 신호는 모노 또는 스테레오 신호일 수 있다. 또는, 기본 채널 그룹의 오디오 신호는 좌측 스테레오 채널의 오디오 신호 L과 C_1를 믹싱하여 생성된 제 1 채널의 오디오 신호를 포함할 수 있다. 여기서, C_1는 압축후 압축해제된, 청자 전방의 중심(Center) 채널의 오디오 신호일 수 있다. 오디오 신호의 명칭("X_Y")에서 "X"는 채널의 명칭, "Y"는 복호화되거나, 업믹싱되거나, 에러 제거를 위한 펙터가 적용됨(스케일됨) 또는 LFE 이득이 적용됨을 나타낼 수 있다. 예를 들어, 복호화된 신호는 "X_1"으로 표현되고, 복호화된 신호를 업믹싱하여 생성된 신호(업믹싱된 신호)는 "X_2"으로 표현될 수 있다. 또는, 복호화된 LFE 신호에 LFE 이득이 적용된 신호도 'X_2"으로 표현될 수 있다. 업믹싱된 신호에 에러 제거를 위한 펙터가 적용된(스케일된) 신호는 "X_3"으로 표현될 수 있다.
또한, 기본 채널 그룹의 오디오 신호는 우측 스테레오 채널의 오디오 신호 R과 C_1를 믹싱하여 생성된 제 2 채널의 오디오 신호를 포함할 수 있다.
또한, 압축부(270)는 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 압축하여, 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 획득할 수 있다.
부가 정보 생성부(285)는 원본 오디오 신호, 기본 채널 그룹의 압축 오디오 신호 및 종속 채널 그룹의 압축 오디오 신호 중 적어도 하나를 기초로, 부가 정보를 생성할 수 있다. 이때, 부가 정보는 다채널 오디오 신호와 관련된 정보로, 다채널 오디오 신호의 복원을 위한 다양한 정보일 수 있다.
예를 들어, 부가 정보는 오디오 객체(음원)의 오디오 신호, 위치, 모양, 면적, 방향 중 적어도 하나를 나타내는 청자 전방의 3차원 오디오 채널의 오디오 객체 신호를 포함할 수 있다. 또는 부가 정보는 기본 채널 오디오 스트림 및 종속 채널 오디오 스트림을 포함하는 오디오 스트림의 총 개수에 관한 정보를 포함할 수 있다. 또한, 부가 정보는 다운믹스 이득 정보를 포함할 수 있다. 부가 정보는 채널 맵핑 테이블 정보를 포함할 수 있다. 부가 정보는 음량 정보를 포함할 수 있다. 부가 정보는 저주파 효과 이득(Low Frequency Effect Gain; LFE Gain) 정보를 포함할 수 있다. 부가 정보는 동적 범위 제어(Dynamic Range Control;DRC) 정보를 포함할 수 있다. 부가 정보는 채널 레이아웃 렌더링 정보를 포함할 수 있다. 부가 정보는 그 외 커플링된 오디오 스트림의 개수 정보, 다채널의 레이아웃을 나타내는 정보, 오디오 신호 내 대화(Dialogue) 존재 여부 및 대화 레벨에 관한 정보, 저주파 효과(LFE) 출력 여부를 나타내는 정보, 화면 상 오디오 객체의 존재 여부에 관한 정보, 연속적인 오디오 채널의 오디오 신호(audio signal of continuous audio channel; 또는 씬 기반(scene based) 오디오 신호; 또는 앰비소닉 오디오 신호)의 존재 여부에 관한 정보, 비연속적인 오디오 채널의 오디오 신호(audio signal of discrete audio channel; 또는 객체 기반 오디오 신호; 또는 공간적인 멀티 채널(spatial multi-channel)의 오디오 신호)의 존재 여부에 관한 정보를 포함할 수 있다. 부가 정보는 다채널 오디오 신호를 복원하기 위한, 디믹싱 행렬의 적어도 하나의 디믹싱 가중치 파라미터를 포함하는 디믹싱에 관한 정보를 포함할 수 있다. 디믹싱과 (다운)믹싱은 서로 대응되는 동작이므로, 디믹싱에 관한 정보는 (다운)믹싱에 관한 정보에 대응되고, 디믹싱에 관한 정보는 (다운)믹싱에 관한 정보를 포함할 수 있다. 예를 들어, 디믹싱에 관한 정보는 (다운)믹싱 행렬의 적어도 하나의 (다운)믹싱 가중치 파라미터를 포함할 수 있다. (다운)믹싱 가중치 파라미터를 기초로, 디믹싱 가중치 파라미터가 획득될 수 있다.
부가 정보는 전술한 정보들의 다양한 조합일 수 있다. 즉, 부가 정보는 전술한 적어도 하나의 정보를 포함할 수 있다.
부가 정보 생성부(285)는 기본 채널 그룹의 적어도 하나의 오디오 신호에 대응하는, 종속 채널의 오디오 신호가 존재하는 경우, 종속 채널의 오디오 신호가 존재함을 나타내는 종속 채널 오디오 신호 식별 정보를 생성할 수 있다.
비트스트림 생성부(280)은 기본 채널 그룹의 압축 오디오 신호 및 종속 채널 그룹의 압축 오디오 신호를 포함하는 비트스트림을 생성할 수 있다. 비트스트림 생성부(280)는 부가 정보 생성부(285)에서 생성된 부가 정보를 더 포함하는 비트스트림을 생성할 수 있다.
구체적으로, 비트스트림 생성부(280)는 기본 채널 오디오 스트림 및 종속 채널 오디오 스트림을 생성할 수 있다. 기본 채널 오디오 스트림은 기본 채널 그룹의 압축 오디오 신호를 포함할 수 있고, 종속 채널 오디오 스트림은 종속 채널 그룹의 압축 오디오 신호를 포함할 수 있다.
비트스트림 생성부(280)는 기본 채널 오디오 스트림 및 복수의 종속 채널 오디오 스트림을 포함하는 비트스트림을 생성할 수 있다. 복수의 종속 채널 오디오 스트림은 n개의 종속 채널 오디오 스트림(n은 1보다 큰 정수)을 포함할 수 있다. 이때, 기본 채널 오디오 스트림은 모노 채널의 오디오 신호 또는 스테레오 채널의 압축 오디오 신호를 포함할 수 있다.
예를 들어, 기본 채널 오디오 스트림 및 제 1 종속 채널 오디오 스트림을 통해 복원된 제 1 다채널 레이아웃의 채널 중 서라운드 채널의 개수는 Sn-1, 서브 우퍼 채널의 개수는 Wn-1, 높이 채널의 개수는 Hn-1일 수 있다. 기본 채널 오디오 스트림, 제 1 종속 채널 오디오 스트림 및 제 2 종속 채널 오디오 스트림을 통해 복원된 제 2 다채널 레이아웃 중 서라운드 채널의 개수는 Sn, 서브 우퍼 채널의 개수는 Wn, 높이 채널의 개수는 Hn일 수 있다.
이때, Sn-1은 Sn보다 작거나 같고, Wn-1은 Wn보다 작거나 같을 수 있고, Hn-1은 Hn보다 작거나 같을 수 있다. 여기서, Sn-1이 Sn과 동일하고, Wn-1 Wn과 동일하고, Hn-1 Hn과 동일한 경우는 제외될 수 있다.
즉, 제 2 다채널 레이아웃의 서라운드 채널의 개수는 제 1 다채널 레이아웃의 서라운드 채널의 개수보다 많아야 한다. 또는, 제 2 다채널 레이아웃의 서브우퍼 채널의 개수는 제 1 다채널 레이아웃의 서브우퍼 채널의 개수보다 많아야 한다. 또는, 제 2 다채널 레이아웃의 높이채널의 개수는 제 1 다채널 레이아웃의 높이채널의 개수보다 많아야 한다.
또한, 제 2 다채널 레이아웃의 서라운드 채널의 개수는 제 1 다채널 레이아웃의 서라운드 채널의 개수보다 작을 수 없다. 마찬가지로 제 2 다채널 레이아웃의 서브우퍼채널의 개수는 제 1 다채널 레이아웃의 서브우퍼채널의 개수보다 작을 수 없다. 제 2 다채널 레이아웃의 높이채널의 개수는 제 1 다채널 레이아웃의 높이채널의 개수보다 작을 수 없다.
또한, 제2 다채널 레이아웃의 서라운드 채널의 개수가 제 1 다채널 레이아웃의 서라운드 채널의 개수와 동일하면서, 제 2 다채널 레이아웃의 서브우퍼 채널의 개수가 제 1 다채널 레이아웃의 서브우퍼 채널의 개수와 동일하고, 또한, 제 2 다채널 레이아웃의 높이 채널의 개수가 제 1 다채널 레이아웃의 높이 채널의 개수와 동일할 수 없다. 즉, 제 2 다채널 레이아웃의 모든 채널들이 제 1 다채널 레이아웃의 모든 채널과 동일할 수 없다.
구체적인 일 예로, 제 1 다채널 레이아웃이 5.1.2 채널 레이아웃이라고 하면, 제 2 채널 레이아웃은 7.1.4 채널 레이아웃일 수 있다.
또한, 비트스트림 생성부(280)는 부가 정보를 포함하는 메타 데이터를 생성할 수 있다.
결국, 비트스트림 생성부(280)는 기본 채널 오디오 스트림, 종속 채널 오디오 스트림 및 메타 데이터를 포함하는 비트스트림을 생성할 수 있다.
비트스트림 생성부(280)는 기본 채널 그룹으로부터 채널의 개수를 자유롭게 증가시킬 수 있는 형태의 비트스트림을 생성할 수 있다.
즉, 기본 채널 오디오 스트림으로부터 기본 채널 그룹의 오디오 신호가 복원될 수 있고, 기본 채널 오디오 스트림 및 종속 채널 오디오 스트림으로부터, 기본 채널 그룹으로부터 채널의 개수가 증가된 다채널 오디오 신호가 복원될 수 있다.
한편, 비트스트림 생성부(280)는 복수의 오디오 트랙을 갖는 파일 스트림을 생성할 수 있다. 비트스트림 생성부(280)는 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 포함하는 제 1 오디오 트랙의 오디오 스트림을 생성할 수 있다. 비트스트림 생성부(280)는 종속 채널 오디오 신호 식별 정보를 포함하는 제 2 오디오 트랙의 오디오 스트림을 생성할 수 있다. 이때, 제 2 오디오 트랙은 제 1 오디오 트랙 이후의 오디오 트랙으로, 서로 인접할 수 있다.
비트스트림 생성부(280)는 기본 채널 그룹의 적어도 하나의 오디오 신호에 대응하는 종속 채널 오디오 신호가 존재하는 경우, 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 포함하는 제 2 오디오 트랙의 오디오 스트림을 생성할 수 있다.
한편, 비트스트림 생성부(280)는 기본 채널 그룹의 적어도 하나의 오디오 신호에 대응하는 종속 채널 오디오 신호가 존재하지 않는 경우, 기본 채널 그룹의 제 1 오디오 트랙의 오디오 신호의 다음 기본 채널 그룹의 오디오 신호를 포함하는 제 2 오디오 트랙의 오디오 스트림을 생성할 수 있다.
도 2c는 일 실시예에 따른 다채널 오디오 신호 처리부의 구성을 도시하는 블록도이다.
도 2c를 참조하면, 다채널 오디오 신호 처리부(260)는 채널 레이아웃 식별부(261), 다운믹스 채널 오디오 생성부(262) 및 오디오 신호 분류부(266)를 포함한다.
채널 레이아웃 식별부(261)는 원본 오디오 신호로부터, 적어도 하나의 채널 레이아웃을 식별할 수 있다. 이때, 적어도 하나의 채널 레이아웃은 계층적인 복수의 채널 레이아웃을 포함할 수 있다. 채널 레이아웃 식별부(261)는 원본 오디오 신호의 채널 레이아웃을 식별할 수 있다. 또한, 채널 레이아웃 식별부(261)는 원본 오디오 신호의 채널 레이아웃보다 하위 채널 레이아웃을 식별할 수 있다. 예를 들어, 원본 오디오 신호가 7.1.4 채널 레이아웃의 오디오 신호인 경우, 채널 레이아웃 식별부(261)는 7.1.4 채널 레이아웃을 식별하고, 7.1.4 채널 레이아웃보다 하위 채널 레이아웃인 5.1.2 채널 레이아웃, 3.1.2 채널 레이아웃 및 2 채널 레이아웃 등을 식별할 수 있다. 상위 채널 레이아웃은 하위 채널 레이아웃보다 서라운드 채널/서브우퍼 채널/높이 채널 중 적어도 하나의 채널 개수가 많은 레이아웃을 의미한다. 서라운드 채널의 개수가 많고 적은지에 따라, 상위/하위 채널 레이아웃이 결정될 수 있고, 서라운드 채널의 개수가 동일한 경우, 서브우퍼 채널의 개수가 많고 적은지에 따라 상위/하위 채널 레이아웃이 결정될 수 있다. 서브 우퍼 채널의 개수 및 서브 우퍼의 채널의 개수가 동일한 경우, 높이 채널의 개수가 많고 적은지에 따라 상위/하위 채널 레이아웃이 결정될 수 있다.
또한, 식별된 채널 레이아웃은 타겟 채널 레이아웃을 포함할 수 있다. 타겟 채널 레이아웃이란, 최종적으로 출력되는 비트스트림에 포함된 오디오 신호의 최상위 채널 레이아웃을 의미할 수 있다. 타겟 채널 레이아웃은 원본 오디오 신호의 채널 레이아웃, 또는 원본 오디오 신호의 채널 레이아웃보다 하위 채널 레이아웃일 수 있다.
구체적으로, 원본 오디오 신호로부터 식별되는 채널 레이아웃은 원본 오디오 신호의 채널 레이아웃으로부터 계층적으로 결정될 수 있다. 이때, 채널 레이아웃 식별부(261)는 미리 결정된 채널 레이아웃들 중 적어도 하나의 채널 레이아웃을 식별할 수 있다. 예를 들어, 채널 레이아웃 식별부(261)는 원본 오디오 신호의 레이아웃인 7.1.4 채널 레이아웃로부터, 미리 결정된 채널의 레이아웃들 중 일부인 7.1.4 채널 레이아웃, 5.1.4 채널 레이아웃, 5.1.2 채널 레이아웃, 3.1.2 채널 레이아웃 및 2 채널 레이아웃을 식별할 수 있다.
채널 레이아웃 식별부(261)는 식별된 채널 레이아웃을 기초로, 제 1 다운믹스 채널 오디오 생성부(263), 제 2 다운믹스 채널 오디오 생성부(264), ?? 제 N 다운믹스 채널 오디오 생성부(265) 중 식별된 적어도 하나의 채널 레이아웃에 대응하는 다운믹스 채널 오디오 생성부로 제어 신호를 전달하고, 다운믹스 채널 오디오 생성부(262)는 채널 레이아웃 식별부(261)에서 식별된 적어도 하나의 채널 레이아웃을 기초로, 원본 오디오 신호로부터 다운믹스 채널 오디오를 생성할 수 있다. 다운믹스 채널 오디오 생성부(262)는 적어도 하나의 다운믹싱 가중치 파라미터를 포함하는 다운믹싱 매트릭스를 이용하여, 원본 오디오 신호로부터 다운믹스 채널 오디오를 생성할 수 있다.
예를 들어, 원본 오디오 신호의 채널 레이아웃이 미리 결정된 채널 레이아웃들 중 오름차순으로 n번째 채널 레이아웃일 때, 다운믹스 채널 오디오 생성부(262)는 원본 오디오 신호로부터 원본 오디오 신호의 채널 레이아웃의 바로 하위의 n-1번째의 채널 레이아웃의 다운믹스 채널 오디오를 생성할 수 있다. 이러한 과정을 반복하여, 다운믹스 채널 오디오 생성부(252)는 현재 채널 레이아웃의 하위의 채널 레이아웃들의 다운믹스 채널 오디오들을 생성할 수 있다.
예를 들어, 다운믹스 채널 오디오 생성부(262)는 제 1 다운믹스 채널 오디오 생성부(263), 제 2 다운믹스 채널 오디오 생성부(264),??, 제 n-1 다운믹스 채널 오디오 생성부(미도시)를 포함할 수 있다. n-1은 N보다 작거나 같을 수 있다.
이때, 제 n-1 다운믹스 채널 오디오 생성부(미도시)는 원본 오디오 신호로부터 제 n-1 채널 레이아웃의 오디오 신호를 생성할 수 있다. 또한, 제 n-2 다운믹스 채널 오디오 생성부(미도시)는 원본 오디오 신호로부터 제 n-2 채널 레이아웃의 오디오 신호를 생성할 수 있다. 이와 같은 방식으로, 제 1 다운믹스 채널 오디오 생성부(263)는 원본 오디오 신호로부터 제 1 채널 레이아웃의 오디오 신호를 생성할 수 있다. 이때, 제 1 채널 레이아웃의 오디오 신호는 기본 채널 그룹의 오디오 신호일 수 있다.
한편, 각 다운믹스 채널 오디오 생성부(263,264,??,265)는 캐스케이드한 방식으로 연결될 수 있다. 즉, 각 다운믹스 채널 오디오 생성부(263,264,??,265)는 상위 다운믹스 채널 오디오 생성부의 출력이 하위 다운믹스 채널 오디오 생성부의 입력이 되는 식으로 연결될 수 있다. 예를 들어, 원본 오디오 신호를 입력으로 하여 제 n-1 다운믹스 채널 오디오 생성부(미도시)로부터 제 n-1 채널 레이아웃의 오디오 신호가 출력될 수 있고, 제 n-1 채널 레이아웃의 오디오 신호는 제 n-2 다운믹스 채널 오디오 생성부(미도시)로 입력되고 제 n-2 다운믹스 채널 오디오 생성부(미도시)로부터 제 n-2 다운믹스 채널 오디오가 생성될 수 있다. 이런 식으로, 각 다운믹스 채널 오디오 생성부(263,264,??,265) 간에 연결되어, 각 채널 레이아웃의 오디오 신호를 출력할 수 있다.
오디오 신호 분류부(266)는 적어도 하나의 채널 레이아웃의 오디오 신호를 기초로, 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호를 획득할 수 있다. 이때, 오디오 분류부(266)는 믹싱부(267)를 통해 적어도 하나의 채널 레이아웃의 오디오 신호에 포함된 적어도 하나의 채널의 오디오 신호를 믹싱할 수 있다. 오디오 분류부(266)는 믹싱된 오디오 신호를 기본 채널 그룹의 신호 및 종속 채널 그룹의 오디오 신호 중 적어도 하나로 분류할 수 있다.
도 2d는 오디오 신호 분류부의 구체적인 동작의 일 예를 설명하기 위한 도면이다.
도 2d를 참조하면, 도 2c의 다운믹스 채널 오디오 생성부(262)는 7.1.4 채널 레이아웃(290)의 원본 오디오 신호로부터, 하위 채널 레이아웃의 오디오 신호인 5.1.2 채널 레이아웃(291)의 오디오 신호, 3.1.2 채널 레이아웃(292)의 오디오 신호 및 2 채널 레이아웃(293)의 오디오 신호 및 모노 채널 레이아웃(294)의 오디오 신호를 획득할 수 있다. 다운믹스 채널 오디오 생성부(262)의 각 다운믹스 채널 오디오 생성부(263,264,??,265)는 캐스케이드한 방식으로 연결되어 있기 때문에, 순차적으로, 현재 채널 레이아웃으로부터 하위 채널 레이아웃의 오디오 신호를 획득할 수 있다.
도 2c의 오디오 신호 분류부(266)는 모노 채널 레이아웃(294)의 오디오 신호를 기본 채널 그룹의 오디오 신호로 분류할 수 있다.
오디오 신호 분류부(266)는 2채널 레이아웃(293)의 오디오 신호 중 일부인 L2 채널의 오디오 신호를 종속 채널 그룹 #1의 오디오 신호로 분류할 수 있다. 한편, L2 채널의 오디오 신호와 R2 채널의 오디오 신호가 믹싱되어 모노 채널 레이아웃(294)의 오디오 신호가 생성되기 때문에, 역으로, 오디오 복호화 장치(300,500)는 모노 채널 레이아웃(294)의 오디오 신호와 L2 채널의 오디오 신호를 디믹싱하여 R2 채널의 오디오 신호를 복원할 수 있다. 따라서 R2 채널의 오디오 신호는 별도의 채널 그룹의 오디오 신호로 분류되지 않을 수 있다.
오디오 신호 분류부(266)는 3.1.2 채널 레이아웃(292)의 오디오 신호 중 Hfl3 채널의 오디오 신호, C 채널의 오디오 신호, LFE의 오디오 신호 및 Hfr3 채널의 오디오 신호를 종속 채널 그룹 #2의 오디오 신호로 분류할 수 있다. L3 채널의 오디오 신호와 Hfl3 채널의 오디오 신호가 믹싱되어 L2 채널의 오디오 신호가 생성되기 때문에, 역으로, 오디오 복호화 장치(300,500)는 종속 채널 그룹 #1의 L2 채널의 오디오 신호와 종속 채널 그룹 #2의 Hfl3 채널의 오디오 신호를 디믹싱하여 L3 채널의 오디오 신호를 복원할 수 있다.
따라서, 3.1.2 채널 레이아웃(292)의 오디오 신호 중 L3 채널 의 오디오 신호는 특정 채널 그룹의 오디오 신호로 분류되지 않을 수 있다.
R3 채널도 마찬가지의 이유로, 특정 채널 그룹의 오디오 신호로 분류되지 않을 수 있다.
오디오 신호 분류부(266)는 5.1.2 채널 레이아웃(291)의 오디오 신호를 전송하기 위해, 5.1.2 채널 레이아웃(291)의 일부 채널의 오디오 신호인 L 채널의 오디오 신호와 R 채널의 오디오 신호를 종속 채널 그룹 #3의 오디오 신호로 전송할 수 있다. 한편, Ls5, Hl5, Rs5, Hr5 중 하나의 채널의 오디오 신호는 5.1.2 채널 레이아웃(291)의 오디오 신호 중 하나이나, 별도의 종속 채널 그룹의 오디오 신호로 분류되지 않는다. 이유는, Ls5, Hl5, Rs5, Hr5와 같은 채널의 신호들은 청자 전방의 채널 오디오 신호가 아닐 뿐 아니라, 7.1.4 채널 레이아웃(290)의 오디오 신호 중 청자 전방, 측방, 후방의 오디오 채널 중 적어도 하나 채널의 오디오 신호가 믹싱된 신호이다. 믹싱된 신호를 종속 채널 그룹의 오디오 신호로 분류하여 압축하기 보다는, 원본 오디오 신호 중 청자 전방의 오디오 채널의 오디오 신호를 그대로 압축하면, 청자 전방의 오디오 채널의 오디오 신호의 음질이 향상될 수 있다. 이로 인해, 청자 입장에서 재생되는 오디오 신호의 음질이 보다 향상된 것처럼 느낄 수 있다.
하지만, 경우에 따라, L 대신 Ls5 또는 Hl5가 종속 채널 그룹 #3의 오디오 신호로 분류될 수 있고, R 대신 Rs5또는 Hr5가 종속 채널 그룹 #3의 오디오 신호로 분류될 수 있다.
오디오 신호 분류부(266)는 7.1.4 채널 레이아웃(290)의 오디오 신호 중 Ls,Hfl,Rs,Hfr 채널의 신호를 종속 채널 그룹 #4의 오디오 신호로 분류할 수 있다. 이때, Ls 대신 Lb, Hfl 대신 Hbl, Rs 대신 Rb, Hfr 대신 Hbr는 종속 채널 그룹 #4의 오디오 신호로 분류되지 않는다. 7.1.4 채널 레이아웃(290)의 오디오 신호에서 청자 후방의 오디오 채널 오디오 신호를 채널 그룹의 오디오 신호로 분류하여 압축하기 보다는, 원본 오디오 신호 중 청자 전방에 가까운 측방의 오디오 채널의 오디오 신호를 그대로 압축하면 청자 전방에 가까운 측방의 오디오 채널의 오디오 신호의 음질이 향상될 수 있다. 따라서, 청자 입장에서 재생되는 오디오 신호의 음질이 보다 향상된 것처럼 느낄 수 있다. 하지만, 경우에 따라, Ls 대신 Lb, Hfl 대신 Hbl, Rs 대신 Rb, Hfr 대신 Hbr 채널의 오디오 신호가 종속 채널 그룹 #4의 오디오 신호로 분류될 수 있다.
결국, 도 2c의 다운믹스 채널 오디오 생성부(262)는 원본 오디오 신호 레이아웃으로부터 식별된 복수의 하위 채널 레이아웃을 기초로, 복수의 하위 레이아웃의 오디오 신호(다운믹스 채널 오디오)를 생성할 수 있다. 도 2c의 오디오 신호 분류부(266)는 원본 오디오 신호 및 복수의 하위 레이아웃의 오디오 신호를 기초로, 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹 #1,#2,#3,#4의 오디오 신호를 분류할 수 있다. 이때, 분류되는 채널의 오디오 신호는 각 채널 레이아웃에 따른 각 채널의 오디오 신호 중 독립 채널의 오디오 신호의 일부를 채널 그룹의 오디오 신호로 분류할 수 있다. 오디오 복호화 장치(300,500)는 오디오 신호 채널 분류부(266)에서 분류되지 않는 오디오 신호는 디믹싱을 통해 복원할 수 있다. 한편, 청자 중심으로 좌측 채널의 오디오 신호가 특정 채널 그룹의 오디오 신호로 분류된다면, 좌측 채널에 대응하는 우측 채널의 오디오 신호도 해당 채널 그룹의 오디오 신호로 분류될 수 있다. 즉, 커플링된 채널들의 오디오 신호는 하나의 채널 그룹의 오디오 신호로 분류될 수 있다.
스테레오 채널 레이아웃의 오디오 신호가 기본 채널 그룹의 오디오 신호로 분류된 경우에는, 커플링된 채널들의 오디오 신호는 모두 하나의 채널 그룹의 오디오 신호로 분류될 수 있다. 하지만, 도 2d를 참조하여 전술한 바와 같이, 모노 채널 레이아웃의 오디오 신호가 기본 채널 그룹의 오디오 신호로 분류된 경우에는, 예외적으로, 스테레오 채널의 오디오 신호 중 하나만이 종속 채널 그룹 #1의 오디오 신호로 분류될 수 있다. 다만, 채널 그룹의 오디오 신호의 분류 방법은 도 2d를 참조하여 상술한 내용에 제한되지 않고, 다양한 방법에 의할 수 있다. 즉, 분류된 채널 그룹의 오디오 신호를 디믹싱하고, 디믹싱된 오디오 신호로부터 채널 그룹의 오디오 신호로 분류되지 않은 채널의 오디오 신호를 복원할 수만 있다면, 다양한 형태로 채널 그룹의 오디오 신호가 분류될 수 있다.
도 3a는 일 실시예에 따른 다채널 오디오 복호화 장치의 구성을 도시하는 블록도이다.
오디오 복호화 장치(300)는 메모리(310) 및 프로세서(330)를 포함한다. 오디오 복호화 장치(300)는 서버, TV, 카메라, 휴대폰, 태블릿 PC, 노트북 등 오디오 처리가 가능한 기기로 구현될 수 있다.
도 3a에는 메모리(310) 및 프로세서(330)가 개별적으로 도시되어 있으나, 메모리(310) 및 프로세서(330)는 하나의 하드웨어 모듈(예를 들어, 칩)을 통해 구현될 수 있다.
프로세서(330)는 신경망 기반의 오디오 처리를 위한 전용 프로세서로 구현될 수 있다. 또는, 프로세서(230)는 AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다
프로세서(330)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.
메모리(310)는 오디오 처리를 위한 하나 이상의 인스트럭션을 저장할 수 있다. 일 실시예에서, 메모리(310)는 신경망을 저장할 수 있다. 신경망이 인공 지능을 위한 전용 하드웨어 칩 형태로 구현되거나, 기존의 범용 프로세서(예를 들어, CPU 또는 애플리케이션 프로세서) 또는 그래픽 전용 프로세서(예를 들어, GPU)의 일부로 구현되는 경우에는, 신경망이 메모리(310)에 저장되지 않을 수 있다. 신경망은 외부 장치(예를 들어, 서버)에 의해 구현될 수 있고, 이 경우, 오디오 복호화 장치(300)는 요청하고, 외부 장치로부터 신경망에 기초한 결과 정보를 수신할 수 있다.
프로세서(330)는 메모리(310)에 저장된 인스트럭션에 따라 연속된 프레임들을 순차적으로 처리하여 연속된 복원 프레임들을 획득한다. 연속된 프레임은 오디오를 구성하는 프레임들을 의미할 수 있다.
프로세서(330)는 비트스트림을 입력으로 하여, 오디오 처리 동작을 수행하여 다채널 오디오 신호를 출력할 수 있다. 이때, 비트스트림은 기본 채널 그룹으로부터 채널의 개수를 증가시킬 수 있도록 스케일러블한 형태로 구현될 수 있다. 예를 들어, 프로세서(330)는 비트스트림으로부터 기본 채널 그룹의 압축 오디오 신호를 획득할 수 있고, 기본 채널 그룹의 압축 오디오 신호를 압축 해제하여 기본 채널 그룹의 오디오 신호(예를 들어, 스테레오 채널 오디오 신호)를 복원할 수 있다. 추가적으로, 프로세서(330)는 비트스트림으로부터 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여 종속 채널 그룹의 오디오 신호를 복원할 수 있다. 프로세서(330)는 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호를 기초로, 다채널의 오디오 신호를 복원할 수 있다.
한편, 프로세서(330)는 비트스트림으로부터 제 1 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여 제 1 종속 채널 그룹의 오디오 신호를 복원할 수 있다. 프로세서(330)는 제 2 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여 제 2 종속 채널 그룹의 오디오 신호를 복원할 수 있다.
프로세서(330)는 기본 채널 그룹의 오디오 신호 및 제 1 종속 채널 그룹 및 제 2 종속 채널 그룹의 오디오 신호를 기초로, 보다 채널의 개수가 증가된 다채널의 오디오 신호를 복원할 수 있다. 이와 유사하게 n개의 종속 채널 그룹(n은 2보다 큰 정수)까지의 압축 오디오 신호를 압축 해제하고, 기본 채널 그룹의 오디오 신호 및 n개의 종속 채널 그룹의 오디오 신호를 기초로, 더욱 더 채널의 개수가 증가된 다채널의 오디오 신호를 복원할 수 있다.
도 3b는 일 실시예에 따른 다채널 오디오 복호화 장치의 구성을 도시하는 블록도이다.
도 3b를 참조하면, 오디오 복호화 장치(300)는 정보 획득부(350), 다채널 오디오 복호화부(360)을 포함할 수 있다. 다채널 오디오 복호화부(360)는 압축 해제부(370) 및 다채널 오디오 신호 복원부(380)을 포함할 수 있다.
오디오 복호화 장치(300)는 도 3a의 메모리(310) 및 프로세서(330)를 포함할 수 있고, 도 3b의 각 구성요소(350, 360, 370, 380)를 구현하기 위한 인스트럭션은 메모리(310)에 저장될 수 있다. 프로세서(330)는 메모리(210)에 저장된 인스트럭션을 실행할 수 있다.
정보 획득부(350)는 비트스트림으로부터 기본 채널 그룹의 압축 오디오 신호를 획득할 수 있다. 즉, 정보 획득부(350)는 비트스트림으로부터 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 포함하는 기본 채널 오디오 스트림을 분류할 수 있다.
또한, 정보 획득부(350)는 비트스트림으로부터 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 획득할 수 있다. 즉, 정보 획득부(350)는 비트스트림으로부터 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 포함하는 적어도 하나의 종속 채널 오디오 스트림을 분류할 수 있다.
한편, 비트스트림은 기본 채널 오디오 스트림 및 복수의 종속 채널 스트림을 포함할 수 있다. 복수의 종속 채널 오디오 스트림은 제 1 종속 채널 오디오 스트림 및 제 2 종속 채널 오디오 스트림을 포함할 수 있다.
이때, 기본 채널 오디오 스트림 및 제 1 종속 채널 오디오 스트림을 통해 복원된 다채널의 제 1 오디오 신호와 기본 채널 오디오 스트림, 제 1 종속 채널 오디오 스트림 및 제 2 종속 채널 오디오 스트림을 통해 복원된 다채널의 제 2 오디오 신호의 채널들의 제한에 대하여 설명하기로 한다.
예를 들어, 기본 채널 오디오 스트림 및 제 1 종속 채널 오디오 스트림을 통해 복원된 제1 다채널 레이아웃의 채널 중 서라운드 채널의 개수는 Sn-1, 서브 우퍼 채널의 개수는 Wn-1, 높이 채널의 개수는 Hn-1일 수 있다. 기본 채널 오디오 스트림, 제 1 종속 채널 오디오 스트림 및 제 2 종속 채널 오디오 스트림을 통해 복원된 제2 다채널 레이아웃 중 서라운드 채널의 개수는 Sn, 서브 우퍼 채널의 개수는 Wn, 높이 채널의 개수는 Hn일 수 있다. 이때, Sn-1은 Sn보다 작거나 같고, Wn-1은 Wn보다 작거나 같을 수 있고, Hn-1은 Hn보다 작거나 같을 수 있다. 여기서, Sn-1이 Sn과 동일하고, Wn-1 Wn과 동일하고, Hn-1 Hn과 동일한 경우는 제외될 수 있다.
즉, 제2 다채널 레이아웃의 서라운드 채널의 개수는 제 1 다채널 레이아웃의 서라운드 채널의 개수보다 많아야 한다. 또는, 제 2 다채널 레이아웃의 서브우퍼 채널의 개수는 제1 다채널 레이아웃의 서브우퍼 채널의 개수보다 많아야 한다. 또는, 제2 다채널 레이아웃의 높이채널의 개수는 제1 다채널 레이아웃의 높이채널의 개수보다 많아야 한다.
또한, 제2 다채널 레이아웃의 서라운드 채널의 개수는 제 1 다채널 레이아웃의 서라운드 채널의 개수보다 작을 수 없다. 마찬가지로 제 2 다채널 레이아웃의 서브우퍼채널의 개수는 제 1 다채널 레이아웃의 서브우퍼채널의 개수보다 작을 수 없다. 제 2 다채널 레이아웃의 높이채널의 개수는 제 1 다채널 레이아웃의 높이채널의 개수보다 작을 수 없다.
또한, 제2 다채널 레이아웃의 서라운드 채널의 개수가 제 1 다채널 레이아웃의 서라운드 채널의 개수와 동일하면서, 제 2 다채널 레이아웃의 서브우퍼 채널의 개수가 제 1 다채널 레이아웃의 서브우퍼 채널의 개수와 동일하고, 또한, 제 2 다채널 레이아웃의 높이 채널의 개수가 제 1 다채널 레이아웃의 높이 채널의 개수와 동일할 수 없다. 즉, 제 2 다채널 레이아웃의 모든 채널들이 제 1 다채널 레이아웃의 모든 채널과 동일할 수 없다.
구체적인 일 예로, 제 1 다채널 레이아웃이 5.1.2 채널이라고 하면, 제 2 다채널 레이아웃은 7.1.4 채널일 수 있다.
한편, 비트스트림은 제 1 오디오 트랙 및 제 2 오디오 트랙을 포함하는 복수의 오디오 트랙을 갖는 파일 스트림으로 구성될 수 있다. 이하, 정보 획득부(350)가 오디오 트랙에 포함된 부가 정보에 따라, 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 획득하는 과정을 설명하겠다.
정보 획득부(350)는 제 1 오디오 트랙으로부터 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 획득할 수 있다.
정보 획득부(350)는 제 1 오디오 트랙에 인접하는 제 2 오디오 트랙으로부터, 종속 채널 오디오 신호 식별 정보를 획득할 수 있다.
종속 채널 오디오 신호 식별 정보는 제 2 오디오 트랙에 종속 채널 오디오 신호가 존재함을 나타내는 경우, 정보 획득부(350)는 제 2 오디오 트랙으로부터 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 획득할 수 있다.
종속 채널 오디오 신호 식별 정보는 상기 제 2 오디오 트랙에 종속 채널 오디오 신호가 존재하지 않음을 나타내는 경우, 정보 획득부(350)는 제 2 오디오 트랙으로부터 기본 채널 그룹의 다음 오디오 신호를 획득할 수 있다.
정보 획득부(350)는 비트스트림으로부터 다채널 오디오의 복원과 관련된 부가 정보를 획득할 수 있다. 즉, 정보 획득부(350)는 비트스트림으로부터 상기 부가 정보를 포함하는 메타 데이터를 분류하고, 분류된 메타 데이터로부터 부가 정보를 획득할 수 있다.
압축 해제부(370)는 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 압축해제하여 기본 채널 그룹의 오디오 신호를 복원할 수 있다.
압축 해제부(370)는 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 압축 해제하여 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 복원할 수 있다.
이때, 압축 해제부(370)은 각 채널 그룹(n개의 채널 그룹)의 압축 오디오 신호를 복호화하기 위한 별도의 제 1 압축 해제부, ?? , 제 n 압축 해제부(미도시)를 포함할 수 있다. 이때, 제 1 압축 해제부, ?? , 제 n 압축 해제부(미도시)는 서로 병렬적으로 동작할 수 있다.
다채널 오디오 신호 복원부(380)는 기본 채널 그룹의 적어도 하나의 오디오 신호 및 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 기초로, 다채널 오디오 신호를 복원할 수 있다.
예를 들어, 다채널 오디오 신호 복원부(380)는 기본 채널 그룹의 오디오 신호가 스테레오 채널의 오디오 신호인 경우, 기본 채널 그룹의 오디오 신호 및 제 1 종속 채널 그룹의 오디오 신호를 기초로, 청자 전방 3차원 오디오 채널의 오디오 신호를 복원할 수 있다. 예를 들어, 청자 전방 3차원 오디오 채널은 3.1.2 채널일 수 있다.
또는, 다채널 오디오 신호 복원부(380)는 기본 채널 그룹의 오디오 신호, 제 1 종속 채널 그룹의 오디오 신호 및 제 2 종속 채널 그룹의 오디오 신호를 기초로, 청자 전방향 오디오 채널의 오디오 신호를 복원할 수 있다. 예를 들어, 청자 전방향 3차원 오디오 채널은 5.1.2 채널 또는 7.1.4 채널일 수 있다.
다채널 오디오 신호 복원부(380)는 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호뿐 아니라, 부가 정보를 기초로, 다채널 오디오 신호를 복원할 수 있다. 이때, 부가 정보는 다채널 오디오 신호의 복원을 위한 부가 정보일 수 있다. 다채널 오디오 신호 복원부(380)는 복원된 적어도 하나의 다채널 오디오 신호를 출력할 수 있다.
일 실시예에 따른 다채널 오디오 신호 복원부(380)는 기본 채널 그룹의 적어도 하나의 오디오 신호 및 상기 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호로부터 청자 전방의 3차원 오디오 채널의 제 1 오디오 신호를 생성할 수 있다. 다채널 오디오 신호 복원부(380)는 제 1 오디오 신호 및 청자 전방의 오디오 채널의 오디오 객체 신호를 기초로, 청자 전방의 3차원 오디오 채널의 제 2 오디오 신호를 포함하는 다채널 오디오 신호를 복원할 수 있다. 이 때, 오디오 객체 신호는 오디오 객체(음원)의 오디오 신호, 모양, 면적, 위치, 방향 중 적어도 하나를 나타낼 수 있고, 정보 획득부(350)으로부터 획득될 수 있다.
다채널 오디오 신호 복원부(380)의 구체적인 동작은 도 3c를 참조하여 후술하겠다.
도 3c는 일 실시예에 따른 다채널 오디오 신호 복원부의 구성을 도시하는 블록도이다.
도 3c를 참조하면, 다채널 오디오 신호 복원부(380)는 업믹스 채널 그룹 오디오 생성부(381) 및 렌더링부(386)을 포함할 수 있다.
업믹스 채널 그룹 오디오 생성부(381)는 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호를 기초로, 업믹스 채널 그룹의 오디오 신호를 생성할 수 있다. 이때, 업믹스 채널 그룹의 오디오 신호는 다채널 오디오 신호일 수 있다. 이때, 추가적으로, 부가 정보(예를 들어, 동적 디믹싱 가중치 파라미터에 관한 정보)를 더 기초로 하여, 다채널 오디오 신호가 생성될 수 있다.
업믹스 채널 오디오 생성부(381)는 기본 채널 그룹의 오디오 신호와 종속 채널 그룹의 오디오 신호 중 일부를 디믹싱하여, 업믹스 채널의 오디오 신호를 생성할 수 있다. 예를 들어, 기본 채널 그룹의 오디오 신호 L, R과 종속 채널 그룹의 일부 오디오 신호인 C를 디믹싱하여, 디믹스 채널(de-mixed channel; 또는 upmixed channel)의 오디오 신호 L3 및 R3를 생성할 수 있다.
업믹스 채널 오디오 생성부(381)는 종속 채널 그룹의 오디오 신호 중 일부에 대하여 디믹싱 동작을 바이패스함으로써, 다채널 오디오 신호 중 일부 채널의 오디오 신호를 생성할 수 있다. 예를 들어, 업믹스 채널 오디오 생성부(381)는 종속 채널 그룹의 일부 오디오 신호인 C, LFE, Hfl3, Hfr3 채널의 오디오 신호에 대하여 디믹싱 동작을 바이패스하여, 다채널 오디오 신호 중 C, LFE, Hfl3, Hfr3 채널의 오디오 신호를 생성할 수 있다.
결국, 업믹스 채널 오디오 생성부(381)는 디믹싱을 통해 생성된 업믹스 채널의 오디오 신호 및 디믹싱 동작이 바이패스된 종속 채널 그룹의 오디오 신호를 기초로, 업믹스 채널 그룹의 오디오 신호를 생성할 수 있다. 예를 들어, 업믹스 채널 오디오 생성부(381)는 디믹싱 채널의 오디오 신호인 L3, R3 채널의 오디오 신호와 종속 채널 그룹의 오디오 신호인 C, LFE, Hfl3, Hfr3 채널의 오디오 신호를 기초로, 3.1.2 채널의 오디오 신호 L3, R3, C, LFE, Hfl3, Hfr3 채널의 오디오 신호를 생성할 수 있다.
업믹스 채널 오디오 생성부(381)의 구체적인 동작은 도 3d를 참조하여 후술하기로 한다.
렌더링부(386)는 음량 제어부(388), 및 리미터(389)를 포함할 수 있다. 렌더링부(386)는 입력이 되는 다채널 오디오 신호는 적어도 하나의 채널 레이아웃의 다채널 오디오 신호일 수 있다. 이때, 렌더링부(386)의 입력이 되는 다채널 오디오 신호는 PCM(Pulse-code modulation) 신호일 수 있다.
한편, 각 채널의 오디오 신호에 대한 음량(라우드니스; Loudness)는 ITU-R BS.1770을 기초로 측정될 수 있고, 이는 비트스트림의 부가 정보를 통해 시그널링될 수 있다.
음량 제어부(388)는 비트스트림을 통해 시그널링된 음량 정보를 기초로, 각 채널의 오디오 신호의 음량을 타겟 음량(예를 들어, -24LKFS)로 제어하여 출력할 수 있다.
한편, 트루 피크(True Peak)는 ITU-R BS.1770을 기초로 측정될 수 있다.
리미터(389)는 음량 제어 후에, 오디오 신호의 트루 피크 레벨을 제한(예를 들어, -1dBTP로 제한)할 수 있다.
이상, 렌더링부(386)에 포함된 후처리 구성요소(388,389)에 대하여, 설명하였으나, 이에 제한되지 않고, 적어도 하나의 구성요소가 생략될 수 있고, 각 구성요소의 순서가 경우에 따라 바뀔 수 있다.
다채널 오디오 신호 출력부(390)는 후처리된 적어도 하나의 다채널 오디오 신호를 출력할 수 있다. 예를 들어, 다채널 오디오 신호 출력부(390)는 타겟 채널 레이아웃에 따라, 후처리된 다채널 오디오 신호를 입력으로 하여, 다채널 오디오 신호의 각 채널의 오디오 신호를 각 채널에 대응하는 오디오 출력 장치로 출력할 수 있다. 오디오 출력 장치는 다양한 종류의 스피커를 포함할 수 있다.
도 3d는 일 실시예에 따른 업믹스 채널 오디오 생성부의 구성을 도시하는 블록도이다.
도 3d를 참조하면, 업믹스 채널 오디오 생성부(381)는 디믹싱부(382)를 포함할 수 있다. 디믹싱부(382)는 제 1 디믹싱부(383), 제 2 디믹싱부(384),??, 제 N 디믹싱부(385)를 포함할 수 있다.
디믹싱부(382)는 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호의 채널들(복호화된 채널) 중 일부 채널의 오디오 신호로부터 새로운 채널(업믹스 채널 또는 디믹스 채널)의 오디오 신호를 획득할 수 있다. 즉, 디믹싱부(382)는 여러 채널이 믹싱된 적어도 하나의 오디오 신호로부터 하나의 업믹스 채널의 오디오 신호를 획득할 수 있다. 디믹싱부(382)는 업믹스 채널의 오디오 신호와 복호화된 채널의 오디오 신호를 포함하는 특정 레이아웃의 오디오 신호를 출력할 수 있다.
예를 들어, 기본 채널 그룹의 오디오 신호는 디믹싱부(382)에서 디믹싱 동작이 바이패스되어 제 1 채널 레이아웃의 오디오 신호로 출력될 수 있다.
제 1 디믹싱부(383)는 기본 채널 그룹의 오디오 신호 및 제 1 종속 채널 그룹의 오디오 신호를 입력으로 하여, 일부의 채널의 오디오 신호를 디믹싱할 수 있다. 이때, 디믹스 채널(또는 업믹스 채널)의 오디오 신호를 생성될 수 있다. 제 1 디믹싱부(383)는 나머지 채널의 오디오 신호의 믹싱 동작을 바이패스하여 독립 채널의 오디오 신호를 생성할 수 있다. 제 1 디믹싱부(383)는 업믹스 채널의 오디오 신호 및 독립 채널의 오디오 신호를 포함하는 신호인 제 2 채널 레이아웃의 오디오 신호를 출력할 수 있다.
제 2 디믹싱부(384)는 제 2 채널 레이아웃의 오디오 신호 및 제 2 종속 채널의 오디오 신호 중에서, 일부의 채널의 오디오 신호를 디믹싱함으로써, 디믹스 채널(또는 업믹스 채널)의 오디오 신호를 생성할 수 있다. 제2 디믹싱부(384)는 나머지 채널의 오디오 신호의 믹싱 동작을 바이패스하여 독립 채널의 오디오 신호를 생성할 수 있다. 제 2 디믹싱부(384)는 업믹스 채널의 오디오 신호 및 독립 채널의 오디오 신호를 포함하는, 제 3 채널 레이아웃의 오디오 신호를 출력할 수 있다.
제 n 디믹싱부(미도시)는 제2 디믹싱부(384)의 동작과 유사하게, 제 n-1 채널 레이아웃의 오디오 신호 및 제 n-1 종속 채널 그룹의 오디오 신호를 기초로, 제 n 채널 레이아웃의 오디오 신호를 출력할 수 있다. n은 N보다 작거나 같을 수 있다.
제 N 디믹싱부(385)는 제 N-1 채널 레이아웃의 오디오 신호 및 제 N-1 종속 채널 그룹의 오디오 신호를 기초로, 제 N 채널 레이아웃의 오디오 신호를 출력할 수 있다.
하위 채널 레이아웃의 오디오 신호가 각 디믹싱부(383,384,..,385)에 바로 입력되는 것으로 도시되어 있으나, 도 3c의 렌더링부(386)를 거쳐 출력되는 채널 레이아웃의 오디오 신호가 각 디믹싱부(383,384,..,385)에 입력될 수 있다. 즉, 후처리된 하위 채널 레이아웃의 오디오 신호가 각 디믹싱부(383,384,..,385)에 입력될 수 있다.
도 3d를 통해 각 디믹싱부(383,384,??,385)가 캐스케이드한 방식으로 연결되어 각 채널 레이아웃의 오디오 신호를 출력하는 내용을 설명하였다.
하지만, 각 디믹싱부(383,384,??,385)가 캐스케이드한 방식으로 연결되지 않고도, 기본 채널 그룹의 오디오 신호 및 적어도 하나의 종속 채널 그룹의 오디오 신호로부터, 특정 레이아웃의 오디오 신호를 출력할 수도 있다.
한편, 오디오 부호화 장치(200,400)에서 여러 채널의 신호가 믹싱되어 생성된 오디오 신호는, 클리핑 방지를 위해 다운믹스 이득을 이용하여 오디오 신호의 레벨이 낮춰진 상태이다. 오디오 복호화 장치(300, 500)는 믹싱되어 생성된 신호에 대해, 대응하는 다운믹스 이득에 기초하여 오디오 신호의 레벨을 원본 오디오 신호의 레벨에 맞출 수 있다.
한편, 전술된 다운믹스 이득에 기초한 동작은 채널별로 또는 채널 그룹별로 이루어질 수 있다. 이때, 오디오 부호화 장치(200, 400)는 채널별로 또는 채널 그룹별로 다운믹스 이득에 관한 정보는 비트스트림의 부가 정보를 통해, 시그널링할 수 있다. 따라서, 오디오 복호화 장치(300, 500)는 채널별로 또는 채널 그룹별로 다운믹스 이득에 관한 정보를 비트스트림의 부가 정보로부터 획득하고, 다운믹스 이득에 기초하여 전술된 동작을 수행할 수 있다.
한편, 디믹싱부(382)는 (다운믹싱 매트릭스의 다운믹싱 가중치 파라미터에 대응하는) 디믹싱 매트릭스의 동적 디믹싱 가중치 파라미터를 기초로, 디믹싱 동작을 수행할 수 있다. 이때, 오디오 부호화 장치(200,400)는 동적 디믹싱 가중치 파라미터 또는 이에 대응하는 동적 다운믹싱 가중치 파라미터는 비트스트림의 부가 정보를 통해, 시그널링할 수 있다. 일부 디믹싱 가중치 파라미터는 시그널링되지 않고, 고정된 값을 가질 수 있다.
따라서, 오디오 복호화 장치(300,500)는 동적 디믹싱 가중치 파라미터에 관한 정보(또는 동적 다운믹싱 가중치 파라미터에 관한 정보)를 비트스트림의 부가 정보로부터 획득하고, 획득된 동적 디믹싱 가중치 파라미터에 관한 정보(또는 동적 다운믹싱 가중치 파라미터에 관한 정보)를 기초로, 디믹싱 동작을 수행할 수 있다.
도 4a는 다른 실시예에 따른 오디오 부호화 장치의 구성을 도시하는 블록도이다.
도 4a를 참조하면, 오디오 부호화 장치(400)은 다채널 오디오 부호화부(450), 비트스트림 생성부(480) 및 에러 제거 관련 정보 생성부(490)를 포함할 수 있다. 다채널 오디오 부호화부(450)는 다채널 오디오 신호 처리부(460) 및 압축부(470)를 포함할 수 있다.
도 4a의 각 구성요소(450, 460, 470, 480, 490)은 도 2a의 메모리(210) 및 프로세서(230)에 의해 구현될 수 있다.
도 4a의 다채널 오디오 부호화부(450), 다채널 오디오 신호 처리부(460), 압축부(470) 및 비트스트림 생성부(480)의 동작은 도 2b의 다채널 오디오 부호화부(250), 다채널 오디오 신호 처리부(260), 압축부(270), 비트스트림 생성부(280)의 동작에 각각 대응되므로, 구체적인 설명은 도 2b의 설명으로 대체하기로 한다.
에러 제거 관련 정보 생성부(490)는 도 2b의 부가 정보 생성부(285)에 포함된 구성일 수 있으나, 이에 제한되지 않고, 별도로도 존재할 수 있다.
에러 제거 관련 정보 생성부(490)는 제 1 전력 값과, 제 2 전력 값을 기초로 에러 제거를 위한 펙터(예를 들어, 스케일링 펙터)를 결정할 수 있다. 이때, 제 1 전력 값은 원본 오디오 신호의 하나의 채널 또는 원본 오디오 신호로부터 다운믹싱함으로써 획득된 하나의 채널의 오디오 신호의 에너지 값일 수 있다. 제 2 전력 값은 업믹스 채널 그룹의 오디오 신호 중 하나의 업믹스 채널의 오디오 신호의 전력 값일 수 있다. 업믹스 채널 그룹의 오디오 신호는 기본 채널 복원 신호 및 종속 채널 복원 신호를 디믹스함으로써 획득된 오디오 신호일 수 있다.
에러 제거 관련 정보 생성부(490)는 채널 별로 에러 제거를 위한 펙터를 결정할 수 있다.
에러 제거 관련 정보 생성부(490)는 결정된 에러 제거를 위한 펙터에 관한 정보를 포함하는 에러 제거와 관련된 정보를 생성할 수 있다. 비트스트림 생성부(480)는 에러 제거와 관련된 정보를 더 포함하는 비트스트림을 생성할 수 있다. 에러 제거 관련 정보 생성부(490)의 구체적인 동작은 도 4b를 참조하여 후술하기로 한다.
도 4b는 일 실시예에 따른 복원부의 구성을 도시하는 블록도이다.
도 4b를 참조하면, 에러 제거 관련 정보 생성부(490)는, 압축 해제부(492), 디믹싱부(494), RMS 값 결정부(496) 및 에러 제거 펙터 결정부(498)을 포함할 수 있다.
압축 해제부(492)는 기본 채널 그룹의 압축 오디오 신호를 압축 해제하여, 기본 채널 복원 신호를 생성할 수 있다. 또한, 압축 해제부(492)는 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여 종속 채널 복원 신호를 생성할 수 있다.
디믹싱부(494)는 기본 채널 복원 신호 및 종속 채널 복원 신호를 디믹싱하여 업믹스 채널 그룹의 오디오 신호를 생성할 수 있다. 구체적으로, 디믹싱부(494)는 기본 채널 그룹 및 종속 채널 그룹의 오디오 신호 중 일부 채널의 오디오 신호를 디믹싱하여, 업믹스 채널(또는 디믹스 채널)의 오디오 신호를 생성할 수 있다. 또한, 디믹싱부(494)는 기본 채널 그룹 및 종속 채널 그룹의 오디오 신호 중 일부의 오디오 신호에 대한 디믹싱 동작을 바이패스할 수 있다.
디믹싱부(494)는 업믹스 채널의 오디오 신호와 디믹싱 동작이 바이패스된 오디오 신호를 포함하는 업믹스 채널 그룹의 오디오 신호를 획득할 수 있다.
RMS 값 결정부(496)는 업믹스 채널 그룹 중 하나의 업믹스 채널의 제 1 오디오 신호의 RMS 값을 결정할 수 있다. RMS 값 결정부(496)는 원본 오디오 신호의 하나의 채널의 제 2 오디오 신호의 RMS 값 또는 원본 오디오 신호로부터 다운믹싱된 오디오 신호의 하나의 채널의 제 2 오디오 신호의 RMS 값을 결정할 수 있다. 이때, 제 1 오디오 신호의 채널과, 제 2 오디오 신호의 채널은 소정의 채널 레이아웃 내 동일한 채널을 나타낸다.
에러 제거 펙터 결정부(498)는 제 1 오디오 신호의 RMS 값 및 제 2 오디오 신호의 RMS 값을 기초로, 에러 제거를 위한 펙터를 결정할 수 있다. 예를 들어, 제 1 오디오 신호의 RMS 값을 제 2 오디오 신호의 RMS 값으로 나누어 생성된 값이 에러 제거를 위한 펙터의 값으로 획득될 수 있다. 에러 제거 펙터 결정부(498)는 결정된 에러 제거를 위한 펙터에 관한 정보를 생성할 수 있다. 에러 제거 펙터 결정부(498)는 에러 제거를 위한 펙터에 관한 정보를 포함하는 에러 제거와 관련된 정보를 출력할 수 있다.
도 5a는 다른 실시예에 따른 오디오 복호화 장치의 구성을 도시하는 블록도이다.
도 5a를 참조하면, 오디오 복호화 장치(500)은 정보 획득부(550), 다채널 오디오 복호화부(560), 압축 해제부(570), 다채널 오디오 신호 복원부(580) 및 에러 제거 관련 정보 획득부(555)를 포함할 수 있다. 도 5a의 각 구성요소(550, 555, 560, 570, 580)은 도 3a의 메모리(310) 및 프로세서(330)에 의해 구현될 수 있다.
도 5a의 각 구성요소(550, 555, 560, 570, 580)를 구현하기 위한 인스트럭션은 도 3a의 메모리(310)에 저장될 수 있다. 프로세서(330)는 메모리(310)에 저장된 인스트럭션을 실행할 수 있다.
도 5a의 정보 정보 획득부(550), 압축 해제부(570) 및 다채널 오디오 신호 복원부(580)의 동작은 도 3b의 정보 획득부(350), 압축 해제부(370) 및 다채널 오디오 신호 복원부(380)의 동작을 각각 포함하므로, 중복되는 설명은 도 3b의 설명으로 대체하기로 한다. 이하, 도 3b와 중복되지 않는 부분에 대하여 설명하겠다.
정보 획득부(550)는 비트스트림으로부터 메타 데이터를 획득할 수 있다.
에러 제거 관련 정보 획득부(555)는 비트스트림에 포함된 메타 데이터로부터 에러 제거와 관련된 정보를 획득할 수 있다. 여기서, 에러와 관련된 정보에 포함된 에러 제거를 위한 펙터에 관한 정보는 업믹스 채널 그룹 중 하나의 업믹스 채널의 오디오 신호의 에러 제거를 위한 펙터일 수 있다. 에러 제거 관련 정보 획득부(555)는 정보 획득부(550)에 포함될 수 있다.
다채널 오디오 신호 복원부(580)는 기본 채널의 적어도 하나의 오디오 신호 및 적어도 종속 채널 그룹의 적어도 하나의 오디오 신호를 기초로, 업믹스 채널 그룹의 오디오 신호를 생성할 수 있다. 업믹스 채널 그룹의 오디오 신호는 다채널 오디오 신호일 수 있다. 다채널 오디오 신호 복원부(580)는 업믹스 채널 그룹에 포함된 하나의 업믹스 채널의 오디오 신호에 에러 제거를 위한 펙터를 적용하여 상기 하나의 업믹스 채널의 오디오 신호를 복원할 수 있다.
다채널 오디오 신호 복원부(580)는 상기 하나의 업믹스 채널의복원된 오디오 신호를 포함하는 다채널 오디오 신호를 출력할 수 있다.
도 5b는 일 실시예에 따른 다채널 오디오 신호 복원부의 구성을 도시하는 블록도이다.
다채널 오디오 신호 복원부(580)는 업믹스 채널 그룹 오디오 생성부(581) 및 렌더링부(583)을 포함할 수 있다. 렌더링부(583)는 에러 제거부(584), 음량 제어부(585) 및 리미터(586), 및 다채널 오디오 신호 출력부(587)를 포함할 수 있다.
도 5b의 업믹스 채널 그룹 오디오 생성부(581), 에러 제거부(584), 음량 제어부(585), 리미터(586) 및 다채널 오디오 신호 출력부(587)는 도 3c의 업믹스 채널 그룹 오디오 생성부(381), 음량 제어부(388), 리미터(389), 및 다채널 오디오 신호 출력부(390)의 동작을 포함하므로, 중복되는 설명은 도 3c의 설명으로 대체하기로 한다. 이하, 도 3c와 중복되지 않는 부분에 대하여 설명하겠다.
에러 제거부(584)는 다채널 오디오 신호의 업믹스 채널 그룹 중 제 1 업믹스 채널의 오디오 신호 및 제 1 업믹스 채널의 에러 제거를 위한 펙터를 기초로, 제 1 채널의 에러 제거된 오디오 신호를 복원할 수 있다. 이때, 에러 제거를 위한 펙터는 원본 오디오 신호 또는 원본 오디오 신호로부터 다운믹싱된 오디오 신호의 제 1 채널의 오디오 신호의 RMS 값과 업믹스 채널 그룹 중 제 1 업믹스 채널의 오디오 신호의 RMS 값에 기초한 값일 수 있다. 제 1 채널과 제 1 업믹스 채널은 소정의 채널 레이아웃의 동일한 채널을 나타낼 수 있다. 에러 제거부(584)는 에러 제거를 위한 펙터를 기초로, 현재 업믹스 채널 그룹 중 제 1 업믹스 채널의 오디오 신호의 RMS 값이 원본 오디오 신호 또는 원본 오디오 신호로부터 다운믹싱된 오디오 신호의 제 1 채널의 오디오 신호의 RMS 값이 되도록 하여, 부호화로 인한 에러가 제거될 수 있다.
한편, 인접하는 오디오 프레임들 간의 에러 제거를 위한 펙터가 다를 수 있다. 이때, 이전 프레임의 끝 구간과 다음 프레임의 처음 구간에서 불연속적인 에러 제거를 위한 펙터로 인하여, 오디오 신호가 튀는 현상이 발생할 수 있다.
따라서, 에러 제거부(584)는 에러 제거를 위한 펙터에 대한 스무딩을 수행하여 프레임 경계 인접 구간에 이용되는 에러 제거를 위한 펙터를 결정할 수 있다. 프레임 경계 인접 구간은 경계를 기준으로 이전 프레임의 끝 구간과 경계를 기준으로 다음 프레임의 처음 구간을 의미한다. 각 구간은 소정의 개수의 샘플을 포함할 수 있다.
여기서, 스무딩이란, 프레임 경계 구간에서 불연속적인 인접 오디오 프레임 간 에러 제거를 위한 펙터를 연속적인 에러 제거를 위한 펙터로 변환하는 동작을 의미한다.
다채널 오디오 신호 출력부(588)는 하나의 채널의 에러 제거된 오디오 신호를 포함하는 다채널 오디오 신호를 출력할 수 있다.
한편, 렌더링부(583)에 포함된 후처리 구성요소(585, 586) 중 적어도 하나의 구성요소가 생략될 수 있고, 에러 제거부(584)를 포함하는 후처리 구성요소(584, 585, 586)의 순서가 경우에 따라 바뀔 수 있다.
전술한 바와 같이, 오디오 부호화 장치(200,400)는 비트스트림을 생성할 수 있다. 오디오 부호화 장치(200,400)는 생성된 비트스트림을 전송할 수 있다.
이때, 비트스트림은 파일 스트림 형태로 생성될 수 있다. 오디오 복호화 장치(300,500)는 비트스트림을 수신할 수 있다. 오디오 복호화 장치(300,500)는 수신된 비트스트림으로부터 획득된 정보를 기초로, 다채널 오디오 신호를 복원할 수 있다. 이때, 비트스트림은 소정의 파일 컨테이너에 포함될 수 있다. 예를 들어, 소정의 파일 컨테이너는 MP4(MPEG-4 Part 14) 컨테이너 등과 같이, 다양한 멀티미디어 디지털 데이터를 압축하기 위한 MPEG-4 용 미디어 컨테이너일 수 있다.
도 6은, 일 실시예에 따른 오디오 부호화 장치(200,400)가 각 채널 그룹 내 오디오 스트림의 전송 순서 및 규칙을 설명하기 위한 도면이다.
스케일러블 포맷에서 각 채널 그룹 내 오디오 스트림 전송 순서 및 규칙은 다음과 같을 수 있다.
오디오 부호화 장치(200,400)는 커플링된 스트림을 먼저 전송하고, 커플링되지 않은 스트림을 전송할 수 있다.
오디오 부호화 장치(200,400)는 서라운드 채널에 대한 커플링된 스트림을 먼저 전송하고, 높이 채널에 대한 커플링된 스트림을 전송할 수 있다.
오디오 부호화 장치(200,400)는 전방 채널에 대한 커플링된 스트림을 먼저 전송하고, 측방이나 후방 채널에 대한 커플링된 스트림을 전송할 수 있다.
오디오 부호화 장치(200,400)는 커플링되지 않은 스트림을 전송하는 경우, 센터 채널에 대한 스트림을 먼저 전송하고, LFE 채널 및 다른 채널들에 대한 스트림을 전송할 수 있다. 여기서, 다른 채널은 기본 채널 그룹이 모노 채널 신호만을 포함하는 경우에 존재할 수 있다. 이때, 다른 채널은 스테레오 채널의 오른쪽 채널 L2 또는 왼쪽 채널 R2 중 하나일 수 있다.
그리고, 오디오 부호화 장치(200,400)는 커플링된 채널의 오디오 신호를 하나의 쌍으로 압축할 수 있다. 오디오 부호화 장치(200,400)는 하나의 쌍으로 압축된 오디오 신호를 포함하는, 커플링된 스트림을 전송할 수 있다. 예를 들어, 커플링된 채널은 L/R 채널, Ls/Rs, Lb/Rb, Hfl/Hfr, Hbl/Hbr 등과 같이, 좌우로 대칭적인 채널을 의미한다.
이하, 전술된 각 채널 그룹 내 스트림의 전송 순서 및 규칙에 따라, Case 1의 비트스트림(610) 내 각 채널 그룹의 스트림 구성에 대하여 설명하겠다.
도 6을 참조하면, 예를 들어, 오디오 부호화 장치(200,400)는 2채널의 오디오 신호인 L1 신호 및 R1 신호를 압축하고, 압축된 L1 신호 및 R1 신호가 기본 채널 그룹(BCG)의 비트스트림 중 C1 비트스트림에 포함될 수 있다.
기본 채널 그룹 다음으로, 오디오 부호화 장치(200,400)는 4채널의 오디오 신호를 종속 채널 그룹 #1의 오디오 신호로 압축할 수 있다.
오디오 부호화 장치(200,400)는 Hfl3 신호 및 Hfr 신호를 압축하고, 압축된 Hfl3 신호 및 Hfr3 신호는 종속 채널 그룹 #1의 비트스트림 중 C2 비트스트림에 포함될 수 있다.
오디오 부호화 장치(200,400)는 C 신호를 압축하고, 압축된 C 신호는 종속 채널 그룹 #1의 비트스트림 중 M1 비트스트림에 포함될 수 있다.
오디오 부호화 장치(200,400)는 LFE 신호를 압축하고, 압축된 LFE 신호는 종속 채널 그룹 #1의 비트스트림 중 M2 비트스트림에 포함될 수 있다.
오디오 복호화 장치(300,500)는 기본 채널 그룹 및 종속 채널 그룹 #1의 압축 오디오 신호를 기초로, 3.1.2 채널 레이아웃의 오디오 신호를 복원할 수 있다.
종속 채널 그룹 #2 다음으로, 오디오 부호화 장치(200,400)는 6채널의 오디오 신호를 종속 채널 그룹 #2의 오디오 신호로 압축할 수 있다.
먼저, 오디오 부호화 장치(200,400)는 L 신호 및 R 신호를 압축하고, 압축된 L 신호 및 R 신호는 종속 채널 그룹 #2의 비트스트림 중 C3 비트스트림에 포함될 수 있다.
C3 비트스트림 다음으로, 오디오 부호화 장치(200,400)는 Ls 신호 및 Rs 신호를 압축하고, 압축된 Ls 신호 및 Rs 신호는 종속 채널 그룹 #2의 비트스트림 중 C4 비트스트림에 포함될 수 있다.
C4 비트스트림 다음으로, 오디오 부호화 장치(200,400)는 Hfl 신호 및 Hfr 신호를 압축하고, 압축된 Hfl 신호 및 Hfr 신호는 종속 채널 그룹 #2의 비트스트림 중 C5 비트스트림에 포함될 수 있다.
오디오 복호화 장치(300,500)는 기본 채널 그룹, 종속 채널 그룹 #1 및 종속 채널 그룹 #2의 압축 오디오 신호를 기초로 7.1.4 채널 레이아웃의 오디오 신호를 복원할 수 있다.
이하, 전술된 각 채널 그룹 내 스트림의 전송 순서 및 규칙에 따라, Case 2의 비트스트림(620) 내 각 채널 그룹의 스트림 구성에 대하여 설명하겠다.
먼저 오디오 부호화 장치(200,400)는 2채널의 오디오 신호인 L2 신호 및 R2 신호를 압축하고, 압축된 L2 신호 및 R2 신호가 기본 채널 그룹의 비트스트림 중 C1 비트스트림에 포함될 수 있다.
기본 채널 그룹 다음으로, 오디오 부호화 장치(200,400)는 6채널의 오디오 신호를 종속 채널 그룹 #1의 오디오 신호로 압축할 수 있다.
오디오 부호화 장치(200,400)는 L 신호 및 R 신호를 압축하고, 압축된 L 신호 및 R 신호는 종속 채널 그룹 #1의 비트스트림 중 C2 비트스트림에 포함될 수 있다.
오디오 부호화 장치(200,400)는 Ls 신호 및 Rs 신호를 압축하고, 압축된 Ls 신호 및 Rs 신호는 종속 채널 그룹 #1의 비트스트림 중 C3 비트스트림에 포함될 수 있다.
오디오 부호화 장치(200,400)는 C 신호를 압축하고, 압축된 C 신호는 종속 채널 그룹 #1의 비트스트림 중 M1 비트스트림에 포함될 수 있다.
오디오 부호화 장치(200,400)는 LFE 신호를 압축하고, 압축된 LFE 신호는 종속 채널 그룹 #1의 비트스트림 중 M2 비트스트림에 포함될 수 있다.
오디오 복호화 장치(300,500)는 기본 채널 그룹 및 종속 채널 그룹 #1의 압축 오디오 신호를 기초로 7.1.0 채널 레이아웃의 오디오 신호를 복원할 수 있다.
종속 채널 그룹 #1 다음으로, 오디오 부호화 장치(200,400)는 4채널의 오디오 신호를 종속 채널 그룹 #2의 오디오 신호로 압축할 수 있다.
오디오 부호화 장치(200,400)는 Hfl 신호 및 Hfr 신호를 압축하고, 압축된 Hfl 신호 및 Hfr 신호는 종속 채널 그룹 #2의 비트스트림 중 C4 비트스트림에 포함될 수 있다.
오디오 부호화 장치(200,400)는 Hbl 신호 및 Hbr 신호를 압축하고, 압축된 Hbl 신호 및 Hbr 신호는 종속 채널 그룹 #2의 비트스트림 중 C5 비트스트림에 포함될 수 있다.
오디오 복호화 장치(300,500)는 기본 채널 그룹, 종속 채널 그룹 #1 및 종속 채널 그룹 #2의 압축 오디오 신호를 기초로 7.1.4 채널 레이아웃의 오디오 신호를 복원할 수 있다.
이하, 전술된 각 채널 그룹 내 스트림의 전송 순서 및 규칙에 따라, Case 3의 비트스트림(630) 내 각 채널 그룹의 스트림 구성에 대하여 설명하겠다.
먼저 오디오 부호화 장치(200,400)는 2채널의 오디오 신호인 L2 신호 및 R2 신호를 압축하고, 압축된 L2 신호 및 R2 신호가 기본 채널 그룹의 비트스트림 중 C1 비트스트림에 포함될 수 있다.
기본 채널 그룹 다음으로, 오디오 부호화 장치(200,400)는 10채널의 오디오 신호를 종속 채널 그룹 #1의 오디오 신호로 압축할 수 있다.
오디오 부호화 장치(200,400)는 L 신호 및 R 신호를 압축하고, 압축된 L 신호 및 R 신호는 종속 채널 그룹 #1의 비트스트림 중 C2 비트스트림에 포함될 수 있다.
오디오 부호화 장치(200,400)는 Ls 신호 및 Rs 신호를 압축하고, 압축된 Ls 신호 및 Rs 신호는 종속 채널 그룹 #1의 비트스트림 중 C3 비트스트림에 포함될 수 있다.
오디오 부호화 장치(200,400)는 Hfl 신호 및 Hfr 신호를 압축하고, 압축된 Hfl 신호 및 Hfr 신호는 종속 채널 그룹 #1의 비트스트림 중 C4 비트스트림에 포함될 수 있다.
오디오 부호화 장치(200,400)는 Hbl 신호 및 Hbr 신호를 압축하고, 압축된 Hbl 신호 및 Hbr 신호는 종속 채널 그룹 #1의 비트스트림 중 C5 비트스트림에 포함될 수 있다.
오디오 부호화 장치(200,400)는 C 신호를 압축하고, 압축된 C 신호는 종속 채널 그룹 #1의 비트스트림 중 M1 비트스트림에 포함될 수 있다.
오디오 부호화 장치(200,400)는 LFE 신호를 압축하고, 압축된 LFE 신호는 종속 채널 그룹 #1의 비트스트림 중 M2 비트스트림에 포함될 수 있다.
오디오 복호화 장치(300,500)는 기본 채널 그룹 및 종속 채널 그룹 #1의 압축 오디오 신호를 기초로 7.1.4 채널 레이아웃의 오디오 신호를 복원할 수 있다.
한편, 오디오 복호화 장치(300,500)는 적어도 하나의 업믹싱부를 이용하여, 단계적으로 디믹싱을 수행할 수 있다. 디믹싱은 적어도 하나의 채널 그룹에 포함된 채널들의 오디오 신호에 기초하여 수행된다.
예를 들어, 1.x to 2.x 업믹싱부(제 1 업믹싱부)는 믹싱된 오른쪽 채널인 모노 채널의 오디오 신호로부터 오른쪽 채널의 오디오 신호를 디믹싱할 수 있다.
또는, 2.x to 3.x 업믹싱부(제 2 업믹싱부)는 믹싱된 센터 채널인 L2 채널의 오디오 신호 및 R2 채널의 오디오 신호로부터 센터 채널의 오디오 신호를 디믹싱할 수 있다. 또는, 2.x to 3.x 업믹싱부(제 2 업믹싱부)는 믹싱된 L3 채널 및 R3 채널의 L2 채널의 오디오 신호 및 R2 채널의 오디오 신호 및 C 채널의 오디오 신호로부터 L3 채널 및 R3 채널의 오디오 신호를 디믹싱할 수 있다.
3.x to 5.x 업믹싱부(제 3 업믹싱부)는 믹싱된 Ls5/Rs5 채널인 L3 채널의 오디오 신호 및 R3 채널의 오디오 신호, L(5) 채널의 오디오 신호 및 R(5) 채널의 오디오 신호로부터 Ls5 채널 및 Rs5 채널의 오디오 신호를 디믹싱할 수 있다.
5.x to 7.x 업믹싱부(제 4 업믹싱부)는 믹싱된 Lb/Rb 채널인 Ls5 채널의 오디오 신호, Ls7 채널의 오디오 신호 및 Rs7 채널의 오디오 신호로부터, Lb 채널 및 Rb 채널의 오디오 신호를 디믹싱할 수 있다.
x.x.2(FH) to x.x.2(H) 업믹싱부(제 4 업믹싱부)는 믹싱된 Ls/Rs 채널인 Hfl3 채널의 오디오 신호 및 Hfr3 채널의 오디오 신호, L3 채널의 오디오 신호, L5 채널의 오디오 신호, R3 채널의 오디오 신호, R5 채널의 오디오 신호로부터 Hl 채널 및 Hr 채널의 오디오 신호를 디믹싱할 수 있다.
x.x.2(H) to x.x.4 업믹싱부(제 5 업믹싱부)는 믹싱된 Hbl/Hbr 채널인 Hl 채널의 오디오 신호 및 Hr 채널의 오디오 신호 및 Hfl 및 Hfr의 채널의 오디오 신호로부터 Hbl 채널 및 Hbr 채널의 오디오 신호를 디믹싱할 수 있다.
예를 들어, 오디오 복호화 장치(300,500)는 제 1 업믹싱부를 이용하여 3.1.2 채널의 레이아웃으로의 디믹싱을 수행할 수 있다.
또한, 오디오 복호화 장치(300,500)는 서라운드 채널에 대한 제 2 업믹싱부 및 제 3 믹싱부를 이용하고, 높이 채널에 대한 제 4 업믹싱부 및 제 5 업믹싱부를 이용하여 7.1.4 채널 레이아웃으로의 디믹싱을 수행할 수 있다.
또는, 오디오 복호화 장치(300,500)는 제 1 믹싱부, 제 2 믹싱부 및 제 3 믹싱부를 이용하여 7.1.0 채널 레이아웃으로의 디믹싱을 수행할 수 있다. 오디오 복호화 장치(300,500)는 7.1.0 채널 레이아웃으로부터 7.1.4 채널 레이아웃으로의 디믹싱을 수행하지 않을 수 있다.
또는, 오디오 복호화 장치(300,500)는 제 1 믹싱부, 제 2 믹싱부 및 제 3 믹싱부를 이용하여 7.1.4 채널 레이아웃으로의 디믹싱을 수행할 수 있다. 오디오 복호화 장치(300,500)는 높이 채널에 대한 디믹싱을 수행하지 않을 수 있다.
이하, 오디오 부호화 장치(200,400)가 채널 그룹을 생성하는 규칙을 설명하겠다. 스케일러블 포맷에 대한 채널 레이아웃 CLi(i=0부터 n사이의 정수, Cli은 Si.Wi.Hi임)에 대하여, Si+Wi+Hi는 채널 그룹 #i에 대한 채널들의 개수일 수 있다. 채널 그룹 #i에 대한 채널들의 개수는 채널 그룹 #i-1에 대한 채널들의 개수보다 많을 수 있다.
채널 그룹 #i는 가능한 많은 Cli의 원본 채널들(표시 채널들)을 포함할 수 있다. 원본 채널들은 다음 우선순위를 따를 수 있다.
만약 Hi-1이 0이면, 다른 채널들보다 높이 채널의 우선순위가 앞설 수 있다. 다른 채널들보다 센터 채널 및 LFE 채널의 우선순위가 앞설 수 있다.
높이 전방 채널의 우선순위가 사이드 채널 및 높이 후방 채널의 우선순위보다 앞설 수 있다.
사이드 채널의 우선 순위가 후방 채널의 우선순위보다 앞설 수 있다. 또한, 좌측 채널의 우선순위가 우측 채널의 우선순위보다 앞설 수 있다.
예를 들어, n이 4이고, CL0는 스테레오 채널, CL1은 3.1.2 채널, CL2는 5.1.2 채널, CL3는 7.1.4 채널인 경우, 다음과 같이 채널 그룹이 생성될 수 있다.
오디오 부호화 장치(200,400)는 A(L2),B(R2) 신호를 포함하는 기본 채널 그룹을 생성할 수 있다. 오디오 부호화 장치(200,400)는 Q1(Hfl3), Q2(Hfr3), T(=C), P(=LFE) 신호를 포함하는 종속 채널 그룹 #1을 생성할 수 있다. 오디오 부호화 장치(200,400)는 S1(=L), S2(=R) 신호를 포함하는 종속 채널 그룹 #2를 생성할 수 있다.
오디오 부호화 장치(200,400)는 V1(Hfl) 및 V2(Hfr) 신호, U1(Ls) 및 U2(Rs)를 포함하는 종속 채널 그룹 #3을 생성할 수 있다.
한편, 오디오 복호화 장치(300,500)는 다운믹싱 행렬을 이용하여 압축 해제된 오디오 신호들로부터 7.1.4 채널의 오디오 신호를 복원할 수 있다. 이때, 다운믹싱 행렬은 예를 들어, 하기와 같은 표 2와 같은 다운믹싱 가중치 파라미터를 포함할 수 있다.
L R C LFE Ls Rs Lb Rb Hfl Hfr Hbl Hbr
A(L2/L3) 1 cw δ*α δ*β
B(L2/L3) 1 cw δ*α δ*β
T(C) 1
P(LFE) 1
Q1(Hfl3) w*δ*α w*δ*β 1 γ
Q2(Hfr3) w*δ*α w*δ*β 1 γ
S1(L) 1
S2(R) 1
U1(Ls7) 1
U2(Rs7) 1
V1(Hfl3) 1
V2(Hfr3) 1
여기서 cw는 중심 가중치(center weight)로, 기본 채널 그룹의 채널 레이아웃이 3.1.2 채널 레이아웃인 경우, 0이고, 기본 채널의 그룹의 레이아웃이 2채널 레이아웃인 경우, 1일 수 있다. 또한, w는 서라운드-투-높이 믹싱 가중치(surround-to-height mixing weight)일 수 있다. 또한, α, β, γ, δ는 다운믹싱 가중치 파라메터로, 가변적일 수 있다. 오디오 부호화 장치(200,400)는 α, β, γ, δ, w와 같은 다운믹싱 가중치 파라메터 정보를 포함하는 비트스트림을 생성할 수 있고, 오디오 복호화 장치(300,500)는 비트스트림으로부터 다운믹싱 가중치 파라메터 정보를 획득할 수 있다.
한편, 다운믹싱 행렬(또는 디믹싱 행렬)의 가중치 파라미터 정보는 인덱스 형태일 수 있다. 예를 들어, 다운믹싱 행렬(또는 디믹싱 행렬)의 가중치 파라미터 정보는 복수의 다운믹싱(또는 디믹싱) 가중치 파라미터 셋 중 하나의 다운믹싱(또는 디믹싱) 가중치 파라미터 셋을 나타내는 인덱스 정보일 수 있고, 하나의 다운믹싱(또는 디믹싱) 가중치 파라미터 셋에 대응하는 적어도 하나의 다운믹싱(또는 디믹싱) 가중치 파라미터가 LUT 형태로 존재할 수 있다. 예를 들어, 다운믹싱(또는 디믹싱) 행렬의 가중치 파라미터 정보는 복수의 다운믹싱(또는 디믹싱) 가중치 파라미터 셋 중 하나의 다운믹싱(또는 디믹싱) 가중치 파라미터 셋을 나타내는 정보일 수 있고, 하나의 다운믹싱(또는 디믹싱) 가중치 파라미터 셋에 대응하는 LUT에는, α, β, γ, δ, w 중 적어도 하나가 미리 정의되어 있을 수 있다. 따라서, 오디오 복호화 장치(300,500)는 하나의 다운믹싱(디믹싱) 가중치 파라미터 셋에 대응하는 α, β, γ, δ, w를 획득할 수 있다.
제 1 채널 레이아웃으로부터 제 2 채널 레이아웃의 오디오 신호로의 다운믹싱을 위한 행렬은 복수의 행렬을 포함할 수 있다. 예를 들어 ,제 1 채널 레이아웃으로부터 제 3 채널 레이아웃으로의 다운 믹싱을 위한 제 1 행렬 및 제 3 채널 레이아웃으로부터 제 2 채널 레이아웃으로의 다운 믹싱을 위한 제 2 행렬을 포함할 수 있다.
구체적으로, 예를 들어, 7.1.4 채널 레이아웃으로부터 3.1.2 채널 레이아웃의 오디오 신호로의 다운믹싱을 위한 행렬은 7.1.4 채널 레이아웃으로부터 5.1.4 채널의 레이아웃의 오디오 신호로의 다운믹싱을 위한 제 1 행렬 및 5.1.4 채널 레이아웃으로부터 3.1.2 채널 레이아웃의 오디오 신호로의 다운믹싱을 위한 제 2 행렬을 포함할 수 있다.
표 3 및 4는 컨텐츠 기반 다운믹스 파라미터 및 서라운드 투 높이 기반 가중치에 기초한 7.1.4 채널 레이아웃으로부터 3.1.2 채널 레이아웃의 오디오 신호로의 다운믹싱을 위한 제 1 행렬 및 제 2 행렬이다.
제 1 행렬(7.1 to 5.1 다운믹싱 행렬):
제1행렬 L R C Lfe Ls Rs Lb Rb
Ls5 α β
Rs5 α β
제 2 행렬(5.1.4 to 3.1.2 다운믹싱 행렬):
제2행렬 L R C Lfe Ls5 Rs5 Hfl Hfr Hbl Hbr
L3 1 0 0 0 γ 0 0 0 0 0
R3 0 1 0 0 0 γ 0 0 0 0
C 0 0 1 0 0 0 0 0 0 0
Lfe 0 0 0 1 0 0 0 0 0 0
Hfl3 0 0 0 0 γ*w 0 0 0 δ 0
Hfr3 0 0 0 0 0 γ*w 0 0 0 δ
여기서, α, β, γ, δ는 다운믹싱 파라메터 중 하나이고, w는 surround to height weight를 의미할 수 있다.
5.x 채널에서 7.x 채널로의 업믹싱(또는 디믹싱)을 위해, 디믹싱 가중치 파라메터 α, β가 이용될 수 있다.
x.x.2(H) 채널에서 x.x.4 채널로의 업믹싱을 위해, 디믹싱 가중치 파라메터 γ 가 이용될 수 있다.
3.x 채널에서 5.x 채널로의 업믹싱을 위해, 디믹싱 가중치 파라메터 δ가 이용될 수 있다.
x.x.2(FH) 채널에서 x.x.2(H) 채널로의 업믹싱을 위해, 디믹싱 가중치 파라메터 w 및δ가 이용될 수 있다.
2.x 채널에서 3.x 채널로의 업믹싱을 위해, 디믹싱 가중치 파라메터 -3dB가 이용될 수 있다. 즉, 디믹싱 가중치 파라메터는 고정수일 수 있고, 시그널링되지 않을 수 있다.
또한, 1.x 채널 및 2.x 채널로의 업믹싱을 위해, 디믹싱 가중치 파라메터 -6dB가 이용될 수 있다. 즉, 디믹싱 가중치 파라메터는 고정수일 수 있고, 시그널링되지 않을 수 있다.
한편, 디믹싱에 이용되는 디믹싱 가중치 파라메터는 복수의 타입 중 하나의 타입에 포함된 파라메터일 수 있다. 예를 들어, Type 1의 디믹싱 가중치 파라메터 α, β, γ, δ는 0dB, 0dB, -3dB, -3dB일 수 있다. Type 2의 디믹싱 가중치 파라메터 α, β, γ, δ는 -3dB, -3dB, -3dB, -3dB일 수 있다. Type 3의 디믹싱 가중치 파라메터 α, β, γ, δ는 0dB, -1.25dB, -1.25dB, -1.25dB일 수 있다. Type 1은 오디오 신호가 일반적인 오디오 신호인 경우를 나타내는 타입, Type2는 오디오 신호에 대화가 포함된 경우를 나타내는 타입(대화 타입), Type3는 오디오 신호에 효과음이 존재하는 경우를 나타내는 타입(효과음 타입)일 수 있다.
오디오 부호화 장치(200,400)는 오디오 신호를 분석하고, 분석된 오디오 신호에 따라, 복수의 타입 중 하나의 타입을 결정할 수 있다. 오디오 부호화 장치(200,400)는 결정된 하나의 타입의 디믹싱 가중치 파라메터를 이용하여, 원본 오디오에 대한 다운믹싱을 수행하여, 하위 채널 레이아웃의 오디오 신호를 생성할 수 있다.
오디오 부호화 장치(200,400)는 복수의 타입 중 하나의 타입을 나타내는 인덱스 정보를 포함하는 비트스트림을 생성할 수 있다. 오디오 복호화 장치(300,500)는 비트스트림으로부터 인덱스 정보를 획득하고, 획득된 인덱스 정보를 기초로 복수의 타입 중 하나의 타입을 식별할 수 있다. 오디오 복호화 장치(300,500)는 식별된 하나의 타입의 디믹싱 가중치 파라메터를 이용하여, 압축 해제된 채널 그룹의 오디오 신호를 업믹싱하여 특정 채널 레이아웃의 오디오 신호를 복원할 수 있다.
또는, 다운믹싱에 따라 생성된 오디오 신호는 다음과 같은 수학식 1로 표현될 수 있다. 즉, 다운믹싱 행렬을 이용한 연산에 제한되지 않고, 1차 다항식 형태의 수학식을 이용한 연산을 기초로, 다운믹싱이 수행되고, 다운믹싱된 각각의 오디오 신호가 생성될 수 있다.
Figure pat00001
Figure pat00002
Figure pat00003
Figure pat00004
Figure pat00005
Figure pat00006
Figure pat00007
Figure pat00008
Figure pat00009
Figure pat00010
Figure pat00011
여기서, p1은 0.5(즉, -6dB), p2는 0.707(즉, -3dB)일 수 있다. α 및 β는 서라운드 채널의 개수를 7채널에서 5채널로 다운믹싱할 때 이용되는 값일 수 있다. 예를 들어, α 또는 β는 1(즉, 0dB), 0.866(즉, -1.25dB), 0.707(즉, -3dB) 중 하나일 수 있다.
Figure pat00012
는 높이 채널의 개수를 4채널에서 5채널로 다운믹싱할 때 이용되는 값일 수 있다. 예를 들어,
Figure pat00013
는 0.866 또는 0.707 중 하나일 수 있다. δ는 서라운드 채널의 개수를 5채널에서 3채널로 다운믹싱할 때 이용되는 값일 수 있다. δ는 0.866 또는 0.707 중 하나일 수 있다. w'는 H2(예를 들어, 5.1.2 채널 레이아웃 또는 7.1.2 채널 레이아웃의 높이 채널)에서 Hf2(3.1.2 채널 레이아웃의 높이 채널)로 다운믹싱할 때, 이용되는 값일 수 있다.
이와 유사하게, 디믹싱에 따라 생성되는 오디오 신호는 다음과 같은 수학식 2으로 표현될 수 있다. 즉, 디믹싱 행렬을 이용한 연산에 제한되지 않고, 1차 다항식 형태의 수학식을 이용한 연산을 기초로, 단계적으로 디믹싱이 수행(각 수학식의 연산 프로세스가 하나의 디믹싱 프로세스에 대응됨)되고, 디믹싱된 각각의 오디오 신호가 생성될 수 있다.
Figure pat00014
Figure pat00015
Figure pat00016
Figure pat00017
Figure pat00018
Figure pat00019
Figure pat00020
Figure pat00021
Figure pat00022
Figure pat00023
Figure pat00024
w'는 H2(예를 들어, 5.1.2 채널 레이아웃 또는 7.1.2 채널 레이아웃의 높이 채널)에서 Hf2(3.1.2 채널 레이아웃의 높이 채널)로 다운믹싱 또는 Hf2(3.1.2 채널 레이아웃의 높이 채널)로부터 H2(예를 들어, 5.1.2 채널 레이아웃 또는 7.1.2 채널 레이아웃의 높이 채널)로 디믹싱할 때, 이용되는 값일 수 있다.
sumw 값 및 sumw 값 에 대응되는 w’는 w에 따라 업데이트될 수 있다. w는 -1 또는 1일 수 있고, 프레임마다 전송될 수 있다.
예를 들어, 최초의 sumw 값은 0이고, 프레임마다 w가 1인 경우, sumw 값이 1만큼 증가하고, 프레임마다 w가 -1인 경우, 1만큼 감소할 수 있다. 만약 sumw 값이 1만큼 증가 또는 감소할 때, 0~10의 범위를 벗어난다면, sumw 값은 0 또는 10으로 유지될 수 있다. w' 및 sumw의 관계를 나타내는 표 5는 다음과 같다. 즉, 프레임마다 w' 값이 점진적으로 업데이트되어 Hf2로부터 H2로 디믹싱할 때 이용될 수 있다.
sumw 0 1 2 3 4 5
w' 0 0.0179 0.0391 0.0658 0.1038 0.25
sumw 6 7 8 9 10
w' 0.3962 0.4342 0.4609 0.4821 0.5
이에 제한되지 않고, 복수의 디믹싱 프로세스 단계를 통합하여 디믹싱이 수행될 수 있다. 예를 들어, L2, R2 의 서라운드 2채널로부터 디믹싱된 Ls5 채널 또는 Rs5 채널의 신호는 수학식 2의 두번째 수학식 내지 다섯번째 수학식을 정리한 수학식 3로 표현될 수 있다.
Figure pat00025
Figure pat00026
또한 L2, R2 의 서라운드 2채널로부터 디믹싱된 Hl 또는 Hr 채널의 신호는 수학식 2의 두번째,세번째 수학식 및 여떫번째 및 아홉번째 수학식을 정리한 수학식 4로 표현될 수 있다.
Figure pat00027
Figure pat00028
한편, 서라운드 채널 및 높이 채널에 대한 단계적인 다운믹싱은 다음 표 6과 같은 메커니즘을 가질 수 있다.
Figure pat00029
Figure pat00030
다운믹싱 관련 정보(또는 디믹싱 관련 정보)는 미리 결정된 5개의 다운믹싱 가중치 파라미터(또는 디믹싱 가중치 파라미터)의 조합들에 기초한 복수의 모드들 중 하나를 나타내는 인덱스 정보일 수 있다. 예를 들어, 표 7과 같이, 복수의 모드에 대응되는 다운믹싱 가중치 파라미터가 미리 결정되어 있을 수 있다.
Mode 다운믹싱 가중치 파라미터 (α,β,γ, δ, w) (또는 디믹싱 가중치 파라미터)
1 (1, 1, 0.707, 0.707, -1)
2 (0.707, 0.707, 0.707, 0.707, -1)
3 (1, 0.866, 0.866, 0.866, -1)
4 (1, 1, 0.707, 0.707, 1)
5 (0.707, 0.707, 0.707, 0.707, 1)
6 (1, 0.866, 0.866, 0.866, 1)
이하에서는 도 7a내지 도 18d를 참조하여, 오디오 씬 타입을 기초로 다운믹싱 또는 디믹싱을 수행하기 위한 오디오 부호화 과정 및 오디오 복호화 과정에 대해 설명한다. 또한, 높이 채널 등의 오디오 신호의 에너지 분석 등을 기초로, 다운믹싱 또는 디믹싱을 수행하기 위한 오디오 부호화 과정 및 오디오 복호화 과정에 대해 설명한다.
이하, 본 개시의 기술적 사상에 의한 실시예들을 차례로 상세히 설명한다.
도 7a는 일 실시예에 따른 오디오 부호화 장치의 구성을 도시하는 블록도이다.
오디오 부호화 장치(700)는 메모리(710) 및 프로세서(730)를 포함한다. 오디오 부호화 장치(700)는 서버, TV, 카메라, 휴대폰, 태블릿 PC, 노트북 등 오디오 처리가 가능한 기기로 구현될 수 있다.
도 7a에는 메모리(710) 및 프로세서(730)가 개별적으로 도시되어 있으나, 메모리(710) 및 프로세서(730)는 하나의 하드웨어 모듈(예를 들어, 칩)을 통해 구현될 수 있다.
프로세서(730)는 신경망 기반의 오디오 처리를 위한 전용 프로세서로 구현될 수 있다. 또는, 프로세서(730)는 AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.
프로세서(730)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.
메모리(710)는 오디오 처리를 위한 하나 이상의 인스트럭션을 저장할 수 있다. 일 실시예에서, 메모리(710)는 신경망을 저장할 수 있다. 신경망이 인공 지능을 위한 전용 하드웨어 칩 형태로 구현되거나, 기존의 범용 프로세서(예를 들어, CPU 또는 애플리케이션 프로세서) 또는 그래픽 전용 프로세서(예를 들어, GPU)의 일부로 구현되는 경우에는, 신경망이 메모리(710)에 저장되지 않을 수 있다. 신경망은 외부 장치(예를 들어, 서버)에 의해 구현될 수 있고, 이 경우, 오디오 부호화 장치(700)는 요청하고, 외부 장치로부터 신경망에 기초한 결과 정보를 수신할 수 있다.
프로세서(730)는 메모리(710)에 저장된 인스트럭션에 따라 연속된 프레임들을 순차적으로 처리하여 연속된 부호화(압축) 프레임들을 획득한다. 연속된 프레임은 오디오를 구성하는 프레임들을 의미할 수 있다.
프로세서(730)는 원본 오디오 신호를 입력으로 하여, 오디오 처리 동작을 수행하여 압축 오디오 신호를 포함하는 비트스트림을 출력할 수 있다. 이때, 원본 오디오 신호는 다채널 오디오 신호일 수 있다. 압축 오디오 신호는 원본 오디오 신호의 채널의 개수보다 작거나 같은 채널을 갖는 다채널 오디오 신호일 수 있다. 이때, 비트스트림은 기본 채널 그룹의 압축 오디오 신호를 포함하고, 나아가, n개의 종속 채널 그룹(n은 1보다 크거나 같은 정수)의 압축 오디오 신호를 포함할 수 있다. 따라서, 종속 채널 그룹의 개수에 따라, 채널의 개수를 자유롭게 증가시킬 수 있다.
도 7b는 일 실시예에 따른 오디오 부호화 장치의 구성을 도시하는 블록도이다.
도 7b를 참조하면, 오디오 부호화 장치(700)는 다채널 오디오 부호화부(740), 비트스트림 생성부(780) 및 부가 정보 생성부(785)를 포함할 수 있다. 다채널 오디오 부호화부(740)는 다채널 오디오 신호 처리부(750) 및 압축부(776)을 포함할 수 있다.
도 7a를 다시 참조하면, 전술한 바와 같이, 오디오 부호화 장치(700)는 메모리(710) 및 프로세서(730)를 포함할 수 있고, 도 1b의 각 구성요소(740,750,760,765,770,775,776,780,785)를 구현하기 위한 인스트럭션은 도 7a의 메모리(710)에 저장될 수 있다. 프로세서(730)는 메모리(710)에 저장된 인스트럭션을 실행할 수 있다.
다채널 오디오 신호 처리부(750)는 원본 오디오 신호로부터 기본 채널 그룹의 적어도 하나의 오디오 신호 및 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 획득할 수 있다.
다채널 오디오 신호 처리부(750)는 오디오 씬 타입 식별부(760), 다운믹싱 가중치 파라미터 식별부(765), 다운믹스 채널 오디오 생성부(770) 및 오디오 신호 분류부(775)를 포함할 수 있다.
오디오 씬 타입 식별부(760)는 원본 오디오 신호에 대한 오디오 씬 (audio scene)의 타입(type)을 식별할 수 있다. 오디오 씬 타입은 프레임마다 식별될 수 있다.
오디오 씬 타입 식별부(760)는 원본 오디오 신호를 다운샘플링하고, 다운샘플링된 원본 오디오 신호를 기초로, 오디오 씬 타입을 식별할 수 있다.
오디오 씬 타입 식별부(760)는 원본 오디오 신호로부터 센터 채널(center channel)의 오디오 신호를 획득할 수 있다. 오디오 씬 타입 식별부(760)는 획득된 센터 채널의 오디오 신호로부터 대화 타입(Dialog type)을 식별할 수 있다. 이때, 오디오 씬 타입 식별부(760)는 대화 타입을 식별하기 위한 제 1 뉴럴 네트워크를 이용하여 대화 타입을 식별할 수 있다. 구체적으로, 오디오 씬 타입 식별부(760)는 제 1 뉴럴 네트워크를 이용하여 식별된 대화 타입의 확률값이 제 1 대화 타입에 대한 소정의 제 1 확률값보다 큰 경우, 제 1 대화 타입을 대화 타입으로 식별할 수 있다.
오디오 씬 타입 식별부(760)는 제 1 뉴럴 네트워크를 이용하여 식별된 대화 타입의 확률값이 제 1 대화 타입에 대한 소정의 제 1 확률값보다 작거나 같은 경우, 대화 타입으로 디폴트 타입을 식별할 수 있다.
오디오 씬 타입 식별부(760)는 원본 오디오 신호로부터 프론트 채널(front channel)의 오디오 신호 및 사이드 채널(side channel)의 오디오 신호를 기초로, 효과음 타입을 식별할 수 있다.
오디오 씬 타입 식별부(760)는 효과음 타입을 식별하기 위한 제 2 뉴럴 네트워크를 이용하여 효과음 타입을 식별할 수 있다. 구체적으로, 오디오 씬 타입 식별부(760)는 제 2 뉴럴 네트워크를 이용하여 식별된 효과음 타입의 확률 값이 제 1 효과음 타입에 대한 소정의 제 2 확률값보다 큰 경우, 효과음 타입을 제 1 효과음 타입으로 식별할 수 있다.
오디오 씬 타입 식별부(760)는 제 2 뉴럴 네트워크를 이용하여 식별된 효과음 타입의 확률 값이 제 1 효과음 타입에 대한 소정의 제 2 확률값보다 작거나 같은 경우, 효과음 타입을 디폴트 타입으로 식별할 수 있다.
오디오 씬 타입 식별부(760)는 식별된 대화 타입 및 식별된 효과음 타입 중 적어도 하나를 기초로, 오디오 씬의 타입을 식별할 수 있다. 즉, 오디오 씬 타입 식별부(760)는 복수의 오디오 씬의 타입 중 하나의 오디오 씬의 타입을 식별할 수 있다. 구체적으로 오디오 씬 의 타입을 식별하는 과정은 도 5를 참조하여 후술하겠다.
다운믹싱 가중치 파라미터 식별부(765)는 오디오 씬의 타입에 대응하는 다운믹싱 프로파일(Down-mix profile)을 식별할 수 있다. 다운믹싱 가중치 파라미터 식별부(765)는 다운믹싱 프로파일에 따라, 적어도 하나의 제 1 채널로부터 제 2 채널로의 (다운)믹싱을 위한 다운믹싱 가중치 파라미터를 획득할 수 있다. 특정 오디오 씬의 타입에 대응하는 특정 다운믹싱 가중치 파라미터는 미리 결정될 수 있다.
다운믹스 채널 오디오 생성부(770)는 획득된 다운믹싱 가중치 파라미터를 기초로, 원본 오디오 신호를 소정의 채널 레이아웃에 따라, 다운믹싱할 수 있다. 다운믹스 채널 오디오 생성부(770)는 다운믹싱의 결과로, 소정의 채널 레이아웃의 오디오 신호를 생성할 수 있다.
오디오 신호 분류부(775)는 소정의 채널 레이아웃의 오디오 신호를 기초로, 기본 채널 그룹의 적어도 하나의 오디오 신호 및 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 생성할 수 있다.
압축부(776)는 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호를 압축할 수 있다. 즉, 압축부(776)는 기본 채널 그룹의 적어도 하나의 오디오 신호를 압축하여 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 획득할 수 있다. 여기서 압축이란, 다양한 오디오 코덱에 기초한 압축을 의미할 수 있다. 예를 들어, 압축은, 변환 및 양자화 프로세스를 포함할 수 있다.
또한, 압축부(776)는 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 압축하여, 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 획득할 수 있다.
부가 정보 생성부(785)는 오디오 씬 타입에 관한 정보를 포함하는 부가 정보를 생성할 수 있다.
비트스트림 생성부(780)은 기본 채널 그룹의 압축 오디오 신호 및 종속 채널 그룹의 압축 오디오 신호를 포함하는 비트스트림을 생성할 수 있다.
비트스트림 생성부(780)는 부가 정보 생성부(785)에서 생성된 부가 정보를 더 포함하는 비트스트림을 생성할 수 있다.
구체적으로, 비트스트림 생성부(780)는 기본 오디오 스트림 및 보조 오디오 스트림을 생성할 수 있다. 기본 오디오 스트림은 기본 채널 그룹의 압축 오디오 신호를 포함할 수 있고, 보조 오디오 스트림은 종속 채널 그룹의 압축 오디오 신호를 포함할 수 있다.
또한, 비트스트림 생성부(780)는 부가 정보를 포함하는 메타 데이터를 생성할 수 있다. 결국, 비트스트림 생성부(780)는 기본 오디오 스트림, 보조 오디오 스트림 및 메타 데이터를 포함하는 비트스트림을 생성할 수 있다.
도 8은 일 실시예에 따른 오디오 부호화 장치의 구성을 도시하는 블록도이다.
도 8을 참조하면, 오디오 부호화 장치(800)는 다채널 오디오 부호화부(840), 비트스트림 생성부(880) 및 부가 정보 생성부(885)를 포함할 수 있다.
다채널 오디오 신호 처리부(850)는 다운믹싱 가중치 파라미터 식별부(855), 추가 가중치 파라미터 식별부(860), 다운믹스 채널 오디오 생성부(870) 및 오디오 신호 분류부(875)를 포함할 수 있다.
다운믹싱 가중치 파라미터 식별부(855)는 다운믹싱 가중치 파라미터를 식별할 수 있다.
도 1b의 다운믹싱 가중치 파라미터 식별부(165)에서 전술한 바와 같이, 다운믹싱 가중치 파라미터 식별부(855)는 오디오 씬 타입을 기초로, 다운믹싱 가중치 파라미터를 식별할 수 있으나, 이에 제한되지 않고, 다양한 방식으로, 다운믹싱 가중치 파라미터를 식별할 수 있다.
추가 가중치 파라미터 식별부(860)는 원본 오디오 신호로부터 높이 채널(Height Channel)의 오디오 신호의 에너지 값을 식별할 수 있다. 추가 가중치 파라미터 식별부(860)는 원본 오디오 신호로부터 서라운드 채널의 오디오 신호의 에너지 값을 식별할 수 있다. 한편, 추가 가중치 파라미터 식별부(860)는 오디오 씬 타입에 따라, 추가 가중치의 범위나 추가 가중치 후보(예를 들어, 제 1 가중치, 제 8 가중치)의 값을 결정할 수 있다.
추가 가중치 파라미터 식별부(860)는 식별된 높이 채널의 오디오 신호의 에너지 값 및 식별된 서라운드 채널의 에너지 값을 기초로, 서라운드 채널로부터 높이 채널로의 믹싱을 위한 추가 가중치 파라미터를 식별할 수 있다. 서라운드 채널의 에너지 값은 서라운드 채널에 대한 총 전력(total power)의 이동 평균(moving average) 값일 수 있다. 구체적으로, 서라운드 채널의 에너지 값은 롱텀 시간 윈도우(Long-term time window)에 기초한 RMSE(Root Mean Square Energy) 값일 수 있다. 높이 채널의 에너지 값은 높이 채널에 대한 숏 타임 전력값(short time power value)일 수 있다. 구체적으로, 높이 채널의 에너지 값은 숏텀 시간 윈도우(Short-term time window)에 기초한 RMSE 값일 수 있다. 추가 가중치 파라미터 식별부(860)는 높이 채널의 에너지 값이 소정의 제 1 값보다 크거나, 높이 채널의 에너지 값과 서라운드 채널의 에너지 값의 비율이 소정의 제 2 값보다 큰 경우, 추가 가중치 파라미터를 제 1 값으로 식별할 수 있다. 예를 들어, 제 1 값은 0일 수 있다.
추가 가중치 파라미터 식별부(860)는 높이 채널의 에너지 값이 소정의 제 1 값보다 작거나 같고, 높이 채널의 에너지 값과 서라운드 채널의 에너지 값의 비율이 소정의 제 2 값보다 작거나 같은 경우, 추가 가중치 파라미터를 제 2 값으로 식별할 수 있다. 제 2 값은 1일 수 있으나, 이에 제한되지 않고, 0.5 등의 제 1 값보다 큰 값일 수 있다.
추가 가중치 파라미터 식별부(860)는 오디오 컨텐츠 내 가중치 목표 비율을 기초로, 원본 오디오 신호의 적어도 하나의 시간 구간에 대한 가중치의 레벨을 식별할 수 있다. 예를 들어, Level 1의 목표 비율을 30%, Level 2의 목표 비율을 60%, Level 3의 목표 비율을 10%라고 한다면, 추가 가중치 파라미터 식별부(860)는 목표 비율에 맞게 적어도 하나의 시간 구간에 대한 가중치의 레벨을 식별할 수 있다. 즉, 추가 가중치 파라미터 식별부(860)는 컨텐츠의 초반 부분의 시간 구간의 경우, Level 0을 식별하고, 컨텐츠 중간 부분의 시간 구간의 경우, Level 1을 식별하고, 컨텐츠 중반 부분의 시간 구간의 경우, Level 2를 식별할 수 있다. 이때, 각 레벨에 대응하는 추가 가중치 파라미터가 식별될 수 있다. 각 레벨에 대응하는 가중치가 상수인 경우, 시간 구간들의 경계 구간에서 가중치의 불연속이 발생할 수 있다.
추가 가중치 파라미터 식별부(860)는 시간 구간들의 경계 구간에서 가중치를 달리 결정할 수 있다. 구체적으로, 추가 가중치 파라미터 식별부(860)는 제 1 시간 구간과 제 2 시간 구간 간의 경계 구간의 가중치는 제 1 시간 구간에서 경계 구간을 제외한 나머지 구간의 가중치와 제 2 시간 구간에서 경계 구간을 제외한 나머지 구간의 가중치 사이의 값을 식별할 수 있다. 즉, 추가 가중치 파라미터 식별부(860)는 경계 구간에서의 가중치 불연속을 최소화하기 위해, 경계 구간에서 가중치를 경계 구간 외부에 인접하는 가중치 사이의 값으로 식별할 수 있다. 예를 들어, 초반 부분(레벨 0)과 중반 부분(레벨 1) 간의 경계 구간에서는 레벨의 값을 서브 구간마다 증가(예를 들어, 0.1만큼 증가)시킬 수 있고, 레벨에 대응하는 가중치(예를 들어, 레벨에 기초한 함수의 출력)를 결정할 수 있다. 이때, 레벨 0과 1 사이의 레벨에 대응하는 가중치는 레벨 0의 가중치와 레벨 1의 가중치 사이의 값일 수 있다. 결과적으로 가중치의 불연속을 최소화할 수 있다.
다운믹스 채널 오디오 생성부(870)는 획득된 다운믹싱 가중치 파라미터 및 추가 가중치 파라미터를 기초로, 원본 오디오 신호를 소정의 채널 레이아웃에 따라, 다운믹싱할 수 있다. 다운믹스 채널 오디오 생성부(870)는 다운믹싱의 결과로, 소정의 채널 레이아웃의 오디오 신호를 생성할 수 있다.
다운믹스 채널 오디오 생성부(870)는 서라운드 채널로부터 높이 채널로의 믹싱을 위한 다운믹싱 가중치 파라미터 및 추가 가중치 파라미터를 기초로, 높이 채널의 오디오 신호를 생성할 수 있다. 이때, 서라운드 채널로부터 높이 채널로의 믹싱을 위한 최종 가중치 파라미터는 다운믹싱 가중치와 추가 가중치 파라미터와 곱으로 표현될 수 있다.
부가 정보 생성부(885)는 추가 가중치 파라미터에 관한 정보를 포함하는 부가 정보를 생성할 수 있다.
도 9a는 일 실시예에 따른 다채널 오디오 복호화 장치의 구성을 도시하는 블록도이다.
오디오 복호화 장치(900)는 메모리(910) 및 프로세서(930)를 포함한다. 오디오 복호화 장치(900)는 서버, TV, 카메라, 휴대폰, 태블릿 PC, 노트북 등 오디오 처리가 가능한 기기로 구현될 수 있다.
도 9a에는 메모리(910) 및 프로세서(930)가 개별적으로 도시되어 있으나, 메모리(910) 및 프로세서(930)는 하나의 하드웨어 모듈(예를 들어, 칩)을 통해 구현될 수 있다.
프로세서(930)는 신경망 기반의 오디오 처리를 위한 전용 프로세서로 구현될 수 있다. 또는, 프로세서(830)는 AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.
프로세서(930)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.
메모리(910)는 오디오 처리를 위한 하나 이상의 인스트럭션을 저장할 수 있다. 일 실시예에서, 메모리(910)는 신경망을 저장할 수 있다. 신경망이 인공 지능을 위한 전용 하드웨어 칩 형태로 구현되거나, 기존의 범용 프로세서(예를 들어, CPU 또는 애플리케이션 프로세서) 또는 그래픽 전용 프로세서(예를 들어, GPU)의 일부로 구현되는 경우에는, 신경망이 메모리(910)에 저장되지 않을 수 있다. 신경망은 외부 장치(예를 들어, 서버)에 의해 구현될 수 있고, 이 경우, 오디오 복호화 장치(900)는 요청하고, 외부 장치로부터 신경망에 기초한 결과 정보를 수신할 수 있다.
프로세서(930)는 메모리(910)에 저장된 인스트럭션에 따라 연속된 프레임들을 순차적으로 처리하여 연속된 복원 프레임들을 획득한다. 연속된 프레임은 오디오를 구성하는 프레임들을 의미할 수 있다.
프로세서(930)는 비트스트림을 입력으로 하여, 오디오 처리 동작을 수행하여 다채널 오디오 신호를 출력할 수 있다. 이때, 비트스트림은 기본 채널 그룹으로부터 채널의 개수를 증가시킬 수 있도록 스케일러블한 형태로 구현될 수 있다. 예를 들어, 프로세서(930)는 비트스트림으로부터 기본 채널 그룹의 압축 오디오 신호를 획득할 수 있고, 기본 채널 그룹의 압축 오디오 신호를 압축 해제하여 기본 채널 그룹의 오디오 신호(예를 들어, 스테레오 채널 오디오 신호)를 복원할 수 있다. 추가적으로, 프로세서(930)는 비트스트림으로부터 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여 종속 채널 그룹의 오디오 신호를 복원할 수 있다. 프로세서(930)는 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호를 기초로, 다채널의 오디오 신호를 복원할 수 있다.
한편, 프로세서(930)는 비트스트림으로부터 제 1 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여 제 1 종속 채널 그룹의 오디오 신호를 복원할 수 있다. 프로세서(930)는 제 2 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여 제 2 종속 채널 그룹의 오디오 신호를 복원할 수 있다.
프로세서(830)는 기본 채널 그룹의 오디오 신호 및 제 1 종속 채널 그룹 및 제 2 종속 채널 그룹의 오디오 신호를 기초로, 보다 채널의 개수가 증가된 다채널의 오디오 신호를 복원할 수 있다. 이와 유사하게 n개의 종속 채널 그룹(n은 2보다 큰 정수)까지의 압축 오디오 신호를 압축 해제하고, 기본 채널 그룹의 오디오 신호 및 n개의 종속 채널 그룹의 오디오 신호를 기초로, 더욱 더 채널의 개수가 증가된 다채널의 오디오 신호를 복원할 수 있다.
도 9b는 일 실시예에 따른 오디오 복호화 장치의 구성을 도시하는 블록도이다.
도 8b를 참조하면, 오디오 복호화 장치(900)는 정보 획득부(950) 및 다채널 오디오 복호화부(960)을 포함한다. 다채널 오디오 복호화부(960)은 압축 해제부(970) 및 다채널 오디오 신호 복원부(980)을 포함한다.
오디오 복호화 장치(900)는 도 9a의 메모리(910) 및 프로세서(930)를 포함할 수 있고, 도 9b의 각 구성요소(950, 960, 970, 980, 985, 990, 995)를 구현하기 위한 인스트럭션은 메모리(910)에 저장될 수 있다. 프로세서(930)는 메모리(910)에 저장된 인스트럭션을 실행할 수 있다.
정보 획득부(950)는 비트스트림으로부터 기본 오디오 스트림 및 적어도 하나의 보조 오디오 스트림을 획득할 수 있다. 기본 오디오 스트림은 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 포함할 수 있다. 보조 오디오 스트림은 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 획득할 수 있다.
정보 획득부(950)는 비트스트림으로부터 메타 데이터를 획득할 수 있다. 메타 데이터는 부가 정보를 포함할 수 있다. 예를 들어, 메타데이터는 원본 오디오 신호에 대한 오디오 씬 타입에 관한 정보일 수 있다. 오디오 씬 타입에 관한 정보는 복수의 오디오 씬 컨텐츠 타입 중 하나를 나타내는 인덱스 정보일 수 있다. 오디오 씬 컨텐츠 타입에 관한 정보는 프레임마다 획득될 수 있으나, 다양한 데이터 단위에 대하여 주기적으로 획득될 수 있다. 또는, 오디오 씬 타입에 관한 정보는 씬이 변경될 때마다, 비주기적으로 획득될 수 있다.
압축 해제부(970)는 기본 오디오 스트림에 포함된 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 압축해제하여 기본 채널 그룹의 오디오 신호를 획득할 수 있다. 압축 해제부(970)는 보조 오디오 스트림에 포함된 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호로부터, 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 획득할 수 있다.
디믹싱 파라미터 식별부(990)는 오디오 씬 컨텐츠 타입에 관한 정보를 기초로, 디믹싱 가중치 파라미터를 식별할 수 있다. 즉, 디믹싱 파라미터 식별부(990)는 오디오 씬 컨텐츠 타입에 대응하는 디믹싱 가중치 파라미터를 식별할 수 있다. 즉, 디믹싱 파라미터 식별부(990)는 오디오 씬 타입에 대한 인덱스 정보를 기초로, 복수의 오디오 씬 컨텐츠 타입 중 하나의 오디오 씬 컨텐츠 타입을 식별할 수 있고, 식별된 하나의 오디오 씬 컨텐츠 타입에 대응하는 디믹싱 가중치 파라미터를 식별할 수 있다. 복수의 오디오 씬 컨텐츠 타입 각각에 대응하는 디믹싱 가중치 파라미터는 미리 결정되어 저장될 수 있다.
업믹스 채널 그룹 오디오 생성부(985)는 기본 채널 그룹의 적어도 하나의 오디오 신호 및 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 디믹싱 가중치 파라미터에 따라 디믹싱하여, 적어도 하나의 업믹스 채널 그룹 오디오 신호를 생성할 수 있다. 이때, 업믹스 채널 그룹 오디오 신호는 다채널 오디오 신호일 수 있다.
다채널 오디오 신호 출력부(995)는 적어도 하나의 업믹스 채널 그룹 오디오 신호를 출력할 수 있다.
도 10은 일 실시예에 따른 오디오 복호화 장치의 구성을 도시하는 블록도이다.
오디오 복호화 장치(1000)는 정보 획득부(1050), 다채널 오디오 복호화부(1060)을 포함할 수 있다. 다채널 오디오 복호화부(1060)는 압축 해제부(1070) 및 다채널 오디오 신호 복원부(1075)를 포함할 수 있다.
도 10의 정보 획득부(1050), 압축 해제부(1070), 다채널 오디오 신호 출력부(1095)은 전술된 도 9의 정보 획득부(950), 압축 해제부(970), 다채널 오디오 신호 출력부(995)의 다양한장 동작을 수행할 수 있다. 따라서, 도 9과 중복되는 동작에 대한 설명은 생략하기로 한다.
정보 획득부(1050)는 비트스트림으로부터 추가 디믹싱 가중치 파라미터에 관한 정보를 포함하는 부가 정보를 획득할 수 있다.
추가 디믹싱 파라미터 식별부(1090)는 추가 디믹싱 가중치 파라미터에 관한 정보를 기초로, 추가 디믹싱 가중치 파라미터를 식별할 수 있다. 추가 디믹싱 가중치 파라미터는 서라운드 채널로부터 높이 채널로의 믹싱을 위한 가중치 파라미터에 대응하는 디믹싱 가중치 파라미터일 수 있다. 즉, 추가 가중치 파라미터 식별부(1090)는 높이 채널로부터 서라운드 채널로의 디믹싱을 위한 가중치 파라미터를 식별할 수 있다. 다만, 이에 제한되지 않고, 추가 디믹싱 파라미터 식별부(1090)는 비트스트림으로부터 획득된 오디오 씬 타입에 관한 정보를 기초로, 추가 디믹싱 가중치 파라미터의 범위 또는 추가 디믹싱 가중치 파라미터 후보의 값을 결정할 수 있다. 추가 디믹싱 파라미터 식별부(1090)는 추가 디믹싱 가중치 파라미터의 범위 또는 추가 디믹싱 가중치 파라미터 후보의 값을 기초로, 추가 디믹싱 가중치 파라미터를 식별할 수 있다. 이때, 추가 디믹싱 가중치 파라미터에 관한 정보가 이용될 수 있다.
업믹스 채널 그룹 오디오 생성부(1080)는 디믹싱 가중치 파라미터 및 추가 디믹싱 가중치 파라미터에 따라 오디오 신호에 대한 디믹싱을 수행할 수 있다. 디믹싱은 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호에 대하여 수행될 수 있다. 예를 들어, 업믹스 채널 그룹 오디오 생성부(1080)는 높이 채널로부터 서라운드 채널로의 디믹싱 가중치 파라미터 및 추가 가중치 파라미터에 따라, 높이 채널로부터 서라운드 채널로의 디믹싱을 수행할 수 있다. 나머지 채널로의 디믹싱의 경우, 업믹스 채널 그룹 오디오 생성부(1080)는 추가 가중치 파라미터 없이 디믹싱 가중치 파라미터에 따라 디믹싱을 수행할 수 있다.
도 11은 일 실시예에 따른 오디오 부호화 장치(700)가 오디오 씬 컨텐츠 타입을 식별하는 과정을 구체적으로 설명하기 위한 도면이다.
도 11을 참조하면, 오디오 부호화 장치(700)는 원본 오디오 신호로부터 센터 채널의 오디오 신호를 획득(1100)할 수 있다.
오디오 부호화 장치(700)는 대화 타입 식별을 위한 제 1 뉴럴 네트워크(1110)을 이용하여 적어도 하나의 대화 타입의 클래스(class)의 확률값을 산출할 수 있다. 제 1 뉴럴 네트워크(1110)는 센터 채널의 오디오 신호를 입력으로 할 수 있다.
오디오 부호화 장치(700)는 제 1 대화 타입의 클래스의 확률값 Pdialog이 제 1 대화 타입의 임계값 Thdialog 보다 큰지를 식별(1120)할 수 있다.
제 1 대화 타입 클래스의 확률값 Pdialog이 제 1 대화 타입 클래스의 임계값 Thdialog 보다 큰 경우, 오디오 부호화 장치(700)는 대화 타입으로 제 1 대화 타입을 식별할 수 있다.
제 1 대화 타입의 클래스의 확률값 Pdialog이 제 1 대화 타입 클래스의 임계값 Thdialog 보다 작거나 같은 경우, 오디오 부호화 장치(700)는 효과음 타입을 식별할 수 있다. 다만, 이에 제한되지 않고, 오디오 부호화 장치(700)는 복수의 대화 타입 클래스에 대하여, 각각의 클래스의 확률값과 각각의 클래스의 임계값을 비교하고, 적어도 하나의 대화 타입을 식별할 수 있다. 이때, 우선순위에 따라, 하나의 대화 타입을 식별하거나, 확률값이 가장 높은 대화 타입을 식별할 수 있다. 복수의 대화 타입 중 어느 타입에도 해당되지 않는 경우(즉, 디폴트 타입인 경우), 오디오 부호화 장치(700)는 효과음 타입을 식별할 수 있다.
이하에서는, 오디오 부호화 장치(700)가 효과음 타입을 식별하는 과정에 대하여 상술하기로 한다.
오디오 부호화 장치(700)는 원본 오디오 신호로부터 프론트 채널의 오디오 신호를 획득하고, 사이드 채널의 오디오 신호를 획득(1130)할 수 있다.
오디오 부호화 장치(700)는 효과음 타입 식별을 위한 제 2 뉴럴 네트워크(1140)를 이용하여, 적어도 하나의 효과음 타입의 클래스의 확률값을 산출할 수 있다. 제 2 뉴럴 네트워크(1140)는 프론트 채널 및 사이드 채널의 오디오 신호를 입력으로 할 수 있다. 효과음은 게임이나 영화와 같은 오디오 컨텐츠에 포함될 수 있고, 방향성을 갖거나 공간적으로 움직이는 음향일 수 있다.
오디오 부호화 장치(700)는 제 1 효과음 타입의 클래스의 확률값 Peffect이 제 1 효과음 타입의 임계값 Theffect 보다 큰지를 식별(1150)할 수 있다.
오디오 부호화 장치(700)는 제 1 효과음 타입의 클래스의 확률값 Peffect이 제 1 효과음 타입의 임계값 Theffect 보다 큰 경우, 오디오 부호화 장치(700)는 효과음 타입으로 제 1 효과음 타입을 식별할 수 있다.
제 1 효과음 타입의 클래스의 확률값 Peffect이 제 1 효과음 타입의 임계값 Theffect 보다 작거나 같은 경우, 오디오 부호화 장치(700)는 디폴트 타입을 식별할 수 있다. 다만, 이에 되지 않고, 오디오 부호화 장치(700)는 복수의 효과음 타입 클래스(예를 들어, 제 1 효과음 타입의 클래스, 제 2 효과음 타입의 클래스,??, 제 n 효과음 타입의 클래스)에 대하여, 각각의 클래스의 확률값과 각각의 클래스의 임계값을 비교하고, 적어도 하나의 효과음 타입을 식별할 수 있다.
이때, 우선순위에 따라, 하나의 효과음 타입을 식별하거나, 확률값이 가장 높은 효과음 타입을 식별할 수 있다. 복수의 효과음 타입 중 어느 타입에도 해당되지 않는 경우, 오디오 부호화 장치(700)는 디폴트 타입을 식별할 수 있다.
다만, 이에 제한되지 않고, 대화 타입 및 효과음 타입 외 음악 타입 스포츠/군중(Sport/Crowd) 타입과 같은, 다양한 오디오 씬 타입이 식별될 수 있다. 음악 타입은 오디오 채널들 간에 균형이 잡힌 음향을 갖는 오디오 씬의 타입일 수 있다. 스포츠/군중 타입은 많은 사람들의 함성에 의한 분위기나 명확한 해설 음향을 갖는 오디오 씬의 타입일 수 있다. 여기서, 디폴트 타입은 식별되는 특정 오디오 씬 타입이 없는 경우에 식별되는 타입일 수 있다. 다양한 오디오 씬 타입은 별도의 신경망을 이용하여 식별될 수 있다. 각각의 오디오 씬 타입을 식별하기 위한 신경망은 별도로 훈련될 수 있다.
한편, 도 11을 참조하여, 대화 타입이 먼저 식별되고, 효과음 타입이 그후에 식별되는 내용을 전술하였으나, 이에 제한되지 않고, 효과음 타입이 먼저 식별되고, 대화 타입이 먼저 식별될 수 있다. 또한, 다른 오디오 씬의 타입이 존재하는 경우, 오디오 씬 타입 간의 우선순위에 따라, 각 오디오 씬의 타입이 식별될 수 있다.
도 12는 일 실시예에 따른 대화 타입을 식별하기 위한 제 1 DNN(1200)을 설명하기 위한 도면이다.
제 1 DNN(1200)은 적어도 하나의 컨볼루션(convolution) 레이어, 풀링(Pooling) 레이어 및 풀리-커넥티드(Fully-Connected)(완전-연결) 레이어를 포함할 수 있다. 컨볼루션 레이어는 미리 결정된 크기의 필터로 입력 데이터를 처리하여 특징 데이터를 획득한다. 컨볼루션 레이어의 필터의 파라메터들은 후술하는 훈련 과정을 통해 최적화될 수 있다. 풀링 레이어는 입력 데이터의 크기를 줄이기 위해, 특징 데이터의 전체 샘플의 특징 값 중 일부 샘플의 특징 값만을 취하여 출력하기 위한 레이어로, 최대 풀링 레이어(Max Pooling Layer) 및 평균 풀링 레이어(Average Pooling Layer) 등을 포함할 수 있다. 풀리-커넥티드 레이어는 한 레이어의 뉴런이 그 다음 레이어의 모든 뉴런과 연결된 레이어로, 특징을 분류하기 위한 레이어이다.
도 12을 참조하면, 센터 채널의 오디오 신호(1201)에 대한 전 처리가 수행된 후에, 전 처리된 센터 채널의 오디오 신호(1205)가 제 1 DNN(1200)로 입력된다.
먼저, 센터 채널의 오디오 신호(1201)에 대한 RMS 정규화(1202)가 수행된다. 음원 별로 에너지가 다르기 때문에, 특정 기준으로 오디오 신호의 에너지 값을 정규화(Normalize)할 수 있다. 샘플의 개수 N 인 경우, 센터 채널의 오디오 신호(1201)는 Nx1 크기의 1차원 신호일 수 있다. 예를 들어, 센터 채널의 오디오 신호(1201)는 8640x1 크기의 1차원 신호일 수 있다. 연산량을 줄이기 위하여, 센터 채널의 오디오 신호(1201)가 다운샘플링된 후에, RMS 정규화(1202)가 수행될 수 있다.
그 다음으로, RMS 정규화(1202)된 오디오 신호에 대한 단시간 주파수 변환(Short Time Frequency Transform)(1203)이 수행된다. 시간 단위의 1차원 입력 신호가 시간 및 주파수의 2차원 신호로 출력된다. 시간 및 주파수의 2차원 신호는 X x Y x 1 크기의 2차원 신호일 수 있다. 예를 들어, 단시간 주파수 변환된 센터 채널의 오디오 신호는 68x127x1 크기의 2차원 신호일 수 있다.
단시간 주파수 변환에 의한 출력 신호는 실수부와 허수부를 갖는 복소수 신호(a + jb)이다. 복소수 신호를 그대로 이용하기는 어렵기 때문에, 복소수 신호의 절대값(root(a^2+b^2))이 이용될 수 있다.
시간 및 주파수의 2차원 신호에 대한 멜-스케일(Mel-scale)(1204)이 수행된다. 멜-스케일은 사람이 저주파 신호에 인지적으로 민감하게 느끼고, 고주파 신호에 대해서는 상대적으로 신호의 변화를 덜 민감하게 느끼는 특성을 고려한 스케일로, 주파수 축의 데이터를 인간이 인지적으로 더 민감하게 느끼는 신호의 데이터가 더 세밀하게 강조되도록 리스케일하는 동작을 의미한다. 결과적으로, 출력되는 2차원 신호는 주파수축의 데이터가 줄어든 X x Y' x 1 크기의 2차원 신호일 수 있다. 예를 들어, 멜-스케일된 센터 채널의 오디오 신호는 68x68x1 크기의 2차원 신호일 수 있다.
도 12를 참조하면, 센터 채널의 오디오 신호(1201)에 대한 전 처리가 수행된 후에, 제 1 DNN(1200)로 입력된다.
도 12를 참조하면, 전 처리된 센터 채널의 오디오 신호(1205)가 제 1 DNN(1200)으로 입력된다. 전 처리된 센터 채널의 오디오 신호(1205)는 시간, 주파수로 구분되는 샘플들을 포함한다. 즉, 전 처리된 센터 채널의 오디오 신호(1205)는 샘플들의 2차원 데이터일 수 있다. 전 처리된 센터 채널의 오디오 신호(1205)의 각 샘플은 특정 시간에 따른 특정 주파수의 특징 값을 갖는다.
제 1 컨볼루션 레이어(1220)는 axb 크기의 c개의 필터로, 전 처리된 센터 채널의 오디오 신호(1205)를 처리한다. 예를 들어, 제 1 컨볼루션 레이어(1220)의 처리 결과, (68,68, c) 크기의 제 1 중간 신호(1206)가 획득될 수 있다. 이때, 제 1 컨볼루션 레이어(1220)는 복수의 컨볼루션 레이어로 구성될 수 있고, 제 1 레이어의 입력과 제 2 레이어의 출력은 서로 연결되어 훈련될 수 있다. 제 1 레이어와 제 2 레이어는 동일할 수 있으나, 이에 제한되지 않고, 제 2 레이어는 제 1 레이어의 후속 레이어일 수 있다. 제 2 레이어는 제 1 레이어의 후속 레이어인 경우, 제 1 레이어의 활성화 함수는 Relu일 수 있다.
제 1 풀링 레이어(1230)을 이용하여, 제 1 중간 신호(1206)에 대한 풀링이 수행될 수 있다. 예를 들어, 풀링 레이어(1230)의 처리 결과, 제 2 중간 신호(34,34,c)(1207)가 획득될 수 있다.
제 2 컨볼루션 레이어(1240)는 dxe 크기의 f개의 필터로 입력된 신호를 처리한다. 제 2 컨볼루션 레이어(1240)의 처리 결과, (17,17, f) 크기의 제 3 중간 신호(1208)가 획득될 수 있다.
제 2 풀링 레이어(1250)을 이용하여, 제 3 중간 신호(1208)에 대한 풀링이 수행될 수 있다. 예를 들어, 풀링 레이어(1250)의 처리 결과, 제 4 중간 신호(9,9,f)(1209)가 획득될 수 있다.
제 1 풀리 커넥티드 레이어(1260)은 입력된 특징 신호를 분류하여 1차원의 특징 신호를 출력할 수 있다. 제 1 풀리 커넥티드 레이어(1260)의 처리 결과, (1, 1, N) 크기의 오디오 특징 신호(1210)가 획득될 수 있다. 여기서 N는 클래스의 개수를 의미한다. 각 클래스는 각 대화 타입에 대응될 수 있다.
본 개시의 일 실시예에 따른 제 1 DNN(1200)은 센터 채널의 오디오 신호(1201)로부터 오디오 특징 신호(예를 들어, 확률 신호)(1210)를 획득한다.
도 12은 제 1 DNN(1200)이 2개의 컨볼루션 레이어, 2개의 풀링 레이어 및 1개의 풀리 커넥티드 레이어를 포함하는 것으로 도시하고 있으나, 이는 예시일 뿐, 센터 채널의 오디오 신호 (1201)로부터 N 클래스의 오디오 특징 신호(1210)를 획득할 수 있다면, 제 1 DNN(1200)에 포함되는 컨볼루션 레이어, 풀링 레이어, 풀리 커넥티드 레이어의 개수는 다양하게 변형될 수 있다. 마찬가지로, 각 컨볼루션 레이어에서 이용되는 필터의 개수 및 크기도 다양하게 변경될 수 있고, 각 레이어 간의 연결 순서 및 방식도 다양하게 변경될 수 있다.
도 13은 일 실시예에 따른 효과음 타입을 식별하기 위한 제 2 DNN(1300)을 설명하기 위한 도면이다.
제 2 DNN(1300)은 적어도 하나의 컨볼루션(convolution) 레이어, 풀링(Pooling) 레이어 및 풀리-커넥티드(Fully-Connected)(완전-연결) 레이어를 포함할 수 있다. 컨볼루션 레이어는 미리 결정된 크기의 필터로 입력 데이터를 처리하여 특징 데이터를 획득한다. 컨볼루션 레이어의 필터의 파라메터들은 후술하는 훈련 과정을 통해 최적화될 수 있다. 풀링 레이어는 입력 데이터의 크기를 줄이기 위해, 특징 데이터의 전체 샘플의 특징 값 중 일부 샘플의 특징 값만을 취하여 출력하기 위한 레이어로, 최대 풀링 레이어(Max Pooling Layer) 및 평균 풀링 레이어(Average Pooling Layer) 등을 포함할 수 있다. 풀리-커넥티드 레이어는 한 레이어의 뉴런이 그 다음 레이어의 모든 뉴런과 연결된 레이어로, 특징을 분류하기 위한 레이어이다.
도 13을 참조하면, 프론트/사이드/높이 채널의 오디오 신호(1301)에 대한 전 처리가 수행된 후에, 제 2 DNN(1300)로 입력된다. 프론트/사이드/높이 채널의 오디오 신호(1301)에 대한 전 처리 과정은 도 12의 전 처리 과정과 유사하므로 전 처리 과정에 대한 설명은 생략하기로 한다.
도 13을 참조하면, 전 처리된 프론트/사이드/높이 채널의 오디오 신호(1305)가 제 2 DNN(1300)으로 입력된다. 전 처리된 프론트/사이드/높이 채널의 오디오 신호(1301)는 채널, 시간, 주파수로 구분되는 샘플들을 포함한다. 즉, 전 처리된 프론트/사이드/높이 채널의 오디오 신호(1305)는 샘플들의 3차원 데이터일 수 있다. 전 처리된 프론트/사이드/높이 채널의 오디오 신호(1305)의 각 샘플은 특정 시간에 따른 특정 주파수의 특징 값을 갖는다.
제 1 컨볼루션 레이어(1320)는 axb 크기의 c개의 필터로, 전 처리된 센터 채널의 오디오 신호(1305)를 처리한다. 예를 들어, 제 1 컨볼루션 레이어(1320)의 처리 결과, (68,68, c) 크기의 제 1 중간 신호(1306)가 획득될 수 있다. 이때, 제 1 컨볼루션 레이어(1320)는 복수의 컨볼루션 레이어로 구성될 수 있고, 제 1 레이어의 입력과 제 2 레이어의 출력은 서로 연결되어 훈련될 수 있다. 제 1 레이어와 제 2 레이어는 동일할 수 있으나, 이에 제한되지 않고, 제 2 레이어는 제 1 레이어의 후속 레이어일 수 있다. 제 2 레이어는 제 1 레이어의 후속 레이어인 경우, 제 1 레이어의 활성화 함수는 Relu일 수 있다.
제 1 풀링 레이어(1330)을 이용하여, 제 1 중간 신호(1306)에 대한 풀링이 수행될 수 있다. 예를 들어, 풀링 레이어(1330)의 처리 결과, 제 2 중간 신호(34,34,c)(1307)가 획득될 수 있다.
제 2 컨볼루션 레이어(1340)는 dxe 크기의 f개의 필터로 입력된 신호를 처리한다. 제 2 컨볼루션 레이어(1340)의 처리 결과, (17,17, f) 크기의 제 3 중간 신호(1308)가 획득될 수 있다.
제 2 풀링 레이어(1350)을 이용하여, 제 3 중간 신호(1308)에 대한 풀링이 수행될 수 있다. 예를 들어, 풀링 레이어(1350)의 처리 결과, 제 4 중간 신호(9,9,f)(1309)가 획득될 수 있다.
제 1 풀리 커넥티드 레이어(1360)은 입력된 특징 신호를 분류하여 1차원의 특징 신호를 출력할 수 있다. 제 1 풀리 커넥티드 레이어(1360)의 처리 결과, (1, 1, N) 크기의 오디오 특징 신호(1310)가 획득될 수 있다. 여기서 N는 클래스의 개수를 의미한다. 각 클래스는 각 효과음 타입에 대응될 수 있다.
본 개시의 일 실시예에 따른 제 2 DNN(1300)은 프론트/사이드/높이 채널의 오디오 신호(1301)로부터 오디오 특징 신호(예를 들어, 확률 신호)(1310)를 획득한다.
도 13은 제 2 DNN(1300)이 2개의 컨볼루션 레이어, 2개의 풀링 레이어 및 1개의 풀리 커넥티드 레이어를 포함하는 것으로 도시하고 있으나, 이는 예시일 뿐, 프론트/사이드/높이 채널의 오디오 신호(1301)로부터 N 클래스의 오디오 특징 신호(1310)를 획득할 수 있다면, 제 2 DNN(1300)에 포함되는 컨볼루션 레이어, 풀링 레이어, 풀리 커넥티드 레이어의 개수는 다양하게 변형될 수 있다. 마찬가지로, 각 컨볼루션 레이어에서 이용되는 필터의 개수 및 크기도 다양하게 변경될 수 있고, 각 레이어 간의 연결 순서 및 방식도 다양하게 변경될 수 있다.
도 14는 일 실시예에 따른 오디오 부호화 장치(800)가 서라운드 채널로부터 높이 채널로의 믹싱을 위한 추가 디믹싱 파라미터 가중치를 식별하는 과정을 구체적으로 설명하기 위한 도면이다.
도 14를 참조하면, 오디오 부호화 장치(800)는 원본 오디오 신호로부터 높이 채널의 오디오 신호를 획득(1400)할 수 있다. 오디오 부호화 장치(800)는 높이 채널의 오디오 신호에 대한 에너지를 분석(810)할 수 있다.
에너지 분석(1410)은 에너지 분석을 위한 뉴럴 네트워크를 이용하여 수행될 수 있다. 이 경우, 에너지 분석을 위한 뉴럴 네트워크를 이용하여, 높이 채널의 오디오 신호를 기반으로, 서라운드 채널로부터 높이 채널로의 믹싱을 위한 추가 가중치(제 1 가중치)를 식별할 수 있다.
오디오 부호화 장치(800)는 높이 채널의 오디오 신호의 전력 값 Ehgt가 임계값 Thhgt1보다 큰지를 식별(1420)할 수 있다. 이때, 전력 값은 신호의 RMS값으로, 짧은 시간동안의 전력 값(숏텀 시간 윈도우에 대한 평균 전력값)일 수 있다.
오디오 부호화 장치(800)는 Ehgt가 임계값 Thhgt1보다 크다고 식별되면, 서라운드 채널로부터 높이 채널로의 믹싱을 위한 추가 가중치(제 1 가중치)를 식별할 수 있다. 예를 들어, 제 1 가중치는 0일 수 있으나, 이에 제한되지 않고, 1보다 작은 값일 수 있다.
오디오 부호화 장치(800)는 높이 채널의 오디오 신호의 전력 값 Ehgt가 임계값 Thhgt1보다 작거나 같은 경우, 서라운드 채널에 오디오 신호에 대한 에너지를 분석(640)할 수 있다. 에너지 분석(1440)은 에너지 분석을 위한 뉴럴 네트워크를 이용하여 수행될 수 있다.
이 경우, 에너지 분석을 위한 뉴럴 네트워크를 이용하여, 높이 채널 및 서라운드 채널의 오디오 신호를 기반으로, 서라운드 채널로부터 높이 채널로의 믹싱을 위한 추가 가중치(제 1 가중치 또는 제 2 가중치)를 식별할 수 있다.
오디오 부호화 장치(800)는 원본 오디오 신호로부터 서라운드 채널의 오디오 신호를 획득(1430)할 수 있다. 오디오 부호화 장치(800)는 서라운드 채널의 오디오 신호의 에너지를 분석(1440)할 수 있다.
오디오 부호화 장치(800)는 높이 채널의 오디오 신호의 전력 값 Ehgt와 서라운드 채널의 오디오 신호의 전력 값 Esrd가 임계값 Thhgt2보다 큰지를 식별(650)할 수 있다. 이때, 전력 값 Esrd는 신호의 RMS값으로, 총 전력의 이동 평균(moving average) 값(롱텀 시간 윈도우에 대한 평균 전력값)일 수 있다.
오디오 부호화 장치(800)는 높이 채널의 오디오 신호의 전력 값 Ehgt와 서라운드 채널의 오디오 신호의 전력 값 Esrd의 차이가 임계값 Thhgt2보다 큰 경우,
서라운드 채널로부터 높이 채널로의 믹싱을 위한 추가 가중치(제 1 가중치)를 식별할 수 있다.
오디오 부호화 장치(800)는 높이 채널의 오디오 신호의 전력 값 Ehgt와 서라운드 채널의 오디오 신호의 전력 값 Esrd의 차이가 임계값 Thhgt2보다 큰 경우,
서라운드 채널로부터 높이 채널로의 믹싱을 위한 추가 가중치(제 1 가중치)를 식별할 수 있다.
오디오 부호화 장치(800)는 높이 채널의 오디오 신호의 전력 값 Ehgt와 서라운드 채널의 오디오 신호의 전력 값 Esrd의 차이가 임계값 Thhgt2보다 작거나 같은 경우, 서라운드 채널로부터 높이 채널로의 믹싱을 위한 추가 가중치(제 2 가중치)를 식별할 수 있다. 이때, 제 2 가중치는 0보다 큰 값이고, 제 1 가중치보다 큰 값을 가질 수 있다. 예를 들어, 제 2 가중치는 0.5, 0.75, 1 중 하나일 수 있다.
이상, 오디오 부호화 장치(800)는 높이 채널의 오디오 신호의 전력 값 Ehgt와 서라운드 채널의 오디오 신호의 전력 값 Esrd의 차이와 임계값 Thhgt2를 비교하는 동작을 전술하였으나, 이에 제한되지 않고, 높이 채널의 오디오 신호의 전력 값 Ehgt 과 서라운드 채널의 오디오 신호의 전력 값 Esrd의 비율을 임계값과 비교하는 동작으로 대체하여 수행될 수 있다.
도 15는 일 실시예에 따른 오디오 부호화 장치(800)가 서라운드 채널로부터 높이 채널로의 믹싱을 위한 추가 디믹싱 파라미터 가중치를 식별하는 과정을 구체적으로 설명하기 위한 도면이다.
도 15를 참조하면, 오디오 부호화 장치(800)는 원본 오디오 신호로부터 높이 채널의 오디오 신호 및 총 채널의 오디오 신호를 획득(1500)할 수 있다.
오디오 부호화 장치(800)는 높이 채널의 오디오 신호에 대한 에너지 분석(1510)을 수행하여, 전력 값 Ehgt을 획득할 수 있다. 또한, 오디오 부호화 장치(800)는 총 채널의 오디오 신호에 대한 에너지 분석(1510)을 수행하여 전력 값 Etotal을 획득할 수 있다. 여기서 전력 값 Ehgt는 숏텀 시간 윈도우에 대한 평균 전력 값(RMS값)일 수 있고, Etotal는 롱텀 시간 윈도우에 대한 평균 전력 값(RMS값)일 수 있다.
오디오 부호화 장치(800)는 높이 채널의 오디오 신호의 전력 값 Ehgt과 총 채널의 오디오 신호의 전력 값 Etotal의 비율(Ehgt/Etotal)이 임계값 Thhgt1보다 큰지를 식별(1520)할 수 있다.
오디오 부호화 장치(800)는 높이 채널의 오디오 신호의 전력 값 Ehgt과 총 채널의 오디오 신호의 전력 값 Etotal의 비율(Ehgt/Etotal)이 임계값 Thhgt1보다 크다고 식별되면, 서라운드 채널로부터 높이 채널로의 믹싱을 위한 추가 가중치(제 1 가중치)를 식별할 수 있다. 예를 들어, 제 1 가중치는 0일 수 있으나, 이에 제한되지 않고, 1보다 작은 값일 수 있다.
오디오 부호화 장치(800)는 높이 채널의 오디오 신호의 전력 값 Ehgt과 총 채널의 오디오 신호의 전력 값 Etotal의 비율(Ehgt/Etotal)이 임계값 Thhgt1보다 작거나 같다고 식별되면, 서라운드 채널에 오디오 신호에 대한 에너지를 분석(1540)할 수 있다. 에너지 분석(1540)은 에너지 분석을 위한 뉴럴 네트워크를 이용하여 수행될 수 있다.
오디오 부호화 장치(800)는 원본 오디오 신호로부터 서라운드 채널의 오디오 신호를 획득(1530)할 수 있다. 오디오 부호화 장치(100)는 서라운드 채널의 오디오 신호의 에너지를 분석(1540)할 수 있다.
오디오 부호화 장치(800)는 높이 채널의 오디오 신호의 전력 값 Ehgt와 서라운드 채널의 오디오 신호의 전력 값 Esrd의 비율(Ehgt/Esrd)이 임계값 Thhgt2보다 큰지를 식별(1550)할 수 있다. 이때, 전력 값 Esrd는 신호의 RMS값으로, 총 전력의 이동 평균(moving average) 값(롱텀 시간 윈도우에 대한 평균 전력값)일 수 있다.
오디오 부호화 장치(800)는 높이 채널의 오디오 신호의 전력 값 Ehgt와 서라운드 채널의 오디오 신호의 전력 값 Esrd의 비율(Ehgt/Esrd)이 임계값 Thhgt2보다 큰 경우, 서라운드 채널로부터 높이 채널로의 믹싱을 위한 추가 가중치(제 1 가중치)를 식별할 수 있다.
오디오 부호화 장치(800)는 높이 채널의 오디오 신호의 전력 값 Ehgt와 서라운드 채널의 오디오 신호의 전력 값 Esrd의 비율(Ehgt/Esrd)이 임계값 Thhgt2보다 작거나 같은 경우, 서라운드 채널로부터 높이 채널로의 믹싱을 위한 추가 가중치(제 2 가중치)를 식별할 수 있다. 이때, 제 2 가중치는 0보다 큰 값이고, 제 1 가중치보다 큰 값을 가질 수 있다.
이상, 오디오 부호화 장치(800)는 높이 채널의 오디오 신호의 전력 값 Ehgt와 총 채널의 오디오 신호의 전력 값 Etotal의 비율을 임계값 Thhgt1을 비교하는 동작과 높이 채널의 오디오 신호의 전력 값 Ehgt와 서라운드 채널의 오디오 신호의 전력 값 Esrd의 비율과 임계값 Thhgt2를 비교하는 동작을 전술하였으나, 이에 제한되지 않고, 전력 값의 비율 대신 전력 값의 차이를 임계값과 비교하는 동작으로 대체하여 수행될 수 있다.
도 16은 일 실시예에 따른, 오디오 처리 방법의 흐름도를 도시한다
S1605 단계에서, 오디오 부호화 장치(800)는 적어도 하나의 프레임을 포함하는 오디오 신호의 채널 간의 상관성 및 딜레이를 기초로, 음원 객체의 움직임 및 방향을 확인할 수 있다.
S1610 단계에서, 오디오 부호화 장치(800)는 적어도 하나의 프레임을 포함하는 오디오 신호로부터 가우시안 혼합 모델 기반 객체 추정 확률 모델을 이용하여 음원 객체의 종류 및 특성을 확인할 수 있다.
S1615 단계에서, 오디오 부호화 장치(800)는 음원 객체의 움직임, 방향, 종류 및 특성 중 적어도 하나를 기초로, 서라운드 채널로부터 높이 채널로의 믹싱을 위한 추가 가중치 파라미터를 확인할 수 있다.
도 17a는 일 실시예에 따른, 오디오 처리 방법의 흐름도를 도시한다.
S1702 단계에서, 오디오 부호화 장치(700)는 원본 오디오 신호에 대한 오디오 씬 컨텐츠의 타입을 식별할 수 있다.
S1704 단계에서, 오디오 부호화 장치(700)는 식별된 오디오 씬 컨텐츠의 타입을 기초로, 원본 오디오 신호를 소정의 채널 레이아웃에 따라 다운믹싱할 수 있다.
S1706 단계에서, 오디오 부호화 장치(700)는 소정의 채널 레이아웃의 오디오 신호로부터 기본 채널 그룹의 적어도 하나의 오디오 신호 및 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 획득할 수 있다.
S1708 단계에서, 오디오 부호화 장치(700)는 기본 채널 그룹의 적어도 하나의 오디오 신호를 압축하여, 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 생성할 수 있다.
S1710 단계에서, 오디오 부호화 장치(700)는 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 압축하여, 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 생성할 수 있다.
S1712 단계에서, 오디오 부호화 장치(700)는 기본 채널 그룹의 적어도 하나의 압축 오디오 신호 및 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 포함하는 비트스트림을 생성할 수 있다. 오디오 부호화 장치(700)는 오디오 씬 컨텐츠의 타입에 관한 정보를 더 포함하는 비트스트림을 생성할 수 있다.
도 17b는 일 실시예에 따른, 오디오 처리 방법의 흐름도를 도시한다.
S1722 단계에서, 오디오 부호화 장치(800)는 원본 오디오 신호로부터 높이 채널의 에너지 값을 식별할 수 있다.
S1724 단계에서, 오디오 부호화 장치(800)는 원본 오디오 신호로부터 서라운드 채널의 에너지 값을 식별할 수 있다.
S1726 단계에서, 오디오 부호화 장치(800)는 식별된 높이 채널의 에너지 값 및 식별된 서라운드 채널의 에너지 값을 기초로, 서라운드 채널로부터 높이 채널로의 믹싱을 위한 추가 가중치를 식별할 수 있다.
S1728 단계에서, 오디오 부호화 장치(700)는 추가 가중치를 기초로, 원본 오디오 신호를 소정의 채널 레이아웃에 따라 다운믹싱할 수 있다.
S1730 단계에서, 오디오 부호화 장치(700)는 소정의 채널의 레이아웃의 오디오 신호로부터 기본 채널 그룹의 적어도 하나의 오디오 신호 및 적어도 하나의 종속 채널 그룹의 오디오 신호를 획득할 수 있다.
S1732 단계에서, 오디오 부호화 장치(700)는 기본 채널 그룹의 적어도 하나의 오디오 신호를 압축하여, 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 생성할 수 있다.
S1734 단계에서, 오디오 부호화 장치(700)는 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 압축하여, 적어도 하나의 종속 채널 그룹의 압축 오디오 신호를 생성할 수 있다.
S1736 단계에서, 오디오 부호화 장치(700)는 기본 채널 그룹의 적어도 하나의 압축 오디오 신호 및 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 포함하는 비트스트림을 생성할 수 있다. 오디오 부호화 장치(700)는 식별된 추가 가중치에 관한 정보를 더 포함하는 비트스트림을 생성할 수 있다. 구체적으로, 오디오 부호화 장치(700)는 믹싱을 위한 추가 가중치에 대응하는 추가 가중치인 디믹싱을 위한 가중치를 더 포함하는 비트스트림을 생성할 수 있다. 디믹싱을 위한 가중치는 높이 채널로부터 서라운드 채널로의 디믹싱을 위한 가중치일 수 있다.
도 17c 는 일 실시예에 따른, 오디오 처리 방법의 흐름도를 도시한다.
S1742 단계에서, 오디오 부호화 장치(700)는 적어도 하나의 프레임을 포함하는 오디오 신호에 대해 오디오 씬 타입을 확인할 수 있다.
S1744 단계에서, 오디오 부호화 장치(700)는 오디오 씬 타입에 대응하도록, 프레임 단위로, 다운믹싱 관련 정보롤 결정할 수 있다.
S1746 단계에서, 오디오 부호화 장치(700)는 프레임 단위로 결정된 다운믹싱 관련 정보를 이용하여 적어도 하나의 프레임을 포함하는 오디오 신호를 다운믹싱할 수 있다.
S1748 단계에서, 오디오 부호화 장치(700)는 다운믹싱된 오디오 신호 및 프레임 단위로 결정된 다운믹싱 관련 정보를 송신할 수 있다.
도 17d 는 일 실시예에 따른, 오디오 처리 방법의 흐름도를 도시한다.
S1752 단계에서, 오디오 부호화 장치(700)는 적어도 하나의 프레임을 포함하는 오디오 신호에 대해 오디오 씬 타입을 확인할 수 있다.
S1754 단계에서, 오디오 부호화 장치(700)는 오디오 씬 타입에 대응하도록, 프레임 단위로, 다운믹싱 관련 정보롤 결정할 수 있다.
S1756 단계에서, 오디오 부호화 장치(700)는 다운믹싱 관련 정보를 이용하여 적어도 하나의 프레임을 포함하는 오디오 신호를 다운믹싱할 수 있다.
S1758 단계에서, 오디오 부호화 장치(700)는 이전 프레임의 오디오 씬 타입과 현재 프레임의 오디오 씬 타입을 기초로, 이전 프레임의 오디오 씬 타입과 현재 프레임의 오디오 씬 타입이 동일한지 여부를 나타내는 플래그 정보를 생성할 수 있다.
일 실시예에 의하면, 이전 프레임의 오디오 씬 타입이 상기 현재 프레임의 오디오 씬 타입과 동일한 경우, 오디오 부호화 장치(700)는 이전 프레임의 오디오 씬 타입과 현재 프레임의 오디오 씬 타입이 동일함을 나타내는 플래그 정보를 생성할 수 있다.
이전 프레임의 오디오 씬 타입과 현재 프레임의 오디오 씬 타입이 동일하지 않은 경우, 오디오 부호화 장치(700)는 플래그 정보를 생성하지 않을 수 있다. 플래그 정보가 생성되지 않았으므로, 송신되지 않을 수 있다
다른 실시예에 의하면, 오디오 부호화 장치(700)는 이전 프레임의 오디오 씬 타입이 상기 현재 프레임의 오디오 씬 타입과 동일한 경우, 플래그 정보를 생성하지 않고, 플래그 정보가 생성되지 않았으므로, 송신되지 않을 수 있다.
이전 프레임의 오디오 씬 타입과 현재 프레임의 오디오 씬 타입이 동일하지 않은 경우, 오디오 부호화 장치(700)는 플래그 정보를 생성할 수 있다.
S1760 단계에서, 오디오 부호화 장치(700)는 다운믹싱된 오디오 신호, 플래그 정보 및 다운믹싱 관련 정보 중 적어도 하나를 송신할 수 있다.
일 실시예에 의하면, 이전 프레임의 오디오 씬 타입과 현재 프레임의 오디오 씬 타입이 동일한 경우, 오디오 부호화 장치(700)는 다운믹싱된 오디오 신호 및 이전 프레임의 오디오 씬 타입과 현재 프레임의 오디오 씬 타입과 동일함을 나타내는 플래그 정보를 송신할 수 있다. 이 경우, 현재 프레임에 대한 다운믹싱 관련 정보는 별도로 송신되지 않을 수 있다.
이전 프레임의 오디오 씬 타입과 현재 프레임의 오디오 씬 타입이 동일하지 않은 경우, 오디오 부호화 장치(700)는 다운믹싱된 오디오 신호 및 현재 프레임에 대한 다운믹싱 관련 정보를 송신할 수 있다 플래그 정보는 별도로 송신되지 않을 수 있다.
대체적으로, 이전 프레임의 오디오 씬 타입과 현재 프레임의 오디오 씬 타입이 동일한 경우, 플래그 정보 및 현재 프레임에 대한 다운믹싱 관련 정보는 송신되지 않을 수 있다.
이전 프레임의 오디오 씬 타입과 현재 프레임의 오디오 씬 타입이 동일하지 않은 경우, 플래그 정보 및 현재 프레임에 대한 다운믹싱 관련 정보는 송신될 수 있다.
다만 플래그 정보를 선택적으로 송신하는 것에 제한되지 않고, 오디오 부호화 장치(700)는 이전 프레임의 오디오 씬 타입과 현재 프레임의 오디오 씬 타입이 동일한지 여부에 관계없이 플래그 정보를 송신할 수 있다.
한편, 프레임보다 상위 데이터 단위에 포함된 프레임들의 오디오 씬 타입이 동일한 경우, 상위 데이터 단위에 대하여, 플래그 정보가 생성되고 송신될 수 있다. 이 경우, 프레임마다 다운믹싱 관련 정보가 송신되지 않고, 상위 데이터 단위의 다운믹싱 관련 정보가 송신될 수 있다.
도 18a는 일 실시예에 따른, 오디오 처리 방법의 흐름도를 도시한다.
S1802 단계에서, 오디오 복호화 장치(900)는 비트스트림으로부터 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 획득할 수 있다.
S1804 단계에서, 오디오 복호화 장치(900)는 비트스트림으로부터 적어도 하나의 종속 채널 그룹(Dependent channel group)의 적어도 하나의 압축 오디오 신호를 획득할 수 있다.
S1806 단계에서, 오디오 복호화 장치(900)는 비트스트림으로부터, 오디오 씬 컨텐츠의 타입을 나타내는 정보를 획득할 수 있다.
S1808 단계에서, 오디오 복호화 장치(900)는 비트스트림으로부터 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 압축 해제하여 기본 채널 그룹의 오디오 신호를 복원할 수 있다.
S1810 단계에서, 오디오 복호화 장치(900)는 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 압축 해제하여 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 복원할 수 있다.
S1812 단계에서, 오디오 복호화 장치(900)는 오디오 씬 컨텐츠의 타입에 대응하는 적어도 하나의 다운믹싱 가중치 파라미터를 식별할 수 있다.
S1814 단계에서, 오디오 복호화 장치(900)는 기본 채널 그룹의 적어도 하나의 오디오 신호 및 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 기초로, 적어도 하나의 다운믹싱 가중치 파라미터를 이용하여, 업믹스 채널 그룹의 오디오 신호를 생성할 수 있다.
도 18b는 일 실시예에 따른, 오디오 처리 방법의 흐름도를 도시한다.
S1822 단계에서, 오디오 복호화 장치(1000)는 비트스트림으로부터 기본 채널 그룹(Base channel group)의 적어도 하나의 압축 오디오 신호를 획득할 수 있다.
S1824 단계에서, 오디오 복호화 장치(1000)는 비트스트림으로부터 적어도 하나의 종속 채널 그룹(Dependent channel group)의 적어도 하나의 압축 오디오 신호를 획득할 수 있다.
S1826 단계에서, 오디오 복호화 장치(1000)는 비트스트림으로부터 높이 채널로부터 서라운도 채널로의 디믹싱을 위한 추가 가중치에 관한 정보를 획득할 수 있다.
S1828 단계에서, 오디오 복호화 장치(1000)는 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 압축 해제(decompression)하여 기본 채널 그룹의 오디오 신호를 복원할 수 있다.
S1830 단계에서, 오디오 복호화 장치(1000)는 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 압축 해제하여, 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 복원할 수 있다.
S1832 단계에서, 오디오 복호화 장치(1000)는 기본 채널 그룹의 적어도 하나의 오디오 신호 및 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 기초로, 적어도 하나의 다운믹싱 가중치 파라미터 및 추가 가중치에 관한 정보를 이용하여, 업믹스 채널 그룹의 오디오 신호를 생성할 수 있다.
도 18c는 일 실시예에 따른, 오디오 처리 방법의 흐름도를 도시한다.
S1842 단계에서, 오디오 복호화 장치(900)는 비트스트림으로부터 다운믹싱된 오디오 신호를 획득할 수 있다.
S1844 단계에서, 오디오 복호화 장치(900)는 비트스트림으로부터, 다운믹싱 관련 정보를 획득할 수 있다. 다운믹싱 관련 정보는 오디오 씬 타입을 이용하여, 프레임 단위로 생성된 정보일 수 있다.
S1846 단계에서, 오디오 복호화 장치(900)는 프레임 단위로 생성된 다운믹싱 관련 정보를 이용하여, 다운믹싱된 오디오 신호를 디믹싱할 수 있다.
S1848 단계에서, 오디오 복호화 장치(900)는 디믹싱된 오디오 신호를 기초로, 적어도 하나의 프레임을 포함하는 오디오 신호를 복원할 수 있다.
도 18d 는 일 실시예에 따른, 오디오 처리 방법의 흐름도를 도시한다.
S1852 단계에서, 오디오 복호화 장치(900)는 비트스트림으로부터, 다운믹싱된 오디오 신호를 획득할 수 있다.
S1854 단계에서, 오디오 복호화 장치(900)는 비트스트림으로부터, 이전 프레임의 오디오 씬 타입과 현재 프레임의 오디오 씬 타입이 동일한지 여부를 나타내는 플래그 정보를 획득할 수 있다. 오디오 복호화 장치(900)는 경우에 따라, 비트스트림으로부터 플래그 정보를 획득하지 않고, 플래그 정보를 유도할 수 있다.
S1856 단계에서, 오디오 복호화 장치(900)는 플래그 정보를 기초로, 현재 프레임의 다운믹싱 관련 정보를 획득할 수 있다.
예를 들어, 플래그 정보가 이전 프레임의 오디오 씬 타입이 상기 현재 프레임의 오디오 씬 타입과 동일함을 나타내는 경우, 오디오 복호화 장치(900)는 이전 프레임에 대한 다운믹싱 관련 정보를 기초로, 현재 프레임에 대한 다운믹싱 관련 정보를 획득할 수 있다. 오디오 복호화 장치(900)는 비트스트림으로부터 현재 프레임에 대한 다운믹싱 관련 정보를 획득하지 않을 수 있다.
플래그 정보가 이전 프레임의 오디오 씬 타입이 상기 현재 프레임의 오디오 씬 타입과 동일하지 않음을 나타내는 경우, 오디오 복호화 장치(900)는 비트스트림으로부터 현재 프레임에 대한 다운믹싱 관련 정보를 획득할 수 있다.
S1858 단계에서, 오디오 복호화 장치(900)는 현재 프레임의 다운믹싱 관련 정보를 이용하여, 다운믹싱된 오디오 신호를 디믹싱할 수 있다.
S1860 단계에서, 오디오 복호화 장치(900)는 디믹싱된 오디오 신호를 기초로, 적어도 하나의 프레임을 포함하는 오디오 신호를 복원할 수 있다.
이상, 오디오 복호화 장치(900,1000)는 프레임 단위로 생성된 다운믹싱 관련 정보를 이용하여, 다운믹싱된 오디오 신호를 디믹싱하는 동작을 설명하였으나, 출력 채널 레이아웃(예를 들어, 5.1.2 채널 레이아웃, 3.1.2 채널 레이아웃 또는 바이노럴(Binaural) 2채널 레이아웃)의 오디오 신호보다 상위 채널 레이아웃(예를 들어, 7.1.4 채널 레이아웃)의 오디오 신호가 복원될 수 있다. 즉, 디믹싱을 통해 출력 레이아웃의 오디오 신호가 복원될 수 없는 경우가 있다.
이 경우, 오디오 복호화 장치(900,1000)는 프레임 단위로 생성된 다운믹싱 관련 정보를 이용하여, 복원된 상위 채널 레이아웃의 오디오 신호를 다운믹싱하여 출력 채널 레이아웃의 오디오 신호를 복원할 수 있다. 결국, 오디오 부호화 장치(700,800)에서 송신된 다운믹싱 관련 정보는 오디오 복호화 장치(800,900)의 디믹싱 동작에서 이용되는 것에 제한되지 않고, 경우에 따라 다운믹싱 동작에서도 이용될 수 있다.
다만, 프레임 단위로 플래그 정보를 전송하는 것에 제한되지 않고, k(k는 1보다 큰 정수)의 프레임을 포함하는 상위 오디오 데이터 단위(예를 들어, 파라미터 샘플링 단위)에 대하여, 다운믹싱 관련 정보가 시그널링될 수 있다. 이 경우, 상위 오디오 데이터 단위의 크기에 관한 정보 및 상위 오디오 데이터 단위로부터 획득된 다운믹싱 관련 정보가 비트스트림을 통해 시그널링될 수 있다. 상위 오디오 데이터 단위의 크기에 관한 정보는 k 값에 관한 정보일 수 있다.
상위 오디오 데이터 단위에서 다운믹싱 관련 정보가 획득되면, 상위 데이터 단위에 포함된 프레임 단위로 다운믹싱 관련 정보가 획득되지 않을 수 있다. 예를 들어, 상위 오디오 데이터 단위에 포함된 첫번째 프레임에서 다운믹싱 관련 정보가 획득되고, 상위 오디오 데이터 단위의 첫번째 이후의 프레임에서 다운믹싱 관련 정보가 획득되지 않을 수 있다.
한편, 상위 오디오 데이터 단위의 첫번째 프레임 이후의 프레임에서, 플래그가 획득될 수 있다.
플래그를 기초로, 이전 프레임과 현재 프레임의 오디오 씬 타입이 동일하지 않다고 식별된 경우, 추가적으로, 다운믹싱 관련 정보가 획득될 수 있다. 상위 오디오 데이터 단위 내 플래그를 획득한 프레임 이후의 프레임에서는, 플래그를 통해 업데이트된 다운믹싱 관련 정보가 이용될 수 있다.
한편, 이전 프레임과 현재 프레임의 오디오 씬 타입이 동일한 경우, 현재 프레임에 대한 플래그는 획득되지 않고, 이전에 획득된 다운믹싱 권련 정보가 이용될 수 있다.
본 발명의 일 실시예에 의하면, 오디오 씬 타입에 따라 적합한 다운믹싱 또는 업믹싱 처리를 통하여, 원본 음향 효과를 유지할 수 있다.
본 발명의 다른 실시예에 의하면, 서라운드 채널의 오디오와 높이 채널의 오디오를 대 화면에서 잘 표현될 수 있도록, 다이나믹하게 오디오 신호를 믹싱할 수 있다. 즉, 재생되는 오디오가 서라운드에 집중되는 경우, 서라운드 채널(Ls,Rs)의 오디오 신호를 L/R 채널뿐 아니라, 높이 채널에도 배분하여 서라운드 효과가 극대화될 수 있다. 또는, 서라운드 채널(Ls,Rs)의 오디오 신호를 L/R 채널에 믹싱하고, 높이 채널에 믹싱하지 않음으로써, 수평 사운드와 수직 사운드를 구분하여, 서라운드 효과와 높이 효과를 동시에 균형감있게 표현할 수 있다.
한편, 상술한 본 개시의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램 또는 인스트럭션으로 작성가능하고, 작성된 프로그램 또는 인스트럭션은 저장매체에 저장될 수 있다.
기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
한편, 상술한 신경망과 관련된 모델은, 소프트웨어 모듈로 구현될 수 있다. 소프트웨어 모듈(예를 들어, 명령어(instruction)를 포함하는 프로그램 모듈)로 구현되는 경우, 신경망 모델은 컴퓨터로 읽을 수 있는 판독 가능한 기록매체에 저장될 수 있다.
또한, 신경망 모델은 하드웨어 칩 형태로 집적되어 전술한 장치의 일부가 될 수도 있다. 예를 들어, 신경망 모델은 인공 지능을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예를 들어, CPU 또는 애플리케이션 프로세서) 또는 그래픽 전용 프로세서(예를 들어, GPU)의 일부로 제작될 수도 있다.
또한, 신경망 모델은 다운로드 가능한 소프트웨어 형태로 제공될 수도 있다. 컴퓨터 프로그램 제품은 제조사 또는 전자 마켓을 통해 전자적으로 배포되는 소프트웨어 프로그램 형태의 상품(예를 들어, 다운로드 가능한 애플리케이션)을 포함할 수 있다. 전자적 배포를 위하여, 소프트웨어 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사 또는 전자 마켓의 서버, 또는 중계 서버의 저장매체가 될 수 있다.
이상, 본 개시의 기술적 사상을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 개시의 기술적 사상은 상기 실시예들에 한정되지 않고, 본 개시의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형 및 변경이 가능하다.

Claims (19)

  1. 적어도 하나의 프레임을 포함하는 오디오 신호에 대해 오디오 씬 타입(audio scene type)을 확인(identify)하는 단계;
    상기 오디오 씬 타입에 대응하도록, 프레임 단위로, 다운믹싱(down-mix) 관련 정보를 결정하는 단계;
    상기 프레임 단위로 결정된 다운믹싱 관련 정보를 이용하여, 상기 적어도 하나의 프레임을 포함하는 오디오 신호를 다운믹싱하는 단계; 및
    상기 다운믹싱된 오디오 신호 및 상기 프레임 단위로 결정된 다운믹싱 관련 정보를 송신하는 단계를 포함한, 오디오 처리 방법.
  2. 제 1 항에 있어서,
    상기 오디오 씬 타입을 확인하는 단계는,
    상기 적어도 하나의 프레임을 포함하는 오디오 신호로부터 센터 채널(center channel)의 오디오 신호를 획득하는 단계;
    상기 획득된 센터 채널의 오디오 신호로부터 대화 타입을 확인(identify)하는 단계;
    상기 적어도 하나의 프레임을 포함하는 신호로부터 프론트 채널(front channel)의 오디오 신호 및 사이드 채널(side channel)의 오디오 신호를 획득하는 단계;
    상기 프론트 채널의 오디오 신호 및 사이드 채널의 오디오 신호를 기초로, 효과음 타입을 확인하는 단계; 및
    상기 확인된 대화 타입 및 상기 확인된 효과음 타입 중 적어도 하나를 기초로, 상기 오디오 씬 타입을 확인하는 단계를 포함하는 것을 특징으로 하는, 오디오 처리 방법.
  3. 제 2 항에 있어서,
    상기 대화 타입을 확인하는 단계는,
    상기 대화 타입을 확인하기 위한 제 1 뉴럴 네트워크를 이용하여 상기 대화 타입을 확인하는 단계를 포함하고,
    상기 대화 타입을 확인하기 위한 제 1 뉴럴 네트워크를 이용하여 상기 대화 타입을 확인하는 단계는,
    상기 제 1 뉴럴 네트워크를 이용하여 확인된 대화 타입의 확률값이 제 1 대화 타입에 대한 소정의 제 1 확률값보다 큰 경우, 상기 대화 타입을 제 1 대화 타입으로 확인하는 단계; 및
    상기 제 1 뉴럴 네트워크를 이용하여 확인된 대화 타입의 확률값이 상기 소정의 제 1 확률값보다 작거나 같은 경우, 상기 대화 타입을 디폴트 타입으로 확인하는 단계;를 포함하는 것을 특징으로 하는 오디오 처리 방법.
  4. 제 3 항에 있어서,
    상기 효과음 타입을 확인하는 단계는,
    상기 효과음 타입을 확인하기 위한 제 2 뉴럴 네트워크를 이용하여 효과음 타입을 확인하는 단계를 포함하고,
    상기 효과음 타입을 확인하기 위한 제 2 뉴럴 네트워크를 이용하여 효과음 타입을 확인하는 단계는,
    상기 제 2 뉴럴 네트워크를 이용하여 확인된 효과음 타입의 확률값이 제 1 효과음 타입에 대한 소정의 제 2 확률값보다 큰 경우, 상기 효과음 타입을 제 1 효과음 타입으로 확인하는 단계; 및
    상기 제 2 뉴럴 네트워크를 이용하여 확인된 효과음 타입의 확률값이 상기 소정의 제 2 확률값보다 작거나 같은 경우, 상기 효과음 타입을 디폴트 타입으로 확인하는 단계를 포함하는 것을 특징으로 하는 오디오 처리 방법.
  5. 제 2 항에 있어서,
    상기 확인된 대화 타입 및 상기 확인된 효과음 타입 중 적어도 하나를 기초로, 상기 오디오 씬 타입을 확인하는 단계는,
    상기 대화 타입이 제 1 대화 타입인 경우, 상기 오디오 씬 타입을 제 1 대화 타입으로 확인하는 단계;
    상기 효과음 타입이 제 1 효과음 타입인 경우, 상기 오디오 씬 타입을 제 1 효과음 타입으로 확인하는 단계; 및
    상기 대화 타입이 디폴트 타입이고, 상기 효과음 타입이 디폴트 타입인 경우, 상기 오디오 씬 타입을 디폴트 타입으로 확인하는 단계를 포함하는 것을 특징으로 하는 오디오 처리 방법.
  6. 제 1 항에 있어서,
    상기 송신된 다운믹싱 관련 정보는 복수의 오디오 씬 타입 중 하나를 나타내는 인덱스 정보를 포함하는 것을 특징으로 하는, 오디오 처리 방법.
  7. 제 1 항에 있어서,
    상기 오디오 처리 방법은,
    음원 객체를 감지하는 단계; 및
    상기 감지된 음원 객체의 정보를 기초로, 서라운드 채널로부터 높이 채널로의 믹싱(mixing)을 위한 추가 가중치 파라미터를 확인하는 단계;를 더 포함하고,
    상기 다운믹싱 관련 정보는 상기 추가 가중치 파라미터를 더 포함하는 것을 특징으로 하는, 오디오 처리 방법.
  8. 제 1 항에 있어서,
    상기 적어도 하나의 프레임을 포함하는 오디오 신호로부터 높이 채널의 오디오 신호의 에너지 값을 확인하는 단계;
    상기 적어도 하나의 프레임을 오디오 신호로부터 서라운드 채널의 오디오 신호의 에너지 값을 확인하는 단계; 및
    상기 확인된 높이 채널의 오디오 신호의 에너지 값 및 상기 확인된 서라운드 채널의 오디오 신호의 에너지 값을 기초로, 상기 서라운드 채널로부터 상기 높이 채널로의 믹싱을 위한 추가 가중치 파라미터를 확인하는 단계를 더 포함하고,
    상기 다운믹싱 관련 정보는 상기 추가 가중치 파라미터를 더 포함하는 것을 특징으로 하는 오디오 처리 방법.
  9. 제 8 항에 있어서,
    상기 서라운드 채널로부터 상기 높이 채널로의 믹싱을 위한 추가 가중치 파라미터를 확인하는 단계는,
    상기 높이 채널의 오디오 신호의 에너지 값이 소정의 제 1 값보다 크고, 상기 높이 채널의 오디오 신호의 에너지 값과 서라운드 채널의 오디오 신호의 에너지 값의 비율이 소정의 제 2 값보다 큰 경우, 상기 추가 가중치 파라미터를 제 1 값으로 확인하는 단계; 및
    상기 높이 채널의 오디오 신호의 에너지 값이 소정의 제 1 값보다 작거나 같거나, 상기 비율이 소정의 제 2 값보다 작거나 같은 경우, 상기 추가 가중치 파라미터를 제 2 값으로 확인하는 단계를 포함하는 것을 특징을 하는 오디오 처리 방법.
  10. 제 8 항에 있어서,
    상기 서라운드 채널로부터 상기 높이 채널로의 믹싱을 위한 추가 가중치 파라미터를 확인하는 단계는,
    오디오 컨텐츠 내 가중치 목표 비율을 기초로, 상기 적어도 하나의 프레임을 포함하는 오디오 신호의 적어도 하나의 시간 구간에 대한 가중치의 레벨을 확인하는 단계; 및
    상기 가중치의 레벨에 대응하는 추가 가중치 파라미터를 확인하는 단계를 포함하고,
    제 1 시간 구간과 제 2 시간 구간의 경계 구간의 가중치는 상기 제 1 시간 구간에서 경계 구간을 제외한 나머지 구간의 가중치와 상기 제 2 시간 구간에 경계 구간을 제외한 나머지 구간의 가중치 사이의 값인 것을 특징으로 하는 오디오 처리 방법.
  11. 제 1 항에 있어서,
    상기 다운믹싱하는 단계는,
    상기 오디오 씬 타입에 대응하는 다운믹싱 프로파일을 확인하는 단계;
    상기 다운믹싱 프로파일에 따라, 적어도 하나의 제 1 채널의 오디오 신호로부터 제 2 채널의 오디오 신호로의 믹싱을 위한 다운믹싱 가중치 파라미터를 획득하는 단계; 및
    상기 획득된 다운믹싱 가중치 파라미터를 기초로, 상기 적어도 하나의 프레임을 포함하는 오디오 신호를 다운믹싱하는 단계를 포함하고,
    상기 오디오 씬 타입에 대응하는 다운믹싱 가중치 파라미터는 미리 결정된 것을 특징으로 하는 오디오 처리 방법.
  12. 제 7 항에 있어서,
    상기 음원 객체를 감지하는 단계는,
    상기 적어도 하나의 프레임을 포함하는 오디오 신호의 채널 간의 상관성 및 딜레이를 기초로, 상기 음원 객체의 움직임 및 방향을 확인하는 단계: 및
    상기 적어도 하나의 프레임을 포함하는 오디오 신호로부터 가우시안 혼합 모델 기반 객체 추정 확률 모델을 이용하여 상기 음원 객체의 종류 및 특성을 확인하는 단계를 포함하고,
    상기 감지된 음원 객체의 정보는 상기 음원 객체의 움직임, 방향, 종류 및 특성 중 적어도 하나에 관한 정보를 포함하고,
    상기 추가 가중치 파라미터를 확인하는 단계는,
    상기 음원 객체의 움직임, 방향, 종류 및 특성 중 적어도 하나를 기초로, 서라운드 채널로부터 높이 채널로의 믹싱을 위한 추가 가중치 파라미터를 확인하는 단계를 포함하는 것을 특징으로 하는 오디오 처리 방법.
  13. 비트스트림으로부터 다운믹싱된 오디오 신호를 획득하는 단계;
    상기 비트스트림으로부터, 다운믹싱 관련 정보를 획득하는 단계, 상기 다운믹싱 관련 정보는 오디오 씬 타입을 이용하여, 프레임 단위로 생성된 정보이고;
    상기 프레임 단위로 생성된 다운믹싱 관련 정보를 이용하여, 상기 다운믹싱된 오디오 신호를 디믹싱하는 단계; 및
    상기 디믹싱된 오디오 신호를 기초로, 적어도 하나의 프레임을 포함하는 오디오 신호를 복원하는 단계를 포함하는, 오디오 처리 방법.
  14. 제 13 항에 있어서,
    상기 오디오 씬 타입은 대화 타입 및 효과음 타입 중 적어도 하나를 기초로 확인된 타입인 것을 특징으로 하는 오디오 처리 방법.
  15. 제 14 항에 있어서,
    상기 적어도 하나의 프레임을 포함하는 오디오 신호는 업믹스 채널 그룹의 오디오 신호를 포함하고,
    상기 업믹스 채널 그룹의 오디오 신호는 적어도 하나의 업믹스 채널의 오디오 신호를 포함하고,
    상기 적어도 하나의 업믹스 채널의 오디오 신호는 적어도 하나의 제 1 채널의 오디오 신호로부터의 디믹싱을 통해 획득된 제 2 채널의 오디오 신호인 것을 특징으로 하는 오디오 처리 방법.
  16. 제 13 항에 있어서,
    상기 다운믹싱 관련 정보는 높이 채널로부터 서라운드 채널로의 디믹싱을 위한 추가 가중치 파라미터에 관한 정보를 더 포함하고,
    상기 적어도 하나의 프레임을 포함하는 오디오 신호를 복원하는 단계는,
    다운믹싱 가중치 파라미터 및 상기 추가 가중치 파라미터에 관한 정보를 이용하여, 상기 적어도 하나의 프레임을 포함하는 오디오 신호를 복원하는 단계를 포함하는 것을 특징으로 하는 오디오 처리 방법.
  17. 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는, 적어도 하나의 프레임을 포함하는 오디오 신호에 대해 오디오 씬 타입(audio scene type)을 확인(identify)하고,
    상기 오디오 씬 타입에 대응하도록, 프레임 단위로, 다운믹싱(down-mix) 관련 정보를 결정하고,
    상기 프레임 단위로 결정된 다운믹싱 관련 정보를 이용하여, 상기 적어도 하나의 프레임을 포함하는 오디오 신호를 다운믹싱하고,
    상기 다운믹싱된 오디오 신호 및 상기 프레임 단위로 결정된 다운믹싱 관련 정보를 송신하는, 오디오 처리 장치.
  18. 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는,
    비트스트림으로부터 다운믹싱된 오디오 신호를 획득하고;
    상기 비트스트림으로부터, 다운믹싱 관련 정보를 획득하고, 상기 다운믹싱 관련 정보는 오디오 씬 타입을 이용하여, 프레임 단위로 생성된 정보이고;
    상기 프레임 단위로 생성된 다운믹싱 관련 정보를 이용하여, 상기 다운믹싱된 오디오 신호를 디믹싱하고;
    상기 디믹싱된 오디오 신호를 기초로, 적어도 하나의 프레임을 포함하는 오디오 신호를 복원하는, 오디오 처리 장치.
  19. 제 1 항의 오디오 처리 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체.
KR1020210140581A 2021-05-21 2021-10-20 다채널 오디오 신호 처리 장치 및 방법 KR20220157848A (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202280035900.2A CN117321680A (zh) 2021-05-21 2022-05-16 用于处理多声道音频信号的装置和方法
EP22804931.8A EP4310839A4 (en) 2021-05-21 2022-05-16 DEVICE AND METHOD FOR PROCESSING A MULTI-CHANNEL AUDIO SIGNAL
PCT/KR2022/006983 WO2022245076A1 (ko) 2021-05-21 2022-05-16 다채널 오디오 신호 처리 장치 및 방법
US17/749,840 US20220386055A1 (en) 2021-05-21 2022-05-20 Apparatus and method for processing multi-channel audio signal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210065662 2021-05-21
KR1020210065662 2021-05-21

Publications (1)

Publication Number Publication Date
KR20220157848A true KR20220157848A (ko) 2022-11-29

Family

ID=84235194

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210140581A KR20220157848A (ko) 2021-05-21 2021-10-20 다채널 오디오 신호 처리 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20220157848A (ko)

Similar Documents

Publication Publication Date Title
TWI645723B (zh) 用於解壓縮經壓縮之音訊資料之方法及器件及其非暫時性電腦可讀儲存媒體
US8379868B2 (en) Spatial audio coding based on universal spatial cues
US9761229B2 (en) Systems, methods, apparatus, and computer-readable media for audio object clustering
US9058803B2 (en) Multichannel audio stream compression
US9516446B2 (en) Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US10412522B2 (en) Inserting audio channels into descriptions of soundfields
CN108141689B (zh) 从基于对象的音频转换到hoa
JP2022543083A (ja) Ivasビットストリームの符号化および復号化
US20210250717A1 (en) Spatial audio Capture, Transmission and Reproduction
US20190392846A1 (en) Demixing data for backward compatible rendering of higher order ambisonic audio
US20220286799A1 (en) Apparatus and method for processing multi-channel audio signal
TW202107450A (zh) 用於心理聲學之音訊寫碼的使基於場景的音訊資料關聯
JP6686015B2 (ja) オーディオ信号のパラメトリック混合
US20230360665A1 (en) Method and apparatus for processing audio for scene classification
EP3987516B1 (en) Coding scaled spatial components
EP3869826A1 (en) Signal processing device and method, and program
US20240153512A1 (en) Audio codec with adaptive gain control of downmixed signals
KR20220107913A (ko) 다채널 오디오 신호 처리 장치 및 방법
KR20240001226A (ko) 3차원 오디오 신호 코딩 방법, 장치, 및 인코더
KR20220157848A (ko) 다채널 오디오 신호 처리 장치 및 방법
EP4310839A1 (en) Apparatus and method for processing multi-channel audio signal
KR20230157225A (ko) 장면 분류를 위한 오디오 처리 방법 및 장치
CN117321680A (zh) 用于处理多声道音频信号的装置和方法
KR20230153226A (ko) 다채널 오디오 신호 처리 장치 및 방법
US20220246158A1 (en) Apparatus and method for processing audio