KR102128281B1 - 앰비소닉 신호를 사용하는 오디오 신호 처리 방법 및 장치 - Google Patents

앰비소닉 신호를 사용하는 오디오 신호 처리 방법 및 장치 Download PDF

Info

Publication number
KR102128281B1
KR102128281B1 KR1020187033032A KR20187033032A KR102128281B1 KR 102128281 B1 KR102128281 B1 KR 102128281B1 KR 1020187033032 A KR1020187033032 A KR 1020187033032A KR 20187033032 A KR20187033032 A KR 20187033032A KR 102128281 B1 KR102128281 B1 KR 102128281B1
Authority
KR
South Korea
Prior art keywords
signal
audio signal
channel
ambisonic
filter
Prior art date
Application number
KR1020187033032A
Other languages
English (en)
Other versions
KR20190019915A (ko
Inventor
서정훈
전상배
Original Assignee
가우디오랩 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가우디오랩 주식회사 filed Critical 가우디오랩 주식회사
Publication of KR20190019915A publication Critical patent/KR20190019915A/ko
Application granted granted Critical
Publication of KR102128281B1 publication Critical patent/KR102128281B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Stereophonic System (AREA)

Abstract

입력 오디오 신호를 렌더링하는 오디오 신호 처리 장치가 개시된다. 오디오 신호 처리 장치는 앰비소닉(ambisonics) 신호 및 논-디제틱(non-diegetic) 채널 차분신호를 포함하는 입력 오디오 신호를 획득하고, 상기 앰비소닉 신호를 렌더링하여 제1 출력 오디오 신호를 생성하고, 상기 제1 출력 오디오 신호와 상기 논-디제틱 채널 차분신호를 믹싱하여 제2 출력 오디오 신호를 생성하고, 상기 제2 출력 오디오 신호를 출력하는 프로세서를 포함할 수 있다.

Description

앰비소닉 신호를 사용하는 오디오 신호 처리 방법 및 장치
본 개시는 오디오 신호 처리 방법 및 장치에 관한 것으로서, 더욱 상세하게는 HMD(Head Mounted Display) 기기를 비롯한 휴대 기기를 위한 몰입형(immersive) 사운드를 제공하는 오디오 신호 처리 방법 및 장치에 관한 것이다.
HMD(Head Mounted Display) 기기에서 이머시브(immersive) 및 인터렉티브(interactive) 오디오를 제공하기 위해서 바이노럴 렌더링(binaural rendering) 기술이 필수적으로 요구된다. 가상 현실(virtual reality, VR)에 대응하는 공간 음향을 재현하는 기술은 가상 현실의 현실감을 높이고 VR 기기 사용자가 완전한 몰입감을 느끼기 위해서 중요한 요소이다. 가상 현실에서 공간 음향을 재현하기 위해 렌더링되는 오디오 신호는 디제틱(diegetic) 오디오 신호와 논-디제틱(non-diegetic) 오디오 신호로 구별될 수 있다. 여기에서, 디제틱 오디오 신호는 사용자의 머리 방향(head orientation) 및 위치에 관한 정보를 사용하여 인터랙티브(interactive)하게 렌더링되는 오디오 신호일 수 있다. 또한, 논-디제틱 오디오 신호는 방향성이 중요하지 않거나 음상의 위치에 비해 음질에 따른 음향 효과가 더 중요한 오디오 신호일 수 있다.
한편, 연산량 및 전력 소모의 제약이 따르는 모바일 디바이스에서 렌더링의 대상 객체(object) 또는 채널의 증가로 인한 연산량 및 전력 소모의 부담이 발생할 수 있다. 또한, 현재 멀티미디어 서비스 시장에서 제공하는 대다수의 단말 및 재생 소프트웨어에서 지원하는 디코딩 가능한 오디오 포맷의 인코딩 스트림 개수는 제한될 수 있다. 이 경우, 단말은 논-디제틱 오디오 신호를 디제틱 오디오 신호와 별도로 수신하여 사용자에게 제공할 수 있다. 또는 단말은 논-디제틱 오디오 신호가 생략된 멀티미디어 서비스를 사용자에게 제공할 수도 있다. 이에 따라, 디제틱 오디오 신호 및 논-디제틱 오디오 신호를 처리하는 효율을 향상시키기 위한 기술이 요구된다.
본 개시의 일 실시예는 현실감 있는 공간 음향을 재현하기 위해 요구되는 다양한 특성의 오디오 신호를 효율적으로 전달하는 것을 목적으로 한다. 또한, 본 개시의 일 실시예는 논-디제틱 채널 오디오 신호를 포함하는 오디오 신호를 인코딩 스트림의 개수가 제한된 오디오 포맷을 통해 디제틱 효과 및 논-디제틱 효과를 재현하는 오디오 신호를 전송하는 것을 목적으로 한다.
본 개시의 일 실시예에 따라 출력 오디오 신호를 생성하는 오디오 신호 처리 장치는, 제1 앰비소닉(ambisonics) 신호 및 논-디제틱(non-diegetic) 채널 신호를 포함하는 입력 오디오 신호를 획득하고, 상기 논-디제틱 채널 신호를 기초로 상기 제1 앰비소닉 신호의 앰비소닉 포맷이 포함하는 복수의 신호성분 중에서 기 설정된 신호성분에 대응하는 신호만을 포함하는 제2 앰비소닉 신호를 생성하고, 상기 제2 앰비소닉 신호를 상기 제1 앰비소닉 신호와 신호성분 별로 합성한 제3 앰비소닉 신호를 포함하는 출력 오디오 신호를 생성하는 프로세서를 포함할 수 있다. 이때, 상기 논-디제틱 채널 신호는, 청취자를 기준으로 고정된 오디오 장면(audio scene)을 구성하는 오디오 신호를 나타낼 수 있다.
또한, 상기 기 설정된 신호성분은 앰비소닉 신호가 수집된 지점에서 음장(sound field)의 음향 압력(sound pressure)을 나타내는 신호성분일 수 있다.
상기 프로세서는 상기 논-디제틱 채널 신호를 제1 필터로 필터링하여 상기 제2 앰비소닉 신호를 생성할 수 있다. 이때, 상기 제1 필터는 상기 제3 앰비소닉 신호를 수신한 출력 장치에서 상기 제3 앰비소닉 신호를 출력 오디오 신호로 바이노럴 렌더링하는 제2 필터의 인버스 필터일 수 있다.
상기 프로세서는 상기 출력 오디오 신호가 시뮬레이션되는 가상의 공간에 배치된 복수의 가상 채널에 관한 정보를 획득하고, 상기 복수의 가상 채널에 관한 정보를 기초로 상기 제1 필터를 생성할 수 있다. 이때, 상기 복수의 가상 채널에 관한 정보는 상기 제3 앰비소닉 신호를 렌더링하는데 사용되는 복수의 가상 채널일 수 있다.
상기 복수의 가상 채널에 관한 정보는 상기 복수의 가상 채널 각각의 위치를 나타내는 위치정보를 포함할 수 있다. 이때, 상기 프로세서는 상기 위치정보를 기초로 상기 복수의 가상 채널 각각의 위치에 대응하는 복수의 바이노럴 필터를 획득하고, 상기 복수의 바이노럴 필터를 기초로 상기 제1 필터를 생성할 수 있다.
상기 프로세서는 상기 복수의 바이노럴 필터가 포함하는 필터 계수의 합을 기초로 상기 제1 필터를 생성할 수 있다.
상기 프로세서는, 상기 필터 계수의 합을 인버스 연산한 결과 및 상기 복수의 가상 채널의 개수를 기초로 상기 제1 필터를 생성할 수 있다.
상기 제2 필터는 앰비소닉 신호가 포함하는 신호성분 각각에 대응하는 복수의 신호성분 별 바이노럴 필터를 포함할 수 있다. 또한, 상기 제1 필터는 상기 복수의 신호성분 별 바이노럴 필터 중 상기 기 설정된 신호성분에 대응하는 바이노럴 필터의 인버스 필터일 수 있다. 상기 제1 필터의 주파수 응답은 주파수 영역에서 크기 값(magnitude)이 일정한 응답일 수 있다.
상기 논-디제틱 채널 신호는 제1 채널 신호 및 제2 채널 신호로 구성된 2-채널 신호일 수 있다. 이 경우, 상기 프로세서는 상기 제1 채널 신호 및 상기 제2 채널 신호 사이의 차분신호를 생성하고, 상기 차분신호 및 상기 제3 앰비소닉 신호를 포함하는 상기 출력 오디오 신호를 생성할 수 있다.
상기 프로세서는 상기 제1 채널 신호 및 상기 제2 채널 신호를 시간영역에서 합성한 신호를 기초로 상기 제2 앰비소닉 신호를 생성할 수 있다.
상기 제1 채널 신호 및 상기 제 2 채널 신호는 상기 출력 오디오 신호가 시뮬레이션되는 가상의 공간을 2개의 영역으로 분할하는 평면을 기준으로 서로 다른 영역에 대응하는 채널 신호일 수 있다.
상기 프로세서는 상기 출력 오디오 신호를 인코딩하여 비트스트림을 생성하고, 상기 생성된 비트스트림을 출력 장치로 전송할 수 있다. 또한, 상기 출력 장치는 상기 비트스트림을 디코딩하여 생성된 오디오 신호를 렌더링하는 장치일 수 있다. 상기 비트스트림의 생성에 사용된 인코딩 스트림의 개수가 N개인 경우, 상기 출력 오디오 신호는 N-1개의 인코딩 스트림에 대응하는 N-1개의 신호성분으로 구성된 상기 제3 앰비소닉 신호 및 하나의 인코딩 스트림에 대응하는 상기 차분신호를 포함할 수 있다.
구체적으로, 상기 비트스트림의 생성에 사용된 코덱이 지원하는 인코딩 스트림의 최대 개수는 5일 수 있다.
본 개시의 다른 실시예에 따라 출력 오디오 신호를 생성하는 오디오 신호 처리 장치의 동작 방법은 제1 앰비소닉 신호 및 논-디제틱 채널 신호를 포함하는 입력 오디오 신호를 획득하는 단계, 상기 논-디제틱 채널 신호를 기초로 상기 제1 앰비소닉 신호의 앰비소닉 포맷이 포함하는 복수의 신호성분 중에서 기 설정된 신호성분에 대응하는 신호만을 포함하는 제2 앰비소닉 신호를 생성하는 단계 및 상기 제2 앰비소닉 신호를 상기 제1 앰비소닉 신호와 신호성분 별로 합성한 제3 앰비소닉 신호를 포함하는 출력 오디오 신호를 생성하는 단계를 포함할 수 있다. 이때, 상기 논-디제틱 채널 신호는, 청취자를 기준으로 고정된 오디오 장면을 구성하는 오디오 신호를 나타낼 수 있다. 또한, 상기 기 설정된 신호성분은 앰비소닉 신호가 수집된 지점에서 음장의 음향 압력을 나타내는 신호성분일 수 있다.
본 발명의 다른 실시예에 따르면, 입력 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 앰비소닉 신호 및 논-디제틱 채널 차분신호를 포함하는 입력 오디오 신호를 획득하고, 상기 앰비소닉 신호를 렌더링하여 제1 출력 오디오 신호를 생성하고, 상기 제1 출력 오디오 신호와 상기 논-디제틱 채널 차분신호를 믹싱하여 제2 출력 오디오 신호를 생성하고, 상기 제2 출력 오디오 신호를 출력하는 프로세서를 포함할 수 있다. 이때, 상기 논-디제틱 채널 차분신호는 2-채널 오디오 신호를 구성하는 제1 채널 신호 및 제2 채널 신호 사이의 차이를 나타내는 차분신호일 수 있다. 또한, 상기 제1 채널 신호 및 상기 제2 채널 신호는 각각 청취자를 기준으로 고정된 오디오 장면을 구성하는 오디오 신호일 수 있다.
상기 앰비소닉 신호는 상기 제1 채널 신호 및 제2 채널 신호를 합한 신호를 기초로 생성된 논-디제틱 앰비소닉 신호를 포함할 수 있다. 이때, 상기 논-디제틱 앰비소닉 신호는 상기 앰비소닉 신호의 앰비소닉 포맷이 포함하는 복수의 신호 성분 중에서 기 설정된 신호성분에 대응하는 신호만을 포함할 수 있다. 또한, 상기 기 설정된 신호성분은 앰비소닉 신호가 수집된 지점에서 음장의 음향 압력을 나타내는 신호성분일 수 있다.
구체적으로, 상기 논-디제틱 앰비소닉 신호는, 상기 제1 채널 신호 및 상기 제2 채널 신호를 시간영역에서 합성한 신호를 제1 필터로 필터링된 신호일 수 있다. 이때, 상기 제1 필터는 상기 앰비소닉 신호를 상기 제1 출력 오디오 신호로 바이노럴 렌더링하는 제2 필터의 인버스 필터일 수 있다.
상기 제1 필터는, 상기 제1 출력 오디오 신호가 시뮬레이션되는 가상의 공간에 배치된 복수의 가상 채널에 관한 정보를 기초로 생성된 것일 수 있다.
상기 복수의 가상 채널에 관한 정보는 상기 복수의 가상 채널 각각의 위치를 나타내는 위치정보를 포함할 수 있다. 이때, 상기 제1 필터는 상기 복수의 가상 채널 각각의 위치에 대응하는 복수의 바이노럴 필터를 기초로 생성된 것일 수 있다. 또한, 상기 복수의 바이노럴 필터는 상기 위치정보를 기초로 결정될 수 있다.
상기 제1 필터는, 상기 복수의 바이노럴 필터가 포함하는 필터 계수의 합을 기초로 생성된 것일 수 있다.
상기 제1 필터는, 상기 필터 계수의 합을 인버스 연산한 결과 및 상기 복수의 가상 채널의 개수를 기초로 생성된 것일 수 있다.
상기 제2 필터는 상기 앰비소닉 신호가 포함하는 신호성분 각각에 대응하는 복수의 신호성분 별 바이노럴 필터를 포함할 수 있다. 또한, 상기 제1 필터는 상기 복수의 신호성분 별 바이노럴 필터 중 상기 기 설정된 신호성분에 대응하는 바이노럴 필터의 인버스 필터일 수 있다. 이때, 상기 제1 필터의 주파수 응답은 주파수 영역에서 크기 값(magnitude)이 일정할 수 있다.
상기 프로세서는, 상기 가상의 공간에 배치된 복수의 가상 채널에 관한 정보를 기초로 상기 앰비소닉 신호를 바이노럴 렌더링하여 상기 제1 출력 오디오 신호를 생성하고 상기 제1 출력 오디오 신호와 상기 논-디제틱 채널 차분신호를 믹싱하여 상기 제2 출력 오디오 신호를 생성할 수 있다.
상기 제2 출력 오디오 신호는 기 설정된 채널 레이아웃에 따라 복수의 채널 각각에 대응하는 복수의 출력 오디오 신호를 포함할 수 있다. 이때, 상기 프로세서는, 상기 복수의 채널 각각에 대응하는 위치를 나타내는 위치 정보를 기초로 상기 앰비소닉 신호를 채널 렌더링하여 상기 복수의 채널 각각에 대응하는 복수의 출력 채널 신호를 포함하는 상기 제1 출력 오디오 신호를 생성하고, 상기 채널 별로, 상기 위치 정보를 기초로 상기 제1 출력 오디오 신호와 상기 논-디제틱 채널 차분신호를 믹싱하여 상기 제2 출력 오디오 신호를 생성할 수 있다. 상기 복수의 출력 채널 신호 각각은 상기 제1 채널 신호와 상기 제2 채널 신호가 합성된 오디오 신호를 포함할 수 있다.
중앙 평면(median plane)은 상기 기 설정된 채널 레이아웃의 수평 평면과 직각이면서 수평 평면과 동일한 중심을 가지는 평면을 나타낼 수 있다. 이때, 상기 프로세서는 상기 복수의 채널 중 상기 중앙 평면을 기준으로 좌측에 대응하는 채널, 상기 중앙 평면을 기준으로 우측에 대응하는 채널 및 상기 중앙 평면 상에 대응하는 채널 각각에 대해 서로 다른 방식으로, 상기 논-디제틱 채널 차분신호를 상기 제1 출력 오디오 신호와 믹싱하여 상기 제2 출력 오디오 신호를 생성할 수 있다.
상기 프로세서는, 비트스트림을 디코딩하여 상기 입력 오디오 신호를 획득할 수 있다. 이때, 상기 비트스트림의 생성에 사용된 코덱이 지원하는 스트림의 최대 개수는 N개 이고, 상기 비트스트림은 N-1개의 스트림에 대응하는 N-1개의 신호성분으로 구성된 상기 앰비소닉 신호 및 하나의 스트림에 대응하는 상기 논-디제틱 채널 차분신호를 기초로 생성된 것일 수 있다. 또한, 상기 비트스트림의 코덱이 지원하는 스트림의 최대 개수는 5개일 수 있다.
상기 제1 채널 신호 및 상기 제 2 채널 신호는 상기 제2 출력 오디오 신호가 시뮬레이션되는 가상의 공간을 2개의 영역으로 분할하는 평면을 기준으로 서로 다른 영역에 대응하는 채널 신호일 수 있다. 또한, 상기 제1 출력 오디오 신호는 상기 제1 채널 신호 및 상기 제2 채널 신호를 합한 신호를 포함할 수 있다.
본 개시의 다른 측면에 따른 입력 오디오 신호를 렌더링하는 오디오 신호 처리 장치의 동작 방법은, 앰비소닉 신호 및 논-디제틱 채널 차분신호를 포함하는 입력 오디오 신호를 획득하는 단계, 상기 앰비소닉 신호를 렌더링하여 제1 출력 오디오 신호를 생성하는 단계, 상기 제1 출력 오디오 신호와 상기 논-디제틱 채널 차분신호를 믹싱하여 제2 출력 오디오 신호를 생성하는 단계 및 상기 제2 출력 오디오 신호를 출력하는 단계를 포함할 수 있다. 이때, 상기 논-디제틱 채널 차분신호는 2-채널 오디오 신호를 구성하는 제1 채널 신호 및 제2 채널 신호 사이의 차이를 나타내는 차분신호이고, 상기 제1 채널 신호 및 상기 제2 채널 신호는, 청취자를 기준으로 고정된 오디오 장면을 구성하는 오디오 신호일 수 있다.
또 다른 측면에 따른 전자 장치로 읽을 수 있는 기록매체는 상술한 방법을 전자 장치에서 실행시키기 위한 프로그램을 기록한 기록매체를 포함할 수 있다.
본 개시의 실시예에 따른 오디오 신호 처리 장치는 몰입감이 높은(immersive) 3차원 오디오 신호를 제공할 수 있다. 또한, 본 개시의 실시예에 따른 오디오 신호 처리 장치는 논-디제틱 오디오 신호를 처리하는 효율을 향상시킬 수 있다. 또한, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치는 공간 음향 재현에 필요한 오디오 신호를 다양한 코덱을 통해 효율적으로 전송할 수 있다.
도 1은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치 및 렌더링 장치를 포함하는 시스템을 나타내는 개략도이다.
도 2는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치의 동작을 나타내는 흐름도이다.
도 3은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 논-디제틱 채널 신호를 처리하는 방법을 나타내는 흐름도이다.
도 4는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치의 논-디제틱 채널 신호 프로세싱을 상세하게 나타내는 도면이다.
도 5는 본 개시의 일 실시예에 따른 렌더링 장치가 논-디제틱 앰비소닉 신호를 포함하는 입력 오디오 신호를 기초로 논-디제틱 채널 신호를 포함하는 출력 오디오 신호를 생성하는 방법을 나타내는 도면이다.
도 6은 본 개시의 일 실시예에 따른 렌더링 장치가 논-디제틱 앰비소닉 신호를 포함하는 입력 오디오 신호를 채널 렌더링하여 출력 오디오 신호를 생성하는 방법을 나타내는 도면이다.
도 7은 본 개시의 일 실시예에 따라 오디오 신호 처리 장치가 5.1 채널 신호를 인코딩하는 코덱을 지원하는 경우 오디오 신호 처리 장치의 동작을 나타내는 도면이다.
도 8 및 도 9는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치 및 렌더링 장치의 구성을 나타내는 블록도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 개시는 논-디제틱(non-diegetic) 오디오 신호를 포함하는 오디오 신호를 처리하는 오디오 신호 처리 방법에 관한 것이다. 논-디제틱 오디오 신호는 청취자를 기준으로 고정된 오디오 장면(audio scene)을 구성하는 신호일 수 있다. 가상의 공간에서 청취자의 움직임과 관계 없이 논-디제틱 오디오 신호에 대응하여 출력되는 음향의 방향성은 변화하지 않을 수 있다. 본 개시의 오디오 신호 처리 방법에 따르면, 입력 오디오 신호가 포함하는 논-디제틱 오디오 신호의 음질을 유지하면서 논-디제틱 효과를 위한 인코딩 스트림의 개수를 감소시킬 수 있다. 본 개시의 일 실시예에 따른 오디오 신호 처리 장치는 논-디제틱 채널 신호를 필터링하여 디제틱 앰비소닉 신호와 합성 가능한 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 디제틱 오디오 신호 및 논-디제틱 오디오 신호를 포함하는 출력 오디오 신호를 인코딩할 수 있다. 이를 통해, 오디오 신호 처리 장치(100)는 디제틱 오디오 신호 및 논-디제틱 오디오 신호에 대응하는 오디오 데이터를 다른 장치에게 효율적으로 전송할 수 있다.
이하 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.
도 1은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100) 및 렌더링 장치(200)를 포함하는 시스템을 나타내는 개략도이다.
본 개시의 일 실시예에 따라, 오디오 신호 처리 장치(100)는 제1 입력 오디오 신호(10)를 기초로 제1 출력 오디오 신호(11)를 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 제1 출력 오디오 신호(11)를 렌더링 장치(200)로 전송할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 제1 출력 오디오 신호(11)를 인코딩하여 인코딩된 오디오 데이터를 전송할 수 있다.
일 실시예에 따라, 제1 입력 오디오 신호(10)는 앰비소닉 신호(B1) 및 논-디제틱 채널 신호를 포함할 수 있다. 오디오 신호 처리 장치(100)는 논-디제틱 채널 신호를 기초로 논-디제틱 앰비소닉 신호(B2)를 생성할 수 있다. 오디오 신호 처리 장치(100)는 앰비소닉 신호(B1)와 논-디제틱 앰비소닉 신호(B2)를 합성하여 출력 앰비소닉 신호(B3)를 생성할 수 있다. 제1 출력 오디오 신호(11)는 출력 앰비소닉 신호(B3)를 포함할 수 있다. 또한, 논-디제틱 채널 신호가 2-채널 신호인 경우, 오디오 신호 처리 장치(100)는 논-디제틱 채널을 구성하는 채널 간의 차분신호(v)를 생성할 수 있다. 이 경우, 제1 출력 오디오 신호(11)는 출력 앰비소닉 신호(B3) 및 차분신호(v)를 포함할 수 있다. 이를 통해, 오디오 신호 처리 장치(100)는 제1 입력 오디오 신호(10)가 포함하는 논-디제틱 채널 신호의 채널 개수 대비 제1 출력 오디오 신호(11)가 포함하는 논-디제틱 효과를 위한 채널 신호의 채널 개수를 감소시킬 수 있다. 오디오 신호 처리 장치(100)가 논-디제틱 채널 신호를 처리하는 구체적인 방법과 관련하여서는 도 2 내지 도 4를 통해 설명한다.
또한, 일 실시예에 따라, 오디오 신호 처리 장치(100)는 제1 출력 오디오 신호(11)를 인코딩하여 인코딩된 오디오 신호를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 출력 앰비소닉 신호(B3)가 포함하는 복수의 신호성분 각각을 복수의 인코딩의 스트림에 매핑할 수 있다. 또한, 오디오 신호 처리 장치(100)는 차분신호(v)를 하나의 인코딩의 스트림에 매핑할 수 있다. 오디오 신호 처리 장치(100)는 인코딩 스트림에 할당된 신호성분을 기초로 제1 출력 오디오 신호(11)를 인코딩할 수 있다. 이를 통해, 코덱에 따라 인코딩의 스트림의 개수가 한정된 경우에도, 오디오 신호 처리 장치(100)는 논-디제틱 오디오 신호를 디제틱 오디오 신호와 함께 인코딩할 수 있다. 이와 관련하여서는, 도 7을 통해 구체적으로 설명한다. 이를 통해, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)는 인코딩된 오디오 데이터를 전송하여 사용자에게 논-디제틱 효과를 포함하는 음향을 제공할 수 있다.
본 개시의 일 실시예에 따라, 렌더링 장치(200)는 제2 입력 오디오 신호(20)를 획득할 수 있다. 구체적으로, 렌더링 장치(200)는 오디오 신호 처리 장치(100)로부터 인코딩된 오디오 데이터를 수신할 수 있다. 또한, 렌더링 장치(200)는 인코딩된 오디오 데이터를 디코딩하여 제2 입력 오디오 신호(20)를 획득할 수 있다. 이때, 인코딩 방식에 따라, 제2 입력 오디오 신호(20)는 제1 출력 오디오 신호(11)와 차이가 있을 수 있다. 구체적으로, 무손실 압축 방법으로 인코딩된 오디오 데이터인 경우, 제2 입력 오디오 신호(20)는 제1 출력 오디오 신호(11)와 동일할 수 있다. 제2 입력 오디오 신호(20)는 앰비소닉 신호(B3')를 포함할 수 있다. 또한, 제2 입력 오디오 신호(20)는 차분신호(v')를 더 포함할 수 있다.
또한, 렌더링 장치(200)는 제2 입력 오디오 신호(20)를 렌더링하여 제2 출력 오디오 신호(21)를 생성할 수 있다. 예를 들어, 렌더링 장치(200)는 제2 입력 오디오 신호 중 일부 신호성분에 대해 바이노럴 렌더링을 수행하여 제2 출력 오디오 신호를 생성할 수 있다. 또는, 렌더링 장치(200)는 제2 입력 오디오 신호 중 일부 신호성분에 대해 채널 렌더링을 수행하여 제2 출력 오디오 신호를 생성할 수 있다. 렌더링 장치(200)가 제2 출력 오디오 신호(21)를 생성하는 방법에 관해서는 도 5 및 도 6을 통해 후술한다.
한편, 본 개시에서는 렌더링 장치(200)를 오디오 신호 처리 장치(100)와 별도의 장치로 설명하고 있으나, 본 개시가 이에 제한되는 것은 아니다. 예를 들어, 본 개시에서 설명되는 렌더링 장치(200)의 동작 중에서 적어도 일부는 오디오 신호 처리 장치(100)에서 수행될 수도 있다. 또한, 도 1에서 오디오 신호 처리 장치(100)의 인코더 및 렌더링 장치(200)의 디코더에서 수행되는 인코딩 및 디코딩 동작은 생략될 수 있다.
도 2는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)의 동작을 나타내는 흐름도이다. 단계 S202에서, 오디오 신호 처리 장치(100)는 입력 오디오 신호를 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 하나 이상의 음향 수집 장치를 통해 수집된 입력 오디오 신호를 수신할 수 있다. 입력 오디오 신호는 앰비소닉 신호, 오브젝트 신호 및 라우드스피커 채널 신호 중 적어도 하나를 포함할 수 있다. 여기에서, 앰비소닉(ambisonics) 신호는 복수의 마이크를 포함하는 마이크 어레이를 통해 녹음된 신호일 수 있다. 또한, 앰비소닉 신호는 앰비소닉 포맷으로 나타낼 수 있다. 앰비소닉 포맷은 마이크 어레이를 통해 녹음한 360도 공간 신호를 구면조화함수(spherical harmonics)의 기저(basis)에 대한 계수(coefficient)로 변환하여 나타낼 수 있다. 구체적으로, 앰비소닉 포맷은 B-포맷으로 지칭될 수 있다.
또한, 입력 오디오 신호는 디제틱 오디오 신호 및 논-디제틱 오디오 신호 중 적어도 하나를 포함할 수 있다. 여기에서, 디제틱 오디오 신호는 오디오 신호가 시뮬레이션되는 가상의 공간에서 청취자의 움직임에 따라 오디오 신호에 대응하는 음원의 위치가 변화하는 오디오 신호일 수 있다. 예를 들어, 디제틱 오디오 신호는 전술한 앰비소닉 신호, 오브젝트 신호 또는 라우드스피커 채널 신호 중 적어도 하나를 통해 표현(represent)될 수 있다. 또한, 논-디제틱 오디오 신호는 전술한 바와 같이 청취자를 기준으로 고정된 오디오 장면을 구성하는 오디오 신호일 수 있다. 또한, 논-디제틱 오디오 신호는 라우드스피커 채널 신호를 통해 표현될 수 있다. 예를 들어, 논-디제틱 오디오 신호가 2-채널 오디오 신호인 경우, 논-디제틱 오디오 신호를 구성하는 각각의 채널 신호에 대응하는 음원의 위치는 청취자의 양쪽 귀의 위치에 각각 고정될 수 있다. 그러나 본 개시가 이에 제한되는 것은 아니다. 본 개시에서, 라우드스피커 채널 신호는 설명의 편의를 위해 채널 신호로 지칭될 수 있다. 또한, 본 개시에서 논-디제틱 채널 신호는 채널 신호 중에서 전술한 논-디제틱 특성을 나타내는 채널 신호를 의미할 수 있다.
단계 S204에서, 오디오 신호 처리 장치(100)는 단계 S202를 통해 획득한 입력 오디오 신호를 기초로 출력 오디오 신호를 생성할 수 있다. 일 실시예에 따라, 입력 오디오 신호는 적어도 하나의 채널로 구성된 논-디제틱 채널 오디오 신호 및 앰비소닉 신호를 포함할 수 있다. 이때, 앰비소닉 신호는 디제틱 앰비소닉 신호일 수 있다. 이 경우, 오디오 신호 처리 장치(100)는 논-디제틱 채널 오디오 신호를 기초로 앰비소닉 포맷의 논-디제틱 앰비소닉 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 논-디제틱 앰비소닉 신호를 앰비소닉 신호와 합성하여 출력 오디오 신호를 생성할 수 있다.
전술한 앰비소닉 신호가 포함하는 신호성분의 개수 N은 앰비소닉 신호의 최고 차수를 기초로 결정될 수 있다. 최고 차수가 m차인 m차 앰비소닉 신호는 (m+1)^2개의 신호성분을 포함할 수 있다. 이때, m은 0 이상의 정수 일 수 있다. 예를 들어, 출력 오디오 신호가 포함하는 앰비소닉 신호의 차수가 3차인 경우, 출력 오디오 신호는 16개의 앰비소닉 신호성분을 포함할 수 있다. 또한, 전술한 구면조화함수는 앰비소닉 포맷의 차수(m)에 따라 달라질 수 있다. 1차 앰비소닉 신호는 FoA(first-order ambisonics) 로 지칭될 수 있다. 또한, 차수가 2차 이상인 앰비소닉 신호는 HoA(high-order ambisonics) 로 지칭될 수 있다. 본 개시에서, 앰비소닉 신호는 FoA신호 및 HoA신호 중 어느 하나를 나타낼 수 있다.
또한, 일 실시예에 따라, 오디오 신호 처리 장치(100)는 출력 오디오 신호를 출력할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 출력 오디오 신호를 통해 디제틱 음향 및 논-디제틱 음향을 포함하는 음향을 시뮬레이션할 수 있다. 오디오 신호 처리 장치(100)는 출력 오디오 신호를 오디오 신호 처리 장치(100)와 연결된 외부의 장치로 전송할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)와 연결된 외부의 장치는 렌더링 장치(200)일 수 있다. 또한, 오디오 신호 처리 장치(100)는 유/무선 인터페이스(interface)를 통해 외부의 장치와 연결될 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 인코딩된 오디오 데이터를 출력할 수도 있다. 본 개시에서 오디오 신호의 출력은 디지털화된 데이터를 전송하는 동작을 포함할 수 있다. 구체적으로, 오디오 신호 처리 장치(100)는 출력 오디오 신호를 인코딩하여 오디오 데이터를 생성할 수 있다. 이때, 인코딩된 오디오 데이터는 비트스트림일 수 있다. 오디오 신호 처리 장치(100)는 인코딩 스트림에 할당된 신호성분을 기초로 제1 출력 오디오 신호를 인코딩할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 인코딩 스트림 별로 PCM(pulse code modulation) 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 생성된 복수의 PCM 신호를 렌더링 장치(200)로 전송할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 인코딩 가능한 인코딩 스트림의 최대 개수가 제한된 코덱을 사용하여 출력 오디오 신호를 인코딩할 수도 있다. 예를 들어, 인코딩 스트림의 최대 개수는 5개로 제한될 수 있다. 이 경우, 오디오 신호 처리 장치(100)는 입력 오디오 신호를 기초로 5개 신호성분으로 구성된 출력 오디오 신호를 생성할 수 있다. 예를 들어, 출력 오디오 신호는 FoA 신호가 포함하는 4개의 앰비소닉 신호성분 및 하나의 차분신호로 구성될 수 있다. 다음으로, 오디오 신호 처리 장치(100)는 5개의 신호성분으로 구성된 출력 오디오 신호를 인코딩하여 인코딩된 오디오 데이터를 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 인코딩된 오디오 데이터를 전송할 수 있다. 한편, 오디오 신호 처리 장치(100)는 무손실압축 또는 손실압축 방법을 통해 인코딩된 오디오 데이터를 압축할 수도 있다. 예를 들어, 인코딩 과정은 오디오 데이터를 압축하는 과정을 포함할 수 있다.
도 3은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)가 논-디제틱 채널 신호를 처리하는 방법을 나타내는 흐름도이다.
단계 S302에서, 오디오 신호 처리 장치(100)는 논-디제틱 채널 신호 및 제1 앰비소닉 신호를 포함하는 입력 오디오 신호를 획득할 수 있다. 일 실시예에 따라, 오디오 신호 처리 장치(100)는 최고 차수가 서로 다른 복수의 앰비소닉 신호를 수신할 수 있다. 이 경우, 오디오 신호 처리 장치(100)는 복수의 앰비소닉 신호를 하나의 제1 앰비소닉 신호로 합성할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 복수의 앰비소닉 신호 중에서 최고 차수가 가장 큰 앰비소닉 포맷의 제1 앰비소닉 신호를 생성할 수 있다. 또는, 오디오 신호 처리 장치(100)는 HoA 신호를 FoA 신호로 변환하여 1차 앰비소닉 포맷의 제1 앰비소닉 신호를 생성할 수도 있다.
단계 S304에서, 오디오 신호 처리 장치(100)는 단계 S302에서 획득한 논-디제틱 채널 신호를 기초로 제2 앰비소닉 신호를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 논-디제틱 채널 신호를 제1 필터로 필터링하여 제2 앰비소닉 신호를 생성할 수 있다. 제1 필터와 관련하여서는 도 4를 통해 구체적으로 설명하도록 한다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 제1 앰비소닉 신호의 앰비소닉 포맷이 포함하는 복수의 신호성분 중에서 기 설정된 신호성분에 대응하는 신호만을 포함하는 제2 앰비소닉 신호를 생성할 수 있다. 여기에서, 기 설정된 신호성분은 앰비소닉 신호가 수집된 지점에서 음장(sound field)의 음향 압력(sound pressure)을 나타내는 신호성분일 수 있다. 이때, 기 설정된 신호성분은 앰비소닉 신호가 시뮬레이션되는 가상의 공간에서 특정 방향으로의 지향성(directivity)을 나타내지 않을 수 있다. 또한, 제2 앰비소닉 신호는 기 설정된 신호성분 외에 다른 신호성분에 대응하는 신호의 값이 '0'인 신호일 수 있다. 논-디제틱 오디오 신호는 청취자를 기준으로 고정된 오디오 장면을 구성하는 오디오 신호이기 때문이다. 또한, 논-디제틱 오디오 신호의 음색은 청취자의 머리 움직임에 무관하게 유지될 수 있다.
예를 들어, FoA 신호 B는 [수학식 1]과 같이 나타낼 수 있다. FoA 신호 B가 포함하는 W, X, Y, Z는 FoA가 포함하는 4개의 신호성분 각각에 대응하는 신호를 나타낼 수 있다.
[수학식 1]
Figure 112018113284901-pct00001
이때, 제2 앰비소닉 신호는 W 성분 만을 포함하는 [W2, 0, 0, 0] T과 같이 나타낼 수 있다. [수학식 1]에서 [x]T는 행렬(matrix) [x]의 전치 행렬을 나타낸다. 기 설정된 신호성분은 0차 앰비소닉 포맷에 대응하는 제1 신호성분(w)일 수 있다. 이때, 제1 신호성분(w)은 앰비소닉 신호가 수집된 지점에서 음장의 음향 압력의 크기를 나타내는 신호성분일 수 있다. 또한, 제1 신호성분은 앰비소닉 신호를 나타내는 매트릭스 B가 청취자의 머리 움직임 정보에 따라 로테이션(rotation)되는 경우에도, 값이 변화되지 않는 신호성분일 수 있다.
전술한 바와 같이, m차 앰비소닉 신호는 (m+1)^2개의 신호성분을 포함할 수 있다. 예를 들어, 0차 앰비소닉 신호는 하나의 제1 신호성분(w)을 포함할 수 있다. 또한, 1차 앰비소닉 신호는 제1 신호성분(w) 외에 제2 내지 제4 신호성분(x, y, z)을 포함할 수 있다. 또한, 앰비소닉 신호가 포함하는 신호성분 각각은 앰비소닉 채널로 지칭될 수 있다. 앰비소닉 포맷은 차수 별로 적어도 하나의 앰비소닉 채널에 대응하는 신호성분을 포함할 수 있다. 예를 들어, 0차 앰비소닉 포맷은 하나의 앰비소닉 채널을 포함할 수 있다. 기 설정된 신호성분은 0차 앰비소닉 포맷에 대응하는 신호성분일 수 있다. 일 실시예에 따라, 제1 앰비소닉 신호의 최고 차수가 1차인 경우, 제2 앰비소닉 신호는 제2 내지 제4 신호성분에 대응하는 값이 '0'인 앰비소닉 신호일 수 있다.
일 실시예에 따라, 논-디제틱 채널 신호가 2-채널 신호인 경우, 오디오 신호 처리 장치(100)는 논-디제틱 채널 신호를 구성하는 채널 신호를 시간영역에서 합성한 신호를 기초로 제2 앰비소닉 신호를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 논-디제틱 채널 신호를 구성하는 채널 신호의 합을 제1 필터로 필터링하여 제2 앰비소닉 신호를 생성할 수 있다.
단계 S306에서, 오디오 신호 처리 장치(100)는 제1 앰비소닉 신호 및 제2 앰비소닉 신호를 합성하여 제3 앰비소닉 신호를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 제1 앰비소닉 신호 및 제2 앰비소닉 신호를 신호성분 별로 합성할 수 있다. 구체적으로, 제1 앰비소닉 신호가 1차 앰비소닉 신호인 경우, 오디오 신호 처리 장치(100)는 전술한 제1 신호성분(w)에 대응하는 제1 앰비소닉 신호의 제1 신호와 제1 신호성분(w)에 대응하는 제2 앰비소닉 신호의 제2 신호를 합성(synthesis)할 수 있다. 또한, 오디오 신호 처리 장치(100)는 제2 내지 제4 신호성분에 대한 합성을 바이패스(bypass)할 수 있다. 제2 앰비소닉 신호의 제2 내지 제4 신호성분은 값이 '0'일 수 있기 때문이다.
단계 S308에서, 오디오 신호 처리 장치(100)는 합성된 제3 앰비소닉 신호를 포함하는 출력 오디오 신호를 출력할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 출력 오디오 신호를 렌더링 장치(200)로 전송할 수 있다.
한편, 논-디제틱 채널 신호가 2-채널 신호인 경우, 출력 오디오 신호는 제3 앰비소닉 신호 및 논-디제틱 채널 신호를 구성하는 채널 간의 차분신호를 포함할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 논-디제틱 채널 신호를 기초로 차분신호를 생성할 수 있다. 오디오 신호 처리 장치(100)로부터 오디오 신호를 수신한 렌더링 장치(200)가 제3 앰비소닉 신호로부터 차분신호를 사용하여 2-채널 논-디제틱 채널 신호를 복원할 수 있기 때문이다. 렌더링 장치(200)가 차분신호를 이용하여 2-채널 논-디제틱 채널 신호를 복원하는 방법에 대해서는 도 5 및 도 6을 통해 상세히 설명하도록 한다.
이하에서는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)가 제1 필터를 사용하여 논-디제틱 채널 신호를 기초로 논-디제틱 앰비소닉 신호를 생성하는 방법에 대해 도 4 내지 도 6을 참조하여 구체적으로 설명한다. 도 4는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)의 논-디제틱 채널 신호 프로세싱(400)을 상세하게 나타내는 도면이다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 논-디제틱 채널 신호를 제1 필터로 필터링하여 논-디제틱 앰비소닉 신호를 생성할 수 있다. 이때, 제1 필터는 렌더링 장치(200)에서 앰비소닉 신호를 렌더링하는 제2 필터의 인버스 필터일 수 있다. 여기에서, 앰비소닉 신호는 논-디제틱 앰비소닉 신호를 포함하는 앰비소닉 신호일 수 있다. 예를 들어, 전술한 도 3의 단계 S306에서 합성된 제3 앰비소닉 신호일 수 있다.
또한, 제2 필터는 [수학식 1]의 FoA 신호의 W 신호성분을 렌더링하는 주파수 영역 필터 Hw일 수 있다. 이 경우, 제1 필터는 Hw^(-1)일 수 있다. 논-디제틱 앰비소닉 신호의 경우, W 신호성분을 제외한 신호성분이 '0'이기 때문이다. 또한, 논-디제틱 채널 신호가 2-채널 신호인 경우, 오디오 신호 처리 장치(100)는 논-디제틱 채널 신호를 구성하는 채널 신호의 합을 Hw^(-1)로 필터링하여 논-디제틱 앰비소닉 신호를 생성할 수 있다.
일 실시예에 따라, 제1 필터는 렌더링 장치(200)에서 앰비소닉 신호를 바이노럴 렌더링하는 제2 필터의 인버스 필터일 수 있다. 이 경우, 오디오 신호 처리 장치(100)는 렌더링 장치(200)에서 앰비소닉 신호를 포함하는 출력 오디오 신호가 시뮬레이션되는 가상의 공간에 배치된 복수의 가상 채널을 기초로 제1 필터를 생성할 수 있다. 구체적으로, 오디오 신호 처리 장치(100)는 앰비소닉 신호의 렌더링에 사용되는 복수의 가상 채널에 관한 정보를 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 렌더링 장치(200)로부터 복수의 가상 채널에 관한 정보를 수신할 수 있다. 또는 복수의 가상 채널에 관한 정보는 오디오 신호 처리 장치(100) 및 렌더링 장치(200) 각각에 기 저장된 공통의 정보일 수도 있다.
또한, 복수의 가상 채널에 관한 정보는 복수의 가상 채널 각각의 위치를 나타내는 위치정보를 포함할 수 있다. 오디오 신호 처리 장치(100)는 위치정보를 기초로 복수의 가상 채널 각각의 위치에 대응하는 복수의 바이노럴 필터를 획득할 수 있다. 여기에서, 바이노럴 필터는 HRTF(Head-Related Transfer function), ITF(Interaural Transfer Function), MITF(Modified ITF), BRTF(Binaural Room Transfer Function)와 같은 전달함수 또는 RIR(Room Impulse Response), BRIR(Binaural Room Impulse Response), HRIR(Head Related Impulse Response)와 같은 필터 계수 중 적어도 하나를 포함할 수 있다. 또한, 바이노럴 필터는 전달함수 및 필터 계수가 변형되거나 편집된 데이터 중 적어도 하나를 포함할 수 있으며, 본 개시는 이에 한정되지 않는다.
또한, 오디오 신호 처리 장치(100)는 복수의 바이노럴 필터를 기초로 제1 필터를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 복수의 바이노럴 필터가 포함하는 필터 계수의 합을 기초로 제1 필터를 생성할 수 있다. 오디오 신호 처리 장치(100)는 필터 계수의 합을 인버스 연산한 결과를 기초로 제1 필터를 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 필터 계수의 합을 인버스 연산한 결과 및 가상 채널의 개수를 기초로 제1 필터를 생성할 수 있다. 예를 들어, 논-디제틱 채널 신호가 2-채널 스테레오 신호(Lnd, Rnd)인 경우, 논-디제틱 앰비소닉 신호 W2는 [수학식 2]와 같이 나타낼 수 있다.
[수학식 2]
Figure 112018113284901-pct00002
[수학식 2]에서 h0 -1는 제1 필터를 나타내고, '*'은 컨벌루션 연산을 나타낼 수 있다.'.'은 곱셈 연산을 나타낼 수 있다. K는 가상 채널의 개수를 나타내는 정수일 수 있다. 또한, hk는 k번째 가상 채널에 대응하는 바이노럴 필터의 필터 계수를 나타낼 수 있다. 일 실시예에 따라, [수학식 2]의 제1 필터는 도 5를 통해 설명되는 방법에 기초하여 생성될 수 있다.
이하에서는, 제1 필터를 기초로 생성된 논-디제틱 앰비소닉 신호를 논-디제틱 채널 신호로 복원하는 과정을 통해, 제1 필터의 생성 방법을 설명한다. 도 5는 본 개시의 일 실시예에 따른 렌더링 장치(200)가 논-디제틱 앰비소닉 신호를 포함하는 입력 오디오 신호를 기초로 논-디제틱 채널 신호를 포함하는 출력 오디오 신호를 생성하는 방법을 나타내는 도면이다.
이하, 도 5 내지 도 7의 실시예에서, 설명의 편의를 위해 앰비소닉 신호는 FoA 신호이고, 논-디제틱 채널 신호가 2-채널 신호인 경우를 예로 들고 있으나, 본 개시가 이에 한정되는 것은 아니다. 예를 들어, 앰비소닉 신호가 HoA인 경우, 이하 설명될 오디오 신호 처리 장치(100) 및 렌더링 장치(200)의 동작은 동일 또는 상응하는 방법으로 적용될 수 있다. 또한, 논-디제틱 채널 신호가 하나의 채널로 구성된 모노 채널 신호인 경우에도, 이하 설명될 오디오 신호 처리 장치(100) 및 렌더링 장치(200)의 동작은 동일 또는 상응하는 방법으로 적용될 수 있다.
일 실시예에 따라, 렌더링 장치(200)는 가상 채널 신호로 변환된 앰비소닉 신호를 기초로 출력 오디오 신호를 생성할 수 있다. 예를 들어, 렌더링 장치(200)는 앰비소닉 신호를 복수의 가상 채널 각각에 대응하는 가상의 채널 신호로 변환할 수 있다. 또한, 렌더링 장치는 변환된 신호를 기초로 바이노럴 오디오 신호 또는 라우드스피커 채널 신호를 생성할 수 있다. 구체적으로, 가상 채널 레이아웃을 구성하는 가상 채널의 개수가 K개인 경우, 위치정보는 K개의 가상 채널 각각의 위치를 나타낼 수 있다. 앰비소닉 신호가 FoA 신호인 경우, 앰비소닉 신호를 가상 채널 신호로 변환하는 디코딩 행렬(matrix) T1은 [수학식 3]과 같이 나타낼 수 있다.
[수학식 3]
Figure 112018113284901-pct00003
여기서, k는 1부터 K 사이의 정수
여기에서, Ylm(theta, phi)는 가상의 공간에서 K개의 가상 채널 각각에 대응하는 위치를 나타내는 방위각(theta) 및 고도각(phi)에서의 구면조화함수를 나타낼 수 있다. 또한, pinv(U)는 행렬 U의 의사 역행렬 또는 역행렬을 나타낼 수 있다. 예를 들어, 행렬 T1은 가상 채널을 구면조화함수 도메인을 변환하는 행렬 U의 무어-펜로즈 의사 역행렬(Moore-Penrose pseudo inverse matrix)일 수 있다. 또한, 렌더링의 대상이 되는 앰비소닉 신호를 B라고 할 때, 가상 채널 신호 C는 [수학식 4]와 같이 나타낼 수 있다. 오디오 신호 처리 장치(100) 및 렌더링 장치(200)는 앰비소닉 신호 B와 디코딩 행렬 T1 사이의 행렬 곱을 기초로 가상 채널 신호 C를 획득할 수 있다.
[수학식 4]
Figure 112018113284901-pct00004
일 실시예에 따라, 렌더링 장치(200)는 앰비소닉 신호 B를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 이 경우, 렌더링 장치(200)는 [수학식 4]를 통해 획득한 가상 채널 신호를 바이노럴 필터로 필터링하여 바이노럴 렌더링된 출력 오디오 신호를 획득할 수 있다. 예를 들어, 렌더링 장치(200)는 가상 채널 별로, 가상 채널 신호를 가상 채널 각각의 위치에 대응하는 바이노럴 필터로 필터링하여 출력 오디오 신호를 생성할 수 있다. 또는 렌더링 장치(200)는 가상 채널 각각의 위치에 대응하는 복수의 바이노럴 필터를 기초로 가상 채널 신호에 적용되는 하나의 바이노럴 필터를 생성할 수 있다. 이 경우, 렌더링 장치(200)는 가상 채널 신호를 하나의 바이노럴 필터로 필터링하여 출력 오디오 신호를 생성할 수 있다. 바이노럴 렌더링된 출력 오디오 신호 PL 및 PR은 [수학식 5]와 같이 나타낼 수 있다.
[수학식 5]
Figure 112018113284901-pct00005
[수학식 5]에서, hk,R 및 hk,L 은 각각 k번째 가상 채널에 대응하는 바이노럴 필터의 필터 계수를 나타낼 수 있다. 예를 들어, 바이노럴 필터의 필터 계수는 전술한 HRIR 또는 BRIR의 계수 및 패닝 계수 중 적어도 하나를 포함할 수 있다. 또한, [수학식 5]에서, Ck는 k 번째 가상 채널에 대응하는 가상 채널 신호를 나타내고, '*'은 컨벌루션 연산을 의미할 수 있다.
한편, 앰비소닉 신호의 바이노럴 렌더링 과정은 선형연산(linear operation)을 기초로 하기 때문에 신호성분 별로 독립적일 수 있다. 또한, 동일한 신호성분에 포함된 신호 간에도 독립적으로 연산될 수 있다. 이에 따라, 전술한 도 3의 단계 S306 단계에서 합성된 제1 앰비소닉 신호와 제2 앰비소닉 신호(논-디제틱 앰비소닉 신호)는 서로 독립적으로 연산될 수 있다. 이하에서는, 도 3의 단계 S304에서 생성된 제2 앰비소닉 신호를 나타내는 논-디제틱 앰비소닉 신호에 대한 처리 과정을 기준으로 설명하도록 한다. 또한, 렌더링된 출력 오디오 신호가 포함하는 논-디제틱 오디오 신호는 출력 오디오 신호의 논-디제틱 성분으로 지칭될 수 있다.
예를 들어, 논-디제틱 앰비소닉 신호는 [W2, 0, 0, 0]T일 수 있다. 이때, 논-디제틱 앰비소닉 신호를 기초로 변환된 가상 채널 신호 Ck는 C1 = C2 = …= CK = W2/K 와 같이 나타낼 수 있다. 앰비소닉 신호에서 W 성분은 가상의 공간에서 특정 방향으로의 지향성이 없는 신호 성분이기 때문이다. 이에 따라, 바이노럴 렌더링된 출력 오디오 신호의 논-디제틱 성분(PL, PR)은 바이노럴 필터의 필터 계수의 전체 합, 가상 채널의 개수 및 앰비소닉 신호의 W 신호성분의 값 W2으로 나타낼 수 있다. 또한, 전술한 [수학식 5]는 [수학식 6]과 같이 나타낼 수 있다. [수학식 6]에서 delta(n) 는 델타(delta) 함수를 나타낼 수 있다. 구체적으로, 델타 함수는 크로네커 델타(Kronecker delta) 함수일 수 있다. 크로네커 델타 함수는 n=0에서 크기가 '1'인 단위 임펄스 함수를 포함할 수 있다. 또한, [수학식 6]에서 가상 채널의 개수를 나타내는 K는 정수일 수 있다.
[수학식 6]
Figure 112018113284901-pct00006
일 실시예에 따라, 가상 채널의 레이아웃이 가상의 공간 내의 청취자를 기준으로 대칭인 경우, 청취자의 양이 각각에 대응하는 바이노럴 필터의 필터 계수의 합은 동일할 수 있다. 청취자를 지나는 중앙 평면을 기준으로 서로 대칭인 제1 가상 채널과 제2 가상 채널의 경우, 제1 가상 채널에 대응하는 제1 동측 바이노럴 필터는 제2 가상 채널에 대응하는 제2 대측 바이노럴 필터와 동일할 수 있다. 또한, 제1 가상 채널에 대응하는 제1 대측 바이노럴 필터는 제2 가상 채널에 대응하는 제2 동측 바이노럴 필터와 동일할 수 있다. 이에 따라, 바이노럴 렌더링된 출력 오디오 신호 중 좌측 출력 오디오 신호(L')의 논-디제틱 성분(PL)과 우측 출력 오디오 신호(R')의 논-디제틱 성분(PR)은 동일한 오디오 신호로 나타낼 수 있다. 또한, 전술한 [수학식 6]은 [수학식 7]과 같이 나타낼 수 있다.
[수학식 7]
Figure 112018113284901-pct00007
여기서, h0=sigma(from k=1 to K) hk,L = sigma(from k=1 to K) hk,R
이때, W2가 전술한 [수학식 2]에서와 같이 나타내는 경우, 출력 오디오 신호는 논-디제틱 채널 신호를 구성하는 2-채널 스테레오 신호의 합을 기초로 나타낼 수 있다. 출력 오디오 신호는 [수학식 8]과 같이 나타낼 수 있다.
[수학식 8]
Figure 112018113284901-pct00008
예를 들어, 렌더링 장치(200)는 [수학식 8]의 출력 오디오 신호와 전술한 차분신호(v')를 기초로 2-채널로 구성된 논-디제틱 채널 신호를 복원할 수 있다. 논-디제틱 채널 신호는 채널로 구별되는 제1 채널 신호(Lnd) 및 제2 채널 신호(Rnd)로 구성될 수 있다. 예를 들어, 논-디제틱 채널 신호는 2-채널 스테레오 신호일 수 있다. 이때, 차분신호(v)는 제1 채널 신호(Lnd) 및 제2 채널 신호(Rnd) 사이의 차이를 나타내는 신호일 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 시간 도메인에서 시간 유닛 별 제1 채널 신호(Lnd)와 제2 채널 신호(Rnd) 사이의 차이를 기초로 차분신호(v)를 생성할 수도 있다. 제1 채널 신호(Lnd)를 기준으로 제2 채널 신호(Rnd)를 뺀 경우, 차분신호(v)는 [수학식 9]와 같이 나타낼 수 있다.
[수학식 9]
Figure 112018113284901-pct00009
또한, 렌더링 장치(200)는 오디오 신호 처리 장치(100)로부터 수신된 차분신호(v')를 출력 오디오 신호(L', R')에 합성하여 최종 출력 오디오 신호(Lo', Ro')를 생성할 수 있다. 예를 들어, 렌더링 장치(200)는 좌측 출력 오디오 신호(L')에 차분신호(v')를 더하고, 우측 출력 오디오 신호(R')에 차분신호(v')를 빼는 방식으로 최종 출력 오디오 신호(Lo', Ro')를 생성할 수 있다. 이 경우, 최종 출력 오디오 신호(Lo', Ro')는 2-채널로 구성된 논-디제틱 채널 신호(Lnd, Rnd)를 포함할 수 있다. 최종 출력 오디오 신호는 [수학식 10]과 같이 나타낼 수 있다. 논-디제틱 채널 신호가 모노 채널 신호인 경우, 렌더링 장치(200)가 차분신호를 사용하여 논-디제틱 채널 신호를 복원하는 과정은 생략될 수 있다.
[수학식 10]
Figure 112018113284901-pct00010
이에 따라, 오디오 신호 처리 장치(100)는 도 4에서 전술한 제1 필터를 기초로 논-디제틱 앰비소닉 신호(W2, 0, 0, 0)를 생성할 수 있다. 또한, 논-디제틱 채널 신호가 2-채널 신호인 경우, 오디오 신호 처리 장치(100)는 도 4에서와 같이 차분신호(v)를 생성할 수 있다. 이를 통해, 오디오 신호 처리 장치(100)는 앰비소닉 신호의 신호성분의 개수와 논-디제틱 채널 신호의 채널 개수의 합보다 적은 개수의 인코딩 스트림을 이용하여 입력 오디오 신호가 포함하는 디제틱 오디오 신호와 논-디제틱 오디오 신호를 다른 기기로 전달할 수 있다. 예를 들어, 앰비소닉 신호의 신호성분의 개수와 논-디제틱 채널 신호의 채널 개수의 합이 인코딩 스트림의 최대 개수보다 많을 수 있다. 이 경우, 오디오 신호 처리 장치(100)는 논-디제틱 채널 신호를 앰비소닉 신호에 결합하여 논-디제틱 성분을 포함하면서 인코딩 가능한 오디오 신호를 생성할 수 있다.
또한, 본 실시예에서 렌더링 장치(200)는 신호 간의 합과 차를 이용하여 논-디제틱 채널 신호를 복원하는 것으로 설명하고 있으나, 본 개시가 이에 제한되는 것은 아니다. 오디오 신호 간의 선형 조합을 이용하여 논-디제틱 채널 신호를 복원할 수 있는 경우, 오디오 신호 처리 장치(100)는 복원에 이용되는 오디오 신호를 생성하고 전송할 수 있다. 또한, 렌더링 장치(200)는 오디오 신호 처리 장치(100)로부터 수신한 오디오 신호를 기초로 논-디제틱 채널 신호를 복원할 수 있다.
도 5의 실시예에서, 렌더링 장치(200)에 의해 바이노럴 렌더링된 출력 오디오 신호는 [수학식 11]의 Lout 및 Rout과 같이 나타낼 수도 있다. [수학식 11]은 바이노럴 렌더링된 출력 오디오 신호(Lout, Rout)를 주파수 영역에서 나타낸 것이다. 또한, W, X, Y, Z는 각각 FoA 신호의 주파수 영역 신호성분을 나타낼 수 있다. 또한, Hw, Hx, Hy 및 Hz는 각각 W, X, Y, Z 신호성분에 대응하는 바이노럴 필터의 주파수 응답일 수 있다. 이때, 각각의 신호성분에 대응하는 신호성분 별 바이노럴 필터는 전술한 제2 필터를 구성하는 복수의 요소(element)일 수 있다. 즉, 제2 필터는 각각의 신호성분에 대응하는 바이노럴 필터의 조합으로 표현될 수 있다. 본 개시에서, 바이노럴 필터의 주파수 응답은 바이노럴 전달함수로 지칭될 수 있다. 또한, '.'은 주파수 영역에서 신호의 곱셈 연산을 나타낼 수 있다.
[수학식 11]
Figure 112018113284901-pct00011
[수학식 11]과 같이, 바이노럴 렌더링된 출력 오디오 신호는 주파수 영역에서 신호성분 별 바이노럴 전달함수(Hw, Hx, Hy, Hz)와 각각의 신호성분 사이의 곱으로 나타낼 수 있다. 앰비소닉 신호의 변환 및 렌더링은 선형 관계에 있기 때문이다. 또한, 제1 필터는 0차 신호성분에 대응하는 바이노럴 필터의 인버스 필터와 동일할 수 있다. 논-디제틱 앰비소닉 신호는 0차 신호성분 외의 다른 신호성분에 대응하는 신호를 포함하지 않기 때문이다.
일 실시예에 따라, 렌더링 장치(200)는 앰비소닉 신호 B를 채널 렌더링하여 출력 오디오 신호를 생성할 수 있다. 이 경우, 오디오 신호 처리 장치(100)는 제1 필터의 크기 값(magnitude)이 일정한 주파수 응답을 가지도록 제1 필터를 정규화할 수 있다. 즉, 오디오 신호 처리 장치(100)는 전술한 0차 신호성분에 대응하는 바이노럴 필터 및 이의 인버스 필터 중 적어도 하나를 정규화할 수 있다. 이때, 제1 필터는 제2 필터가 포함하는 복수의 신호성분 별 바이노럴 필터 중에서 기 설정된 신호성분에 대응하는 바이노럴 필터의 인버스 필터일 수 있다. 또한, 오디오 신호 처리 장치(100)는 논-디제틱 채널 신호를 일정한 크기 값의 주파수 응답을 가지는 제1 필터로 필터링하여 논-디제틱 앰비소닉 신호를 생성할 수 있다. 제1 필터의 주파수 응답의 크기값이 일정하지 않은 경우, 렌더링 장치(200)는 논-디제틱 채널 신호를 복원하기 어려울 수 있다. 렌더링 장치(200)가 앰비소닉 신호를 채널 렌더링하는 경우, 렌더링 장치(200)는 전술한 제2 필터를 기초로 렌더링하지 않기 때문이다.
이하에서는 설명의 편의를 위해 제1 필터가 기 설정된 신호성분에 대응하는 바이노럴 필터의 인버스 필터인 경우, 오디오 신호 처리 장치(100) 및 렌더링 장치(200)의 동작에 대해 도 6을 참조하여 설명한다. 이는 설명의 편의를 위한 것일 뿐, 제1 필터는 제2 필터 전체의 인버스 필터일 수도 있다. 이 경우, 오디오 신호 처리 장치(100)는 제2 필터가 포함하는 신호성분 별 바이노럴 필터 중 기 설정된 신호성분에 대응하는 바이노럴 필터의 주파수 응답이 주파수 영역에서 일정한 크기 값을 가지도록 제2 필터를 정규화할 수 있다. 또한, 오디오 신호 처리 장치(100)는 정규화된 제2 필터를 기초로 제1 필터를 생성할 수 있다.
도 6은 본 개시의 일 실시예에 따른 렌더링 장치(200)가 논-디제틱 앰비소닉 신호를 포함하는 입력 오디오 신호를 채널 렌더링하여 출력 오디오 신호를 생성하는 방법을 나타내는 도면이다. 일 실시예에 따라, 렌더링 장치(200)는 채널 레이아웃에 따라 복수의 채널 각각에 대응하는 출력 오디오 신호를 생성할 수 있다. 구체적으로, 렌더링 장치(200)는 기 설정된 채널 레이아웃에 따라 복수의 채널 각각에 대응하는 위치를 나타내는 위치 정보를 기초로, 논-디제틱 앰비소닉 신호를 채널 렌더링할 수 있다. 이때, 채널 렌더링된 출력 오디오 신호는 기 설정된 채널 레이아웃에 따라 결정된 개수의 채널 신호를 포함할 수 있다. 앰비소닉 신호가 FoA 신호인 경우, 앰비소닉 신호를 라우드스피커 채널 신호로 변환하는 디코딩 행렬 T2는 [수학식 12]와 같이 나타낼 수 있다.
[수학식 12]
Figure 112018113284901-pct00012
[수학식 12]에서, T2의 컬럼(column) 개수는 앰비소닉 신호의 최고 차수를 기초로 결정될 수 있다. 또한, K는 채널 레이아웃에 따라 결정된 라우드스피커 채널의 개수를 나타낼 수 있다. 예를 들어, t0K는 FoA 신호의 W 신호성분을 K번째 채널 신호로 변환시키는 엘리먼트(element)를 나타낼 수 있다. 이때, k번째 채널 신호 CHk는 [수학식 13]과 같이 나타낼 수 있다. [수학식 13]에서, FT(x)는 시간 영역의 오디오 신호 'x'를 주파수 영역의 신호로 변환하는 푸리에 변환(Fourier transform)함수를 의미할 수 있다. [수학식 13]은 주파수 영역에서 신호를 나타내고 있으나, 본 개시가 이에 제한되는 것은 아니다.
[수학식 13]
Figure 112018113284901-pct00013
[수학식 12]에서 W1, X1, Y1, Z1은 각각 디제틱 오디오 신호에 해당하는 앰비소닉 신호의 신호성분을 나타낼 수 있다. 예를 들어, W1, X1, Y1, Z1은 도 3의 단계 S302에서 획득된 제1 앰비소닉 신호의 신호성분일 수 있다. 또한, [수학식 13]에서 W2는 논-디제틱 앰비소닉 신호일 수 있다. 논-디제틱 채널 신호가 채널로 구별되는 제1 채널 신호(Lnd) 및 제2 채널 신호(Rnd)로 구성되는 경우, W2는 [수학식 13]에서와 같이, 제1 채널 신호 및 제2 채널 신호를 합성한 신호를 제1 필터로 필터링한 값으로 나타낼 수 있다. [수학식 13]에서, Hw-1는 가상 채널의 레이아웃을 기초로 생성된 필터이기 때문에 Hw-1 와 t0k 는 서로 인버스 관계가 아닐 수 있다. 이 경우, 렌더링 장치(200)는 오디오 신호 처리 장치(100)로 입력되었던 제1 입력 오디오 신호와 동일한 오디오 신호를 복원할 수 없다. 이에 따라, 오디오 신호 처리 장치(100)는 제1 필터의 주파수 영역 응답이 일정한 값을 가지도록 정규화할 수 있다. 구체적으로, 오디오 신호 처리 장치(100)는 제1 필터의 주파수 응답이 '1'로 일정한 값을 가지도록 설정할 수 있다. 이 경우, [수학식 13]의 k번째 채널 신호 CHk는 [수학식 14]와 같이 Hw-1이 생략된 형식으로 나타낼 수 있다. 이를 통해, 오디오 신호 처리 장치(100)는 렌더링 장치(200)가 제1 입력 오디오 신호와 동일한 오디오 신호를 복원하게 하는 제1 출력 오디오 신호를 생성할 수 있다.
[수학식 14]
Figure 112018113284901-pct00014
또한, 렌더링 장치(200)는 오디오 신호 처리 장치(100)로부터 수신된 차분신호(v')를 복수의 채널 신호(CH1, …CHk)와 합성하여 제2 출력 오디오 신호(CH1', …, CHk')를 생성할 수 있다. 구체적으로, 렌더링 장치(200)는 기 설정된 채널 레이아웃에 따라 복수의 채널 각각에 대응하는 위치를 나타내는 위치 정보를 기초로, 차분신호(v')와 복수의 채널 신호(CH1, …CHk)를 믹싱(mixing)할 수 있다. 렌더링 장치(200)는 채널 별로, 복수의 채널 신호(CH1, …CHk) 각각과 차분 신호(v')를 믹싱할 수 있다.
예를 들어, 렌더링 장치(200)는 복수의 채널 신호 중 어느 하나인 제3 채널 신호의 위치 정보를 기초로 제3 채널 신호에 차분신호(v')를 더하거나 뺄지 결정할 수 있다. 구체적으로, 제3 채널 신호에 대응하는 위치 정보가 가상의 공간 상의 중앙평면을 기준으로 좌측을 나타내는 경우, 렌더링 장치(200)는 제3 채널 신호와 차분신호(v')를 합하여 최종 제3 채널 신호를 생성할 수 있다. 이때, 최종 제3 채널 신호는 제1 채널 신호(Lnd)를 포함할 수 있다. 중앙평면(median plane)은 최종 출력 오디오 신호를 출력하는 기 설정된 채널 레이아웃의 수평 평면과 직각이면서 수평 평면과 동일한 중심을 가지는 평면을 나타낼 수 있다.
또한, 제4 채널 신호에 대응하는 위치 정보가 가상의 공간 상의 중앙평면을 기준으로 우측을 나타내는 경우, 렌더링 장치(200)는 차분신호(v')와 제4 채널 신호 사이의 차이를 기초로 최종 제4 채널 신호를 생성할 수 있다. 이때, 제4 채널 신호는 복수의 채널 신호 중 제3 채널과 다른 어느 하나의 채널에 대응하는 신호일 수 있다. 최종 제4 채널 신호는 제2 채널 신호(Rnd)를 포함할 수 있다. 또한, 제3 채널 신호 및 제4 채널 신호와 또 다른 채널에 대응하는 제5 채널 신호의 위치 정보는 중앙평면 상의 위치를 나타낼 수 있다. 이 경우, 렌더링 장치(200)는 제5 채널 신호와 차분신호(v')를 믹싱하지 않을 수 있다. [수학식 15]는 제1 채널 신호(Lnd) 및 제2 채널 신호(Rnd) 각각을 포함하는 최종 채널 신호(CHk')를 나타낸다.
[수학식 15]
Figure 112018113284901-pct00015
전술한 실시예에서, 제1 채널과 제2 채널은 중앙평면을 기준으로 좌측 및 우측에 각각 대응하는 것으로 설명하고 있으나, 본 개시가 이에 제한되는 것은 아니다. 예를 들어, 제1 채널 및 제 2 채널은 가상의 공간을 2개의 영역으로 분할하는 평면을 기준으로 각각 서로 다른 영역에 대응하는 채널일 수 있다.
한편, 일 실시예에 따라, 렌더링 장치(200)는 정규화된 바이노럴 필터를 사용하여 출력 오디오 신호를 생성할 수 있다. 예를 들어, 렌더링 장치(200)는 전술한 정규화된 제1 필터를 기초로 생성된 논-디제틱 앰비소닉 신호를 포함하는 앰비소닉 신호를 수신할 수 있다. 예를 들어, 렌더링 장치(200)는 앰비소닉 0차 신호성분에 대응하는 바이노럴 전달함수를 기초로 다른 차수의 신호성분에 대응하는 바이노럴 전달함수를 정규화할 수 있다. 이 경우, 렌더링 장치(200)는 오디오 신호 처리 장치(100)가 제1 필터를 정규화한 방법과 공통된 방법으로 정규화된 바이노럴 필터를 기초로 앰비소닉 신호를 바이노럴 렌더링할 수 있다. 정규화된 바이노럴 필터는 오디오 신호 처리 장치(100) 및 렌더링 장치(200) 중 어느 하나의 장치로부터 다른 장치로 시그널링될 수 있다. 또는 렌더링 장치(200)와 오디오 신호 처리 장치(100)는 각각 공통된 방법으로 정규화된 바이노럴 필터를 생성할 수도 있다. [수학식 16]은 바이노럴 필터를 정규화하는 일 실시예를 나타낸다. [수학식 16]에서 Hw0, Hx0, Hy0 및 Hz0는 각각 FoA 신호의 W, X, Y, Z 신호성분에 대응하는 바이노럴 전달함수일 수 있다. 또한, Hw, Hx, Hy 및 Hz는 W, X, Y, Z 신호성분에 대응하는 정규화된 신호성분 별 바이노럴 전달함수일 수 있다.
[수학식 16]
Figure 112018113284901-pct00016
[수학식 16]에서와 같이, 정규화된 바이노럴 필터는 신호성분 별 바이노럴 전달함수를 기 설정된 신호성분에 대응하는 바이노럴 전달함수인 Hw0로 나눈 형태일 수 있다. 그러나, 정규화 방법이 이에 한정되는 것은 아니다. 예를 들어, 렌더링 장치(200)는 크기 값 |Hw0|을 기초로 바이노럴 필터를 정규화할 수도 있다.
한편, 모바일 디바이스와 같은 소형 기기에서는 소형 기기의 한정된 연산 능력 및 메모리 크기에 따라, 다양한 종류의 인코딩/디코딩 방법을 지원하기 어렵다. 이는 소형 기기뿐만 아니라 일부 대형 기기에서도 동일할 수 있다. 예를 들어, 오디오 신호 처리 장치(100) 및 렌더링 장치(200) 중 적어도 하나는 5.1 채널 신호를 인코딩하는 5.1 채널 코덱 만을 지원할 수 있다. 이 경우, 오디오 신호 처리 장치(100)는 4개 이상의 개수의 오브젝트 신호와 2-채널 이상의 논-디제틱 채널 신호를 함께 전송하기 어려울 수 있다. 또한, 렌더링 장치(200)가 FoA 신호 및 2-채널 논-디제틱 채널 신호에 대응하는 데이터를 수신하는 경우, 렌더링 장치(200)는 수신한 신호성분 전체를 렌더링하기 어려울 수 있다. 렌더링 장치(200)는 5개의 인코딩 스트림을 초과하는 인코딩 스트림에 대해서 5.1 채널 코덱을 사용하여 디코딩할 수 없기 때문이다.
본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)는 전술한 방법으로 2-채널 논-디제틱 채널 신호의 채널 수를 감소시킬 수 있다. 이를 통해, 오디오 신호 처리 장치(100)는 5.1 채널 코덱을 사용하여 인코딩된 오디오 데이터를 렌더링 장치(200)에게 전송할 수 있다. 이때, 오디오 데이터는 논-디제틱 음향을 재현하는 데이터를 포함할 수 있다. 이하에서는 일 실시예에 따른 오디오 신호 처리 장치(100)가 5.1 채널 코덱을 사용하여 FoA 신호와 함께 2-채널로 구성된 논-디제틱 채널 신호를 전송하는 방법에 관하여 도 7을 참조하여 설명한다.
도 7은 본 개시의 일 실시예에 따라 오디오 신호 처리 장치(100)가 5.1 채널 신호를 인코딩하는 코덱을 지원하는 경우 오디오 신호 처리 장치(100)의 동작을 나타내는 도면이다. 5.1 채널 음향 출력 시스템은 전면의 좌, 우, 중앙 및 후면의 좌, 우에 배치된 총 5개의 풀-밴드(full-band) 스피커 및 우퍼(woofer) 스피커로 구성된 음향 출력 시스템을 나타낼 수 있다. 또한, 5.1 채널 코덱은 해당 음향 출력 시스템으로 입력되거나 출력되는 오디오 신호를 인코딩/디코딩하기 위한 수단일 수 있다. 그러나 본 개시에서, 5.1 채널 코덱은 오디오 신호 처리 장치(100)가 5.1채널 음향 출력 시스템에서의 재생을 전제하지 않는 오디오 신호를 인코딩/디코딩하기 위해 사용될 수 있다. 예를 들어, 본 개시에서, 5.1 채널 코덱은 오디오 신호 처리 장치(100)가 오디오 신호를 구성하는 풀-밴드(full-band) 채널 신호의 개수가 5.1 채널 신호를 구성하는 채널 신호의 개수와 동일한 오디오 신호를 인코딩하는데 사용될 수 있다. 이에 따라, 5개의 인코딩 스트림 각각에 대응하는 신호성분 또는 채널 신호는 5.1 채널 음향 출력 시스템을 통해 출력되는 오디오 신호가 아닐 수 있다.
도 7을 참조하면, 오디오 신호 처리 장치(100)는 4개의 신호성분으로 구성된 제1 FoA 신호 및 2-채널로 구성된 논-디제틱 채널 신호를 기초로 제1 출력 오디오 신호를 생성할 수 있다. 이때, 제1 출력 오디오 신호는 5개의 인코딩 스트림에 대응하는 5개의 신호성분으로 구성된 오디오 신호일 수 있다. 오디오 신호 처리 장치(100)는 논-디제틱 채널 신호를 기초로 제2 FoA 신호(w2, 0, 0, 0)를 생성할 수 있다. 오디오 신호 처리 장치(100)는 제1 FoA 신호와 제2 FoA 신호를 합성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 제1 FoA 신호와 제2 FoA 신호가 합성된 신호의 4개의 신호성분 각각을 5.1채널 코덱의 인코딩 스트림 4개에 할당할 수 있다. 또한, 오디오 신호 처리 장치(100)는 논-디제틱 채널 신호의 채널 간 차분신호를 하나의 인코딩 스트림에 할당할 수 있다. 오디오 신호 처리 장치(100)는 5.1채널 코덱을 사용하여 5개의 인코딩 스트림 각각에 할당된 제1 출력 오디오 신호를 인코딩할 수 있다. 또한, 오디오 신호 처리 장치(100)는 인코딩된 오디오 데이터를 렌더링 장치(200)로 전송할 수 있다.
또한, 렌더링 장치(200)는 오디오 신호 처리 장치(100)로부터 인코딩된 오디오 데이터를 수신할 수 있다. 렌더링 장치(200)는 5.1 채널 코덱을 기초로 인코딩된 오디오 데이터를 디코딩하여 입력 오디오 신호를 생성할 수 있다. 렌더링 장치(200)는 입력 오디오 신호를 렌더링하여 제2 출력 오디오 신호를 출력할 수 있다.
한편, 일 실시예에 따라, 오디오 신호 처리 장치(100)는 오브젝트 신호를 포함하는 입력 오디오 신호를 수신할 수 있다. 이 경우, 오디오 신호 처리 장치(100)는 오브젝트 신호를 앰비소닉 신호로 변환할 수 있다. 이때, 앰비소닉 신호의 최고 차수는 입력 오디오 신호가 포함하는 제1 앰비소닉 신호의 최고 차수보다 작거나 같을 수 있다. 출력 오디오 신호가 오브젝트 신호를 포함하는 경우, 오디오 신호를 인코딩하는 효율 및 인코딩된 데이터를 전송하는 효율이 떨어질 수 있기 때문이다. 예를 들어, 오디오 신호 처리 장치(100)는 오브젝트-앰비소닉 컨버터(converter)(70)를 포함할 수 있다. 도 7의 오브젝트-앰비소닉 컨버터는 오디오 신호 처리 장치(100)의 다른 동작들과 마찬가지로 후술할 프로세서를 통해 구현될 수 있다.
구체적으로, 오디오 신호 처리 장치(100)가 오브젝트 별로 독립된 인코딩 스트림을 사용하여 인코딩하는 경우, 오디오 신호 처리 장치(100)는 인코딩 방식에 따라 인코딩이 제한될 수 있다. 인코딩 방식에 따라 인코딩 스트림의 개수가 한정될 수 있기 때문이다. 이에 따라, 오디오 신호 처리 장치(100)는 오브젝트 신호를 앰비소닉 신호로 변환하여 전송할 수 있다. 앰비소닉 신호의 경우, 앰비소닉 포맷의 차수에 따라 신호성분의 개수가 기 설정된 개수로 제한되기 때문이다. 예를 들어, 오디오 신호 처리 장치(100)는 오브젝트 신호에 대응하는 오브젝트의 위치를 나타내는 위치 정보를 기초로 오브젝트 신호를 앰비소닉 신호로 변환할 수 있다.
도 8 및 도 9는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100) 및 렌더링 장치(200)의 구성을 나타내는 블록도이다. 도 8 및 도 9에 도시된 구성 요소의 일부는 생략될 수 있으며, 오디오 신호 처리 장치(100) 및 렌더링 장치(200)는 도 8 및 도 9에 도시되지 않은 구성 요소를 추가로 포함할 수 있다. 또한, 각각의 장치는 적어도 둘 이상의 서로 다른 구성요소를 일체로서 구비할 수도 있다. 일 실시예에 따라, 오디오 신호 처리 장치(100) 및 렌더링 장치(200)는 각각 하나의 반도체 칩(chip)으로 구현될 수도 있다.
도 8을 참조하면, 오디오 신호 처리 장치(100)는 송수신부(110) 및 프로세서(120)를 포함할 수 있다. 송수신부(110)는 오디오 신호 처리 장치(100)로 입력되는 입력 오디오 신호를 수신할 수 있다. 송수신부(110)는 프로세서(120)에 의한 오디오 신호 처리의 대상이 되는 입력 오디오 신호를 수신할 수 있다. 또한, 송수신부(110)는 프로세서(120)에서 생성된 출력 오디오 신호를 전송할 수 있다. 여기에서, 입력 오디오 신호 및 출력 오디오 신호는 오브젝트 신호, 앰비소닉 신호 및 채널 신호 중 적어도 하나를 포함할 수 있다.
일 실시예에 따라, 송수신부(110)는 오디오 신호를 송수신하기 위한 송수신 수단을 구비할 수 있다. 예를 들어, 송수신부(110)는 유선으로 전송되는 오디오 신호를 송수신하는 오디오 신호 입출력 단자를 포함할 수 있다. 송수신부(110)는 무선으로 전송되는 오디오 신호를 송수신하는 무선 오디오 송수신 모듈을 포함할 수 있다. 이 경우, 송수신부(110)는 블루투스(bluetooth) 또는 와이파이(Wi-Fi) 통신 방법을 이용하여 무선으로 전송되는 오디오 신호를 수신할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)가 별도의 인코더(encoder) 및 디코더(decoder) 중 적어도 하나를 포함하는 경우, 송수신부(110)는 오디오 신호가 부호화된 비트스트림을 송수신할 수도 있다. 이때, 인코더 및 디코더는 후술할 프로세서(120)를 통해 구현될 수 있다. 구체적으로, 송수신부(110)는 오디오 신호 처리 장치(100) 외부의 다른 장치와 통신하게 하는 하나 이상의 구성요소를 포함할 수 있다. 이때, 다른 장치는 렌더링 장치(200)를 포함할 수 있다. 또한, 송수신부(110)는 렌더링 장치(200)로 인코딩된 오디오 데이터를 전송하는 적어도 하나의 안테나를 포함할 수 있다. 또한, 송수신부(110)는 인코딩된 오디오 데이터를 전송하는 유선 통신용 하드웨어를 구비할 수도 있다.
프로세서(120)는 오디오 신호 처리 장치(100)의 전반적인 동작을 제어할 수 있다. 프로세서(120)는 오디오 신호 처리 장치(100)의 각 구성 요소를 제어할 수 있다. 프로세서(120)는 각종 데이터와 신호의 연산 및 처리를 수행할 수 있다. 프로세서(120)는 반도체 칩 또는 전자 회로 형태의 하드웨어로 구현되거나 하드웨어를 제어하는 소프트웨어로 구현될 수 있다. 프로세서(120)는 하드웨어와 상기 소프트웨어가 결합된 형태로 구현될 수도 있다. 예를 들어, 프로세서(120)는 소프트웨어가 포함하는 적어도 하나의 프로그램을 실행함으로써, 송수신부(110)의 동작을 제어할 수 있다. 또한, 프로세서(120)는 적어도 하나의 프로그램을 실행하여 전술한 도 1 내지 도 7에서 설명된 오디오 신호 처리 장치(100)의 동작을 수행할 수 있다.
예를 들어, 프로세서(120)는 송수신부(110)를 통해 수신된 입력 오디오 신호를 출력 오디오 신호를 생성할 수 있다. 구체적으로, 프로세서(120)는 논-디제틱 채널 신호를 기초로 논-디제틱 앰비소닉 신호를 생성할 수 있다. 이때, 논-디제틱 앰비소닉 신호는 앰비소닉 신호가 포함하는 복수의 신호성분 중에서 기 설정된 신호성분에 대응하는 신호만을 포함하는 앰비소닉 신호일 수 있다. 또한, 프로세서(120)는 기 설정된 신호성분 이외의 신호성분의 신호가 제로인 앰비소닉 신호를 생성할 수 있다. 프로세서(120)는 논-디제틱 채널 신호를 전술한 제1 필터로 필터링하여 논-디제틱 앰비소닉 신호를 생성할 수 있다.
또한, 프로세서(120)는 논-디제틱 앰비소닉 신호와 입력된 앰비소닉 신호를 합성하여 출력 오디오 신호를 생성할 수 있다. 또한, 논-디제틱 채널 신호가 2-채널로 구성된 경우, 프로세서(120)는 논-디제틱 채널 신호를 구성하는 채널 신호 간의 차이를 나타내는 차분신호를 생성할 수 있다. 이 경우, 출력 오디오 신호는 논-디제틱 앰비소닉 신호와 입력된 앰비소닉 신호가 합성된 앰비소닉 신호 및 차분신호를 포함할 수 있다. 또한, 프로세서(120)는 출력 오디오 신호를 인코딩하여 인코딩된 오디오 데이터를 생성할 수 있다. 프로세서(120)는 송수신부(110)를 통해 생성된 오디오 데이터를 전송할 수 있다.
도 9를 참조하면, 본 개시의 일 실시예에 따른 렌더링 장치(200)는 수신부(210), 프로세서(220) 및 출력부(230)를 포함할 수 있다. 수신부(210)는 렌더링 장치(200)로 입력되는 입력 오디오 신호를 수신할 수 있다. 수신부(210)는 프로세서(220)에 의한 오디오 신호 처리의 대상이 되는 입력 오디오 신호를 수신할 수 있다. 일 실시예에 따라, 수신부(210)는 오디오 신호를 수신하기 위한 수신 수단을 구비할 수 있다. 예를 들어, 수신부(210)는 유선으로 전송되는 오디오 신호를 수신하는 오디오 신호 입출력 단자를 포함할 수 있다. 수신부(210)는 무선으로 전송되는 오디오 신호를 송수신하는 무선 오디오 수신 모듈을 포함할 수 있다. 이 경우, 수신부(210)는 블루투스(bluetooth) 또는 와이파이(Wi-Fi) 통신 방법을 이용하여 무선으로 전송되는 오디오 신호를 수신할 수 있다.
일 실시예에 따라, 렌더링 장치(200)가 별도의 디코더(decoder)를 포함하는 경우, 수신부(210)는 오디오 신호가 부호화된 비트스트림을 송수신할 수도 있다. 이때, 디코더는 후술할 프로세서(220)를 통해 구현될 수 있다. 구체적으로, 수신부(210)는 렌더링 장치(200) 외부의 다른 장치와 통신하게 하는 하나 이상의 구성요소를 포함할 수 있다. 이때, 다른 장치는 오디오 신호 처리 장치(100)를 포함할 수 있다. 또한, 수신부(210)는 오디오 신호 처리 장치(100)로부터 인코딩된 오디오 데이터를 수신하는 적어도 하나의 안테나를 포함할 수 있다. 또한, 수신부(210)는 인코딩된 오디오 데이터를 수신하는 유선 통신용 하드웨어를 구비할 수도 있다.
프로세서(220)는 렌더링 장치(200)의 전반적인 동작을 제어할 수 있다. 프로세서(220)는 렌더링 장치(200)의 각 구성 요소를 제어할 수 있다. 프로세서(220)는 각종 데이터와 신호의 연산 및 처리를 수행할 수 있다. 프로세서(220)는 반도체 칩 또는 전자 회로 형태의 하드웨어로 구현되거나 하드웨어를 제어하는 소프트웨어로 구현될 수 있다. 프로세서(220)는 하드웨어와 상기 소프트웨어가 결합된 형태로 구현될 수도 있다. 예를 들어, 프로세서(220)는 소프트웨어가 포함하는 적어도 하나의 프로그램을 실행함으로써, 수신부(210) 및 출력부(230)의 동작을 제어할 수 있다. 또한, 프로세서(220)는 적어도 하나의 프로그램을 실행하여 전술한 도 1 내지 도 7에서 설명된 렌더링 장치(200)의 동작을 수행할 수 있다.
일 실시예에 따라, 프로세서(220)는 입력 오디오 신호를 렌더링하여 출력 오디오 신호를 생성할 수 있다. 예를 들어, 입력 오디오 신호는 앰비소닉 신호 및 차분신호를 포함할 수 있다. 이때, 앰비소닉 신호는 전술한 논-디제틱 앰비소닉 신호를 포함할 수 있다. 또한, 논-디제틱 앰비소닉 신호는 논-디제틱 채널 신호를 기초로 생성된 신호일 수 있다. 또한, 차분신호는 2-채널로 구성된 논-디제틱 채널 신호의 채널 신호 간 차이를 나타내는 신호일 수 있다. 일 실시예에 따라, 프로세서(220)는 입력 오디오 신호를 바이노럴 렌더링할 수 있다. 프로세서(220)는 앰비소닉 신호를 바이노럴 렌더링하여 청취자의 양이 각각에 대응하는 2채널 바이노럴 오디오 신호를 생성할 수 있다. 또한, 프로세서(220)는 출력부(230)를 통해 생성된 출력 오디오 신호를 출력할 수 있다.
출력부(230)는 출력 오디오 신호를 출력할 수 있다. 예를 들어, 출력부(230)는 프로세서(220)에 의해 생성된 출력 오디오 신호를 출력할 수 있다. 출력부(230)는 적어도 하나의 출력 채널을 포함할 수 있다. 여기에서, 출력 오디오 신호는 청취자의 양이에 각각 대응하는 2-채널 출력 오디오 신호일 수 있다. 또한, 출력 오디오 신호는 바이노럴 2-채널 출력 오디오 신호일 수 있다. 출력부(230)는 프로세서(220)에 의해 생성된 3D 오디오 헤드폰 신호를 출력할 수 있다.
일 실시예에 따라, 출력부(230)는 출력 오디오 신호를 출력하는 출력 수단을 구비할 수 있다. 예를 들어, 출력부(230)는 출력 오디오 신호를 외부로 출력하는 출력 단자를 포함할 수 있다. 이때, 렌더링 장치(200)는 출력 단자에 연결된 외부 장치로 출력 오디오 신호를 출력할 수 있다. 또는 출력부(230)는 출력 오디오 신호를 외부로 출력하는 무선 오디오 송신 모듈을 포함할 수 있다. 이 경우, 출력부(230)는 블루투스 또는 와이파이와 같은 무선 통신 방법을 이용하여 외부 장치로 출력 오디오 신호를 출력할 수 있다. 또는 출력부(230)는 스피커를 포함할 수 있다. 이때, 렌더링 장치(200)는 스피커를 통해 출력 오디오 신호를 출력할 수 있다. 구체적으로, 출력부(230)는 기 설정된 채널 레이아웃에 따라 배치된 복수의 스피커를 포함할 수 있다. 또한, 출력부(130)는 디지털 오디오 신호를 아날로그 오디오 신호로 변환하는 컨버터(예를 들어, digital-to-analog converter, DAC)를 추가적으로 포함할 수 있다.
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
이상에서는 본 개시를 구체적인 실시예를 통하여 설명하였으나, 본 개시가 속하는 기술분야의 통상의 지식을 가진 당업자라면 본 개시의 취지 및 범위를 벗어나지 않고 수정, 변경을 할 수 있다. 즉, 본 개시는 오디오 신호에 대한 바이노럴 렌더링의 실시예에 대하여 설명하였지만, 본 개시는 오디오 신호뿐만 아니라 비디오 신호를 포함하는 다양한 멀티미디어 신호에도 동일하게 적용 및 확장 가능하다. 따라서 본 개시의 상세한 설명 및 실시예로부터 본 개시가 속하는 기술분야에 속한 사람이 용이하게 유추할 수 있는 것은 본 개시의 권리범위에 속하는 것으로 해석된다.

Claims (20)

  1. 출력 오디오 신호를 생성하는 오디오 신호 처리 장치에 있어서,
    디제틱 오디오 신호인 제1 앰비소닉(ambisonics) 신호 및 논-디제틱(non-diegetic) 오디오 신호인 논-디제틱 채널 신호를 포함하는 입력 오디오 신호를 획득하고,
    상기 논-디제틱 채널 신호를 필터링하여 앰비소닉 포맷의 제2 앰비소닉 신호를 생성하고, 상기 제2 앰비소닉 신호는 상기 제1 앰비소닉 신호의 앰비소닉 포맷이 포함하는 복수의 신호성분 중에서 기 설정된 신호성분에 대응하는 신호만을 포함하고,
    상기 제2 앰비소닉 신호를 상기 제1 앰비소닉 신호와 신호성분 별로 합성한 제3 앰비소닉 신호를 포함하는 출력 오디오 신호를 생성하는 프로세서를 포함하고,
    상기 논-디제틱 오디오 신호는 청취자를 기준으로 고정된 오디오 장면(audio scene)을 구성하는 오디오 신호를 나타내고,
    상기 디제틱 오디오 신호는 오디오 신호가 시뮬레이션되는 가상의 공간에서 청취자의 움직임에 따라 오디오 신호에 대응하는 음원의 위치가 변화하는 오디오 신호이고,
    상기 기 설정된 신호성분은 앰비소닉 신호가 수집된 지점에서 음장(sound field)의 음향 압력(sound pressure)을 나타내는 신호성분인 것을 특징으로 하는, 오디오 신호 처리 장치.
  2. 제1 항에 있어서,
    상기 프로세서는,
    상기 논-디제틱 채널 신호를 제1 필터로 필터링하여 상기 제2 앰비소닉 신호를 생성하고,
    상기 제1 필터는 상기 제3 앰비소닉 신호를 수신한 출력 장치에서 상기 제3 앰비소닉 신호를 출력 오디오 신호로 바이노럴 렌더링하는 제2 필터의 인버스 필터인, 오디오 신호 처리 장치.
  3. 제2 항에 있어서,
    상기 프로세서는,
    상기 출력 오디오 신호가 시뮬레이션되는 가상의 공간에 배치된 복수의 가상 채널에 관한 정보를 획득하고,
    상기 복수의 가상 채널에 관한 정보를 기초로 상기 제1 필터를 생성하고,
    상기 복수의 가상 채널에 관한 정보는 상기 제3 앰비소닉 신호를 렌더링하는데 사용되는, 오디오 신호 처리 장치.
  4. 제1 항에 있어서,
    상기 논-디제틱 채널 신호는 제1 채널 신호 및 제2 채널 신호로 구성된 2-채널 신호이고,
    상기 프로세서는,
    상기 제1 채널 신호 및 상기 제2 채널 신호 사이의 차분신호를 생성하고, 상기 차분신호 및 상기 제3 앰비소닉 신호를 포함하는 상기 출력 오디오 신호를 생성하는, 오디오 신호 처리 장치.
  5. 제4 항에 있어서,
    상기 프로세서는,
    상기 출력 오디오 신호를 인코딩하여 비트스트림을 생성하고, 상기 생성된 비트스트림을 출력 장치로 전송하고,
    상기 출력 장치는 상기 비트스트림을 디코딩하여 생성된 오디오 신호를 렌더링하는 장치이고,
    상기 비트스트림의 생성에 사용된 인코딩 스트림의 개수가 N개인 경우, 상기 출력 오디오 신호는 N-1개의 인코딩 스트림에 대응하는 N-1개의 신호성분으로 구성된 상기 제3 앰비소닉 신호 및 하나의 인코딩 스트림에 대응하는 상기 차분신호를 포함하는, 오디오 신호 처리 장치.
  6. 제5 항에 있어서,
    상기 비트스트림의 생성에 사용된 코덱이 지원하는 인코딩 스트림의 최대 개수는 5인, 오디오 신호 처리 장치.
  7. 입력 오디오 신호를 렌더링하는 오디오 신호 처리 장치에 있어서,
    앰비소닉 신호 및 논-디제틱 채널 차분신호를 포함하는 입력 오디오 신호를 획득하고,
    상기 앰비소닉 신호를 렌더링하여 제1 출력 오디오 신호를 생성하고,
    상기 제1 출력 오디오 신호와 상기 논-디제틱 채널 차분신호를 믹싱하여 제2 출력 오디오 신호를 생성하고,
    상기 제2 출력 오디오 신호를 출력하는 프로세서를 포함하고,
    상기 논-디제틱 채널 차분신호는 2-채널 오디오 신호를 구성하는 제1 채널 신호 및 제2 채널 신호 사이의 차이를 나타내는 차분신호이고,
    상기 제1 채널 신호 및 상기 제2 채널 신호는 청취자를 기준으로 고정된 오디오 장면을 구성하는 논-디제틱 오디오 신호이고,
    상기 앰비소닉 신호는 상기 제1 채널 신호 및 제2 채널 신호를 합한 신호를 필터링하여 앰비소닉 포맷으로 변환한 논-디제틱 앰비소닉 신호와 오디오 신호가 시뮬레이션되는 가상의 공간에서 청취자의 움직임에 따라 상기 오디오 신호에 대응하는 음원의 위치가 변화하는 디제틱 오디오 신호인 디제틱 앰비소닉 신호를 포함하고,
    상기 논-디제틱 앰비소닉 신호는 상기 디제틱 앰비소닉 신호의 앰비소닉 포맷이 포함하는 복수의 신호 성분 중에서 기 설정된 신호성분에 대응하는 신호만을 포함하고,
    상기 기 설정된 신호성분은 앰비소닉 신호가 수집된 지점에서 음장의 음향 압력을 나타내는 신호성분인, 오디오 신호 처리 장치.
  8. 삭제
  9. 제7 항에 있어서,
    상기 논-디제틱 앰비소닉 신호는, 상기 제1 채널 신호 및 상기 제2 채널 신호를 합성한 신호를 제1 필터로 필터링된 신호이고,
    상기 제1 필터는 상기 앰비소닉 신호를 상기 제1 출력 오디오 신호로 바이노럴 렌더링하는 제2 필터의 인버스 필터인, 오디오 신호 처리 장치.
  10. 제9 항에 있어서,
    상기 제1 필터는, 상기 제1 출력 오디오 신호가 시뮬레이션되는 가상의 공간에 배치된 복수의 가상 채널에 관한 정보를 기초로 생성된 것인, 오디오 신호 처리 장치.
  11. 제10 항에 있어서,
    상기 복수의 가상 채널에 관한 정보는 상기 복수의 가상 채널 각각의 위치를 나타내는 위치정보를 포함하고,
    상기 제1 필터는, 상기 복수의 가상 채널 각각의 위치에 대응하는 복수의 바이노럴 필터를 기초로 생성된 것이고,
    상기 복수의 바이노럴 필터는 상기 위치정보를 기초로 결정된 것인, 오디오 신호 처리 장치.
  12. 제11 항에 있어서,
    상기 제1 필터는, 상기 복수의 바이노럴 필터가 포함하는 필터 계수의 합을 기초로 생성된 것인, 오디오 신호 처리 장치.
  13. 제12 항에 있어서,
    상기 제1 필터는, 상기 필터 계수의 합을 인버스 연산한 결과 및 상기 복수의 가상 채널의 개수를 기초로 생성된 것인, 오디오 신호 처리 장치.
  14. 제11 항에 있어서,
    상기 프로세서는,
    상기 가상의 공간에 배치된 복수의 가상 채널에 관한 정보를 기초로 상기 앰비소닉 신호를 바이노럴 렌더링하여 상기 제1 출력 오디오 신호를 생성하고,
    상기 제1 출력 오디오 신호와 상기 논-디제틱 채널 차분신호를 믹싱하여 상기 제2 출력 오디오 신호를 생성하는, 오디오 신호 처리 장치.
  15. 제9 항에 있어서,
    상기 제2 필터는 상기 앰비소닉 신호가 포함하는 신호성분 각각에 대응하는 복수의 신호성분 별 바이노럴 필터를 포함하고,
    상기 제1 필터는 상기 복수의 신호성분 별 바이노럴 필터 중 상기 기 설정된 신호성분에 대응하는 바이노럴 필터의 인버스 필터이고,
    상기 제1 필터의 주파수 응답은 주파수 영역에서 크기 값(magnitude)이 일정한 것을 특징으로 하는, 오디오 신호 처리 장치.
  16. 제7 항에 있어서,
    상기 제2 출력 오디오 신호는 기 설정된 채널 레이아웃에 따라 복수의 채널 각각에 대응하는 복수의 출력 오디오 신호를 포함하고,
    상기 프로세서는,
    상기 복수의 채널 각각에 대응하는 위치를 나타내는 위치 정보를 기초로 상기 앰비소닉 신호를 채널 렌더링하여 상기 복수의 채널 각각에 대응하는 복수의 출력 채널 신호를 포함하는 상기 제1 출력 오디오 신호를 생성하고,
    상기 복수의 채널 별로, 상기 위치 정보를 기초로 상기 제1 출력 오디오 신호와 상기 논-디제틱 채널 차분신호를 믹싱하여 상기 제2 출력 오디오 신호를 생성하고,
    상기 복수의 출력 채널 신호 각각은 상기 제1 채널 신호와 상기 제2 채널 신호가 합성된 오디오 신호를 포함하는, 오디오 신호 처리 장치.
  17. 제16 항에 있어서,
    중앙 평면(median plane)은 상기 기 설정된 채널 레이아웃의 수평 평면과 직각이면서 수평 평면과 동일한 중심을 가지는 평면을 나타내고,
    상기 프로세서는,
    상기 복수의 채널 중 상기 중앙 평면을 기준으로 좌측에 대응하는 채널, 상기 중앙 평면을 기준으로 우측에 대응하는 채널 및 상기 중앙 평면 상에 대응하는 채널 각각에 대해 서로 다른 방식으로, 상기 논-디제틱 채널 차분신호를 상기 제1 출력 오디오 신호와 믹싱하여 상기 제2 출력 오디오 신호를 생성하는, 오디오 신호 처리 장치.
  18. 제7 항에 있어서,
    상기 제1 채널 신호 및 상기 제2 채널 신호는 상기 제2 출력 오디오 신호가 시뮬레이션되는 가상의 공간을 2개의 영역으로 분할하는 평면을 기준으로 서로 다른 영역에 대응하는 채널 신호인 것을 특징으로 하는, 오디오 신호 처리 장치.
  19. 입력 오디오 신호를 렌더링하는 오디오 신호 처리 장치의 동작 방법에 있어서,
    앰비소닉 신호 및 논-디제틱 채널 차분신호를 포함하는 입력 오디오 신호를 획득하는 단계;
    상기 앰비소닉 신호를 렌더링하여 제1 출력 오디오 신호를 생성하는 단계;
    상기 제1 출력 오디오 신호와 상기 논-디제틱 채널 차분신호를 믹싱하여 제2 출력 오디오 신호를 생성하는 단계; 및
    상기 제2 출력 오디오 신호를 출력하는 단계를 포함하고,
    상기 논-디제틱 채널 차분신호는 2-채널 오디오 신호를 구성하는 제1 채널 신호 및 제2 채널 신호 사이의 차이를 나타내는 차분신호이고,
    상기 제1 채널 신호 및 상기 제2 채널 신호는, 청취자를 기준으로 고정된 오디오 장면을 구성하는 오디오 신호이고,
    상기 앰비소닉 신호는 상기 제1 채널 신호 및 제2 채널 신호를 합한 신호를 필터링하여 앰비소닉 포맷으로 변환한 논-디제틱 앰비소닉 신호와 오디오 신호가 시뮬레이션되는 가상의 공간에서 청취자의 움직임에 따라 상기 오디오 신호에 대응하는 음원의 위치가 변화하는 디제틱 오디오 신호인 디제틱 앰비소닉 신호를 포함하고,
    상기 논-디제틱 앰비소닉 신호는 상기 디제틱 앰비소닉 신호의 앰비소닉 포맷이 포함하는 복수의 신호 성분 중에서 기 설정된 신호성분에 대응하는 신호만을 포함하고,
    상기 기 설정된 신호성분은 앰비소닉 신호가 수집된 지점에서 음장의 음향 압력을 나타내는 신호성분인, 오디오 신호 처리 방법.
  20. 제19항의 방법을 전자 장치에서 실행하기 위한 프로그램을 기록한 전자 장치로 읽을 수 있는 기록매체.
KR1020187033032A 2017-08-17 2018-08-13 앰비소닉 신호를 사용하는 오디오 신호 처리 방법 및 장치 KR102128281B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
KR20170103988 2017-08-17
KR1020170103988 2017-08-17
KR20180055821 2018-05-16
KR1020180055821 2018-05-16
PCT/KR2018/009285 WO2019035622A1 (ko) 2017-08-17 2018-08-13 앰비소닉 신호를 사용하는 오디오 신호 처리 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20190019915A KR20190019915A (ko) 2019-02-27
KR102128281B1 true KR102128281B1 (ko) 2020-06-30

Family

ID=65362897

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187033032A KR102128281B1 (ko) 2017-08-17 2018-08-13 앰비소닉 신호를 사용하는 오디오 신호 처리 방법 및 장치

Country Status (4)

Country Link
US (1) US11308967B2 (ko)
KR (1) KR102128281B1 (ko)
CN (1) CN111034225B (ko)
WO (1) WO2019035622A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023187208A1 (en) * 2022-03-31 2023-10-05 Dolby International Ab Methods and systems for immersive 3dof/6dof audio rendering

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111756929A (zh) * 2020-06-24 2020-10-09 Oppo(重庆)智能科技有限公司 多屏终端音频播放方法、装置、终端设备以及存储介质
CN114067810A (zh) * 2020-07-31 2022-02-18 华为技术有限公司 音频信号渲染方法和装置
WO2023274400A1 (zh) * 2021-07-02 2023-01-05 北京字跳网络技术有限公司 音频信号的渲染方法、装置和电子设备

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
JP4610650B2 (ja) * 2005-03-30 2011-01-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 多チャンネルオーディオ符号化
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
CN101166377A (zh) * 2006-10-17 2008-04-23 施伟强 一种多语种环绕立体声的低码率编解码方案
CN101690269A (zh) * 2007-06-26 2010-03-31 皇家飞利浦电子股份有限公司 双耳的面向对象的音频解码器
EP2191462A4 (en) * 2007-09-06 2010-08-18 Lg Electronics Inc METHOD AND DEVICE FOR DECODING A SOUND SIGNAL
KR101439205B1 (ko) * 2007-12-21 2014-09-11 삼성전자주식회사 오디오 매트릭스 인코딩 및 디코딩 방법 및 장치
KR20090109489A (ko) * 2008-04-15 2009-10-20 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
CN101604524B (zh) * 2008-06-11 2012-01-11 北京天籁传音数字技术有限公司 立体声编码方法及其装置、立体声解码方法及其装置
CN105578380B (zh) * 2011-07-01 2018-10-26 杜比实验室特许公司 用于自适应音频信号产生、编码和呈现的系统和方法
CN104969571B (zh) * 2013-02-06 2018-01-02 华为技术有限公司 用于渲染立体声信号的方法
CN105210388A (zh) * 2013-04-05 2015-12-30 汤姆逊许可公司 管理沉浸式音频的混响场的方法
CN105264595B (zh) * 2013-06-05 2019-10-01 杜比国际公司 用于编码和解码音频信号的方法和装置
EP2879408A1 (en) * 2013-11-28 2015-06-03 Thomson Licensing Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition
CN104869523B (zh) * 2014-02-26 2018-03-16 北京三星通信技术研究有限公司 虚拟多声道播放音频文件的方法、终端及系统
EP2960903A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
US9875745B2 (en) * 2014-10-07 2018-01-23 Qualcomm Incorporated Normalization of ambient higher order ambisonic audio data
GB201419396D0 (en) * 2014-10-31 2014-12-17 Univ Salford Entpr Ltd Assistive Mixing System And Method Of Assembling A Synchronised Spattial Sound Stage

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023187208A1 (en) * 2022-03-31 2023-10-05 Dolby International Ab Methods and systems for immersive 3dof/6dof audio rendering

Also Published As

Publication number Publication date
CN111034225B (zh) 2021-09-24
KR20190019915A (ko) 2019-02-27
CN111034225A (zh) 2020-04-17
US20200175997A1 (en) 2020-06-04
US11308967B2 (en) 2022-04-19
WO2019035622A1 (ko) 2019-02-21

Similar Documents

Publication Publication Date Title
US20200335115A1 (en) Audio encoding and decoding
KR102128281B1 (ko) 앰비소닉 신호를 사용하는 오디오 신호 처리 방법 및 장치
US9973874B2 (en) Audio rendering using 6-DOF tracking
KR101054932B1 (ko) 스테레오 오디오 신호의 동적 디코딩
CN107533843B (zh) 用于捕获、编码、分布和解码沉浸式音频的系统和方法
US9794686B2 (en) Controllable playback system offering hierarchical playback options
US9313599B2 (en) Apparatus and method for multi-channel signal playback
CN101356573B (zh) 对双耳音频信号的解码的控制
CN106663433B (zh) 用于处理音频数据的方法和装置
US9219972B2 (en) Efficient audio coding having reduced bit rate for ambient signals and decoding using same
CN110234060B (zh) 渲染器控制的空间升混
JP5227946B2 (ja) フィルタ適応周波数分解能
TWI819344B (zh) 音訊訊號渲染方法、裝置、設備及電腦可讀存儲介質
KR102148217B1 (ko) 위치기반 오디오 신호처리 방법
WO2019239011A1 (en) Spatial audio capture, transmission and reproduction
KR102059846B1 (ko) 오디오 신호 처리 방법 및 장치
CN108206983B (zh) 兼容现有音视频系统的三维声信号的编码器及其方法
CN112133316A (zh) 空间音频表示和渲染
KR101319892B1 (ko) 3차원 가상 음향 구현을 위한 머리전달함수 모델링 방법,및 이를 이용한 3차원 가상 음향 구현 방법 및 장치
WO2022034805A1 (ja) 信号処理装置および方法、並びにオーディオ再生システム
KR20220108704A (ko) 오디오 처리 장치 및 방법
KR101949755B1 (ko) 오디오 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant