KR102664650B1 - 공간 오디오 파라미터의 유의성의 결정 및 관련 인코딩 - Google Patents

공간 오디오 파라미터의 유의성의 결정 및 관련 인코딩 Download PDF

Info

Publication number
KR102664650B1
KR102664650B1 KR1020217034950A KR20217034950A KR102664650B1 KR 102664650 B1 KR102664650 B1 KR 102664650B1 KR 1020217034950 A KR1020217034950 A KR 1020217034950A KR 20217034950 A KR20217034950 A KR 20217034950A KR 102664650 B1 KR102664650 B1 KR 102664650B1
Authority
KR
South Korea
Prior art keywords
subbands
coherence
subband
energy ratio
value
Prior art date
Application number
KR1020217034950A
Other languages
English (en)
Other versions
KR20210146980A (ko
Inventor
미코-빌 라이티넨
아드리아나 바실라체
Original Assignee
노키아 테크놀로지스 오와이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 테크놀로지스 오와이 filed Critical 노키아 테크놀로지스 오와이
Publication of KR20210146980A publication Critical patent/KR20210146980A/ko
Application granted granted Critical
Publication of KR102664650B1 publication Critical patent/KR102664650B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

하나 이상의 오디오 신호(102)에 대해, 공간 오디오 재생을 제공하기 위한 공간 오디오 파라미터를 서브밴드 단위로 수신하고 결정할 수 있는 공간 오디오 인코딩을 위한 장치가 개시되며, 공간 오디오 파라미터는 프레임의 복수의 서브밴드(202)의 각 서브밴드에 대한 코히어런스 값(112)를 포함할 수 있다. 그 다음 장치는 프레임의 복수의 서브밴드의 코히어런스 값(401)에 관한 유의성 척도를 결정하고, 유의성 척도를 사용하여 프레임의 복수의 서브밴드의 코히어런스 값(410)의 인코딩(403) 여부를 결정한다.

Description

공간 오디오 파라미터의 유의성의 결정 및 관련 인코딩
본 출원은 음장(sound field)에 관련된 파라미터 인코딩에 대한 장치 및 방법에 관한 것이지만, 오디오 인코더 및 디코더를 위한 시간-주파수 도메인 방향 관련 파라미터 인코딩에 대한 것만은 아니다.
파라메트릭 공간 오디오 처리는 음향의 공간적 측면이 파라미터 세트를 사용하여 기술되는 오디오 신호 처리 분야이다. 예를 들어, 마이크로폰 어레이로부터 캡처된 파라메트릭 공간 오디오에서는, 주파수 대역에서의 음향의 방향, 및 주파수 대역에서 캡처된 음향의 방향성 및 비방향성 부분 사이의 비와 같은 파라미터 세트를 마이크로폰 어레이 신호로부터 추정하는 것이 일반적이고 효과적인 선택이다. 이들 파라미터는 마이크로폰 어레이의 위치에서 캡처된 음향의 지각적 공간적 특성을 잘 설명한다고 알려져 있다. 이들 파라미터는 헤드폰의 경우 바이노럴, 라우드스피커(loudspeaker) 또는 앰비소닉(Ambisonics)과 같은 다른 형식에 따라 공간 음향을 합성하는 데 활용될 수 있다.
따라서, 주파수 대역에서 방향 및 총 에너지 대 방향 에너지 비(direct-to total energy ratio)는 공간 오디오 캡처에 특히 효과적인 파라미터화이다.
주파수 대역에서의 방향 파라미터 및 주파수 대역에서의 에너지 비 파라미터(음향의 방향성(directionality)을 표시함)를 포함하는 파라미터 세트는 오디오 코덱에 대한 공간 메타데이터(서라운드 코히어런스(surround coherence), 스프레드 코히어런스(spread coherence), 방향의 수, 거리 등과 같은 다른 파라미터도 포함할 수 있음)로서 활용될 수도 있다. 예를 들어, 이들 파라미터는 마이크로폰 어레이에서 캡처된 오디오 신호로부터 추정될 수 있고, 예를 들어 스테레오 또는 모노 신호는 공간 메타데이터로 전달될 마이크로폰 어레이 신호에서 생성될 수 있다. 스테레오 신호는 예를 들어 AAC 인코더로 인코딩될 수 있고, 모노 신호는 EVS 인코더로 인코딩될 수 있다. 디코더는 오디오 신호를 PCM 신호로 디코딩할 수 있고, 공간 출력, 가령 바이노럴 출력을 획득하기 위해 주파수 대역에서 (공간 메타데이터를 사용하여) 신호를 처리할 수 있다.
앞서 언급한 해법은 특히 마이크로폰 어레이(가령, 휴대폰, VR 카메라, 독립형 마이크로폰 어레이)에서 캡처된 공간 신호를 인코딩하는 데 적합하다. 그러나, 그러한 인코더가, 가령 라우드스피커 신호, 오디오 객체 신호 또는 앰비소닉 신호와 같이 마이크 어레이에서 캡처된 신호 이외의 다른 입력 유형도 갖는 것이 바람직할 수 있다.
공간 메타데이터 추출을 위한 1차 앰비소닉(first-order Ambisonics, FOA) 입력의 분석은 방향성 오디오 코딩(Directional Audio Coding, DirAC) 및 조화 평면파 확장(Hormonic planewave expansion, Harpex)에 관한 과학 문헌에 철저히 문서화되어 있다. FOA 신호(더 정확하게는, 그 변형, B-포맷 신호)를 직접적으로 제공하는 마이크로폰 어레이가 존재하기 때문에 이러한 입력을 분석하는 것이 따라서 본 기술 분야에서 연구 포인트였다.
인코더에 대한 추가 입력은 또한 5.1 또는 7.1 서라운드 입력과 같은 다채널 라우드스피커 입력이다.
그러나, 공간 메타데이터의 구성 요소에 관해 코히어런스 파라미터의 압축 및 인코딩은 공간 오디오 파라미터를 나타내는 데 필요한 전체 비트의 수를 최소화하기 위한 상당히 중요한 관심사이다.
제 1 측면에 따르면, 하나 이상의 오디오 신호에 대해, 공간 오디오 재생을 제공하기 위한 공간 오디오 파라미터를 서브밴드 단위로 수신하거나 결정하는 수단 - 공간 오디오 파라미터는 프레임의 복수의 서브밴드의 각 서브밴드에 대한 코히어런스 값을 포함함 - 과, 프레임의 복수의 서브밴드의 코히어런스 값에 대한 유의성(significance) 척도를 결정하는 수단과, 유의성 척도를 사용하여 프레임의 복수의 서브밴드의 코히어런스 값의 인코딩 여부를 결정하는 수단을 포함하는, 공간 오디오 인코딩을 위한 장치가 제공된다.
이 장치는 복수의 서브밴드 각각에 대한 에너지 비(energy ratio) 값을 수신하는 수단을 더 포함할 수 있으며, 프레임의 복수의 서브밴드의 코히어런스 값을 위한 유의성 척도를 결정하는 수단은, 복수의 서브밴드 각각에 대한 코히어런트(coherent) 비방향성 에너지의 비율을 결정하는 수단 - 하나의 서브밴드에 대한 코히어런트 비방향성 에너지의 비율은 하나의 서브밴드에 대한 비방향성 에너지 비에 하나의 서브밴드에 대한 코히어런스 값을 곱하여 결정되며, 비방향성 에너지 비는 하나의 서브밴드에 대한 에너지 비 값이 제거되고 난 이후에 남은 하나의 서브밴드의 에너지 비와 관련됨 - 과, 모든 복수의 서브밴드에 대해, 코히어런트 비방향성 에너지의 결정된 비율을 합산하는 수단을 포함할 수 있다.
프레임의 복수의 서브밴드의 코히어런스 값에 대한 유의성 척도를 결정하는 수단은, 각각의 서브밴드에 대해, 코히어런트 비방향성 에너지의 비율에 비방향성 에너지 비를 곱하는 수단과, 복수의 서브밴드 전부에 대해, 각각의 서브밴드에 대한 비방향성 에너지 비와 코히어런트 비방향성 에너지의 비율의 곱을 합산하는 수단과, 합산된 각각의 서브밴드에 대한 비방향성 에너지 비와 코히어런트 비방향성 에너지 비의 곱을, 각 서브밴드에 대한 비방향성 에너지 비의 합계로 정규화(normalize)하는 수단을 더 포함할 수 있다.
프레임의 복수의 서브밴드의 코히어런스 값에 대한 유의성 척도는 프레임의 복수의 서브밴드의 코히어런스 값에 대한 제 1 유의성 척도일 수 있다.
프레임의 복수의 서브밴드의 코히어런스 값에 대한 유의성 척도는 프레임의 복수의 서브밴드의 코히어런스 값에 대한 제 2 유의성 척도일 수 있다.
프레임의 복수의 서브밴드의 코히어런스 값에 대한 유의성 척도를 결정하는 수단은, 프레임의 복수의 서브밴드의 코히어런스 값에 대한 유의성 척도를 제 1 유의성 척도와 제 2 유의성 척도의 최댓값으로 결정하는 수단을 포함한다.
유의성 척도를 사용하여 프레임의 복수의 서브밴드의 코히어런스 값을 인코딩할 지 여부를 결정하는 수단은, 유의성 척도를 임계값과 비교하는 수단과, 유의성 척도가 임계값을 초과하는 경우 프레임의 복수의 서브밴드의 코히어런스 값을 인코딩하는 수단을 포함할 수 있다.
복수의 서브밴드 각각에 대한 코히어런스 값은 서라운딩 코히어런스 값(surrounding coherence value)일 수 있으며, 서라운드 코히어런스 값은 둘 이상의 채널 오디오 신호 사이의 인터-채널 코히어런스에 기초하여 결정될 수 있다.
복수의 서브밴드 각각의 서라운딩 코히어런스 값은 둘 이상의 채널 오디오 신호와 관련된 공분산(covariance) 매트릭스를 계산하고, 공분산 매트릭스와 다른 채널 오디오 신호의 서브세트에 기초하여 결정된 가장 큰 에너지를 갖는 채널 오디오 신호를 모니터링하며 - 서브세트는 두 번째로 큰 에너지를 갖는 채널 오디오 신호들의 총 수보다 1 작은 수와 1 사이에서 결정된 수임 -, 가장 큰 에너지를 갖는 채널 오디오 신호와 두 번째로 큰 에너지를 갖는 채널 오디오 신호들 각각의 사이에서 결정된 정규화된 코히어런스의 최솟값의 선택에 기초하여 서라운딩 코히어런스 파라미터를 생성하는 수단을 포함하는 장치에 의해 결정될 수 있다.
서브밴드 각각에 대한 에너지 비 값은 서브밴드 각각에 대한 총 에너지 대 방향 에너지의 비 값일 수 있다.
서브밴드에 대한 비방향성 에너지 비는 1에서 서브밴드에 대한 총 에너지 대 방향 에너지 비를 뺀 값으로 결정될 수 있다.
제 2 측면에 따르면, 하나 이상의 오디오 신호에 대해, 공간 오디오 재생을 제공하기 위한 공간 오디오 파라미터를 서브밴드 단위로 수신하거나 결정하는 단계 - 공간 오디오 파라미터는 프레임의 복수의 서브밴드의 각 서브밴드에 대한 코히어런스 값을 포함함 - 와, 프레임의 복수의 서브밴드의 코히어런스 값에 대한 유의성(significance) 척도를 결정하는 단계와, 유의성 척도를 사용하여 프레임의 복수의 서브밴드의 코히어런스 값을 인코딩할 지 여부를 결정하는 단계를 포함하는, 공간 오디오 인코딩을 위한 방법이 제공된다.
이 방법은 복수의 서브밴드 각각에 대한 에너지 비(energy ratio) 값을 수신하는 단계를 더 포함할 수 있으며, 프레임의 복수의 서브밴드의 코히어런스 값에 대한 유의성 척도를 결정하는 단계는, 복수의 서브밴드 각각에 대한 코히어런트(coherent) 비방향성 에너지의 비율을 결정하는 단계 - 하나의 서브밴드에 대한 코히어런트 비방향성 에너지의 비율은 하나의 서브밴드에 대한 비방향성 에너지 비에 서브밴드에 대한 코히어런스 값을 곱하여 결정되며, 비방향성 에너지 비는 하나의 서브밴드에 대한 에너지 비 값이 제거되고 난 이후에 남은 하나의 서브밴드의 에너지 비와 관련됨 - 와, 모든 복수의 서브밴드에 대해, 코히어런트 비방향성 에너지의 결정된 비율을 합산하는 단계를 더 포함할 수 있다.
프레임의 복수의 서브밴드의 코히어런스 값에 대한 유의성 척도를 결정하는 단계는, 각각의 서브밴드에 대해, 코히어런트 비방향성 에너지의 비율에 비방향성 에너지 비를 곱하는 단계와, 복수의 서브밴드 전부에 대해, 각각의 서브밴드에 대한 비방향성 에너지 비와 코히어런트 비방향성 에너지의 비율의 배수를 합산하는 단계와, 합산된 각각의 서브밴드에 대한 비방향성 에너지 비와 코히어런트 비방향성 에너지 비의 배수를, 각 서브밴드에 대한 비방향성 에너지 비의 합계로 정규화(normalize)하는 단계를 더 포함할 수 있다.
프레임의 복수의 서브밴드의 코히어런스 값에 관한 유의성 척도는 프레임의 복수의 서브밴드의 코히어런스 값에 대한 제 1 유의성 척도일 수 있다.
프레임의 복수의 서브밴드의 코히어런스 값에 관한 유의성 척도는 프레임의 복수의 서브밴드의 코히어런스 값에 대한 제 2 유의성 척도일 수 있다.
프레임의 복수의 서브밴드의 코히어런스 값에 관한 유의성 척도를 결정하는 단계는, 프레임의 복수의 서브밴드의 코히어런스 값에 관한 유의성 척도를 제 1 유의성 척도와 제 2 유의성 척도의 최댓값으로 결정하는 단계를 포함한다.
유의성 척도를 사용하여 프레임의 복수의 서브밴드의 코히어런스 값을 인코딩할 지 여부를 결정하는 단계는, 유의성 척도를 임계값과 비교하는 단계와, 유의성 척도가 임계값을 초과하는 경우 프레임의 복수의 서브밴드의 코히어런스 값을 인코딩하는 단계를 포함할 수 있다.
복수의 서브밴드 각각에 대한 코히어런스 값은 서라운딩 코히어런스 값(surrounding coherence value)일 수 있으며, 서라운드 코히어런스 값은 둘 이상의 채널 오디오 신호 사이의 인터-채널 코히어런스에 기초하여 결정될 수 있다.
복수의 서브밴드 각각의 서라운딩 코히어런스 값은 둘 이상의 채널 오디오 신호와 관련된 공분산(covariance) 매트릭스를 계산하는 단계와, 공분산 매트릭스와 다른 채널 오디오 신호의 서브세트에 기초하여 결정된 가장 큰 에너지를 갖는 채널 오디오 신호를 모니터링하는 단계와 - 서브세트는 두 번째로 큰 에너지를 갖는 채널 오디오 신호들의 총 수보다 1 작은 수와 1 사이에서 결정된 수임 -, 가장 큰 에너지를 갖는 채널 오디오 신호와 두 번째로 큰 에너지 채널 오디오 신호들 각각의 사이에서 결정된 정규화된 코히어런스의 최솟값을 선택하는 것에 기초하여 서라운딩 코히어런스 파라미터를 생성하는 단계를 포함하는 장치에 의해 결정될 수 있다.
서브밴드 각각에 대한 에너지 비 값은 서브밴드 각각에 대한 총 에너지 대 방향 에너지의 비 값일 수 있다.
서브밴드에 대한 비방향성 에너지 비는 1에서 서브밴드에 대한 총 에너지 대 방향 에너지 비를 뺀 값으로 결정될 수 있다.
제 3 측면에 따르면, 하나 이상의 프로세서와, 컴퓨터 프로그램 코드를 포함하는 하나 이상의 메모리를 포함하는 장치로서, 하나 이상의 메모리와 컴퓨터 코드는, 하나 이상의 오디오 신호에 대해, 공간 오디오 재생을 제공하기 위한 공간 오디오 파라미터를 서브밴드 단위로 수신하거나 결정 - 공간 오디오 파라미터는 프레임의 복수의 서브밴드의 각 서브밴드에 대한 코히어런스 값을 포함함 - 하고, 프레임의 복수의 서브밴드의 코히어런스 값을 위해 유의성(significance) 척도를 결정하며, 유의성 척도를 사용하여, 프레임의 복수의 서브밴드의 코히어런스 값을 인코딩할 지 여부를 결정하도록 구성되는, 공간 오디오 인코딩을 위한 장치가 제공된다.
이 장치는 복수의 서브밴드 각각에 대한 에너지 비(energy ratio) 값을 수신하도록 더 야기될 수 있으며, 프레임의 복수의 서브밴드의 코히어런스 값에 대한 유의성 척도를 결정하도록 야기되는 장치는, 복수의 서브밴드 각각에 대한 코히어런트(coherent) 비방향성 에너지의 비율을 결정 - 하나의 서브밴드에 대한 코히어런트 비방향성 에너지의 비율은 하나의 서브밴드에 대한 비방향성 에너지 비에 하나의 서브밴드에 대한 코히어런스 값을 곱하여 결정되며, 비방향성 에너지 비는 하나의 서브밴드에 대한 에너지 비 값이 제거되고 난 이후에 남은 하나의 서브밴드의 에너지 비와 관련됨 - 하고, 모든 복수의 서브밴드에 대해, 결정된 코히어런트 비방향성 에너지의 비율을 합산하도록 야기될 수 있다.
프레임의 복수의 서브밴드의 코히어런스 값에 대한 유의성 척도를 결정하도록 야기되는 장치는, 각각의 서브밴드에 대해, 코히어런트 비방향성 에너지의 비율에 비방향성 에너지 비를 곱하며, 복수의 서브밴드 전부에 대해, 각각의 서브밴드에 대한 비방향성 에너지 비와 코히어런트 비방향성 에너지의 비율의 곱을 합산하고, 합산된 각각의 서브밴드에 대한 비방향성 에너지 비와 코히어런트 비방향성 에너지 비의 곱을, 각 서브밴드에 대한 비방향성 에너지 비의 합계로 정규화(normalize)하도록 더 야기될 수 있다.
프레임의 복수의 서브밴드의 코히어런스 값에 대한 유의성 척도는 프레임의 복수의 서브밴드의 코히어런스 값에 대한 제 1 유의성 척도일 수 있다.
프레임의 복수의 서브밴드의 코히어런스 값에 대한 유의성 척도는 프레임의 복수의 서브밴드의 코히어런스 값에 대한 제 2 유의성 척도일 수 있다.
프레임의 복수의 서브밴드의 코히어런스 값에 대한 유의성 척도를 결정하도록 야기되는 장치는, 프레임의 복수의 서브밴드의 코히어런스 값에 대한 유의성 척도를 제 1 유의성 척도와 제 2 유의성 척도의 최댓값으로 결정하도록 야기될 수 있다.
유의성 척도를 사용하여 프레임의 복수의 서브밴드의 코히어런스 값을 인코딩할 지 여부를 결정하도록 야기되는 장치는, 유의성 척도를 임계값과 비교하고, 유의성 척도가 임계값을 초과하는 경우 프레임의 복수의 서브밴드의 코히어런스 값을 인코딩하도록 야기될 수 있다.
복수의 서브밴드 각각에 대한 코히어런스 값은 서라운딩 코히어런스 값(surrounding coherence value)일 수 있으며, 서라운드 코히어런스 값은 둘 이상의 채널 오디오 신호 사이의 인터-채널 코히어런스에 기초하여 결정될 수 있다.
복수의 서브밴드 각각에 대한 서라운딩 코히어런스 값은, 둘 이상의 채널 오디오 신호와 관련된 공분산(covariance) 매트릭스를 계산하고, 공분산 매트릭스와 다른 채널 오디오 신호의 서브세트에 기초하여 결정된 가장 큰 에너지를 갖는 채널 오디오 신호를 모니터링하며 - 서브세트는 두 번째로 큰 에너지를 갖는 채널 오디오 신호들의 총 수보다 1 작은 수와 1 사이에서 결정된 수임 -, 가장 큰 에너지를 갖는 채널 오디오 신호와 두 번째로 큰 에너지 채널 오디오 신호들 각각의 사이에서 결정된 정규화된 코히어런스의 최솟값을 선택하는 것에 기초하여 서라운딩 공분산 파라미터를 생성하도록 야기되는 장치에 의해 결정될 수 있다.
서브밴드 각각에 대한 에너지 비 값은 서브밴드 각각에 대한 총 에너지 대 방향 에너지의 비 값일 수 있다.
서브밴드에 대한 비방향성 에너지 비는 1에서 서브밴드에 대한 총 에너지 대 방향 에너지 비를 뺀 값으로 결정될 수 있다.
컴퓨터 프로그램은 이상에서 설명된 방법을 컴퓨터가 수행하게 하기 위한 프로그램 명령어를 포함한다.
매체에 저장된 컴퓨터 프로그램 제품은 장치가 본 명세서에서 설명된 방법을 수행하게 한다.
본 출원의 나은 이해를 위해, 이제 예로서 다음과 같은 첨부 도면을 참조할 것이다.
도 1은 일부 실시예를 구현하는 데 적합한 장치의 시스템을 개략적으로 도시한다.
도 2는 일부 실시예에 따른 메타데이터 인코더를 개략적으로 도시한다.
도 3은 일부 실시예에 따라 도 2에 도시된 바와 같은 메타데이터 인코더의 동작의 흐름도를 도시한다.
도 4는 일부 실시예에 따라 도 2에 도시된 코히어런스 인코더를 개략적으로 도시한다.
도 5는 일부 실시예에 따라 도 4에 도시된 코히어런스 값 유의성 결정기(coherence values significance determiner)의 동작의 흐름도를 도시한다.
도 6은 일부 실시예에 따라 도 4에 도시된 코히어런스 값 인코딩 결정기의 동작의 흐름도를 도시한다.
도 7은 도시된 장치를 구현하는데 적합한 예시 기기를 개략적으로 도시한다.
다음은 효과적인 공간 분석 파생 메타데이터 파라미터를 제공하기 위한 적절한 장치 및 가능한 메커니즘을 더 자세히 설명한다. 다음 논의에서 다채널 시스템은 다채널 마이크로폰 구현과 관련하여 논의된다. 그러나 위에서 논의된 바와 같이 입력 형식은 다채널 라우드스피커, 앰비소닉(FOA/HOA) 등과 같은 임의의 적절한 입력 형식일 수 있다. 일부 실시예에서 채널 위치는 마이크로폰의 위치에 기반하거나 가상의 위치 또는 방향이라는 것이 이해된다. 또한, 예시 시스템의 출력은 다채널 라우드스피커 배열이다. 그러나, 출력은 라우드스피커 이외의 수단을 통해 사용자에게 제공될 수 있다는 것이 이해된다. 또한, 다채널 라우드스피커 신호는 둘 이상의 플레이백 오디오 신호로 일반화될 수 있다.
메타데이터는, 각각의 고려된 시간-주파수(TF) 블록 또는 타일, 다시 말해 시간/주파수 서브밴드에 대한 방향(고도, 방위각), 결과 방향의 에너지 비, 및 방향과 독립적인 서라운드 코히어런스 중 하나 이상을 포함한다. 또한, 스프레드 코히어런스가 각 TF 블록에 대해 결정되고 포함될 수 있다. 이러한 데이터 모두는 인코더에 의해 인코딩되고 전송(또는 저장)되어, 디코더에서 공간 신호를 재구성할 수 있다.
코덱의 일반적인 전체 작동 비트레이트는 공간 메타데이터의 전송/저장을 위해 2~10kbps를 남길 수 있다. 그러나, 일부 추가 구현예는 공간 메타데이터의 전송/저장을 위해 20kbps까지 남길 수 있다. 방향 파라미터 및 에너지 비 구성요소의 인코딩은 이전에 검토되었다. 그러나, 코히어런스 데이터의 인코딩은 공간 메타데이터의 인코딩을 위해 필요한 전체 작동 비트레이트를 최소화하기 위해 추가적인 연구가 필요하다.
이후에 논의될 개념은 각각의 시간-주파수 블록에 대해 방향 및 에너지 비 파라미터와 함게 코히어런스 파라미터를 인코딩하는 것이다. 특정 시나리오에서 청취자에 대한 주관적 유의성(subjective significance)에 따라 프레임에 대한 코히어런스 파라미터의 인코딩을 조절하는 것이 가능할 수 있다. 예를 들어, 오디오 프레임에 대해, 각각의 서브밴드에 대한 코히어런스 파라미터는 주변(surrounding) 서브밴드에 관한 주관적 유의성에 기여하지 않을 수 있다고 결정될 수 있다. 이러한 경우 프레임에 대한 코히어런스 파라미터를 인코딩하지 않음으로써 작동 비트레이트를 절약할 수 있다.
따라서, 본 발명은 특정 상황에 대해 코히어런스 파라미터를 인코딩하는 데 사용되는 비트의 수를 전반적으로 절약한다는 생각에서 출발한다. 이는 주변 서브밴드에 관하여 각 서브밴드의 코히어런스 값의 주관적 유의성의 표시를 제공하는 척도를 가짐으로써 및 척도의 결과를 사용하여 코히어런스 파라미터가 프레임을 위해 인코딩되어야 하는지를 결정하여 달성될 수 있다.
이와 관련하여 도 1은 어플리케이션의 실시예를 구현하기 위한 예시적인 장치 및 시스템을 도시한다. 시스템(100)은 '분석' 부분(121)과 '합성' 부분(131)으로 도시된다. '분석' 부분(121)은 다채널 라우드스피커 신호 수신부터 메타데이터 및 다운믹스 신호의 인코딩까지의 부분이며, '합성' 부분(131)은 인코딩된 메타데이터 및 다운믹스 신호부터 (가령 다채널 라우드스피커 형식에서) 재생성된 신호의 프레젠테이션까지이다.
시스템(100) 및 '분석' 부분(121)의 입력은 다채널 신호(102)이다. 다음의 예에서는 마이크로폰 채널 신호 입력이 설명되지만, 임의의 적절한 입력(또는 합성 다채널) 형식이 다른 실시예에서 구현될 수도 있다. 예를 들어, 일부 실시예에서 공간 분석기 및 공간 분석은 인코더 외부에서 구현될수 있다. 예를 들어, 일부 실시예에서 오디오 신호와 관련된 공간 메타데이터는 개별 비트스트림으로 인코더에 제공될 수 있다. 일부 실시예에서 공간 메타데이터는 공간 (방향) 인덱스 값의 세트로 제공될 수 있다.
다채널 신호는 전송 신호 생성기(103) 및 분석 프로세서(105)로 전달된다.
일부 실시예에서 전송 신호 생성기(103)는 다채널 신호를 수신하고 결정된 수의 채널을 포함하는 적절한 전송 신호를 생성하며 전송 신호(104)를 출력하도록 구성된다. 예를 들어, 전송 신호 생성기(103)는 다채널 신호의 2-오디오 채널 다운믹스를 생성하도록 구성될 수 있다. 결정된 수의 채널은 임의의 적절한 수의 채널일 수 있다. 일부 실시예에서 전송 신호 생성기는 그렇지 않으면 가령 빔포밍 기법으로 입력 오디오 신호를 결정된 수의 채널로 선택 또는 결합하며 이를 전송 신호로 출력하도록 구성된다.
일부 실시예에서 전송 신호 생성기(103)는 선택적이며, 다채널 신호는 이 예에서의 전송 신호와 동일한 방식으로 인코더(107)에 처리되지 않고 전달된다.
일부 실시예에서 분석 프로세서(105)는 또한 다채널 신호를 수신하고 신호를 분석하여 다채널 신호 및 따라서 전송 신호(104)와 관련된 메타데이터(106)를 생성하도록 구성된다. 분석 프로세서(105)는 각 시간-주파수 분석 인터벌에 대해 방향 파라미터(108)와 에너지 비 파라미터(110)와 코히어런스 파라미터(112)(및 일부 실시예에서는 확산(diffuseness) 파라미터)를 포함할 수 있는 메타데이터를 생성하도록 구성될 수 있다. 일부 실시예에서 방향, 에너지 비 및 코히어런스 파라미터는 공간 오디오 파라미터로 고려될 수 있다. 다시 말해, 공간 오디오 파라미터는 다채널 신호 (또는 일반적으로 둘 이상의 플레이백 오디오 신호)에 의해 생성된 음장의 특징을 나타내도록 하는 파라미터를 포함한다.
일부 실시예에서 생성된 파라미터는 주파수 대역에 따라 다를 수 있다. 따라서, 예를 들어 대역 X에서 모든 파라미터가 생성되고 전송되는 반면, 대역 Y에서는 파라미터 중 하나만 생성되고 전송되며, 대역 Z에서는 어느 파라미터도 생성되고 전송되지 않는다. 이것의 실제적인 예시는 가장 높은 대역과 같은 일부 주파수 대역에 대해 파라미터 일부가 지각적(perceptual) 이유로 필요하지 않다는 것일 수 있다. 전송 신호(104) 및 메타데이터(106)는 인코더(107)로 전달될 수 있다.
인코더(107)는 전송(예를 들어 다운믹스) 신호(104)를 수신하고 이러한 오디오 신호의 적절한 인코딩을 생성하도록 구성된 오디오 인코더 코어(109)를 포함할 수 있다. 일부 실시예에서 인코더(107)는 (메모리 또는 하나 이상의 프로세서에 저장된 적절한 소프트웨어를 실행하는) 컴퓨터일 수도 있고, 대안적으로, 가령 FPGA 또는 ASIC을 활용하는 특정 기기일 수도 있다. 인코딩은 임의의 적절한 체계를 사용하여 구현될 수 있다. 인코더(107)는 따라서 메타데이터를 수신하고 인코딩된 또는 압축된 정보의 형태를 출력도록 구성된 메타데이터 인코더/양자화기(111)를 포함할 수 있다. 일부 실시예에서 인코더(107)는 도 1에 점선으로 표시된 전송 또는 저장 전에, 인코딩된 다운믹스 신호 내에 메타데이터를 추가로 임베딩하거나, 단일 데이터 스트림으로 멀티플렉싱하거나 또는 인터리빙(interleave)할 수 있다. 멀티플렉싱은 임의의 적절한 체계를 사용하여 구현될 수 있다.
디코더 측면에서, 수신된 또는 검색된 데이터 (스트림)은 디코더/디멀티플렉서(133)에 의해 수신될 수 있다. 디코더/디멀티플렉서(133)는 인코딩된 스트림을 디멀티플렉싱하고, 오디오 인코딩된 스트림을 전송 신호를 획득하기 위해 오디오 신호를 디코딩하도록 구성된 전송 추출기(135)로 전달할 수 있다. 유사하게, 디코더/디멀티플렉서(133)는 인코딩된 메타데이터를 수신하고 메타데이터를 생성하도록 구성된 메타데이터 추출기(137)를 포함할 수 있다. 일부 실시예에서 디코더/디멀티플렉서(133)는 (메모리 또는 하나 이상의 프로세서에 저장된 적절한 소프트웨어를 실행하는) 컴퓨터일 수도 있고, 대안적으로, 가령 FPGA 또는 ASIC을 활용하는 특정 기기일 수도 있다.
디코딩된 메타데이터 및 전송 오디오 신호는 합성 프로세서(139)로 전달될 수 있다.
시스템(100)의 '합성' 부분(131)은 전송 및 메타데이터를 수신하고 전송 신호 및 메타데이터에 기초하여 다채널 신호(110) (다채널 라우드스피커 형태일 수도 있고, 일부 실시예에서는 사용 사례에 따라 바이노럴 또는 앰비소닉 신호와 같은 임의의 적절한 출력 형식일 수 있음)의 형태로 합성된 공간 오디오를 임의의 적절한 형식으로 재생성하도록 구성된 합성 프로세서(139)를 더 도시한다.
따라서, 요약하면 첫째로 시스템(분석 부분)은 다채널 오디오 신호를 수신하도록 구성된다.
그 후 시스템(분석 부분)은 (예를 들어 오디오 채널 신호의 일부를 선택하거나 다운믹싱하여) 적절한 전송 오디오 신호를 생성하도록 구성된다.
시스템은 그 후 전송 신호와 메타데이터를 저장/송신하기 위해 인코딩하도록 구성된다.
이후 시스템은 인코딩된 전송 및 메타데이터를 저장/송신할 수 있다.
시스템은 인코딩된 전송 및 메타데이터를 검색/수신할 수 있다.
이후 시스템은 인코딩된 전송 및 메타데이터 파라미터로부터 전송 및 메타데이터를 추출하도록, 예를 들어 인코딩된 전송 및 메타데이터 파라미터를 디멀티플렉싱 및 디코딩하도록 구성된다.
시스템(합성 부분)은 추출된 전송 오디오 신호 및 메타데이터에 기초하여 출력 다채널 오디오 신호를 합성하도록 구성된다.
도 2에 관하여, 일부 실시예에 따른 (도 1에 도시된 바와 같은) 예시 분석 프로세서(105) 및 메타데이터 인코더/양자화기(111)가 더 상세히 설명된다.
일부 실시예에서 분석 프로세서(105)는 시간-주파수 도메인 변환기(201)를 포함한다.
일부 실시예에서 시간-주파수 도메인 변환기(201)는 다채널 신호(102)를 수신하고 국소 푸리에 변환(STFT)과 같은 적절한 시간-주파수 도메인 변환을 적용하여 입력 시간 도메인 신호를 적절한 시간-주파수 신호로 변환하도록 구성된다. 이러한 시간-주파수 신호는 공간 분석기(203)으로 전달될 수 있다.
따라서 예를 들어, 시간-주파수 신호(202)는 시간-주파수 도메인 표현
Si(b, n)
으로 표현될 수 있으며, b는 주파수 빈 인덱스(frequency bin index)이고 n은 시간-주파수 블록(프레임) 인덱스이며 i는 채널 인덱스이다. 다른 표현에서, n은 원래 시간 도메인 신호보다 샘플링 레이트가 낮은 시간 인덱스로 고려될 수 있다. 이러한 주파수 빈은 하나 이상의 빈을 밴드 인덱스 k=0,...,K-1의 서브밴드로 그룹화하는 서브밴드로 그룹화될 수 있다. 각 서브밴드 k는 가장 낮은 빈 bk,low과 가장 높은 빈 bk,high을 가지며, 서브밴드는 bk,low부터 bk,high까지의 모든 빈을 포함한다. 서브밴드의 폭은 예를 들어 ERB(Equivalent rectangular bandwidth) 스케일 또는 바크 스케일(Bark scale)과 같은 임의의 적절한 분포에 가까울 수 있다.
일부 실시예에서 분석 프로세서(105)는 공간 분석기(203)를 포함한다. 공간 분석기(203)는 시간-주파수 신호(202)를 수신하고 이들 신호에 기초하여 방향 파라미터(108)를 추정하도록 구성될 수 있다. 방향 파라미터는 임의의 오디오 기반 '방향' 결정에 기초하여 결정될 수 있다.
예를 들어, 일부 실시예에서 공간 분석기(203)는 둘 이상의 신호 입력으로 방향을 추정하도록 구성된다. 이는 '방향'을 추정하는 가장 간단한 구성을 나타내며, 보다 많은 신호로 보다 복잡한 프로세싱이 수행될 수 있다.
공간 분석기(203)는 따라서 오디오 신호의 프레임 내의 각 주파수 밴드와 임시 시간-주파수 블록에 대해 하나 이상의 방위각과 고도를 제공하도록 구성될 수 있으며, 방위각은
Figure 112021123258367-pct00001
및 고도는
Figure 112021123258367-pct00002
으로 표시된다. 방향 파라미터(108)는 또한 방향 인코더(205)로 전달 될 수 있다.
공간 분석기(203)는 또한 에너지 비 파라미터(110)를 결정하도록 구성될 수 있다. 에너지 비는 한 방향에서 도달하는 것으로 고려될 수 있는 오디오 신호의 에너지의 결정으로 고려될 수 있다. 가령, 방향성 추정의 안정성 척도 또는 다른 상관관계 척도를 사용하거나 비 파라미터를 획득하기 위한 다른 임의의 적절한 방법을 사용하여 총 에너지 대 방향 에너지 비 r(k,n)을 추정할 수 있다. 각각의 총 에너지 대 방향 에너지 비는 특정 공간 방향에 대응하며, 총 에너지와 비교하여 얼마나 많은 에너지가 특정 공간 방향에서 오는지를 설명한다. 이 값은 각 시간-주파수 타일에 대해 개별적으로 표시될 수 있다. 공간 방향 파라미터 및 총 에너지 대 방향 에너지 비는 각 시간-주파수 타일에 대해 얼마나 많은 총 에너지가 공간 방향에서 오는지를 설명한다. 일반적으로, 공간 방향 파라미터는 또한 DOA(direction of arrival)로 생각될 수 있다.
실시예들에서 총 에너지 대 방향 에너지 비 파라미터는 밴드 k에서의 마이크로폰 쌍 사이의 정규화 교차상관관계 파라미터(normalize cross-correlation parameter) cor'(k,n)에 기초하여 추정될 수 있고, 교차상관관계 파라미터의 값은 -1과 1 사이에 있다. 총 에너지 대 방향 에너지 비 파라미터 r(k,n)은 정규화 교차상관관계 파라미터를 확산 장(diffuse field) 정규화 교차상관관계 파라미터 cor'D(k,n)과 비교하여
Figure 112021123258367-pct00003
로서 결정될 수 있다. 총 에너지 대 방향 에너지 비는 본 명세서에서 참조로 통합된 PCT 특허출원공개 WO2017/005978에 더 설명된다.
에너지 비는 에너지 비 인코더(207)에 전달될 수 있다.
공간 분석기(203)는 또한 서라운딩 코히어런스(
Figure 112021123258367-pct00004
)와 스프레드 코히어런스(
Figure 112021123258367-pct00005
)(둘 모두는 시간-주파수 도메인에서 분석됨)를 포함할 수 있는 다수의 코히어런스 파라미터(112)를 결정하도록 구성될 수 있다.
앞서 언급한 각각의 코히어런스 문제 파라미터가 다음에 논의된다. 모든 프로세싱은 시간-주파수 도메인에서 수행되므로, 간결성을 위해 필요한 경우 시간-주파수 인덱스 k 및 n이 삭제된다.
먼저 하나의 라우드스피커 대신 두 개의 이격된 라우드스피커(가령, 전면 왼쪽 및 오른쪽)를 사용하여 음향이 일관성 있게 재생되는 상황을 고려한다. 코히어러스 분석기는 이러한 방법이 서라운드 믹싱에서 적용되었다는 것을 감지하도록 구성될 수 있다.
따라서 일부 실시예에서 공간 분석기(203)는 하나 이상의 시간 인덱스 n 및 주파수 빈 b를 포함하는 주어진 분석 인터벌에 대해 공분산 매트릭스 C를 계산하도록 구성될 수 있다. 매트릭스의 크기는 NL x NL이며, 항목은 cij로 표시되고, NL은 라우드스피커 채널의 수이며, i 및 j는 라우드스피커 채널 인덱스이다.
다음으로, 공간 분석기(203)는 추정된 방향(이 예시에서는 방위각
Figure 112021123258367-pct00006
)과 가장 가까운 라우드스피커 채널 ic을 결정하도록 구성된다.
ic = arg(min(|
Figure 112021123258367-pct00007
- ai|))이며, ai는 라우드스피커 i의 각도이다.
또한, 이러한 실시예들에서 공간 분석기(203)는 라우드스피커의 왼쪽 il 면과 오른쪽 ir 면에 가장 가까운 라우드스피커 ic를 결정하도록 구성된다.
라우드스피커 i 및 j 사이의 정규화 코히어런스는
Figure 112021123258367-pct00008
로 표시되고, 이 식을 사용하여, 공간 분석기(203)는 il과 ir 사이의 정규화 코히어런스 c'lr를 계산하도록 구성될 수 있다. 즉,
Figure 112021123258367-pct00009
을 계산한다.
또한, 공간 분석기(203)는 공분산 매트릭스의 대각성분을 사용하여 라우드스피커 채널 i의 에너지를 결정하고,
Ei=cii
il과 ir 라우드스피커의 에너지 및 il, ir 및 ic 라우드스피커의 에너지 사이의 비를
Figure 112021123258367-pct00010
로 계산하도록 구성될 수 있다.
공간 분석기(203)는 그 후 이들 결정된 변수를 사용하여 '입체 음향(stereoness)' 파라미터
Figure 112021123258367-pct00011
를 생성할 수 있다.
이 '입체 음향' 파라미터는 0과 1 사이의 값을 갖는다. 1 값은 라우드스피커 il과 ir에 코히어런트 음향이 있고 이 음향은 이 영역의 에너지를 지배한다는 의미이다. 예를 들어, 그 이유는 음향에 대한 "공중(airy)"이라는 지각(perception)을 만들기 위해 진폭 패닝 기법을 사용하는 라우드스피커 믹스 때문일 수 있다. 0 값은 이러한 기법이 적용되지 않았다는 것을 의미하고, 예를 들어, 음향은 단순히 가장 가까운 라우드스피커에 위치될 수 있다.
또한, 공간 분석기(203)는 "근접(close)"이라는 지각(가령, 센터만 사용하는 것이 아니라, 전면 좌측, 전면 우측 및 센터를 사용)을 만들기 위해 3개의 (또는 그 이상) 라우드스피커를 사용하여 음향을 일관성 있게 재생하는 상황을 감지하거나 적어도 식별하도록 구성될 수 있다. 이는 사운드믹싱 엔지니어가 다채널 라우드스피커 믹스를 서라운드 믹싱할때 이러한 상황을 생성하기 때문일 수 있다.
이러한 실시예들에서 먼저 식별된 동일한 라우드스피커 il, ir 및 ic는 코히어런스 분석기에 의해 사용되어, 앞서 논의된 정규화 코히어런스 결정을 사용해 정규화 코히어런스 값 c'cl 및 c'cr을 결정한다. 즉 다음의 값이 계산된다.
Figure 112021123258367-pct00012
,
Figure 112021123258367-pct00013
공간 분석기(203)는 그 후 이들 라우드스피커 사이의 코히어런스를 설명하는 정규화 코히어런스 값을 다음을 사용하여 결정할 수 있다.
c'clr = min(c'cl, c'cr)
또한, 공간 분석기(203)는 에너지가 채널 il, ir 및 ic 사이에 얼마나 고르게 분포되는지를 나타내는 파라미터를 결정하도록 구성될 수 있다.
Figure 112021123258367-pct00014
이들 변수를 사용하여, 공간 분석기(203)는 새로운 코히어런트 패닝 파라미터
Figure 112021123258367-pct00015
Figure 112021123258367-pct00016
로 결정할 수 있다.
이 코히어런트 패닝 파라미터
Figure 112021123258367-pct00017
는 0과 1 사이의 값을 갖는다. 1 값은 모든 라우드스피커 il, ir 및 ic에 코히어런트 음향이 있으며, 이들 음향의 에너지는 이들 라우드스피커 사이에서 고르게 분포된다는 것을 의미한다. 그 이유는 예를 들어 스튜디오 믹싱 기술을 사용하여 라우드스피커 믹스가 생성되어 음원이 더 가깝다는 지각을 만들기 때문일 수 있다. 0 값은 이러한 기법이 적용되지 않았다는 의미이며, 예를 들어, 소리는 단순히 가장 가까운 라우드스피커에 위치될 수 있다.
il 및 ir의(ic에는 아님) 코히어런트 음향의 양을 측정하는 "입체 음향" 파라미터
Figure 112021123258367-pct00018
와 il, ir 및 ic 코히어런트 음향의 양을 측정하는 코히어런트 패닝 파라미터
Figure 112021123258367-pct00019
를 결정하는 공간 분석기(203)는 이들을 사용하여 메타데이터로 출력될 코히어런스 파라미터를 결정한다.
따라서, 공간 분석기(203)는 "입체 음향" 파라미터
Figure 112021123258367-pct00020
와 코히어런트 패닝 파라미터
Figure 112021123258367-pct00021
를 조합하여 0에서 1 값을 갖는 스프레드 코히어런스
Figure 112021123258367-pct00022
파라미터를 만든다. 스프레드 코히어런스
Figure 112021123258367-pct00023
가 0 값인 경우 포인스 소스를 나타내며, 다시 말해, 음향이 가능한 한 적은 수의 라우드스피커로(가령, 라우드스피커 ic만 사용하여) 재생되어야 한다. 스프레드 코히어런스
Figure 112021123258367-pct00024
값이 증가함에 따라, 라우드스피커에서 보다 많은 에너지가 라우드스피커 ic 주변으로 확산된다. 값이 0.5가 되면, 에너지는 라우드스피커 il, ir 및 ic 사이에 고르게 확산된다. 스프레드 코히어런스
Figure 112021123258367-pct00025
가 0.5를 넘어 증가함에 따라, 라우드스피커 ic의 에너지가 감소하며, 값이 1이 되면, 라우드스피커 ic에는 에너지가 없으며, 모든 에너지는 라우드스피커 il과 ir에 있다.
앞서 언급한 파라미터
Figure 112021123258367-pct00026
Figure 112021123258367-pct00027
를 사용하여, 공간 분석기(203)는 일부 실시예에서 스프레드 코히어런스 파라미터
Figure 112021123258367-pct00028
를 다음 식을 사용해서 결정하도록 구성된다.
위 식은 예시에 불과하며 공간 분석기(203)는 이상의 파라미터의 정의를 따르는 한 스프레드 코히어런스 파라미터
Figure 112021123258367-pct00030
를 다른 방식으로 추정할 수 있음에 유의해야 한다.
공간 분석기(203)는 이전 상황을 감지하도록 구성될 뿐만 아니라, "인사이드-더-헤드(inside-the-head)", 또는 "보다 위(above)"라는 지각을 생성하기 위해 모든(또는 거의 모든) 확성기에서 음향이 일관되게(coherently) 재생되는 상황을 감지하거나 적어도 식별하도록 구성될 수 있다.
일부 실시예에서 공간 분석기(203)는 결정된 가장 큰 값을 갖는 라우드스피커 채널 ie 및 에너지 Ei를 분류하도록 구성될 수 있다.
공간 분석기(203)는 그 다음 이 채널과 다른 가장 큰 채널 ML 사이의 정규화된 코히어런스 c'ij를 결정하도록 구성 될 수 있다. 이 채널과 다른 가장 큰 채널 ML 사이의 정규화된 코히어런스 c'ij는 그 후 모니터링될 수 있다. 일부 실시예에서 ML은 NL-1일 수 있으며, 이는 가장 큰 채널과 다른 모든 라우드스피커 채널 사이의 코히어런스를 모니터링한다는 의미이다. 그러나, 일부 실시예에서 ML은 가령 NL-2와 같은 더 작은 수일 수 있다. 이러한 정규화된 코히어런스 값을 사용하여, 코히어런스 분석기는 서라운딩 코히어런스 파라미터
Figure 112021123258367-pct00031
를 다음 식을 사용해서 결정하도록 구성될 수 있으며,
c'iej는 가장 큰 채널과 다음으로 큰 채널 ML 사이의 정규화된 코히어런스이다.
서라운딩 코히어런스 파라미터
Figure 112021123258367-pct00033
는 0에서 1까지의 값을 갖는다. 1 값은 모든(또는 거의 모든) 라우드스피커 채널 사이에 코히어런스가 있다는 것을 의미한다. 0 값은 모든(또는 거의 모든) 라우드스피커 채널 사이에 코히어런스가 없다는 것을 의미한다.
위 식은 서라운딩 코히어런스
Figure 112021123258367-pct00034
를 추정하는 하나의 예시에 불과하며, 이상의 파라미터의 정의를 따르는 한 다른 방식으로도 추정할 수 있음에 유의해야 한다.
이에 따라 분석 프로세서(203)는 방향 및 에너지 비 파라미터를 결정하기 위해 방향 분석을 적용할 수 있다.
분석 프로세서(203)는 그 후 결정된 파라미터를 출력하도록 구성될 수 있다.
여기서 방향, 에너지 비, 및 코히어런스 파라미터가 각 시간 인덱스에 대해 표현되지만, 일부 실시예에서 이 파라미터들은 몇몇 시간 인덱스에 걸쳐 결합될 수 있다. 주파수 축에도 동일하게 적용되며, 여러 주파수 빈 b의 방향은 여러 주파수 빈 b로 구성된 밴드 k에서 하나의 방향 파라미터로 표현될 수 있다. 본 명세서에서 논의된 공간 파라미터 모두에 대해 동일하게 적용된다.
일부 실시예에서 방향성 데이터는 16비트를 사용하여 표현될 수 있다. 일부 실시예에서 에너지 비 파라미터는 8비트를 사용하여 표현될 수 있다. 각 프레임에 대해 5개의 서브밴드와 4개의 시간 주파수(TF) 블록이 있을 수 있다. 따라서 이 예시에서 각 프레임에 대해 압축되지 않은 방향 및 에너지 비 메타데이터를 저장하기 위해 (16+8)x4x5 비트가 필요하다. 각 TF 블록에 대한 코히어런스 데이터는 0과 1 사이의 표현일 수 있으며, 원래 8 비트로 표현될 수 있다.
도 2에 도시된 바와 같이, 일부 실시예에 따른 예시 메타데이터 인코더/양자화기(111)가 도시된다.
메타데이터 인코더/양자화기(111)는 방향 인코더(205)를 포함할 수 있다. 방향 인코더(205)는 방위각
Figure 112021123258367-pct00035
및 고도
Figure 112021123258367-pct00036
와 같은 방향 파라미터(108)(및 일부 실시예에서는 예측된 비트 할당)를 수신하고, 이를 통해 적절한 인코딩된 출력을 생성하도록 구성된다. 일부 실시예에서 인코딩은 결정된 양자화 해상도에 의해 정의된 룩업 테이블에 의해 정의되는 '표면' 구 상의 링으로 배열된 구형 격자를 형성하는 구의 배열에 기초한다. 다시 말해서, 구형 격자는 구를 더 작은 구로 덮고 더 작은 구의 중심을 거의 등거리 방향의 격자를 정의하는 점으로 간주하는 아이디어를 사용한다. 따라서 더 작은 구는 원뿔 또는 입체각을 임의의 적절한 인덱싱 알고리즘에 따라 인덱싱될 수 있는 중심점에 대해 정의한다. 구형 양자화가 여기에 설명되어 있지만, 임의의 적절한 양자화, 선형 또는 비선형이 사용될 수 있다.
또한, 일부 실시예에서 방향 인코더(205)는 방위각 파라미터 값의 분산을 결정하고 이를 코히어런스 인코더(209)에 전달하도록 구성된다.
인코딩된 방향 파라미터는 그 후 컴바이너(211)로 전달될 수 있다.
메타데이터 인코더/양자화기(111)는 에너지 비 인코더(207)를 포함할 수 있다. 에너지 비 인코더(207)는 에너지 비를 수신하고 서브밴드 및 시간 주파수 블록에 대한 에너지 비를 압축하기 위해 적절한 인코딩을 결정하도록 구성된다. 예를 들어, 일부 실시예에서 에너지 비 인코더(207)는 각 에너지 비 파라미터 값을 인코딩하기 위해 3 비트를 사용하도록 구성된다.
또한, 일부 실시예에서, 모든 TF 블록에 대해 모든 에너지 비 값을 송신 또는 저장하는 것 대신, 서브밴드당 하나의 가중 평균값만이 송신 또는 저장된다. 평균은 각 시간 블록의 총 에너지를 고려하여 결정될 수 있으며, 따라서 더 많은 에너지를 갖는 서브밴드의 값을 선호한다.
이러한 실시예들에서 양자화된 에너지 비 값은 주어진 서브밴드의 모든 TF 블록에 대해 동일하다.
일부 실시예에서 에너지 비 인코더(207)는 양자화된(인코딩된) 에너지 비 값을 컴바이너(211) 및 코히어런스 인코더(209)에 전달하도록 더 구성된다.
메타데이터 인코더/양자화기(111)는 코히어런스 인코더(209)를 포함할 수 있다. 코히어런스 인코더(209)는 코히어런스 값을 수신하고 서브밴드 및 시간-주파수 블록에 대한 코히어런스 값을 압축하기 위한 적절한 인코딩을 결정하도록 구성된다. 코히어런스 파라미터에 대한 3비트 정밀도 값은 수용 가능한 오디오 합성 결과를 생성하는 것으로 나타났지만, 이 경우에도 모든 TF 블록에 대한(예시에서 프레임당 8개의 서브밴드 및 5개의 TF 블록) 코히어런스 데이터에 대해 총 3x20 비트가 필요하다.
따라서 실시예의 목적은 다수의 TF 블록 코스에 걸쳐 코히어런스 데이터를 나타내기 위한 비트의 수를 줄이는 것이다.
인코딩된 코히어런스 파라미터 값은 그 후 컴바이너(211)로 전달될 수 있다.
메타데이터 인코더/양자화기(111)는 컴바이너(211)를 포함할 수 있다. 컴바이너는 인코딩된(또는 양자화된/압축된) 방향 파라미터, 에너지 비 파라미터 및 코히어런스 파라미터를 수신하고 이들을 조합하여 적절한 출력 (예를 들어 전송 신호와 조합될 수 있거나 전송 신호와 별개로 송신 또는 저장될 수 있는 메타데이터 비트스트림)을 생성하도록 구성된다.
도 3과 관련하여, 일부 실시예에 따른 도 2에 도시된 메타데이터 인코더/양자화기의 예시적인 동작이 도시되어 있다.
도 3에 단계 301로 도시된 바와 같이, 초기 동작은 (방위각 값, 고도 값, 에너지 비, 코히어런스 등과 같은) 메타데이터를 획득하는 것이다.
도 3에 단계 303으로 도시된 바와 같이, 방향성 값(고도, 방위각)은 그 후 (가령 구형 양자화 또는 임의의 적절한 압축을 적용하여) 압축되거나 인코딩될 수 있다.
도 3에 단계 305로 도시된 바와 같이, 에너지 비 값은 (가령 서브밴드당 가중 평균값을 생성하고 이를 3비트 값으로 양자화하여) 압축되거나 인코딩된다.
도 3에 단계 307로 도시된 바와 같이, 코히어런스 값 또한 압축되거나 인코딩된다.
도 3에 단계 309로 도시된 바와 같이 인코딩된 방향성 값, 에너지 비, 코히어런스 값은 그 후 결합되어 인코딩된 메타데이터를 생성한다.
도 4과 관련하여, 도 2에 도시된 바와 같은 코히어런스 인코더(209)의 예시가 도시되어 있다.
앞서 언급된 바와 같이, 일부 오디오 프레임의 경우 코히어런스 파라미터가 인코딩되어 결과적으로 인코딩된 비트스트림의 일부를 형성하고, 다른 오디오 프레임의 경우 코히어런스 파라미터가 인코딩되지 않는, 코히어런스 파라미터의 인코딩을 조절함으로써 기술적 이점을 달성할 수 있다.
코히어런스 파라미터를 인코딩할지 여부의 결정은 주변 서브밴드에 관한 각 서브밴드의 코히어런스 값의 주관적 유의성에 기초하여 이루어질 수 있다. 다시 말해, 코히어런스 파라미터를 인코딩하는 결정은 코히어런스 파라미터가 최종 사용자의 전반적인 지각 청취 경험에 기여하는지 여부를 기반으로 이루어질 수 있다.
청취 경험은 공간 오디오 신호의 코히어런스의 지각이 다양한 주파수 밴드에 존재하는 신호들 간의 상호작용에 적어도 부분적으로 기인할 수 있다는 것을 보여주었다. 이는 소리의 지각을 위해 ERB(equivalent rectangular bandwidth)와 같은 비선형 주파수 스케일에 따라 인간의 주파수 해상도가 사일로(siloed)/구획화될 수 있다는 전제와 상반되는 것처럼 보일 수 있다.
예를 들어, 실험(지각적 청취 테스트를 포함)을 통해 대부분의 주파수 밴드에 대해 코히어런스가 낮은 경우, 단일 주파수 밴드의 보다 높은 코히어런스는 공간 오디오의 지각의 기여에 중요하지 않다는 것을 알게 되었다. 결과적으로, 이 경우에 코히어런스 파라미터를 인코딩하지 않는 것이 인코딩된 비트스트림의 전체 비트레이트에 유리할 수 있다.
대안적으로, 실험을 통해 단일 주파수 밴드가 다른 주변 주파수 밴드보다 상당히 낮은 에너지 비를 가지고 있다고 밝혀진 경우, 코히어런스는 그 밴드에서 지각면에서 중요할 수 있다는 것 또한 알게 되었다. 이 경우 인간의 청각 시스템이 특히 민감할 수 있음을 발견했다. 결과적으로, 공간 오디오의 전반적인 청취 경험을 향상시키기 위해 프레임에 대한 코히어런스 파라미터를 송신하는 것이 현명할 것이다.
따라서, 실험적 관찰의 결과는 공간 오디오 신호에서 코히어런스의 유의성을 나타내는 메트릭(또는 척도)이 고안될 수 있음을 시사한다.
이러한 효과는 공간 오디오 신호의 서라운드 코히어런스의 지각에 특히 일반적일 수 있다. 그러나, 다른 유형의 코히어런스 파라미터의 지각을 측정하면 코히어런스 파라미터의 인코딩 여부를 결정할 때에도 이점을 가질 수 있다. 예를 들어, 이러한 기법은 스프레드 코히어런스 파라미터 값에 또한 적용될 수 있다.
위에서 언급된 바와 같이, 이들 효과는 코히어런스의 지각과 관련하여 주파수 밴드 간의 상호작용에 기인할 수 있다.
이와 관련하여 도 4의 401을 참조하면, 코히어런스 값 유의성 결정기는 TF 블록 n에 대한 각 서브밴드의 코히어런스 값을 수신하는 것으로 도시된다. 추가적으로, 401은 또한 TF 블록 n (또는 서브프레임 n)에 대해 총 에너지 대 방향 에너지 비 r(k,n)을 수신하도록 배치될 수 있고, 이는 시간 인덱스 n을 갖는 TF 블록의 K 서브밴드와 관련된 에너지 비이다. 유사하게, 코히어런스 값은 또한 시간 인덱스 n을 갖는 TF 블록의 K 서브밴드에 대한 K 코히어런스 값으로서 코히어런스 값 유의성 결정기(401)에 전달될 수 있다.
제 1 실시예에서 코히어런스 값은 서라운딩 코히어런스
Figure 112021123258367-pct00037
을 포함할 수 있다. k는 서브밴드 인덱스를 표시하는 데 사용되고 n은 TF 블록의 인덱스임에 유의한다.
도 5를 참조하면, K 서브밴드를 포함하는 TF 블록에 대한 서라운드 코히어런스 값의 중요성을 결정하기 위한 예시 프로세싱 단계를 도시한다.
처음으로 프로세싱 블록 401은 총 에너지 대 방향 에너지 비 r(k,n)를 사용하여 각 서브밴드 k에 대한 비방향성 에너지 비율의 추정을 결정할 수 있다. 실시예들에서 비방향성(서라운딩) 에너지 비 a(k,n)은
a(k,n)=1-r(k,n) for k=0 to K-1
로 주어질 수 있다.
r(k,n)은 총 에너지에 대한 특정 방향의 에너지이며, 각 주파수의 방향은 방위각 및 고도로 주어진다는 것에 유의한다. 앞서 언급한 바와 같이 방향은 방향 인코더(205)로부터의 방향 인덱스로 표시된다. 에너지 비율 r(k,n)은 0과 1 사이의 값을 가지며, 1은 서브밴드 k에 대해 모든 에너지가 하나의 방향을 따라 집중된다는 것을 나타낸다. 따라서 a(k,n)은 특정 서브밴드 k에 대한 서라운딩(또는 비방향성) 에너지, 다시 말해 특정 방향 인덱스를 따라 집중되지 않는 에너지의 비를 나타낸다.
비방향성(서라운딩) 에너지의 비를 결정하는 프로세싱 단계는 도 5에 501로 도시되어 있다.
각 서브밴드 k에 대한 코히어런트 비방향성(서라운딩) 에너지의 비율은 따라서
Figure 112021123258367-pct00038
for k=0 to K-1
로 주어질 수 있다.
각 서브밴드에 대한 비방향성(서라운딩) 에너지의 비율을 결정하는 프로세싱 단계는 도 5에 프로세싱 단계 503으로 도시되어 있다.
TF 블록 n(또는 서브프레임 n)에 대한 서라운드 코히어런스 값의 유의성에 관한 제 1 척도(또는 메트릭)은 서브프레임 n에 대해 모든 서브밴드에 걸친 비방향성 에너지의 비율을 합산함으로써 추정될 수 있다.
Figure 112021123258367-pct00039
제 1 척도
Figure 112021123258367-pct00040
은 비방향성(서라운딩) 에너지가 서브프레임 n의 복수의 주파수 서브밴드에서 현저한 경우 표시를 제공하는 것으로 볼 수 있다.
서브프레임 n에 대한 서라운드 코히어런스 값의 유의성에 관한 제 1 척도를 결정하는 프로세싱 단계는 도 5의 프로세싱 단계 505로 도시되어 있다.
서브프레임 n에 대한 서라운드 코히어런스 값의 유의성에 관한 제 2 척도(또는 메트릭)
Figure 112021123258367-pct00041
는 비방향성 에너지
Figure 112021123258367-pct00042
의 비율을 취하고, 이를 특정 서브밴드 k에 대한 서라운딩(또는 비방향성) 에너지의 비 a(k,n)으로 가중(weighting)함으로써 추정될 수 있다. 이는 모든 서브밴드에 걸쳐 합산되고, 서라운딩(또는 비방향성 에너지)의 "총" 비와 함께 정규화될 수 있다. 제 2 척도
Figure 112021123258367-pct00043
Figure 112021123258367-pct00044
으로 표현될 수 있으며,
Figure 112021123258367-pct00045
는 조정 인자(tuning factor)이다. 실험적 관찰은
Figure 112021123258367-pct00046
=0.4의 값이 유리한 결과를 생성할 수 있음을 보여줬다.
제 2 척도(또는 메트릭)
Figure 112021123258367-pct00047
은 주로 비방향성인 서브밴드 내에서 서라운드 코히어런트 에너지가 현저한지 여부를 측정하고, 서브프레임의 서라운드 코히어런스 값이 지각면에서 유의하여 코히어런스 값이 인코딩되고 송신되어야 하는지에 대한 표시를 제공하는 것으로 볼 수 있다.
TF(서브프레임) n에 대한 서라운드 코히어런스 파라미터의 유의성에 관한 제 2 척도 결정의 프로세싱 단계는 도 5의 프로세싱 단계 507에 도시되어 있다.
실시예들에서 제 1 및 제 2 척도는 병합되어 TF 블록(서브프레임) n에 대한 서라운드 코히어런스 값의 유의성에 관한 단일 척도를 제공한다.
이러한 병합은 TF 블록(서브프레임) n에 대한 서라운드 코히어런스 값의 중요성에 관한 단일 척도
Figure 112021123258367-pct00048
를 제공하기 위해 제 1 또는 제 2 척도 중 최댓값을 취하는 형태를 취할 수 있다.
Figure 112021123258367-pct00049
코히어런스 값 유의성 결정기(401)의 출력은 서라운드 코히어런스 값의 중요성에 관한 단일 척도
Figure 112021123258367-pct00050
일 수 있다. 이 파라미터는 코히어런스 값 인코딩 결정기(403)로 전달될 수 있다. 프로세싱 블록(403)은 서브프레임에 대한 코히어런스 값이 인코딩되어야 하는지 또는 인코딩되지 않아야 하는지 여부를 결정하도록 배치될 수 있다.
TF 블록 n에 대한 서라운드 코히어런스 값의 유의성을 표시하는 단일 척도를 제공하기 위해 제 1 및 제 2 척도를 병합하는 프로세싱 단계는 도 5의 509에 도시되어 있다.
일부 실시예에서 서라운드 코히어런스 값의 유의성에 관한 단일 척도
Figure 112021123258367-pct00051
는 서라운드 값의 유의성에 대한 제 1 척도
Figure 112021123258367-pct00052
만을 포함할 수 있다. 대안적으로, 다른 실시예에서 서라운드 코히어런스 값의 유의성에 관한 단일 척도
Figure 112021123258367-pct00053
는 서라운드 값의 유의성에 대한 제 2 척도
Figure 112021123258367-pct00054
만을 포함할 수 있다. 다시 말해서, 이러한 실시예 둘 모두에는 병합 단계 509가 없다. 따라서, 코히어런스 값 유의성 결정기(401)의 작동을 위한 서라운드 코히어런스 값의 유의성에 관한 척도
Figure 112021123258367-pct00055
는 제 1 척도
Figure 112021123258367-pct00056
또는 제 2 척도
Figure 112021123258367-pct00057
둘 중 하나만일 수 있다.
도 6은 코히어런스 값 인코딩 결정기(403)에 의해 수행될 수 있는 프로세싱 단계의 세트의 예시를 도시한다.
실시예들에서, TF 블록에 대한 서라운드 코히어런스 값이 인코딩되어야 하는지 여부에 대한 결정은 서브프레임 n에 대한 임계값
Figure 112021123258367-pct00058
과 서라운드 코히어런스 값의 유의성에 관한 단일 척도
Figure 112021123258367-pct00059
를 비교하는 형태를 취할 수 있다. 이 비교는
e(n)=1, if
Figure 112021123258367-pct00060
>
Figure 112021123258367-pct00061
e(n)=0, if
Figure 112021123258367-pct00062
로 표현될 수 있는데, e(n)=1은 TF 블록(또는 서브프레임) n에 대한 코히어런스 값을 인코딩(및 송신)함을 표시하며, e(n)=0은 서브프레임 n에 대한 코히어런스 값을 인코딩하지 않음을 표시한다.
임계값은 상수일 수 있다. 예를 들어,
Figure 112021123258367-pct00063
과 같은 값을 취할 수 있다. 대안적으로, 일부 실시예에서 이 임계값은 시간에 따라 변화할 수 있다. 예를 들어, 임계값은 코딩 비트레이트에 기반한 인자에 기초해 선택될 수 있다.
임계값에 대한 서라운드 코히어런스 값의 유의성에 관한 단일 척도
Figure 112021123258367-pct00064
를 비교하는 단계는 도 6에 프로세싱 단계 601로 도시되어 있다.
기능 블록 403은 그 후, 코히어런스 값이 인코딩을 보증하기에 충분히 유의함을 나타내는 위 비교 결과를 조건으로, TF 블록(서브프레임) n에 대한 코히어런스 값을 코히어런스 파라미터 인코더(405)로 출력하도록 배치될 수 있다. 따라서, 도 4는 코히어런스 파라미터 인코딩 결정기(403)에서 코히어런스 파라미터 인코더(405)로의 연결 경로를 도시한다. 그러나, 서라운드 코히어런스 값의 유의성에 관한 단일 척도
Figure 112021123258367-pct00065
가 임계치를 초과하지 않는 경우 코히어런스 값은 인코딩되지 않는다.
도 6의 프로세싱 단계 603은 서라운드 코히어런스 값의 유의성에 관한 단일 척도
Figure 112021123258367-pct00066
가 임계치를 초과하여 블록에 대한 코히어런스의 값이 인코딩을 위해 코히어런스 값 인코더(405)로 보내지는 경우의 상황을 도시한다. 역으로, 도 6의 프로세싱 단계 605는 서라운드 코히어런스 값의 유의성에 관한 단일 척도
Figure 112021123258367-pct00067
가 임계치를 초과하지 않아 TF 블록의 코히어런스 값이 인코딩되지 않는 상황을 도시한다.
코히어런스 파라미터 인코더(405)는 기능 블록 403에서 지각면에서 유의하다고 결정된 코히어런스 값을 수신하도록 구성된다. 이 코히어런스 값은 0과 1 사이의 8비트 표현일 수 있다.
코히어런스 값 인코더(405)는 TF 블록 단위로 TF 블록 상의 TF 블록(또는 서브프레임)에 대한 서브밴드에 관련된 코히어런스 값을 인코딩하도록 구성될 수 있다. 코히어런스 값 인코더(405)는 각 서브밴드에 대한 코히어런스 값이 복수의 양자화 테이블로부터의 특정 양자화 테이블을 사용하여 먼저 스칼라 양자화되는 접근법을 채택할 수 있다. 코히어런스 값을 양자화하기 위한 특정 양자화 테이블의 선택은 각 서브밴드에 대한 에너지 비 값에 따라 달라질 수 있으며, 각 양자화 테이블의 항목의 수는 각자 다를 수 있다. 본질적으로, 복수의 양자화 테이블의 각 양자화 테이블은 특정 에너지 비 값에 맞춰질 수 있는 사전 계산된 양자화된 코히어런스 값의 범위를 포함할 수 있다.
각 코히어런스 값에 관련된 양자화 테이블 인덱스는 그 후 TF 블록의 서브밴드에 대한 모든 양자화 인덱스가 결합된 인덱스로 함께 연결되는 제품 유형 코드, 또는 골롬 라이스 코드(Golomb rice code)와 같은 런 렝스 코드(Run length code)중 하나를 사용하여 인코딩될 수 있다.
골롬 라이스 코드를 사용하여 코히어런스 값에 대한 양자화 인덱스를 인코딩하는 경우 TF 블록에 대한 평균값이 제거될 수 있다.
TF 블록에 대한 서브밴드 코히어런스 값 양자화 인덱스의 인코딩을 위해 공동 결합 인덱스와 골롬 라이스 코드를 선택하는 것은 골롬 라이스 인코더가 사용할 비트 수를 추정하는 것에 기초하여 이루어질 수 있다. 그것이 공동 결합 인덱스의 비트보다 적은 경우, 골롬 라이스 인코더가 사용되어 TF 블록에 대한 서브밴드 코히어런스 값 양자화 인덱스를 인코딩한다. 공동 결합 인덱스 방법과 골롬 라이스 방법 간의 선택은 비트스트림 내에서 단일 비트로 시그널링될 수 있다.
그 후 코드북에 대한 인덱스 값은 인코딩된 코히어런스 값을 형성할 수 있고, 그 후 컴바이너의 인코딩된 방향성 값과 인코딩된 에너지 비를 결합하여 공간 오디오 메타데이터를 형성한다.
도 7에 관하여, 분석 및 합성 기기로 사용될 수 있는 전자 장치의 예시가 도시된다. 이 장치는 임의의 적절한 전자 기기 또는 장치일 수 있다. 예를 들어, 일부 예시에서 기기(1400)는 모바일 기기, 사용자 장비, 태블릿 컴퓨터, 컴퓨터, 오디오 플레이백 장치 등이다.
일부 실시예에서 기기(1400)는 하나 이상의 프로세서 또는 중앙 처리 유닛(1407)을 포함한다. 프로세서(1407)는 본 명세서에서 설명된 바와 같은 방법과 같은 다양한 프로그램 코드를 실행하도록 구성될 수 있다.
일부 실시예에서 기기(1400)는 메모리(1411)를 포함한다. 일부 실시예에서 하나 이상의 프로세서(1407)는 메모리(1411)에 커플링된다. 메모리(1411)는 임의의 적절한 저장 수단일 수 있다. 일부 실시예에서 메모리(1411)는 프로세서(1407) 상에서 구현 가능한 프로그램 코드를 저장하기 위한 프로그램 코드 섹션을 포함한다. 또한, 일부 실시예에서 메모리(1411)는 데이터, 예를 들어 본 명세서에서 설명된 실시예에 따라 처리되거나 처리될 데이터를 저장하기 위한 저장 데이터 섹션을 더 포함할 수 있다. 프로그램 코드 섹션 내에 저장된 구현된 프로그램 코드와, 저장 데이터 섹션 내에 저장된 데이터는 필요할 때마다 메모리-프로세서 커플링을 통해 프로세서(1407)에 의해 검색될 수 있다.
일부 실시예에서 기기(1400)는 사용자 인터페이스(1405)를 포함한다. 사용자 인터페이스(1405)는 일부 실시예에서 프로세서(1407)와 커플링될 수 있다. 일부 실시예에서 프로세서(1407)는 사용자 인터페이스의 작동을 제어하고 사용자 인터페이스(1405)로부터 입력을 수신할 수 있다. 일부 실시예에서 사용자 인터페이스(1405)는 사용자가 가령 키보드를 통해 기기(1400)에 명령어를 입력하게 할 수 있다. 일부 실시예에서 사용자 인터페이스(1405)는 기기(1400)에서 사용자로 정보를 표시하도록 구성된 디스플레이를 포함할 수 있다. 일부 실시예에서 사용자 인터페이스(1405)는 정보가 기기(1400)로 입력될 수 있게 하고 기기(1400)의 사용자에게 정보를 추가로 표시할 수 있는 터치스크린 또는 터치 인터페이스를 포함할 수 있다. 일부 실시예에서 사용자 인터페이스(1405)는 본 명세서에서 설명된 위치 결정기와 통신하기 위한 사용자 인터페이스일 수 있다.
일부 실시예에서 기기(1400)는 입력/출력 포트(1409)를 포함한다. 일부 실시예에서 입력/출력 포트(1409)는 송수신기를 포함한다. 일부 실시예에서 송수신기는 프로세서(1407)와 커플링될 수 있고 다른 장치 또는 전자 기기와 가령 무선 통신 네트워크를 통해 통신할 수 있게 하도록 구성될 수 있다. 일부 실시예에서 이 송수신기 또는 임의의 적절한 송수신기 또는 송신기 및/또는 수신기 수단은 유선 또는 무선 커플링을 통해 다른 전자 기기 또는 장치와 통신하도록 구성된다.
송수신기는 임의의 적절한 알려진 통신 프로토콜에 의해 추가적인 장치와 통신할 수 있다. 예를 들어 일부 실시예에서 트랜시버는 적절한 UMTS(universal mobile telecommunications system) 프로토콜, 가령 IEEE 802.X와 같은 WLAN(wireless local area network) 프로토콜, 블루투스와 같은 적절한 단거리 무선 주파수 통신 프로토콜, 또는 적외선 데이터 통신 경로(IRDA)를 사용할 수 있다.
송수신기 입력/출력 포트(1409)는 신호를 수신하도록 구성될 수 있고, 일부 실시예에서는 적절한 코드를 실행하는 프로세서(1407)를 사용하여 본 명세서에서 설명된 바와 같은 파라미터를 결정하도록 구성될 수 있다. 또한, 이 기기는 합성 기기로 송신될 적절한 다운믹스 신호와 파라미터 출력을 생성할 수 있다.
일부 실시예에서 기기(400)는 합성 기기의 적어도 일부분으로서 사용될 수 있다. 이와 같이 입력/출력 포트(1409)는 다운믹스 신호, 및 일부 실시예에서는 본 명세서에서 셜명된 캡처 장치 또는 프로세싱 장치에서 결정된 파라미터를 수신하고, 적절한 코드를 실행하는 프로세서(1407)를 사용하여 적절한 오디오 신호 형식 출력을 생성하도록 구성될 수 있다. 입력/출력 포트(1409)는 임의의 적절한 오디오 출력, 가령 다채널 스피커 시스템 및/또는 헤드폰 또는 이와 유사한 것과 커플링될 수 있다.
일반적으로, 발명의 다양한 실시예는 하드웨어 또는 특정 용도 회로, 소프트웨어, 로직 또는 이들의 임의의 조합으로 구현될 수 있다. 예를 들어, 일부 측면은 하드웨어로 구현될 수 있는 반면, 다른 측면은 제어기, 마이크로프로세서 또는 다른 컴퓨팅 장치에 의해 실행될 수 있는 소프트웨어 또는 펌웨어로 구현될 수 있으나, 본 발명은 이에 제한되지 않는다. 발명의 다양한 측면이 블록도, 플로우차트, 또는 일부 다른 그림 표현을 사용하여 도시되고 설명될 수 있으나, 본 명세서에서 설명된 이러한 블록, 장치, 시스템, 기법 또는 방법은, 비제한적인 예시로서, 하드웨어, 소프트웨어, 펌웨어, 특정 용도 회로 또는 로직, 범용 하드웨어 또는 컨트롤러 또는 다른 컴퓨팅 장치, 또는 이들의 조합으로 구현될 수 있다.
본 발명의 실시예는 프로세서 엔티티에서와 같은 모바일 장치의 데이터 프로세서에 의해, 또는 하드웨어에 의해, 또는 소프트웨어와 하드웨어의 조합에 의해 실행 가능한 컴퓨터 소프트웨어에 의해 구현될 수 있다. 또한 이와 관련하여 도면에서와 같은 논리 흐름의 임의의 블록은 프로그램 단계, 또는 상호 연결된 논리 회로, 블록 및 기능, 또는 프로그램 및 논리 회로, 블록 및 기능의 조합을 나타낼 수 있음에 유의해야 한다. 소프트웨어는 메모리 칩, 또는 프로세서 내에 구현된 메모리 블록, 하드디스크 또는 플로피디스크와 같은 자기 매체, 또는 가령 DVD 및 그 데이터 변형, CD와 같은 광학 매체와 같은 물리적 매체에 저장될 수 있다.
메모리는 로컬 기술 환경에 적합한 임의의 유형일 수 있으며, 가령 반도체 기반 메모리 장치, 자기 메모리 장치 및 시스템, 광 메모리 장치 및 시스템, 고정 메모리 및 이동식 메모리와 같은 임의의 적절한 데이터 저장 기술을 사용하여 구현될 수 있다. 데이터 프로세서는 로컬 기술 환경에 적합한 임의의 유형일 수 있으며, 비제한적인 예시로서 범용 컴퓨터, 특정 용도 컴퓨터, 마이크로프로세서, 디지털 신호 프로세서(DSP), 특정 용도용 집적 회로(ASIC) 게이트 레벨 회로 및 멀티코어 프로세서 아키텍처에 기반한 프로세서 중 하나 이상을 포함할 수 있다.
본 발명의 실시예는 집적 회로 모듈과 같은 다양한 구성 요소에서 실시될 수 있다. 집적 회로의 설계는 대체로 고도로 자동화된 프로세스이다. 로직 레벨 설계를 반도체 기판에 에칭 및 형성할 준비가 된 반도체 회로 설계로 변환하기 위해 복잡하고 강력한 소프트웨어 툴을 이용할 수 있다.
프로그램은 잘 확립된 설계 규칙과 사전 저장된 설계 모듈 라이브러리를 사용하여 반도체 칩에서 도체를 라우팅하고 구성 요소의 위치를 결정할 수 있다. 반도체 회로에 대한 설계가 완료되면 표준화된 전자 형식의 결과 설계를 반도체 제조 시설 또는 제조를 위한 "팹(fab)"으로 송신할 수 있다.
전술한 설명은 예시적이고 비제한적인 예로서 본 발명의 예시적인 실시예의 완전하고 유용한 설명을 제공하였다. 그러나, 전술한 설명에 비추어 볼 때 관련 기술분야의 통상의 기술자에게는 첨부된 도면 및 청구범위와 함께 읽을 때 다양한 수정 및 개조가 이루어질 수 있음이 명백하다. 그러나, 본 발명의 교시에 대한 그러한 모든 유사한 수정은 첨부된 청구범위에 정의된 바와 같이 여전히 본 발명의 범위 내에 속할 것이다.

Claims (23)

  1. 공간 오디오 인코딩을 위한 장치로서,
    하나 이상의 오디오 신호에 대해, 공간 오디오 재생을 제공하기 위한 공간 오디오 파라미터를 서브밴드 단위로 수신하거나 결정하는 수단 - 상기 공간 오디오 파라미터는 프레임의 복수의 서브밴드의 각 서브밴드에 대한 코히어런스 값을 포함함 - 과,
    상기 복수의 서브밴드 각각에 대한 에너지 비(energy ratio) 값을 수신하는 수단과,
    상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값에 관한 유의성(significance) 척도를 결정하는 수단과,
    상기 유의성 척도를 사용하여, 상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값의 인코딩 여부를 결정하는 수단을 포함하며,
    상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값에 관한 상기 유의성 척도를 결정하는 수단은,
    상기 복수의 서브밴드 각각에 대한 코히어런트(coherent) 비방향성 에너지 비율을 결정하는 수단 - 하나의 서브밴드에 대한 상기 코히어런트 비방향성 에너지 비율은 상기 하나의 서브밴드에 대한 코히어런스 값에 상기 하나의 서브밴드에 대한 비방향성 에너지 비를 곱하여 결정되며, 상기 비방향성 에너지 비는 상기 하나의 서브밴드에 대한 에너지 비 값이 제거되고 난 이후에 남은 상기 하나의 서브밴드의 에너지 비와 관련됨 - 과,
    상기 복수의 서브밴드 전부에 대해, 결정된 상기 코히어런트 비방향성 에너지 비율을 합산하는 수단을 포함하며,
    상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값에 관한 상기 유의성 척도는, 상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값에 관한 제 1 유의성 척도인,
    장치.
  2. 제 1항에 있어서,
    상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값에 관한 상기 유의성 척도를 결정하는 수단은,
    각 서브밴드에 대해, 상기 코히어런트 비방향성 에너지 비율에 상기 비방향성 에너지 비를 곱하는 수단과,
    상기 복수의 서브밴드 전부에 대해, 각 서브밴드에 대한 상기 비방향성 에너지 비와 상기 코히어런트 비방향성 에너지 비율의 곱을 합산하는 수단과,
    각 서브밴드에 대한 상기 비방향성 에너지 비와 상기 코히어런트 비방향성 에너지 비율의 곱의 합계를, 각 서브밴드에 대한 상기 비방향성 에너지 비의 합계로 정규화(normalize)하는 수단을 더 포함하는,
    장치.
  3. 제 2항에 있어서,
    상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값에 관한 상기 유의성 척도는, 상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값에 관한 제 2 유의성 척도인,
    장치.
  4. 제 3항에 있어서,
    상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값에 관한 상기 유의성 척도를 결정하는 수단은,
    상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값에 관한 상기 유의성 척도를, 상기 제 1 유의성 척도와 상기 제 2 유의성 척도의 최댓값으로 결정하는 수단을 포함하는,
    장치.
  5. 제 1항, 제 2항 및 제 4항 중 어느 한 항에 있어서,
    상기 유의성 척도를 사용하여 상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값의 인코딩 여부를 결정하는 수단은,
    상기 유의성 척도를 임계값과 비교하는 수단과,
    상기 유의성 척도가 상기 임계값을 초과하는 경우 상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값을 인코딩하는 수단을 포함하는,
    장치.
  6. 제 1항 내지 제 4항 중 어느 한 항에 있어서,
    상기 복수의 서브밴드 각각에 관한 상기 코히어런스 값은 서라운드 코히어런스 값(surround coherence value)이며,
    상기 서라운드 코히어런스 값은 둘 이상의 채널 오디오 신호 사이의 인터-채널 코히어런스에 기초하여 결정되는,
    장치.
  7. 제 6항에 있어서,
    상기 복수의 서브밴드 각각에 관한 상기 서라운드 코히어런스 값은,
    상기 둘 이상의 채널 오디오 신호와 관련된 공분산(covariance) 매트릭스를 계산하고,
    상기 공분산 매트릭스와 다른 채널 오디오 신호의 서브세트에 기초하여 결정된 가장 큰 에너지를 갖는 채널 오디오 신호를 모니터링 - 상기 서브세트는 두 번째로 큰 에너지를 갖는 채널 오디오 신호들의 총 수보다 1 작은 수와 1 사이에서 결정된 수임 - 하며,
    상기 가장 큰 에너지를 갖는 채널 오디오 신호와 상기 두 번째로 큰 에너지를 갖는 채널 오디오 신호들 각각의 사이에서 결정된 정규화된 코히어런스의 최솟값의 선택에 기초하여 서라운드 코히어런스 파라미터를 생성하는
    수단을 포함하는 장치에 의해 결정되는,
    장치.
  8. 제 1항 내지 제 4항 중 어느 한 항에 있어서,
    상기 서브밴드 각각에 대한 에너지 비 값은 상기 서브밴드 각각에 대한 총 에너지 대 방향 에너지 비 값(direct-to-total energy ratio value)인,
    장치.
  9. 제 8항에 있어서,
    서브밴드에 대한 상기 비방향성 에너지 비는 1에서 상기 서브밴드에 대한 상기 총 에너지 대 방향 에너지 비를 뺀 값으로 결정되는,
    장치.
  10. 공간 오디오 인코딩을 위한 방법으로서,
    하나 이상의 오디오 신호에 대해, 공간 오디오 재생을 제공하기 위한 공간 오디오 파라미터를 서브밴드 단위로 수신하거나 결정하는 단계 - 상기 공간 오디오 파라미터는 프레임의 복수의 서브밴드의 각 서브밴드에 대한 코히어런스 값을 포함함 - 와,
    상기 복수의 서브밴드 각각에 대한 에너지 비(energy ratio) 값을 수신하는 단계와,
    상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값에 관한 유의성(significance) 척도를 결정하는 단계와,
    상기 유의성 척도를 사용하여, 상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값의 인코딩 여부를 결정하는 단계를 포함하고,
    상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값에 대한 상기 유의성 척도를 결정하는 단계는,
    상기 복수의 서브밴드 각각에 대한 코히어런트(coherent) 비방향성 에너지 비율을 결정하는 단계 - 하나의 서브밴드에 대한 상기 코히어런트 비방향성 에너지 비율은 상기 하나의 서브밴드에 대한 코히어런스 값에 상기 하나의 서브밴드에 대한 비방향성 에너지 비를 곱하여 결정되며, 상기 비방향성 에너지 비는 상기 하나의 서브밴드에 대한 에너지 비 값이 제거되고 난 이후에 남은 상기 하나의 서브밴드의 에너지 비와 관련됨 - 와,
    상기 복수의 서브밴드 전부에 대해, 결정된 상기 코히어런트 비방향성 에너지 비율을 합산하는 단계를 포함하며,
    상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값에 관한 상기 유의성 척도는, 상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값에 관한 제 1 유의성 척도인,
    방법.
  11. 제 10항에 있어서,
    상기 프레임의 상기 복수의 서브밴드의 코히어런스 값에 관한 상기 유의성 척도를 결정하는 단계는,
    각 서브밴드에 대해, 상기 코히어런트 비방향성 에너지 비율에 상기 비방향성 에너지 비를 곱하는 단계와,
    상기 복수의 서브밴드 전부에 대해, 각 서브밴드에 대한 상기 비방향성 에너지 비와 상기 코히어런트 비방향성 에너지 비율의 곱을 합산하는 단계와,
    각 서브밴드에 대한 상기 비방향성 에너지 비와 상기 코히어런트 비방향성 에너지 비율의 배수의 합계를, 각 서브밴드에 대한 상기 비방향성 에너지 비의 합계로 정규화(normalize)하는 단계를 더 포함하는,
    방법.
  12. 제 11항에 있어서,
    상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값에 관한 상기 유의성 척도는, 상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값에 관한 제 2 유의성 척도인,
    방법.
  13. 제 12항에 있어서,
    상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값에 관한 상기 유의성 척도를 결정하는 단계는,
    상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값에 관한 상기 유의성 척도를, 상기 제 1 유의성 척도와 상기 제 2 유의성 척도의 최댓값으로 결정하는 단계를 포함하는,
    방법.
  14. 제 10항, 제 11항 및 제 13항 중 어느 한 항에 있어서,
    상기 유의성 척도를 사용하여 상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값의 인코딩 여부를 결정하는 단계는,
    상기 유의성 척도를 임계값과 비교하는 단계와,
    상기 유의성 척도가 상기 임계값을 초과하는 경우 상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값을 인코딩하는 단계를 포함하는,
    방법.
  15. 제 10항 내지 제 13항 중 어느 한 항에 있어서,
    상기 복수의 서브밴드 각각에 대한 상기 코히어런스 값은 서라운드 코히어런스 값(surround coherence value)이며, 상기 서라운드 코히어런스 값은 둘 이상의 채널 오디오 신호 사이의 인터-채널 코히어런스에 기초하여 결정되는,
    방법.
  16. 제 15항에 있어서,
    상기 복수의 서브밴드 각각의 상기 서라운드 코히어런스 값은,
    상기 둘 이상의 채널 오디오 신호와 관련된 공분산(covariance) 매트릭스를 계산하는 단계와,
    상기 공분산 매트릭스와 다른 채널 오디오 신호의 서브세트에 기초하여 결정된 가장 큰 에너지를 갖는 채널 오디오 신호를 모니터링하는 단계 - 상기 서브세트는 두 번째로 큰 에너지를 갖는 채널 오디오 신호들의 총 수보다 1 작은 수와 1 사이에서 결정된 수임 - 와,
    상기 가장 큰 에너지를 갖는 채널 오디오 신호와 상기 두 번째로 큰 에너지를 갖는 채널 오디오 신호들 각각의 사이에서 결정된 정규화된 코히어런스의 최솟값의 선택에 기초하여 서라운드 코히어런스 파라미터를 생성하는 단계를 포함하는 장치에 의해 결정되는,
    방법.
  17. 제 10항 내지 제 13항 중 어느 한 항에 있어서,
    상기 서브밴드 각각에 대한 에너지 비 값은 상기 서브밴드 각각에 대한 총 에너지 대 방향 에너지 비 값인,
    방법.
  18. 제 17항에 있어서,
    서브밴드에 대한 상기 비방향성 에너지 비는 1에서 상기 서브밴드에 대한 상기 총 에너지 대 방향 에너지 비를 뺀 값으로 결정되는,
    방법.
  19. 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램으로서, 컴퓨터 프로그램 코드를 포함하되,
    상기 컴퓨터 프로그램 코드는, 하나 이상의 프로세서에 의해 실행되는 경우, 장치가
    하나 이상의 오디오 신호에 대해, 공간 오디오 재생을 제공하기 위한 공간 오디오 파라미터를 서브밴드 단위로 수신하거나 결정 - 상기 공간 오디오 파라미터는 프레임의 복수의 서브밴드의 각 서브밴드에 대한 코히어런스 값을 포함함 - 하고,
    상기 복수의 서브밴드 각각에 대한 에너지 비(energy ratio) 값을 수신하며,
    상기 복수의 서브밴드 각각에 대한 코히어런트(coherent) 비방향성 에너지 비율을 결정 - 하나의 서브밴드에 대한 상기 코히어런트 비방향성 에너지 비율은 상기 하나의 서브밴드에 대한 코히어런스 값에 상기 하나의 서브밴드에 대한 비방향성 에너지 비를 곱하여 결정되며, 상기 비방향성 에너지 비는 상기 하나의 서브밴드에 대한 에너지 비 값이 제거되고 난 이후에 남은 상기 하나의 서브밴드의 에너지 비와 관련됨 - 하고, 상기 복수의 서브밴드 전부에 대해, 결정된 상기 코히어런트 비방향성 에너지 비율을 합산함으로써, 상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값에 관한 유의성(significance) 척도를 결정하고
    상기 유의성 척도를 사용하여, 상기 프레임의 상기 복수의 서브밴드의 상기 코히어런스 값의 인코딩 여부를 결정하게 하도록 구성되는,
    컴퓨터 프로그램.
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
KR1020217034950A 2019-03-28 2020-03-26 공간 오디오 파라미터의 유의성의 결정 및 관련 인코딩 KR102664650B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1904303.3A GB2582749A (en) 2019-03-28 2019-03-28 Determination of the significance of spatial audio parameters and associated encoding
GB1904303.3 2019-03-28
PCT/FI2020/050194 WO2020193865A1 (en) 2019-03-28 2020-03-26 Determination of the significance of spatial audio parameters and associated encoding

Publications (2)

Publication Number Publication Date
KR20210146980A KR20210146980A (ko) 2021-12-06
KR102664650B1 true KR102664650B1 (ko) 2024-05-10

Family

ID=66443108

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217034950A KR102664650B1 (ko) 2019-03-28 2020-03-26 공간 오디오 파라미터의 유의성의 결정 및 관련 인코딩

Country Status (8)

Country Link
US (1) US20220189494A1 (ko)
EP (1) EP3948861A4 (ko)
JP (1) JP7223872B2 (ko)
KR (1) KR102664650B1 (ko)
CN (1) CN113678199A (ko)
GB (1) GB2582749A (ko)
MX (1) MX2021011856A (ko)
WO (1) WO2020193865A1 (ko)

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735254B2 (en) * 2001-06-29 2004-05-11 Qualcomm, Inc. DCT compression using Golomb-Rice coding
CN1860526B (zh) * 2003-09-29 2010-06-16 皇家飞利浦电子股份有限公司 音频信号编码
DE102004042819A1 (de) * 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
JP4521032B2 (ja) * 2005-04-19 2010-08-11 ドルビー インターナショナル アクチボラゲット 空間音声パラメータの効率的符号化のためのエネルギー対応量子化
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
CN101499279B (zh) * 2009-03-06 2011-11-02 武汉大学 空间参数逐级精细的比特分配方法及其装置
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
ES2553398T3 (es) * 2010-11-03 2015-12-09 Huawei Technologies Co., Ltd. Codificador paramétrico para codificar una señal de audio multicanal
KR101572034B1 (ko) * 2011-05-19 2015-11-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 파라메트릭 오디오 코딩 방식들의 포렌식 검출
CN102208188B (zh) * 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
WO2013149671A1 (en) * 2012-04-05 2013-10-10 Huawei Technologies Co., Ltd. Multi-channel audio encoder and method for encoding a multi-channel audio signal
KR101606665B1 (ko) * 2012-04-05 2016-03-25 후아웨이 테크놀러지 컴퍼니 리미티드 파라미터 공간 오디오 코딩 및 디코딩을 위한 방법, 파라미터 공간 오디오 코더 및 파라미터 공간 오디오 디코더
EP2690621A1 (en) * 2012-07-26 2014-01-29 Thomson Licensing Method and Apparatus for downmixing MPEG SAOC-like encoded audio signals at receiver side in a manner different from the manner of downmixing at encoder side
US9406307B2 (en) * 2012-08-19 2016-08-02 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9830920B2 (en) * 2012-08-19 2017-11-28 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
JP6012884B2 (ja) * 2012-12-21 2016-10-25 ドルビー ラボラトリーズ ライセンシング コーポレイション 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング
US9711156B2 (en) * 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
TWI618051B (zh) * 2013-02-14 2018-03-11 杜比實驗室特許公司 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置
EP2830047A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
EP3172730A1 (en) * 2014-07-23 2017-05-31 PCMS Holdings, Inc. System and method for determining audio context in augmented-reality applications
CN107452387B (zh) * 2016-05-31 2019-11-12 华为技术有限公司 一种声道间相位差参数的提取方法及装置
GB201718341D0 (en) * 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB2574238A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Spatial audio parameter merging
WO2020089510A1 (en) * 2018-10-31 2020-05-07 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
KR20210090096A (ko) * 2018-11-13 2021-07-19 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 신호 및 연관된 메타데이터에 의해 공간 오디오를 표현하는 것
GB2590651A (en) * 2019-12-23 2021-07-07 Nokia Technologies Oy Combining of spatial audio parameters

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Bertrand Fatus. Parametric Coding for Spatial Audio. Master’s Thesis, KTH, Stockholm, Sweden. 2015.12.

Also Published As

Publication number Publication date
EP3948861A1 (en) 2022-02-09
MX2021011856A (es) 2021-10-22
JP7223872B2 (ja) 2023-02-16
JP2022528660A (ja) 2022-06-15
GB201904303D0 (en) 2019-05-15
GB2582749A (en) 2020-10-07
US20220189494A1 (en) 2022-06-16
CN113678199A (zh) 2021-11-19
EP3948861A4 (en) 2022-11-09
WO2020193865A1 (en) 2020-10-01
KR20210146980A (ko) 2021-12-06

Similar Documents

Publication Publication Date Title
KR102587641B1 (ko) 공간적 오디오 파라미터 인코딩 및 연관된 디코딩의 결정
US20230402053A1 (en) Combining of spatial audio parameters
US20230197086A1 (en) The merging of spatial audio parameters
KR102593235B1 (ko) 공간 오디오 파라미터의 양자화
KR102664650B1 (ko) 공간 오디오 파라미터의 유의성의 결정 및 관련 인코딩
WO2022223133A1 (en) Spatial audio parameter encoding and associated decoding
US20230335143A1 (en) Quantizing spatial audio parameters
US20240185869A1 (en) Combining spatial audio streams
US20240046939A1 (en) Quantizing spatial audio parameters
US20240127828A1 (en) Determination of spatial audio parameter encoding and associated decoding
CA3212985A1 (en) Combining spatial audio streams
KR20230133341A (ko) 공간 오디오 파라미터들의 변환
WO2022074283A1 (en) Quantisation of audio parameters
CN116508332A (zh) 空间音频参数编码和相关解码

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant