KR20190085988A - 상관해제 필터들의 적응적 제어를 위한 방법 및 장치 - Google Patents

상관해제 필터들의 적응적 제어를 위한 방법 및 장치 Download PDF

Info

Publication number
KR20190085988A
KR20190085988A KR1020197017588A KR20197017588A KR20190085988A KR 20190085988 A KR20190085988 A KR 20190085988A KR 1020197017588 A KR1020197017588 A KR 1020197017588A KR 20197017588 A KR20197017588 A KR 20197017588A KR 20190085988 A KR20190085988 A KR 20190085988A
Authority
KR
South Korea
Prior art keywords
correlation
parameter
calculating
control parameter
control
Prior art date
Application number
KR1020197017588A
Other languages
English (en)
Other versions
KR102201308B1 (ko
Inventor
토마스 얀손 토프트가르드
토미 포크
Original Assignee
텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘) filed Critical 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘)
Priority to KR1020217000273A priority Critical patent/KR102349931B1/ko
Publication of KR20190085988A publication Critical patent/KR20190085988A/ko
Application granted granted Critical
Publication of KR102201308B1 publication Critical patent/KR102201308B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Abstract

상관해제기를 적응적으로 조정하기 위한 오디오 신호 프로세싱 방법 및 장치. 그 방법은 제어 파라미터를 획득하는 단계와 제어 파라미터의 평균 및 변동을 계산하는 단계를 포함한다. 제어 파라미터의 변동과 평균의 비율이 계산되고, 상관해제 파라미터가 상기 비율에 기초하여 계산된다. 상관해제 파라미터는 그 다음에 상관해제기에 제공된다.

Description

상관해제 필터들의 적응적 제어를 위한 방법 및 장치
본 출원은 공간적 오디오 코딩 및 렌더링에 관한 것이다.
공간적 또는 3D 오디오는 다양한 종류들의 멀티채널 오디오 신호들을 표시하는 일반 공식화이다. 캡처링 및 렌더링 방법들에 의존하여, 오디오 장면은 공간적 오디오 포맷에 의해 표현된다. 캡처링 방법(마이크로폰들)에 의해 정의되는 전형적인 공간적 오디오 포맷들은 예를 들어 스테레오, 바이너럴(binaural), 앰비소닉스(ambisonics) 등으로서 표시된다. 공간적 오디오 렌더링 시스템들(헤드폰들 또는 라우드스피커들)은 스테레오(좌측 및 우측 채널들 2.0) 또는 더 고급의 멀티채널 오디오 신호들(2.1, 5.1, 7.1 등)로 공간적 오디오 장면들을 렌더링할 수 있다.
이러한 오디오 신호들의 송신 및 조작을 위한 최근의 기술들은 최종 사용자가 더 나은 양해도(intelligibility) 뿐만 아니라 증강 현실을 종종 초래하는 더 높은 공간적 품질을 갖는 향상된 오디오 경험을 하는 것을 허용한다. 공간적 오디오 코딩 기법들, 이를테면 MPEG 서라운드 또는 MPEG-H 3D 오디오는, 예를 들어, 인터넷을 통한 스트리밍과 같은 데이터 레이트 제약 애플리케이션들과 호환되는 공간적 오디오 신호들의 콤팩트 표현을 생성한다. 그러나 공간적 오디오 신호들의 송신은 데이터 레이트 제약이 강할 때 제한되고 그러므로 디코딩된 오디오 채널들의 포스트 프로세싱은 공간적 오디오 플레이백을 향상시키는 데 또한 사용된다. 흔히 사용되는 기법들은 예를 들어 디코딩된 모노 또는 스테레오 신호들을 멀티채널 오디오(5.1 채널 이상)로 맹목적으로 업믹싱할 수 있다.
공간적 오디오 장면들을 효율적으로 렌더링하기 위하여, 공간적 오디오 코딩 및 프로세싱 기술들은 멀티채널 오디오 신호의 공간적 특성들을 이용한다. 특히, 공간적 오디오 캡처의 채널들 사이의 시간 및 레벨 차이들은 공간에서의 방향성 사운드들에 대한 우리의 지각을 특징짓는 귀 간 단서들(inter-aural cues)을 근사화하는 데 사용된다. 채널 간 시간 차이(inter-channel time difference) 및 채널 간 레벨 차이(inter-channel level difference)가 청각계가 검출할 수 있는 것(즉, 귀 입구들에서의 귀 간 시간 및 레벨 차이들)의 단지 근사치이기 때문에, 채널 간 시간 차이가 지각적 양태와 관련이 있다는 것은 매우 중요하다. 채널 간 시간 차이(ICTD) 및 채널 간 레벨 차이(ICLD)는 멀티채널 오디오 신호들의 방향성 성분들을 모델링하는 데 흔히 사용되는 한편 채널 간 상호 상관(inter-channel cross-correlation)(ICC) ― 이는 귀 간 상호 상관(inter-aural cross-correlation)(IACC)을 모델링함 ― 은 오디오 이미지의 폭을 특징짓는 데 사용된다. 특히 더 낮은 주파수들의 경우 스테레오 이미지는 채널 간 위상 차이들(inter-channel phase differences)(ICPD)로 또한 모델링될 수 있다.
공간적 청지각(auditory perception)에 관련 있는 바이너럴 단서들은 귀 간 레벨 차이(inter-aural level difference)(ILD), 귀 간 시간 차이(inter-aural time difference)(ITD) 및 귀 간 가간섭성 또는 상관(inter-aural coherence 또는 correlation)(IC 또는 IACC)라 지칭됨에 주의해야 한다. 일반 멀티채널 신호들을 고려할 때, 채널들에 관련된 대응하는 단서들은 채널 간 레벨 차이(ICLD), 채널 간 시간 차이(ICTD) 및 채널 간 가간섭성 또는 상관(ICC)이다. 공간적 오디오 프로세싱이 대부분은 캡처된 오디오 채널들에 대해 동작하기 때문에, "C"는 때때로 버려지고 ITD, ILD 및 IC라는 용어들이 또한 오디오 채널들을 언급할 때 종종 사용된다. 도 1은 이들 파라미터들의 예시를 제공한다. 도 1에서 5.1 서라운드 시스템(5 개별(discrete) + 1 저주파 효과)을 이용한 공간적 오디오 플레이백이 도시된다. ICTD, ICLD 및 ICC와 같은 채널 간 파라미터들이 공간에서의 사운드의 인간 지각을 모델링하는 ITD, ILD 및 IACC를 근사화하기 위하여 오디오 채널들로부터 추출된다.
도 2에서, 파라메트릭 공간적 오디오 분석을 채용하는 전형적인 셋업이 도시된다. 도 2는 파라메트릭 스테레오 코더의 기본 블록도를 예시한다. 스테레오 신호 쌍이 스테레오 인코더(201)에 입력된다. 파라미터 추출부(202)는 다운믹스 프로세스를 돕는데, 다운믹스 프로세스에서 다운믹서(204)가 모노 인코더(206)로 인코딩될 두 개의 입력 채널들의 단일 채널 표현을 준비한다. 추출된 파라미터들은 파라미터 인코더(208)에 의해 인코딩된다. 다시 말하면, 스테레오 채널들은 공간적 이미지를 기술하는 인코딩된 파라미터들(205)과 함께 인코딩되어 디코더(203)에 송신되는 모노 신호(207)로 다운믹싱된다. 보통 스테레오 파라미터들의 일부는 등가 직사각형 대역폭(equivalent rectangular bandwidth)(ERB) 스케일과 같은 지각 주파수 스케일의 스펙트럼 서브 대역들로 표현된다. 디코더는 디코딩된 모노 신호 및 송신된 파라미터들에 기초하여 스테레오 합성을 수행한다. 다시 말하면, 디코더는 모노 디코더(210)를 사용하여 단일 채널을 복원하고 파라메트릭 표현을 사용하여 스테레오 채널들을 합성한다. 디코딩된 모노 신호와 수신된 인코딩된 파라미터들은, 파라미터들을 디코딩하며, 디코딩된 파라미터들을 사용하여 스테레오 채널들을 합성하고, 합성된 스테레오 신호 쌍을 출력하는 파라메트릭 합성 유닛(212) 또는 프로세스에 입력된다.
인코딩된 파라미터들이 인간 청각계를 위한 공간적 오디오를 렌더링하는 데 사용되기 때문에, 채널 간 파라미터들은 최대화된 지각된 품질을 위한 지각 고려사항들로 추출하고 인코딩하는 것이 중요하다.
사이드 채널이 명시적으로 코딩되지 않을 수 있기 때문에, 사이드 채널은 중간 채널의 상관해제(decorrelation)에 의해 근사화될 수 있다. 상관해제 기법은 통상적으로 미세 구조 관점에서 입력 신호와는 비가간섭성(incoherent)인 출력 신호를 생성하는 데 사용되는 필터링 방법이다. 상관해제된 신호의 스펙트럼적 포락선 및 시간적 포락선은 이상적으로 유지될 것이다. 상관해제 필터들은 통상적으로 입력 신호의 위상 수정들을 갖는 전역통과(all-pass) 필터들이다.
실시예들의 본질은 멀티채널 오디오 디코더에서 이용되는 비가간섭성 신호 성분들의 표현에 대한 상관해제기의 특성의 적응적 제어이다. 그 적응은 송신된 성능 측정값과 그것이 시간 경과에 따라 어떻게 변화하는지에 기초한다. 상관해제기의 상이한 양태들은 입력 신호의 특성과 일치되기 위하여 동일한 기본 방법을 사용하여 적응적으로 제어될 수 있다. 상관해제 특성의 가장 중요한 양태들 중 하나는 상관해제기 필터 길이의 선택인데, 이는 상세한 설명에서 설명된다. 상관해제된 성분의 강도의 제어 또는 입력 신호의 특성과 일치하도록 적응적으로 제어될 필요가 있을 수 있는 다른 양태들과 같은 상관해제기의 다른 양태들은 유사한 방식으로 적응적으로 제어될 수 있다.
제공되는 것은 상관해제 필터 길이의 적응을 위한 방법이다. 그 방법은 제어 파라미터를 수신 또는 획득하는 단계와, 제어 파라미터의 평균 및 변동을 계산하는 단계를 포함한다. 제어 파라미터의 변동과 평균의 비율이 계산되고, 최적 또는 타겟이 된 상관해제 필터 길이가 현재 비율에 기초하여 계산된다. 최적 또는 타겟이 된 상관해제 필터 길이는 상관해제기에 그 다음에 적용되거나 또는 제공된다.
제1 양태에 따르면 상관해제기를 적응적으로 조정하기 위한 오디오 신호 프로세싱 방법이 제시된다. 그 방법은 제어 파라미터를 획득하는 단계와, 제어 파라미터의 평균 및 변동을 계산하는 단계를 포함한다. 제어 파라미터의 변동과 평균의 비율이 계산되고, 상관해제 파라미터가 상기 비율에 기초하여 계산된다. 상관해제 파라미터는 그 다음에 상관해제기에 제공된다.
그 제어 파라미터는 성능 측정값일 수 있다. 성능 측정값은 추정된 잔향 길이, 상관 측정값들, 공간적 폭의 추정값 또는 예측 이득으로부터 획득될 수 있다.
제어 파라미터는 인코더, 이를테면 파라메트릭 스테레오 인코더로부터 수신되거나, 또는 디코더에서 이미 이용 가능한 정보로부터 또는 이용 가능한 정보 및 송신된 정보(즉, 디코더에 의해 수신된 정보)의 조합에 의해 획득된다.
상관해제 필터 길이의 적응은 각각의 주파수 대역이 최적의 상관해제 필터 길이를 가질 수 있도록 적어도 두 개의 서브 대역들에서 행해질 수 있다. 이는 타겟이 된 길이보다 더 짧거나 또는 더 긴 필터들이 특정한 주파수 서브 대역들 또는 계수들에 대해 사용될 수 있다는 것을 의미한다.
그 방법은 파라메트릭 스테레오 디코더 또는 스테레오 오디오 코덱에 의해 수행된다.
제2 양태에 따르면 상관해제기를 적응적으로 조정하기 위한 장치가 제공된다. 그 장치는 프로세서와 메모리를 포함하며, 상기 메모리는 상기 프로세서에 의해 실행 가능하여 상기 장치가 제어 파라미터를 획득하도록 그리고 제어 파라미터의 평균 및 변동을 계산하도록 동작하게 하는 명령들을 포함한다. 그 장치는 제어 파라미터의 변동과 평균의 비율을 계산하도록, 그리고, 상기 비율에 기초하여 상관해제 파라미터를 계산하도록 동작된다. 그 장치는 상관해제기에 상관해제 파라미터를 제공하도록 추가로 동작된다.
제3 양태에 따르면, 프로세서에 의해 실행될 때, 장치로 하여금 제1 양태의 방법의 액션들을 수행하게 하는 명령들을 포함하는 컴퓨터 프로그램이 제공된다.
제4 양태에 따르면, 프로세서로 하여금 제1 양태를 프로세스들을 수행하게 하는 컴퓨터 실행가능 명령들을 포함하는 컴퓨터 코드를 포함하는, 비일시적 컴퓨터 판독가능 매체에 수록되는 컴퓨터 프로그램 제품이 제공된다.
제5 양태에 따르면 상관해제기를 적응적으로 조정하기 위한 오디오 신호 프로세싱 방법이 제공된다. 그 방법은 제어 파라미터를 획득하는 단계와 상기 제어 파라미터의 변동에 기초하여 타겟이 된 상관해제 파라미터를 계산하는 단계를 포함한다.
제6 양태에 따르면 제5 양태의 방법을 수행하는 수단을 포함하는 멀티채널 오디오 코덱이 제공된다.
본 발명의 예시적인 실시예들의 더욱 완전한 이해를 위해, 지금부터 첨부 도면들에 관련하여 취해진 다음의 설명이 이제 참조될 것인데, 도면들 중:
도 1은 5.1 서라운드 시스템을 이용한 공간적 오디오 플레이백을 예시한다.
도 2는 파라메트릭 스테레오 코더의 기본 블록도를 예시한다.
도 3은 IACC의 함수로서 청각 대상(auditory object)의 폭을 예시한다.
도 4는 오디오 신호의 일 예를 도시한다.
도 5는 일 실시예에 따른 방법을 설명하는 블록도이다.
도 6은 대체 실시예에 따른 방법을 설명하는 블록도이다.
도 7은 장치의 일 예를 도시한다.
도 8은 상관해제 필터 길이 계산기를 포함하는 디바이스를 도시한다.
본 발명의 예시적 실시예 및 그것의 잠재적 이점들이 도면들 중 도 1 내지 도 8을 참조하여 이해된다.
비가간섭성 신호 성분들의 표현을 위한 현존 해법들은 시불변 상관해제 필터들에 기초하고 디코딩된 멀티채널 오디오에서의 비가간섭성 성분들의 양은 상관해제된 신호 성분 및 비-상관해제된 신호 성분의 혼합에 의해 제어된다.
이러한 시불변 상관해제 필터들의 문제가 상관해제된 신호는 청각적 장면에서의 변동들에 의해 영향을 받는 입력 신호들의 성질에 적응되지 않을 것이라는 것이다. 예를 들어, 낮은 리버브(reverb) 환경에서의 단일 스피치 소스의 녹음에서의 앰비언스(ambience)는 잔향이 상당히 더 긴 대형 콘서트 홀에서의 심포니 오케스트라의 녹음물을 위한 것과 동일한 필터로부터의 상관해제된 신호 성분들에 의해 표현될 수 있다. 심지어 상관해제된 성분들의 양이 시간 경과에 따라 제어되더라도 상관해제물의 잔향 길이 및 다른 성질들은 제어되지 않는다. 이는 낮은 리버브 녹음 사운드에 대한 앰비언스가 너무 웅대해지게 하는 한편 높은 리버브 녹음에 대한 청각적 장면은 너무 좁은 것으로 지각될 수 있다. 낮은 리버브 녹음들을 위한 바람직한 짧은 잔향 길이가 더 웅대한(spacious) 녹음물들의 녹음에 금속성이고 부자연스러운 앰비언스를 종종 초래한다.
제안된 해법은 비가간섭성 오디오가 시간 경과에 따라 어떻게 변화하는지를 고려함으로써 비가간섭성 오디오 신호들의 제어를 개선시키고 그 정보를 상관해제의 특성, 예컨대, 잔향 길이를 적응적으로 제어하기 위해, 디코딩되고 렌더링된 멀티채널 오디오 신호에서의 비가간섭성 성분들의 표현에서 사용한다.
적응은 인코더에서의 입력 신호들의 신호 성질들에 기초할 수 있고 디코더로의 하나의 제어 파라미터 또는 여러 제어 파라미터들의 송신에 의해 제어될 수 있다. 대안적으로, 이는 명시적 제어 파라미터의 송신 없이, 디코더에서 이미 이용 가능한 정보에 의해 또는 이용 가능한 정보와 송신된 정보(즉, 디코더에 의해 인코더로부터 수신된 정보)의 조합에 의해 제어될 수 있다.
송신된 제어 파라미터가, 예를 들어, 공간적 성질들의 파라메트릭 디스크립션의 추정된 성능, 즉, 2 채널 입력의 경우의 스테레오 이미지기에 기초할 수 있다. 다시 말하면, 제어 파라미터는 성능 측정값일 수 있다. 성능 측정값은 추정된 잔향 길이, 상관 측정값들, 공간적 폭의 추정값 또는 예측 이득으로부터 획득될 수 있다.
그 해법은 다양한 신호 유형들, 이를테면 낮은 잔향을 갖는 클린 스피치(clean speech) 신호들 또는 큰 잔향 및 넓은 오디오 장면을 갖는 웅대한 음악 신호들에 대한 지각된 품질을 개선시키는 디코딩된 렌더링된 오디오 신호들에서의 잔향의 더 나은 제어를 제공한다.
실시예들의 본질은 멀티채널 오디오 디코더에서 이용되는 비가간섭성 신호 성분들의 표현에 대한 상관해제 필터 길이의 적응적 제어이다. 그 적응은 송신된 성능 측정값과 그것이 시간 경과에 따라 어떻게 변화하는지에 기초한다. 덧붙여서, 상관해제된 성분의 강도는 상관해제 길이와는 동일한 제어 파라미터에 기초하여 제어될 수 있다.
제안된 해법은 주파수 대역들의 주파수 계수들에 대한 프로세싱을 위해, 예컨대, 이산 푸리에 변환(Discrete Fourier Transform)(DFT)을 이용하여, 필터뱅크 또는 변환 도메인에서의 주파수 대역들에 대한 시간 도메인에서의 프레임들 또는 샘플들에 대해 동작할 수 있다. 하나의 도메인에서 수행되는 동작들은 다른 도메인에서 동일하게 수행될 수 있고 주어진 실시예들은 예시된 도메인으로 제한되지 않는다.
하나의 실시예에서, 제안된 해법은 코딩된 다운믹스 채널 및 공간적 성질들의 파라메트릭 디스크립션을 갖는, 즉, 도 2에 예시된 바와 같은 스테레오 오디오 코덱에 이용된다. 파라메트릭 분석은 합성된 스테레오 오디오에서 지각된 비가간섭성 성분들의 양을 적응적으로 조정하는 데 사용될 수 있는 채널들 간의 비가간섭성 성분들을 기술하는 하나 이상의 파라미터들을 추출할 수 있다. 도 3에 예시된 바와 같이, IACC, 즉, 채널들 간의 가간섭성은 공간적 청각 대상 또는 장면의 지각되는 폭에 영향을 미칠 것이다. IACC가 감소할 때, 사운드가 두 개의 별개의 비상관된(uncorrelated) 오디오 소스들로서 지각되기까지 소스 폭은 증가한다. 스테레오 녹음에서 넓은 앰비언스를 표현할 수 있기 위하여, 채널들 간의 비가간섭성 성분들은 디코더에서 합성되어야 한다.
두 개의 입력 채널들(XY) 중 다운믹스 채널이 다음의 수학식으로부터 획득될 수 있으며
Figure pct00001
, (1)
여기서 M은 다운믹스 채널이고 S는 사이드 채널이다. 다운믹스 매트릭스 U 1M 채널 에너지가 최대화되고 S 채널 에너지가 최소화되도록 선택될 수 있다. 다운믹스 동작은 입력 신호들의 위상 또는 시간 정렬을 포함할 수 있다. 패시브 다운믹스의 일 예가 다음의 수학식에 의해 주어진다
Figure pct00002
. (2)
사이드 채널 S는 명시적으로 인코딩될 수 없지만, 예를 들어
Figure pct00003
가 디코딩된 중간 채널
Figure pct00004
으로부터 예측되고 공간적 합성을 위해 디코더에서 사용되는 예측 필터를 사용함으로써 파라미터적으로 모델링될 수 있다. 이 경우 예측 파라미터들, 예컨대, 예측 필터 계수들은, 인코딩되고 디코더로 송신될 수 있다.
사이드 채널을 모델링하는 다른 방법은 그것을 중간 채널의 상관해제에 의해 근사화하는 것이다. 상관해제 기법은 통상적으로 미세 구조 관점에서 입력 신호와는 비가간섭성인 출력 신호를 생성하는 데 사용되는 필터링 방법이다. 상관해제된 신호의 스펙트럼적 포락선 및 시간적 포락선은 이상적으로 유지될 것이다. 상관해제 필터들은 통상적으로 입력 신호의 위상 수정들을 갖는 전역통과 필터들이다.
이 실시예에서, 제안된 해법은 파라메트릭 스테레오 디코더에서 공간적 합성을 위해 사용되는 상관해제기를 적응적으로 조정하는 데 사용된다.
인코딩된 모노 채널
Figure pct00005
의 공간적 렌더링(업믹스)이 다음의 수학식에 의해 획득되며
Figure pct00006
(3)
여기서 U 2는 업믹스 매트릭스이고 D는 미세 구조 관점에서
Figure pct00007
에 대해 이상적으로 비상관된다. 업믹스 매트릭스는 합성된 좌측(
Figure pct00008
) 및 우측(
Figure pct00009
) 채널에서
Figure pct00010
D의 양을 제어한다. 업믹스는 추가적인 신호 성분들, 이를테면 코딩된 잔차 신호를 또한 수반할 수 있다는 것에 주의한다.
ILDICC의 송신물과 함께 파라메트릭 스테레오에서 이용되는 업믹스 매트릭스의 일 예가 다음의 수학식에 의해 주어지며
Figure pct00011
, (4)
여기서
Figure pct00012
(5)
Figure pct00013
. (6)
회전 각도
Figure pct00014
는 합성된 채널들 간의 상관의 양을 결정하는 데 사용되고 다음의 수학식에 의해 주어진다
Figure pct00015
. (7)
전체 회전 각도
Figure pct00016
는 다음의 수학식으로서 획득된다
Figure pct00017
. (8)
두 개의 채널들(
Figure pct00018
Figure pct00019
) 사이의 ILD는 다음의 수학식에 의해 주어지며
Figure pct00020
(9)
여기서
Figure pct00021
N 개 샘플들의 프레임에 대한 샘플 인덱스이다.
채널들 간의 가간섭성은 채널 간 상호 상관(ICC)을 통해 추정될 수 있다. 기존의 ICC 추정은 두 개의 파형들(
Figure pct00022
Figure pct00023
) 간의 유사도의 측정값인 상호 상관 함수(cross-correlation function)(CCF)
Figure pct00024
의 의존하고, 다음의 수학식과 같이 시간 도메인에서 일반적으로 정의되며
Figure pct00025
, (10)
여기서
Figure pct00026
는 시간 지체(time-lag)이고
Figure pct00027
는 기대값 연산자이다. 길이 N의 신호 프레임의 경우 상호 상관은 다음의 수학식으로서 통상적으로 추정된다.
Figure pct00028
(11)
그러면 ICC는 다음 수학식과 같이 신호 에너지들에 의해 정규화된 CCF의 최대로서 획득된다.
Figure pct00029
. (12)
추가적인 파라미터들은 스테레오 이미지의 디스크립션에서 사용될 수 있다. 이것들은 예를 들어 채널들 간의 위상 또는 시간 차이들을 반영할 수 있다.
상관해제 필터가 nk가 각각 샘플 및 주파수 인덱스인 DFT 도메인에서의 자신의 임펄스 응답
Figure pct00030
또는 전달 함수
Figure pct00031
에 의해 정의될 수 있다. DFT 도메인에서 상관해제된 신호(
Figure pct00032
)가 다음의 수학식에 의해 획득되며
Figure pct00033
(13)
여기서 k는 주파수 계수 인덱스이다. 시간 도메인에서 동작하면 상관해제된 신호가 다음의 수학식의 필터링에 의해 획득되며
Figure pct00034
(14)
여기서 n은 샘플 인덱스이다.
하나의 실시예에서
Figure pct00035
개의 직렬로 접속된 전역통과 필터들에 기초한 잔향기(reverberator)가 다음의 수학식으로서 획득되며
Figure pct00036
(15)
여기서
Figure pct00037
Figure pct00038
는 쇠퇴(decay) 및 피드백의 지연이다. 이는 상관해제를 위해 사용될 수 있는 잔향기의 일 예일뿐이고 분수 샘플 지연들이 예를 들어 이용될 수 있는 대체 잔향기들이 존재한다. 쇠퇴 팩터들
Figure pct00039
는 간격 [0,1)에서 선택될 수 있는데 1보다 더 큰 값이 불안정한 필터를 초래할 수 있기 때문이다. 쇠퇴 팩터
Figure pct00040
=0을 선택함으로써, 필터는
Figure pct00041
개 샘플들의 지연일 것이다. 그 경우, 필터 길이는 잔향기에서의 필터 세트 중에서 최대 지연
Figure pct00042
에 의해 주어질 것이다.
멀티채널 오디오, 또는 이 예에서 2 채널 오디오는, 신호 특성들에 의존하는 채널들 간의 가변하는 가간섭성의 양을 당연히 가진다. 잘 감쇠된 환경에서 녹음되는 단일 스피커의 경우 채널들 간에 높은 가간섭성을 초래할 낮은 양의 반사들 및 잔향이 있을 것이다. 잔향이 증가함에 따라 가간섭성은 일반적으로 감소할 것이다. 이는, 낮은 양의 잡음 및 앰비언스를 갖는 클린 스피치 신호들의 경우, 상관해제 필터의 길이가 아마도 잔향 환경에서 단일 스피커의 경우보다 더 짧아야 함을 의미한다. 상관해제기 필터의 길이는 생성된 상관해제된 신호의 특성을 제어하는 하나의 중요한 파라미터이다. 본 발명의 실시예들은 상관해제된 신호의 레벨 제어에 관련된 파라미터들과 같은 상관해제된 신호의 특성을 입력 신호의 특성에 일치시키기 위하여 다른 파라미터들을 적응적으로 제어하는 데 또한 사용될 수 있다.
비가간섭성 신호 성분들의 렌더링을 위해 잔향기를 이용함으로써 지연의 양은 인코딩된 오디오의 상이한 공간적 특성들에 적응하기 위하여 제어될 수 있다. 더 일반적으로 상관해제 필터의 임펄스 응답의 길이를 제어할 수 있다. 위에서 언급된 바와 같이 필터 길이를 제어하는 것은 피드백 없이 잔향기의 지연을 제어하는 것과 동등할 수 있다.
하나의 실시예에서 이 경우 필터 길이와 동등한, 피드백이 없는 잔향기의 지연(d)은 다음 수학식의 제어 파라미터 c 1의 함수
Figure pct00043
이다
Figure pct00044
. (16)
송신된 제어 파라미터가, 예를 들어, 공간적 성질들의 파라메트릭 디스크립션의 추정된 성능, 즉, 2 채널 입력의 경우의 스테레오 이미지기에 기초할 수 있다. 성능 측정값(r)은 추정된 잔향 길이, 상관 측정값들, 공간적 폭 또는 예측 이득의 추정값으로부터 획득될 수 있다. 그러면 상관해제 필터 길이(d)는 이 성능 측정값에 기초하여 제어될 수 있으며, 즉, c 1은 성능 측정값(r)이다. 적합한 제어 함수
Figure pct00045
의 하나의 예가 다음의 수학식에 의해 주어지며
Figure pct00046
, (17)
여기서
Figure pct00047
은 통상적으로
Figure pct00048
가 최대 허용된 지연인 범위
Figure pct00049
에서의 튜닝 파라미터이고
Figure pct00050
Figure pct00051
의 상한이다.
Figure pct00052
이면, 더 짧은 지연이 선택되며, 예컨대, d = 1이다.
Figure pct00053
은 예를 들어
Figure pct00054
=7.0으로 설정될 수 있는 튜닝 파라미터이다.
Figure pct00055
Figure pct00056
의 동력학 간에 관계가 있고, 다른 실시예에서 그것은 예를 들어
Figure pct00057
=0.22일 수 있다.
부함수
Figure pct00058
r의 변화와 시간 경과에 따른 평균(r) 사이의 비율로서 정의될 수 있다. 이 비율은 통상적으로 거의 없는 배경 잡음 또는 잔향을 가진 드문 사운드들의 경우인, 자신의 평균 값에 비해 성능 측정값에서의 많은 변동을 가지는 사운드들의 경우 더 높아질 것이다. 배경 잡음을 갖는 음악 또는 스피치와 같은 더 밀한 사운드들의 경우, 이 비율은 더 낮을 것이고 그러므로 사운드 분급기와 같이 작동하여, 원래의 입력 신호의 비가간섭성 성분들의 특성을 분류한다. 그 비율은 다음의 수학식과 같이 계산될 수 있으며
Figure pct00059
, (18)
여기서
Figure pct00060
는, 예컨대, 200으로 설정된 상한이고,
Figure pct00061
은, 예컨대, 0으로 설정된 하한이다. 그 한계들은 예를 들어 튜닝 파라미터(
Figure pct00062
)에 관련될 수 있으며, 예컨대,
Figure pct00063
이다.
송신된 성능 측정값의 평균의 추정값이 프레임 i에 대해 다음의 수학식으로서 획득된다.
Figure pct00064
(19)
첫 번째 프레임의 경우
Figure pct00065
는 0으로 초기화될 수 있다. 평활화 팩터들(
Figure pct00066
Figure pct00067
)은 r의 상향 및 하향 변화들이 상이하게 추종되도록 선택될 수 있다. 하나의 예에서
Figure pct00068
Figure pct00069
이며 이는 평균 추정값이 시간 경과에 따른 평균 성능 측정값의 최소들을 주로 추종함을 의미한다. 다른 실시예에서, 양 및 음의 평활화 팩터들이, 예컨대,
Figure pct00070
과 동일하다.
마찬가지로, 성능 측정값 변동의 평활화된 추정값이 다음의 수학식으로서 획득되며
Figure pct00071
(20)
여기서
Figure pct00072
. (21)
대안으로, r의 분산은 다음의 수학식으로서 추정될 수 있다.
Figure pct00073
(22)
그러면 그 비율
Figure pct00074
은 평균
Figure pct00075
에 표준 편차
Figure pct00076
를 관련시킬 수 있으며, 즉,
Figure pct00077
, (23)
또는 분산은 제곱 평균에 관련될 수 있으며, 즉,
Figure pct00078
. (24)
표준 편차의 다른 추정값은 다음의 수학식에 의해 주어질 수 있으며
Figure pct00079
, (25)
이는 더 낮은 복잡도를 가진다.
평활화 팩터들(
Figure pct00080
Figure pct00081
)은
Figure pct00082
의 상향 및 하향 변화들이 상이하게 추종되도록 선택될 수 있다. 하나의 예에서
Figure pct00083
Figure pct00084
이며 이는 평균 추정값이 시간 경과에 따른 평균 성능 측정값의 최소들을 주로 추종함을 의미한다. 다른 실시예에서, 양 및 음의 평활화 팩터들이, 예컨대,
Figure pct00085
과 동일하다.
일반적으로 모든 주어진 예들에 대해 두 개의 평활화 팩터들 사이의 전이는 현재 프레임의 업데이트 값이 비교되는 임의의 임계값에 대해 이루어질 수 있으며, 즉, 수학식 (25)의 주어진 예에서,
Figure pct00086
이다.
추가적으로, 지연을 제어하는 비율
Figure pct00087
은 다음의 수학식에 따라 시간 경과에 따라 평활화될 수 있으며
Figure pct00088
, (26)
여기서 평활화 팩터
Figure pct00089
는, 예컨대, 0.01로 설정된 튜닝 팩터이다. 이는 수학식 (17)에서의
Figure pct00090
가 프레임 i에 대해
Figure pct00091
에 의해 대체됨을 의미한다.
다른 실시예에서, 비율
Figure pct00092
은 성능 측정값(
Figure pct00093
)에 기초하여 조건부로 평활화되며, 즉,
Figure pct00094
. (27)
이러한 함수의 하나의 예는 다음의 수학식이며
Figure pct00095
(28)
여기서 평활화 파라미터들은 성능 측정값의 함수이다. 예를 들어
Figure pct00096
. (29)
사용된 성능 측정값에 의존하여, 함수
Figure pct00097
는 상이하게 선택될 수 있다. 그것은, 예를 들어, 평균, 백분위수(예컨대, 중앙값), 프레임들 또는 샘플들의 세트에 대한 또는 주파수 서브 대역들 또는 계수들의 세트에 대한
Figure pct00098
의 최소 또는 최대일 수 있으며, 즉, 예를 들어
Figure pct00099
, (30)
여기서
Figure pct00100
N 개 주파수 서브 대역들에 대한 인덱스이다. 평활화 팩터들은, 예컨대, 0.6으로 설정된 임계값
Figure pct00101
가 초과될 때와 초과되지 않을 때 각각에 평활화의 양을 제어하고 양 및 음의 업데이트들에 대해 동일하거나 또는 상이할 수 있으며, 예컨대,
Figure pct00102
,
Figure pct00103
,
Figure pct00104
,
Figure pct00105
일 수 있다.
샘플들 또는 프레임들 간의 획득된 상관해제 필터 길이에서의 변화의 추가적인 평활화 또는 제한이 아티팩트들을 피하기 위하여 가능하다는 것이 주목될 수 있다. 덧붙여서, 상관해제를 위해 이용되는 필터 길이들의 세트는 신호들을 혼합할 때 획득된 상이한 배색(coloration)들의 수를 줄이기 위하여 제한될 수 있다. 예를 들어, 첫 번째 것이 상대적으로 짧고 두 번째 것이 더 긴 두 개의 상이한 길이들이 있을 수 있다.
하나의 실시예에서, 상이한 길이들(d 1d 2)의 한 세트의 두 개의 가용 필터들이 사용된다. 타겟이 된 필터 길이(d)는 예를 들어 다음의 수학식으로서 획득될 수 있으며
Figure pct00106
, (31)
여기서
Figure pct00107
은 예를 들어 다음의 수학식에 의해 주어지는 튜닝 파라미터이며
Figure pct00108
, (32)
여기서
Figure pct00109
는, 예컨대, 2로 설정될 수 있는 오프셋 항이다. 여기서 d 2d 1보다 더 큰 것으로 가정된다. 타겟 필터 길이는 제어 파라미터이지만 상이한 필터 길이들 또는 잔향기 지연들이 상이한 주파수들에 대해 이용될 수 있다는 것에 주의한다. 이는 타겟이 된 길이보다 더 짧거나 또는 더 긴 필터들이 특정한 주파수 서브 대역들 또는 계수들에 대해 사용될 수 있다는 것을 의미한다.
이 경우, 합성된 채널들(
Figure pct00110
Figure pct00111
)에서 상관해제된 신호(D)의 양을 제어하는 상관해제 필터 강도(s)는 동일한 제어 파라미터들에 의해 제어될 수 있으며, 이 경우 하나의 제어 파라미터로, 성능 측정값
Figure pct00112
이다.
다른 실시예에서, 상관해제 필터 길이의 적응은 각각의 주파수 대역이 최적의 상관해제 필터 길이를 가질 수 있도록 여러 개, 즉, 적어도 두 개의 서브 대역들에서 행해진다.
수학식 (15)에 묘사된 바와 같이 잔향기가 피드백을 갖는 필터 세트를 사용하는 일 실시예에서, 피드백의 양(
Figure pct00113
)은 지연 파라미터
Figure pct00114
와 유사한 방식으로 또한 적응될 수 있다. 이러한 실시예에서 생성된 앰비언스의 길이는 이들 파라미터들 양쪽 모두의 조합이고 따라서 양쪽 모두는 적합한 앰비언스 길이를 성취하기 위하여 적응될 필요가 있을 수 있다.
또 다른 실시예에서, 상관해제 필터 길이 또는 잔향기 지연(d) 및 상관해제 신호 강도(s)는 둘 이상의 상이한 제어 파라미터들의 함수들, 즉, 다음 수학식들로서 제어된다.
Figure pct00115
, (33)
Figure pct00116
(34)
또 다른 실시예에서, 상관해제 필터 길이 및 상관해제 신호 강도는 디코딩된 오디오 신호들의 분석에 의해 제어된다.
잔향 길이는 과도현상들, 즉, 갑작스런 에너지 증가들에 대해, 또는 특수한 특성들을 갖는 다른 신호들에 대해 추가적으로 특수하게 제어될 수 있다.
필터가 시간 경과에 따라 변화함에 따라 프레임들 또는 샘플들에 대한 변화들의 일부 핸들링이 있어야 한다. 이는 예를 들어 중첩 프레임들을 갖는 보간 또는 윈도우 함수들일 수 있다. 보간은 여러 샘플들 또는 프레임들에 대한 이전의 필터들 사이에서 그것들의 각각 제어된 길이 대 현재 타겟이 된 필터 길이에 대해 이루어질 수 있다. 보간은 샘플들 또는 프레임들에 대한 현재 타겟이 된 길이의 현재 필터의 이득을 증가시키면서 이전의 필터들의 이득을 연속적으로 감소시킴으로써 획득될 수 있다. 다른 실시예에서, 타겟이 된 필터 길이가 이용 가능하지 않을 때 상이한 길이들의 가용 필터들의 혼합체가 존재하도록 타겟이 된 필터 길이는 각각의 이용가능 필터의 필터 이득을 제어한다. 각각 길이 d 1d 2의 두 개의 가용 필터들(h 1h 2)의 경우, 그것들의 이득들(s 1s 2)은 다음의 수학식들로서 획득될 수 있다.
Figure pct00117
, (35)
Figure pct00118
. (36)
h 1c 1에 의해 이득이 제어되는 기준 필터인 경우에, 필터 이득들은, 예컨대, 필터링된 신호의 동일한 에너지를 획득하기 위하여 서로에 또한 의존할 수 있다, 즉,
Figure pct00119
이다. 예를 들어 필터 이득(s1)은 다음의 수학식으로서 획득될 수 있으며
Figure pct00120
, (37)
여기서 d는 범위
Figure pct00121
Figure pct00122
에서의 타겟이 된 필터 길이이다. 제2 필터 이득은 예를 들어 다음의 수학식으로서 획득될 수 있다
Figure pct00123
. (38)
필터링된 신호
Figure pct00124
은 그러면 다음의 수학식으로서 획득되는데
Figure pct00125
, (39)
단 필터링 동작은 시간 도메인에서 수행된다.
상관해제 신호 강도(s)가 제어 파라미터(c 1)에 의해 제어되는 경우 그것을 이전 프레임들의 제어 파라미터들 및 상관해제 필터 길이(d)의 함수
Figure pct00126
로서 제어하는 것이 유익할 수 있다. 즉,
Figure pct00127
. (40)
이러한 함수의 하나의 예는 다음의 수학식이며
Figure pct00128
, (41)
여기서
Figure pct00129
Figure pct00130
는 튜닝 파라미터들, 예컨대,
Figure pct00131
또는
Figure pct00132
Figure pct00133
이다.
Figure pct00134
는 통상적으로 범위 [0,1]에 있어야 하는 한편
Figure pct00135
는 1보다 더 커야할 수 있다.
하나를 초과하는 필터의 혼합체의 경우, 즉, 두 개의 필터들(h 1h 2)의 경우,
Figure pct00136
을 갖는 업믹스에서 필터링된 신호
Figure pct00137
의 강도(s)는, 예를 들어, 가중된 평균에 기초하여 다음의 수학식에 의해 획득될 수 있으며
Figure pct00138
, (42)
여기서
Figure pct00139
. (43)
도 4는 전반이 클린 스피치를 포함하고 후반이 클래식 음악을 포함하는 신호의 일 예를 도시한다. 성능 측정값 평균은 음악을 포함하는 후반이 상대적으로 높다. 성능 측정값 변동이 또한 후반이 더 높지만 그것들 간의 비율은 상당히 더 낮다. 성능 측정값 변동이 성능 측정값 평균보다 훨씬 더 큰 신호가 지속적인 높은 양들의 확산 성분들을 갖는 신호인 것으로 간주되고 그러므로 상관 해제 필터의 길이는 이 예의 전반의 경우 후반보다 더 낮아야 한다. 그래프들에서의 신호들이 모두 평활화되었고 더 많은 제어된 거동을 위해 부분적으로 제약된다는 것에 주의해야 한다. 이 경우 타겟이 된 상관해제 필터 길이는 이산적인 프레임 수로 표현되지만 다른 실시예들에서 그 필터 길이는 연속적으로 가변할 수 있다.
도 5 및 6은 상관해제기를 조정하기 위한 예시적인 방법을 도시한다. 그 방법은 제어 파라미터를 획득하는 단계와, 제어 파라미터의 평균 및 변동을 계산하는 단계를 포함한다. 제어 파라미터의 변동과 평균의 비율이 계산되고, 상관해제 파라미터가 그 비율에 기초하여 계산된다. 상관해제 파라미터는 그 다음에 상관해제기에 제공된다.
도 5는 상관해제 필터 길이의 적응에 수반되는 단계들을 설명한다. 그 방법(500)은 성능 측정값 파라미터, 즉, 제어 파라미터를 수신하는 단계(501)로 시작한다. 성능 측정값은 오디오 인코더에서 계산되고 오디오 디코더로 송신된다. 대안적으로, 제어 파라미터는 디코더에서 이미 이용 가능한 정보로부터 또는 이용 가능한 정보와 송신된 정보의 조합에 의해 획득된다. 먼저 성능 측정값의 평균 및 변동이 블록들(502 및 504)에서 도시된 바와 같이 계산된다. 그 다음에 성능 측정값의 변동과 평균의 비율이 계산된다(506). 최적 상관해제 필터 길이가 그 비율에 기초하여 계산된다(508). 마지막으로, 새로운 상관해제 필터 길이가, 예컨대 수신된 모노 신호로부터 상관해제된 신호를 획득하기 위해, 적용된다(510).
도 6은 상관해제 필터 길이의 적응의 다른 실시예를 설명한다. 그 방법(600)은 성능 측정값 파라미터, 즉, 제어 파라미터를 수신하는 단계(601)로 시작한다. 성능 측정값은 오디오 인코더에서 계산되고 오디오 디코더로 송신된다. 대안적으로, 제어 파라미터는 디코더에서 이미 이용 가능한 정보로부터 또는 이용 가능한 정보와 송신된 정보의 조합에 의해 획득된다. 먼저 성능 측정값의 평균 및 변동이 블록들(602 및 604)에서 도시된 바와 같이 계산된다. 그 다음에 성능 측정값의 변동과 평균의 비율이 계산된다(606). 타겟이 된 상관해제 필터 길이가 그 비율에 기초하여 계산된다(608). 최종 단계는 새로운 타겟이 된 상관해제 필터 길이를 상관해제기에 제공하는 것이다(610).
그 방법들은 파라메트릭 스테레오 디코더 또는 스테레오 오디오 코덱에 의해 수행될 수 있다.
도 7은 도 5 및 도 6에 예시된 방법을 수행하는 장치의 일 예를 도시한다. 그 장치(700)는 프로세서(710), 예컨대, 중앙 프로세싱 유닛(central processing unit)(CPU)과, 명령들, 예컨대, 컴퓨터 프로그램(730)을 저장하는 메모리 형태의 컴퓨터 프로그램 제품(720)을 포함하는데, 컴퓨터 프로그램은, 메모리로부터 취출되고 프로세서(710)에 의해 실행될 때, 장치(700)로 하여금, 상관해제기를 적응적으로 조정하는 실시예들에 관련된 프로세스들을 수행하게 한다. 프로세서(710)는 메모리(720)에 통신적으로 커플링된다. 그 장치는 입력 파라미터들, 즉, 성능 측정값을 수신하기 위한 입력 노드와, 상관해제 필터 길이와 같은 프로세싱된 파라미터들을 출력하기 위한 출력 노드를 더 포함할 수 있다. 입력 노드와 출력 노드는 프로세서(710)에 통신적으로 둘 다 커플링된다.
장치(700)는 오디오 디코더, 이를테면 도 2의 하부에 도시된 파라메트릭 스테레오 디코더에 포함될 수 있다. 그것은 스테레오 오디오 코덱 내에 포함될 수 있다.
도 8은 상관해제 필터 길이 계산기(802)를 포함하는 디바이스(800)를 도시한다. 그 디바이스는 디코더, 예컨대, 스피치 또는 오디오 디코더일 수 있다. 입력 신호(804)가 공간적 이미지를 기술하는 인코딩된 파라미터들을 갖는 인코딩된 모노 신호이다. 입력 파라미터들은 제어 파라미터, 이를테면 성능 측정값을 포함할 수 있다. 출력 신호(806)는 합성된 스테레오 또는 멀티채널 신호, 즉, 복원된 오디오 신호이다. 디바이스는 오디오 인코더로부터 입력 신호를 수신하기 위한 수신기(도시되지 않음)를 더 포함할 수 있다. 그 디바이스는 도 2에 도시된 바와 같은 모노 디코더와 파라메트릭 합성 유닛을 더 포함할 수 있다.
일 실시예에서, 상관해제 길이 계산기(802)는 성능 측정값 파라미터, 즉, 제어 파라미터를 수신 또는 획득하기 위한 획득 유닛을 포함한다. 그것은 성능 측정값의 평균 및 변동을 계산하는 제1 계산 유닛, 성능 측정값의 변동과 평균의 비율을 계산하는 제2 계산 유닛, 및 타겟이 된 상관해제 필터 길이를 계산하는 제3 계산 유닛을 더 포함한다. 그것은 타겟이 된 상관해제 필터 길이를 상관해제 유닛에 제공하는 제공 유닛을 더 포함할 수 있다.
예로서, 소프트웨어 또는 컴퓨터 프로그램(730)은, 컴퓨터 판독가능 매체, 바람직하게는 비휘발성 컴퓨터 판독가능 저장 매체 상에서 통상적으로 운반 또는 저장되는 컴퓨터 프로그램 제품으로서 실현될 수 있다. 컴퓨터 판독가능 매체는 판독전용 메모리(Read-Only Memory)(ROM), 랜덤 액세스 메모리(Random Access Memory)(RAM), 콤팩트 디스크(Compact Disc)(CD), 디지털 다용도 디스크(Digital Versatile Disc)(DVD), 블루레이 디스크, 유니버설 직렬 버스(Universal Serial Bus)(USB) 메모리, 하드 디스크 드라이브(Hard Disk Drive)(HDD) 저장 디바이스, 플래시 메모리, 자기 테이프, 또는 임의의 다른 기존의 메모리 디바이스를 비제한적으로 포함하는 하나 이상의 착탈식 또는 비탈착식 메모리 디바이스들을 포함할 수 있다.
본 발명의 실시예들은 소프트웨어, 하드웨어, 애플리케이션 로직, 또는 소프트웨어, 하드웨어 및 애플리케이션 로직의 조합으로 구현될 수 있다. 소프트웨어, 애플리케이션 로직 및/또는 하드웨어는 메모리, 마이크로프로세서 또는 중앙 프로세싱 유닛 상에 존재할 수 있다. 원한다면, 소프트웨어, 애플리케이션 로직 및/또는 하드웨어의 일부는 호스팅 디바이스 상에 또는 호스팅의 메모리, 마이크로프로세서 또는 중앙 프로세싱 유닛 상에 존재할 수 있다. 예시적인 실시예에서, 애플리케이션 로직, 소프트웨어 또는 명령 세트는 다양한 기존의 컴퓨터 판독가능 매체들 중 임의의 것 상에 유지된다.
약어들
ILD/ICLD 채널 간 레벨 차이
IPD/ICPD 채널 간 위상 차이
ITD/ICTD 채널 간 시간 차이
IACC 귀 간 상호 상관
ICC 채널 간 상관
DFT 이산 푸리에 변환
CCF 상호 상관 함수

Claims (31)

  1. 상관해제기를 적응적으로 조정하기 위한 오디오 신호 프로세싱 방법(500, 600)으로서,
    제어 파라미터를 획득하는 단계(501, 601);
    상기 제어 파라미터의 평균을 계산하는 단계(502, 602);
    상기 제어 파라미터의 변동을 계산하는 단계(504, 604);
    상기 제어 파라미터의 상기 변동과 평균의 비율을 계산하는 단계(506, 606); 및
    상기 비율에 기초하여 상관해제 파라미터를 계산하는 단계(508, 608)를 포함하는, 오디오 신호 프로세싱 방법.
  2. 제1항에 있어서, 상관해제기에 계산된 상관해제 파라미터를 제공하는 단계를 더 포함하는, 오디오 신호 프로세싱 방법.
  3. 제1항 또는 제2항에 있어서, 상기 상관해제 파라미터를 계산하는 단계는 타겟이 된 상관해제 필터 길이를 계산하는 단계를 포함하는, 오디오 신호 프로세싱 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 제어 파라미터는 인코더로부터 수신되거나 또는 디코더에서 이용 가능한 정보로부터 또는 이용 가능한 정보 및 수신된 정보의 조합에 의해 획득되는, 오디오 신호 프로세싱 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 제어 파라미터는 성능 측정값인, 오디오 신호 프로세싱 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 제어 파라미터는 입력 오디오 신호의 공간적 성질들의 파라메트릭 디스크립션의 추정된 성능에 기초하여 결정되는, 오디오 신호 프로세싱 방법.
  7. 제5항에 있어서, 상기 성능 측정값은 추정된 잔향 길이, 상관 측정값들, 공간적 폭의 추정값 또는 예측 이득으로부터 획득되는, 오디오 신호 프로세싱 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 상관해제 파라미터의 적응은 적어도 두 개의 서브 대역들에서 행해지고, 각각의 주파수 대역이 최적의 상관해제 파라미터를 갖는, 오디오 신호 프로세싱 방법.
  9. 제3항 내지 제8항 중 어느 한 항에 있어서, 상기 상관해제 필터 길이 및 상관해제 신호 강도 중 적어도 하나는 디코딩된 오디오 신호들의 분석에 의해 제어되는, 오디오 신호 프로세싱 방법.
  10. 제3항 내지 제8항 중 어느 한 항에 있어서, 상기 상관해제 필터 길이 및 상관해제 신호 강도 중 적어도 하나는 둘 이상의 상이한 제어 파라미터들의 함수들로서 제어되는, 오디오 신호 프로세싱 방법.
  11. 장치로서,
    제1항 내지 제10항 중 어느 한 항에 따른 방법을 수행하는 수단을 포함하는, 장치.
  12. 프로세서(701) 및 메모리 (720)를 포함하고 상관해제기를 적응적으로 조정하기 위한 장치(700, 802)로서,
    상기 메모리는 상기 프로세서에 의해 실행 가능한 명령들을 포함하여, 상기 장치는
    제어 파라미터를 획득하고;
    상기 제어 파라미터의 평균을 계산하고;
    상기 제어 파라미터의 변동을 계산하고;
    상기 제어 파라미터의 상기 변동과 평균의 비율을 계산하고;
    상기 비율에 기초하여 상관해제 파라미터를 계산하도록
    동작하는, 장치.
  13. 제12항에 있어서, 상관해제기에 계산된 상관해제 파라미터를 제공하도록 추가로 구성되는, 장치.
  14. 제12항 또는 제13항에 있어서, 상기 상관해제 파라미터를 계산하는 것은 타겟이 된 상관해제 필터 길이를 계산하는 것을 포함하는, 장치.
  15. 제12항 내지 제14항 중 어느 한 항에 있어서, 인코더로부터 상기 제어 파라미터를 수신하도록 또는 상기 장치에서 이용 가능한 정보로부터 상기 제어 파라미터를 획득하도록 또는 이용 가능한 정보 및 수신된 정보의 조합으로부터 상기 제어 파라미터를 획득하도록 추가로 구성되는, 장치.
  16. 제12항 내지 제15항 중 어느 한 항에 있어서, 상기 제어 파라미터는 성능 측정값인, 장치.
  17. 제12항 내지 제16항 중 어느 한 항에 있어서, 상기 제어 파라미터는 입력 오디오 신호의 공간적 성질들의 파라메트릭 디스크립션의 추정된 성능에 기초하여 결정되는, 장치.
  18. 제16항에 있어서, 상기 성능 측정값은 추정된 잔향 길이, 상관 측정값들, 공간적 폭의 추정값 또는 예측 이득으로부터 획득되는, 장치.
  19. 제12항 내지 제18항 중 어느 한 항에 있어서, 적어도 두 개의 서브 대역들에서 상기 상관해제 파라미터의 적응을 수행하도록 추가로 구성되고, 각각의 주파수 대역이 최적의 상관해제 파라미터를 갖는, 장치.
  20. 제14항 내지 제19항 중 어느 한 항에 있어서, 디코딩된 오디오 신호들의 분석에 의해 상기 상관해제 필터 길이 및 상관해제 신호 강도 중 적어도 하나를 제어하도록 추가로 구성되는, 장치.
  21. 제14항 내지 제19항 중 어느 한 항에 있어서, 상기 상관해제 필터 길이 및 상관해제 신호 강도 중 적어도 하나를 둘 이상의 상이한 제어 파라미터들의 함수들로서 제어하도록 추가로 구성되는, 장치.
  22. 상관해제기로서,
    제11항 내지 제21항 중 어느 한 항의 장치를 포함하는 파라메트릭 스테레오 디코더에서 공간적 합성을 위해 사용되는, 상관해제기.
  23. 스테레오 오디오 코덱으로서,
    제11항 내지 제21항 중 어느 한 항의 장치를 포함하는, 스테레오 오디오 코덱.
  24. 파라메트릭 스테레오 디코더로서,
    제11항 내지 제21항 중 어느 한 항의 장치를 포함하는, 파라메트릭 스테레오 디코더.
  25. 컴퓨터 프로그램(730)으로서,
    프로세서(710)에 의해 실행될 때, 장치로 하여금, 제1항 내지 제10항 중 어느 한 항의 방법의 액션들을 수행하게 하는 명령들을 포함하는, 컴퓨터 프로그램(730).
  26. 비일시적 컴퓨터 판독가능 매체 상에 수록되는 컴퓨터 프로그램 제품(720)으로서, 프로세서로 하여금, 제1항 내지 제10항 중 어느 한 항의 프로세스들을 수행하게 하는 컴퓨터 실행가능 명령들을 포함하는 컴퓨터 코드를 포함하는, 컴퓨터 프로그램 제품.
  27. 상관해제기를 적응적으로 조정하기 위한 오디오 신호 프로세싱 방법(600)으로서,
    제어 파라미터를 획득하는 단계(601); 및
    상기 제어 파라미터의 변동에 기초하여 타겟이 된 상관해제 파라미터를 계산하는 단계(608)를 포함하는, 오디오 신호 프로세싱 방법.
  28. 제27항에 있어서, 상기 타겟이 된 상관해제 파라미터는,
    상기 제어 파라미터의 평균을 계산하는 단계;
    상기 제어 파라미터의 변동을 계산하는 단계;
    상기 제어 파라미터의 상기 변동과 평균의 비율을 계산하는 단계; 및
    상기 비율에 기초하여 상기 타겟이 된 상관해제 파라미터를 계산하는 단계에 의해 계산되는, 방법.
  29. 제27항에 있어서, 상기 상관해제 파라미터는 상관해제 필터 길이에 대응하는, 방법.
  30. 제29항에 있어서, 상기 타겟이 된 상관해제 필터 길이는 멀티채널 오디오 신호의 렌더링에서 신호 성분들을 상관해제시키기 위한 상관해제기에 제공되는, 방법.
  31. 멀티채널 오디오 코덱으로서,
    제27항 내지 제30항 중 어느 한 항에 따른 방법을 수행하는 수단을 포함하는, 멀티채널 오디오 코덱.
KR1020197017588A 2016-11-23 2017-11-23 상관해제 필터들의 적응적 제어를 위한 방법 및 장치 KR102201308B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020217000273A KR102349931B1 (ko) 2016-11-23 2017-11-23 상관해제 필터들의 적응적 제어를 위한 방법 및 장치

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662425861P 2016-11-23 2016-11-23
US62/425,861 2016-11-23
US201662430569P 2016-12-06 2016-12-06
US62/430,569 2016-12-06
PCT/EP2017/080219 WO2018096036A1 (en) 2016-11-23 2017-11-23 Method and apparatus for adaptive control of decorrelation filters

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020217000273A Division KR102349931B1 (ko) 2016-11-23 2017-11-23 상관해제 필터들의 적응적 제어를 위한 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20190085988A true KR20190085988A (ko) 2019-07-19
KR102201308B1 KR102201308B1 (ko) 2021-01-11

Family

ID=60450667

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020197017588A KR102201308B1 (ko) 2016-11-23 2017-11-23 상관해제 필터들의 적응적 제어를 위한 방법 및 장치
KR1020217000273A KR102349931B1 (ko) 2016-11-23 2017-11-23 상관해제 필터들의 적응적 제어를 위한 방법 및 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020217000273A KR102349931B1 (ko) 2016-11-23 2017-11-23 상관해제 필터들의 적응적 제어를 위한 방법 및 장치

Country Status (9)

Country Link
US (3) US10950247B2 (ko)
EP (3) EP3545693B1 (ko)
JP (3) JP6843992B2 (ko)
KR (2) KR102201308B1 (ko)
CN (2) CN112397076A (ko)
ES (1) ES2808096T3 (ko)
IL (1) IL266580B (ko)
MX (1) MX2019005805A (ko)
WO (1) WO2018096036A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3545693B1 (en) 2016-11-23 2020-06-24 Telefonaktiebolaget LM Ericsson (PUBL) Method and apparatus for adaptive control of decorrelation filters
WO2020044244A1 (en) 2018-08-29 2020-03-05 Audible Reality Inc. System for and method of controlling a three-dimensional audio engine
US11586411B2 (en) * 2018-08-30 2023-02-21 Hewlett-Packard Development Company, L.P. Spatial characteristics of multi-channel source audio
US20200402523A1 (en) * 2019-06-24 2020-12-24 Qualcomm Incorporated Psychoacoustic audio coding of ambisonic audio data
CN112653985B (zh) 2019-10-10 2022-09-27 高迪奥实验室公司 使用2声道立体声扬声器处理音频信号的方法和设备
KR20230054597A (ko) 2021-10-16 2023-04-25 김은일 외장 태양에너지시스템과 이의 건설방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101521010A (zh) * 2008-02-29 2009-09-02 华为技术有限公司 一种音频信号的编解码方法和装置
KR20150106962A (ko) * 2013-02-14 2015-09-22 돌비 레버러토리즈 라이쎈싱 코오포레이션 업믹스된 오디오 신호들의 채널간 코히어런스를 제어하기 위한 방법

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
EP1356589B1 (en) * 2001-01-23 2010-07-14 Koninklijke Philips Electronics N.V. Asymmetric multichannel filter
SE0301273D0 (sv) 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
CA2992125C (en) * 2004-03-01 2018-09-25 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters
TWI393121B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
JP2007065497A (ja) 2005-09-01 2007-03-15 Matsushita Electric Ind Co Ltd 信号処理装置
EP1879181B1 (en) * 2006-07-11 2014-05-21 Nuance Communications, Inc. Method for compensation audio signal components in a vehicle communication system and system therefor
JP4928918B2 (ja) * 2006-11-27 2012-05-09 株式会社東芝 適応フィルタを用いた信号処理装置
WO2008096313A1 (en) * 2007-02-06 2008-08-14 Koninklijke Philips Electronics N.V. Low complexity parametric stereo decoder
US9584235B2 (en) * 2009-12-16 2017-02-28 Nokia Technologies Oy Multi-channel audio processing
US8977542B2 (en) * 2010-07-16 2015-03-10 Telefonaktiebolaget L M Ericsson (Publ) Audio encoder and decoder and methods for encoding and decoding an audio signal
JP5730555B2 (ja) 2010-12-06 2015-06-10 富士通テン株式会社 音場制御装置
GB201109731D0 (en) * 2011-06-10 2011-07-27 System Ltd X Method and system for analysing audio tracks
CA2859985C (en) 2011-12-21 2020-11-03 The Regents Of The University Of Colorado Anti-cancer compounds targeting ral gtpases and methods of using the same
JP2013156109A (ja) * 2012-01-30 2013-08-15 Hitachi Ltd 距離計測装置
TWI618050B (zh) * 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
US10839302B2 (en) * 2015-11-24 2020-11-17 The Research Foundation For The State University Of New York Approximate value iteration with complex returns by bounding
EP3545693B1 (en) 2016-11-23 2020-06-24 Telefonaktiebolaget LM Ericsson (PUBL) Method and apparatus for adaptive control of decorrelation filters

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101521010A (zh) * 2008-02-29 2009-09-02 华为技术有限公司 一种音频信号的编解码方法和装置
KR20150106962A (ko) * 2013-02-14 2015-09-22 돌비 레버러토리즈 라이쎈싱 코오포레이션 업믹스된 오디오 신호들의 채널간 코히어런스를 제어하기 위한 방법

Also Published As

Publication number Publication date
US20210201922A1 (en) 2021-07-01
MX2019005805A (es) 2019-08-12
US11501785B2 (en) 2022-11-15
CN110024421B (zh) 2020-12-25
US11942098B2 (en) 2024-03-26
KR102349931B1 (ko) 2022-01-11
EP3545693A1 (en) 2019-10-02
JP2021101242A (ja) 2021-07-08
JP2020502562A (ja) 2020-01-23
JP6843992B2 (ja) 2021-03-17
IL266580A (en) 2019-07-31
CN112397076A (zh) 2021-02-23
CN110024421A (zh) 2019-07-16
JP7201721B2 (ja) 2023-01-10
WO2018096036A1 (en) 2018-05-31
ES2808096T3 (es) 2021-02-25
EP3545693B1 (en) 2020-06-24
IL266580B (en) 2021-10-31
EP4149122A1 (en) 2023-03-15
EP3734998B1 (en) 2022-11-02
KR20210006007A (ko) 2021-01-15
KR102201308B1 (ko) 2021-01-11
US20200184981A1 (en) 2020-06-11
US20230071136A1 (en) 2023-03-09
EP3734998A1 (en) 2020-11-04
US10950247B2 (en) 2021-03-16
JP2023052042A (ja) 2023-04-11

Similar Documents

Publication Publication Date Title
KR102349931B1 (ko) 상관해제 필터들의 적응적 제어를 위한 방법 및 장치
KR101580240B1 (ko) 다채널 오디오 신호를 인코딩하는 파라메트릭 인코더
US11380337B2 (en) Method and apparatus for increasing stability of an inter-channel time difference parameter
JP2008536183A (ja) 無相関信号の包絡線整形
JP7383685B2 (ja) バイノーラル・ダイアログ向上
US20110123031A1 (en) Multi channel audio processing
JP2007025290A (ja) マルチチャンネル音響コーデックにおける残響を制御する装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant