KR20230066056A - 사운드 코덱에 있어서 비상관 스테레오 콘텐츠의 분류, 크로스-토크 검출 및 스테레오 모드 선택을 위한 방법 및 디바이스 - Google Patents

사운드 코덱에 있어서 비상관 스테레오 콘텐츠의 분류, 크로스-토크 검출 및 스테레오 모드 선택을 위한 방법 및 디바이스 Download PDF

Info

Publication number
KR20230066056A
KR20230066056A KR1020237011936A KR20237011936A KR20230066056A KR 20230066056 A KR20230066056 A KR 20230066056A KR 1020237011936 A KR1020237011936 A KR 1020237011936A KR 20237011936 A KR20237011936 A KR 20237011936A KR 20230066056 A KR20230066056 A KR 20230066056A
Authority
KR
South Korea
Prior art keywords
stereo
sound signal
mode
cross
uncorrelated
Prior art date
Application number
KR1020237011936A
Other languages
English (en)
Inventor
블라디미르 말레노프스키
토미 베일런코트
Original Assignee
보이세지 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 보이세지 코포레이션 filed Critical 보이세지 코포레이션
Publication of KR20230066056A publication Critical patent/KR20230066056A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

본 개시는 입력 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠(이하에서는 "UNCLR 분류" 함)의 분류 및 크로스-토크 검출(이하에서는 "XTALK 검출"이라 함)을 기술한다. 본 개시는 스테레오 모드 선택, 예를 들어, 자동 LRTD/DFT 스테레오 모드 선택을 기술한다. 추가적으로, 본 개시는 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호를 코딩하기 이한 제 1 스테레오 모드와 제 2 스테레오 모드 중 하나를 선택하고, 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호로부터 추출된 피처들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서 크로스-토크를 검출하거나, 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호로부터 추출된 피처에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 분류하기 위해 상기 분류를 이용한다.

Description

사운드 코덱에 있어서 비상관 스테레오 콘텐츠의 분류, 크로스-토크 검출 및 스테레오 모드 선택을 위한 방법 및 디바이스
본 개시는 사운드 코딩(sound coding)에 관한 것으로, 예를 들어, 복합 오디오 장면에 있어서 낮은 비트-레이트 및 저 지연으로 양호한 사운드 품질을 생성할 수 있는 멀티-채널 사운드 코덱에 있어서 비상관 스테레오 콘텐츠(uncorrelated stereo content)의 분류, 크로스-토크 검출(cross-talk detection) 및 스테레오 모드 선택에 관한 것이지만, 그에 국한되는 것은 아니다.
본 개시에 있어서 및 첨부된 청구항들에 있어서,
- 용어 "사운드"는 스피치(speech), 오디오 및 임의 다른 사운드와 연관될 수 있다.
- 용어 "스테레오"는 "스테레오포닉(stereophonic)"의 약어이다.
- 용어 "모노"는 "모노포닉(monophonic)"의 약어이다.
역사적으로, 대화형 전화(conversational telephony)는 사용자의 귀들 중 한쪽에만 사운드를 출력하도록 단지 하나의 트랜스듀서(transducer)만을 가진 핸드셋(handset)으로 구현되었다. 지난 십년 동안에, 사용자들은 주로 음악을 듣지만 때때로 스피치를 듣기 위해 그들의 두 귀를 통해 사운드를 수신하도록, 헤드폰(headphone)과 함께 그들의 휴대용 핸드셋을 이용하기 시작하였다. 그럼에도, 휴대용 핸드셋이 대화 스피치를 전송하고 수신하는데 이용될 경우, 그 콘텐츠는 여전히 모노로서, 헤드폰 이용시에 사용자의 두 귀에 제시된다.
전체 콘텐츠가 본 명세서에 참조로서 수록되는 참고문헌 [1]에 기술된 바와 같은, 최신 3GPP 스피치 코딩 표준 EVS(Enhanced Voice Service)에 따라, 휴대용 핸드셋을 통해 송수신되는, 예를 들어, 스피치 및/또는 오디오와 같은 코딩된 사운드의 품질은 크게 개선되었다. 다음의 자연스러운 단계는, 수신기가 통신 링크의 타측 단부에서 포획되는 오디오 장면을 가능한 실제와 가깝게 수신하도록 스테레오 정보를 전송하는 것이다.
예를 들어, 전체 콘텐츠가 본 명세서에 참조로서 수록된 참고문헌 [2]에 기술된 바와 같은, 오디오 코덱에서는, 스테레오 정보의 전송이 통상적으로 이용된다.
대화 스피치 코덱들의 경우, 모노 신호가 일반적이다. 스테레오 사운드 신호가 전송되면, 비트-레이트가 2배로 되는데, 이는 스테레오 사운드 신호의 좌우측 채널들이 모노 코덱을 이용하여 코딩되기 때문이다. 대부분의 시나리오에서는 이것이 잘 되고 있지만, 비트-레이트의 배증(doubling) 및 2 채널들(스테레오 사운드 신호의 좌우측 채널들)간의 임의 잠재적 중복성을 활용하지 못하는다는 단점을 드러낸다. 또한, 전체 비트-레이트를 적정한 레벨로 유지시키기 위해, 좌우측 채널들의 각각에 대해 매우 낮은 비트-레이트가 이용되며, 이에 따라 전체 사운드 품질에 영향을 준다. 비트-레이트를 줄이기 위해, 효율적인 스테레오 코딩 기법들이 개발되어 이용되고 있다. 비 제한적 예시로서, 낮은 비트-레이트에서 효율적으로 이용될 수 있는 2가지 스테레오 코딩 기법들이 이하의 문단들에서 논의된다.
제 1 스테레오 코딩 기법은 파라메트릭 스테레오(parametric stereo)라 불리운다. 파라메트릭 스테레오는 스테레오 이미지를 나타내는 (스테레오 파라메타들에 대응하는) 특정 량의 스테레오 사이드 정보(stereo side information)와 통상적인 모노 코덱을 이용하여 2개의 입력들(좌우측 채널들)을 모노 신호들로서 인코딩한다. 2개의 입력 좌측 및 우측 채널들이 모노 신호로 다운-믹싱(down mix)되고, 그 다음, 통상적으로, 스테레오 파라메타들이 계산된다. 이것은, 통상적으로, 예를 들어, DFT(Discrete Fourier Transform) 도메인과 같은 주파수-도메인(FD: Frequency Domain)에서 수행된다. 스테레오 파라메타들은 소위 양이 또는 채널간 단서(binaural or inter-channel cues)와 연관된다. 양이 단서(예를 들어, 그의 전체 콘텐츠가 본 명세서에 참고로서 수록되는 참고문헌 [3]을 참조)는 ILD(Interaural Level Difference), ITD(Interaural Time Difference) 및 IC(Interaural Correlation)를 구비한다. 스테레오 장면 구성 등과 같은 사운드 신호 특성에 의거하여, 양이 단서의 일부 또는 전부가 코딩되어 디코더에 전송된다. 무슨 양이 단서가 코딩되어 전송되는지에 대한 정보가, 통상적으로 스테레오 사이드 정보의 일부인 시그널링 정보(signalling information)로서 송신된다. 주어진 양이 단서가 다른 코딩 기법들을 이용하여 양자화됨으로써, 결과적으로 가변하는 개수의 비트들이 이용될 수 있게 된다. 그 다음, 양자화된 양이 단서에 추가하여, 스테레오 사이드 정보는, 다운-믹싱으로부터 결과하는 양자화된 잔차 신호를, 통상적으로, 중고 비트레이트(medium and higher bitrate)로 포함한다. 잔차 신호는, 예를 들어, 산술 인코더(arithmetric encoder)와 같은, 엔트로피 코딩 기법(entropy coding technique)을 이용하여 코딩될 수 있다. 본 개시의 나머지에 있어서, 파라메트릭 스테레오 인코딩 기술은, "DFT 스테레오"로서 지칭될 것인데, 이는 파라메타트릭 스텔오 인코딩 기술이 통상적으로, 주파수-도메인(frequency domain)에서 동작하며, 본 개시는 DFT를 이용한 비제한적 실시 예를 기술할 것이기 때문이다.
또 다른 스테레오 코딩 기법은 시간-도메인(time-domain)에서 작용하는 기법이다. 이 스테레오 코딩 기법은 2개의 입력들(좌우 채널들)을 소위 주 채널(primary channel)과 부 채널(secondary channel)로 믹싱한다. 예를 들어, 참고문헌 [4](그의 전체 콘텐츠는 본 명세서에 참고로서 수록됨)에 설명된 방법에 따르면, 시간-도메인 믹싱은 주 채널과 부 채널의 생성시에 2개의 입력들(좌우측 채널들)의 각 기여를 결정하는, 믹싱 비율에 기반할 수 있다. 믹싱 비율은, 예를 들어, 모노 신호에 대한 2개의 입력들(좌우측 채널들)의 정규 상관(normalized correlation) 또는 2개의 입력들(좌우측 채널들)간의 장기 상관 차이(long term correlation difference)와 같은, 여러 메트릭들(metrics)로부터 도출된다. 주 채널은 통상적인 모노 코덱에 의해 코딩될 수 있는 반면, 부 채널은 낮은 비트-레이트 코덱에 의해 코딩될 수 있다. 부 채널 코딩은 주 채널과 부 채널간의 코히어런스(coherence)를 활용할 수 있으며, 주 채널로부터의 일부 파라메타들을 재사용할 수 있다. 좌측 및 우측 채널들이 상관을 거의 나타내지 않은 특정 사운드에서는, 시간-도메인에서 스테레오 입력 신호의 좌측 채널 및 우측 채널을 개별적으로 또는 최소의 채널간 파라메타화(minimum inter-channel parametrization)로 인코딩하는 것이 보다 좋다. 인코더에 있어서의 그러한 방식은 시간-도메인 TD 스테레오의 특정한 경우이며, 본 개시의 전반에 걸쳐 이를 "LRTD 스테레오"라고 지칭할 것이다.
추가로, 최근 몇 년에 있어서, 오디오의 생성, 녹음(recording), 표시, 코딩, 전송 및 재생은 청취자에 대한 향상되고, 상호 작용적(interactive)이며 몰입적인 체험으로 가고 있는 중이다. 몰입형 체험은, 사운드들이 모든 방향으로부터 오고 있는 동안 예를 들어, 사운드 장면에 깊게 몰두하거나 수반되는 상태로서 설명될 수 있다. 몰입형 오디오(3D(Dimensional) 오디오라고 함)에 있어서, 사운드 이미지는, 음색, 지향성, 반향, 투명성(transparency) 및 (청각적) 공간감의 정확성과 같은 광범위한 사운드 특성들을 고려하여, 청취자 둘레에 3차원으로 재생된다. 몰입형 오디오는 라우드스피커 기반 시스템(loudspeaker-based-system), 집적화된 재생 시스템(사운드 바(sound bar)) 또는 헤드폰과 같은, 특정 사운드 재생 시스템을 위해 생성된다. 그 다음, 사운드 재생 시스템의 상호 작용(interactivity)은, 예를 들어, 사운드 레벨을 조정하거나, 사운드의 위치를 변경하거나 재생을 위한 다른 언어를 선택하는 기능을 포함할 수 있다.
몰입형 체험을 달성하기 위한 3가지 기본적인 방식들이 존재한다.
몰입형 체험을 달성하기 위한 제 1 방식은, 다른 방향들로부터의 사운드들을 포획하기 위해 다수의 이격된 마이크로폰들을 이용하는 채널-기반 오디오 방식으로서, 그 방식에서는 하나의 마이크로폰이 특정 라우드스피커 레이아웃(layout)에 있어서의 하나의 오디오 채널에 대응한다. 그 다음, 각각의 녹음된 채널이 주어진 위치에 있는 라우드스피커로 공급된다. 예를 들어, 채널-기반 오디오 방식들은 스테레오, 5.1 서라운드, 5.1+4 등이다.
몰입형 체험을 달성하기 위한 제 2 방식은, 국소 공간(localized space)에 걸쳐서 원하는 사운드 필드를 차원 성분들의 조합에 의해 시간의 함수로서 나타내는 장면-기반 오디오 방식이다. 장면-기반 오디오를 나타내는 사운드 신호들은 오디오 신호의 위치들에 독립적이지만, 그 사운드 필드는 렌더러(renderer)에서 라우드스피커들의 선택된 레이아웃으로 변환된다. 예를 들어, 장면-기반 오디오는 엠비소닉(ambisonic)들이다.
몰입형 체험을 달성하기 위한 제 3 방식은, 청각 장면을, 개별적인 오디오 요소들(예를 들어, 가수, 드럼, 기타 등)의 위치와 같은 정보를 수반한 그 개별적인 오디오 요소들의 세트로서 나타내는 객체-기반 오디오 방식이며, 그들은 그들의 의도된 위치에서 사운드 재생 시스템에 의해 렌더링될 수 있다. 이것은 객체-기반 오디오 방식에 상당한 가요성 및 상호 작용성을 제공하는데, 이는 각 객체가 이산된 채로 유지되고 개별적으로 조작될 수 있기 때문이다.
몰입형 체험을 달성하기 위한 상술한 오디오 방식들의 각각은 장단점이 있다. 따라서, 단지 하나의 오디오 방식 대신에, 몰입형 청각 장면을 생성하기 위해 복합 오디오 시스템에 여러 오디오 방식들이 조합되는 것이 일반적이다. 예를 들어, 약간의 이산 오디오 객체들과 엠비소닉을 조합하는 것과 같이, 객체-기반 오디오와 장면-기반 또는 채널-기반 오디오를 조합하는 오디오 시스템이 있을 수 있다.
또한, 최근 몇 년동안, 3GPP(3rd Generation Partnership Project)는 EVS 코덱에 기반하여, IVAS(Immersive Voice and Audio Services)라고 하는, 몰입형 서비스를 위한 3D(Three-Dimensional) 사운드 코덱을 개발하는 작업을 시작하였다 (전체 콘텐츠가 본 명세서에 참조로서 수록되는 참고문헌 [5] 참조).
DFT 스테레오 모드는 싱글-토크 발화(single-talk utterance)를 코딩하는데 효율적이다. 2 이상의 스피커들의 경우, 파라메트릭 스테레오 기술이 장면의 공간적 성질들을 완전히 기술하는 것은 어렵다. 이 문제는, 특히, 2명의 화자들이 동시에 말할 때(크로스-토크(cross-talk) 시나리오) 및 스테레오 입력 신호의 좌측 채널 및 우측 채널에 있어서의 신호들이 약하게 상관되거나 완전히 비상관될 때, 분명하다. 그 상황에서는, 시간-도메인에서 스테레오 입력 신호의 좌측 채널과 우측 채널을, LRTD 스테레오 모드를 이용하여 개별적으로 또는 최소의 채널간 파라메타화로 인코딩하는 것이 더 좋다. 스테레오 입력 신호에 포획된 장면이 진전됨에서 따라, 스테레오 장면 분류에 기반하여 DFT 스테레오 모드와 LRTD 스테레오 모드간의 스위칭(switching)을 수행하는 것이 바람직하다.
제 1 측면에 따르면, 본 개시는 좌측 및 우측 채널을 포함하는 스테레오 사운드 신호로부터 추출된 피처(feature)들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 분류하기 위한 방법에 관한 것으로, 그 방법은, 추출된 피처들에 응답하여 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 나타내는 스코어(score)를 계산하고; 및 그 스코어에 응답하여, 스테레오 사운드 신호에 있어서 비상관 및 상관 스테레오 콘텐츠 중 하나를 나타내는 제 1 클래스(class)와 비상관 및 상관 스테레오 콘텐츠 중 다른 하나를 나타내는 제 2 클래스간의 스위칭을 수행하는 것을 구비한다.
제 2 측면에 따라면, 본 개시는 좌측 및 우측 채널을 포함하는 스테레오 사운드 신호로부터 추출된 피처들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 분류하는 분류기를 제공하며, 그 분류기는, 추출된 피처들에 응답하여 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 나타내는 스코어(score)를 계산하는 계산기; 및 그 스코어에 응답하여, 스테레오 사운드 신호에 있어서 비상관 및 상관 스테레오 콘텐츠 중 하나를 나타내는 제 1 클래스(class)와 비상관 및 상관 스테레오 콘텐츠 중 다른 하나를 나타내는 제 2 클래스간의 스위칭을 수행하는 클래스 스위칭 메커니즘을 구비한다.
또한, 본 개시는 좌측 및 우측 채널을 포함하는 스테레오 사운드 신호로부터 추출된 피처들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서의 크로스-토크를 검출하는 방법과 관련이 있는데, 그 방법은, 추출된 피처들에 응답하여 스테레오 사운드 신호에 있어서의 크로스-토크를 나타내는 스코어를 계산하고; 스테레오 사운드 신호에 있어서의 크로스-토크를 검출하는데 이용하기 위한 보조 파라메타들을 계산하고; 및 크로스-토크 스코어 및 보조 파라메타들에 응답하여, 스테레오 사운드 신호에 있어서의 크로스-토크의 존재를 나타내는 제 1 클래스(class)와 스테레오 사운드 신호에 있어서의 크로스-토크의 부재를 나타내는 제 2 클래스간의 스위칭을 수행하는 것을 구비한다.
추가적인 실시 예에 따르면, 본 개시는 좌측 및 우측 채널을 포함하는 스테레오 사운드 신호로부터 추출된 피처들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서의 크로스-토크를 검출하는 검출기를 제공하는데, 그 검출기는, 추출된 피처들에 응답하여 스테레오 사운드 신호에 있어서의 크로스-토크를 나타내는 스코어를 계산하는 계산기; 스테레오 사운드 신호에 있어서의 크로스-토크를 검출하는데 이용하기 위한 보조 파라메타들을 계산하는 계산기; 및 크로스-토크 스코어 및 보조 파라메타들에 응답하여, 스테레오 사운드 신호에 있어서의 크로스-토크의 존재를 나타내는 제 1 클래스(class)와 스테레오 사운드 신호에 있어서의 크로스-토크의 부재를 나타내는 제 2 클래스간의 스위칭을 수행하는 클래스 스위칭 메커니즘을 구비한다.
또한, 본 개시는 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호를 코딩하기 위한 제 1 스테레오 모드와 제 2 스테레오 모드 중 하나를 선택하는 방법과 관련이 있는데, 그 방법은, 스테레오 사운드 신호에 있어서의 비상관 스테레오 콘텐츠의 존재 또는 부재를 나타내는 제 1 출력을 생성하고; 스테레오 사운드 신호에 있어서의 크로스-토크의 존재 또는 부재를 나타내는 제 2 출력을 생성하고; 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는데 이용하기 위한 보조 파라메타들을 계산하고; 및 제 1 출력, 제 2 출력 및 보조 파라메타들에 응답하여 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는 것을 구비한다.
다른 추가적인 측면에 따르면, 본 개시는 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호를 코딩하기 위한 제 1 스테레오 모드와 제 2 스테레오 모드 중 하나를 선택하는 디바이스를 제공하며, 그 디바이스는, 스테레오 사운드 신호에 있어서의 비상관 스테레오 콘텐츠의 존재 또는 부재를 나타내는 제 1 출력을 생성하는 분류기; 스테레오 사운드 신호에 있어서의 크로스-토크의 존재 또는 부재를 나타내는 제 2 출력을 생성하는 검출기; 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는데 이용하기 위한 보조 파라메타들을 계산하는 분석 프로세서; 및 제 1 출력, 제 2 출력 및 보조 파라메타들에 응답하여 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는 스테레오 모드 선택기를 구비한다.
비상관 스테레오 콘텐츠 분류기 및 분류 방법, 크로스-토크 검출기 및 검출 방법, 스테레오 모드 선택 디바이스 및 방법의 상술한 및 다른 목적들, 장점들 및 특징들은, 첨부 도면들을 참조하여 단지 예시적으로 제공된, 예시적인 실시 예들의 이하의 비제한적 설명을 읽으면, 보다 명확하게 될 것이다.
첨부 도면에 있어서,
도 1은 스테레오 사운드 신호를 코딩하는 디바이스와, 스테레오 사운드 신호를 코딩하는 대응 방법을 동시에 도시한 개략적인 블럭도이고;
도 2는 2개의 대향하는 스피커들이 한 쌍의 초지향성 마이크로폰(hypercardioid microphone)들에 의해 포획되는, 크로스-토크 장면의 평면을 보여주는 개략적인 도면이고;
도 3은 GCC-PHAT 함수에 있어서의 피크(peak)들의 위치를 보여주는 그래프이고;
도 4는 실제 녹음을 위한 스테레오 장면 셋-업의 상면도이고;
도 5는 LRTD 스테레오 모드에 있어서의 비상관 스테레오 콘텐츠의 분류시에 LogReg 모델의 출력에 적용된 정규화 함수를 도시한 그래프이고;
도 6은 스테레오 사운드 신호를 코딩하기 위한 도 1의 디바이스의 일부를 형성하는 비상관 스테레오 콘텐츠의 분류기에 있어서 스테레오 콘텐츠 클래스들간의 스위칭을 수행하는 메커니즘을 보여주는 상태 머신도이고;
도 7은 크로스-토크 검출을 위해 조건들이 시뮬레이션되는 AB 마이크로폰 셋업을 가진 대형 회의실의 개략적인 평면도로서, AB 마이크로폰들은, 그들이 서로에 대해 페이즈 문제의 생성없이 공간을 커버하는 방식으로 이격되어 배치된 한쌍의 카디오이드(cardioid) 또는 전방향 마이크로폰들로 구성되며;
도 8은 VAD(Voice Activity Detection)를 이용한 크로스-토크 샘플들의 자동 라벨링(automatic labeling)을 도시한 그래프이고;
도 9는 LRTD 스테레오 모드에서 크로스-토크 검출시에 LogReg 모델의 원시 출력(raw output)을 스케일링(scaling)하기 위한 함수를 보여주는 그래프이고;
도 10은 LRTD 스테레오 모드에서 스테레오 사운드 신호를 코딩하기 위한 도 1의 디바이스의 일부를 형성하는 크로스-토크 검출기에 있어서 상승 에지(rising edge)들을 검출하는 메커니즘을 도시한 그래프이고;
도 11은 LRTD 스테레오 모드에서 크로스-토크 검출기의 출력의 상태들간의 스위칭을 수행하는 메커니즘을 도시한 논리도이고;
도 12는 DFT 스테레오 모드에서 크로스-토크 검출기의 출력의 상태들간의 스위칭을 수행하는 메커니즘을 도시한 논리도이고;
도 13은 LRTD 모드와 DFT 모드간의 선택을 위한 메커니즘을 도시한 개략적인 블럭도이고;
도 14는 스테레오 사운드 신호를 코딩하기 위한 방법 및 디바이스를 구현하는 하드웨어 부품들의 예시적인 구성의 간단한 블럭도이다.
본 개시는 입력 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠의 분류(이하에서는 "UNCLR 분류"라 함) 및 크로스-토크 검출(이하에서는 "XTALK 검출"이라 함)을 기술한다. 또한, 본 개시는, 예를 들어, 자동 LRTD/DFT 스테레오 모드 선택과 같은, 스테레오 모드 선택을 기술한다.
도 1은, 스테레오 사운드 신호(190)를 코딩하기 위한 디바이스 및 스테레오 사운드 신호(190)를 코딩하기 위한 대응 방법을 동시에 도시한 개략적인 블럭도이다.
특히, 도 1에는, UNCLR 분류, XTALK 검출 및 스테레오 모드 선택이 스테레오 사운드 신호 코딩 방법(150) 및 디바이스(100)내에 통합되는 방법이 도시된다.
UNCLR 분류 및 XTALK 검출은 2가지 독립적인 기술들을 형성한다. 그러나, 그들은 동일한 통계적 모델에 기반하며, 일부 피처들 및 파라메타들을 공유한다. 또한, UNCLR 분류 및 XTALK 검출 모두는 LRTD 스테레오 모드 및 DFT 스테레오 모드에 대해 고안되고 개별적으로 훈련된다. 본 개시에 있어서, LRTD 스테레오 모드는 시간-도메인 스테레오 모드의 비 제한적 예시로서 주어지고, DFT 스테레오 모드는 주파수-도메인 스테레오 모드의 비 제한적 예시로서 주어진다. 다른 시간-도메인 및 주파수-도메인 스테레오 모드들을 구현하는 것은 본 개시의 범주 이내이다.
UNCLR 분류는 스테레오 사운드 신호(190)의 좌측 및 우측 채널들로부터 추출된 피처들을 분석하고, 좌측 및 우측 채널들간의 약한 상관 또는 제로 상관(weak or zero correlation)을 검출한다. 다른 한편, XTALK 검출은, 스테레오 장면에 있어서 동시에 음성 출력하는(speaking) 2개의 스피커(speaker)들의 존재를 검출한다. 예를 들어, UNCLR 분류 및 XTALK 검출은 이진 출력을 제공한다. 이러한 이진 출력들은 스테레오 모드 선택 로직에서 함께 조합된다. 비 제한적인 일반 규칙으로서, 스테레오 모드 선택은, UNCLR 분류 및 XTALK 검출이 포획 디바이스(예를 들어, 마이크로폰)의 서로 대향하는 측면상에 서있는 2개의 스피커들의 존재를 나타낼 때, LRTD 스테레오 모드를 선택한다. 이러한 상황은, 통상적으로, 스테레오 사운드 신호(190)의 좌측 채널과 우측 채널간의 약한 상관으로 결과한다. LRTD 스테레오 모드 또는 DFT 스테레오 모드의 선택은 프레임-바이-프레임(frame-by-frame)에 기반하여 수행된다(본 기술 분야에 잘 알려진 바와 같이, 스테레오 사운드 신호(190)는 주어진 샘플링 레이트(sampling rate)로 샘플링되고, 다수의 "서브-프레임들"로 분할되는 "프레임들"이라고 하는 이 샘플들의 그룹에 의해 프로세싱된다). 또한, 스테로오 모드 선택 로직은, LRTD와 DFT 스테레오 모드들간의 빈번한 스위칭 및 지각적으로(perceptually) 중요한 신호 세그먼트들내에서의 스테레오 모드 스위칭을 피하도록 고안된다.
본 개시에서는, UNCLR 분류, XTALK 검출 및 스테레오 모드 선택의 비 제한적인 예시적 실시 예들이, IVAS 코덱(또는 IVAS 사운드 코덱)이라고 지칭되는, IVAS 코딩 프레임워크를 참조하여, 단지 예시적으로 설명될 것이다. 그러나, 임의 다른 사운드 코덱에 있어서, 그러한 분류, 검출 및 선택을 합체하는 것은 본 개시의 범주 이내이다.
1. 피처 추출
UNCLR 분류는, 예를 들어, 전체 콘텐츠가 본 명세서에 참조로서 수록되는 참고문헌 [9]에 설명된 바와 같은 로지스틱 회귀(Logistic Regression: LogReg) 모델에 기반한다. LogReg 모델은 LRTD 스테레오 모드 및 DFT 스테레오 모드에 대해 개별적으로 훈련된다. 그 훈련은, 스테레오 사운드 신호 코딩 디바이스(100)(스테레오 코덱)로부터 추출된 피처들의 대형 데이터베이스를 이용하여 이루어진다. 유사하게, XTALK 검출은 LRTD 스테레오 모드 및 DFT 스테레오 모드에 대해 개별적으로 훈련되는 LogReg 모델에 기반한다. XTALK 검출에 이용되는 피처들은 UNCLR 분류에 이용되는 피처들과 다르다. 그러나, 특정 피처들은 양 기술들에 의해 공유된다.
UNCLR 분류에 이용되는 피처들과 XTALK 검출에 이용되는 피처들은 이하의 동작들로부터 추출된다:
- 채널간 상관 분석;
- TD 전치-프로세싱; 및
- DFT 스테레오 파라메타화.
스테레오 사운드 신호를 코딩하는 방법(150)은 상술한 피처들의 추출 동작을 구비한다. 피처 추출 동작을 수행하기 위하여, 스테레오 사운드 신호를 코딩하는 디바이스(100)는 피처 추출기(도시되지 않음)를 구비한다.
2. 채널간 상관 분석
피처 추출 동작(도시되지 않음)은 LRTD 스테레오 모드를 위한 채널간 상관 분석 동작(151)과 DFT 스테레오 모드를 위한 채널간 상관 분석 동작(152)을 구비한다. 동작들(151 및 152)을 수행하기 위하여, 피처 추출기(도시되지 않음)는 채널간 상관의 분석기(101)와, 채널간 상관의 분석기(102)를 각각 구비한다. 동작들(151 및 152)과 분석기들(101 및 102)은 유사하며 동시에 설명될 것이다.
분석기(101/102)는 입력으로서 현재 스테레오 사운드 신호 프레임의 좌측 채널과 우측 채널을 수신한다. 좌측 및 우측 채널들은, 먼저 8kHz로 다운-샘플링된다. 예를 들어, 다운-샘플링된 좌측 및 우측 채널들은 아래와 같이 표시된다:
Figure pct00001
(1)
n은 현재 프레임에 있어서의 샘플 인덱스(sample index)이며, N=160은 현재 프레임의 길이이다(160 샘플들의 길이). 다운-샘플링된 좌측 및 우측 채널들은 채널간 상관 함수를 계산하는데 이용된다. 우선, 좌측 및 우측 채널들의 절대 에너지(absolute energy)는, 예를 들어, 이하의 수학식을 이용하여 계산된다:
Figure pct00002
(2)
분석기(101/102)는 래그들(lags)의 범위 <-40, 40>에 걸쳐 좌측 채널과 우측 채널간의 내적(dot product)으로부터 채널간 상관 함수의 분자를 계산한다. 네거티브 래그들(negative lags)에 대해, 좌측 채널과 우측 채널간의 내적은, 예를 들어, 이하의 수학식을 이용하여 계산된다:
Figure pct00003
(3)
또한, 포지티브 래그들(positive lags)에 대해, 내적은, 예를 들어, 이하의 수학식에 의해 주어진다:
Figure pct00004
(4)
그 다음, 분석기(101/102)는, 예를 들어, 이하의 수학식을 이용하여 채널간 상관 함수를 계산한다:
Figure pct00005
(5)
여기에서, 위첨자 [-1]은 이전 프레임에 대한 레퍼런스(reference)를 나타낸다. 좌측 및 우측 채널들에 걸쳐 평균을 취함으로써 패시브 모노 신호(passive mono signal)가 계산된다:
Figure pct00006
(6)
비 제한적 예시로서, 이하의 수학식을 이용하여 좌측 및 우측 채널간의 차이로서 사이드 신호(side signal)가 계산된다.
Figure pct00007
(7)
마지막으로, 아래와 같이 좌측 및 우측 채널의 샘플당 곱(product)을 정의하는 것이 유용하다:
Figure pct00008
(8)
분석기(101/102)는, 예를 들어, 이하의 수학식을 이용하여 채널간 상관 함수를 평활화(smoothing)하는 IIR(Infinite Impulse Response) 필터(도시되지 않음)를 구비한다:
Figure pct00009
(9)
여기에서, 위첨자 [n]은 현재 프레임을 나타내고, 위첨자 [n-1]은 이전 프레임을 나타내며,
Figure pct00010
는 평활화 인자(smoothing factor)이다.
평활화 인자
Figure pct00011
는 스테레오 사운드 신호 코딩 디바이스(100)(스테레오 코덱)의 채널간 상관 분석(Inter-Channel Correlation Analysis: ICA) 모듈(참고문헌 [1])내에서 적응적으로 설정된다. 그 다음, 채널간 상관 함수는 예측된 피크(predicted peak)의 영역(region)내의 위치(location)들에서 가중화된다. 피크 발견(peak finding) 및 국소 윈도윙(local windowing)을 위한 메커니즘이 ICA 모듈내에서 구현되며, 본 문서에서는 설명하지 않겠다. ICA 모듈에 대한 추가적인 정보에 관해 참고문헌 [1]을 참조하라. ICA 가중 후 채널간 상관 함수는 k∈<-40,40>를 가진
Figure pct00012
이다.
채널간 상관 함수의 최대치의 위치(position)는 지배적 사운드(dominant sound)가 포획 포인트(capturing poing)로 오는 방향의 중요한 표시자로서, LRTD 스테레오 모드에 있어서의 URCER 분류 및 XTALK 검출에 의해 피처로서 이용된다. 분석기(101/102)는, 예를 들어, 이하의 수학식을 이용하여 LRTD 스테레오 모드에 있어서의 XTALK 검출에 의해 피처로서 이용되는 채널간 상관 함수의 최대치를 검출하고:
Figure pct00013
(10)
비 제한적 예시로서, 이하의 수학식을 이용하여 이러한 최대치의 위치를 계산한다:
Figure pct00014
(11)
채널간 상관 함수의 최대치
Figure pct00015
가 네거티브일 때, 그것은 0으로 설정된다. 현재 프레임과 이전 프레임에 있어서의 최대치
Figure pct00016
의 차이는, 예를 들어, 다음과 같이 계산된다:
Figure pct00017
(12)
여기에서, 위첨자 [-1]은 이전 프레임에 대한 레퍼런스를 나타낸다.
채널간 상관 함수의 최대치의 위치는, ICA 모듈에 있어서 어느 채널이 "레퍼런스" 채널(REF) 및 "목표" 채널(TAR)이 되는지를 결정한다. 위치
Figure pct00018
이면, 좌측 채널(L)이 레퍼런스 채널(REF)이고, 우측 채널(R)이 목표 채널(TAR)이다.
Figure pct00019
이면, 우측 채널(R)이 레퍼런스 채널(REF)이고, 좌측 채널(L)이 목표 채널(TAR)이다. 그 다음, 목표 채널(TAR)은 레퍼런스 채널(REF)에 대해 그의 지연을 보상하기 위해 시프트(shift)된다. 목표 채널(TAR)을 시프트시키는데 이용되는 샘플들의 개수는, 예를 들어,
Figure pct00020
로 바로 설정될 수 있다. 그러나, 연속하는 프레임들간의 위치
Figure pct00021
에 있어서의 급격한 변경으로부터 결과하는 아티팩트(artifact)를 제거하기 위하여, 목표 채널(TAR)을 시프트시키는데 이용되는 샘플들의 개수는 ICA 모듈내의 적당한 필터들로 평활화될 수 있다.
목표 채널(TAR)을 시프트시키는데 이용되는 샘플들의 개수는
Figure pct00022
이며,여기에서,
Figure pct00023
이다. 레퍼런스 채널 신호는
Figure pct00024
이고, 목표 채널 신호는
Figure pct00025
이다. 순시 목표 이득(instantaneous target gain)은 레퍼런스 채널(REF)과 시프트된 목표 채널(TAR)간의 에너지들의 비율을 반영한다. 순시 목표 이득은, 예를 들어, 이하의 수학식을 이용하여 계산될 수 있다:
Figure pct00026
(13)
여기에서, N은 프레임 길이이다. 순시 목표 이득은 LRTD 스테레오 모드에 있어서의 UNCLR 분류에 의해 피처로서 이용된다.
2.1 채널간 피처들
분석기(101/102)는 UNCLR 분류 및 XTALK 검출에 이용되는 피처들의 제 1 시리즈(series)를 채널간 분석으로부터 직접 도출한다. 제로 래그의 채널간 상관 함수의 값, R(0)는 LRTD 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 그 자체로 피처로서 이용된다. C(0)의 절대값의 로그(logarithm)를 계산함에 의해, LRTD 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 이용되는 또 다른 피처가 아래와 같이 획득된다:
Figure pct00027
(14)
사이드 신호와 모노 신호(mono signal)의 에너지들의 비율은 LRTD 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 피처로서 이용된다. 그 비율은, 예를 들어, 이하의 수학식을 이용하여 계산된다:
Figure pct00028
(15)
수학식 (15)의 에너지의 비율은, 예를 들어, 아래와 같이 시간에 걸쳐 평활화된다:
Figure pct00029
(16)
여기에서,
Figure pct00030
는 스테레오 사운드 신호 코딩 디바이스(100)(스테레오 코덱)의 VAD 모듈의 일부로서 계산되는 (예를 들어, 참고문헌 [1] 참조) VAD(Voice Activity Detection) 행오버 프레임(hangover frame)들의 카운터이다. 수학식 (16)의 평활화된 비율은 LRTD 스테레오 모드에 있어서의 XTALK 검출에 의해 피처로서 이용된다.
분석기(101/102)는 좌측 채널과 모노 신호로부터 및 우측 채널과 모노 신호간의 이하의 내적을 도출한다. 먼저, 좌측 채널과 모노 신호간의 내적은 예를 들어 아래와 같이 표현되고:
Figure pct00031
(17)
우측 채널과 모노 신호간의 내적은, 예를 들어, 아래와 같이 표현된다:
Figure pct00032
(18)
두 내적 모두는 0의 하한을 가진 포지티브이다. 이러한 2개의 내적들의 최대치와 최소치의 차이에 기초한 메트릭(metric)은 LRTD 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 피처로서 이용된다. 그것은, 이하의 수학식을 이용하여 계산될 수 있다:
Figure pct00033
(19)
LRTD 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 단독 피처로서 이용되는 유사한 메트릭은, 예를 들어, 이하의 수학식을 이용하여 계산되는, 선형 및 로그 도메인의 둘 모두에 있어서의 2개의 내적들간의 절대차에 직접 기반한다:
Figure pct00034
(20)
LRTD 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 이용되는 마지막 피처는 채널간 상관 분석 동작(151/152)의 일부로서 계산되며, 채널간 상관 함수의 진화(evolution)를 반영한다. 그것은 아래와 같이 계산될 수 있다:
Figure pct00035
(21)
여기에서, 위첨자 [-2]는 현재 프레임에 선행하는 제 2 프레임에 대한 레퍼런스를 나타낸다.
3. 시간-도메인(Time-Domain: TD) 전치-프로세싱
LRTD 스테레오 모드에서는 모노 다운-믹싱(mono down-mixing)이 없으며, 입력 스테레오 사운드 신호(190)의 좌측 및 우측 채널들은, 피처들을 추출하기 위해, 각각의 시간-도메인 전치-프로세싱 동작들, 즉, 좌측 채널을 시간-도메인 전치-프로세싱하는 동작(153) 및 스테레오 사운드 신호(190)의 우측 채널을 시간-도메인 전치-프로세싱하는 동작(154)에서 분석된다. 동작들(153 및 154)을 수행하기 위하여, 피처 추출기(도시되지 않음)는 도 1에 도시된 바와 같이 각각의 시간-도메인 전치 프로세서들(103 및 104)을 구비한다. 동작들(153 및 154) 및 그들의 대응하는 전치-프로세서들(103 및 104)은 유사하며, 동시에 설명될 것이다.
시간-도메인 전치-프로세싱 동작(153/154)은 UNCLR 분류 및 XTALK 검출을 실행하기 위한 추출된 피처들로서 이용되는 특정 파라메타들을 생성하기 위해 다수의 서브-동작들을 수행한다. 그러한 서브-동작들은 이하를 포함할 수 있다:
- 스펙트럼 분석;
- 선형 예측 분석;
- 개방-루프 피치 추정(open-loop pitch estimation);
- VAD(Voice Activity Detection);
- 배경 잡음 추정; 및
- FEC(Frame Error Concealment) 분류.
시간-도메인 전치-프로세서(103/104)는 Levinson-Durbin 알고리즘을 이용하여 선형 예측 분석을 수행한다. Levinson-Durbin 알고리즘의 출력은 선형 예측 계수들(Linear Prediction Coefficient: LPC)의 세트이다. Levinson-Durbin 알고리즘은 반복적 방법이며, Levinson-Durbin 알고리즘에 있어서의 총 반복수는 M으로 나타낼 수 있다. 각 i번째 반복에 있어서 (i = 1,...,M), 잔차 에러 에너지
Figure pct00036
가 계산된다. 본 개시에 있어서, 비 제한적인 예시적 구현으로서, Levinson-Durbin 알고리즘은 m= 16의 반복으로 운영된다고 가정한다. 입력 스테레오 사운드 신호(190)의 좌측 채널과 우측 채널간의 잔차 에러 에너지의 차이는 LRTD 스테레오 모드에 있어서의 XTALK 검출을 위한 피처로서 이용된다. 잔차 에러 에너지의 차이는 아래와 같이 계산될 수 있다:
Figure pct00037
(22)
여기에서, 아래 첨자 L 및 R은, 각각, 입력 스테레오 사운드 신호(190)의 좌측 채널과 우측 채널을 나타내기 위해 추가되었다. 이러한 비 제한적 실시 예에 있어서, 그 피처(차이
Figure pct00038
)는, 마지막 반복 대신에 14번째 반복으로부터의 잔차 에너지를 이용하여 계산되는데, 이는 이 반복이 UNCLR 분류에 대해 가장 높은 식별적 잠재성을 가지고 있음을 실험으로 알게 되었기 때문이다. Levinson-Durbin 알고리즘에 대한 보다 많은 정보 및 잔차 에러 에너지 계산에 대한 세부 사항은, 예를 들어, 참고문헌 [1]에 있다.
Levinson-Durbin 알고리즘으로 추정된 LPC 계수들은, LSF(Line Spectral Frequencies),
Figure pct00039
로 전환된다. LSF 값들의 합은 입력 스테레오 사운드 신호(190)의 엔벨로프(envelope)의 중력 포인트(gravity point)의 추정치로서 작용할 수 있다. 좌측 채널에 있어서의 LSF 값들의 합과 우측 채널에 있어서의 LSF 값들의 합간의 차이는 2 채널들의 유사성에 대한 정보를 포함한다. 이 때문에, 이러한 차이는 LRTD 스테레오 모드에 있어서의 XTALK 검출에서 피처로서 이용된다. 좌측 채널에 있어서의 LSF 값들의 합과 우측 채널에 있어서의 LSF 값들의 합간의 차이는 이하의 수학식을 이용하여 계산될 수 있다:
Figure pct00040
(23)
상술한 LPC에서 LSF로의 전환에 대한 추가적인 정보는, 예를 들어, 참고문헌 [1]에서 발견될 수 있다.
시간-도메인 전치-프로세서(103/14)는 개방-로프 피치 추정을 수행하고, 좌측 채널(L)/우측 채널(R) 개방-로프 피치 차이가 계산되는 자기 상관 함수를 이용한다. 좌측 채널(L)/우측 채널(R) 개방-로프 피치 차이는 이하의 수학식을 이용하여 계산될 수 있다:
Figure pct00041
(24)
Figure pct00042
는 현재 프레임의 k번째 세그먼트에 있어서의 개방-로프 피치 추정치이다. 본 개시에서는, 비 제한적인 예시로서, 개방-로프 피치 분석이 k=1,2,3이라 인덱스된 3개의 이웃하는 하프-프레임들(half frames)(세그먼트들)에서 수행되며, 2개의 세그먼트들은 현재 프레임내에 위치하고, 하나의 세그먼트는 이전 프레임의 제 2 하프(half)에 위치한다고 가정한다. 개방-로프 피치 추정에 대한 추가적인 정보는, 예를 들어, 참고문헌 [1]에서 발견될 수 있다.
입력 스테레오 사운드 신호(190)의 (상술한 자기 상관 함수에 의해 결정된) 좌측 및 우측 채널들의 최대 자기 상관 값들(보이싱(voicing))간의 차이는, 또한, LRTD 스테레오 모드에 있어서의 XTALK 검출에 의해 피처로서 이용된다. 좌측 및 우측 채널들의 최대 자기 상관 값들간의 차이는 이하의 수학식을 이용하여 계산될 수 있다:
Figure pct00043
(25)
여기에서,
Figure pct00044
는 k 번째 하프-프레임에 있어서 좌측(L)과 우측(R) 채널들의 최대 자기 상관 값들을 나타낸다.
배경 잡음 추정은 VAD(Voice Activity Detection) 검출 알고리즘의 일부이다(참고문헌 [1] 참조). 특히, 배경 잡음 추정은, 일부가 UNCLR 분류 및 XTALK 검출에 의해 이용되는 피처들의 세트에 의존하는 활성/불활성 신호 검출기(도시되지 않음)를 이용한다. 예를 들어, 활성/불활성 신호 검출기(도시되지 않음)는 스펙트럼 안정성의 측정치로서 좌측 채널(L)과 우측 채널(R)의 비-정상성 파라메타(non-stationarity parameter)
Figure pct00045
를 생성한다. 입력 스테레오 사운드 신호(190)의 좌측 채널과 우측 채널간의 비-정상성에 있어서의 차이는 LRTD 스테레오 모드에 있어서의 XTALK 검출에 의해 피처로서 이용된다. 좌측(L) 및 우측(R) 채널들간의 비-정상성에 있어서의 차이는 이하의 수학식을 이용하여 계산될 수 있다:
Figure pct00046
(26)
활성/불활성 신호 검출기(도시되지 않음)는 상관 맵 파라메타(correlation map parameter)
Figure pct00047
을 포함하는 하모닉 분석(harmonic analysis)에 의존한다. 상관 맵은 입력 스테레오 사운드 신호(190)의 음정 안정성(tonal stability)의 측정치이다. 좌측(L) 및 우측(R) 채널들의 상관 맵들간의 차이는 LRTD 스테레오 모드에 있어서의 XTALK 검출에 의해 피처로서 이용되며, 예를 들어, 이하의 수학식을 이용하여 계산된다:
Figure pct00048
(27)
마지막으로, 활성/불활성 신호 검출기(도시되지 않음)는 각 프레임에 있어서 스펙트럼 다이버시티(spectral diversity) 및 잡음 특성들의 상시 측정치(regular measurements)를 취득한다. 이러한 2개의 파라메타들은 LRTD 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 피처로서 이용된다. 특히, (a) 좌측 채널(L)과 우측 채널(R)간의 스펙트럼 다이버시티 차이는 아래와 같이 계산될 수 있고:
Figure pct00049
(28)
여기에서,
Figure pct00050
는 현재 프레임에 있어서 스펙트럼 다이버시티의 측정치를 나타내며, (b) 좌측 채널(L)과 우측 채널(R)간의 잡음 특성들의 측정치는 아래와 같이 계산될 수 있고:
Figure pct00051
(29)
여기에서,
Figure pct00052
는 현재 프레임에 있어서 잡음 특성들의 측정치를 나타낸다. 상관 맵의 계산, 비-정상성, 스펙트럼 다이버시티 및 잡음 특성 파라메타들에 대한 세부 사항은 [1]을 참조할 수 있다.
ACELP(Algebraic Code-Excited Linear Prediction) 코어 인코더는, 스테레오 사운드 신호 코딩 디바이스(100)의 일부로서, 참고문헌 [1]에 설명된 바와 같이 무성음 사운드 신호를 인코딩하기 위한 특정 설정들을 구비한다. 이 설정들의 이용은 현재 프레임 내부의 짧은 세그먼트들에 있어서의 급격한 에너지 증가의 측정치를 포함하는, 다수의 인자(factor)들에 의해 좌우된다. ACELP 코어 인코더에 있어서의 무성음 사운드코딩을 위한 설정들은 단지, 현재 프레임 내부에 급격한 에너지 증가가 없는 경우에만 적용된다. 좌측 채널과 우측 채널에 있어서의 급격한 에너지 증가의 측정치들을 비교함에 의해, 크로스-토크 세그먼트의 시작 위치를 국소화시킬 수 있다. 급격한 에너지 증가는 3GPP EVS 코덱(참고문헌 [1])에 설명된 바와 같이,
Figure pct00053
에 대한 것과 유사하게 계산될 수 있다. 좌측 채널(L)과 우측 채널(R)의 급격한 에너지 증가들의 차이는 이하의 수학식을 이용하여 계산될 수 있다:
Figure pct00054
(30)
여기에서는, 입력 스테레오 사운드 신호(190)의 좌측 채널과 우측 채널을 나타내기 위해 각각 아래 첨자 L 및 R이 추가되었다.
시간-도메인 전치-프로세서(103/104)와 전치-프로세싱 동작(153/154)은 FEC 기술에 대한 상태 머신을 포함하는 FEC 분류 모듈을 이용한다. 각 프레임에 있어서의 FEC 클래스는 메리트 함수(a function of merit)에 기초하여 사전 정의된 클래스들 중에서 선택된다. 좌측 채널(L)과 우측 채널(R)에 대해 현재 프레임에서 선택된 FEC 클래스들간의 차이는 LRTD 스테레오 모드에 있어서의 XTALK 검출에 의해 피처로서 이용된다. 그러나, 그러한 분류 및 검출을 위해, FEC는 아래와 같이 제한될 수 있다:
Figure pct00055
(31)
여기에서, t class 는 현재 프레임에서 선택된 FEC 클래스이다. 따라서, FEC 클래스는 VOICED 및 UNVOICED로만 제한된다. 좌측 채널(L)과 우측 채널(R)에 있어서의 클래스들간의 차이는 아래와 같이 계산될 수 있다:
Figure pct00056
(32)
FEC 분류에 대한 추가적인 세부 설명은 참고문헌 [1]을 참조할 수 있다.
시간-도메인 전치-프로세서(103/104) 및 전치-프로세싱 동작(153/154)은 스피치/뮤직 분류 및 그에 대응하는 스피치/뮤직 분류기를 구현한다. 이러한 스피치/뮤직 분류는 전력 스펙트럼 다이버전스(divergence) 및 전력 스펙트럼 안정성에 따라 각 프레임에 있어서 이진 결정(binary decision)을 하게 한다. 좌측 채널(L)과 우측 채널(R)간의 전력 스펙트럼 다이버전스에 있어서의 차이는, 예를 들어, 이하의 수학식을 이용하여 계산된다:
Figure pct00057
(33)
여기에서,
Figure pct00058
는 현재 프레임에 있어서의 좌측 채널(L)과 우측 채널(R)의 전력 스펙트럼 다이버전스를 나타내며, 좌측 채널(L)과 우측 채널(R)간의 전력 스펙트럼 안정성의 차이는,예를 들어, 이하의 수학식을 이용하여 계산된다.
Figure pct00059
(34)
여기에서,
Figure pct00060
는 현재 프레임에 있어서의 좌측 채널(L)과 우측 채널(R)의 전력 스펙트럼 안정성을 나타낸다.
스피치/뮤직 분류내에서 계산된 전력 스펙트럼 다이버전스 및 전력 스펙트럼 안정성에 대한 세부 설명은 참고문헌 [1]에 설명된다.
4. DFT 스테레오 파라메타들
스테레오 사운드 신호(190)를 코딩하는 방법(150)은 좌측 채널(L) 및 우측 채널(R)의 FFT(Fast Fourier Transform)를 계산하는 동작(155)을 구비한다. 동작(155)을 수행하기 위하여, 스테레오 사운드 신호(190)를 코딩하는 디바이스(100)는 FFT 변환 계산기(105)를 구비한다.
피처 추출 동작(도시되지 않음)은 DFT 스테레오 파라메타들을 계산하는 동작(156)을 구비한다. 동작(156)을 수행하기 위하여, 피처 추출기(도시되지 않음)는 DFT 스테레오 파라메타들의 계산기(106)를 구비한다.
DFT 스테레오 모드에 있어서, 변환 계산기(105)는, 입력 스테레오 사운드 신호(190)의 좌측 채널(L)과 우측 채널(R)을, FFT 변환을 이용하여, 주파수-도메인으로 전환시킨다.
좌측 채널(L)의 복소 스펙트럼(complex spectrum)은
Figure pct00061
이고, 우측 채널의 복소 스펙트럼은
Figure pct00062
이다.
Figure pct00063
은 주파수 빈들의 인덱스이고,
Figure pct00064
은 FFT 변환의 길이이다. 예를 들어, 입력 스테레오 사운드 신호의 샘플링 레이트가 32kHz일 때, DFT 스테레오 파라메타들의 계산기(106)는
Figure pct00065
샘플들로 결과하는 40ms의 윈도우에 걸쳐 복소 스펙트럼들을 계산한다. 그 다음, 비 제한적 실시 예로서, 이하의 수학식을 이용하여 복소 크로스 채널 스펙트럼(complex cross-channel spectrum)이 계산된다:
Figure pct00066
(35)
별모양 윗첨자는 복소 공액(complex conjugate)을 나타낸다. 복소 크로스-채널 스펙트럼은, 이하의 수학식을 이용하여, 실수 부분과 허수 부분으로 분해된다:
Figure pct00067
(36)
실수 부분 및 허수 부분 분해를 이용하면, 복소 크로스-채널 스펙트럼의 절대 크기를 다음과 같이 나타낼 수 있다:
Figure pct00068
(37)
이하의 수학식을 이용하여 주파수 빈들에 걸쳐 복소 크로스-채널 스펙트럼의 절대 크기들을 합산함으로써, DFT 스테레오 파라메타들의 계산기(106)는, 복소 크로스-채널 스펙트럼의 전체 절대 크기를 획득한다:
Figure pct00069
(38)
좌측 채널(L)의 에너지 스펙트럼과, 우측 채널(R)의 에너지 스펙트럼은 아래와 같이 표시될 수 있다:
Figure pct00070
(39)
이하의 수학식을 이용하여, 주파수 빈들에 걸쳐 좌측 채널(L)의 에너지 스펙트럼들과 우측 채널(R)의 에너지 스펙트럼들을 합산함으로써, 좌측 채널(L)과 우측 채널(R)의 전체 에너지들이 획득될 수 있다:
Figure pct00071
(40)
DFT 스테레오 모드에 있어서의 UNCLE 분류 및 XTALK 검출은, 예를 들어, 이하의 수학식을 이용하여 표시한 바와 같이, 로그 도메인(logarithmic domain) 및 에너지 정규화 형태(energy-normalized form)가 아닌 상기에서 정의된 직접적인 형태(direct form)로 그들의 피처들 중 하나로서, 복소 크로스-채널 스펙트럼들의 전체 절대 크기를 이용한다:
Figure pct00072
(41)
DFT 스테레오 파라메타들의 계산기(106)는, 예를 들어, 이하의 수학식을 이용하여, 모노 다운-믹스 에너지(mono down-mix energy)를 계산할 수 있다:
Figure pct00073
(42)
채널간 레벨 차이(Inter-channel Level Difference: ILD)는, 주 사운드(main sound)가 오고있는 각도에 대한 정보를 포함함에 따라, DFT 스테레오 모드에 있어서의 UNCLR 분류 및 XTAL 검출에 의해 이용되는 피처이다. UNCLR 분류 및 XTAL 검출을 위해, ILD는 이득 인자 형태로 표시될 수 있다. DFT 스테레오 파라메타들의 계산기(106)는, 예를 들어, 이하의 수학식을 이용하여, ILD 이득을 계산한다:
Figure pct00074
(43)
채널간 위상 차이(Inter-channel Phase Difference: IPD)는 청취자가 인입 사운드 신호의 방향을 추론할 수 있게 하는 정보를 포함한다. DFT 스테레오 파라메타들의 계산기(106)는, 이하의 수학식을 이용하여, IPD를 계산한다:
Figure pct00075
(44)
이때,
Figure pct00076
(45)
이다.
이전 프레임에 대한 IPD의 차분값은, 예를 들어, 이하의 수학식을 이용하여 계산된다:
Figure pct00077
(46)
이때, 윗첨자 n은 현재 프레임을 나타내는데 이용되고, 윗첨자 n-1은 이전 프레임을 나타내는데 이용된다. 마지막으로, 계산기(106)는, 위상 정렬(IPD=0) 다운-믹스 에너지(수학식(47)의 분자)와 모노 다운-믹스 에너지(E M ) 간의 비율로서, IPD 이득을 계산할 수 있다:
Figure pct00078
(47)
IPD 이득(gIPD _ lim)은 간격 <0,1>로 제한된다. 그 값이 1.0의 상한을 초과하는 경우, 이전 프레임으로부터의 IPD 이득의 값으로 대체된다. DFT 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출은 피처로서 로그 도메인내의 IPD 이득을 이용한다. 계산기(106)는, 예를 들어, 이하의 수학식을 이용하여, 로그 도메인에 있어서의 IPD 이득을 결정한다.
Figure pct00079
(48)
채널간 위상 차이(IPD)는, DFT 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 피처로서 이용되는 각도 형태로 표시될 수 있으며, 예를 들어, 아래와 같이 계산될 수 있다:
Figure pct00080
(49)
사이드 채널은 좌측 채널(L)과 우측 채널(R)간의 차이로서 계산될 수 있다. 이하의 수학식을 이용하여, 모노 다운-믹스 에너지 EM에 대해, 이러한 차이(EL-ER)의 에너지의 절대값의 비율을 계산함에 의해 사이드 채널의 이득을 나타낼 수 있다:
Figure pct00081
(50)
이득 gside이 높으면, 좌측 채널(L)과 우측 채널(R)간의 에너지 차이가 커진다. 사이드 채널의 이득 gside은 간격 <0.01, 0.99>으로 제한된다. 이 범위 밖의 값들은 제한된다.
입력 스테레오 사운드 신호(190)의 좌측 채널(L)과 우측 채널(R)간의 위상 차이는, 예를 들어, 이하의 수학식을 이용하여 계산된 예측 이득으로부터 분석될 수 있다:
Figure pct00082
(51)
여기에서, 예측 이득 gpred _ lin의 값은 간격 <0, ∞>으로, 즉 양의 값들로 제한된다. gpred _ lin의 상기 수학식은 크로스-채널 스펙트럼(XLR) 에너지와 모노 다운-믹스 에너지
Figure pct00083
간의 차이를 포획한다. 계산기(106)는, 예를 들어, DFT 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 피처로서 이용하기 위해 수학식 (52)를 이용하여, 이러한 이득 gpred _ lin을 로그 도메인으로 전환한다.
Figure pct00084
(52)
계산기(106)는, 채널간 위상 차이(IPD) 및 이하에서 설명할 채널간 시간 차이(Inter-channel Time Difference: ITD)에 의해 포획되지 않은, 좌측 채널(L)과 우측 채널(R)간의 차이를 결정하기 위한 큐(cue)를 형성하는 채널간 코히어런스(Inter-Channel Coherence: ICC)의 평균 에너지를 계산하기 위하여 수학식 (39)의 빈당 채널 에너지들(per-bin channel energies)을 이용한다. 먼저, 계산기(106)는, 예를 들어, 이하의 수학식을 이용하여, 크로스-채널 스펙트럼의 전체 에너지를 계산한다:
Figure pct00085
(53)
채널간 코히어런스(ICC)의 평균 에너지를 나타내기 위해, 이하의 파라메타를 계산하는 것이 유용하다:
Figure pct00086
(54)
그 다음, 채널간 코히어런스(ICC)의 평균 에너지는 DFT 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 피처로서 이용되며, 아래와 같이 표시된다.
Figure pct00087
(55)
평균 에너지 Ecoh의 값은, 내항(inner term)이 1.0보다 작으면, 0으로 설정된다. 채널간 코히어런스(ICC)의 또 다른 가능한 해석은, 아래와 같이 계산된 사이드-모노간 에너지 비율(side-to mono energy ratio)이다:
Figure pct00088
(56)
마지막으로, 계산기(106)는 UNCLR 분류 및 XTALK 검출에 이용되는 최대 및 최소 채널내 크기 곱들(maximum and minimum intra-channel amplitude products)의 비율 rpp를 결정한다. DFT 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 피처로서 이용되는, 이러한 피처는, 예를 들어, 이하의 수학식을 이용하여 계산된다:
Figure pct00089
(57)
이때, 채널내 크기 곱들은 아래와 같이 정의된다:
Figure pct00090
(58)
스테레오 신호 재생에 이용되는 파라메타는 채널간 시간 차이(ITD)이다. ITD 스테레오 모드에 있어서, DFT 스테레오 파라메타들의 계산기(106)는, 위상 차이를 가진 일반화된 크로스-채널 상관 함수(Generalized Cross-channel Correlation function with Phase-Difference)(GCC-PHAT)로부터 채널간 시간 차이(ITD)를 추정한다. 채널간 시간 차이(ITD)는 도착 시간 지연(Time Dely of Arrival: TDOA) 추정에 대응한다. GCC-PHAT 함수는 잔향 신호(reverberated signal)에 대한 채널간 시간 차이(ITD)를 추정하기 위한 로버스트 방법(robust method)이다. GCC-PHAT는, 예를 들어, 이하의 수학식을 이용하여 계산된다:
Figure pct00091
(59)
여기에서, IFFT는 고속 푸리에 역변환(Inverse Fast Fourier Tranform)을 나타낸다.
채널간 시간 차이(ITD)는, 예를 들어, 이하의 수학식을 이용하여, GDD-PHAT 함수로부터 추정된다:
Figure pct00092
(60)
여기에서, d는 -5ms 내지 +5ms 범위내의 시간 지연에 대응하는 샘플들에 있어서의 시간 래그(time lag)이다. dITD에 대응하는 GCC-PHAT 함수의 최대치는, DFT 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 피처로서 이용되며, 이하의 수학식을 이용하여 검색될 수 있다:
Figure pct00093
(61)
싱글-토크 시나리오에서는, 통상적으로, 채널간 시간 차이(ITD)에 대응하는 GCC-PHAT 함수에 있어서의 단일의 지배적 피크(single dominant peak)가 존재한다. 그러나, 2명의 화자(talker)가 포획 마이크로폰의 서로 반대측에 위치하는 크로스-토크 상황에서는, 서로부터 멀리 위치한 2개의 지배적 피크들이 존재한다. 도 2에는 그러한 상황이 도시된다. 특히, 비-제한적이고 예시적인 예시에 따르면, 도 2에는 2명의 서로 대향하는 화자들(S1 및 S2)이 한 쌍의 초지향성 마이크로폰(M1 및 M2)에 의해 포획되는 크로스-토크 장면의 평면도가 도시되며, 도 3에는 GCC-PHAT 함수에 있어서의 2개의 지배적 피크들의 위치를 보여주는 그래프가 도시된다.
제 1 피크의 크기 GITD는 수학식 (61)을 이용하여 계산되고, 그의 위치 dITD는 수학식 (60)을 이용하여 계산된다. 제 2 피크의 크기는 제 1 피크에 대해 역방향으로 GCC-PHAT 함수의 제 2 최대치를 검색함에 의해 국소화된다(localization). 보다 구체적으로, 제 2 피크를 검색하는 방향 SITD는 제 1 피크의 위치 dIDT의 부호에 의해 결정된다:
Figure pct00094
(62)
여기에서, sgn(.)은 부호 함수이다.
DFT 스테레오 파라메타들의 계산기(106)는, 예를 들어, 이하의 수학식을 이용하여, 방향 SITD으로 GCC-PHAT 함수의 제 2 최대치(제 2 최고 피크(seond highest peak))를 검색할 수 있다:
Figure pct00095
(63)
비-제한적 예시로서, 임계치
Figure pct00096
은, GCC-PHAT 함수의 제 2 피크가 시작(dIDT = 0)에서부터 적어도 8개의 샘플들의 거리에서 검색될 것을 보장한다. 크로스-토크(XTALK)의 검출이 관련되는 한, 이것은, 그 장면에 있어서의 임의 잠재적인 2차 화자가 제 1 "주도적" 화자로부터 및 중간 포인트(d = 0)로부터 적어도 특정 최소 거리만큼 떨어진 곳에 존재해야만 할 것임을 의미한다.
GCC-PHAT 함수의 제 2 최고 피크의 위치는, max(.) 함수를 arg max(.) 함수로 대체함으로써, 수학식(63)을 이용하여 계산된다. GCC-PHAT 함수의 제 2 최고 피크의 위치는 dITD2로 표시될 것이다.
GCC-PHAT 함수의 제 1 피크와 제 2 최고 피크의 크기들간의 관계는 DFT 스테레오 모드에 있어서의 XTALK 검출에 의해 피처로서 이용되며, 이하의 비율을 이용하여 평가될 수 있다:
Figure pct00097
(64)
비율
Figure pct00098
는 높은 식별 잠재성을 가지지만, 그것을 피처로서 이용하기 위하여, XTALK 검출은 DFT 스테레오 모드에 있어서의 주파수 변환동안에 적용된 제한된 시간 해법으로부터 결과하는 간헐적인 오탐(false alarm)을 제거한다. 이것은, 예를 들어, 이하의 수학식을 이용하여, 현재 프레임에 있어서의 비율
Figure pct00099
의 값을, 이전 프레임으로부터의 동일한 비율의 값과 승산함에 의해 이루어진다:
Figure pct00100
(65)
인덱스 n은 현재 프레임을 나타내기 위해 추가되었으며, 인덱스 n-1은 이전 프레임을 나타낸다. 간단히, 출력 파라메타를 식별하기 위해 파라메타 이름
Figure pct00101
이 재 이용된다.
제 2 최고 피크의 크기는, 장면에 있어서 2차 화자의 세기의 표시자를 단독으로 구성한다. 비율
Figure pct00102
과 유사하게, 값 GITD2의 간헐적인 랜덤 "스파이크(spike)들"이, 예를 들어, 이하의 수학식(66)을 이용하여 감소됨으로써, DFT 스테레오 모드에 있어서의 XTALK 검출에 의해 이용되는 또 다른 피처가 획득된다:
Figure pct00103
(66)
DFT 스테레오 모드에 있어서의 XTALK 검출에 이용되는 또 다른 피처는 이전 프레임에 대한 현재 프레임에 있어서의 제 2 최고 피크의 위치 dITD2(n)의 차이로서, 예를 들어, 이하의 수학식을 이용하여 계산된다:
Figure pct00104
(67)
5. 다운- 믹싱 및 고속 퓨리에 역변환( IFFT )
DFT 스테레오 모드에 있어서, 스테레오 사운드 신호를 코딩하는 방법(150)은 스테레오 사운드 신호(190)의 좌측 채널(L)과 우측 채널(R)을 다운-믹싱하는 동작(157)과, 다운-믹싱된 신호들의 IFFT 변환을 계산하는 동작(158)을 구비한다. 동작(157 및 158)을 수행하기 위하여, 스테레오 사운드 신호(190)를 코딩하는 디바이스(100)는 다운-믹서(down-mixer, 107) 및 IFFT 변환 계산기(108)를 구비한다.
다운-믹서(107)는, 스테레오 사운드 신호의 좌측 채널(L)과 우측 채널(R)을, 예를 들어, 참고문헌[6]에 기술된 바와 같이, 모노 채널(M) 및 사이드 채널(S)로 다운-믹싱하며, 참고문헌[6]의 전체 콘텐츠는 본 명세서에 참조로서 수록된다.
IFFT 변환 계산기(108)는, TD 전치-프로세서(109)에서 프로세싱될 시간-도메인 모노 채널(M)을 생성하기 위해, 다운-믹서(107)로부터 다운-믹싱된 모노 채널(M)의 IFFT 변환을 계산한다. 계산기(108)에서 이용되는 IFFT 변환은 계산기(105)에서 이용된 FFT 변환의 역이다.
6. DFT 스테레오 모드에 있어서 TD 전치 프로세싱(pre-processing)
DFT 스테레오 모드에 있어서, 피처 추출 동작(도시되지 않음)은 UNCLR 분류 및 XTALK 검출에 이용되는 피처들을 추출하기 위한 TD 전치 프로세싱 동작(159)을 구비한다. 동작(159)을 수행하기 위하여, 피처 추출기(도시되지 않음)는 모노 채널(M)에 응답하는 TD 전치 프로세서(109)를 구비한다.
6.1 보이스 활동 검출(Voice Activity Detection)
UNCLR 분류 및 XTALK 검출은 VAD(Voice Activity Detection) 알고리즘을 이용한다. LRTD 스테레오 모드에 있어서, VAD 알고리즘은 좌측 채널(L)과 우측 채널(R)에 대해 개별적으로 실행된다. DFT 스테레오 모드에 있어서, VAD 알고리즘은 다운-믹싱된 모노 채널(M)에 대해 실행된다. VAD 알고리즘의 출력은 이진 플래그(binary flag)
Figure pct00105
이다. VAD 플래그
Figure pct00106
는, 그것이 너무 보수적(conservative)이고 긴 히스테리시스(hysteresis)를 가지고 있기 때문에, UNCLR 분류 및 XTALK 검출에는 적합하지 않다. 이것은, 예를 들어, 발화(utterance)의 중간에 있어서의 잠깐의 중지 동안 또는 토크 스퍼트(talk spurt)의 끝에서, LRTD 스테레오 모드 및 DFT 스테레오 모드간의 고속 스위칭을 방해한다. 또한, VAD 플래그
Figure pct00107
는 입력 스테레오 사운드 신호(190)의 작은 변화에 민감하다. 이것은, 크로스-토크 검출에 있어서의 오탐과, 스테레오 모드의 잘못된 선택을 이끈다. 그러므로, UNCLR 분류 및 XTALK 검출은 상대 프레임 에너지(relative frame energy)의 변동에 기초하는 보이스 활동 검출의 대안적인 측정을 이용한다. VAD 알고리즘에 대한 세부 사항은 참고문헌[1]을 참조하면 된다.
6.1.1 상대 프레임 에너지
UNCLR 분류 및 XTALK 검출은, 수학식 (2)를 이용하여 획득한 좌측 채널(L)의 절대 에너지(absolute energy)
Figure pct00108
와 우측 채널(R)의 절대 에너지
Figure pct00109
를 이용한다. 입력 스테레오 사운드 신호의 최대 평균 에너지는, 예를 들어, 이하의 수학식을 이용하여 로그 도메인에서 계산될 수 있다:
Figure pct00110
(68)
여기에서, 인덱스 n은 현재 프레임을 나타내기 위해 추가되었으며, N=10은 현재 프레임의 길이(160 샘플들의 길이)이다. 로그 도메인에 있어서의 최대 평균 에너지의 값 Eave(n)은 간격 <0;∞>으로 제한된다.
입력 스테레오 사운드 신호의 상대 프레임 에너지는, 예를 들어, 이하의 수학식을 이용하여, 간격 <0;0,9>내로 선형적으로 최대 평균 에너지 Eave(n)를 매핑함에 의해 계산될 수 있다:
Figure pct00111
(69)
여기에서, Eup(n)은 상대 프레임 에너지 Erl(n)의 상한을 나타내고, Edn(n)은 상대 프레임 에너지 Erl(n)의 하한을 나타내며, 인덱스 n은 현재 프레임을 나타낸다.
상대 프레임 에너지 Erl(n)의 한도는 TD 전치 프로세서(103, 104 및 109)의 잡음 추정 모듈의 일부인 잡음 갱신 카운터
Figure pct00112
에 기초하여 각 프레임에서 갱신된다. 이 카운터에 대한 추가적인 정보는 참고문헌[1]을 참조하면 된다. 카운터
Figure pct00113
의 목적은, 현재 프레임에 있어서의 각 채널내의 배경 잡음이 갱신될 수 있음을 시그널링하는 것이다. 이러한 상황은, 카운터
Figure pct00114
의 값이 0일 때 발생한다. 비-제한적 예시로서, 각 채널에 있어서의 카운터
Figure pct00115
은 6으로 초기화되며, 0의 하한과 6의 상한으로 매 프레임마다 증가 또는 감소된다. LRTD 스테레오 모드의 경우, 좌측 채널(L)과 우측 채널(R)에 대해 독립적으로 잡음 추정이 수행된다. 좌측 채널(L) 및 우측 채널(R)에 대한, 2개의 잡음 갱신 카운터들은 각각
Figure pct00116
Figure pct00117
이다. 2개의 카운터들은, 이하의 수학식에 의해, 단일 이진 파라메타로 조합될 수 있다:
Figure pct00118
(70a)
DFT 스테레오 모드의 경우, 다운-믹싱된 모노 채널(M)에 대해 잡음 추정이 수행된다. 모노 채널에 있어서의 잡음 갱신 카운터들은
Figure pct00119
이다. 이진 출력 파라메타는 이하의 수학식으로 계산된다:
Figure pct00120
(70b)
UNCLR 분류 및 XTALK 검출은 상대 프레임 에너지
Figure pct00121
의 하한
Figure pct00122
과 상한
Figure pct00123
의 갱신이 가능하도록 이진 파라메타
Figure pct00124
를 이용한다. 파라메타
Figure pct00125
가 1이면, 상한
Figure pct00126
이 갱신된다.
상대 프레임 에너지 Erl(n)의 상한
Figure pct00127
은, 예를 들어, 이하의 수학식을 이용하여, 파라메타
Figure pct00128
가 1인 프레임들에서 갱신된다:
Figure pct00129
(71)
여기에서, 인덱스 n은 현재 프레임을 나타내고, 인덱스 n-1은 이전 프레임을 나타낸다.
수학식 (71)의 제 1 및 제 2 라인은, 각각, 보다 느린 갱신 및 보다 빠른 갱신을 나타낸다. 따라서, 수학식 (71)을 이용하면, 상한
Figure pct00130
은, 에너지가 증가할 때, 보다 신속하게 갱신된다.
상대 프레임 에너지 Erl(n)의 하한
Figure pct00131
은, 예를 들어, 이하의 수학식을 이용하여, 파라메타
Figure pct00132
가 0인 프레임들에서 갱신된다:
Figure pct00133
(72)
여기에서, 하한은 30.0이다. 상한
Figure pct00134
의 값이 하한
Figure pct00135
에 너무 가까우면, 예를 들어, 그것은 아래와 같이 정정된다:
Figure pct00136
(73)
6.1.2 대안적인 VAD 플래그 추정
UNCLR 분류 및 XTALK 검출은 대안적인 VAD 플래그의 계산에 대한 기초로서, 수학식 (71)에 의해 계산된, 상대 프레임 에너지 Erl(n)의 변동을 이용한다. 현재 프레임에 있어서의 대안적인 VAD 플래그는
Figure pct00137
이다. 대안적인 VAD 플래그
Figure pct00138
는 LRTD 스테레오 모드의 경우에는 TD 전치 프로세서(103/104)의 잡음 추정 모듈에서 생성된 VAD 플래그들을 조합함에 의해 계산되며, 또는 DFT 스테레오 모드의 경우에는 TD 전치 프로세서(109)에서 생성된 VAD 플래그
Figure pct00139
를 조합함에 의해 계산되고, 보조 이진 파라메타
Figure pct00140
는 상대 프레임 에너지 Erl(n)의 변동을 반영한다.
먼저, 상대 프레임 에너지 Erl(n)는, 예를 들어, 이하의 수학식을 이용하여 10개의 이전 프레임들의 세그먼트에 걸쳐 평균화된다:
Figure pct00141
(74)
여기에서, p는 평균의 인덱스이다. 보조 이진 파라메타(auxiliary binary parameter)는, 예를 들어, 이하의 로직에 따라 설정된다:
Figure pct00142
(75)
LRTD 스테레오 모드에 있어서, 대안적인 VAD 플래그
Figure pct00143
는, 예를 들어, 이하의 수학식을 이용하여, 좌측 채널(L)에 있어서의 VAD 플래그
Figure pct00144
, 우측 채널(R)에 있어서의 VAD 플래그
Figure pct00145
및 보조 이진 파라메타
Figure pct00146
의 논리적 조합에 의해 계산된다:
Figure pct00147
(76)
DFT 스테레오 모드에 있어서, 대안적인 VAD 플래그
Figure pct00148
는, 예를 들어, 이하의 수학식을 이용하여, 다운-믹싱된 모노 채널(M)에 있어서의 VAD 플래그
Figure pct00149
와, 보조 이진 파라메타
Figure pct00150
의 논리적 조합에 의해 계산된다:
Figure pct00151
(77)
6.2 스테레오 무음(silence) 플래그
DFT 스테레오 모드에 있어서, 다운-믹싱된 모노 채널(M)의 낮은 레벨을 반영하는 이산 파라메타(discrete parameter)를 계산하는 것이 편리하다. 스테레오 무음 플래그라고 하는 그러한 파라메타는, 예를 들어, 특정 사전 정의된 임계치와 활성 신호의 평균 레벨을 비교함에 의해 계산될 수 있다. 예를 들어, TD 전치 프로세서(109)의 VAD 알고리즘내에서 계산된 장기 활성 스피치 레벨(long-term active speech level)
Figure pct00152
은 스테레오 무음 플래그를 계산하기 위한 기초로서 이용될 수 있다. VAD 알고리즘에 대한 세부사항은 참고문헌[1]을 참조하면 된다.
그 다음, 스테레오 무음 플래그는 이하의 수학식을 이용하여 계산될 수 있다:
Figure pct00153
(78)
여기에서,
Figure pct00154
은 현재 프레임에 있어서의 다운-믹싱된 모노 채널(M)의 절대 에너지이다. 스테레오 무음 플래그
Figure pct00155
은 간격 <0;∞>으로 제한된다.
7. 비상관 스테레오 콘텐츠( UNCLR )의 분류
LRTD 스테레오 모드 및 DFT 스테레오 모드에 있어서의 UNCLR 분류는 로지스틱 회귀(Logistic Regression: LogReg) 모델에 기반한다(참고문헌[9] 참조). LogReg 모델은 상관 및 비상관 스테레오 신호 샘플들로 구성된 대형 라벨 데이터베이스(large labeled database)상에서 LRTD 스테레오 모드 및 DFT 스테레오 모드에 대해 개별적으로 훈련된다. 비상관 스테레오 훈련 샘플들은, 랜덤하게 선택된 모노 신호들을 조합함에 의해, 인위적으로 생성된다. 이하의 스테레오 장면들은 모노 샘플들의 그러한 인위적 믹스(artificial mix)로 시뮬레이션될 수 있다:
- 좌측 채널에 있어서의 스피커 A, 우측 채널에 있어서의 스피커 B(또는 그의 반대);
- 좌측 채널에 있어서의 스피커 A, 우측 채널에 있어서의 뮤직 사운드(또는 그의 반대);
- 좌측 채널에 있어서의 스피커 A, 우측 채널에 있어서의 잡음 사운드(또는 그의 반대);
- 좌측 또는 우측 채널에 있어서의 스피커 A, 양 채널에 있어서의 배경 잡음;
- 좌측 또는 우측 채널에 있어서의 스피커 A, 양 채널에 있어서의 배경 뮤직.
비-제한적 구현에 있어서, 16kHz로 샘플링된 AT&T 모노 클린 스피치 데이터베이스(mono clean speech database)로부터 모노 샘플들이 선택된다. 예를 들어, 참고문헌[1]에 기술된 바와 같은 3GPP EVS 코덱의 VAD 알고리즘과 같은, 임의 편리한 VAD 알고리즘을 이용하여 모노 샘플들로부터 단지 활성 세그먼트들만이 추출된다. 비상관 콘텐츠를 가진 스테레오 훈련 데이터베이스의 전체 크기는, 대략 240MB이다. 스테레오 사운드 신호를 형성하기 위해 모노 신호들이 조합되기 전에, 모노 신호들에 대해 적용되는 레벨 조정은 없다. 레벨 조정은 이러한 프로세스 이후에만 적용된다. 각 스테레오 샘플의 레벨은 수동 모노 다운-믹스에 기초하여 -26dBov로 정규화된다. 따라서, 채널간 레벨 차이는 변경되지 않으며, 여전히, 스테레오 장면에 있어서 지배적 스피커의 위치를 결정하는 주요 인자로 존재한다.
상관 스테레오 훈련 샘플들은 스테레오 사운드 신호들의 여러 실제 녹음으로부터 획득된다. 상관 스테레오 콘텐츠를 가진 훈련 데이터베이스의 전체 크기는 대략 220MB이다. 상관 스테레오 훈련 샘플들은, 비-제한적 구현에 있어서, 실제 녹음을 위해 수립된 스테레오 장면의 평면을 보여주는 도 4에 도시된 이하의 장면들로부터의 샘플들을 포함한다:
- 마이크로폰(M1)에 가까운 위치(P1)에 있는 스피커(S1), 마이크로폰(M6)에 가까운 위치(P2)에 있는 스피커(S2);
- 마이크로폰(M3)에 가까운 위치(P4)에 있는 스피커(S1), 마이크로폰(M4)에 가까운 위치(P3)에 있는 스피커(S2);
- 마이크로폰(M1)에 가까운 위치(P6)에 있는 스피커(S1), 마이크로폰(M2)에 가까운 위치(P5)에 있는 스피커(S2);
- M1-M2 스테레오 녹음에 있어서 위치(P4)에만 있는 스피커(S1);
- M3-M4 스테레오 녹음에 있어서 위치(P4)에만 있는 스피커(S1).
훈련 데이터베이스의 전체 크기는 아래와 같다:
Figure pct00156
(79)
여기에서,
Figure pct00157
은 비상관 스테레오 훈련 샘플들의 세트의 크기이고,
Figure pct00158
은 상관 스테레오 훈련 샘플들의 세트의 크기이다. 라벨들은, 이하의 간단한 규칙을 이용하여 수동적으로 할당된다:
Figure pct00159
(80)
여기에서,
Figure pct00160
은 비상관 훈련 데이터베이스의 전체 피처 세트이고,
Figure pct00161
은 상관 훈련 데이터베이스의 전체 피처 세트이다. 이러한 예시적인 비-제한적 구현에 있어서, 불활성 프레임(VAD=0)들은 훈련 데이터베이스로부터 폐기된다.
비상관 훈련 데이터베이스에 있어서의 각 프레임은 "1"로 라벨링되고, 상관 훈련 데이터베이스에 있어서의 각 프레임은 "0"으로 라벨링된다. VAD=0인 불활성 프레임들은 훈련 프로세스동안 무시된다.
7.1 LRTD 스테레오 모드에 있어서의 UNCLR 분류
LRTD 스테레오 모드에 있어서, 스테레오 사운드 신호(190)를 코딩하는 방법(150)은, 비상관 스테레오 콘텐츠(UNCLR)의 분류 동작(161)을 구비한다. 동작(161)을 수행하기 위하여, 스테레오 사운드 신호(190)를 코딩하는 디바이스(100)는 UNCLR 분류기(111)를 구비한다.
LRTD 스테레오 모드에 있어서의 UNCLR 분류 동작(161)은, 로지스틱 회귀(LogReg) 모델에 기반한다. 비상관 스테레오 및 상관 스테레오 훈련 데이터베이스에 대해 스테레오 사운드 신호를 코딩하기 위한 디바이스(100)(스테레오 코덱)를 실행시킴에 의해 추출되는 이하의 피처들은, UNCLR 분류 동작(161)에서 이용된다:
- 채널간 크로스-상관 함수의 최대치의 위치
Figure pct00162
(수학식 (11));
- 순시 목표 이득
Figure pct00163
(수학식 (13));
- 제로 래그(zero lag)의 채널간 상관 함수의 절대값의 로그
Figure pct00164
(수학식 (14));
- 사이드-모노간 에너지 비율
Figure pct00165
(수학식 (15));
- 좌측/우측 채널과 모노 신호의 내적(dot product)의 최대치와 최소치간의 차이
Figure pct00166
(수학식 (19));
- 좌측 채널(L)과 모노 신호(M)간의 내적과, 우측 채널과 모노 채널(M)간의 내적 간의 로그 도메인에 있어서의 절대차(absolute difference)
Figure pct00167
(수학식 (20));
- 크로스-채널 상관 함수의 제로-래그 값
Figure pct00168
(수학식 (5)); 및
- 채널간 상관 함수의 진화
Figure pct00169
(수학식 (21)).
전체적으로, UNCLER 분류기(111)는 F=8개의 피처들을 이용한다.
훈련 프로세스 전에, UNCLR 분류기(111)는 피처들의 세트를 정규화하는 서브 동작(도시되지 않음)을 수행하는 정규화기(도시되지 않음)를 구비하는데, 그러한 정규화는 피처들의 세트의 평균을 제거하고, 피처들의 세트를 단위 분산(unit variance)으로 스케일링함에 의해 이루어진다. 그 목적을 위해, 정규화기(도시되지 않음)는, 예를 들어, 이하의 수학식을 이용한다:
Figure pct00170
(81)
여기에서, f i,raw 는 세트의 i번째 피처이고, f i 는 정규화된 i번째 피처이며,
Figure pct00171
는 훈련 데이터베이스에 걸쳐 i번째 피처의 글로벌 평균(global mean)이고,
Figure pct00172
는 훈련 데이터베이스에 걸쳐 i번째 피처의 글로벌 분산이다.
UNCLR 분류기(111)에 의해 이용되는 LogReg 모델은 실수 피처(real-valued feature)를 입력 벡터로 간주하며, 입력이, 비상관 스테레오 콘텐츠(UNCLR)를 나타내는 비상관 클래스(0)에 속할 확률에 대해 예측한다. 이를 위해, UNCLR 분류기(111)는 입력 스테레오 사운드 신호(190)에 있어서의 비상관 스테레오 콘텐츠를 나타내는 스코어(score)를 계산하는 서브 동작(도시되지 않음)을 수행하는 스코어 계산기를 구비한다. 스코어 계산기(도시되지 않음)는, 이하의 수학식을 이용하여 표시될 수 있는 추출된 피처들의 선형 회귀 형태의, 실수화된(real-valued) LogReg 모델의 출력을 계산한다:
Figure pct00173
(82)
여기에서, bi는 LogReg 모델의 계수들을 나타내고, fi는 개별 피처를 나타낸다. 실수 출력 yp은, 예를 들어, 이하의 로지스틱 함수를 이용하여 확률로 변환된다:
Figure pct00174
(83)
그 확률
Figure pct00175
은 0과 1 사이의 실수를 취한다.
직감적으로, 1에 보다 근접한 확률은, 현재 프레임이 스테레오 비상관될 확률이 높다는 것, 즉, 비상관 스테레오 콘텐츠를 가짐을 의미한다.
학습 프로세스의 목적은, 훈련 데이터에 기초하여 계수들
Figure pct00176
에 대한 최선의 값들을 발견하기 위한 것이다. 계수들은 훈련 데이터베이스상의 예측된 출력
Figure pct00177
과 실제 출력(true output) y간의 차이를 최소화함에 의해 반복적으로 발견된다. LRTD 스테레오 모드에 있어서 UNCLR 분류기(111)는, 예를 들어, 전체 콘텐츠가 본 명세서에 참고로서 수록되는 참고문헌[10]에 기술된 바와 같은, SGD(Stochastic Gradient Descent)를 이용하여 훈련된다.
확률적 출력
Figure pct00178
을 고정된 임계치, 예를 들어, 0.5와 비교함에 의해, 이진 분류를 할 수 있다. 그러나, LRTD 스테레오 모드에 있어서의 UNCLR 분류 목적을 위해, 확률적 출력
Figure pct00179
은 이용되지 않으며, LogReg 모델의 원시 출력(raw output) yp이 아래와 같이 추가로 프로세싱된다.
UNCLR 분류기(111)의 스코어 계산기(도시되지 않음)는, 예를 들어, 도 5에 도시된 바와 같은, 함수를 이용하여 LogReg 모델의 원시 출력을 먼저 정규화한다. 도 5에는 LRTD 스테레오 모드에 있어서의 UNCLR 분류에 있어서 LogReg 모델의 원시 출력에 적용되는 정규화 함수를 나타낸 그래프가 도시된다.
도 5의 정규화 함수는 아래와 같이 수학적으로 기술될 수 있다:
Figure pct00180
(84)
7.1.1 상대 프레임 에너지에 기반한 LogReg 출력 가중화 (output weighting)
UNCLR 분류기(111)의 스코어 계산기(도시되지 않음)는, 예를 들어, 이하의 수학식을 이용하여 상대 프레임 에너지로 LogReg 모델의 정규화된 출력
Figure pct00181
을 가중화한다:
Figure pct00182
(85)
Erl(n)은 수학식(69)에 의해 기술된 상대 프레임 에너지이다. LogReg 모델의 가중된 출력
Figure pct00183
은 입력 스테레오 사운드 신호(190)에 있어서의 비상관 스테레오 콘텐츠를 나타내는 상술한 "스코어"로서 지칭된다.
7.1.2 상승 에지 검출
스코어
Figure pct00184
는, 그것이 불완전한 통계적 모델로부터 결과하는 간헐적인 단기 "피크들"(short-term "peaks")을 포함하기 때문에, UNCLR 분류를 위한 UNCLR 분류기(111)에 의해 직접 이용될 수 없다. 이 피크들은 1차 IIR 필터와 같은 간단한 평균화 필터에 의해 필터 제거될 수 있다. 불행하게도, 그러한 평균화 필터의 적용은, 통상적으로, 입력 스테레오 사운드 신호(190)에 있어서의 스테레오 상관 콘텐츠와 스테레오 비상관 콘텐츠간의 천이를 나타내는 상승 에지의 스미어링(smearing)으로 결과한다. 상승 에지를 유지시키기 위해, 입력 스테레오 사운드 신호(190)에서 상승 에지가 검출되면, 평활화 프로세스(평균화 IIR 필터의 적용)가 감소되거나 중지된다. 입력 스테레오 사운드 신호(190)에 있어서의 상승 에지의 검출은, 상대 프레임 에너지 Erl(n)의 진화를 분석함에 의해 이루어진다.
상대 프레임 에너지 Erl(n)의 상승 에지는 P=20의 동일한 1차 RC(Resistor-Capacitor) 필터들의 캐스케이드(cascade)로 상대 프레임 에너지를 필터링함에 의해 발견되며, 그 필터들의 각각은, 예를 들어, 이하의 형태를 가진다:
Figure pct00185
(86)
상수
Figure pct00186
,
Figure pct00187
Figure pct00188
은 아래와 같이 되도록 선택된다:
Figure pct00189
(87)
단일 파라메타 τedge는 각 RC 필터의 시상수를 제어하는데 이용된다. 실험적으로, τedge=0.3로 양호한 결과가 달성됨을 알게 되었다. P=20 RC 필터들의 캐스케이드로 상대 프레임 에너지 Erl(n)를 필터링하는 것은, 다음과 같이 수행될 수 있다:
Figure pct00190
Figure pct00191
Figure pct00192
Figure pct00193
(88)
윗첨자 p = 0, 1,...,P-1은 RC 필터 캐스케이드에 있어서의 스테이지(stage)를 나타내기 위해 추가되었다. RC 필터의 캐스케이드의 출력은 마지막 스테이지로부터 출력과 동일하다. 즉, 아래와 같다:
Figure pct00194
(89)
단일의 고차원 RC 필터 대신에 1차원 RC 필터들의 캐스케이드를 이용하는 이유는, 계산적인 복잡성을 줄이기 위한 것이다. 다수의 1차원 RC 필터들의 캐스케이드는 상대적으로 명확한 계단 함수(sharp step function)를 가진 저역 통과 필터로서 작용한다. 상대 프레임 에너지 Erl(n)에 대해 이용될 때, 그것은 간헐적인 단기 스파이크(spike)들을 스미어 제거(smear out)하면서 온셋(onset) 및 오프셋(offset)과 같은 느리지만 중요한 천이를 유지시키는 경향이 있다. 상대 프레임 에너지 Erl(n)의 상승 에지는, 예를 들어, 이하의 수학식을 이용하여, 상대 프레임 에너지와 필터링된 출력 간의 차이를 계산함에 의해 수량화될 수 있다:
Figure pct00195
(90)
Figure pct00196
은 간격(0,9;0,95>으로 제한된다. UNCLR 분류기(111)의 스코어 계산기(도시되지 않음)는, 예를 들어, 이하의 수학식을 이용하여,
Figure pct00197
을 망각 인자(forgetting factor)로서 이용하는 IIR 필터로, LogReg 모델의 정규화되고 가중화된 출력
Figure pct00198
을 평활화함으로써, 정규화되고 가중화되며 평활화된 스코어(LogReg 모델의 출력)를 생성한다:
Figure pct00199
(91)
7.2 DFT 스테레오 모드에 있어서의 UNCLR 분류
DFT 스테레오 모드에 있어서, 스테레오 사운드 신호(190)를 코딩하는 방법(150)은 비상관 스테레오 콘텐츠(UNCLR)의 분류 동작(163)을 구비한다. 동작(163)을 수행하기 위하여, 스테레오 사운드 신호(190)를 코딩하는 디바이스(100)는 UNCLR 분류기(113)를 구비한다.
DFT 스테레오 모드에 있어서의 UNCLR 분류는, 상술한 LRTD 스테레오 모드에 있어서의 UNCLR 분류와 유사하게 이루어진다. 특히, DFT 스테레오 모드에 있어서의 UNCLR 분류는 로지스틱 회귀(LogReg) 모델에 기초한다. 간단히, LRTD 스테레오 모드에 있어서의 UNCLR 분류로부터 특정 파라메타들을 나타내는 심볼들/이름들 및 그와 연관된 수학적 심볼들은 DFT 스테레오 모드에 대해서도 이용된다. 아랫첨자들은, 동시에 다수의 섹션들로부터의 동일 파라메타를 참조할 때 애매함을 피하기 위해 추가된다.
스테레오 비상관 및 상관 훈련 데이터베이스에 대해 스테레오 사운드 신호를 코딩하는 디바이스(스테레오 코덱)을 실행시킴에 의해 추출되는 이하의 피처들은 DFT 스테레오 모드에 있어서의 UNCLR 분류를 위한 UNCLR 분류기(113)에 의해 이용된다:
- ILD 이득
Figure pct00200
(수학식 (43));
- IPD 이득
Figure pct00201
(수학식 (48));
- IPD 회전 각도
Figure pct00202
(수학식 (49));
- 예측 이득 gpred (수학식 (52));
- 채널간 코히어런스의 평균 에너지 Ecoh (수학식 (55));
- 최대 및 최소 채널내 크기 곱들의 비율 rpp (수학식 (57));
- 전체 크로스-채널 스펙트럼 크기
Figure pct00203
(수학식 (41)); 및
- GCC-PHAT 함수의 최대치
Figure pct00204
(수학식 (61)).
전체적으로, UNCLR 분류기(113)는 F=8개의 피처들을 이용한다.
훈련 프로세스 전에, UNCLR 분류기(113)는 피처들의 세트를 정규화하는 서브-동작(도시되지 않음)을 수행하는 정규화기(도시되지 않음)를 구비하는데, 그 정규화는 피처들의 세트의 평균을 제거하고, 피처들의 세트를 단위 분산으로 스케일링함에 의해 이루어진다. 정규화기(도시되지 않음)는, 그를 위해, 예를 들어, 이하의 수학식을 이용한다:
Figure pct00205
(92)
여기에서, f i,raw 는 세트의 i번째 피처이고,
Figure pct00206
는 전체 훈련 데이터베이스에 걸쳐 i번째 피처의 글로벌 평균(global mean)이고,
Figure pct00207
는 전체 훈련 데이터베이스에 걸쳐 i번째 피처의 글로벌 분산이다. 글로벌 평균
Figure pct00208
및 글로벌 분산
Figure pct00209
은 수학식 (81)에서 이용된 동일 파라메타들과 다르다.
DFT 스테레오 모드에 이용되는 LogReg 모델은 LRTD 스테레오 모드에서 이용된 LogReg 모델과 유사하다. LogReg 모델의 출력 yp은 수학식 (82)에 의해 기술되며, 현재 프레임이 비상관 스테레오 콘텐츠(class=0)를 가질 확률은 수학식(83)에 의해 주어진다. 최적 결정 임계치를 발견하기 위한 분류기 훈련 프로세스 및 절차는 상기에서 설명되었다. 다시, 그를 위해, UNCLR 분류기(113)는 입력 스테레오 사운드 신호(190)에 있어서의 비상관 스테레오 콘텐츠를 나타내는 스코어를 계산하는 서브-동작(도시되지 않음)을 수행하는 스코어 계산기(도시되지 않음)를 구비한다.
UNCLR 분류기(113)의 스코어 계산기(도시되지 않음)는, 우선, 도 5에 도시된 함수에 따라 및 LRTD 스테레오 모드에서와 유사하게, LogReg 모델의 원시 출력 yp을 정규화한다. 그 정규화는 아래와 같이 수학적으로 기술될 수 있다:
Figure pct00210
(93)
7.1.2 상대 프레임 에너지에 기초한 LogReg 출력 가중화
UNCLR 분류기(113)의 스코어 계산기(도시되지 않음)는, 예를 들어, 이하의 수학식을 이용하여, 상대 프레임 에너지 Erl(n)로 LogReg 모델의 정규화된 출력
Figure pct00211
을 가중화한다:
Figure pct00212
(94)
여기에서, Erl(n)은 수학식 (69)에 의해 기술된 상대 프레임 에너지이다.
LogReg 모델의 가중화되고 정규화된 출력을 "스코어"라 하며, 그것은 상술한 LRTD 스테레오 모드에서와 동일한 양을 나타낸다. DFT 스테레오 모드에 있어서, 스코어
Figure pct00213
는, 대안적인 VAD 플래그
Figure pct00214
(수학식 (77))가 0으로 설정될 때, 0으로 리셋된다. 이것은 이하의 수학식으로 표현된다:
Figure pct00215
(95)
7.2.2 DFT 스테레오 모드에 있어서의 상승 에지 검출
UNCLR 분류기(113)의 스코어 계산기(도시되지 않음)는, 최종적으로, LRTD 스테레오 모드에 있어서의 UNCLR 분류에 있어서 상술한 상승 에지 검출 메커니즘을 이용하여 IIR 필터로 DFT 스테레오 모드에 있어서의 스코어
Figure pct00216
를 평활화한다. 이를 위해, UNCLR 분류기(113)는 이하의 수학식을 이용한다:
Figure pct00217
(96)
이는 수학식 (91)과 동일하다.
7.3 이진 UNCLR 결정
UNCLR 분류기(111/113)의 최종 출력은 이진 상태이다.
Figure pct00218
은 UNCLR 분류기(111/113)의 이진 상태를 나타낸다. 이진 상태
Figure pct00219
은 비상관 스테레오 콘텐츠 클래스를 나타내기 위해 값 "1"을 가지거나, 상관 스테레오 콘텐츠 클래스를 나타내기 위해 값 "0"을 가진다. UNCLR 분류기(111/113)의 출력에서의 이진 상태는 가변적이다. 그것은 "0"으로 초기화된다. UNCLR 분류기(111/113)의 상태는 특정 조건들이 충족되는 프레임들에서는 현재 클래스에서 다른 클래스로 변경된다.
스테레오 콘텐츠 클래스들간의 스위칭을 위해 UNCLR 분류기(111/113)에 이용되는 메커니즘은 도 6에 상태 머신(state mechine) 형태로 도시된다.
도 6을 참조하면,
- (a) 이전 프레임의 이진 상태
Figure pct00220
가 "1"이고(601), (b) 현재 프레임의 평활화된 스코어
Figure pct00221
가 "-0.07"보다 작고(602), (c) 이전 프레임의 변수 cnt sw (n-1)가 "0"보다 크면 (603), 현재 프레임의 이진 상태
Figure pct00222
는 "0"으로 스위칭되고(604);
- (a) 이전 프레임의 이진 상태
Figure pct00223
가 "1"이고(601), (b) 현재 프레임의 평활화된 스코어
Figure pct00224
가 "-0.07"보다 작지 않으면(602), 현재 프레임에 있어서의 이진 상태
Figure pct00225
의 스위칭은 없으며;
- (a) 이전 프레임의 이진 상태
Figure pct00226
가 "1"이고(601), (b) 현재 프레임의 평활화된 스코어
Figure pct00227
가 "-0.07"보다 작고(602), (c) 이전 프레임의 변수 cnt sw (n-1)가 "0"보다 크지 않으면 (603), 현재 프레임에 있어서의 이진 상태
Figure pct00228
의 스위칭은 없다.
동일한 방식으로, 도 6을 참조하면,
- (a) 이전 프레임의 이진 상태
Figure pct00229
가 "0"이고(601), (b) 현재 프레임의 평활화된 스코어
Figure pct00230
가 "0.1"보다 크고(605), (c) 이전 프레임의 변수 cnt sw (n-1)는 "0"보다 크면 (606), 현재 프레임의 이진 상태
Figure pct00231
는 "1"으로 스위칭되고(607);
- (a) 이전 프레임의 이진 상태
Figure pct00232
가 "0"이고(601), (b) 현재 프레임의 평활화된 스코어
Figure pct00233
가 "0.1"보다 크지 않으면(605), 현재 프레임에 있어서의 이진 상태
Figure pct00234
의 스위칭은 없다;
- (a) 이전 프레임의 이진 상태
Figure pct00235
가 "0"이고(601), (b) 현재 프레임의 평활화된 스코어
Figure pct00236
가 "0.1"보다 크고(605), (c) 이전 프레임의 변수 cnt sw (n-1)가 "0"보다 크지 않으면 (606), 현재 프레임에 있어서의 이진 상태
Figure pct00237
의 스위칭은 없다.
마지막으로, 현재 프레임에 있어서의 변수 cnt sw (n)는 갱신되고(608), 그 절차는 다음 프레임(609)에 대해 반복된다.
변수 cnt sw (n)는 LRTD 및 DFT 스테레오 모드들간의 스위칭이 가능한 UNCLR 분류기(111/113)의 프레임들의 카운터이다. 이 카운터는, 0으로 초기화되고, 예를 들어, 아래의 로직을 이용하여 각 프레임에서 갱신된다(608):
Figure pct00238
(97)
카운터 cntsw(n)는 100의 상한을 가진다. 변수 ctype는 스테레오 사운드 신호를 코딩하는 디바이스(100)에 있어서 현재 프레임의 유형을 나타낸다. 프레임 유형은, 통상적으로, 스테레오 사운드 신호를 코딩하는 디바이스(100)(스테레오 사운드 코덱)의 전치 프로세싱 동작, 특히, 전치 프로세서(들)(103/104/109)에서 결정된다. 현재 프레임의 유형은, 통상적으로, 입력 스테레오 사운드 신호(190)의 이하의 특성들에 기초하여 선택된다:
- 피치 기간(pitch period)
- 보이싱(voicing)
- 스펙트럼 기울기(spectral tilt)
- 영 교차율(zero-crossing rate)
- 프레임 에너지 차이(단기, 장기).
비-제한적 예시로서, 참고문헌[1]에 기술된 3GPP EVS 코덱으로부터의 프레임 유형은, UNCLR 분류기(111/113)에서, 수학식 (97)의 파라메타 ctype로서 이용될 수 있다. 3GPP EVS 코덱에 있어서의 프레임 유형은 이하의 클래스들의 세트로부터 선택된다:
Figure pct00239
수학식 (97)에 있어서의 파라메타 VAD0은 임의 행오버 추가가 없는 VAD 플래그이다. 행오버 추가가 없는 VAD 플래그는 스테레오 사운드 신호를 코딩하는 디바이스(100)(스테레오 사운드 코덱)의 전치 프로세싱 동작, 특히, TD 전치 프로세서(들)(103/104/109)에서 계산된다. 비-제한적 예시로서, 참고문헌[1]에 기술된 3GPP EVS 코덱으로부터의 행오버 추가가 없는 VAD 플래그는 UNCLR 분류기(111/113)에서 파라메타 VAD0으로 이용될 수 있다.
UNCLR 분류기(111/113)의 출력 이진 상태
Figure pct00240
는, 현재 프레임의 유형이, GENERIC, UNVOICED 또는 INACTIVE이거나, 행오버 추가가 없는 VAD 플래그가, 입력 스테레오 사운드 신호에 있어서의 불활성을 나타내면(VAD0=0), 변경될 수 있다. 일반적으로, 그러한 프레임은 LRTD 및 DFT 스테레오 모드들간의 스위칭에 적합할 수 있는데, 이는 그들이 안정한 세그먼트들 또는 품질에 대한 영향이 지각적으로 낮은 세그먼트들에 위치하기 때문이다. 목적은 스위칭 아티팩트(switch artifact) 위험을 최소화하는 것이다.
8. 크로스-토크( XTALK )의 검출
XTALK 검출은 LRTD 스테레오 모드 및 DFT 스테레오 모드에 대해 개별적으로 훈련되는 LogReg 모델에 기초한다. 두 통계적 모델들은 인위적으로 준비된 스테레오 샘플들과 실제 스테레오 녹음들의 대형 데이터베이스로부터 수집된 피처들에 대해 훈련된다. 훈련 데이터베이스에 있어서, 각 프레임은 싱글-토크 또는 크로스-토크로서 라벨링된다. 그 라벨링은 실제 스테레오 녹음들의 경우에는 수동적으로 또는 인위적으로 준비된 샘플들의 경우에는 반자동으로 수행된다. 수동 라벨링은 크로스-토크 특성들을 가진 짧고 콤팩트한 세그먼트들을 식별함에 의해 이루어진다. 반자동 라벨링은, 스테레오 신호들로의 믹싱전에, 모노 신호들로부터의 VAD 출력들을 이용하여 이루어진다. 세부 설명은 본 섹션 8의 마지막에 제공된다.
본 개시에서 기술한 구현의 비-제한적 예시에 있어서, 실제 스테레오 녹음들은 32kHz로 샘플링된다. 이러한 실제 스테레오 녹음들의 전체 크기는 대략 30분에 대응하는 대략 263MB이다. 인위적으로 준비된 스테레오 샘플들은 ITU-T G.191 반향 툴(reverberation tool)을 이용하여 모노 클린 스피치 데이터베이스로부터 랜덤하게 선택된 스피커들을 믹싱함에 의해 생성된다. 인위적으로 준비된 스테레오 샘플들은 도 7에 도시된 바와 같이 AB 마이크로폰 구성을 가진 대형 회의실내에서 조건들을 시뮬레이션함에 의해 준비된다. 도 7에는 XTALK 검출을 위한 조건들이 시뮬레이션되는 AB 마이크로폰 구성을 가진 대형 회의실의 개략적인 평면도가 도시된다.
2개 유형의 룸(room), 즉, 반향(LEAB) 및 무반향(LAAB)이 고려된다. 도 7을 참조하면, 룸의 각 유형에 대해, 제 1 스피커(S1)는 위치들(P4, P5 또는 P6)에 있고, 제 2 스피커(S2)는 위치들(P10, P11 및 P12)에 있다. 각 스피커(S1 및 S2)의 위치는 훈련 샘플들의 준비동안에 랜덤하게 선택된다. 그러므로, 스피커(S1)는, 항상, 시뮬레이션되는 제 1 마이크로폰(M1)에 가까이 있고, 스피커(S2)는 항상 시뮬레이션되는 제 2 마이크로폰(M2)에 가까이 있다. 마이크로폰들(M1 및 M2)은, 도 7에 도시된 비-제한적 구현에 있어서 전방향성이다. 한쌍의 마이크로폰들(M1 및 M2)은 시뮬레이션되는 AB 마이크로폰 구성을 구성한다. 모노 샘플들은 추가 프로세싱 전에 훈련 데이터베이스로부터 랜덤하게 선택되고, 32kHz로 다운-샘플링되며, -26dBov(dB(overload))(클리핑(clipping)이 발생하기 전에 디바이스가 조정할 수있는 최대치와 비교되는 오디오 신호의 크기)로 정규화된다. ITU-T G.191 반향 툴은 각 스피커/마이크로폰 쌍에 대한 RIR(Room Impulse Response)의 실제 측정들의 데이터베이스를 포함한다.
스피커들(S1 및 S2)에 대해 랜덤하게 선택된 모노 샘플들은 주어진 스피커/마이크로폰 위치에 대응하는 RIR들로 콘볼루션(convolution)되며, 그에 의해 실제 AB 마이크로폰 포획이 시뮬레이션된다. 각 마이크로폰(M1 및 J2)에 있어서 양 스피커들(S1 및 S2)로부터의 기여가 함께 추가된다. 4-4.5초 범위내의 랜덤하게 선택된 오프셋이 콘볼루션 전에 스피커 샘플들 중 하나에 추가된다. 이것은, 모든 훈련 문장들에 있어서 짧은 크로스-토크 스피치 기간 및 또 다른 싱글-토크 스피치 기간이 뒤따르는 얼마간의 싱글-토크 기간이 항상 존재함을 보장한다. RIR 콘볼루션 및 믹싱 후, 샘플들은 다시 -26dBov로 정규화되며, 이 시간은 수동 모노 다운-믹스에 적용된다.
라벨들은, 참고문헌[1]에 기술된 3GPP EVS 코덱의 VAD 알고리즘과 같은, 통상적인 VAD 알고리즘을 이용하여 반자동으로 생성된다. VAD 알고리즘은 제 1 스피커(S1) 파일과 제 2 스피커(S2) 파일에 개별적으로 적용된다. 그 다음, 이진 VAD 결정들은 논리 "AND"에 의해 조합된다. 이것은 라벨 파일(label file)로 결과한다. 조합된 출력이 "1"인 세그먼트들은 크로스-토크 세그먼트들을 결정한다. 이것은, VAD를 이용하여 크로스-토크 샘플들의 자동 라벨링을 도시한 그래프를 보여주는 도 8에 도시된다. 도 8에 있어서, 제 1 라인은 스피커(S1)으로부터의 스피치 샘플을 보여주고, 제 2 라인은 스피커(S1)으로부터의 스피치 샘플에 대한 이진 VAD 결정을 보여주며, 제 3 라인은 스피커(S2)로부터의 스피치 샘플을 보여주고, 제 4 라인은 스피커(S2)로부터의 스피치 샘플에 대한 이진 VAD 결정을 보여주며, 제 5 라인은 크로스-토크 세그먼트의 위치를 보여준다.
훈련 세트는 불균형적이다. 싱글-토크 프레임들에 대한 크로스-토크 프레임들의 비율은 대략, 1 내지 5이며, 즉, 훈련 데이터베이스의 단지 약 21%만이 크로스-토크 클래스에 속한다. 이것은, 전체 콘텐츠가 본 명세서에 참조로서 수록되는 참고문헌[6]에 기술된 바와 같이 클래스 가중치를 적용함에 의해 LogLeg 훈련 프로세스 동안에 보상된다.
훈련 샘플들은 연쇄되어, 스테레오 사운드 신호를 코딩하는 디바이스(100)(스테레오 사운드 코덱)에 대한 입력으로서 이용된다. 그 피처들은 각각의 20ms 프레임에 대한 인코딩 프로세싱동안 개별적인 파일들내에 개별적으로 수집된다. 이것은 훈련 피처 세트를 구성한다. 훈련 피처 세트에 있어서의 프레임들의 전체 개수는 다음과 같이 나타낼 수 있다:
Figure pct00241
(98)
여기에서,
Figure pct00242
는 크로스-토크 프레임들의 전체 개수이고,
Figure pct00243
은 싱글-토크 프레임들의 전체 개수이다.
대응하는 이진 라벨은 다음과 같이 나타낼 수 있다:
Figure pct00244
(99)
여기에서,
Figure pct00245
은 전체 크로스-토크 프레임들의 슈퍼셋(superset)이고,
Figure pct00246
은 전체 싱글-토크 프레임들의 슈퍼셋이다. 불활성 프레임들(VAD=0)은 훈련 데이터베이스로부터 제거된다.
8.1 LRTD 스테레오 모드에 있어서의 XTALK 검출
LRTD 스테레오 모드에 있어서, 스테레오 사운드 신호를 코딩하는 방법(150)은 크로스-토크(XTALK)를 검출하는 동작(160)을 구비한다. 동작(160)을 수행하기 위하여, 스테레오 사운드 신호를 코딩하는 디바이스(100)는 XTALK 검출기(110)를 구비한다.
LRTD 스테레오 모드에 있어서의 크로스-토크(XTALK)를 검출하는 동작(160)은, 상술한 LRTD 스테레오 모드에 있어서의 UNCLR 분류에 대해서도 유사하게 수행된다. XTALK 검출기(110)는 로지스틱 회귀(LogReg) 모델에 기초한다. 간단히, UNCLR 분류로부터의 파라메타들의 이름 및 그와 연관된 수학적 심볼들이 이 섹션에 이용된다. 다른 섹션들로부터의 동일 파라메타 이름들을 언급할 때 애매성을 피하기 위해 아랫첨자가 심볼들에 추가된다.
이하의 피처들은 XTALK 검출기(110)에 의해 이용된다:
-L/R 클래스 차이
Figure pct00247
(수학식 (32));
- 최대 자기 상관의 L/R 차이 dv (수학식 (25));
- LSF들의 합의 L/R 차이
Figure pct00248
(수학식 (23));
- 잔차 에러 에너지의 L/R 차이
Figure pct00249
(수학식 (22));
- 상관 맵의 L/R 차이 dcmap (수학식 (27));
- 잡음 특성들의 L/R 차이 dnchar (수학식 (29));
- 비-정상성의 L/R 차이 dsta (수학식 (26));
- 스펙트럼 다이버시티의 L/R 차이 dsdiv (수학식 (28));
- 래그 0의 채널간 상관 함수의 비-정규화된 값
Figure pct00250
(수학식 (14));
- 사이드-모노 에너지 비율
Figure pct00251
(수학식 (15));
- 좌측 채널과 모노 신호간 및 우측 채널과 모노 신호간의 내적들의 최대치와 최소치간의 차이 dmmLR (수학식 (19));
- 크로스-채널 상관 함수의 제로-래그값
Figure pct00252
(수학식 (5));
- 채널간 크로스-상관 함수의 진화
Figure pct00253
(수학식 (21));
- 최대 채널간 크로스-상관 함수의 위치
Figure pct00254
(수학식 (11));
- 채널간 상관 함수의 최대치 Rmax (수학식 (10));
- L/M 및 R/M 내적들간의 차이
Figure pct00255
(수학식 (20)); 및
- 사이드 신호와 모노 신호의 에너지들의 평활화된 비율
Figure pct00256
(수학식 (16)).
따라서, XTALK 검출기(110)는 전체 F=17개의 피처들을 이용한다.
훈련 프로세스 전, XTALK 검출기(110)는 17 피처들의 세트를 정규화하는 서브-동작(도시되지 않음)을 수행하는 정규화기(도시되지 않음)을 구비하는데, 그 정규화는 피처들의 세트의 평균을 제거하고, 피처들의 세트를 단위 분산으로 스케일링함에 의해 이루어진다. 정규화기(도시되지 않음)는, 예를 들어, 이하의 수학식을 이용한다:
Figure pct00257
(100)
여기에서, f i,raw 는 세트의 i번째 피처를 나타내고,
Figure pct00258
는 훈련 데이터베이스에 걸쳐 i번째 피처의 글로벌 평균을 나타내며,
Figure pct00259
는 훈련 데이터베이스에 걸쳐 i번째 피처의 글로벌 분산을 나타낸다. 여기에서, 수학식 (100)에 이용되는 파라메타들
Figure pct00260
Figure pct00261
은 수학식 (81)에 이용되는 동일 파라메타들과 다르다.
LogLeg 모델의 출력 yp은 수학식 (82)에 의해 기술되며, 현재 프레임이 크로스-토크 세그먼트 클래스(class 0)에 속할 확률 p(class=0)은 수학식 (83)에 의해 주어진다. 최적 결정 임계치를 발견하기 위한 훈련 프로세스 및 절차의 세부 설명은 상기한 LRTD 스테레오 모드에 있어서의 UNCLR 분류의 설명에서 제공된다. 상술한 바와 같이, 이를 위해, XTALK 검출기(110)는 입력 스테레오 사운드 신호(190)에 있어서의 비상관 스테레오 콘텐츠를 나타내는 스코어를 계산하느 서브-동작(도시되지 않음)을 수행하는 스코어 계산기(도시되지 않음)를 구비한다.
XTALK 검출기(110)의 스코어 계산기(도시되지 않음)는, 예를 들어, 도 10에 도시되고 추가 프로세싱되는 함수로 LogReg 모델의 원시 출력 yp을 정규화한다. 도 9는 LRTD 스테레오 모드에 있어서의 XTALK 검출에 있어서 LogReg 모델의 원시 출력을 스케일링하는 함수를 나타내는 그래프이다. 그러한 정규화는, 아래와 같이 수학적으로 기술될 수 있다:
Figure pct00262
(101)
이전 프레임이 DFT 스테레오 모드로 인코딩되었고 현재 프레임이 LRTD 스테레오 모드로 인코딩되면, LogReg 모델의 정규화된 출력은 0으로 설정된다. 그러한 절차는 스위칭 아티팩트를 방지한다.
8.1.1 상대 프레임 에너지에 기반한 LogReg 출력 가중화
XTALK 검출기(110)의 스코어 계산기(도시되지 않음)는 상대 프레임 에너지 Erl(n)에 기초하여, LogReg 모델의 정규화된 출력
Figure pct00263
을 가중화한다. LRTD 스테레오 모드에 있어서 XTALK 검출기(110)에 적용되는 가중화 기법은, 상술한 바와 같은 LRTD 스테레오 모드에 있어서의 UNCLR 분류기(111)에 적용되는 가중화 기법과 유사하다. 주요한 차이는, 상대 프레임 에너지 Erl(n)가 수학식 (85)에서 처럼 직접 곱셈 인자로서 이용되지 않는다는 것이다. 대신에, XTALK 검출기(110)의 스코어 계산기(도시되지 않음)는 간격 <0;0.95>내로 상대 프레임 에너지 Erl(n)를 반비례(inverse proportion)로 선형적으로 매핑시킨다. 이러한 매핑은, 예를 들어, 이하의 수학식을 이용하여 이루어질 수 있다:
Figure pct00264
(102)
따라서, 보다 높은 상대 에너지를 가진 프레임들에서는, 그 가중치가 0에 가까울 것이고, 반면, 낮은 에너지를 가진 프레임들에서는 그 가중치가 0.95에 가까울 것이다. 그 다음, XTALK 검출기(110)의 스코어 계산기(도시되지 않음)는, 예를 들어, 이하의 수학식을 이용하여, LogReg 모델의 정규화된 출력
Figure pct00265
을 필터링하기 위해 가중치
Figure pct00266
를 이용한다:
Figure pct00267
(103)
여기에서, 인덱스 n은 현재 프레임을 나타내고, n-1은 이전 프레임을 나타낸다.
XTALK 검출기(110)로부터의 정규화되고 가중화된 출력
Figure pct00268
을 입력 스테레오 사운드 신호(190)에 있어서의 크로스-토크를 나타내는 "XTALK 스코어"라고 한다.
8.1.2 상승 에지 검출
LRTD 스테레오 모드에 있어서의 UNCLR 분류에서와 유사한 방식으로, XTALK 검출기(110)의 스코어 계산기(도시되지 않음)는 LogReg 모델의 정규화되고 가중화된 출력
Figure pct00269
을 평활화한다. 그 이유는, 오탐 또는 에러로 결과할 수 있는 간헐적인 단기 "피크들" 및 "‹K(dip)들"을 스미어 제거하기 위한 것이다. 평활화는, 이러한 상승 에지가 입력 스테레오 사운드 신호(190)에 있어서의 크로스-토크와 싱글-토크간의 중요한 천이를 나타내기 때문에, LogReg 출력의 상승 에지를 유지시키도록 고안된다. LRTD 스테레오 모드에 있어서의 XTALK 검출기(110)에 있어서 상승 에지의 검출을 위한 메커니즘은 LRTD 스테레오 모드의 UNCLR 분류와 관련하여 상기한 상승 에지의 검출 메커니즘과 다르다.
XTALK 검출기(110)에 있어서, 상승 에지 검출 알고리즘은 이전 프레임으로부터의 LogReg 출력값을 분석하고, 그들을 다른 경사들을 가진 사전 계산된 "이상적인" 상승 에지들의 세트와 비교한다. "이상적인" 상승 에지들은 프레임 인덱스 n의 선형 함수로서 표현된다. 도 10은 LRTD 스테레오 모드에 있어서의 XTALK 검출기(110)에 있어서 상승 에지들을 검출하는 메커니즘을 도시한 그래프이다. 도 10을 참조하면, x축은 현재 프레임 0에 선행하는 프레임들의 인덱스들 n을 포함한다. 작은 회색 직사각형은 현재 프레임에 선행하는 6개 프레임들 기간에 걸쳐서의 XTALK 스코어
Figure pct00270
의 예시적 출력이다. 도 10으로부터 알 수 있는 바와 같이, XTALK 스코어
Figure pct00271
에서 상승 에지는 현재 프레임 전에 3개의 프레임들에서 시작한다. 점선들은 서로 다른 길이들의 세크먼트들에 대한 "이상적인" 상승 에지들의 세트를 나타낸다.
각각의 "이상적인" 상승 에지에 대하여, 상승 에지 검출 알고리즘은 점선 라인과 XTALK 스코어
Figure pct00272
간의 평균 제곱 오차를 계산한다. 상승 에지 검출 알고리즘의 출력은 테스트된 "이상적인" 상승 에지들간의 최소 평균 제곱 오차이다. 점선으로 표시된 선형 함수는, 각각, 최소치 및 최대치, 즉,
Figure pct00273
Figure pct00274
에 대해 사전 정의된 임계치들에 기초하여 사전 계산된다. 이것은 도 10에서 크고 밝은 회색의 사각형으로 도시된다. 각각의 "이상적인" 상승 에지 선형 함수들의 경사는 최소 및 최대 임계치에 의존하며, 세그먼트의 길이에 의존한다.
이하의 기준을 충족시키는 프레임들에 있어서만 XTALK 검출기(110)에 의해 상승 에지 검출이 수행된다:
Figure pct00275
(104)
여기에서, K는 테스트된 상승 에지의 최대 길이이다.
상승 에지 검출 알고리즘의 출력값은
Figure pct00276
로 나타낸다. 아래첨자 "0_1"의 이용은, 상승 에지 검출의 출력값이 <0;1>내로 제한된다는 사실을 강조한 것이다. 수학식 (104)에 있어서의 기준을 충족하지 못하는 프레임들의 경우, 상승 에지 검출의 출력값은 0으로 바로 설정된다. 즉,
Figure pct00277
(105)
이다.
테스트된 "이상적인" 상승 에지들을 나타내는 선형 함수들의 세트는 수학적으로 이하의 수학식으로 나타낼 수 있다:
Figure pct00278
(106)
여기에서, 인덱스 l은 테스트된 상승 에지의 길이를 나타내고, n-k는 프레임 인덱스이다. 각 선형 함수의 경사는 3개의 파라메타들, 즉, 테스트된 상승 에지의 길이 l, 최소 임계치
Figure pct00279
및 최대 임계치
Figure pct00280
에 의해 결정된다. LRTD 스테레오 모드에 있어서의 XTALK 검출기(110)의 목적을 위해, 임계치들은
Figure pct00281
Figure pct00282
로 설정된다. 이 임계치들의 값은 실험적으로 발견되었다.
테스트된 상승 에지의 각 길이에 대해, 상승 에지 검출 알고리즘은, 예를 들어, 이하의 수학식을 이용하여, 선형 함수 t(수학식 (106))와 XTALK 스코어
Figure pct00283
간의 평균 제곱 오차를 계산한다:
Figure pct00284
(107)
여기에서,
Figure pct00285
은 아래의 수학식에 의해 주어지는 초기 오차이다:
Figure pct00286
(108)
최소 평균 제곱 오차는, 아래의 수학식을 이용하여, XTALK 검출기(110)에 의해 계산된다:
Figure pct00287
(109)
최소 평균 제곱 오차가 낮아지면, 검출된 상승 에지는 강해진다. 비-제한적 구현에 있어서, 최소 평균 제곱 오차가 0.3보다 크면, 상승 에지 검출의 출력은 0으로 설정된다. 즉,
Figure pct00288
(110)
이며, 상승 에지 검출 알고리즘은 중지된다. 모든 다른 경우들에 있어서, 최소 평균 제곱 오차는, 예를 들어, 이하의 수학식을 이용하여, 간격 <0;1>내로 선형적으로 매핑될 수 있다:
Figure pct00289
(111)
상술한 예시에 있어서, 상승 에지 검출의 출력과 최소 평균 제곱 오차간의 관계는 반비례한다.
XTALK 검출기(110)는, 예를 들어, 이하의 수학식을 이용하여 계산된 에지 선예도 파라메타들(edge sharpness parameters)을 생성하기 위하여, 간격 <0,5;0,9>내에서 상승 에지 검출의 출력을 정규화한다:
Figure pct00290
(112)
0,5와 0,9는, 각각, 하한과 상한으로서 이용된다.
마지막으로, XTALK 검출기(110)의 스코어 계산기(도시되지 않음)는, 망각 인자를 대신하여
Figure pct00291
이 이용되는, XTALK 검출기(110)의 IIR 필터에 의해, LogReg 모델의 정규화되고 가중화된 출력
Figure pct00292
을 평활화한다. 그러한 평활화는, 예를 들어, 이하의 수학식을 이용한다:
Figure pct00293
(113)
평활화된 출력
Figure pct00294
(XTALK 스코어)은, 수학식 (77)에서 계산된 대안적인 VAD 플래그가 0인 프레임들에서 0으로 리셋된다. 즉,
Figure pct00295
(114)
이다.
8.2 DFT 스테레오 모드에 있어서의 크로스-토크의 검출
DFT 스테레오 모드에 있어서, 스테레오 사운드 신호(190)를 코딩하는 방법(150)은 크로스 토크(XTALK)를 검출하는 동작(162)을 구비한다. 동작(162)을 수행하기 위하여, 스테레오 사운드 신호(190)를 코딩하는 디바이스(100)는 XTALK 검출기(112)를 구비한다.
DFT 스테레오 모드에 있어서의 XTALK 검출은 LRTD 스테레오 모드에 있어서의 XTALK 검출과 유사하게 실행된다. 로지스틱 회귀(LogReg) 모델은 입력 피처 벡터의 이진 분류에 이용된다. 간단히, LRTD 스테레오 모드에 있어서의 XTALK 검출로부터의 특정 파라메타들의 이름 및 그들과 연관된 수학적 심볼들이 본 섹션에서 또한 이용된다. 아래첨자는 2개의 섹션으로부터의 동일한 파라메타들이 동시에 언급될 때, 애매성을 피하기 위해 추가된다.
이하의 피처들은, 싱글-토그 및 크로스-토크 훈련 데이터베이스에 대해 DFT 스테레오 모드를 실행시킴에 의해 스테레오 사운드 신호(190)를 코딩하기 위한 디바이스(100)로부터 추출된다:
- ILD 이득
Figure pct00296
(수학식 (43));
- IPD 이득
Figure pct00297
(수학식 (48));
- IPD 회전 각도
Figure pct00298
(수학식 (49));
- 예측 이득
Figure pct00299
(수학식 (52));
- 채널간 코히어런스의 평균 에너지
Figure pct00300
(수학식 (55));
- 최대 및 최소 채널내 크기 곱들의 비율
Figure pct00301
(수학식 (57));
- 전체 크로스-채널 스펙트럼 크기
Figure pct00302
(수학식 (41));
- GCC-PHAT 함수의 최대치
Figure pct00303
(수학식 (61));
- GCC-PHAT 함수의 제 1 및 제 2 최고 피크의 크기들간의 관계
Figure pct00304
(수학식 (64));
- GCC-PHAT의 제 2 최고 피크의 크기
Figure pct00305
(수학식 (66)); 및
- 이전 프레임에 있어서의 제 2 최고 피크의 위치에 대한, 현재 프레임에 있어서의 제 2 최고 피크의 위치의 차이
Figure pct00306
(수학식 (67)).
전체적으로, XTALK 검출기(112)는 F=11개의 피처들을 이용한다.
훈련 프로세스 전에, XTALK 검출기(112)는 추출된 피처들의 세트를 정규화하는 서브-동작(도시되지 않음)을 수행하는 정규화기(도시되지 않음)를 구비하는데, 그 정규화는, 예를 들어, 이하의 수학식을 이용하여, 피처들의 세트의 글로벌 평균을 제거하고, 피처들의 세트를 단위 분산으로 스케일링함에 의해 이루어진다:
Figure pct00307
(115)
여기에서, f i,raw 는 세트의 i번째 피처를 나타내고, f i 는 정규화된 i번째 피처이며,
Figure pct00308
는 훈련 데이터베이스에 걸쳐서의 i번째 피처의 글로벌 평균(global mean)이고,
Figure pct00309
는 훈련 데이터베이스에 걸쳐서의 i번째 피처의 글로벌 분산이다. 수학식 (115)에서 이용된 파라메타들
Figure pct00310
Figure pct00311
은 수학식 (81)에서 이용된 것들과 다르다.
LogReg 모델의 출력은 수학식 (82)에 전적으로 설명되며, 현재 프레임이 크로스-토크 세그먼트 클래스(클래스 0)에 속할 확률은 수학식 (83)에 의해 주어진다. 최적 결정 임계치를 발견하기 위한 절차 및 훈련 프로세스의 상세 설명은 상기의 LRTD 스테레오 모드에 있어서의 UNCLR 분류에 대한 섹션에서 제공된다. 다시 그 목적을 위해, XTALK 검출기(112)는 입력 스테레오 사운드 신호(190)에 있어서의 XTALK 검출을 나타내는 스코어를 계산하는 서브 동작(도시되지 않음)을 수행하는 스코어 계산기(도시되지 않음)를 구비한다.
XTALK 검출기(112)의 스코어 계산기(도시되지 않음)는 도 5에 도시되고 추가 프로세싱된 함수를 이용하여, LogReg 모델의 원시 출력 yp을 정규화한다. LogReg 모델의 정규화된 출력은
Figure pct00312
이다. DFT 스테레오 모드에 있어서, 상대적 프레임 에너지에 기초한 가중화는 이용되지 않는다. 그러므로, LogReg 모델의 정규화되고 가중화된 출력, 특히, XTALK 스코어는
Figure pct00313
는 아래에 의해 주어진다:
Figure pct00314
(116)
XTALK 스코어
Figure pct00315
는, 대안적인 VAD 플래그
Figure pct00316
가 0으로 설정되면, 0으로 리셋된다. 이것은 아래와 같이 나타낼 수 있다:
Figure pct00317
(117)
8.2.1 상승 에지 검출
LRTD 스테레오 모드에 있어서의 XTALK 검출의 경우에서 처럼, XTALK 검출기(112)의 스코어 계산기(도시되지 않음)는, 단기 피크들을 제거하기 위하여, XTALK 스코어
Figure pct00318
를 평활화한다. 그러한 평활화는 LRTD 스테레오 모드에 있어서의 XTALK 검출기(110)와 관련하여 기술한 바와 같이, 상승 에지 검출 메커니즘을 이용하는 IIR 필터에 의해 수행된다. XTALK 스코어
Figure pct00319
는, 예를 들어, 이하의 수학식을 이용하는 IIR 필터에 의해 평활화된다:
Figure pct00320
(118)
여기에서,
Figure pct00321
는 수학식 (112)에서 계산된 에지 선예도 파라메타이다.
8.3 이진 XTALK 결정
XTALK 검출기(110/112)의 최종 출력은 이진수이다.
Figure pct00322
은 XTALK 검출기(110/112)의 출력을 나타내며, "1"은 크로스-토크 클래스를 나타내고, "0"은 싱글-토크 클래스를 나타낸다. 출력
Figure pct00323
은 상태 변수로서 여겨질 수 있다. 그것은 0으로 초기화된다. 상태 변수는, 특정 조건들이 충족되는 프레임들에서만 현재 프레임에서 다른 것으로 변경된다. 크로스-토크 클래스 스위칭을 위한 메커니즘은 섹션 7.3에서 상세하게 설명한 비상관 스테레오 콘텐츠에 대한 클래스 스위칭 메커니즘과 유사한다. 그러나, LRTD 스테레오 모드와 DFT 스테레오 모드간에는 차이가 있다. 이러한 차이를 이하에서 설명하겠다.
LRTD 스테레오 모드에 있어서, XTALK 검출기(110)는 도 11에 도시된 바와 같은 크로스-토크 스위칭 메커니즘을 이용한다. 도 11을 참조하면,
- 현재 프레임 n에 있어서의 UNCLR 분류기(111)의 출력
Figure pct00324
이 "1"이면(1101), 현재 프레임 n에 있어서의 XTALK 검출기(110)의 출력
Figure pct00325
의 스위칭은 없다.
- (a) 현재 프레임 n에 있어서의 UNCLR 분류기(111)의 출력
Figure pct00326
이 "0"이고(1101), (b) 이전 프레임 n-1에 있어서의 XTALK 검출기(110)의 출력 c XTALK (n-1)이 "1"이면(1102), 현재 프레임 n에 있어서의 XTALK 검출기(110)의 출력
Figure pct00327
의 스위칭은 없다.
- (a) 현재 프레임 n에 있어서의 UNCLR 분류기(111)의 출력
Figure pct00328
이 "0"이고(1101), (b) 이전 프레임 n-1에 있어서의 XTALK 검출기(110)의 출력 c XTALK (n-1)이 "0"이며(1102), (c) 현재 프레임 n에 있어서의 평활화된 XTALK 스코어
Figure pct00329
가 0.03보다 크지 않으면(1104), 현재 프레임 n에 있어서의 XTALK 검출기(110)의 출력
Figure pct00330
의 스위칭은 없다.
- (a) 현재 프레임 n에 있어서의 UNCLR 분류기(111)의 출력
Figure pct00331
이 "0"이고(1101), (b) 이전 프레임 n-1에 있어서의 XTALK 검출기(110)의 출력 c XTALK (n-1)이 "0"이며(1102), (c) 현재 프레임 n에 있어서의 평활화된 XTALK 스코어
Figure pct00332
가 0.03보다 크고(1104), (d) 이전 프레임 n-1에 있어서의 카운터 cnt sw (n-1)가 "0"보다 크지 않으면(1105), 현재 프레임 n에 있어서의 XTALK 검출기(110)의 출력
Figure pct00333
의 스위칭은 없다.
- (a) 현재 프레임 n에 있어서의 UNCLR 분류기(111)의 출력
Figure pct00334
이 "0"이고(1101), (b) 이전 프레임 n-1에 있어서의 XTALK 검출기(110)의 출력 c XTALK (n-1)이 "0"이며(1102), (c) 현재 프레임 n에 있어서의 평활화된 XTALK 스코어
Figure pct00335
가 0.03보다 크고(1104), (d) 이전 프레임 n-1에 있어서의 카운터 cnt sw (n-1)가 "0"보다 크면(1105), 현재 프레임 n에 있어서의 XTALK 검출기(110)의 출력
Figure pct00336
은 "1"로 스위칭된다(1106).
마지막으로, 현재 프레임 n에 있어서의 카운터 cnt sw (n)는 갱신되고(1107), 그 절차는 다음 프레임에 대해 반복된다(1108).
카운터 cntsw(n)는 UNCLR 분류기(111) 및 XTALK 검출기(110)에 공통이며, 수학식 (97)에 정의된다. 카운터 cntsw(n)의 양의 값은, 상태 변수
Figure pct00337
(XTALK 검출기(110)의 출력
Figure pct00338
)의 스위칭이 허용됨을 나타낸다. 도 11로부터 알 수 있는 바와 같이, 스위칭 로직은 현재 프레임에 있어서의 UNCLR 분류기(111)의 출력
Figure pct00339
(1101)을 이용한다. 그러므로, UNCLR 분류기(111)는, XTALK 검출기(110)가 그의 출력을 이용함에 따라, XTALK 검출기(110) 전에 실행된다고 간주된다. 또한, 도 11의 상태 스위칭 로직은, XTALK 검출기(110)의 출력
Figure pct00340
이 단지 "0"(싱글-토크)에서 "1"(크로스-토크)로 변경될 수 있다는 견지에서, 전방향성이다. 반대 방향, 즉, "1"(크로스-토크)에서 "0"(싱글-토크)으로의 방향에 대한 상태 스위칭 로직은, 본 개시상에서 추후에 설명할 DFT/LRTD 스테레오 모드 스위칭 로직의 일부이다.
DFT 스테레오 모드에 있어서, XTALK 검출기(112)는 다음의 보조 파라메타들을 계산하는 서브-동작(도시되지 않음)을 수행하는 보조 파라메타 계산기(도시되지 않음)를 구비한다. 특히, 크로스-토크 스위칭 메커니즘은, 이하의 보조 파라메타들과, XTALK 검출기(112)의 출력
Figure pct00341
을 이용한다:
- 현재 프레임에 있어서의 VAD(Voice Activity Detection) 플래그(f VAD );
- GCC-PHAT 함수의 제 1 및 제 2 최고 피크들의 크기들
Figure pct00342
(각각 수학식 (61) 및 (66));
- GCC-PHAT 함수의 제 1 및 제 2 최고 피크들에 대응하는 위치들(ITD 값들)
Figure pct00343
(각각, 수학식 (60) 및 38페이지 7 내지 9줄); 및
- DFT 스테레오 무음 플래그
Figure pct00344
(수학식 (78)).
DFT 스테레오 모드에 있어서, XTALK 검출기(112)는 도 12에 도시된 바와 같은 크로스-토크 스위칭 메커니즘을 이용한다. 도 12를 참조하면,
-
Figure pct00345
이 "0"이면(1201),
Figure pct00346
은 "0"으로 스위칭된다(1217);
- (a)
Figure pct00347
이 "0"이 아니고(1201), (b)
Figure pct00348
이 "0"이 아니며(1202),
■ (c)
Figure pct00349
이 "1"이 아니면(1215),
Figure pct00350
의 스위칭은 없다;
■ (c)
Figure pct00351
이 "1"이고(1215), (d)
Figure pct00352
이 "0.0"보다 작지 않으면(1216),
Figure pct00353
의 스위칭은 없다;
■ (c)
Figure pct00354
이 "1"이고(1215), (d)
Figure pct00355
이 "0.0"보다 작으면(1216),
Figure pct00356
은 "0"으로 스위칭된다(1219);
- (a)
Figure pct00357
이 "0"이 아니고(1201), (b)
Figure pct00358
이 "0"이며(1202), (c)
Figure pct00359
가 "1"이 아니고(1203),
■ (d)
Figure pct00360
이 "1"이 아니면(1215),
Figure pct00361
의 스위칭은 없다;
■ (d)
Figure pct00362
이 "1"이고(1215), (e)
Figure pct00363
이 "0.0"보다 작지 않으면(1216),
Figure pct00364
의 스위칭은 없다;
■ (d)
Figure pct00365
이 "1"이고(1215), (e)
Figure pct00366
이 "0.0"보다 작으면(1216),
Figure pct00367
은 "0"으로 스위칭된다(1219);
- (a)
Figure pct00368
이 "0"이 아니고(1201), (b)
Figure pct00369
이 "0"이며(1202), (c)
Figure pct00370
가 "1"이고(1203), (d) 0.8 G ITD (n)
Figure pct00371
보다 작고(1204), (e) 0.8 G ITD (n-1)
Figure pct00372
보다 작고(1205), (f)
Figure pct00373
이 "4.0"보다 작고(1206), (g) G ITD (n)이 "0.15" 보다 크고(1207), (h) G ITD (n-1)이 "0.15"보다 크면(1208),
Figure pct00374
은 "1"로 스위칭된다 (1218);
- (a)
Figure pct00375
이 "0"이 아니고(1201), (b)
Figure pct00376
이 "0"이고(1202), (c)
Figure pct00377
가 "1"이고(1203), (d) 테스트들(1204 내지 1208) 중 임의 테스트가 네거티브이고,
■ (e)
Figure pct00378
이 "0.8"보다 크면(1209),
Figure pct00379
은 "1"로 스위칭된다(1218);
- (a)
Figure pct00380
이 "0"이 아니고(1201), (b)
Figure pct00381
이 "0"이고(1202), (c)
Figure pct00382
가 이고"1"(1203), (d) 테스트들(1204 내지 1208) 중 임의 테스트가 네거티브이고, (e)
Figure pct00383
이 "0.8"보다 크지 않고(1209), (f) f sil (n)이 "1"이 아니고(1210),
■ (g)
Figure pct00384
이 "1"이 아니면(1215),
Figure pct00385
의 스위칭은 없다;
■ (g)
Figure pct00386
이 "1"이고(1215), (h)
Figure pct00387
이 "0.0"보다 작지 않으면(1216),
Figure pct00388
의 스위칭은 없다;
■ (g)
Figure pct00389
이 "1"이고(1215), (h)
Figure pct00390
이 "0.0"보다 작으면(1216),
Figure pct00391
은 "0"으로 스위칭된다(1219);
- (a)
Figure pct00392
이 "0"이 아니고(1201), (b)
Figure pct00393
이 "0"이고(1202), (c)
Figure pct00394
가 "1"이고(1203), (d) 테스트들(1204 내지 1208) 중 임의 테스트가 네거티브이고, (e)
Figure pct00395
이 "0.8"보다 크지 않고(1209), (f) f sil (n)이 "1"이고 (1210), (g)
Figure pct00396
이 "8.0"보다 크고 (1211), (h)
Figure pct00397
이 "-8.0"보다 작으면,
Figure pct00398
은 "1"로 스위칭된다(1218);
- (a)
Figure pct00399
이 "0"이 아니고(1201), (b)
Figure pct00400
이 "0"이고(1202), (c)
Figure pct00401
이 "1"이고(1203), (d) 테스트들(1204 내지 1208) 중 임의 테스트가 네거티브이고, (e)
Figure pct00402
이 "0.8"보다 크지 않고(1209), (f) f sil (n)이 "1"이고(1210), (g) 테스트들(1211 및 1212) 중 임의 테스트가 네거티브이고, (h)
Figure pct00403
이 "8.0"보다 크고(1213), (i)
Figure pct00404
이 "-8.0"보다 작으면(1214),
Figure pct00405
은 "1"로 스위칭된다(1218);
- (a)
Figure pct00406
이 "0"이 아니고(1201), (b)
Figure pct00407
이 "0"이고(1202), (c)
Figure pct00408
이 "1"이고(1203), (d) 테스트들(1204 내지 1208) 중 임의 테스트가 네거티브이고, (e)
Figure pct00409
이 "0.8"보다 크지 않고 (1209), (f) f sil (n)이 "1" 이고(1210), (g) 테스트들(1211 및 1212) 중 임의 테스트가 네거티브이고, (h) 테스트들(1213 및 1214) 중 임의 테스트가 네거티브이고,
■ (i)
Figure pct00410
이 "1"이 아니면(1215),
Figure pct00411
의 스위칭은 없다;
■ (i)
Figure pct00412
이 "1"이고(1215), (j)
Figure pct00413
이 "0.0"보다 작지 않으면(1216),
Figure pct00414
의 스위칭은 없다;
■ (i)
Figure pct00415
이 "1"이고(1215), (j)
Figure pct00416
이 "0.0"보다 작으면(1216),
Figure pct00417
은 "0"로 스위칭된다(1219).
마지막으로, 현재 프레임에 있어서의 카운터
Figure pct00418
는 갱신되고(1220), 그 절차는 다음 프레임에 대해 반복된다(1221).
변수
Figure pct00419
는 LRTD 및 DFT 스테레오 모드들간의 스위칭이 가능한 프레임들의 카운터이다. 이 카운터 cntsw(n)은 UNCLR 분류기(113) 및 XTALK 검출기(112)에 대해 공통이다. 카운터 cntsw(n)는 0으로 초기화되고 수학식 (97)에 따라 각 프레임에 있어서 갱신된다.
9. DFT / LRTD 스테레오 모드 선택
스테레오 사운드 신호(190)를 코딩하는 방법(150)은, LRTD 또는 DFT 스테레오 모드를 선택하는 동작(164)을 구비한다. 동작(164)을 수행하기 위하여, 스테레오 사운드 신호(190)를 코딩하는 디바이스(100)는, XTALK 검출기(110)로부터의 XTALK 검출, UNCLR 분류기(111)로부터의 UNCLR 분류, XTALK 검출기(112)로부터의 XTALK 결정, UNCLR 분류기(113)로부터의 UNCLR 결정을, 한 프레임만큼 지연되게(191) 수신하는 LRTD/DFT 스테레오 모드 선택기(114)를 구비한다.
LRTD/DFT 스테레오 모드 선택기(114)는 UNCLR 분류기(111/113)의 이진 출력
Figure pct00420
과 XTALK 검출기(110/112)의 이진 출력
Figure pct00421
에 기초하여, LRTD 또는 DFT 스테레오 모드를 선택한다. LRTD/DFT 스테레오 모드 선택기(114)는 일부 보조 파라메타들을 고려한다. 이 파라메타들은, 주로, 지각적으로 민감한 세그먼트들에 있어서의 스테레오 모드 스위칭을 방지하거나, UNCLR 분류기(111/113) 및 XTALK 검출기(110/112) 모두가 정확한 출력을 제공하지 않은 세그먼트들에 있어서의 빈번한 스위칭을 방지하는데 이용된다.
LRTD 또는 DFT 스테레오 모드를 선택하는 동작(164)은, 입력 스테레오 사운드 신호의 다운 믹싱과 인코딩 전에, 수행된다. 그 결과, 동작(164)은 도 1의 191에 나타난 바와 같이, 이전 프로레임으로부터의 XTALK 검출기(110/112)와 UNCLR 분류기(111/113)로부터의 출력을 이용한다. LRTD 또는 DFT 스테레오 모드를 선택하는 동작(164)은 도 13의 개략적인 블럭도에서 추가로 설명된다.
이하의 설명에 기술된 바와 같이, 동작(164)에서 이용되는 DFT/LRTD 스테레오 모드 선택 메커니즘은 이하의 서브-동작들을 구비한다:
- 초기 DFT/LRTD 스테레오 모드 선택; 및
- 크로스-토크 콘텐츠의 검출시 LRTD에서 DFT로의 스테레오 모드 스위칭.
9.1 초기 DFT / LRTD 스테레오 모드 선택
DFT 스테레오 모드는 입력 스테레오 사운드 신호(190)의 좌측(L)과 우측(R) 채널간의 높은 채널간 상관으로 싱글-토크 스피치를 인코딩하기 위한 바람직한 모드이다.
LRTD/DFT 스테레오 모드 선택기(114)는, 이전의 프로세싱된 프레임이 "스피치 프레임이었을 가능성이 높은 것(likely a speech frame)"인지를 결정함에 의해 스테레오 모드의 초기 선택을 시작한다. 이것은, 예를 들어, "스피치" 클래스와 "뮤직" 클래스간의 로그-우도 비율을 시험함에 의해, 실행될 수 있다. 로그-우도 비율은 "스피치" 소스에 의해 생성되는 입력 스테레오 사운드 신호 프레임의 로그-우도와 "뮤직" 소스에 의해 생성되는 입력 스테레오 사운드 신호 프레임의 로그-우도간의 절대 차이로서 정의된다. 이하의 수학식은 로그-우도 비율을 계산하는데 이용될 수 있다:
Figure pct00422
(119)
여기에서,
Figure pct00423
은 "스피치" 클래스의 로그-우도이고,
Figure pct00424
은 "뮤직" 클래스의 로그-우도이다.
예시로서, 전체 콘텐츠가 본 명세서에 참조로서 수록된 참고문헌[7]에 기술된 바와 같은 3GPP EVS 코덱으로부터의 GMM(Gaussian Mistture Model)은 "스피치" 클래스의 로그-우도
Figure pct00425
와 "뮤직" 클래스의 로그-우도
Figure pct00426
를 추정하는데 이용될 수 있다. 스피치/뮤직 분류의 다른 방법들은 로그-우도 비율(차분 스코어)
Figure pct00427
를 계산하는데 이용될 수 있다.
로그-우도 비율
Figure pct00428
은, 예를 들어, 이하의 수학식을 이용하여 다른 망각 인자들을 가진 2개의 IIR 필터들로 평활화된다.
Figure pct00429
(120)
여기에서, 윗첨자 (1)은, 제 1 IIR 필터를 나타내고, 윗첨자 (2)는 제 2 IIR 필터를 나타낸다.
평활화된 값들
Figure pct00430
Figure pct00431
은 사전 정의된 임계치와 비교되며, 예를 들어, 이하의 조합된 조건이 충족되면, 새로운 이진 플래그
Figure pct00432
는 1로 설정된다:
Figure pct00433
(121)
플래그
Figure pct00434
=1은, 이전 프레임이 스피치 프레임이었을 가능성이 높다는 표시자이다. 1.0의 임계치는 실험적으로 발견되었다.
초기 DFT/LRTD 스테레오 모드 선택 메커니즘은, 이전 프레임 n-1에 있어서, UNCLR 분류기(111/113)의 이진 출력
Figure pct00435
또는 XTALK 검출기(110/112)의 이진 출력
Figure pct00436
이 1로 설정되고, 이전 프레임이 스피치 프레임이었을 가능성이 높으면, 새로운 이진 플래그
Figure pct00437
를 1로 설정한다. 이것은 아래의 수학식으로 표현될 수 있다:
Figure pct00438
(122)
Figure pct00439
은 현재 프레임 n에 있어서 선택된 스테레오 모드를 나타내는 이산 변수이다. 스테레오 모드는 이전 프레임 n-1로부터의 값으로 각 프레임에서 초기화된다. 즉,
Figure pct00440
(123)
이다.
플래그
Figure pct00441
가 1로 설정되면, 현재 프레임에 있어서의 인코딩을 위해 LRTD 스테레오 모드가 선택된다. 이것은, 아래와 같이 표현될 수 있다:
Figure pct00442
(124)
현재 프레임에 있어서 플래그
Figure pct00443
가 0으로 설정되고, 이전 프레임 n-1에 있어서의 스테레오 모드가 LRTD 스테레오 모드였다면, 예를 들어, 이하의 수학식을 이용하여 현재 프레임 n에 있어서의 스테레오 모드를 선택하기 위하여, LRTD/DFT 스테레오 모드 선택기(114)의 LRTD 에너지 분석 프로세서(1301)로부터의, 이하에 설명할, 보조 스테레오 모드 스위칭 플래그
Figure pct00444
가 분석된다:
Figure pct00445
(125)
보조 스테레오 모드 스위칭 플래그
Figure pct00446
는, LRTD 모드에서만, 매 프레임마다 갱신된다. 파라메타
Figure pct00447
의 갱신은 이하의 설명에서 기술된다.
도 13에 도시된 바와 같이, LRTD/DFT 스테레오 모드 선택기(114)는, 본 개시에 있어서 이하에서 보다 상세하게 설명된 보조 파라메타들
Figure pct00448
,
Figure pct00449
,
Figure pct00450
Figure pct00451
를 생성하기 위해, LRTD 에너지 분석 프로세서(1301)를 구비한다.
현재 프레임에 있어서 플래그
Figure pct00452
가 0으로 설정되고, 이전 프레임에 있어서 스테레오 모드가 DFT 스테레오 모드였다면, 스테레오 모드 스위칭이 수행되지 않으며, DFT 스테레오 모드는 현재 프레임 n에서 선택된다.
9.2 TALK 검출시 LRTD에서 DFT로의 스테레오 모드 스위칭
LRTD 모드에 있어서의 XTALK 검출기(110)는 상기에서 설명되었다. 도 11로부터 알 수 있는 바와 같이, XTALK 검출기(110)의 이진 출력
Figure pct00453
은, 크로스-토크 콘텐츠가 현재 프레임에서 선택될 때, 1로 설정될 수 있다. 결과적으로, 상기에서 설명한 바와 같은 초기 스테레오 모드 선택 로직은, XTALK 검출기(110)가 싱글-토크 콘텐츠를 나타낼 때, DFT 스테레오 모드를 선택할 수 없다. 이것은, 크로스-토크 스테레오 사운드 신호 세그먼트 후에 싱글-토크 스테레오 사운드 신호 세그먼트가 오는 상황에서 LRTD 스테레오 모드의 원치않은 연장(unwanted extension)을 이끌 수 있다. 그러므로, 싱글-토크 콘텐츠의 검출시 LRTD 스테레오 모드에서 DFT 스테레오 모드로 스위칭 백(switching back)하기 위한 추가적인 메커니즘이 구현되었다. 그 메커니즘은 이하의 설명에 기술된다.
이전 프레임 n-1에 있어서 LRTD/DFT 스테레오 모드 선택기(114)가 LRTD 스테레오 모드를 선택하였고, 현재 프레임에 있어서 초기 스테레오 모드 선택이 LRTD 모드를 선택하였으며, 그와 동시에 XTALK 검출기(110)의 이진 출력
Figure pct00454
이 1 이였다면, 스테레오 모드는 LRTD에서 DFT 스테레오 모드로 변경될 수 있다. 후자의 변경은, 예를 들어, 아래에 목록화된 조건들이 충족되면, 허용된다:
Figure pct00455
(126)
상기에서 정의된 조건들의 세트는
Figure pct00456
Figure pct00457
파라메타들에 대한 참조를 포함한다.
Figure pct00458
파라메타는 스테레오 사운드 신호를 코딩하기 위한 디바이스(100)(스테레오 코덱)에 의해 이용되는 전체 비트레이트를 포함하는 고레벨 상수(high-level constant)이다. 그것은, 스테레오 코덱의 초기화동안 설정되고, 인코딩 프로세스동안 변경되지 않은 채 유지된다.
Figure pct00459
파라메타는 프레임 유형에 대한 정보를 포함하는 이산 변수이다.
Figure pct00460
파라메타는, 통상적으로, 스테레오 코덱의 신호 전치 프로세싱의 일부로서 추정된다. 비-제한적 예시로서, 참고문헌[1]에 기술된 바와 같은 3GPP EVS 코덱의 FEC(Frame Erasure Concealment) 모듈로부터의
Figure pct00461
파라메타가 DFT/LRTD 스테레오 모드 선택 메커니즘에 이용될 수 있다. 3GPP EVS 코덱의 FEC 모듈로부터의
Figure pct00462
파라메타는 프레임 소거 은폐(frame erasure concealment)와 디코더 복구 전략을 고려하여 선택된다.
Figure pct00463
파라메타는 이하의 사전 정의된 클래스들의 세트로부터 선택된다:
Figure pct00464
프레임 유형 분류의 다른 수단으로 DFT/LRTD 스테레오 모드 선택 메커니즘을 구현하는 것은 본 개시의 범주내이다.
상기에서 정의된 조건들의 세트(126)에 있어서, 아래의 조건은
Figure pct00465
스테레오 사운드 신호를 코딩하기 위한 디바이스(100)가 DFT 스테레오 모드에서 실행될 때, 다운 믹싱된 모노(M) 채널의 전치 프로세싱동안 계산된
Figure pct00466
파라메타를 지칭한다.
스테레오 사운드 신호를 코딩하기 위한 디바이스(100)가 LRTD 스테레오 모드인 경우, 그 조건은 아래와 같은 조건으로 대체되어야 한다:
Figure pct00467
여기에서, 인덱스 "L" 및 "R"은, 각각, 좌측(L) 채널과 우측(R) 채널의 전치 프로세싱 모듈에서 계산된
Figure pct00468
파라메타를 지칭한다.
파라메타
Figure pct00469
Figure pct00470
는, 각각, LRTD 및 DFT 프레임들의 카운터들이다. 이 카운터들은 매 프레임에서 LRTD 에너지 분석 프로세서(1301)의 일부로서 갱신된다. 2개의 카운터들
Figure pct00471
Figure pct00472
의 갱신은 다음 섹션에서 자세하게 설명될 것이다.
9.3 LRTD 에너지 분석 모듈에서 계산된 보조 파라메타들
스테레오 사운드 신호를 코딩하기 위한 디바이스(100)가 LRTD 스테레오 모드에서 실행되면, LRTD/DFT 스테레오 모드 선택기(114)는 DFT/LRTD 스테레오 모드 선택 메커니즘의 안정성을 개선하기 위해, 여러 보조 파라메타들을 계산 또는 갱신한다.
특정 유형의 프레임들에 대해, LRTD 스테레오 모드는 소위 "TD 서브-모드"로 실행된다. TD 서브-모드는, 통상적으로, LRTD 스테레오 모드에서 DFT 스테레오 모드로의 스위칭 전, 짧은 천이 기간동안에 적용된다. LRTD 스테레오 모드가 TD 서브-모드로 실행될지의 여부는 이진 서브-모드 플래그
Figure pct00473
에 의해 표시된다. 이진 플래그
Figure pct00474
는 보조 파라메타들 중 하나이며, 아래와 같이 각 프레임에서 초기화된다:
Figure pct00475
(127)
여기에서,
Figure pct00476
은 본 섹션에서 추후에 설명할, 상술한 보조 스위칭 플래그이다.
이진 서브-모드 플래그
Figure pct00477
Figure pct00478
인 프레임에서 0 또는 1로 리셋된다.
Figure pct00479
를 리셋하는 조건은, 예를 들어, 아래와 같이 정의된다:
Figure pct00480
Figure pct00481
이면, 이전 서브-모드 플래그
Figure pct00482
는 변경되지 않는다.
LRTD 에너지 분석 프로세서(1301)는 상술한 2개의 카운터
Figure pct00483
Figure pct00484
를 구비한다. 카운터
Figure pct00485
는 보조 파라메타들 중 하나로서, 연속하는 LRTD 프레임들의 수를 카운트한다. 이 카운터는, 스테레오 사운드 신호를 코딩하기 위한 디바이스(100)에서 DFT 스테레오 모드가 선택되었던 매 프레임에서 0으로 설정되며, LRTD 스테레오 모드가 선택되었던 매 프레임에서 1씩 증가된다. 이것은, 아래와 같이 표현될 수 있다:
Figure pct00486
(129)
필수적으로, 카운터
Figure pct00487
는, 마지막 DFT→LRTD 스위칭 포인트로부터의 프레임들의 수를 포함한다. 카운터
Figure pct00488
는 100의 임계치에 의해 제한된다. 카운터
Figure pct00489
는 연속하는 DFT 프레임들의 수를 카운트한다. 카운터
Figure pct00490
는 보조 파라메타들 중 하나로서, 스테레오 사운드 신호를 코딩하기 위한 디바이스(100)에서 LRTD 스테레오 모드가 선택되었던 매 프레임마다 0으로 설정되며, DFT 스테레오 모드가 선택되었던 매 프레임마다 1씩 증가된다. 이것은 아래와 같이 표현될 수 있다.
Figure pct00491
(130)
필수적으로, 카운터
Figure pct00492
는, 마지막 LRTD→DFT 스위칭 포인트로부터의 프레임들의 수를 포함한다. 카운터
Figure pct00493
는 100의 임계치에 의해 제한된다.
LRTD 에너지 분석 프로세서(1301)에서 계산된 마지막 보조 파라메타는 보조 스테레오 모드 스위칭 플래그
Figure pct00494
이다. 이 파라메타는, 매 프레임마다, 아래와 같이 이진 플래그
Figure pct00495
로 초기화된다:
Figure pct00496
(131)
보조 스테레오 모드 스위칭 플래그
Figure pct00497
는, 입력 스테레오 사운드 신호(190)의 좌측(L) 및 우측(R) 채널이 OOP(out-of-phase)일 때, 0으로 설정된다. OOP 검출을 위한 예시적인 방법은, 예를 들어, 전체 콘테츠가 본 명세서에 참조로서 수록된, 참고문헌[8]에서 발견될 수 있다. OOP 상황이 검출되면, 이진 플래그 s2m은 현재 프레임 n에서 1로 설정되고, 그렇지 않으면 0으로 설정된다. 보조 LRTD 스테레오 모드에 있어서 스테레오 모드 스위칭 플래그
Figure pct00498
는, 이진 플래그 s2m이 1로 설정되면, 0으로 설정된다. 이것은, 수학식 (32)로 표현될 수 있다:
Figure pct00499
(132)
이진 플래그 s2m(n)이 0으로 설정되면, 보조 스위칭 플래그
Figure pct00500
는, 예를 들어, 아래와 같은 조건들의 세트에 기초하여, 0으로 리셋될 수 있다:
Figure pct00501
(133)
물론, DFT/LRTD 스테레오 모드 스위칭 메커니즘은 OOP 검출을 위한 다른 방법으로 구현될 수 있다.
보조 스테레오 모드 스위칭 플래그
Figure pct00502
는, 이하의 조건들의 세트에 기초하여, 0으로 리셋될 수 있다:
Figure pct00503
(134)
상기에서 정의된 두 세트의 조건들에 있어서, 아래와 같은 조건
Figure pct00504
은, 스테레오 사운드 신호를 코딩하기 위한 디바이스(100)가 DFT 스테레오 모드에서 실행될 때, 다운-믹싱된 모노(M) 채널의 전치 프로세싱 동안 계산된
Figure pct00505
파라메타를 지칭한다.
스테레오 사운드 신호를 코딩하기 위한 디바이스(100)가 LRTD 스테레오 모드일 때, 그 조건은 아래와 같은 조건으로 대체되어야 한다:
Figure pct00506
여기에서, 인덱스 "L" 및 "R"은, 각각, 좌측(L) 채널 및 우측(R) 채널의 전치 프로세싱동안 계산된
Figure pct00507
파라메타를 나타낸다.
10. 코어 인코더들
스테레오 사운드 신호를 코딩하기 위한 방법(150)은, LRTD 스테레오 모드에 있어서 스테레오 사운드 신호(190)의 좌측 채널(L)을 코어 인코딩하는 동작(115)과, LRTD 스테레오 모드에 있어서, 스테레오 사운드 신호(190)의 우측 채널(R)을 코어 인코딩하는 동작(116) 및 DFT 스테레오 모드에 있어서 스테레오 사운드 신호(190)의 다운-믹싱된 모노(M) 채널을 코어 인코딩하는 동작(117)을 구비한다.
동작(115)을 수행하기 위하여, 스테레오 사운드 신호를 코딩하기 위한 디바이스(100)는, 예를 들어, 모노 코어 인코더와 같은, 코어 인코더(115)를 구비한다. 동작(116)을 수행하기 위하여, 디바이스(100)는, 예를 들어, 모노 코어 인코더와 같은, 코어 인코더(116)를 구비한다. 마지막으로, 동작(167)을 수행하기 위하여, 스테레오 사운드 신호를 코딩하는 디바이스(100)는 스테레오 사운드 신호(190)의 다운-믹싱된 모노(M) 채널을 코딩하도록 DFT 스테레오 모드에서 동작할 수 있는 코어 인코더(117)를 구비한다.
적당한 코어 인코더(115, 116 및 117)를 선택하는 것은 본 기술 분야의 숙련자들의 지식내임을 알 것이다. 따라서, 이러한 인코더는 본 개시에서 추가로 설명하지 않겠다.
11. 하드웨어 구현
도 14는 스테레오 사운드 신호를 코딩하기 위한 상술한 디바이스(100) 및 방법(150)을 형성하는 하드웨어 부품들의 예시적 구성의 간단한 블럭도이다.
스테레오 사운드 신호를 코딩하기 위한 디바이스(100)는 이동 단말의 일부로서, 휴대용 매체 플레이어의 일부로서, 또는 임의 다른 디바이스내에 구현될 수 있다. 디바이스(100)(도 14에서는 1400으로 식별됨)는 입력(1402), 출력(1404), 프로세서(1406) 및 메모리(1408)를 구비한다.
입력(1402)은 도 1의 입력 스테레오 사운드 신호(190)를 디지털 또는 아날로그 형태로 수신하도록 구성된다. 출력(1404)은 출력, 즉, 코딩된 스테레오 사운드 신호를 공급하도록 구성된다. 입력(1402) 및 출력(1404)은 직렬 입력/출력 디바이스와 같은, 공통 모듈로 구현될 수 있다.
프로세서(1406)는 입력(1402), 출력(1404) 및 메모리(1408)에 동작 가능하게 접속된다. 프로세서(1406)는 도 1에 도시된 바와 같이 스테레오 사운드 신호를 코딩하기 위한 디바이스(100)의 여러 부품들의 기능들을 보조하여 코드 명령어들을 실행시키는 하나 이상의 프로세서들로서 실현된다.
메모리(1408)는 프로세서(들)(1406)에 의해 실행될 수 있는 코드 명령어들을 저장하는 비-일시적 메모리, 특히, 비-일시적 명령어들을 구비/저장하는 프로세서-독출 가능 메모리를 구비하며, 비-일시적 명령어들은, 실행되면, 프로세서(들)가 본 개시에 기술된 스테레오 사운드 신호를 코딩하기 위한 방법(150) 및 디바이스(100)의 동작들 및 부품들을 구현하게 한다. 메모리(1408)는 프로세서(들)(1406)에 의해 수행되는 여러 기능들로부터의 중간 프로세싱 데이터를 저장하기 위한 랜덤 액세스 메모리 또는 버퍼(들)를 구비할 수 있다.
본 기술 분야의 숙련자라면, 스테레오 사운드 신호를 코딩하기 위한 디바이스(100) 및 방법(150)의 설명은 단지 예시적이며, 임의 방식으로 제한하기 위한 것은 아님을 알 것이다. 본 개시의 혜택을 가진 본 기술 분야의 숙련자면 다른 실시 예들을 쉽게 제안할 수 있을 것이다. 또한, 스테레오 사운드 신호를 코딩하기 위한, 개시된 디바이스(100) 및 방법(150)은 사운드를 코딩 및 디코딩하는 문제 및 기존의 필요성에 대한 가치있는 해법을 제공하도록 맞춤화될 수 있다.
명확성을 위해, 스테레오 사운드 신호를 코딩하기 위한 디바이스(100) 및 방법(150)의 구현의 일상적인 특징들의 모두를 개시하거나 설명하지는 않았다. 물론, 스테레오 사운드 신호를 코딩하기 위한 디바이스(100) 및 방법(150)의 임의 그러한 실제적 구현의 개발에 있어서, 애플리케이션, 시스템, 네트워크, 사업 관련 제약의 준수와 같은, 개발자의 특정 목표를 달성하기 위해 많은 구현 지정적 결정들이 이루어질 필요가 있으며, 이 특정 목표는 구현마다 및 개발자마다 가변될 것이다. 또한, 개발 노력이 복잡하고 시간 소모적이지만, 그럼에도 불구하고, 본 개시의 혜택을 받은 사운드 프로세싱 분야의 숙련자에게는 일상적인 엔지니어링 작업일 뿐임을 알 것이다.
본 개시에 따르면, 본 명세서에 설명된 소자들, 프로세싱 동작들 및/또는 데이터 구조는 다양한 유형의 운영 시스템들, 컴퓨팅 플랫폼, 네트워크 디바이스, 컴퓨터 프로그램 및/또는 범용 기계를 이용하여 구현될 수 있다. 추가적으로, 본 기술 분야의 숙련자라면, 하드와이어드 디바이스(hardwired device), FPGA(Field Programmable Gate Array), 애플리케이션 지정 집적 회로(ASIC) 등과 같은 덜 범용적인 특성의 디바이스가 이용될 수 있음을 알 것이다. 일련의 동작들 및 서브-동작들을 구비하는 방법이 프로세서, 컴퓨터 또는 머신에 의해 구현되고, 이 동작들 및 서브-동작들이 프로세서, 컴퓨터 또는 머신에 의해 판독 가능한 일련의 비-일시적 코드 명령어들로서 저장되는 경우, 그들은 유형의 및/또는 비-일시적 매체상에 저장된다.
본 명세서에서 설명한, 스테레오 사운드 신호를 코딩하기 위한 디바이스(100) 및 방법(150)은, 소프트웨어, 펌웨어, 하드웨어 또는, 본 명세서에서 설명한 목적에 적합한 소프트웨어, 펌웨어 또는 하드웨어의 조합을 이용할 수 있다.
본 명세서에서 설명한, 스테레오 사운드 신호를 코딩하기 위한 디바이스(100) 및 방법(150)에 있어서, 다양한 동작들 및 서브-동작들은 다양한 순서로 수행될 수 있으며, 그 동작들 및 서브 동작들의 일부는 선택적이다.
본 개시가 상기에서 비-제한적인 예시적 실시 예에 의해 설명되었지만, 이 실시 예들은 본 개시의 사상 및 특성으로부터 벗어나지 않고도 첨부된 청구항들의 범주내에서 자유롭게 수정될 수 있다.
참고문헌들
본 개시는, 전체 콘텐츠가 본 명세서에 참조로서 수록된 이하의 참고문헌들을 언급한다.
Figure pct00508
Figure pct00509

Claims (146)

  1. 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호를 코딩하기 위한 제 1 스테레오 모드 및 제 2 스테레오 모드 중 하나를 선택하는 디바이스로서:
    스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠(uncorrelated stereo content)의 존재 또는 부재를 나타내는 제 1 출력을 생성하는 분류기;
    스테레오 사운드 신호에 있어서 크로스-토크(cross-talk)의 존재 또는 부재를 나타내는 제 2 출력을 생성하는 검출기;
    스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는데 이용하기 위한 보조 파라메타들을 계산하는 분석 프로세서; 및
    제 1 출력, 제 2 출력 및 보조 파라메타에 응답하여 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는 스테레오 모드 선택기를 구비하는
    디바이스.
  2. 제 1 항에 있어서,
    제 1 스테레오 모드는 좌측 및 우측 채널들이 개별적으로 코딩되는 시간-도메인 스테레오 모드이고, 제 2 스테레오 모드는 주파수-도메인 스테레오 모드인
    디바이스.
  3. 제 1 항 또는 제 2 항에 있어서,
    스테레오 사운드 신호의 현재 프레임에 있어서, 스테레오 모드 선택기는 스테레오 사운드 신호의 이전 프레임으로부터의 제 1 출력과 이전 프레임으로부터의 제 2 출력을 이용하는,
    디바이스.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    스테레오 모드 선택기는 제 1 스테레오 모드와 제 2 스테레오 모드 사이에, 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드의 초기 선택을 수행하는,
    디바이스.
  5. 제 4 항에 있어서,
    스테레오 사운드 신호를 코딩하기 위한 스테레오 모드의 초기 선택을 수행하기 위해, 스테레오 모드 선택기는 이전 프레임이 스피치 프레임인지의 여부를 결정하는,
    디바이스.
  6. 제 5 항에 있어서,
    스테레오 사운드 신호를 코딩하기 위한 스테레오 모드의 초기 선택시에, 스테레오 모드 선택기는, 스테레오 사운드 신호의 각 프레임에 있어서, 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 이전 프레임에서 선택된 스테레오 모드로 초기화하는
    디바이스.
  7. 제 5 항 또는 제 6 항에 있어서,
    스테레오 모드의 초기 선택시에, 스테레오 모드 선택기는, (a) 이전 프레임이 스피치 프레임으로서 결정되고 (b) 분류기로부터의 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나, 검출기로부터의 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 스테레오 사운드 신호를 코딩하기 위한 제 1 스테레오 모드를 선택하는
    디바이스.
  8. 제 7 항에 있어서,
    스테레오 사운드 신호를 코딩하기 위한 스테레오 모드의 초기 선택시에, 스테레오 모드 선택기는, (ⅰ) 조건 (a) 및 (b) 중 적어도 하나가 충족되지 않고, (ⅱ) 이전 프레임에서 선택된 스테레오 모드가 제 2 스테레오 모드이면, 스테레오 사운드 신호를 코딩하기 위한 제 2 스테레오 모드를 선택하는,
    디바이스.
  9. 제 7 항 또는 제 8 항에 있어서,
    스테레오 모드의 초기 선택시에, 스테레오 모드 선택기는, (ⅰ) 조건 (a) 및 (b) 중 적어도 하나가 충족되지 않고, (ⅱ) 이전 프레임에서 선택된 스테레오 모드가 제 1 스테레오 모드이면, 보조 파라메타들 중 하나와 관련하여 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는,
    디바이스.
  10. 제 9 항에 있어서,
    하나의 보조 파라메타는 보조 스테레오 모드 스위칭 플래그인
    디바이스.
  11. 제 4 항 내지 제 7 항 중 어느 한 항에 있어서,
    스테레오 모드 선택기는, 스테레오 모드의 초기 선택에 뒤이어, 다수의 주어진 조건들이 충족되면, 스테레오 사운드 신호를 코딩하기 위한 제 2 스테레오 모드를 선택하는,
    디바이스.
  12. 제 11 항에 있어서,
    주어진 조건들은, 이하의 조건들 중 적어도 하나를 구비하는,
    - 제 1 스테레오 모드가 스테레오 사운드 신호의 이전 프레임에서 선택됨;
    - 제 1 스테레오 모드가, 스테레오 사운드 신호의 현재 프레임에서 초기에 선택됨;
    - 현재 프레임에 있어서 검출기의 제 2 출력이 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타냄;
    - (ⅰ) 이전 프레임이 스피치 프레임으로 결정되고, (ⅱ) 분류기로부터의 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나 검출기로부터의 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타냄;
    - 이전 프레임에 있어서, 제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터가 제 1 값보다 더 높음;
    - 이전 프레임에 있어서, 제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터가 제 2 값보다 높음;
    - 이전 프레임에 있어서, 스테레오 사운드 신호의 클래스가 사전 정의된 클래스들의 세트내에 있음; 및
    - (ⅰ) 스테레오 사운드 신호를 코딩하는데 이용되는 전체 비트레이트가 제 3 값 이상이거나, (ⅱ) 검출기로부터의 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 스코어가 이전 프레임에 있어서 제 4 값보다 작음,
    디바이스.
  13. 제 1 항 내지 제 12 항 중 어느 한 항에 있어서,
    분석 프로세서는, 제 1 스테레오 모드에서 제 2 스테레오 모드로의 스위칭 전에, 짧은 천이에 적용되는 서브-모드에서 동작하는 제 1 스테레오 모드를 나타내는 보조 서브-모드 플래그를, 보조 파라메타들 중 하나로서 계산하는
    디바이스.
  14. 제 13 항에 있어서,
    분석 프로세서는, (a) 이전 프레임이 스피치 모드로서 결정되고, (b) 분류기로부터의 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나 검출기로부터의 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 스테레오 사운드 신호의 프레임들에 있어서의 보조 서브-모드 플래그들을 리셋하는
    디바이스.
  15. 제 14 항에 있어서,
    분석 프로세서는, (1) 분석 프로세서에 의해 보조 파라메타로서 계산된 보조 스테레오 모드 스위칭 플래그가 1이고, (2) 이전 프레임의 스테레오 모드가 제 1 스테레오 모드가 아니거나, (3) 제 1 스테레오 모드를 이용하는 프레임들의 카운터가 주어진 값보다 작으면, 스테레오 사운드 신호의 프레임들에 있어서의 보조 서브-모드 플래그를 1로 리셋하는
    디바이스.
  16. 제 15 항에 있어서,
    분석 프로세서는, 조건 (1) 내지 (3)의 어느 것도 충족되지 않으면, 스테레오 사운드 신호의 프레임들에 있어서의 보조 서브-모드 플래그를 0으로 리셋하는
    디바이스.
  17. 제 13 항 내지 제 16 항 중 어느 한 항에 있어서,
    분석 프로세서는, (a) 이전 프레임이 스피치 프레임으로서 결정되는 조건과, (b) 분류기로부터의 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내는 조건 또는 검출기로부터의 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내는 조건 중, 적어도 하나가 충족되면, 스테레오 사운드 신호의 프레임들에 있어서의 보조 서브-모드 플래그를 변경하지 않는
    디바이스.
  18. 제 1 항 내지 제 17 항 중 어느 한 항에 있어서,
    분석 프로세서는, 제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 보조 파라메타들 중 하나로서 구비하는
    디바이스.
  19. 제 18 항에 있어서,
    분석 프로세서는, (a) 이전 프레임이 스피치 모드로서 결정되고, (b) 분류기로부터의 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나, 검출기로부터의 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 증가시키는
    디바이스.
  20. 제 18 항 또는 제 19 항에 있어서,
    분석 프로세서는, 현재 프레임에 있어서 제 2 스테레오 모드가 스테레오 모드 선택기에 의해 선택되면, 제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 0으로 리셋하는
    디바이스.
  21. 제 18 항 내지 제 20 항 중 어느 한 항에 있어서,
    제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터는 상한이 제한되는
    디바이스.
  22. 제 1 항 내지 제 21 항에 있어서,
    분석 프로세서는, 제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를, 보조 파라메타들 중 하나로서, 구비하는
    디바이스.
  23. 제 22 항에 있어서,
    분석 프로세서는, 현재 프레임에 있어서 제 2 스테레오 모드가 선택되면, 제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 증가시키는,
    디바이스.
  24. 제 22 항 또는 제 23 항에 있어서,
    분석 프로세서는, 현재 프레임에 있어서 제 1 스테레오 모드가 스테레오 모드 선택기에 의해 선택되면, 제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 0으로 리셋하는
    디바이스.
  25. 제 22 항 내지 제 24 항 중 어느 한 항에 있어서,
    제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터는 상한이 제한되는
    디바이스.
  26. 제 1 항 내지 제 25 항 중 어느 한 항에 있어서,
    분석 프로세서는, 보조 스테레오 모드 스위칭 플래그를, 보조 파라메타들 중 하나로서 생성하는
    디바이스.
  27. 제 26 항에 있어서,
    분석 프로세서는, (ⅰ) (a) 이전 프레임이 스피치 프레임으로서 결정되고, (b) 분류기로부터의 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나, 검출기로부터의 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 현재 프레임에 있어서의 보조 스테레오 모드 스위칭 플래그를 1로 초기화하고, (ⅱ) 조건 (a) 및 (b) 중 적어도 하나가 충족되지 않으면, 현재 프레임에 있어서의 보조 스테레오 모드 스위칭 플래그를 0으로 초기화하는
    디바이스.
  28. 제 26 항 또는 제 27 항에 있어서,
    분석 프로세서는, 스테레오 사운드 신호의 좌측 및 우측 채널들이 OOP(out-of-phase)이면, 보조 스테레오 모드 스위칭 플래그를 0으로 설정하는,
    디바이스.
  29. 제 10 항 또는 제 15 항에 있어서,
    분석 프로세서는, 보조 스테레오 모드 스위칭 플래그를, 보조 파라메타들 중 하나로서, 생성하는,
    디바이스.
  30. 제 29 항에 있어서,
    분석 프로세서는, (ⅰ) (a) 이전 프레임이 스피치 프레임으로서 결정되고, (b) 분류기로부터의 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나, 검출기로부터의 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 현재 프레임에 있어서의 보조 스테레오 모드 스위칭 플래그를 1로 초기화하고, (ⅱ) 조건 (a) 및 (b) 중 적어도 하나가 충족되지 않으면, 현재 프레임에 있어서의 보조 스테레오 모드 스위칭 플래그를 0으로 초기화하는
    디바이스.
  31. 제 29 항 또는 제 30 항에 있어서,
    분석 프로세서는, 스테레오 사운드 신호의 좌측 및 우측 채널들이 OOP(out-of-phase)이면, 보조 스테레오 모드 스위칭 플래그를 0으로 설정하는,
    디바이스.
  32. 제 1 항 내지 제 31 항 중 어느 한 항에 있어서,
    스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠의 존재 또는 부재를 나타내는 제 1 출력을 생성하는 분류기는 청구항 제 1 항 내지 제 21 항 중 어느 한 항에서 정의된 비상관 스테레오 콘텐츠의 분류기를 구비하는
    디바이스.
  33. 제 1 항 내지 제 32 항 어느 한 항에 있어서,
    스테레오 사운드 신호에 있어서 크로스-토크의 존재 또는 부재를 나타내는 제 2 출력을 생성하는 검출기는, 청구항 제 41 항 내지 제 60 항 중 어느 한 항에 정의된 크로스-토크의 검출기를 구비하는
    디바이스.
  34. 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호를 코딩하기 위한 제 1 스테레오 모드 및 제 2 스테레오 모드 중 하나를 선택하는 디바이스로서,
    적어도 하나의 프로세서; 및
    프로세서에 결합되고, 비-일시적 명령어들을 구비하는 메모리를 구비하되,
    비-일시적 명령어들은, 실행되면, 프로세서가,
    스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠의 존재 또는 부재를 나타내는 제 1 출력을 생성하는 분류기;
    스테레오 사운드 신호에 있어서 크로스-토크(cross-talk)의 존재 또는 부재를 나타내는 제 2 출력을 생성하는 검출기;
    스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는데 이용하기 위한 보조 파라메타들을 계산하는 분석 프로세서; 및
    제 1 출력, 제 2 출력 및 보조 파라메타에 응답하여 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는 스테레오 모드 선택기를
    구현하게 하는
    디바이스.
  35. 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호를 코딩하기 위한 제 1 스테레오 모드 및 제 2 스테레오 모드 중 하나를 선택하는 디바이스로서,
    적어도 하나의 프로세서; 및
    프로세서에 결합되고, 비-일시적 명령어들을 구비하는 메모리를 구비하되,
    비-일시적 명령어들은, 실행되면, 프로세서가,
    스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠의 존재 또는 부재를 나타내는 제 1 출력을 생성하게 하고;
    스테레오 사운드 신호에 있어서 크로스-토크(cross-talk)의 존재 또는 부재를 나타내는 제 2 출력을 생성하게 하고;
    스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는데 이용하기 위한 보조 파라메타들을 계산하게 하고;
    제 1 출력, 제 2 출력 및 보조 파라메타에 응답하여 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하게 하는,
    디바이스.
  36. 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호를 코딩하기 위한 제 1 스테레오 모드 및 제 2 스테레오 모드 중 하나를 선택하는 방법으로서,
    스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠의 존재 또는 부재를 나타내는 제 1 출력을 생성하고;
    스테레오 사운드 신호에 있어서 크로스-토크(cross-talk)의 존재 또는 부재를 나타내는 제 2 출력을 생성하고;
    스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는데 이용하기 위한 보조 파라메타들을 계산하고;
    제 1 출력, 제 2 출력 및 보조 파라메타에 응답하여 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는 것을 구비하는,
    방법.
  37. 제 36 항에 있어서,
    제 1 스테레오 모드는 좌측 및 우측 채널들이 개별적으로 코딩되는 시간-도메인 스테레오 모드이고, 제 2 스테레오 모드는 주파수-도메인 스테레오 모드인
    방법.
  38. 제 36 항 또는 제 37 항에 있어서,
    스테레오 사운드 신호의 현재 프레임에 있어서, 스테레오 모드를 선택하는 것은, 스테레오 사운드 신호의 이전 프레임으로부터의 제 1 출력과 이전 프레임으로부터의 제 2 출력을 이용하는 것을 구비하는,
    방법.
  39. 제 36 항 내지 제 38 항 중 어느 한 항에 있어서,
    스테레오 모드를 선택하는 것은, 제 1 스테레오 모드와 제 2 스테레오 모드 사이에, 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드의 초기 선택을 수행하는 것을 구비하는,
    방법.
  40. 제 39 항에 있어서,
    스테레오 사운드 신호를 코딩하기 위한 스테레오 모드의 초기 선택을 수행하기 위해, 스테레오 모드를 선택하는 것은, 이전 프레임이 스피치 프레임인지의 여부를 결정하는 것을 구비하는,
    방법.
  41. 제 40 항에 있어서,
    스테레오 사운드 신호를 코딩하기 위한 스테레오 모드의 초기 선택시에, 스테레오 모드를 선택하는 것은, 스테레오 사운드 신호의 각 프레임에 있어서, 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 이전 프레임에서 선택된 스테레오 모드로 초기화하는 것을 구비하는,
    방법.
  42. 제 40 항 또는 제 41 항에 있어서,
    스테레오 모드의 초기 선택시에, 스테레오 모드를 선택하는 것은, (a) 이전 프레임이 스피치 프레임으로서 결정되고 (b) 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나, 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 스테레오 사운드 신호를 코딩하기 위한 제 1 스테레오 모드를 선택하는 것을 구비하는
    방법.
  43. 제 42 항에 있어서,
    스테레오 사운드 신호를 코딩하기 위한 스테레오 모드의 초기 선택시에, 스테레오 모드를 선택하는 것은, (ⅰ) 조건 (a) 및 (b) 중 적어도 하나가 충족되지 않고, (ⅱ) 이전 프레임에서 선택된 스테레오 모드가 제 2 스테레오 모드이면, 스테레오 사운드 신호를 코딩하기 위한 제 2 스테레오 모드를 선택하는 것을 구비하는
    방법.
  44. 제 42 항 또는 제 43 항에 있어서,
    스테레오 모드의 초기 선택시에, 스테레오 모드를 선택하는 것은, (ⅰ) 조건 (a) 및 (b) 중 적어도 하나가 충족되지 않고, (ⅱ) 이전 프레임에서 선택된 스테레오 모드가 제 1 스테레오 모드이면, 보조 파라메타들 중 하나와 관련하여 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는 것을 구비하는,
    방법.
  45. 제 44 항에 있어서,
    하나의 보조 파라메타는 보조 스테레오 모드 스위칭 플래그인
    방법.
  46. 제 39 항 내지 제 42 항 중 어느 한 항에 있어서,
    스테레오 모드를 선택하는 것은, 스테레오 모드의 초기 선택에 뒤이어, 다수의 주어진 조건들이 충족되면, 스테레오 사운드 신호를 코딩하기 위한 제 2 스테레오 모드를 선택하는 것을 구비하는,
    방법.
  47. 제 46 항에 있어서,
    주어진 조건들은, 이하의 조건들 중 적어도 하나를 구비하는,
    - 제 1 스테레오 모드가 스테레오 사운드 신호의 이전 프레임에서 선택됨;
    - 제 1 스테레오 모드가, 스테레오 사운드 신호의 현재 프레임에서 초기에 선택됨;
    - 현재 프레임에 있어서의 제 2 출력이 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타냄;
    - (ⅰ) 이전 프레임이 스피치 프레임으로 결정되고, (ⅱ) 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타냄;
    - 이전 프레임에 있어서, 제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터가 제 1 값보다 더 높음;
    - 이전 프레임에 있어서, 제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터가 제 2 값보다 높음;
    - 이전 프레임에 있어서, 스테레오 사운드 신호의 클래스가 사전 정의된 클래스들의 세트내에 있음; 및
    - (ⅰ) 스테레오 사운드 신호를 코딩하는데 이용되는 전체 비트레이트가 제 3 값 이상이거나, (ⅱ) 스테레오 사운드 신호에 있어서의 크로스-토크를 나타내는 스코어가 이전 프레임에 있어서 제 4 값보다 작음,
    방법.
  48. 제 36 항 내지 제 47 항 중 어느 한 항에 있어서,
    보조 파라메타들을 계산하는 것은, 제 1 스테레오 모드에서 제 2 스테레오 모드로의 스위칭 전에, 짧은 천이에 적용되는 서브-모드에서 동작하는 제 1 스테레오 모드를 나타내는 보조 서브-모드 플래그를, 보조 파라메타들 중 하나로서 계산하는 것을 구비하는,
    방법.
  49. 제 48 항에 있어서,
    보조 파라메타들을 계산하는 것은, (a) 이전 프레임이 스피치 모드로서 결정되고, (b) 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 스테레오 사운드 신호의 프레임들에 있어서의 보조 서브-모드 플래그들을 리셋하는 것을 구비하는,
    방법.
  50. 제 49 항에 있어서,
    보조 파라메타들을 계산하는 것은, (1) 보조 파라메타로서 계산된 보조 스테레오 모드 스위칭 플래그가 1이고, (2) 이전 프레임의 스테레오 모드가 제 1 스테레오 모드가 아니거나, (3) 제 1 스테레오 모드를 이용하는 프레임들의 카운터가 주어진 값보다 작으면, 스테레오 사운드 신호의 프레임들에 있어서의 보조 서브-모드 플래그를 1로 리셋하는 것을 구비하는
    방법.
  51. 제 50 항에 있어서,
    보조 파라메타들을 계산하는 것은, 조건 (1) 내지 (3)의 어느 것도 충족되지 않으면, 스테레오 사운드 신호의 프레임들에 있어서의 보조 서브-모드 플래그를 0으로 리셋하는 것을 구비하는
    방법.
  52. 제 48 항 내지 제 51 항 중 어느 한 항에 있어서,
    보조 파라메타들을 계산하는 것은, (a) 이전 프레임이 스피치 프레임으로서 결정되는 조건과, (b) 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내는 조건 또는 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내는 조건 중, 적어도 하나가 충족되면, 스테레오 사운드 신호의 프레임들에 있어서의 보조 서브-모드 플래그를 변경하지 않는 것을 구비하는
    방법.
  53. 제 36 항 내지 제 52 항 중 어느 한 항에 있어서,
    보조 파라메타들을 계산하는 것은, 제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 보조 파라메타들 중 하나로서 계산하는 것을 구비하는
    방법.
  54. 제 53 항에 있어서,
    보조 파라메타를 계산하는 것은, (a) 이전 프레임이 스피치 모드로서 결정되고, (b) 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나, 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 증가시키는 것을 구비하는
    방법.
  55. 제 53 항 또는 제 54 항에 있어서,
    보조 파라메타들을 계산하는 것은, 현재 프레임에 있어서 제 2 스테레오 모드가 선택되면, 제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 0으로 리셋하는 것을 구비하는
    방법.
  56. 제 53 항 내지 제 55 항 중 어느 한 항에 있어서,
    제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터의 상한을 제한하는 것을 구비하는
    방법.
  57. 제 36 항 내지 제 56 항에 있어서,
    보조 파라메타들을 계산하는 것은, 제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를, 보조 파라메타들 중 하나로서, 계산하는 것을 구비하는
    방법.
  58. 제 57 항에 있어서,
    보조 파라메타들을 계산하는 것은, 현재 프레임에 있어서 제 2 스테레오 모드가 선택되면, 제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 증가시키는 것을 구비하는,
    방법.
  59. 제 57 항 또는 제 58 항에 있어서,
    보조 파라메타들을 계산하는 것은, 현재 프레임에 있어서 제 1 스테레오 모드가 선택되면, 제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 0으로 리셋하는 것을 구비하는
    방법.
  60. 제 57 항 내지 제 59 항 중 어느 한 항에 있어서,
    제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터의 상한을 제한하는 것을 구비하는
    방법.
  61. 제 36 항 내지 제 60 항 중 어느 한 항에 있어서,
    보조 파라메타들을 계산하는 것은, 보조 스테레오 모드 스위칭 플래그를, 보조 파라메타들 중 하나로서 생성하는 것을 구비하는
    방법.
  62. 제 61 항에 있어서,
    보조 파라메타들을 계산하는 것은, (ⅰ) (a) 이전 프레임이 스피치 프레임으로서 결정되고, (b) 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나, 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 현재 프레임에 있어서의 보조 스테레오 모드 스위칭 플래그를 1로 초기화하고, (ⅱ) 조건 (a) 및 (b) 중 적어도 하나가 충족되지 않으면, 현재 프레임에 있어서의 보조 스테레오 모드 스위칭 플래그를 0으로 초기화하는 것을 구비하는,
    방법.
  63. 제 61 항 또는 제 62 항에 있어서,
    보조 파라메타들을 계산하는 것은, 스테레오 사운드 신호의 좌측 및 우측 채널들이 OOP(out-of-phase)이면, 보조 스테레오 모드 스위칭 플래그를 0으로 설정하는 것을 구비하는
    방법.
  64. 제 45 항 또는 제 50 항에 있어서,
    보조 파라메타들을 계산하는 것은, 보조 스테레오 모드 스위칭 플래그를, 보조 파라메타들 중 하나로서, 생성하는 것을 구비하는
    방법.
  65. 제 64 항에 있어서,
    보조 파라메타들을 계산하는 것은, (ⅰ) (a) 이전 프레임이 스피치 프레임으로서 결정되고, (b) 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나, 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 현재 프레임에 있어서의 보조 스테레오 모드 스위칭 플래그를 1로 초기화하고, (ⅱ) 조건 (a) 및 (b) 중 적어도 하나가 충족되지 않으면, 현재 프레임에 있어서의 보조 스테레오 모드 스위칭 플래그를 0으로 초기화하는 것을 구비하는
    방법.
  66. 제 64 항 또는 제 65 항에 있어서,
    보조 파라메타들을 계산하는 것은, 스테레오 사운드 신호의 좌측 및 우측 채널들이 OOP(out-of-phase)이면, 보조 스테레오 모드 스위칭 플래그를 0으로 설정하는 것을 구비하는
    방법.
  67. 제 36 항 내지 제 66 항 중 어느 한 항에 있어서,
    스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠의 존재 또는 부재를 나타내는 제 1 출력을 생성하는 것은, 청구항 제 22 항 내지 제 40 항 중 어느 한 항에서 정의된 비상관 스테레오 콘텐츠를 분류하는 방법을 구비하는
    방법.
  68. 제 36 항 내지 제 66 항 어느 한 항에 있어서,
    스테레오 사운드 신호에 있어서 크로스-토크의 존재 또는 부재를 나타내는 제 2 출력을 생성하는 것은, 청구항 제 61 항 내지 제 78 항 중 어느 한 항에 정의된 크로스-토크를 검출하는 방법을 구비하는
    방법.
  69. 좌측 및 우측 채널들을 포함하는 스테레오 사운드 신호로부터 추출된 피처(feature)들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서의 크로스-토크의 검출기로서:
    추출된 피처에 응답하여 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 스코어의 계산기;
    스테레오 사운드 신호에 있어서 크로스-토크를 검출하는데 이용하기 위한 보조 파라메타들의 계산기;
    크로스-토크 스코어 및 보조 파라메타들에 응답하여 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내는 제 1 클래스와 스테레오 사운드 신호에 있어서 크로스-토크의 부재를 나타내는 제 2 클래스간의 스위칭을 위한 클래스 스위칭 메커니즘을 구비하는
    크로스-토크 검출기.
  70. 제 69 항에 있어서,
    크로스-토크의 검출기는 로지스틱 회귀 모델(logistic regression model)에 기반한
    크로스-토크 검출기.
  71. 제 69 항 또는 제 70 항에 있어서,
    좌측 및 우측 채널들이 개별적으로 코딩되는 시간-도메인 스테레오 모드에 있어서, 추출된 피처들은 이하의 피처들 중 적어도 하나를 구비하는,
    - 좌측 채널에 있어서의 FEC(Frame Erasure Concealment) 클래스와 우측 채널에 있어서의 FEC 클래스간의 차이;
    - 좌측 채널의 최대 자기 상관 값과 우측 채널의 최대 자기 상관 값간의 차이;
    - 좌측 채널에 있어서의 LSF(Line Spectral Frequencies) 값들의 합과, 우측 채널에 있어서의 LSF 값들의 합간의 차이;
    - 좌측 채널과 우측 채널간의 잔차 에러 에너지의 차이;
    - 좌측 채널의 상관 맵과 우측 채널의 상관 맵간의 차이;
    - 좌측 채널과 우측 채널간의 잡음 특성들의 차이;
    - 좌측 채널과 우측 채널간의 비-정상성(non-stationarity)의 차이;
    - 좌측 채널과 우측 채널간의 스펙트럼 다이버시티의 차이;
    - 제로 래그의 좌측 및 우측의 채널간 상관 함수의 비-정규화된 값;
    - 좌측 및 우측 채널들의 평균으로서 계산되는 모노 신호의 에너지와 좌측 및 우측 채널들 간의 차이를 이용하여 계산되는 사이드 신호의 에너지간의 비율;
    - (a) 좌측 채널과 모노 신호간의 내적과 우측 채널과 모노 신호간의 내적 중의 최대치와, (b) 좌측 채널과 모노 신호간의 내적과 우측 채널과 모노 신호간의 내적 중의 최소치간의 차이;
    - 제로-래그의 좌측 채널과 우측 채널의 채널간 상관 함수의 값;
    - 채널간 상관 함수의 진화(evolution);
    - 채널간 상관 함수의 최대치의 위치;
    - 채널간 상관 함수의 최대치;
    - 좌측 채널과 모노 신호간의 내적과 우측 채널과 모노 신호간의 내적의 차이; 및
    사이드 신호와 모노 신호의 에너지들간의 평활화 비율,
    크로스-토크 검출기.
  72. 제 69 항 내지 제 71 항 중 어느 한 항에 있어서,
    각 추출된 피처의 정규화기를 구비하되, 정규화기는 추출된 피처들의 평균을 제거하고, 추출된 피처를 추출된 피처의 단위 분산으로 스케일링(scaling)하는,
    크로스-토크 검출기.
  73. 제 69 항 내지 제 72 항에 있어서,
    출력이 추출된 피처들의 선형 조합(linear combination)으로서 계산되는 로지스틱 회귀 모델을 구비하는
    크로스-토크 검출기.
  74. 제 73 항에 있어서,
    스코어 계산기는 로지스틱 회귀 모델의 출력을 정규화하는
    크로스-토크 검출기.
  75. 제 73 항 또는 제 74 항에 있어서,
    스코어 계산기는, 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 스코어를 생성하기 위하여, 현재 프레임의 상대 에너지를 이용하여 로지스틱 회귀 모델의 출력을 가중화하는
    크로스-토크 검출기.
  76. 제 75 항에 있어서,
    스코어 계산기는, 로직스틱 회귀 모델의 출력을 가중화하기 전에, 현재 프레임의 상대 에너지를 주어진 간격에 반비례로 선형적으로 매핑시키는
    크로스-토크 검출기.
  77. 제 75 항 또는 제 76 항에 있어서,
    스코어 계산기는 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 평활화된 스코어를 생성하기 위하여 현재 프레임에 있어서의 상대 에너지의 상승 에지들을 이용하여 로지스틱 회귀 모델의 가중화된 출력을 평활화하는
    크로스-토크 검출기.
  78. 제 69 항 또는 제 70 항에 있어서,
    주파수-도메인 스테레오 코딩 모드에 있어서, 추출된 피처들은 이하의 피처들 중 적어도 하나를 구비하는,
    - ILD(Inter-Channel Level Difference) 이득;
    - IPD(Inter-Channel Phase Difference) 이득;
    - IPD 회전 각도;
    - 좌측 채널과 우측 채널간의 위상 차이를 나타내는 예측 이득;
    - 채널간 코히어런스의 평균 에너지;
    - 최대 및 최소 채널내 크기 곱들의 비율;
    - 전체 크로스-채널 스펙트럼 크기;
    - GCC-PHAT(Generalized Cross-channel Correlation function with Phase Difference)의 최대치;
    - GCC-PHAT의 제 1 및 제 2 최고 피크의 크기들간의 관계;
    - GCC-PHAT의 제 2 최고 피크의 크기; 및
    - 이전 프레임에 있어서의 제 2 최고 피크의 위치에 대한, 현재 프레임에 있어서의 제 2 최고 피크의 위치의 차이,
    크로스-토크 검출기.
  79. 제 69 항, 제 70 항 및 제 78 항 중 어느 한 항에 있어서,
    각 추출된 피처의 정규화기를 구비하며, 정규화기는 추출된 피처의 평균을 제거하고, 추출된 피처를 추출된 피처의 단위 분산으로 스케일링하는
    크로스-토크 검출기.
  80. 제 69 항, 제 70 항, 제 78 항 및 제 79 항 중 어느 한 항에 있어서,
    출력이 추출된 피처들의 선형 조합으로서 계산되는 로지스틱 회귀 모델을 구비하는
    크로스-토크 검출기.
  81. 제 80 항에 있어서,
    스코어 계산기는, 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 평활화된 스코어를 생성하기 위하여, 현재 프레임에 있어서의 상대 에너지의 상승 에지를 이용하여 로지스틱 회귀 모델의 출력을 평활화하는
    크로스-토크 검출기.
  82. 제 69 항 내지 제 81 항 중 어느 한 항에 있어서,
    클래스 스위칭 메커니즘은 제 1 클래스를 나타내는 제 1 값과, 제 2 클래스를 나타내는 제 2 값을 가진 이진 상태 출력을 생성하는
    크로스-토크 검출기.
  83. 제 69 항 내지 제 82 항 중 어느 한 항에 있어서,
    클래스 스위칭 메커니즘은, 크로스-토크 스코어 및 보조 파라메타들을, 제 1 및 제 2 클래스들간의 스위칭을 위해 주어진 값들과 비교하는
    크로스-토크 검출기.
  84. 제 69 항 내지 제 83 항에 있어서,
    좌측 및 우측 채널들이 개별적으로 코딩되는 시간-도메인 스테레오 코딩 모드에 있어서, 보조 파라메타들은, 이하의 파라메타들 중 적어도 하나를 구비하는,
    - 스테레오 사운드 신호의 좌측 및 우측 채널들에 있어서 비상관 스테레오 콘텐츠의 분류기의 출력;
    - 제 1 및 제 2 클래스 중의 한 클래스인, 이전 프레임에 있어서의 클래스 스위칭 메커니즘의 출력; 및
    - 스테레오 모드들간의 스위칭이 가능한 프레임들의 카운터,
    크로스-토크 검출기.
  85. 제 69 항 내지 제 84 항 중 어느 한 항에 있어서,
    주파수-도메인 스테레오 코딩 모드에 있어서, 보조 파라메타들은 이하의 파라메타들 중 적어도 하나를 구비하는,
    - 제 1 및 제 2 클래스들 중 한 클래스인, 이전 프레임에 있어서의 클래스 스위칭 메커니즘의 출력;
    - 현재 프레임에 있어서의 VAD(Voice Activity Dection);
    - 좌측 및 우측 채널들의 복소 크로스-채널 스펙트럼의 GCC-PHAT(Generalized Cross-channel Correlation function with Phase Difference)의 제 1 및 제 2 최고 피크들의 크기들;
    - GCC-PHAT의 제 1 및 제 2 최고 피크들에 대응하는 ITD(Inter-Chnanel Time Difference) 위치들; 및
    - 스테레오 신호 무음 플래그,
    크로스-토크 검출기.
  86. 제 84 항에 있어서,
    스테레오 모드들은 시간-도메인 스테레오 모드와 주파수-도메인 스테레오 모드를 구비하는
    크로스-토크 검출기.
  87. 좌측 및 우측 채널들을 포함하는 스테레오 사운드 신호로부터 추출된 피처(feature)들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서의 크로스-토크의 검출기로서:
    적어도 하나의 프로세서; 및
    프로세서에 결합되며 비-일시적 명령어들을 구비하는 메모리를 구비하되,
    비-일시적 명령어들은, 실행될 때, 프로세서가,
    추출된 피처에 응답하여 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 스코어의 계산기;
    스테레오 사운드 신호에 있어서 크로스-토크를 검출하는데 이용하기 위한 보조 파라메타들의 계산기;
    크로스-토크 스코어 및 보조 파라메타들에 응답하여 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내는 제 1 클래스와 스테레오 사운드 신호에 있어서 크로스-토크의 부재를 나타내는 제 2 클래스간의 스위칭을 위한 클래스 스위칭 메커니즘을 구현하게 하는,
    크로스-토크 검출기.
  88. 좌측 및 우측 채널들을 포함하는 스테레오 사운드 신호로부터 추출된 피처(feature)들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서의 크로스-토크의 검출기로서:
    적어도 하나의 프로세서; 및
    프로세서에 결합되며 비-일시적 명령어들을 구비하는 메모리를 구비하되,
    비-일시적 명령어들은, 실행될 때, 프로세서가,
    추출된 피처에 응답하여 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 스코어를 계산하게 하고;
    스테레오 사운드 신호에 있어서 크로스-토크를 검출하는데 이용하기 위한 보조 파라메타들을 계산하게 하고;
    크로스-토크 스코어 및 보조 파라메타들에 응답하여 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내는 제 1 클래스와 스테레오 사운드 신호에 있어서 크로스-토크의 부재를 나타내는 제 2 클래스간을 스위칭하게 하는
    크로스-토크 검출기.
  89. 좌측 및 우측 채널들을 포함하는 스테레오 사운드 신호로부터 추출된 피처(feature)들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서 크로스-토크를 검출하는 방법으로서:
    추출된 피처에 응답하여 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 스코어를 계산하고;
    스테레오 사운드 신호에 있어서 크로스-토크를 검출하는데 이용하기 위한 보조 파라메타들을 계산하고;
    크로스-토크 스코어 및 보조 파라메타들에 응답하여 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내는 제 1 클래스와 스테레오 사운드 신호에 있어서 크로스-토크의 부재를 나타내는 제 2 클래스간을 스위칭하는 것을 구비하는
    크로스-토크 검출 방법.
  90. 제 89 항에 있어서,
    크로스-토크의 검출은 로지스틱 회귀 모델(logistic regression model)에 기반한
    크로스-토크 검출 방법.
  91. 제 89 항 또는 제 90 항에 있어서,
    좌측 및 우측 채널들이 개별적으로 코딩되는 시간-도메인 스테레오 모드에 있어서, 추출된 피처들은 이하의 피처들 중 적어도 하나를 구비하는,
    - 좌측 채널에 있어서의 FEC(Frame Erasure Concealment) 클래스와 우측 채널에 있어서의 FEC 클래스간의 차이;
    - 좌측 채널의 최대 자기 상관 값과 우측 채널의 최대 자기 상관 값간의 차이;
    - 좌측 채널에 있어서의 LSF(Line Spectral Frequencies) 값들의 합과, 우측 채널에 있어서의 LSF 값들의 합간의 차이;
    - 좌측 채널과 우측 채널간의 잔차 에러 에너지의 차이;
    - 좌측 채널의 상관 맵과 우측 채널의 상관 맵간의 차이;
    - 좌측 채널과 우측 채널간의 잡음 특성들의 차이;
    - 좌측 채널과 우측 채널간의 비-정상성(non-stationarity)의 차이;
    - 좌측 채널과 우측 채널간의 스펙트럼 다이버시티의 차이;
    - 제로 래그의 좌측 및 우측의 채널간 상관 함수의 비-정규화된 값;
    - 좌측 및 우측 채널들의 평균으로서 계산되는 모노 신호의 에너지와 좌측 및 우측 채널들 간의 차이를 이용하여 계산되는 사이드 신호의 에너지간의 비율;
    - (a) 좌측 채널과 모노 신호간의 내적과 우측 채널과 모노 신호간의 내적 중의 최대치와, (b) 좌측 채널과 모노 신호간의 내적과 우측 채널과 모노 신호간의 내적 중의 최소치간의 차이;
    - 제로-래그의 좌측 채널과 우측 채널의 채널간 상관 함수의 값;
    - 채널간 상관 함수의 진화(evolution);
    - 채널간 상관 함수의 최대치의 위치;
    - 채널간 상관 함수의 최대치;
    - 좌측 채널과 모노 신호간의 내적과 우측 채널과 모노 신호간의 내적의 차이; 및
    사이드 신호와 모노 신호의 에너지들간의 평활화 비율,
    크로스-토크 검출 방법.
  92. 제 89 항 내지 제 91 항 중 어느 한 항에 있어서,
    각 추출된 피처를 정규화하는 것을 구비하되, 각 추출된 피처를 정규화하는 것은 추출된 피처들의 평균을 제거하고, 추출된 피처를 추출된 피처의 단위 분산으로 스케일링(scaling)하는 것을 구비하는
    크로스-토크 검출 방법.
  93. 제 89 항 내지 제 92 항에 있어서,
    출력이 추출된 피처들의 선형 조합(linear combination)으로서 계산되는 로지스틱 회귀 모델을 이용하는 것을 구비하는
    크로스-토크 검출 방법.
  94. 제 93 항에 있어서,
    크로스-토크를 나타내는 스코어를 계산하는 것은, 로지스틱 회귀 모델의 출력을 정규화하는 것을 구비하는
    크로스-토크 검출 방법.
  95. 제 93 항 또는 제 94 항에 있어서,
    크로스-토크를 나타내는 스코어를 계산하는 것은, 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 스코어를 생성하기 위하여, 현재 프레임의 상대 에너지를 이용하여 로지스틱 회귀 모델의 출력을 가중화하는 것을 구비하는
    크로스-토크 검출 방법.
  96. 제 95 항에 있어서,
    크로스-토크를 나타내는 스코어를 계산하는 것은, 로직스틱 회귀 모델의 출력을 가중화하기 전에, 현재 프레임의 상대 에너지를 주어진 간격에 반비례로 선형적으로 매핑시키는 것을 구비하는
    크로스-토크 검출 방법.
  97. 제 95 항 또는 제 96 항에 있어서,
    크로스-토크를 나타내는 스코어를 계산하는 것은, 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 평활화된 스코어를 생성하기 위하여 현재 프레임에 있어서의 상대 에너지의 상승 에지들을 이용하여 로지스틱 회귀 모델의 가중화된 출력을 평활화하는 것을 구비하는
    크로스-토크 검출 방법.
  98. 제 89 항 또는 제 90 항에 있어서,
    주파수-도메인 스테레오 코딩 모드에 있어서, 추출된 피처들은 이하의 피처들 중 적어도 하나를 구비하는,
    - ILD(Inter-Channel Level Difference) 이득;
    - IPD(Inter-Channel Phase Difference) 이득;
    - IPD 회전 각도;
    - 좌측 채널과 우측 채널간의 위상 차이를 나타내는 예측 이득;
    - 채널간 코히어런스의 평균 에너지;
    - 최대 및 최소 채널내 크기 곱들의 비율;
    - 전체 크로스-채널 스펙트럼 크기;
    - GCC-PHAT(Generalized Cross-channel Correlation function with Phase Difference)의 최대치;
    - GCC-PHAT의 제 1 및 제 2 최고 피크의 크기들간의 관계;
    - GCC-PHAT의 제 2 최고 피크의 크기; 및
    - 이전 프레임에 있어서의 제 2 최고 피크의 위치에 대한, 현재 프레임에 있어서의 제 2 최고 피크의 위치의 차이,
    크로스-토크 검출 방법.
  99. 제 89 항, 제 90 항 및 제 98 항 중 어느 한 항에 있어서,
    각 추출된 피처를 정규화하는 것을 구비하며, 각 추출된 피처를 정규화하는 것은, 추출된 피처의 평균을 제거하고, 추출된 피처를 추출된 피처의 단위 분산으로 스케일링하는 것을 구비하는
    크로스-토크 검출 방법.
  100. 제 89 항, 제 90 항, 제 98 항 및 제 99 항 중 어느 한 항에 있어서,
    출력이 추출된 피처들의 선형 조합으로서 계산되는 로지스틱 회귀 모델을 이용하는 것을 구비하는
    크로스-토크 검출 방법.
  101. 제 100 항에 있어서,
    크로스-토크를 나타내는 스코어를 계산하는 것은, 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 평활화된 스코어를 생성하기 위하여, 현재 프레임의 상대 에너지의 상승 에지를 이용하여 로지스틱 회귀 모델의 출력을 평활화하는 것을 구비하는
    크로스-토크 검출 방법.
  102. 제 89 항 내지 제 101 항 중 어느 한 항에 있어서,
    제 1 클래스와 제 2 클래스간의 스위칭은 제 1 클래스를 나타내는 제 1 값과, 제 2 클래스를 나타내는 제 2 값을 가진 이진 상태 출력을 생성하는 것을 구비하는
    크로스-토크 검출 방법.
  103. 제 89 항 내지 제 102 항 중 어느 한 항에 있어서,
    제 1 클래스와 제 2 클래스간의 스위칭은, 크로스-토크 스코어 및 보조 파라메타들을, 제 1 및 제 2 클래스들간의 스위칭을 위해 주어진 값들과 비교하는 것을 구비하는
    크로스-토크 검출 방법.
  104. 제 89 항 내지 제 103 항에 있어서,
    좌측 및 우측 채널들이 개별적으로 코딩되는 시간-도메인 스테레오 코딩 모드에 있어서, 보조 파라메타들은, 이하의 파라메타들 중 적어도 하나를 구비하는,
    - 스테레오 사운드 신호의 좌측 및 우측 채널들에 있어서 비상관 스테레오 콘텐츠의 분류기의 출력;
    - 제 1 및 제 2 클래스 중의 한 클래스인, 제 1 클래스와 제 2 클래스간의 스위칭의 출력; 및
    - 스테레오 모드들간의 스위칭이 가능한 프레임들의 카운터,
    크로스-토크 검출 방법.
  105. 제 89 항 내지 제 104 항 중 어느 한 항에 있어서,
    주파수-도메인 스테레오 코딩 모드에 있어서, 보조 파라메타들은 이하의 파라메타들 중 적어도 하나를 구비하는,
    - 제 1 및 제 2 클래스들 중 한 클래스인, 제 1 클래스와 제 2 클래스간의 스위칭의 출력;
    - 현재 프레임에 있어서의 VAD(Voice Activity Dection);
    - 좌측 및 우측 채널들의 복소 크로스-채널 스펙트럼의 GCC-PHAT(Generalized Cross-channel Correlation function with Phase Difference)의 제 1 및 제 2 최고 피크들의 크기들;
    - GCC-PHAT의 제 1 및 제 2 최고 피크들에 대응하는 ITD(Inter-Chnanel Time Difference) 위치들; 및
    - 스테레오 신호 무음 플래그,
    크로스-토크 검출 방법.
  106. 제 104 항에 있어서,
    스테레오 모드들은 시간-도메인 스테레오 모드와 주파수-도메인 스테레오 모드를 구비하는
    크로스-토크 검출 방법.
  107. 좌측 및 우측 채널들을 포함하는 스테레오 사운드 신호로부터 추출된 피처(feature)들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠의 분류기로서:
    추출된 피처에 응답하여 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 나타내는 스코어의 계산기; 및
    스코어에 응답하여 스테레오 사운드 신호에 있어서 비상관 및 상관 스테레오 콘텐츠 들 중 하나를 나타내는 제 1 클래스와, 비상관 및 상관 스테레오 콘텐츠들 중 다른 하나를 나타내는 제 2 클래스간의 스위칭을 위한 클래스 스위칭 메커니즘을 구비하는
    비상관 스테레오 콘텐츠의 분류기.
  108. 제 107 항에 있어서,
    비상관 스테레오 콘텐츠의 분류는 로지스틱 회귀 모델(logistic regression model)에 기반한
    비상관 스테레오 콘텐츠의 분류기.
  109. 제 107 항 또는 제 108 항에 있어서,
    좌측 및 우측 채널들이 개별적으로 코딩되는 시간-도메인 스테레오 모드에 있어서, 추출된 피처들은 이하의 피처들 중 적어도 하나를 구비하는,
    - 좌측 및 우측 채널들의 채널간 크로스-상관 함수의 최대치의 위치;
    - 순시 목표 이득;
    - 제로 래그(zero lag)의 채널간 상관 함수의 절대값의 로그;
    - 좌측 채널과 우측 채널간의 차이에 대응하는 사이드 신호와, 좌측 채널과 우측 채널의 평균에 대응하는 모노 신호간의 사이드-모노간 에너지 비율;
    - (a) 좌측 채널과 모노 신호간의 내적과, 우측 채널과 모노 신호간의 내적중의 최대치와, (b) 좌측 채널과 모노 신호간의 내적과, 우측 채널과 모노 신호간의 내적중의 최소치간의 차이;
    - 좌측 채널과 모노 신호간의 내적과, 우측 채널과 모노 채널간의 내적 간의 로그 도메인에 있어서의 절대차(absolute difference);
    - 크로스-채널 상관 함수의 제로-래그 값; 및
    - 채널간 상관 함수의 진화,
    비상관 스테레오 콘텐츠의 분류기.
  110. 제 107 항 내지 제 109 항 중 어느 한 항에 있어서,
    각 추출된 피처의 정규화기를 구비하되, 정규화기는 추출된 피처들의 평균을 제거하고, 추출된 피처를 추출된 피처의 단위 분산으로 스케일링(scaling)하는,
    비상관 스테레오 콘텐츠의 분류기.
  111. 제 107 항 내지 제 110 항에 있어서,
    출력이 추출된 피처들의 선형 조합(linear combination)으로서 계산되는 로지스틱 회귀 모델을 구비하는
    비상관 스테레오 콘텐츠의 분류기.
  112. 제 111 항에 있어서,
    스코어 계산기는, 비상관 스테레오 콘텐츠를 나타내는 스코어를 생성하기 위하여, 현재 프레임의 상대 에너지를 이용하여 로지스틱 회귀 모델의 출력을 가중화하는
    비상관 스테레오 콘텐츠의 분류기.
  113. 제 112 항에 있어서,
    스코어 계산기는, 비상관 스테레오 콘텐츠를 나타내는 평활화된 스코어를 생성하기 위하여 현재 프레임에 있어서의 상대 에너지의 상승 에지들을 이용하여 로지스틱 회귀 모델의 가중화된 출력을 평활화하는
    비상관 스테레오 콘텐츠의 분류기.
  114. 제 107 항 또는 제 108 항에 있어서,
    주파수-도메인 스테레오 코딩 모드에 있어서, 추출된 피처들은 이하의 피처들 중 적어도 하나를 구비하는,
    - ILD(Inter-Channel Level Difference) 이득;
    - IPD(Inter-Channel Phase Difference) 이득;
    - IPD를 각도 형태로 나타내는 IPD 회전 각도;
    - 예측 이득;
    - ILD와 IPD에 의해 포획되지 않은 좌측 채널과 우측 채널간의 차이를 나타내는 채널간 코히어런스의 평균 에너지;
    - 최대 및 최소 채널내 크기 곱들의 비율;
    - 크로스-채널 스펙트럼 크기; 및
    - GCC-PHAT 함수의 최대치,
    비상관 스테레오 콘텐츠의 분류기.
  115. 제 114 항에 있어서,
    각 추출된 피처의 정규화기를 구비하며, 정규화기는 추출된 피처의 평균을 제거하고, 추출된 피처를 추출된 피처의 단위 분산으로 스케일링하는
    비상관 스테레오 콘텐츠의 분류기.
  116. 제 107 항, 제 108 항, 제 114 항 및 제 115 항 중 어느 한 항에 있어서,
    출력이 추출된 피처들의 선형 조합으로서 계산되는 로지스틱 회귀 모델을 구비하는
    비상관 스테레오 콘텐츠의 분류기.
  117. 제 116 항에 있어서,
    스코어 계산기는, 비상관 스테레오 콘텐츠를 나타내는 스코어를 생성하기 위하여, 현재 프레임의 상대 에너지를 이용하여 로지스틱 회귀 모델의 출력을 가중화하는
    비상관 스테레오 콘텐츠의 분류기.
  118. 제 117 항에 있어서,
    스코어 계산기는, 비상관 스테레오 콘텐츠를 나타내는 평활화된 스코어를 생성하기 위하여, 현재 프레임에 있어서의 상대 에너지의 상승 에지들을 이용하여 로지스틱 회귀 모델의 출력을 평활화하는
    비상관 스테레오 콘텐츠의 분류기.
  119. 제 107 항 내지 제 118 항 중 어느 한 항에 있어서,
    클래스 스위칭 메커니즘은 스테레오 사운드 신호에 있어서 비상관 및 상관 스테레오 콘텐츠 중 하나를 나타내는 제 1 값과, 비상관 및 상관 스테레오 콘텐츠 중 다른 하나를 나타내는 제 2 값을 가진 이진 상태 출력을 생성하는
    비상관 스테레오 콘텐츠의 분류기.
  120. 제 107 항 내지 제 119 항 중 어느 한 항에 있어서,
    클래스 스위칭 메커니즘은, 스코어를, 제 1 및 제 2 클래스들간의 스위칭을 위해 주어진 값들과 비교하는
    비상관 스테레오 콘텐츠의 분류기.
  121. 제 107 항 내지 제 120 항에 있어서,
    제 1 스테레오 모드와 제 2 스테레오 모드간의 스위칭이 가능한 프레임들의 카운터를 구비하는
    비상관 스테레오 콘텐츠의 분류기.
  122. 제 121 항에 있어서,
    제 1 스테레오 모드는 좌측 채널과 우측 채널이 개별적으로 코딩되는 시간-도메인 스테레오 모드이고, 제 2 스테레오 모드는 주파수-도메인 스테레오 모드인,
    비상관 스테레오 콘텐츠의 분류기.
  123. 제 121 항 또는 제 122 항에 있어서,
    클래스 스위칭 메커니즘은 제 1 및 제 2 클래스들간의 스위칭을 위해 스코어 및 카운터에 응답하는,
    비상관 스테레오 콘텐츠의 분류기.
  124. 제 123 항에 있어서,
    스코어는 현재 프레임으로부터이고, 카운터는 이전 프레임으로부터인
    비상관 스테레오 콘텐츠의 분류기.
  125. 제 123 항 또는 제 124 항에 있어서,
    클래스 스위칭 메커니즘은 제 1 및 제 2 클래스들간의 스위칭을 위해 스코어 및 카운터를 주어진 값들과 비교하는
    비상관 스테레오 콘텐츠의 분류기.
  126. 좌측 및 우측 채널들을 포함하는 스테레오 사운드 신호로부터 추출된 피처(feature)들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠의 분류기로서:
    적어도 하나의 프로세서; 및
    프로세서에 결합되고 비-일시적 명령어들을 구비하는 메모리를 구비하되,
    비-일시적 명령어들은, 실행될 때, 프로세서가,
    추출된 피처에 응답하여 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 나타내는 스코어의 계산기; 및
    스코어에 응답하여 스테레오 사운드 신호에 있어서 비상관 및 상관 스테레오 콘텐츠 들 중 하나를 나타내는 제 1 클래스와, 비상관 및 상관 스테레오 콘텐츠들 중 다른 하나를 나타내는 제 2 클래스간의 스위칭을 위한 클래스 스위칭 메커니즘을 구현하게 하는
    비상관 스테레오 콘텐츠의 분류기.
  127. 좌측 및 우측 채널들을 포함하는 스테레오 사운드 신호로부터 추출된 피처(feature)들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠의 분류기로서:
    적어도 하나의 프로세서; 및
    프로세서에 결합되고 비-일시적 명령어들을 구비하는 메모리를 구비하되,
    비-일시적 명령어들은, 실행될 때, 프로세서가,
    추출된 피처에 응답하여 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 나타내는 스코어를 계산하게 하고;
    스코어에 응답하여 스테레오 사운드 신호에 있어서 비상관 및 상관 스테레오 콘텐츠 들 중 하나를 나타내는 제 1 클래스와, 비상관 및 상관 스테레오 콘텐츠들 중 다른 하나를 나타내는 제 2 클래스간을 스위칭하게 하는
    비상관 스테레오 콘텐츠의 분류기.
  128. 좌측 및 우측 채널들을 포함하는 스테레오 사운드 신호로부터 추출된 피처(feature)들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 분류하는 방법으로서:
    추출된 피처에 응답하여 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 나타내는 스코어를 계산하고;
    스코어에 응답하여 스테레오 사운드 신호에 있어서 비상관 및 상관 스테레오 콘텐츠 들 중 하나를 나타내는 제 1 클래스와, 비상관 및 상관 스테레오 콘텐츠들 중 다른 하나를 나타내는 제 2 클래스간을 스위칭하는 것을 구비하는
    비상관 스테레오 콘텐츠의 분류 방법.
  129. 제 128 항에 있어서,
    비상관 스테레오 콘텐츠의 분류는 로지스틱 회귀 모델(logistic regression model)에 기반한
    비상관 스테레오 콘텐츠의 분류 방법.
  130. 제 128 항 또는 제 129 항에 있어서,
    좌측 및 우측 채널들이 개별적으로 코딩되는 시간-도메인 스테레오 모드에 있어서, 추출된 피처들은 이하의 피처들 중 적어도 하나를 구비하는,
    - 좌측 및 우측 채널들의 채널간 크로스-상관 함수의 최대치의 위치;
    - 순시 목표 이득;
    - 제로 래그(zero lag)의 채널간 상관 함수의 절대값의 로그;
    - 좌측 채널과 우측 채널간의 차이에 대응하는 사이드 신호와, 좌측 채널과 우측 채널의 평균에 대응하는 모노 신호간의 사이드-모노간 에너지 비율;
    - (a) 좌측 채널과 모노 신호간의 내적과, 우측 채널과 모노 신호간의 내적중의 최대치와, (b) 좌측 채널과 모노 신호간의 내적과, 우측 채널과 모노 신호간의 내적중의 최소치간의 차이;
    - 좌측 채널과 모노 신호간의 내적과, 우측 채널과 모노 채널간의 내적 간의 로그 도메인에 있어서의 절대차(absolute difference);
    - 크로스-채널 상관 함수의 제로-래그 값; 및
    - 채널간 상관 함수의 진화,
    비상관 스테레오 콘텐츠의 분류 방법.
  131. 제 128 항 내지 제 130 항 중 어느 한 항에 있어서,
    각 추출된 피처를 정규화하는 것을 구비하되, 각 추출된 피처를 정규화하는 것은, 추출된 피처들의 평균을 제거하고, 추출된 피처를 추출된 피처의 단위 분산으로 스케일링(scaling)하는 것을 구비하는
    비상관 스테레오 콘텐츠의 분류 방법.
  132. 제 128 항 내지 제 131 항에 있어서,
    출력이 추출된 피처들의 선형 조합(linear combination)으로서 계산되는 로지스틱 회귀 모델을 이용하는 것을 구비하는
    비상관 스테레오 콘텐츠의 분류 방법.
  133. 제 132 항에 있어서,
    비상관 스테레오 콘텐츠를 나타내는 스코어를 계산하는 것은, 비상관 스테레오 콘텐츠를 나타내는 스코어를 생성하기 위하여, 현재 프레임의 상대 에너지를 이용하여 로지스틱 회귀 모델의 출력을 가중화하는 것을 구비하는,
    비상관 스테레오 콘텐츠의 분류 방법.
  134. 제 133 항에 있어서,
    비상관 스테레오 콘텐츠를 나타내는 스코어를 계산하는 것은, 비상관 스테레오 콘텐츠를 나타내는 평활화된 스코어를 생성하기 위하여 현재 프레임에 있어서의 상대 에너지의 상승 에지들을 이용하여 로지스틱 회귀 모델의 가중화된 출력을 평활화하는 것을 구비하는
    비상관 스테레오 콘텐츠의 분류 방법.
  135. 제 128 항 또는 제 129 항에 있어서,
    주파수-도메인 스테레오 코딩 모드에 있어서, 추출된 피처들은 이하의 피처들 중 적어도 하나를 구비하는,
    - ILD(Inter-Channel Level Difference) 이득;
    - IPD(Inter-Channel Phase Difference) 이득;
    - IPD를 각도 형태로 나타내는 IPD 회전 각도;
    - 예측 이득;
    - ILD와 IPD에 의해 포획되지 않은 좌측 채널과 우측 채널간의 차이를 나타내는 채널간 코히어런스의 평균 에너지;
    - 최대 및 최소 채널내 크기 곱들의 비율;
    - 크로스-채널 스펙트럼 크기; 및
    - GCC-PHAT 함수의 최대치,
    비상관 스테레오 콘텐츠의 분류 방법.
  136. 제 135 항에 있어서,
    각 추출된 피처를 정규화하는 것을 구비하며, 각 추출된 피처를 정규화하는 것은, 추출된 피처의 평균을 제거하고, 추출된 피처를 추출된 피처의 단위 분산으로 스케일링하는 것을 구비하는
    비상관 스테레오 콘텐츠의 분류 방법.
  137. 제 128 항, 제 129 항, 제 135 항 및 제 136 항 중 어느 한 항에 있어서,
    출력이 추출된 피처들의 선형 조합으로서 계산되는 로지스틱 회귀 모델을 이용하는 것을 구비하는
    비상관 스테레오 콘텐츠의 분류 방법.
  138. 제 137 항에 있어서,
    비상관 스테레오 콘텐츠를 나타내는 스코어를 계산하는 것은, 비상관 스테레오 콘텐츠를 나타내는 스코어를 생성하기 위하여, 현재 프레임의 상대 에너지를 이용하여 로지스틱 회귀 모델의 출력을 가중화하는 것을 구비하는
    비상관 스테레오 콘텐츠의 분류 방법.
  139. 제 138 항에 있어서,
    비상관 스테레오 콘텐츠를 나타내는 스코어를 계산하는 것은, 비상관 스테레오 콘텐츠를 나타내는 평활화된 스코어를 생성하기 위하여, 현재 프레임에 있어서의 상대 에너지의 상승 에지들을 이용하여 로지스틱 회귀 모델의 출력을 평활화하는 것을 구비하는
    비상관 스테레오 콘텐츠의 분류 방법.
  140. 제 128 항 내지 제 139 항 중 어느 한 항에 있어서,
    제 1 클래스와 제 2 클래스간의 스위칭은, 스테레오 사운드 신호에 있어서 비상관 및 상관 스테레오 콘텐츠 중 하나를 나타내는 제 1 값과, 비상관 및 상관 스테레오 콘텐츠 중 다른 하나를 나타내는 제 2 값을 가진 이진 상태 출력을 생성하는 것을 구비하는
    비상관 스테레오 콘텐츠의 분류 방법.
  141. 제 128 항 내지 제 140 항 중 어느 한 항에 있어서,
    제 1 클래스와 제 2 클래스간의 스위칭은, 스코어를 주어진 값들과 비교하는 것을 구비하는
    비상관 스테레오 콘텐츠의 분류 방법.
  142. 제 128 항 내지 제 141 항에 있어서,
    제 1 스테레오 모드와 제 2 스테레오 모드간의 스위칭이 가능한 프레임들의 카운터를 구비하는
    비상관 스테레오 콘텐츠의 분류 방법.
  143. 제 142 항에 있어서,
    제 1 스테레오 모드는 좌측 채널과 우측 채널이 개별적으로 코딩되는 시간-도메인 스테레오 모드이고, 제 2 스테레오 모드는 주파수-도메인 스테레오 모드인,
    비상관 스테레오 콘텐츠의 분류 방법.
  144. 제 142 항 또는 제 143 항에 있어서,
    제 1 클래스와 제 2 클래스간의 스위칭은 스코어 및 카운터에 응답하는,
    비상관 스테레오 콘텐츠의 분류 방법.
  145. 제 144 항에 있어서,
    스코어는 현재 프레임으로부터이고, 카운터는 이전 프레임으로부터인
    비상관 스테레오 콘텐츠의 분류 방법.
  146. 제 144 항 또는 제 145 항에 있어서,
    제 1 클래스와 제 2 클래스간의 스위칭은 제 1 및 제 2 클래스들간의 스위칭을 위해 스코어 및 카운터를 주어진 값들과 비교하는 것을 구비하는
    비상관 스테레오 콘텐츠의 분류 방법.
KR1020237011936A 2020-09-09 2021-09-08 사운드 코덱에 있어서 비상관 스테레오 콘텐츠의 분류, 크로스-토크 검출 및 스테레오 모드 선택을 위한 방법 및 디바이스 KR20230066056A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063075984P 2020-09-09 2020-09-09
US63/075,984 2020-09-09
PCT/CA2021/051238 WO2022051846A1 (en) 2020-09-09 2021-09-08 Method and device for classification of uncorrelated stereo content, cross-talk detection, and stereo mode selection in a sound codec

Publications (1)

Publication Number Publication Date
KR20230066056A true KR20230066056A (ko) 2023-05-12

Family

ID=80629696

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237011936A KR20230066056A (ko) 2020-09-09 2021-09-08 사운드 코덱에 있어서 비상관 스테레오 콘텐츠의 분류, 크로스-토크 검출 및 스테레오 모드 선택을 위한 방법 및 디바이스

Country Status (9)

Country Link
US (1) US20240021208A1 (ko)
EP (1) EP4211683A1 (ko)
JP (1) JP2023540377A (ko)
KR (1) KR20230066056A (ko)
CN (1) CN116438811A (ko)
BR (1) BR112023003311A2 (ko)
CA (1) CA3192085A1 (ko)
MX (1) MX2023002825A (ko)
WO (1) WO2022051846A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU5663296A (en) * 1995-04-10 1996-10-30 Corporate Computer Systems, Inc. System for compression and decompression of audio signals fo r digital transmission
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
JP2008513845A (ja) * 2004-09-23 2008-05-01 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声データを処理するシステム及び方法、プログラム要素並びにコンピュータ読み取り可能媒体
US7599840B2 (en) * 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
ES2829413T3 (es) * 2015-05-20 2021-05-31 Ericsson Telefon Ab L M Codificación de señales de audio de múltiples canales

Also Published As

Publication number Publication date
JP2023540377A (ja) 2023-09-22
EP4211683A1 (en) 2023-07-19
WO2022051846A1 (en) 2022-03-17
BR112023003311A2 (pt) 2023-03-21
CA3192085A1 (en) 2022-03-17
US20240021208A1 (en) 2024-01-18
MX2023002825A (es) 2023-05-30
CN116438811A (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
JP6641018B2 (ja) チャネル間時間差を推定する装置及び方法
US8532999B2 (en) Apparatus and method for generating a multi-channel synthesizer control signal, multi-channel synthesizer, method of generating an output signal from an input signal and machine-readable storage medium
US11664034B2 (en) Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal
US11594231B2 (en) Apparatus, method or computer program for estimating an inter-channel time difference
US10825467B2 (en) Non-harmonic speech detection and bandwidth extension in a multi-source environment
Hsu et al. Learning-based personal speech enhancement for teleconferencing by exploiting spatial-spectral features
US11463833B2 (en) Method and apparatus for voice or sound activity detection for spatial audio
CN112233682A (zh) 一种立体声编码方法、立体声解码方法和装置
KR20230066056A (ko) 사운드 코덱에 있어서 비상관 스테레오 콘텐츠의 분류, 크로스-토크 검출 및 스테레오 모드 선택을 위한 방법 및 디바이스
Langjahr et al. Objective quality assessment of target speaker separation performance in multisource reverberant environment
US20230215448A1 (en) Method and device for speech/music classification and core encoder selection in a sound codec
US20220351735A1 (en) Audio Encoding and Audio Decoding
Mahmoodzadeh et al. A hybrid coherent-incoherent method of modulation filtering for single channel speech separation
Farsi et al. A novel method to modify VAD used in ITU-T G. 729B for low SNRs