KR20230066056A - 사운드 코덱에 있어서 비상관 스테레오 콘텐츠의 분류, 크로스-토크 검출 및 스테레오 모드 선택을 위한 방법 및 디바이스 - Google Patents
사운드 코덱에 있어서 비상관 스테레오 콘텐츠의 분류, 크로스-토크 검출 및 스테레오 모드 선택을 위한 방법 및 디바이스 Download PDFInfo
- Publication number
- KR20230066056A KR20230066056A KR1020237011936A KR20237011936A KR20230066056A KR 20230066056 A KR20230066056 A KR 20230066056A KR 1020237011936 A KR1020237011936 A KR 1020237011936A KR 20237011936 A KR20237011936 A KR 20237011936A KR 20230066056 A KR20230066056 A KR 20230066056A
- Authority
- KR
- South Korea
- Prior art keywords
- stereo
- sound signal
- mode
- cross
- uncorrelated
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 110
- 238000000034 method Methods 0.000 title claims description 231
- 230000005236 sound signal Effects 0.000 claims abstract description 286
- 230000004044 response Effects 0.000 claims abstract description 46
- 238000007477 logistic regression Methods 0.000 claims description 78
- 230000000630 rising effect Effects 0.000 claims description 51
- 238000005314 correlation function Methods 0.000 claims description 44
- 230000007246 mechanism Effects 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 37
- 238000004458 analytical method Methods 0.000 claims description 32
- 230000002596 correlated effect Effects 0.000 claims description 26
- 230000003595 spectral effect Effects 0.000 claims description 21
- 238000001228 spectrum Methods 0.000 claims description 21
- 230000000875 corresponding effect Effects 0.000 claims description 18
- 238000009499 grossing Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims 1
- 238000012549 training Methods 0.000 description 46
- 238000004422 calculation algorithm Methods 0.000 description 26
- 238000003708 edge detection Methods 0.000 description 18
- 238000007781 pre-processing Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 13
- 238000012360 testing method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000002156 mixing Methods 0.000 description 10
- 239000000203 mixture Substances 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000010219 correlation analysis Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000012886 linear function Methods 0.000 description 6
- 206010019133 Hangover Diseases 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R27/00—Public address systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
Abstract
본 개시는 입력 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠(이하에서는 "UNCLR 분류" 함)의 분류 및 크로스-토크 검출(이하에서는 "XTALK 검출"이라 함)을 기술한다. 본 개시는 스테레오 모드 선택, 예를 들어, 자동 LRTD/DFT 스테레오 모드 선택을 기술한다. 추가적으로, 본 개시는 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호를 코딩하기 이한 제 1 스테레오 모드와 제 2 스테레오 모드 중 하나를 선택하고, 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호로부터 추출된 피처들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서 크로스-토크를 검출하거나, 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호로부터 추출된 피처에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 분류하기 위해 상기 분류를 이용한다.
Description
본 개시는 사운드 코딩(sound coding)에 관한 것으로, 예를 들어, 복합 오디오 장면에 있어서 낮은 비트-레이트 및 저 지연으로 양호한 사운드 품질을 생성할 수 있는 멀티-채널 사운드 코덱에 있어서 비상관 스테레오 콘텐츠(uncorrelated stereo content)의 분류, 크로스-토크 검출(cross-talk detection) 및 스테레오 모드 선택에 관한 것이지만, 그에 국한되는 것은 아니다.
본 개시에 있어서 및 첨부된 청구항들에 있어서,
- 용어 "사운드"는 스피치(speech), 오디오 및 임의 다른 사운드와 연관될 수 있다.
- 용어 "스테레오"는 "스테레오포닉(stereophonic)"의 약어이다.
- 용어 "모노"는 "모노포닉(monophonic)"의 약어이다.
역사적으로, 대화형 전화(conversational telephony)는 사용자의 귀들 중 한쪽에만 사운드를 출력하도록 단지 하나의 트랜스듀서(transducer)만을 가진 핸드셋(handset)으로 구현되었다. 지난 십년 동안에, 사용자들은 주로 음악을 듣지만 때때로 스피치를 듣기 위해 그들의 두 귀를 통해 사운드를 수신하도록, 헤드폰(headphone)과 함께 그들의 휴대용 핸드셋을 이용하기 시작하였다. 그럼에도, 휴대용 핸드셋이 대화 스피치를 전송하고 수신하는데 이용될 경우, 그 콘텐츠는 여전히 모노로서, 헤드폰 이용시에 사용자의 두 귀에 제시된다.
전체 콘텐츠가 본 명세서에 참조로서 수록되는 참고문헌 [1]에 기술된 바와 같은, 최신 3GPP 스피치 코딩 표준 EVS(Enhanced Voice Service)에 따라, 휴대용 핸드셋을 통해 송수신되는, 예를 들어, 스피치 및/또는 오디오와 같은 코딩된 사운드의 품질은 크게 개선되었다. 다음의 자연스러운 단계는, 수신기가 통신 링크의 타측 단부에서 포획되는 오디오 장면을 가능한 실제와 가깝게 수신하도록 스테레오 정보를 전송하는 것이다.
예를 들어, 전체 콘텐츠가 본 명세서에 참조로서 수록된 참고문헌 [2]에 기술된 바와 같은, 오디오 코덱에서는, 스테레오 정보의 전송이 통상적으로 이용된다.
대화 스피치 코덱들의 경우, 모노 신호가 일반적이다. 스테레오 사운드 신호가 전송되면, 비트-레이트가 2배로 되는데, 이는 스테레오 사운드 신호의 좌우측 채널들이 모노 코덱을 이용하여 코딩되기 때문이다. 대부분의 시나리오에서는 이것이 잘 되고 있지만, 비트-레이트의 배증(doubling) 및 2 채널들(스테레오 사운드 신호의 좌우측 채널들)간의 임의 잠재적 중복성을 활용하지 못하는다는 단점을 드러낸다. 또한, 전체 비트-레이트를 적정한 레벨로 유지시키기 위해, 좌우측 채널들의 각각에 대해 매우 낮은 비트-레이트가 이용되며, 이에 따라 전체 사운드 품질에 영향을 준다. 비트-레이트를 줄이기 위해, 효율적인 스테레오 코딩 기법들이 개발되어 이용되고 있다. 비 제한적 예시로서, 낮은 비트-레이트에서 효율적으로 이용될 수 있는 2가지 스테레오 코딩 기법들이 이하의 문단들에서 논의된다.
제 1 스테레오 코딩 기법은 파라메트릭 스테레오(parametric stereo)라 불리운다. 파라메트릭 스테레오는 스테레오 이미지를 나타내는 (스테레오 파라메타들에 대응하는) 특정 량의 스테레오 사이드 정보(stereo side information)와 통상적인 모노 코덱을 이용하여 2개의 입력들(좌우측 채널들)을 모노 신호들로서 인코딩한다. 2개의 입력 좌측 및 우측 채널들이 모노 신호로 다운-믹싱(down mix)되고, 그 다음, 통상적으로, 스테레오 파라메타들이 계산된다. 이것은, 통상적으로, 예를 들어, DFT(Discrete Fourier Transform) 도메인과 같은 주파수-도메인(FD: Frequency Domain)에서 수행된다. 스테레오 파라메타들은 소위 양이 또는 채널간 단서(binaural or inter-channel cues)와 연관된다. 양이 단서(예를 들어, 그의 전체 콘텐츠가 본 명세서에 참고로서 수록되는 참고문헌 [3]을 참조)는 ILD(Interaural Level Difference), ITD(Interaural Time Difference) 및 IC(Interaural Correlation)를 구비한다. 스테레오 장면 구성 등과 같은 사운드 신호 특성에 의거하여, 양이 단서의 일부 또는 전부가 코딩되어 디코더에 전송된다. 무슨 양이 단서가 코딩되어 전송되는지에 대한 정보가, 통상적으로 스테레오 사이드 정보의 일부인 시그널링 정보(signalling information)로서 송신된다. 주어진 양이 단서가 다른 코딩 기법들을 이용하여 양자화됨으로써, 결과적으로 가변하는 개수의 비트들이 이용될 수 있게 된다. 그 다음, 양자화된 양이 단서에 추가하여, 스테레오 사이드 정보는, 다운-믹싱으로부터 결과하는 양자화된 잔차 신호를, 통상적으로, 중고 비트레이트(medium and higher bitrate)로 포함한다. 잔차 신호는, 예를 들어, 산술 인코더(arithmetric encoder)와 같은, 엔트로피 코딩 기법(entropy coding technique)을 이용하여 코딩될 수 있다. 본 개시의 나머지에 있어서, 파라메트릭 스테레오 인코딩 기술은, "DFT 스테레오"로서 지칭될 것인데, 이는 파라메타트릭 스텔오 인코딩 기술이 통상적으로, 주파수-도메인(frequency domain)에서 동작하며, 본 개시는 DFT를 이용한 비제한적 실시 예를 기술할 것이기 때문이다.
또 다른 스테레오 코딩 기법은 시간-도메인(time-domain)에서 작용하는 기법이다. 이 스테레오 코딩 기법은 2개의 입력들(좌우 채널들)을 소위 주 채널(primary channel)과 부 채널(secondary channel)로 믹싱한다. 예를 들어, 참고문헌 [4](그의 전체 콘텐츠는 본 명세서에 참고로서 수록됨)에 설명된 방법에 따르면, 시간-도메인 믹싱은 주 채널과 부 채널의 생성시에 2개의 입력들(좌우측 채널들)의 각 기여를 결정하는, 믹싱 비율에 기반할 수 있다. 믹싱 비율은, 예를 들어, 모노 신호에 대한 2개의 입력들(좌우측 채널들)의 정규 상관(normalized correlation) 또는 2개의 입력들(좌우측 채널들)간의 장기 상관 차이(long term correlation difference)와 같은, 여러 메트릭들(metrics)로부터 도출된다. 주 채널은 통상적인 모노 코덱에 의해 코딩될 수 있는 반면, 부 채널은 낮은 비트-레이트 코덱에 의해 코딩될 수 있다. 부 채널 코딩은 주 채널과 부 채널간의 코히어런스(coherence)를 활용할 수 있으며, 주 채널로부터의 일부 파라메타들을 재사용할 수 있다. 좌측 및 우측 채널들이 상관을 거의 나타내지 않은 특정 사운드에서는, 시간-도메인에서 스테레오 입력 신호의 좌측 채널 및 우측 채널을 개별적으로 또는 최소의 채널간 파라메타화(minimum inter-channel parametrization)로 인코딩하는 것이 보다 좋다. 인코더에 있어서의 그러한 방식은 시간-도메인 TD 스테레오의 특정한 경우이며, 본 개시의 전반에 걸쳐 이를 "LRTD 스테레오"라고 지칭할 것이다.
추가로, 최근 몇 년에 있어서, 오디오의 생성, 녹음(recording), 표시, 코딩, 전송 및 재생은 청취자에 대한 향상되고, 상호 작용적(interactive)이며 몰입적인 체험으로 가고 있는 중이다. 몰입형 체험은, 사운드들이 모든 방향으로부터 오고 있는 동안 예를 들어, 사운드 장면에 깊게 몰두하거나 수반되는 상태로서 설명될 수 있다. 몰입형 오디오(3D(Dimensional) 오디오라고 함)에 있어서, 사운드 이미지는, 음색, 지향성, 반향, 투명성(transparency) 및 (청각적) 공간감의 정확성과 같은 광범위한 사운드 특성들을 고려하여, 청취자 둘레에 3차원으로 재생된다. 몰입형 오디오는 라우드스피커 기반 시스템(loudspeaker-based-system), 집적화된 재생 시스템(사운드 바(sound bar)) 또는 헤드폰과 같은, 특정 사운드 재생 시스템을 위해 생성된다. 그 다음, 사운드 재생 시스템의 상호 작용(interactivity)은, 예를 들어, 사운드 레벨을 조정하거나, 사운드의 위치를 변경하거나 재생을 위한 다른 언어를 선택하는 기능을 포함할 수 있다.
몰입형 체험을 달성하기 위한 3가지 기본적인 방식들이 존재한다.
몰입형 체험을 달성하기 위한 제 1 방식은, 다른 방향들로부터의 사운드들을 포획하기 위해 다수의 이격된 마이크로폰들을 이용하는 채널-기반 오디오 방식으로서, 그 방식에서는 하나의 마이크로폰이 특정 라우드스피커 레이아웃(layout)에 있어서의 하나의 오디오 채널에 대응한다. 그 다음, 각각의 녹음된 채널이 주어진 위치에 있는 라우드스피커로 공급된다. 예를 들어, 채널-기반 오디오 방식들은 스테레오, 5.1 서라운드, 5.1+4 등이다.
몰입형 체험을 달성하기 위한 제 2 방식은, 국소 공간(localized space)에 걸쳐서 원하는 사운드 필드를 차원 성분들의 조합에 의해 시간의 함수로서 나타내는 장면-기반 오디오 방식이다. 장면-기반 오디오를 나타내는 사운드 신호들은 오디오 신호의 위치들에 독립적이지만, 그 사운드 필드는 렌더러(renderer)에서 라우드스피커들의 선택된 레이아웃으로 변환된다. 예를 들어, 장면-기반 오디오는 엠비소닉(ambisonic)들이다.
몰입형 체험을 달성하기 위한 제 3 방식은, 청각 장면을, 개별적인 오디오 요소들(예를 들어, 가수, 드럼, 기타 등)의 위치와 같은 정보를 수반한 그 개별적인 오디오 요소들의 세트로서 나타내는 객체-기반 오디오 방식이며, 그들은 그들의 의도된 위치에서 사운드 재생 시스템에 의해 렌더링될 수 있다. 이것은 객체-기반 오디오 방식에 상당한 가요성 및 상호 작용성을 제공하는데, 이는 각 객체가 이산된 채로 유지되고 개별적으로 조작될 수 있기 때문이다.
몰입형 체험을 달성하기 위한 상술한 오디오 방식들의 각각은 장단점이 있다. 따라서, 단지 하나의 오디오 방식 대신에, 몰입형 청각 장면을 생성하기 위해 복합 오디오 시스템에 여러 오디오 방식들이 조합되는 것이 일반적이다. 예를 들어, 약간의 이산 오디오 객체들과 엠비소닉을 조합하는 것과 같이, 객체-기반 오디오와 장면-기반 또는 채널-기반 오디오를 조합하는 오디오 시스템이 있을 수 있다.
또한, 최근 몇 년동안, 3GPP(3rd Generation Partnership Project)는 EVS 코덱에 기반하여, IVAS(Immersive Voice and Audio Services)라고 하는, 몰입형 서비스를 위한 3D(Three-Dimensional) 사운드 코덱을 개발하는 작업을 시작하였다 (전체 콘텐츠가 본 명세서에 참조로서 수록되는 참고문헌 [5] 참조).
DFT 스테레오 모드는 싱글-토크 발화(single-talk utterance)를 코딩하는데 효율적이다. 2 이상의 스피커들의 경우, 파라메트릭 스테레오 기술이 장면의 공간적 성질들을 완전히 기술하는 것은 어렵다. 이 문제는, 특히, 2명의 화자들이 동시에 말할 때(크로스-토크(cross-talk) 시나리오) 및 스테레오 입력 신호의 좌측 채널 및 우측 채널에 있어서의 신호들이 약하게 상관되거나 완전히 비상관될 때, 분명하다. 그 상황에서는, 시간-도메인에서 스테레오 입력 신호의 좌측 채널과 우측 채널을, LRTD 스테레오 모드를 이용하여 개별적으로 또는 최소의 채널간 파라메타화로 인코딩하는 것이 더 좋다. 스테레오 입력 신호에 포획된 장면이 진전됨에서 따라, 스테레오 장면 분류에 기반하여 DFT 스테레오 모드와 LRTD 스테레오 모드간의 스위칭(switching)을 수행하는 것이 바람직하다.
제 1 측면에 따르면, 본 개시는 좌측 및 우측 채널을 포함하는 스테레오 사운드 신호로부터 추출된 피처(feature)들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 분류하기 위한 방법에 관한 것으로, 그 방법은, 추출된 피처들에 응답하여 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 나타내는 스코어(score)를 계산하고; 및 그 스코어에 응답하여, 스테레오 사운드 신호에 있어서 비상관 및 상관 스테레오 콘텐츠 중 하나를 나타내는 제 1 클래스(class)와 비상관 및 상관 스테레오 콘텐츠 중 다른 하나를 나타내는 제 2 클래스간의 스위칭을 수행하는 것을 구비한다.
제 2 측면에 따라면, 본 개시는 좌측 및 우측 채널을 포함하는 스테레오 사운드 신호로부터 추출된 피처들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 분류하는 분류기를 제공하며, 그 분류기는, 추출된 피처들에 응답하여 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 나타내는 스코어(score)를 계산하는 계산기; 및 그 스코어에 응답하여, 스테레오 사운드 신호에 있어서 비상관 및 상관 스테레오 콘텐츠 중 하나를 나타내는 제 1 클래스(class)와 비상관 및 상관 스테레오 콘텐츠 중 다른 하나를 나타내는 제 2 클래스간의 스위칭을 수행하는 클래스 스위칭 메커니즘을 구비한다.
또한, 본 개시는 좌측 및 우측 채널을 포함하는 스테레오 사운드 신호로부터 추출된 피처들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서의 크로스-토크를 검출하는 방법과 관련이 있는데, 그 방법은, 추출된 피처들에 응답하여 스테레오 사운드 신호에 있어서의 크로스-토크를 나타내는 스코어를 계산하고; 스테레오 사운드 신호에 있어서의 크로스-토크를 검출하는데 이용하기 위한 보조 파라메타들을 계산하고; 및 크로스-토크 스코어 및 보조 파라메타들에 응답하여, 스테레오 사운드 신호에 있어서의 크로스-토크의 존재를 나타내는 제 1 클래스(class)와 스테레오 사운드 신호에 있어서의 크로스-토크의 부재를 나타내는 제 2 클래스간의 스위칭을 수행하는 것을 구비한다.
추가적인 실시 예에 따르면, 본 개시는 좌측 및 우측 채널을 포함하는 스테레오 사운드 신호로부터 추출된 피처들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서의 크로스-토크를 검출하는 검출기를 제공하는데, 그 검출기는, 추출된 피처들에 응답하여 스테레오 사운드 신호에 있어서의 크로스-토크를 나타내는 스코어를 계산하는 계산기; 스테레오 사운드 신호에 있어서의 크로스-토크를 검출하는데 이용하기 위한 보조 파라메타들을 계산하는 계산기; 및 크로스-토크 스코어 및 보조 파라메타들에 응답하여, 스테레오 사운드 신호에 있어서의 크로스-토크의 존재를 나타내는 제 1 클래스(class)와 스테레오 사운드 신호에 있어서의 크로스-토크의 부재를 나타내는 제 2 클래스간의 스위칭을 수행하는 클래스 스위칭 메커니즘을 구비한다.
또한, 본 개시는 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호를 코딩하기 위한 제 1 스테레오 모드와 제 2 스테레오 모드 중 하나를 선택하는 방법과 관련이 있는데, 그 방법은, 스테레오 사운드 신호에 있어서의 비상관 스테레오 콘텐츠의 존재 또는 부재를 나타내는 제 1 출력을 생성하고; 스테레오 사운드 신호에 있어서의 크로스-토크의 존재 또는 부재를 나타내는 제 2 출력을 생성하고; 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는데 이용하기 위한 보조 파라메타들을 계산하고; 및 제 1 출력, 제 2 출력 및 보조 파라메타들에 응답하여 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는 것을 구비한다.
다른 추가적인 측면에 따르면, 본 개시는 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호를 코딩하기 위한 제 1 스테레오 모드와 제 2 스테레오 모드 중 하나를 선택하는 디바이스를 제공하며, 그 디바이스는, 스테레오 사운드 신호에 있어서의 비상관 스테레오 콘텐츠의 존재 또는 부재를 나타내는 제 1 출력을 생성하는 분류기; 스테레오 사운드 신호에 있어서의 크로스-토크의 존재 또는 부재를 나타내는 제 2 출력을 생성하는 검출기; 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는데 이용하기 위한 보조 파라메타들을 계산하는 분석 프로세서; 및 제 1 출력, 제 2 출력 및 보조 파라메타들에 응답하여 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는 스테레오 모드 선택기를 구비한다.
비상관 스테레오 콘텐츠 분류기 및 분류 방법, 크로스-토크 검출기 및 검출 방법, 스테레오 모드 선택 디바이스 및 방법의 상술한 및 다른 목적들, 장점들 및 특징들은, 첨부 도면들을 참조하여 단지 예시적으로 제공된, 예시적인 실시 예들의 이하의 비제한적 설명을 읽으면, 보다 명확하게 될 것이다.
첨부 도면에 있어서,
도 1은 스테레오 사운드 신호를 코딩하는 디바이스와, 스테레오 사운드 신호를 코딩하는 대응 방법을 동시에 도시한 개략적인 블럭도이고;
도 2는 2개의 대향하는 스피커들이 한 쌍의 초지향성 마이크로폰(hypercardioid microphone)들에 의해 포획되는, 크로스-토크 장면의 평면을 보여주는 개략적인 도면이고;
도 3은 GCC-PHAT 함수에 있어서의 피크(peak)들의 위치를 보여주는 그래프이고;
도 4는 실제 녹음을 위한 스테레오 장면 셋-업의 상면도이고;
도 5는 LRTD 스테레오 모드에 있어서의 비상관 스테레오 콘텐츠의 분류시에 LogReg 모델의 출력에 적용된 정규화 함수를 도시한 그래프이고;
도 6은 스테레오 사운드 신호를 코딩하기 위한 도 1의 디바이스의 일부를 형성하는 비상관 스테레오 콘텐츠의 분류기에 있어서 스테레오 콘텐츠 클래스들간의 스위칭을 수행하는 메커니즘을 보여주는 상태 머신도이고;
도 7은 크로스-토크 검출을 위해 조건들이 시뮬레이션되는 AB 마이크로폰 셋업을 가진 대형 회의실의 개략적인 평면도로서, AB 마이크로폰들은, 그들이 서로에 대해 페이즈 문제의 생성없이 공간을 커버하는 방식으로 이격되어 배치된 한쌍의 카디오이드(cardioid) 또는 전방향 마이크로폰들로 구성되며;
도 8은 VAD(Voice Activity Detection)를 이용한 크로스-토크 샘플들의 자동 라벨링(automatic labeling)을 도시한 그래프이고;
도 9는 LRTD 스테레오 모드에서 크로스-토크 검출시에 LogReg 모델의 원시 출력(raw output)을 스케일링(scaling)하기 위한 함수를 보여주는 그래프이고;
도 10은 LRTD 스테레오 모드에서 스테레오 사운드 신호를 코딩하기 위한 도 1의 디바이스의 일부를 형성하는 크로스-토크 검출기에 있어서 상승 에지(rising edge)들을 검출하는 메커니즘을 도시한 그래프이고;
도 11은 LRTD 스테레오 모드에서 크로스-토크 검출기의 출력의 상태들간의 스위칭을 수행하는 메커니즘을 도시한 논리도이고;
도 12는 DFT 스테레오 모드에서 크로스-토크 검출기의 출력의 상태들간의 스위칭을 수행하는 메커니즘을 도시한 논리도이고;
도 13은 LRTD 모드와 DFT 모드간의 선택을 위한 메커니즘을 도시한 개략적인 블럭도이고;
도 14는 스테레오 사운드 신호를 코딩하기 위한 방법 및 디바이스를 구현하는 하드웨어 부품들의 예시적인 구성의 간단한 블럭도이다.
도 1은 스테레오 사운드 신호를 코딩하는 디바이스와, 스테레오 사운드 신호를 코딩하는 대응 방법을 동시에 도시한 개략적인 블럭도이고;
도 2는 2개의 대향하는 스피커들이 한 쌍의 초지향성 마이크로폰(hypercardioid microphone)들에 의해 포획되는, 크로스-토크 장면의 평면을 보여주는 개략적인 도면이고;
도 3은 GCC-PHAT 함수에 있어서의 피크(peak)들의 위치를 보여주는 그래프이고;
도 4는 실제 녹음을 위한 스테레오 장면 셋-업의 상면도이고;
도 5는 LRTD 스테레오 모드에 있어서의 비상관 스테레오 콘텐츠의 분류시에 LogReg 모델의 출력에 적용된 정규화 함수를 도시한 그래프이고;
도 6은 스테레오 사운드 신호를 코딩하기 위한 도 1의 디바이스의 일부를 형성하는 비상관 스테레오 콘텐츠의 분류기에 있어서 스테레오 콘텐츠 클래스들간의 스위칭을 수행하는 메커니즘을 보여주는 상태 머신도이고;
도 7은 크로스-토크 검출을 위해 조건들이 시뮬레이션되는 AB 마이크로폰 셋업을 가진 대형 회의실의 개략적인 평면도로서, AB 마이크로폰들은, 그들이 서로에 대해 페이즈 문제의 생성없이 공간을 커버하는 방식으로 이격되어 배치된 한쌍의 카디오이드(cardioid) 또는 전방향 마이크로폰들로 구성되며;
도 8은 VAD(Voice Activity Detection)를 이용한 크로스-토크 샘플들의 자동 라벨링(automatic labeling)을 도시한 그래프이고;
도 9는 LRTD 스테레오 모드에서 크로스-토크 검출시에 LogReg 모델의 원시 출력(raw output)을 스케일링(scaling)하기 위한 함수를 보여주는 그래프이고;
도 10은 LRTD 스테레오 모드에서 스테레오 사운드 신호를 코딩하기 위한 도 1의 디바이스의 일부를 형성하는 크로스-토크 검출기에 있어서 상승 에지(rising edge)들을 검출하는 메커니즘을 도시한 그래프이고;
도 11은 LRTD 스테레오 모드에서 크로스-토크 검출기의 출력의 상태들간의 스위칭을 수행하는 메커니즘을 도시한 논리도이고;
도 12는 DFT 스테레오 모드에서 크로스-토크 검출기의 출력의 상태들간의 스위칭을 수행하는 메커니즘을 도시한 논리도이고;
도 13은 LRTD 모드와 DFT 모드간의 선택을 위한 메커니즘을 도시한 개략적인 블럭도이고;
도 14는 스테레오 사운드 신호를 코딩하기 위한 방법 및 디바이스를 구현하는 하드웨어 부품들의 예시적인 구성의 간단한 블럭도이다.
본 개시는 입력 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠의 분류(이하에서는 "UNCLR 분류"라 함) 및 크로스-토크 검출(이하에서는 "XTALK 검출"이라 함)을 기술한다. 또한, 본 개시는, 예를 들어, 자동 LRTD/DFT 스테레오 모드 선택과 같은, 스테레오 모드 선택을 기술한다.
도 1은, 스테레오 사운드 신호(190)를 코딩하기 위한 디바이스 및 스테레오 사운드 신호(190)를 코딩하기 위한 대응 방법을 동시에 도시한 개략적인 블럭도이다.
특히, 도 1에는, UNCLR 분류, XTALK 검출 및 스테레오 모드 선택이 스테레오 사운드 신호 코딩 방법(150) 및 디바이스(100)내에 통합되는 방법이 도시된다.
UNCLR 분류 및 XTALK 검출은 2가지 독립적인 기술들을 형성한다. 그러나, 그들은 동일한 통계적 모델에 기반하며, 일부 피처들 및 파라메타들을 공유한다. 또한, UNCLR 분류 및 XTALK 검출 모두는 LRTD 스테레오 모드 및 DFT 스테레오 모드에 대해 고안되고 개별적으로 훈련된다. 본 개시에 있어서, LRTD 스테레오 모드는 시간-도메인 스테레오 모드의 비 제한적 예시로서 주어지고, DFT 스테레오 모드는 주파수-도메인 스테레오 모드의 비 제한적 예시로서 주어진다. 다른 시간-도메인 및 주파수-도메인 스테레오 모드들을 구현하는 것은 본 개시의 범주 이내이다.
UNCLR 분류는 스테레오 사운드 신호(190)의 좌측 및 우측 채널들로부터 추출된 피처들을 분석하고, 좌측 및 우측 채널들간의 약한 상관 또는 제로 상관(weak or zero correlation)을 검출한다. 다른 한편, XTALK 검출은, 스테레오 장면에 있어서 동시에 음성 출력하는(speaking) 2개의 스피커(speaker)들의 존재를 검출한다. 예를 들어, UNCLR 분류 및 XTALK 검출은 이진 출력을 제공한다. 이러한 이진 출력들은 스테레오 모드 선택 로직에서 함께 조합된다. 비 제한적인 일반 규칙으로서, 스테레오 모드 선택은, UNCLR 분류 및 XTALK 검출이 포획 디바이스(예를 들어, 마이크로폰)의 서로 대향하는 측면상에 서있는 2개의 스피커들의 존재를 나타낼 때, LRTD 스테레오 모드를 선택한다. 이러한 상황은, 통상적으로, 스테레오 사운드 신호(190)의 좌측 채널과 우측 채널간의 약한 상관으로 결과한다. LRTD 스테레오 모드 또는 DFT 스테레오 모드의 선택은 프레임-바이-프레임(frame-by-frame)에 기반하여 수행된다(본 기술 분야에 잘 알려진 바와 같이, 스테레오 사운드 신호(190)는 주어진 샘플링 레이트(sampling rate)로 샘플링되고, 다수의 "서브-프레임들"로 분할되는 "프레임들"이라고 하는 이 샘플들의 그룹에 의해 프로세싱된다). 또한, 스테로오 모드 선택 로직은, LRTD와 DFT 스테레오 모드들간의 빈번한 스위칭 및 지각적으로(perceptually) 중요한 신호 세그먼트들내에서의 스테레오 모드 스위칭을 피하도록 고안된다.
본 개시에서는, UNCLR 분류, XTALK 검출 및 스테레오 모드 선택의 비 제한적인 예시적 실시 예들이, IVAS 코덱(또는 IVAS 사운드 코덱)이라고 지칭되는, IVAS 코딩 프레임워크를 참조하여, 단지 예시적으로 설명될 것이다. 그러나, 임의 다른 사운드 코덱에 있어서, 그러한 분류, 검출 및 선택을 합체하는 것은 본 개시의 범주 이내이다.
1. 피처 추출
UNCLR 분류는, 예를 들어, 전체 콘텐츠가 본 명세서에 참조로서 수록되는 참고문헌 [9]에 설명된 바와 같은 로지스틱 회귀(Logistic Regression: LogReg) 모델에 기반한다. LogReg 모델은 LRTD 스테레오 모드 및 DFT 스테레오 모드에 대해 개별적으로 훈련된다. 그 훈련은, 스테레오 사운드 신호 코딩 디바이스(100)(스테레오 코덱)로부터 추출된 피처들의 대형 데이터베이스를 이용하여 이루어진다. 유사하게, XTALK 검출은 LRTD 스테레오 모드 및 DFT 스테레오 모드에 대해 개별적으로 훈련되는 LogReg 모델에 기반한다. XTALK 검출에 이용되는 피처들은 UNCLR 분류에 이용되는 피처들과 다르다. 그러나, 특정 피처들은 양 기술들에 의해 공유된다.
UNCLR 분류에 이용되는 피처들과 XTALK 검출에 이용되는 피처들은 이하의 동작들로부터 추출된다:
- 채널간 상관 분석;
- TD 전치-프로세싱; 및
- DFT 스테레오 파라메타화.
스테레오 사운드 신호를 코딩하는 방법(150)은 상술한 피처들의 추출 동작을 구비한다. 피처 추출 동작을 수행하기 위하여, 스테레오 사운드 신호를 코딩하는 디바이스(100)는 피처 추출기(도시되지 않음)를 구비한다.
2.
채널간
상관 분석
피처 추출 동작(도시되지 않음)은 LRTD 스테레오 모드를 위한 채널간 상관 분석 동작(151)과 DFT 스테레오 모드를 위한 채널간 상관 분석 동작(152)을 구비한다. 동작들(151 및 152)을 수행하기 위하여, 피처 추출기(도시되지 않음)는 채널간 상관의 분석기(101)와, 채널간 상관의 분석기(102)를 각각 구비한다. 동작들(151 및 152)과 분석기들(101 및 102)은 유사하며 동시에 설명될 것이다.
분석기(101/102)는 입력으로서 현재 스테레오 사운드 신호 프레임의 좌측 채널과 우측 채널을 수신한다. 좌측 및 우측 채널들은, 먼저 8kHz로 다운-샘플링된다. 예를 들어, 다운-샘플링된 좌측 및 우측 채널들은 아래와 같이 표시된다:
n은 현재 프레임에 있어서의 샘플 인덱스(sample index)이며, N=160은 현재 프레임의 길이이다(160 샘플들의 길이). 다운-샘플링된 좌측 및 우측 채널들은 채널간 상관 함수를 계산하는데 이용된다. 우선, 좌측 및 우측 채널들의 절대 에너지(absolute energy)는, 예를 들어, 이하의 수학식을 이용하여 계산된다:
분석기(101/102)는 래그들(lags)의 범위 <-40, 40>에 걸쳐 좌측 채널과 우측 채널간의 내적(dot product)으로부터 채널간 상관 함수의 분자를 계산한다. 네거티브 래그들(negative lags)에 대해, 좌측 채널과 우측 채널간의 내적은, 예를 들어, 이하의 수학식을 이용하여 계산된다:
또한, 포지티브 래그들(positive lags)에 대해, 내적은, 예를 들어, 이하의 수학식에 의해 주어진다:
그 다음, 분석기(101/102)는, 예를 들어, 이하의 수학식을 이용하여 채널간 상관 함수를 계산한다:
여기에서, 위첨자 [-1]은 이전 프레임에 대한 레퍼런스(reference)를 나타낸다. 좌측 및 우측 채널들에 걸쳐 평균을 취함으로써 패시브 모노 신호(passive mono signal)가 계산된다:
비 제한적 예시로서, 이하의 수학식을 이용하여 좌측 및 우측 채널간의 차이로서 사이드 신호(side signal)가 계산된다.
마지막으로, 아래와 같이 좌측 및 우측 채널의 샘플당 곱(product)을 정의하는 것이 유용하다:
분석기(101/102)는, 예를 들어, 이하의 수학식을 이용하여 채널간 상관 함수를 평활화(smoothing)하는 IIR(Infinite Impulse Response) 필터(도시되지 않음)를 구비한다:
평활화 인자 는 스테레오 사운드 신호 코딩 디바이스(100)(스테레오 코덱)의 채널간 상관 분석(Inter-Channel Correlation Analysis: ICA) 모듈(참고문헌 [1])내에서 적응적으로 설정된다. 그 다음, 채널간 상관 함수는 예측된 피크(predicted peak)의 영역(region)내의 위치(location)들에서 가중화된다. 피크 발견(peak finding) 및 국소 윈도윙(local windowing)을 위한 메커니즘이 ICA 모듈내에서 구현되며, 본 문서에서는 설명하지 않겠다. ICA 모듈에 대한 추가적인 정보에 관해 참고문헌 [1]을 참조하라. ICA 가중 후 채널간 상관 함수는 k∈<-40,40>를 가진 이다.
채널간 상관 함수의 최대치의 위치(position)는 지배적 사운드(dominant sound)가 포획 포인트(capturing poing)로 오는 방향의 중요한 표시자로서, LRTD 스테레오 모드에 있어서의 URCER 분류 및 XTALK 검출에 의해 피처로서 이용된다. 분석기(101/102)는, 예를 들어, 이하의 수학식을 이용하여 LRTD 스테레오 모드에 있어서의 XTALK 검출에 의해 피처로서 이용되는 채널간 상관 함수의 최대치를 검출하고:
비 제한적 예시로서, 이하의 수학식을 이용하여 이러한 최대치의 위치를 계산한다:
여기에서, 위첨자 [-1]은 이전 프레임에 대한 레퍼런스를 나타낸다.
채널간 상관 함수의 최대치의 위치는, ICA 모듈에 있어서 어느 채널이 "레퍼런스" 채널(REF) 및 "목표" 채널(TAR)이 되는지를 결정한다. 위치 이면, 좌측 채널(L)이 레퍼런스 채널(REF)이고, 우측 채널(R)이 목표 채널(TAR)이다. 이면, 우측 채널(R)이 레퍼런스 채널(REF)이고, 좌측 채널(L)이 목표 채널(TAR)이다. 그 다음, 목표 채널(TAR)은 레퍼런스 채널(REF)에 대해 그의 지연을 보상하기 위해 시프트(shift)된다. 목표 채널(TAR)을 시프트시키는데 이용되는 샘플들의 개수는, 예를 들어, 로 바로 설정될 수 있다. 그러나, 연속하는 프레임들간의 위치 에 있어서의 급격한 변경으로부터 결과하는 아티팩트(artifact)를 제거하기 위하여, 목표 채널(TAR)을 시프트시키는데 이용되는 샘플들의 개수는 ICA 모듈내의 적당한 필터들로 평활화될 수 있다.
목표 채널(TAR)을 시프트시키는데 이용되는 샘플들의 개수는 이며,여기에서, 이다. 레퍼런스 채널 신호는 이고, 목표 채널 신호는 이다. 순시 목표 이득(instantaneous target gain)은 레퍼런스 채널(REF)과 시프트된 목표 채널(TAR)간의 에너지들의 비율을 반영한다. 순시 목표 이득은, 예를 들어, 이하의 수학식을 이용하여 계산될 수 있다:
여기에서, N은 프레임 길이이다. 순시 목표 이득은 LRTD 스테레오 모드에 있어서의 UNCLR 분류에 의해 피처로서 이용된다.
2.1 채널간 피처들
분석기(101/102)는 UNCLR 분류 및 XTALK 검출에 이용되는 피처들의 제 1 시리즈(series)를 채널간 분석으로부터 직접 도출한다. 제로 래그의 채널간 상관 함수의 값, R(0)는 LRTD 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 그 자체로 피처로서 이용된다. C(0)의 절대값의 로그(logarithm)를 계산함에 의해, LRTD 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 이용되는 또 다른 피처가 아래와 같이 획득된다:
사이드 신호와 모노 신호(mono signal)의 에너지들의 비율은 LRTD 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 피처로서 이용된다. 그 비율은, 예를 들어, 이하의 수학식을 이용하여 계산된다:
수학식 (15)의 에너지의 비율은, 예를 들어, 아래와 같이 시간에 걸쳐 평활화된다:
여기에서, 는 스테레오 사운드 신호 코딩 디바이스(100)(스테레오 코덱)의 VAD 모듈의 일부로서 계산되는 (예를 들어, 참고문헌 [1] 참조) VAD(Voice Activity Detection) 행오버 프레임(hangover frame)들의 카운터이다. 수학식 (16)의 평활화된 비율은 LRTD 스테레오 모드에 있어서의 XTALK 검출에 의해 피처로서 이용된다.
분석기(101/102)는 좌측 채널과 모노 신호로부터 및 우측 채널과 모노 신호간의 이하의 내적을 도출한다. 먼저, 좌측 채널과 모노 신호간의 내적은 예를 들어 아래와 같이 표현되고:
우측 채널과 모노 신호간의 내적은, 예를 들어, 아래와 같이 표현된다:
두 내적 모두는 0의 하한을 가진 포지티브이다. 이러한 2개의 내적들의 최대치와 최소치의 차이에 기초한 메트릭(metric)은 LRTD 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 피처로서 이용된다. 그것은, 이하의 수학식을 이용하여 계산될 수 있다:
LRTD 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 단독 피처로서 이용되는 유사한 메트릭은, 예를 들어, 이하의 수학식을 이용하여 계산되는, 선형 및 로그 도메인의 둘 모두에 있어서의 2개의 내적들간의 절대차에 직접 기반한다:
LRTD 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 이용되는 마지막 피처는 채널간 상관 분석 동작(151/152)의 일부로서 계산되며, 채널간 상관 함수의 진화(evolution)를 반영한다. 그것은 아래와 같이 계산될 수 있다:
여기에서, 위첨자 [-2]는 현재 프레임에 선행하는 제 2 프레임에 대한 레퍼런스를 나타낸다.
3. 시간-도메인(Time-Domain: TD) 전치-프로세싱
LRTD 스테레오 모드에서는 모노 다운-믹싱(mono down-mixing)이 없으며, 입력 스테레오 사운드 신호(190)의 좌측 및 우측 채널들은, 피처들을 추출하기 위해, 각각의 시간-도메인 전치-프로세싱 동작들, 즉, 좌측 채널을 시간-도메인 전치-프로세싱하는 동작(153) 및 스테레오 사운드 신호(190)의 우측 채널을 시간-도메인 전치-프로세싱하는 동작(154)에서 분석된다. 동작들(153 및 154)을 수행하기 위하여, 피처 추출기(도시되지 않음)는 도 1에 도시된 바와 같이 각각의 시간-도메인 전치 프로세서들(103 및 104)을 구비한다. 동작들(153 및 154) 및 그들의 대응하는 전치-프로세서들(103 및 104)은 유사하며, 동시에 설명될 것이다.
시간-도메인 전치-프로세싱 동작(153/154)은 UNCLR 분류 및 XTALK 검출을 실행하기 위한 추출된 피처들로서 이용되는 특정 파라메타들을 생성하기 위해 다수의 서브-동작들을 수행한다. 그러한 서브-동작들은 이하를 포함할 수 있다:
- 스펙트럼 분석;
- 선형 예측 분석;
- 개방-루프 피치 추정(open-loop pitch estimation);
- VAD(Voice Activity Detection);
- 배경 잡음 추정; 및
- FEC(Frame Error Concealment) 분류.
시간-도메인 전치-프로세서(103/104)는 Levinson-Durbin 알고리즘을 이용하여 선형 예측 분석을 수행한다. Levinson-Durbin 알고리즘의 출력은 선형 예측 계수들(Linear Prediction Coefficient: LPC)의 세트이다. Levinson-Durbin 알고리즘은 반복적 방법이며, Levinson-Durbin 알고리즘에 있어서의 총 반복수는 M으로 나타낼 수 있다. 각 i번째 반복에 있어서 (i = 1,...,M), 잔차 에러 에너지 가 계산된다. 본 개시에 있어서, 비 제한적인 예시적 구현으로서, Levinson-Durbin 알고리즘은 m= 16의 반복으로 운영된다고 가정한다. 입력 스테레오 사운드 신호(190)의 좌측 채널과 우측 채널간의 잔차 에러 에너지의 차이는 LRTD 스테레오 모드에 있어서의 XTALK 검출을 위한 피처로서 이용된다. 잔차 에러 에너지의 차이는 아래와 같이 계산될 수 있다:
여기에서, 아래 첨자 L 및 R은, 각각, 입력 스테레오 사운드 신호(190)의 좌측 채널과 우측 채널을 나타내기 위해 추가되었다. 이러한 비 제한적 실시 예에 있어서, 그 피처(차이 )는, 마지막 반복 대신에 14번째 반복으로부터의 잔차 에너지를 이용하여 계산되는데, 이는 이 반복이 UNCLR 분류에 대해 가장 높은 식별적 잠재성을 가지고 있음을 실험으로 알게 되었기 때문이다. Levinson-Durbin 알고리즘에 대한 보다 많은 정보 및 잔차 에러 에너지 계산에 대한 세부 사항은, 예를 들어, 참고문헌 [1]에 있다.
Levinson-Durbin 알고리즘으로 추정된 LPC 계수들은, LSF(Line Spectral Frequencies), 로 전환된다. LSF 값들의 합은 입력 스테레오 사운드 신호(190)의 엔벨로프(envelope)의 중력 포인트(gravity point)의 추정치로서 작용할 수 있다. 좌측 채널에 있어서의 LSF 값들의 합과 우측 채널에 있어서의 LSF 값들의 합간의 차이는 2 채널들의 유사성에 대한 정보를 포함한다. 이 때문에, 이러한 차이는 LRTD 스테레오 모드에 있어서의 XTALK 검출에서 피처로서 이용된다. 좌측 채널에 있어서의 LSF 값들의 합과 우측 채널에 있어서의 LSF 값들의 합간의 차이는 이하의 수학식을 이용하여 계산될 수 있다:
상술한 LPC에서 LSF로의 전환에 대한 추가적인 정보는, 예를 들어, 참고문헌 [1]에서 발견될 수 있다.
시간-도메인 전치-프로세서(103/14)는 개방-로프 피치 추정을 수행하고, 좌측 채널(L)/우측 채널(R) 개방-로프 피치 차이가 계산되는 자기 상관 함수를 이용한다. 좌측 채널(L)/우측 채널(R) 개방-로프 피치 차이는 이하의 수학식을 이용하여 계산될 수 있다:
는 현재 프레임의 k번째 세그먼트에 있어서의 개방-로프 피치 추정치이다. 본 개시에서는, 비 제한적인 예시로서, 개방-로프 피치 분석이 k=1,2,3이라 인덱스된 3개의 이웃하는 하프-프레임들(half frames)(세그먼트들)에서 수행되며, 2개의 세그먼트들은 현재 프레임내에 위치하고, 하나의 세그먼트는 이전 프레임의 제 2 하프(half)에 위치한다고 가정한다. 개방-로프 피치 추정에 대한 추가적인 정보는, 예를 들어, 참고문헌 [1]에서 발견될 수 있다.
입력 스테레오 사운드 신호(190)의 (상술한 자기 상관 함수에 의해 결정된) 좌측 및 우측 채널들의 최대 자기 상관 값들(보이싱(voicing))간의 차이는, 또한, LRTD 스테레오 모드에 있어서의 XTALK 검출에 의해 피처로서 이용된다. 좌측 및 우측 채널들의 최대 자기 상관 값들간의 차이는 이하의 수학식을 이용하여 계산될 수 있다:
배경 잡음 추정은 VAD(Voice Activity Detection) 검출 알고리즘의 일부이다(참고문헌 [1] 참조). 특히, 배경 잡음 추정은, 일부가 UNCLR 분류 및 XTALK 검출에 의해 이용되는 피처들의 세트에 의존하는 활성/불활성 신호 검출기(도시되지 않음)를 이용한다. 예를 들어, 활성/불활성 신호 검출기(도시되지 않음)는 스펙트럼 안정성의 측정치로서 좌측 채널(L)과 우측 채널(R)의 비-정상성 파라메타(non-stationarity parameter) 를 생성한다. 입력 스테레오 사운드 신호(190)의 좌측 채널과 우측 채널간의 비-정상성에 있어서의 차이는 LRTD 스테레오 모드에 있어서의 XTALK 검출에 의해 피처로서 이용된다. 좌측(L) 및 우측(R) 채널들간의 비-정상성에 있어서의 차이는 이하의 수학식을 이용하여 계산될 수 있다:
활성/불활성 신호 검출기(도시되지 않음)는 상관 맵 파라메타(correlation map parameter) 을 포함하는 하모닉 분석(harmonic analysis)에 의존한다. 상관 맵은 입력 스테레오 사운드 신호(190)의 음정 안정성(tonal stability)의 측정치이다. 좌측(L) 및 우측(R) 채널들의 상관 맵들간의 차이는 LRTD 스테레오 모드에 있어서의 XTALK 검출에 의해 피처로서 이용되며, 예를 들어, 이하의 수학식을 이용하여 계산된다:
마지막으로, 활성/불활성 신호 검출기(도시되지 않음)는 각 프레임에 있어서 스펙트럼 다이버시티(spectral diversity) 및 잡음 특성들의 상시 측정치(regular measurements)를 취득한다. 이러한 2개의 파라메타들은 LRTD 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 피처로서 이용된다. 특히, (a) 좌측 채널(L)과 우측 채널(R)간의 스펙트럼 다이버시티 차이는 아래와 같이 계산될 수 있고:
여기에서, 는 현재 프레임에 있어서 잡음 특성들의 측정치를 나타낸다. 상관 맵의 계산, 비-정상성, 스펙트럼 다이버시티 및 잡음 특성 파라메타들에 대한 세부 사항은 [1]을 참조할 수 있다.
ACELP(Algebraic Code-Excited Linear Prediction) 코어 인코더는, 스테레오 사운드 신호 코딩 디바이스(100)의 일부로서, 참고문헌 [1]에 설명된 바와 같이 무성음 사운드 신호를 인코딩하기 위한 특정 설정들을 구비한다. 이 설정들의 이용은 현재 프레임 내부의 짧은 세그먼트들에 있어서의 급격한 에너지 증가의 측정치를 포함하는, 다수의 인자(factor)들에 의해 좌우된다. ACELP 코어 인코더에 있어서의 무성음 사운드코딩을 위한 설정들은 단지, 현재 프레임 내부에 급격한 에너지 증가가 없는 경우에만 적용된다. 좌측 채널과 우측 채널에 있어서의 급격한 에너지 증가의 측정치들을 비교함에 의해, 크로스-토크 세그먼트의 시작 위치를 국소화시킬 수 있다. 급격한 에너지 증가는 3GPP EVS 코덱(참고문헌 [1])에 설명된 바와 같이,에 대한 것과 유사하게 계산될 수 있다. 좌측 채널(L)과 우측 채널(R)의 급격한 에너지 증가들의 차이는 이하의 수학식을 이용하여 계산될 수 있다:
여기에서는, 입력 스테레오 사운드 신호(190)의 좌측 채널과 우측 채널을 나타내기 위해 각각 아래 첨자 L 및 R이 추가되었다.
시간-도메인 전치-프로세서(103/104)와 전치-프로세싱 동작(153/154)은 FEC 기술에 대한 상태 머신을 포함하는 FEC 분류 모듈을 이용한다. 각 프레임에 있어서의 FEC 클래스는 메리트 함수(a function of merit)에 기초하여 사전 정의된 클래스들 중에서 선택된다. 좌측 채널(L)과 우측 채널(R)에 대해 현재 프레임에서 선택된 FEC 클래스들간의 차이는 LRTD 스테레오 모드에 있어서의 XTALK 검출에 의해 피처로서 이용된다. 그러나, 그러한 분류 및 검출을 위해, FEC는 아래와 같이 제한될 수 있다:
여기에서, t class 는 현재 프레임에서 선택된 FEC 클래스이다. 따라서, FEC 클래스는 VOICED 및 UNVOICED로만 제한된다. 좌측 채널(L)과 우측 채널(R)에 있어서의 클래스들간의 차이는 아래와 같이 계산될 수 있다:
FEC 분류에 대한 추가적인 세부 설명은 참고문헌 [1]을 참조할 수 있다.
시간-도메인 전치-프로세서(103/104) 및 전치-프로세싱 동작(153/154)은 스피치/뮤직 분류 및 그에 대응하는 스피치/뮤직 분류기를 구현한다. 이러한 스피치/뮤직 분류는 전력 스펙트럼 다이버전스(divergence) 및 전력 스펙트럼 안정성에 따라 각 프레임에 있어서 이진 결정(binary decision)을 하게 한다. 좌측 채널(L)과 우측 채널(R)간의 전력 스펙트럼 다이버전스에 있어서의 차이는, 예를 들어, 이하의 수학식을 이용하여 계산된다:
여기에서, 는 현재 프레임에 있어서의 좌측 채널(L)과 우측 채널(R)의 전력 스펙트럼 다이버전스를 나타내며, 좌측 채널(L)과 우측 채널(R)간의 전력 스펙트럼 안정성의 차이는,예를 들어, 이하의 수학식을 이용하여 계산된다.
스피치/뮤직 분류내에서 계산된 전력 스펙트럼 다이버전스 및 전력 스펙트럼 안정성에 대한 세부 설명은 참고문헌 [1]에 설명된다.
4.
DFT
스테레오
파라메타들
스테레오 사운드 신호(190)를 코딩하는 방법(150)은 좌측 채널(L) 및 우측 채널(R)의 FFT(Fast Fourier Transform)를 계산하는 동작(155)을 구비한다. 동작(155)을 수행하기 위하여, 스테레오 사운드 신호(190)를 코딩하는 디바이스(100)는 FFT 변환 계산기(105)를 구비한다.
피처 추출 동작(도시되지 않음)은 DFT 스테레오 파라메타들을 계산하는 동작(156)을 구비한다. 동작(156)을 수행하기 위하여, 피처 추출기(도시되지 않음)는 DFT 스테레오 파라메타들의 계산기(106)를 구비한다.
DFT 스테레오 모드에 있어서, 변환 계산기(105)는, 입력 스테레오 사운드 신호(190)의 좌측 채널(L)과 우측 채널(R)을, FFT 변환을 이용하여, 주파수-도메인으로 전환시킨다.
좌측 채널(L)의 복소 스펙트럼(complex spectrum)은 이고, 우측 채널의 복소 스펙트럼은 이다. 은 주파수 빈들의 인덱스이고, 은 FFT 변환의 길이이다. 예를 들어, 입력 스테레오 사운드 신호의 샘플링 레이트가 32kHz일 때, DFT 스테레오 파라메타들의 계산기(106)는 샘플들로 결과하는 40ms의 윈도우에 걸쳐 복소 스펙트럼들을 계산한다. 그 다음, 비 제한적 실시 예로서, 이하의 수학식을 이용하여 복소 크로스 채널 스펙트럼(complex cross-channel spectrum)이 계산된다:
별모양 윗첨자는 복소 공액(complex conjugate)을 나타낸다. 복소 크로스-채널 스펙트럼은, 이하의 수학식을 이용하여, 실수 부분과 허수 부분으로 분해된다:
실수 부분 및 허수 부분 분해를 이용하면, 복소 크로스-채널 스펙트럼의 절대 크기를 다음과 같이 나타낼 수 있다:
이하의 수학식을 이용하여 주파수 빈들에 걸쳐 복소 크로스-채널 스펙트럼의 절대 크기들을 합산함으로써, DFT 스테레오 파라메타들의 계산기(106)는, 복소 크로스-채널 스펙트럼의 전체 절대 크기를 획득한다:
좌측 채널(L)의 에너지 스펙트럼과, 우측 채널(R)의 에너지 스펙트럼은 아래와 같이 표시될 수 있다:
이하의 수학식을 이용하여, 주파수 빈들에 걸쳐 좌측 채널(L)의 에너지 스펙트럼들과 우측 채널(R)의 에너지 스펙트럼들을 합산함으로써, 좌측 채널(L)과 우측 채널(R)의 전체 에너지들이 획득될 수 있다:
DFT 스테레오 모드에 있어서의 UNCLE 분류 및 XTALK 검출은, 예를 들어, 이하의 수학식을 이용하여 표시한 바와 같이, 로그 도메인(logarithmic domain) 및 에너지 정규화 형태(energy-normalized form)가 아닌 상기에서 정의된 직접적인 형태(direct form)로 그들의 피처들 중 하나로서, 복소 크로스-채널 스펙트럼들의 전체 절대 크기를 이용한다:
DFT 스테레오 파라메타들의 계산기(106)는, 예를 들어, 이하의 수학식을 이용하여, 모노 다운-믹스 에너지(mono down-mix energy)를 계산할 수 있다:
채널간 레벨 차이(Inter-channel Level Difference: ILD)는, 주 사운드(main sound)가 오고있는 각도에 대한 정보를 포함함에 따라, DFT 스테레오 모드에 있어서의 UNCLR 분류 및 XTAL 검출에 의해 이용되는 피처이다. UNCLR 분류 및 XTAL 검출을 위해, ILD는 이득 인자 형태로 표시될 수 있다. DFT 스테레오 파라메타들의 계산기(106)는, 예를 들어, 이하의 수학식을 이용하여, ILD 이득을 계산한다:
채널간 위상 차이(Inter-channel Phase Difference: IPD)는 청취자가 인입 사운드 신호의 방향을 추론할 수 있게 하는 정보를 포함한다. DFT 스테레오 파라메타들의 계산기(106)는, 이하의 수학식을 이용하여, IPD를 계산한다:
이때,
이다.
이전 프레임에 대한 IPD의 차분값은, 예를 들어, 이하의 수학식을 이용하여 계산된다:
이때, 윗첨자 n은 현재 프레임을 나타내는데 이용되고, 윗첨자 n-1은 이전 프레임을 나타내는데 이용된다. 마지막으로, 계산기(106)는, 위상 정렬(IPD=0) 다운-믹스 에너지(수학식(47)의 분자)와 모노 다운-믹스 에너지(E M ) 간의 비율로서, IPD 이득을 계산할 수 있다:
IPD 이득(gIPD _ lim)은 간격 <0,1>로 제한된다. 그 값이 1.0의 상한을 초과하는 경우, 이전 프레임으로부터의 IPD 이득의 값으로 대체된다. DFT 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출은 피처로서 로그 도메인내의 IPD 이득을 이용한다. 계산기(106)는, 예를 들어, 이하의 수학식을 이용하여, 로그 도메인에 있어서의 IPD 이득을 결정한다.
채널간 위상 차이(IPD)는, DFT 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 피처로서 이용되는 각도 형태로 표시될 수 있으며, 예를 들어, 아래와 같이 계산될 수 있다:
사이드 채널은 좌측 채널(L)과 우측 채널(R)간의 차이로서 계산될 수 있다. 이하의 수학식을 이용하여, 모노 다운-믹스 에너지 EM에 대해, 이러한 차이(EL-ER)의 에너지의 절대값의 비율을 계산함에 의해 사이드 채널의 이득을 나타낼 수 있다:
이득 gside이 높으면, 좌측 채널(L)과 우측 채널(R)간의 에너지 차이가 커진다. 사이드 채널의 이득 gside은 간격 <0.01, 0.99>으로 제한된다. 이 범위 밖의 값들은 제한된다.
입력 스테레오 사운드 신호(190)의 좌측 채널(L)과 우측 채널(R)간의 위상 차이는, 예를 들어, 이하의 수학식을 이용하여 계산된 예측 이득으로부터 분석될 수 있다:
여기에서, 예측 이득 gpred _ lin의 값은 간격 <0, ∞>으로, 즉 양의 값들로 제한된다. gpred _ lin의 상기 수학식은 크로스-채널 스펙트럼(XLR) 에너지와 모노 다운-믹스 에너지 간의 차이를 포획한다. 계산기(106)는, 예를 들어, DFT 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 피처로서 이용하기 위해 수학식 (52)를 이용하여, 이러한 이득 gpred _ lin을 로그 도메인으로 전환한다.
계산기(106)는, 채널간 위상 차이(IPD) 및 이하에서 설명할 채널간 시간 차이(Inter-channel Time Difference: ITD)에 의해 포획되지 않은, 좌측 채널(L)과 우측 채널(R)간의 차이를 결정하기 위한 큐(cue)를 형성하는 채널간 코히어런스(Inter-Channel Coherence: ICC)의 평균 에너지를 계산하기 위하여 수학식 (39)의 빈당 채널 에너지들(per-bin channel energies)을 이용한다. 먼저, 계산기(106)는, 예를 들어, 이하의 수학식을 이용하여, 크로스-채널 스펙트럼의 전체 에너지를 계산한다:
채널간 코히어런스(ICC)의 평균 에너지를 나타내기 위해, 이하의 파라메타를 계산하는 것이 유용하다:
그 다음, 채널간 코히어런스(ICC)의 평균 에너지는 DFT 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 피처로서 이용되며, 아래와 같이 표시된다.
평균 에너지 Ecoh의 값은, 내항(inner term)이 1.0보다 작으면, 0으로 설정된다. 채널간 코히어런스(ICC)의 또 다른 가능한 해석은, 아래와 같이 계산된 사이드-모노간 에너지 비율(side-to mono energy ratio)이다:
마지막으로, 계산기(106)는 UNCLR 분류 및 XTALK 검출에 이용되는 최대 및 최소 채널내 크기 곱들(maximum and minimum intra-channel amplitude products)의 비율 rpp를 결정한다. DFT 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 피처로서 이용되는, 이러한 피처는, 예를 들어, 이하의 수학식을 이용하여 계산된다:
이때, 채널내 크기 곱들은 아래와 같이 정의된다:
스테레오 신호 재생에 이용되는 파라메타는 채널간 시간 차이(ITD)이다. ITD 스테레오 모드에 있어서, DFT 스테레오 파라메타들의 계산기(106)는, 위상 차이를 가진 일반화된 크로스-채널 상관 함수(Generalized Cross-channel Correlation function with Phase-Difference)(GCC-PHAT)로부터 채널간 시간 차이(ITD)를 추정한다. 채널간 시간 차이(ITD)는 도착 시간 지연(Time Dely of Arrival: TDOA) 추정에 대응한다. GCC-PHAT 함수는 잔향 신호(reverberated signal)에 대한 채널간 시간 차이(ITD)를 추정하기 위한 로버스트 방법(robust method)이다. GCC-PHAT는, 예를 들어, 이하의 수학식을 이용하여 계산된다:
여기에서, IFFT는 고속 푸리에 역변환(Inverse Fast Fourier Tranform)을 나타낸다.
채널간 시간 차이(ITD)는, 예를 들어, 이하의 수학식을 이용하여, GDD-PHAT 함수로부터 추정된다:
여기에서, d는 -5ms 내지 +5ms 범위내의 시간 지연에 대응하는 샘플들에 있어서의 시간 래그(time lag)이다. dITD에 대응하는 GCC-PHAT 함수의 최대치는, DFT 스테레오 모드에 있어서의 UNCLR 분류 및 XTALK 검출에 의해 피처로서 이용되며, 이하의 수학식을 이용하여 검색될 수 있다:
싱글-토크 시나리오에서는, 통상적으로, 채널간 시간 차이(ITD)에 대응하는 GCC-PHAT 함수에 있어서의 단일의 지배적 피크(single dominant peak)가 존재한다. 그러나, 2명의 화자(talker)가 포획 마이크로폰의 서로 반대측에 위치하는 크로스-토크 상황에서는, 서로부터 멀리 위치한 2개의 지배적 피크들이 존재한다. 도 2에는 그러한 상황이 도시된다. 특히, 비-제한적이고 예시적인 예시에 따르면, 도 2에는 2명의 서로 대향하는 화자들(S1 및 S2)이 한 쌍의 초지향성 마이크로폰(M1 및 M2)에 의해 포획되는 크로스-토크 장면의 평면도가 도시되며, 도 3에는 GCC-PHAT 함수에 있어서의 2개의 지배적 피크들의 위치를 보여주는 그래프가 도시된다.
제 1 피크의 크기 GITD는 수학식 (61)을 이용하여 계산되고, 그의 위치 dITD는 수학식 (60)을 이용하여 계산된다. 제 2 피크의 크기는 제 1 피크에 대해 역방향으로 GCC-PHAT 함수의 제 2 최대치를 검색함에 의해 국소화된다(localization). 보다 구체적으로, 제 2 피크를 검색하는 방향 SITD는 제 1 피크의 위치 dIDT의 부호에 의해 결정된다:
여기에서, sgn(.)은 부호 함수이다.
DFT 스테레오 파라메타들의 계산기(106)는, 예를 들어, 이하의 수학식을 이용하여, 방향 SITD으로 GCC-PHAT 함수의 제 2 최대치(제 2 최고 피크(seond highest peak))를 검색할 수 있다:
비-제한적 예시로서, 임계치 은, GCC-PHAT 함수의 제 2 피크가 시작(dIDT = 0)에서부터 적어도 8개의 샘플들의 거리에서 검색될 것을 보장한다. 크로스-토크(XTALK)의 검출이 관련되는 한, 이것은, 그 장면에 있어서의 임의 잠재적인 2차 화자가 제 1 "주도적" 화자로부터 및 중간 포인트(d = 0)로부터 적어도 특정 최소 거리만큼 떨어진 곳에 존재해야만 할 것임을 의미한다.
GCC-PHAT 함수의 제 2 최고 피크의 위치는, max(.) 함수를 arg max(.) 함수로 대체함으로써, 수학식(63)을 이용하여 계산된다. GCC-PHAT 함수의 제 2 최고 피크의 위치는 dITD2로 표시될 것이다.
GCC-PHAT 함수의 제 1 피크와 제 2 최고 피크의 크기들간의 관계는 DFT 스테레오 모드에 있어서의 XTALK 검출에 의해 피처로서 이용되며, 이하의 비율을 이용하여 평가될 수 있다:
비율 는 높은 식별 잠재성을 가지지만, 그것을 피처로서 이용하기 위하여, XTALK 검출은 DFT 스테레오 모드에 있어서의 주파수 변환동안에 적용된 제한된 시간 해법으로부터 결과하는 간헐적인 오탐(false alarm)을 제거한다. 이것은, 예를 들어, 이하의 수학식을 이용하여, 현재 프레임에 있어서의 비율 의 값을, 이전 프레임으로부터의 동일한 비율의 값과 승산함에 의해 이루어진다:
제 2 최고 피크의 크기는, 장면에 있어서 2차 화자의 세기의 표시자를 단독으로 구성한다. 비율 과 유사하게, 값 GITD2의 간헐적인 랜덤 "스파이크(spike)들"이, 예를 들어, 이하의 수학식(66)을 이용하여 감소됨으로써, DFT 스테레오 모드에 있어서의 XTALK 검출에 의해 이용되는 또 다른 피처가 획득된다:
DFT 스테레오 모드에 있어서의 XTALK 검출에 이용되는 또 다른 피처는 이전 프레임에 대한 현재 프레임에 있어서의 제 2 최고 피크의 위치 dITD2(n)의 차이로서, 예를 들어, 이하의 수학식을 이용하여 계산된다:
5. 다운-
믹싱
및 고속
퓨리에
역변환(
IFFT
)
DFT 스테레오 모드에 있어서, 스테레오 사운드 신호를 코딩하는 방법(150)은 스테레오 사운드 신호(190)의 좌측 채널(L)과 우측 채널(R)을 다운-믹싱하는 동작(157)과, 다운-믹싱된 신호들의 IFFT 변환을 계산하는 동작(158)을 구비한다. 동작(157 및 158)을 수행하기 위하여, 스테레오 사운드 신호(190)를 코딩하는 디바이스(100)는 다운-믹서(down-mixer, 107) 및 IFFT 변환 계산기(108)를 구비한다.
다운-믹서(107)는, 스테레오 사운드 신호의 좌측 채널(L)과 우측 채널(R)을, 예를 들어, 참고문헌[6]에 기술된 바와 같이, 모노 채널(M) 및 사이드 채널(S)로 다운-믹싱하며, 참고문헌[6]의 전체 콘텐츠는 본 명세서에 참조로서 수록된다.
IFFT 변환 계산기(108)는, TD 전치-프로세서(109)에서 프로세싱될 시간-도메인 모노 채널(M)을 생성하기 위해, 다운-믹서(107)로부터 다운-믹싱된 모노 채널(M)의 IFFT 변환을 계산한다. 계산기(108)에서 이용되는 IFFT 변환은 계산기(105)에서 이용된 FFT 변환의 역이다.
6.
DFT
스테레오
모드에
있어서 TD 전치 프로세싱(pre-processing)
DFT 스테레오 모드에 있어서, 피처 추출 동작(도시되지 않음)은 UNCLR 분류 및 XTALK 검출에 이용되는 피처들을 추출하기 위한 TD 전치 프로세싱 동작(159)을 구비한다. 동작(159)을 수행하기 위하여, 피처 추출기(도시되지 않음)는 모노 채널(M)에 응답하는 TD 전치 프로세서(109)를 구비한다.
6.1 보이스 활동 검출(Voice Activity Detection)
UNCLR 분류 및 XTALK 검출은 VAD(Voice Activity Detection) 알고리즘을 이용한다. LRTD 스테레오 모드에 있어서, VAD 알고리즘은 좌측 채널(L)과 우측 채널(R)에 대해 개별적으로 실행된다. DFT 스테레오 모드에 있어서, VAD 알고리즘은 다운-믹싱된 모노 채널(M)에 대해 실행된다. VAD 알고리즘의 출력은 이진 플래그(binary flag) 이다. VAD 플래그 는, 그것이 너무 보수적(conservative)이고 긴 히스테리시스(hysteresis)를 가지고 있기 때문에, UNCLR 분류 및 XTALK 검출에는 적합하지 않다. 이것은, 예를 들어, 발화(utterance)의 중간에 있어서의 잠깐의 중지 동안 또는 토크 스퍼트(talk spurt)의 끝에서, LRTD 스테레오 모드 및 DFT 스테레오 모드간의 고속 스위칭을 방해한다. 또한, VAD 플래그 는 입력 스테레오 사운드 신호(190)의 작은 변화에 민감하다. 이것은, 크로스-토크 검출에 있어서의 오탐과, 스테레오 모드의 잘못된 선택을 이끈다. 그러므로, UNCLR 분류 및 XTALK 검출은 상대 프레임 에너지(relative frame energy)의 변동에 기초하는 보이스 활동 검출의 대안적인 측정을 이용한다. VAD 알고리즘에 대한 세부 사항은 참고문헌[1]을 참조하면 된다.
6.1.1 상대 프레임 에너지
UNCLR 분류 및 XTALK 검출은, 수학식 (2)를 이용하여 획득한 좌측 채널(L)의 절대 에너지(absolute energy) 와 우측 채널(R)의 절대 에너지 를 이용한다. 입력 스테레오 사운드 신호의 최대 평균 에너지는, 예를 들어, 이하의 수학식을 이용하여 로그 도메인에서 계산될 수 있다:
여기에서, 인덱스 n은 현재 프레임을 나타내기 위해 추가되었으며, N=10은 현재 프레임의 길이(160 샘플들의 길이)이다. 로그 도메인에 있어서의 최대 평균 에너지의 값 Eave(n)은 간격 <0;∞>으로 제한된다.
입력 스테레오 사운드 신호의 상대 프레임 에너지는, 예를 들어, 이하의 수학식을 이용하여, 간격 <0;0,9>내로 선형적으로 최대 평균 에너지 Eave(n)를 매핑함에 의해 계산될 수 있다:
여기에서, Eup(n)은 상대 프레임 에너지 Erl(n)의 상한을 나타내고, Edn(n)은 상대 프레임 에너지 Erl(n)의 하한을 나타내며, 인덱스 n은 현재 프레임을 나타낸다.
상대 프레임 에너지 Erl(n)의 한도는 TD 전치 프로세서(103, 104 및 109)의 잡음 추정 모듈의 일부인 잡음 갱신 카운터 에 기초하여 각 프레임에서 갱신된다. 이 카운터에 대한 추가적인 정보는 참고문헌[1]을 참조하면 된다. 카운터 의 목적은, 현재 프레임에 있어서의 각 채널내의 배경 잡음이 갱신될 수 있음을 시그널링하는 것이다. 이러한 상황은, 카운터 의 값이 0일 때 발생한다. 비-제한적 예시로서, 각 채널에 있어서의 카운터 은 6으로 초기화되며, 0의 하한과 6의 상한으로 매 프레임마다 증가 또는 감소된다. LRTD 스테레오 모드의 경우, 좌측 채널(L)과 우측 채널(R)에 대해 독립적으로 잡음 추정이 수행된다. 좌측 채널(L) 및 우측 채널(R)에 대한, 2개의 잡음 갱신 카운터들은 각각 및 이다. 2개의 카운터들은, 이하의 수학식에 의해, 단일 이진 파라메타로 조합될 수 있다:
DFT 스테레오 모드의 경우, 다운-믹싱된 모노 채널(M)에 대해 잡음 추정이 수행된다. 모노 채널에 있어서의 잡음 갱신 카운터들은 이다. 이진 출력 파라메타는 이하의 수학식으로 계산된다:
여기에서, 인덱스 n은 현재 프레임을 나타내고, 인덱스 n-1은 이전 프레임을 나타낸다.
수학식 (71)의 제 1 및 제 2 라인은, 각각, 보다 느린 갱신 및 보다 빠른 갱신을 나타낸다. 따라서, 수학식 (71)을 이용하면, 상한 은, 에너지가 증가할 때, 보다 신속하게 갱신된다.
6.1.2 대안적인
VAD
플래그 추정
UNCLR 분류 및 XTALK 검출은 대안적인 VAD 플래그의 계산에 대한 기초로서, 수학식 (71)에 의해 계산된, 상대 프레임 에너지 Erl(n)의 변동을 이용한다. 현재 프레임에 있어서의 대안적인 VAD 플래그는 이다. 대안적인 VAD 플래그 는 LRTD 스테레오 모드의 경우에는 TD 전치 프로세서(103/104)의 잡음 추정 모듈에서 생성된 VAD 플래그들을 조합함에 의해 계산되며, 또는 DFT 스테레오 모드의 경우에는 TD 전치 프로세서(109)에서 생성된 VAD 플래그 를 조합함에 의해 계산되고, 보조 이진 파라메타 는 상대 프레임 에너지 Erl(n)의 변동을 반영한다.
먼저, 상대 프레임 에너지 Erl(n)는, 예를 들어, 이하의 수학식을 이용하여 10개의 이전 프레임들의 세그먼트에 걸쳐 평균화된다:
여기에서, p는 평균의 인덱스이다. 보조 이진 파라메타(auxiliary binary parameter)는, 예를 들어, 이하의 로직에 따라 설정된다:
LRTD 스테레오 모드에 있어서, 대안적인 VAD 플래그 는, 예를 들어, 이하의 수학식을 이용하여, 좌측 채널(L)에 있어서의 VAD 플래그 , 우측 채널(R)에 있어서의 VAD 플래그 및 보조 이진 파라메타 의 논리적 조합에 의해 계산된다:
DFT 스테레오 모드에 있어서, 대안적인 VAD 플래그 는, 예를 들어, 이하의 수학식을 이용하여, 다운-믹싱된 모노 채널(M)에 있어서의 VAD 플래그 와, 보조 이진 파라메타 의 논리적 조합에 의해 계산된다:
6.2 스테레오 무음(silence) 플래그
DFT 스테레오 모드에 있어서, 다운-믹싱된 모노 채널(M)의 낮은 레벨을 반영하는 이산 파라메타(discrete parameter)를 계산하는 것이 편리하다. 스테레오 무음 플래그라고 하는 그러한 파라메타는, 예를 들어, 특정 사전 정의된 임계치와 활성 신호의 평균 레벨을 비교함에 의해 계산될 수 있다. 예를 들어, TD 전치 프로세서(109)의 VAD 알고리즘내에서 계산된 장기 활성 스피치 레벨(long-term active speech level) 은 스테레오 무음 플래그를 계산하기 위한 기초로서 이용될 수 있다. VAD 알고리즘에 대한 세부사항은 참고문헌[1]을 참조하면 된다.
그 다음, 스테레오 무음 플래그는 이하의 수학식을 이용하여 계산될 수 있다:
7. 비상관 스테레오 콘텐츠( UNCLR )의 분류
LRTD 스테레오 모드 및 DFT 스테레오 모드에 있어서의 UNCLR 분류는 로지스틱 회귀(Logistic Regression: LogReg) 모델에 기반한다(참고문헌[9] 참조). LogReg 모델은 상관 및 비상관 스테레오 신호 샘플들로 구성된 대형 라벨 데이터베이스(large labeled database)상에서 LRTD 스테레오 모드 및 DFT 스테레오 모드에 대해 개별적으로 훈련된다. 비상관 스테레오 훈련 샘플들은, 랜덤하게 선택된 모노 신호들을 조합함에 의해, 인위적으로 생성된다. 이하의 스테레오 장면들은 모노 샘플들의 그러한 인위적 믹스(artificial mix)로 시뮬레이션될 수 있다:
- 좌측 채널에 있어서의 스피커 A, 우측 채널에 있어서의 스피커 B(또는 그의 반대);
- 좌측 채널에 있어서의 스피커 A, 우측 채널에 있어서의 뮤직 사운드(또는 그의 반대);
- 좌측 채널에 있어서의 스피커 A, 우측 채널에 있어서의 잡음 사운드(또는 그의 반대);
- 좌측 또는 우측 채널에 있어서의 스피커 A, 양 채널에 있어서의 배경 잡음;
- 좌측 또는 우측 채널에 있어서의 스피커 A, 양 채널에 있어서의 배경 뮤직.
비-제한적 구현에 있어서, 16kHz로 샘플링된 AT&T 모노 클린 스피치 데이터베이스(mono clean speech database)로부터 모노 샘플들이 선택된다. 예를 들어, 참고문헌[1]에 기술된 바와 같은 3GPP EVS 코덱의 VAD 알고리즘과 같은, 임의 편리한 VAD 알고리즘을 이용하여 모노 샘플들로부터 단지 활성 세그먼트들만이 추출된다. 비상관 콘텐츠를 가진 스테레오 훈련 데이터베이스의 전체 크기는, 대략 240MB이다. 스테레오 사운드 신호를 형성하기 위해 모노 신호들이 조합되기 전에, 모노 신호들에 대해 적용되는 레벨 조정은 없다. 레벨 조정은 이러한 프로세스 이후에만 적용된다. 각 스테레오 샘플의 레벨은 수동 모노 다운-믹스에 기초하여 -26dBov로 정규화된다. 따라서, 채널간 레벨 차이는 변경되지 않으며, 여전히, 스테레오 장면에 있어서 지배적 스피커의 위치를 결정하는 주요 인자로 존재한다.
상관 스테레오 훈련 샘플들은 스테레오 사운드 신호들의 여러 실제 녹음으로부터 획득된다. 상관 스테레오 콘텐츠를 가진 훈련 데이터베이스의 전체 크기는 대략 220MB이다. 상관 스테레오 훈련 샘플들은, 비-제한적 구현에 있어서, 실제 녹음을 위해 수립된 스테레오 장면의 평면을 보여주는 도 4에 도시된 이하의 장면들로부터의 샘플들을 포함한다:
- 마이크로폰(M1)에 가까운 위치(P1)에 있는 스피커(S1), 마이크로폰(M6)에 가까운 위치(P2)에 있는 스피커(S2);
- 마이크로폰(M3)에 가까운 위치(P4)에 있는 스피커(S1), 마이크로폰(M4)에 가까운 위치(P3)에 있는 스피커(S2);
- 마이크로폰(M1)에 가까운 위치(P6)에 있는 스피커(S1), 마이크로폰(M2)에 가까운 위치(P5)에 있는 스피커(S2);
- M1-M2 스테레오 녹음에 있어서 위치(P4)에만 있는 스피커(S1);
- M3-M4 스테레오 녹음에 있어서 위치(P4)에만 있는 스피커(S1).
훈련 데이터베이스의 전체 크기는 아래와 같다:
여기에서, 은 비상관 훈련 데이터베이스의 전체 피처 세트이고, 은 상관 훈련 데이터베이스의 전체 피처 세트이다. 이러한 예시적인 비-제한적 구현에 있어서, 불활성 프레임(VAD=0)들은 훈련 데이터베이스로부터 폐기된다.
비상관 훈련 데이터베이스에 있어서의 각 프레임은 "1"로 라벨링되고, 상관 훈련 데이터베이스에 있어서의 각 프레임은 "0"으로 라벨링된다. VAD=0인 불활성 프레임들은 훈련 프로세스동안 무시된다.
7.1
LRTD
스테레오
모드에
있어서의
UNCLR
분류
LRTD 스테레오 모드에 있어서, 스테레오 사운드 신호(190)를 코딩하는 방법(150)은, 비상관 스테레오 콘텐츠(UNCLR)의 분류 동작(161)을 구비한다. 동작(161)을 수행하기 위하여, 스테레오 사운드 신호(190)를 코딩하는 디바이스(100)는 UNCLR 분류기(111)를 구비한다.
LRTD 스테레오 모드에 있어서의 UNCLR 분류 동작(161)은, 로지스틱 회귀(LogReg) 모델에 기반한다. 비상관 스테레오 및 상관 스테레오 훈련 데이터베이스에 대해 스테레오 사운드 신호를 코딩하기 위한 디바이스(100)(스테레오 코덱)를 실행시킴에 의해 추출되는 이하의 피처들은, UNCLR 분류 동작(161)에서 이용된다:
- 좌측 채널(L)과 모노 신호(M)간의 내적과, 우측 채널과 모노 채널(M)간의 내적 간의 로그 도메인에 있어서의 절대차(absolute difference) (수학식 (20));
전체적으로, UNCLER 분류기(111)는 F=8개의 피처들을 이용한다.
훈련 프로세스 전에, UNCLR 분류기(111)는 피처들의 세트를 정규화하는 서브 동작(도시되지 않음)을 수행하는 정규화기(도시되지 않음)를 구비하는데, 그러한 정규화는 피처들의 세트의 평균을 제거하고, 피처들의 세트를 단위 분산(unit variance)으로 스케일링함에 의해 이루어진다. 그 목적을 위해, 정규화기(도시되지 않음)는, 예를 들어, 이하의 수학식을 이용한다:
여기에서, f i,raw 는 세트의 i번째 피처이고, f i 는 정규화된 i번째 피처이며, 는 훈련 데이터베이스에 걸쳐 i번째 피처의 글로벌 평균(global mean)이고, 는 훈련 데이터베이스에 걸쳐 i번째 피처의 글로벌 분산이다.
UNCLR 분류기(111)에 의해 이용되는 LogReg 모델은 실수 피처(real-valued feature)를 입력 벡터로 간주하며, 입력이, 비상관 스테레오 콘텐츠(UNCLR)를 나타내는 비상관 클래스(0)에 속할 확률에 대해 예측한다. 이를 위해, UNCLR 분류기(111)는 입력 스테레오 사운드 신호(190)에 있어서의 비상관 스테레오 콘텐츠를 나타내는 스코어(score)를 계산하는 서브 동작(도시되지 않음)을 수행하는 스코어 계산기를 구비한다. 스코어 계산기(도시되지 않음)는, 이하의 수학식을 이용하여 표시될 수 있는 추출된 피처들의 선형 회귀 형태의, 실수화된(real-valued) LogReg 모델의 출력을 계산한다:
여기에서, bi는 LogReg 모델의 계수들을 나타내고, fi는 개별 피처를 나타낸다. 실수 출력 yp은, 예를 들어, 이하의 로지스틱 함수를 이용하여 확률로 변환된다:
직감적으로, 1에 보다 근접한 확률은, 현재 프레임이 스테레오 비상관될 확률이 높다는 것, 즉, 비상관 스테레오 콘텐츠를 가짐을 의미한다.
학습 프로세스의 목적은, 훈련 데이터에 기초하여 계수들 에 대한 최선의 값들을 발견하기 위한 것이다. 계수들은 훈련 데이터베이스상의 예측된 출력 과 실제 출력(true output) y간의 차이를 최소화함에 의해 반복적으로 발견된다. LRTD 스테레오 모드에 있어서 UNCLR 분류기(111)는, 예를 들어, 전체 콘텐츠가 본 명세서에 참고로서 수록되는 참고문헌[10]에 기술된 바와 같은, SGD(Stochastic Gradient Descent)를 이용하여 훈련된다.
확률적 출력 을 고정된 임계치, 예를 들어, 0.5와 비교함에 의해, 이진 분류를 할 수 있다. 그러나, LRTD 스테레오 모드에 있어서의 UNCLR 분류 목적을 위해, 확률적 출력 은 이용되지 않으며, LogReg 모델의 원시 출력(raw output) yp이 아래와 같이 추가로 프로세싱된다.
UNCLR 분류기(111)의 스코어 계산기(도시되지 않음)는, 예를 들어, 도 5에 도시된 바와 같은, 함수를 이용하여 LogReg 모델의 원시 출력을 먼저 정규화한다. 도 5에는 LRTD 스테레오 모드에 있어서의 UNCLR 분류에 있어서 LogReg 모델의 원시 출력에 적용되는 정규화 함수를 나타낸 그래프가 도시된다.
도 5의 정규화 함수는 아래와 같이 수학적으로 기술될 수 있다:
7.1.1 상대 프레임 에너지에
기반한
LogReg
출력
가중화
(output weighting)
Erl(n)은 수학식(69)에 의해 기술된 상대 프레임 에너지이다. LogReg 모델의 가중된 출력 은 입력 스테레오 사운드 신호(190)에 있어서의 비상관 스테레오 콘텐츠를 나타내는 상술한 "스코어"로서 지칭된다.
7.1.2 상승 에지 검출
스코어 는, 그것이 불완전한 통계적 모델로부터 결과하는 간헐적인 단기 "피크들"(short-term "peaks")을 포함하기 때문에, UNCLR 분류를 위한 UNCLR 분류기(111)에 의해 직접 이용될 수 없다. 이 피크들은 1차 IIR 필터와 같은 간단한 평균화 필터에 의해 필터 제거될 수 있다. 불행하게도, 그러한 평균화 필터의 적용은, 통상적으로, 입력 스테레오 사운드 신호(190)에 있어서의 스테레오 상관 콘텐츠와 스테레오 비상관 콘텐츠간의 천이를 나타내는 상승 에지의 스미어링(smearing)으로 결과한다. 상승 에지를 유지시키기 위해, 입력 스테레오 사운드 신호(190)에서 상승 에지가 검출되면, 평활화 프로세스(평균화 IIR 필터의 적용)가 감소되거나 중지된다. 입력 스테레오 사운드 신호(190)에 있어서의 상승 에지의 검출은, 상대 프레임 에너지 Erl(n)의 진화를 분석함에 의해 이루어진다.
상대 프레임 에너지 Erl(n)의 상승 에지는 P=20의 동일한 1차 RC(Resistor-Capacitor) 필터들의 캐스케이드(cascade)로 상대 프레임 에너지를 필터링함에 의해 발견되며, 그 필터들의 각각은, 예를 들어, 이하의 형태를 가진다:
단일 파라메타 τedge는 각 RC 필터의 시상수를 제어하는데 이용된다. 실험적으로, τedge=0.3로 양호한 결과가 달성됨을 알게 되었다. P=20 RC 필터들의 캐스케이드로 상대 프레임 에너지 Erl(n)를 필터링하는 것은, 다음과 같이 수행될 수 있다:
윗첨자 p = 0, 1,...,P-1은 RC 필터 캐스케이드에 있어서의 스테이지(stage)를 나타내기 위해 추가되었다. RC 필터의 캐스케이드의 출력은 마지막 스테이지로부터 출력과 동일하다. 즉, 아래와 같다:
단일의 고차원 RC 필터 대신에 1차원 RC 필터들의 캐스케이드를 이용하는 이유는, 계산적인 복잡성을 줄이기 위한 것이다. 다수의 1차원 RC 필터들의 캐스케이드는 상대적으로 명확한 계단 함수(sharp step function)를 가진 저역 통과 필터로서 작용한다. 상대 프레임 에너지 Erl(n)에 대해 이용될 때, 그것은 간헐적인 단기 스파이크(spike)들을 스미어 제거(smear out)하면서 온셋(onset) 및 오프셋(offset)과 같은 느리지만 중요한 천이를 유지시키는 경향이 있다. 상대 프레임 에너지 Erl(n)의 상승 에지는, 예를 들어, 이하의 수학식을 이용하여, 상대 프레임 에너지와 필터링된 출력 간의 차이를 계산함에 의해 수량화될 수 있다:
항 은 간격(0,9;0,95>으로 제한된다. UNCLR 분류기(111)의 스코어 계산기(도시되지 않음)는, 예를 들어, 이하의 수학식을 이용하여, 을 망각 인자(forgetting factor)로서 이용하는 IIR 필터로, LogReg 모델의 정규화되고 가중화된 출력 을 평활화함으로써, 정규화되고 가중화되며 평활화된 스코어(LogReg 모델의 출력)를 생성한다:
7.2
DFT
스테레오
모드에
있어서의
UNCLR
분류
DFT 스테레오 모드에 있어서, 스테레오 사운드 신호(190)를 코딩하는 방법(150)은 비상관 스테레오 콘텐츠(UNCLR)의 분류 동작(163)을 구비한다. 동작(163)을 수행하기 위하여, 스테레오 사운드 신호(190)를 코딩하는 디바이스(100)는 UNCLR 분류기(113)를 구비한다.
DFT 스테레오 모드에 있어서의 UNCLR 분류는, 상술한 LRTD 스테레오 모드에 있어서의 UNCLR 분류와 유사하게 이루어진다. 특히, DFT 스테레오 모드에 있어서의 UNCLR 분류는 로지스틱 회귀(LogReg) 모델에 기초한다. 간단히, LRTD 스테레오 모드에 있어서의 UNCLR 분류로부터 특정 파라메타들을 나타내는 심볼들/이름들 및 그와 연관된 수학적 심볼들은 DFT 스테레오 모드에 대해서도 이용된다. 아랫첨자들은, 동시에 다수의 섹션들로부터의 동일 파라메타를 참조할 때 애매함을 피하기 위해 추가된다.
스테레오 비상관 및 상관 훈련 데이터베이스에 대해 스테레오 사운드 신호를 코딩하는 디바이스(스테레오 코덱)을 실행시킴에 의해 추출되는 이하의 피처들은 DFT 스테레오 모드에 있어서의 UNCLR 분류를 위한 UNCLR 분류기(113)에 의해 이용된다:
- 예측 이득 gpred (수학식 (52));
- 채널간 코히어런스의 평균 에너지 Ecoh (수학식 (55));
- 최대 및 최소 채널내 크기 곱들의 비율 rpp (수학식 (57));
전체적으로, UNCLR 분류기(113)는 F=8개의 피처들을 이용한다.
훈련 프로세스 전에, UNCLR 분류기(113)는 피처들의 세트를 정규화하는 서브-동작(도시되지 않음)을 수행하는 정규화기(도시되지 않음)를 구비하는데, 그 정규화는 피처들의 세트의 평균을 제거하고, 피처들의 세트를 단위 분산으로 스케일링함에 의해 이루어진다. 정규화기(도시되지 않음)는, 그를 위해, 예를 들어, 이하의 수학식을 이용한다:
여기에서, f i,raw 는 세트의 i번째 피처이고, 는 전체 훈련 데이터베이스에 걸쳐 i번째 피처의 글로벌 평균(global mean)이고, 는 전체 훈련 데이터베이스에 걸쳐 i번째 피처의 글로벌 분산이다. 글로벌 평균 및 글로벌 분산 은 수학식 (81)에서 이용된 동일 파라메타들과 다르다.
DFT 스테레오 모드에 이용되는 LogReg 모델은 LRTD 스테레오 모드에서 이용된 LogReg 모델과 유사하다. LogReg 모델의 출력 yp은 수학식 (82)에 의해 기술되며, 현재 프레임이 비상관 스테레오 콘텐츠(class=0)를 가질 확률은 수학식(83)에 의해 주어진다. 최적 결정 임계치를 발견하기 위한 분류기 훈련 프로세스 및 절차는 상기에서 설명되었다. 다시, 그를 위해, UNCLR 분류기(113)는 입력 스테레오 사운드 신호(190)에 있어서의 비상관 스테레오 콘텐츠를 나타내는 스코어를 계산하는 서브-동작(도시되지 않음)을 수행하는 스코어 계산기(도시되지 않음)를 구비한다.
UNCLR 분류기(113)의 스코어 계산기(도시되지 않음)는, 우선, 도 5에 도시된 함수에 따라 및 LRTD 스테레오 모드에서와 유사하게, LogReg 모델의 원시 출력 yp을 정규화한다. 그 정규화는 아래와 같이 수학적으로 기술될 수 있다:
7.1.2 상대 프레임 에너지에 기초한
LogReg
출력
가중화
UNCLR 분류기(113)의 스코어 계산기(도시되지 않음)는, 예를 들어, 이하의 수학식을 이용하여, 상대 프레임 에너지 Erl(n)로 LogReg 모델의 정규화된 출력 을 가중화한다:
여기에서, Erl(n)은 수학식 (69)에 의해 기술된 상대 프레임 에너지이다.
LogReg 모델의 가중화되고 정규화된 출력을 "스코어"라 하며, 그것은 상술한 LRTD 스테레오 모드에서와 동일한 양을 나타낸다. DFT 스테레오 모드에 있어서, 스코어 는, 대안적인 VAD 플래그 (수학식 (77))가 0으로 설정될 때, 0으로 리셋된다. 이것은 이하의 수학식으로 표현된다:
7.2.2
DFT
스테레오
모드에
있어서의 상승 에지 검출
UNCLR 분류기(113)의 스코어 계산기(도시되지 않음)는, 최종적으로, LRTD 스테레오 모드에 있어서의 UNCLR 분류에 있어서 상술한 상승 에지 검출 메커니즘을 이용하여 IIR 필터로 DFT 스테레오 모드에 있어서의 스코어 를 평활화한다. 이를 위해, UNCLR 분류기(113)는 이하의 수학식을 이용한다:
이는 수학식 (91)과 동일하다.
7.3 이진 UNCLR
결정
UNCLR 분류기(111/113)의 최종 출력은 이진 상태이다. 은 UNCLR 분류기(111/113)의 이진 상태를 나타낸다. 이진 상태 은 비상관 스테레오 콘텐츠 클래스를 나타내기 위해 값 "1"을 가지거나, 상관 스테레오 콘텐츠 클래스를 나타내기 위해 값 "0"을 가진다. UNCLR 분류기(111/113)의 출력에서의 이진 상태는 가변적이다. 그것은 "0"으로 초기화된다. UNCLR 분류기(111/113)의 상태는 특정 조건들이 충족되는 프레임들에서는 현재 클래스에서 다른 클래스로 변경된다.
스테레오 콘텐츠 클래스들간의 스위칭을 위해 UNCLR 분류기(111/113)에 이용되는 메커니즘은 도 6에 상태 머신(state mechine) 형태로 도시된다.
도 6을 참조하면,
- (a) 이전 프레임의 이진 상태 가 "1"이고(601), (b) 현재 프레임의 평활화된 스코어 가 "-0.07"보다 작고(602), (c) 이전 프레임의 변수 cnt sw (n-1)가 "0"보다 크면 (603), 현재 프레임의 이진 상태 는 "0"으로 스위칭되고(604);
- (a) 이전 프레임의 이진 상태 가 "1"이고(601), (b) 현재 프레임의 평활화된 스코어 가 "-0.07"보다 작지 않으면(602), 현재 프레임에 있어서의 이진 상태 의 스위칭은 없으며;
- (a) 이전 프레임의 이진 상태 가 "1"이고(601), (b) 현재 프레임의 평활화된 스코어 가 "-0.07"보다 작고(602), (c) 이전 프레임의 변수 cnt sw (n-1)가 "0"보다 크지 않으면 (603), 현재 프레임에 있어서의 이진 상태 의 스위칭은 없다.
동일한 방식으로, 도 6을 참조하면,
- (a) 이전 프레임의 이진 상태 가 "0"이고(601), (b) 현재 프레임의 평활화된 스코어 가 "0.1"보다 크고(605), (c) 이전 프레임의 변수 cnt sw (n-1)는 "0"보다 크면 (606), 현재 프레임의 이진 상태 는 "1"으로 스위칭되고(607);
- (a) 이전 프레임의 이진 상태 가 "0"이고(601), (b) 현재 프레임의 평활화된 스코어 가 "0.1"보다 크지 않으면(605), 현재 프레임에 있어서의 이진 상태 의 스위칭은 없다;
- (a) 이전 프레임의 이진 상태 가 "0"이고(601), (b) 현재 프레임의 평활화된 스코어 가 "0.1"보다 크고(605), (c) 이전 프레임의 변수 cnt sw (n-1)가 "0"보다 크지 않으면 (606), 현재 프레임에 있어서의 이진 상태 의 스위칭은 없다.
마지막으로, 현재 프레임에 있어서의 변수 cnt sw (n)는 갱신되고(608), 그 절차는 다음 프레임(609)에 대해 반복된다.
변수 cnt sw (n)는 LRTD 및 DFT 스테레오 모드들간의 스위칭이 가능한 UNCLR 분류기(111/113)의 프레임들의 카운터이다. 이 카운터는, 0으로 초기화되고, 예를 들어, 아래의 로직을 이용하여 각 프레임에서 갱신된다(608):
카운터 cntsw(n)는 100의 상한을 가진다. 변수 ctype는 스테레오 사운드 신호를 코딩하는 디바이스(100)에 있어서 현재 프레임의 유형을 나타낸다. 프레임 유형은, 통상적으로, 스테레오 사운드 신호를 코딩하는 디바이스(100)(스테레오 사운드 코덱)의 전치 프로세싱 동작, 특히, 전치 프로세서(들)(103/104/109)에서 결정된다. 현재 프레임의 유형은, 통상적으로, 입력 스테레오 사운드 신호(190)의 이하의 특성들에 기초하여 선택된다:
- 피치 기간(pitch period)
- 보이싱(voicing)
- 스펙트럼 기울기(spectral tilt)
- 영 교차율(zero-crossing rate)
- 프레임 에너지 차이(단기, 장기).
비-제한적 예시로서, 참고문헌[1]에 기술된 3GPP EVS 코덱으로부터의 프레임 유형은, UNCLR 분류기(111/113)에서, 수학식 (97)의 파라메타 ctype로서 이용될 수 있다. 3GPP EVS 코덱에 있어서의 프레임 유형은 이하의 클래스들의 세트로부터 선택된다:
수학식 (97)에 있어서의 파라메타 VAD0은 임의 행오버 추가가 없는 VAD 플래그이다. 행오버 추가가 없는 VAD 플래그는 스테레오 사운드 신호를 코딩하는 디바이스(100)(스테레오 사운드 코덱)의 전치 프로세싱 동작, 특히, TD 전치 프로세서(들)(103/104/109)에서 계산된다. 비-제한적 예시로서, 참고문헌[1]에 기술된 3GPP EVS 코덱으로부터의 행오버 추가가 없는 VAD 플래그는 UNCLR 분류기(111/113)에서 파라메타 VAD0으로 이용될 수 있다.
UNCLR 분류기(111/113)의 출력 이진 상태 는, 현재 프레임의 유형이, GENERIC, UNVOICED 또는 INACTIVE이거나, 행오버 추가가 없는 VAD 플래그가, 입력 스테레오 사운드 신호에 있어서의 불활성을 나타내면(VAD0=0), 변경될 수 있다. 일반적으로, 그러한 프레임은 LRTD 및 DFT 스테레오 모드들간의 스위칭에 적합할 수 있는데, 이는 그들이 안정한 세그먼트들 또는 품질에 대한 영향이 지각적으로 낮은 세그먼트들에 위치하기 때문이다. 목적은 스위칭 아티팩트(switch artifact) 위험을 최소화하는 것이다.
8. 크로스-토크(
XTALK
)의 검출
XTALK 검출은 LRTD 스테레오 모드 및 DFT 스테레오 모드에 대해 개별적으로 훈련되는 LogReg 모델에 기초한다. 두 통계적 모델들은 인위적으로 준비된 스테레오 샘플들과 실제 스테레오 녹음들의 대형 데이터베이스로부터 수집된 피처들에 대해 훈련된다. 훈련 데이터베이스에 있어서, 각 프레임은 싱글-토크 또는 크로스-토크로서 라벨링된다. 그 라벨링은 실제 스테레오 녹음들의 경우에는 수동적으로 또는 인위적으로 준비된 샘플들의 경우에는 반자동으로 수행된다. 수동 라벨링은 크로스-토크 특성들을 가진 짧고 콤팩트한 세그먼트들을 식별함에 의해 이루어진다. 반자동 라벨링은, 스테레오 신호들로의 믹싱전에, 모노 신호들로부터의 VAD 출력들을 이용하여 이루어진다. 세부 설명은 본 섹션 8의 마지막에 제공된다.
본 개시에서 기술한 구현의 비-제한적 예시에 있어서, 실제 스테레오 녹음들은 32kHz로 샘플링된다. 이러한 실제 스테레오 녹음들의 전체 크기는 대략 30분에 대응하는 대략 263MB이다. 인위적으로 준비된 스테레오 샘플들은 ITU-T G.191 반향 툴(reverberation tool)을 이용하여 모노 클린 스피치 데이터베이스로부터 랜덤하게 선택된 스피커들을 믹싱함에 의해 생성된다. 인위적으로 준비된 스테레오 샘플들은 도 7에 도시된 바와 같이 AB 마이크로폰 구성을 가진 대형 회의실내에서 조건들을 시뮬레이션함에 의해 준비된다. 도 7에는 XTALK 검출을 위한 조건들이 시뮬레이션되는 AB 마이크로폰 구성을 가진 대형 회의실의 개략적인 평면도가 도시된다.
2개 유형의 룸(room), 즉, 반향(LEAB) 및 무반향(LAAB)이 고려된다. 도 7을 참조하면, 룸의 각 유형에 대해, 제 1 스피커(S1)는 위치들(P4, P5 또는 P6)에 있고, 제 2 스피커(S2)는 위치들(P10, P11 및 P12)에 있다. 각 스피커(S1 및 S2)의 위치는 훈련 샘플들의 준비동안에 랜덤하게 선택된다. 그러므로, 스피커(S1)는, 항상, 시뮬레이션되는 제 1 마이크로폰(M1)에 가까이 있고, 스피커(S2)는 항상 시뮬레이션되는 제 2 마이크로폰(M2)에 가까이 있다. 마이크로폰들(M1 및 M2)은, 도 7에 도시된 비-제한적 구현에 있어서 전방향성이다. 한쌍의 마이크로폰들(M1 및 M2)은 시뮬레이션되는 AB 마이크로폰 구성을 구성한다. 모노 샘플들은 추가 프로세싱 전에 훈련 데이터베이스로부터 랜덤하게 선택되고, 32kHz로 다운-샘플링되며, -26dBov(dB(overload))(클리핑(clipping)이 발생하기 전에 디바이스가 조정할 수있는 최대치와 비교되는 오디오 신호의 크기)로 정규화된다. ITU-T G.191 반향 툴은 각 스피커/마이크로폰 쌍에 대한 RIR(Room Impulse Response)의 실제 측정들의 데이터베이스를 포함한다.
스피커들(S1 및 S2)에 대해 랜덤하게 선택된 모노 샘플들은 주어진 스피커/마이크로폰 위치에 대응하는 RIR들로 콘볼루션(convolution)되며, 그에 의해 실제 AB 마이크로폰 포획이 시뮬레이션된다. 각 마이크로폰(M1 및 J2)에 있어서 양 스피커들(S1 및 S2)로부터의 기여가 함께 추가된다. 4-4.5초 범위내의 랜덤하게 선택된 오프셋이 콘볼루션 전에 스피커 샘플들 중 하나에 추가된다. 이것은, 모든 훈련 문장들에 있어서 짧은 크로스-토크 스피치 기간 및 또 다른 싱글-토크 스피치 기간이 뒤따르는 얼마간의 싱글-토크 기간이 항상 존재함을 보장한다. RIR 콘볼루션 및 믹싱 후, 샘플들은 다시 -26dBov로 정규화되며, 이 시간은 수동 모노 다운-믹스에 적용된다.
라벨들은, 참고문헌[1]에 기술된 3GPP EVS 코덱의 VAD 알고리즘과 같은, 통상적인 VAD 알고리즘을 이용하여 반자동으로 생성된다. VAD 알고리즘은 제 1 스피커(S1) 파일과 제 2 스피커(S2) 파일에 개별적으로 적용된다. 그 다음, 이진 VAD 결정들은 논리 "AND"에 의해 조합된다. 이것은 라벨 파일(label file)로 결과한다. 조합된 출력이 "1"인 세그먼트들은 크로스-토크 세그먼트들을 결정한다. 이것은, VAD를 이용하여 크로스-토크 샘플들의 자동 라벨링을 도시한 그래프를 보여주는 도 8에 도시된다. 도 8에 있어서, 제 1 라인은 스피커(S1)으로부터의 스피치 샘플을 보여주고, 제 2 라인은 스피커(S1)으로부터의 스피치 샘플에 대한 이진 VAD 결정을 보여주며, 제 3 라인은 스피커(S2)로부터의 스피치 샘플을 보여주고, 제 4 라인은 스피커(S2)로부터의 스피치 샘플에 대한 이진 VAD 결정을 보여주며, 제 5 라인은 크로스-토크 세그먼트의 위치를 보여준다.
훈련 세트는 불균형적이다. 싱글-토크 프레임들에 대한 크로스-토크 프레임들의 비율은 대략, 1 내지 5이며, 즉, 훈련 데이터베이스의 단지 약 21%만이 크로스-토크 클래스에 속한다. 이것은, 전체 콘텐츠가 본 명세서에 참조로서 수록되는 참고문헌[6]에 기술된 바와 같이 클래스 가중치를 적용함에 의해 LogLeg 훈련 프로세스 동안에 보상된다.
훈련 샘플들은 연쇄되어, 스테레오 사운드 신호를 코딩하는 디바이스(100)(스테레오 사운드 코덱)에 대한 입력으로서 이용된다. 그 피처들은 각각의 20ms 프레임에 대한 인코딩 프로세싱동안 개별적인 파일들내에 개별적으로 수집된다. 이것은 훈련 피처 세트를 구성한다. 훈련 피처 세트에 있어서의 프레임들의 전체 개수는 다음과 같이 나타낼 수 있다:
대응하는 이진 라벨은 다음과 같이 나타낼 수 있다:
여기에서, 은 전체 크로스-토크 프레임들의 슈퍼셋(superset)이고, 은 전체 싱글-토크 프레임들의 슈퍼셋이다. 불활성 프레임들(VAD=0)은 훈련 데이터베이스로부터 제거된다.
8.1
LRTD
스테레오
모드에
있어서의
XTALK
검출
LRTD 스테레오 모드에 있어서, 스테레오 사운드 신호를 코딩하는 방법(150)은 크로스-토크(XTALK)를 검출하는 동작(160)을 구비한다. 동작(160)을 수행하기 위하여, 스테레오 사운드 신호를 코딩하는 디바이스(100)는 XTALK 검출기(110)를 구비한다.
LRTD 스테레오 모드에 있어서의 크로스-토크(XTALK)를 검출하는 동작(160)은, 상술한 LRTD 스테레오 모드에 있어서의 UNCLR 분류에 대해서도 유사하게 수행된다. XTALK 검출기(110)는 로지스틱 회귀(LogReg) 모델에 기초한다. 간단히, UNCLR 분류로부터의 파라메타들의 이름 및 그와 연관된 수학적 심볼들이 이 섹션에 이용된다. 다른 섹션들로부터의 동일 파라메타 이름들을 언급할 때 애매성을 피하기 위해 아랫첨자가 심볼들에 추가된다.
이하의 피처들은 XTALK 검출기(110)에 의해 이용된다:
- 최대 자기 상관의 L/R 차이 dv (수학식 (25));
- 상관 맵의 L/R 차이 dcmap (수학식 (27));
- 잡음 특성들의 L/R 차이 dnchar (수학식 (29));
- 비-정상성의 L/R 차이 dsta (수학식 (26));
- 스펙트럼 다이버시티의 L/R 차이 dsdiv (수학식 (28));
- 좌측 채널과 모노 신호간 및 우측 채널과 모노 신호간의 내적들의 최대치와 최소치간의 차이 dmmLR (수학식 (19));
- 채널간 상관 함수의 최대치 Rmax (수학식 (10));
따라서, XTALK 검출기(110)는 전체 F=17개의 피처들을 이용한다.
훈련 프로세스 전, XTALK 검출기(110)는 17 피처들의 세트를 정규화하는 서브-동작(도시되지 않음)을 수행하는 정규화기(도시되지 않음)을 구비하는데, 그 정규화는 피처들의 세트의 평균을 제거하고, 피처들의 세트를 단위 분산으로 스케일링함에 의해 이루어진다. 정규화기(도시되지 않음)는, 예를 들어, 이하의 수학식을 이용한다:
여기에서, f i,raw 는 세트의 i번째 피처를 나타내고, 는 훈련 데이터베이스에 걸쳐 i번째 피처의 글로벌 평균을 나타내며, 는 훈련 데이터베이스에 걸쳐 i번째 피처의 글로벌 분산을 나타낸다. 여기에서, 수학식 (100)에 이용되는 파라메타들 과 은 수학식 (81)에 이용되는 동일 파라메타들과 다르다.
LogLeg 모델의 출력 yp은 수학식 (82)에 의해 기술되며, 현재 프레임이 크로스-토크 세그먼트 클래스(class 0)에 속할 확률 p(class=0)은 수학식 (83)에 의해 주어진다. 최적 결정 임계치를 발견하기 위한 훈련 프로세스 및 절차의 세부 설명은 상기한 LRTD 스테레오 모드에 있어서의 UNCLR 분류의 설명에서 제공된다. 상술한 바와 같이, 이를 위해, XTALK 검출기(110)는 입력 스테레오 사운드 신호(190)에 있어서의 비상관 스테레오 콘텐츠를 나타내는 스코어를 계산하느 서브-동작(도시되지 않음)을 수행하는 스코어 계산기(도시되지 않음)를 구비한다.
XTALK 검출기(110)의 스코어 계산기(도시되지 않음)는, 예를 들어, 도 10에 도시되고 추가 프로세싱되는 함수로 LogReg 모델의 원시 출력 yp을 정규화한다. 도 9는 LRTD 스테레오 모드에 있어서의 XTALK 검출에 있어서 LogReg 모델의 원시 출력을 스케일링하는 함수를 나타내는 그래프이다. 그러한 정규화는, 아래와 같이 수학적으로 기술될 수 있다:
이전 프레임이 DFT 스테레오 모드로 인코딩되었고 현재 프레임이 LRTD 스테레오 모드로 인코딩되면, LogReg 모델의 정규화된 출력은 0으로 설정된다. 그러한 절차는 스위칭 아티팩트를 방지한다.
8.1.1 상대 프레임 에너지에
기반한
LogReg
출력
가중화
XTALK 검출기(110)의 스코어 계산기(도시되지 않음)는 상대 프레임 에너지 Erl(n)에 기초하여, LogReg 모델의 정규화된 출력 을 가중화한다. LRTD 스테레오 모드에 있어서 XTALK 검출기(110)에 적용되는 가중화 기법은, 상술한 바와 같은 LRTD 스테레오 모드에 있어서의 UNCLR 분류기(111)에 적용되는 가중화 기법과 유사하다. 주요한 차이는, 상대 프레임 에너지 Erl(n)가 수학식 (85)에서 처럼 직접 곱셈 인자로서 이용되지 않는다는 것이다. 대신에, XTALK 검출기(110)의 스코어 계산기(도시되지 않음)는 간격 <0;0.95>내로 상대 프레임 에너지 Erl(n)를 반비례(inverse proportion)로 선형적으로 매핑시킨다. 이러한 매핑은, 예를 들어, 이하의 수학식을 이용하여 이루어질 수 있다:
따라서, 보다 높은 상대 에너지를 가진 프레임들에서는, 그 가중치가 0에 가까울 것이고, 반면, 낮은 에너지를 가진 프레임들에서는 그 가중치가 0.95에 가까울 것이다. 그 다음, XTALK 검출기(110)의 스코어 계산기(도시되지 않음)는, 예를 들어, 이하의 수학식을 이용하여, LogReg 모델의 정규화된 출력 을 필터링하기 위해 가중치 를 이용한다:
여기에서, 인덱스 n은 현재 프레임을 나타내고, n-1은 이전 프레임을 나타낸다.
8.1.2 상승 에지 검출
LRTD 스테레오 모드에 있어서의 UNCLR 분류에서와 유사한 방식으로, XTALK 검출기(110)의 스코어 계산기(도시되지 않음)는 LogReg 모델의 정규화되고 가중화된 출력 을 평활화한다. 그 이유는, 오탐 또는 에러로 결과할 수 있는 간헐적인 단기 "피크들" 및 "K(dip)들"을 스미어 제거하기 위한 것이다. 평활화는, 이러한 상승 에지가 입력 스테레오 사운드 신호(190)에 있어서의 크로스-토크와 싱글-토크간의 중요한 천이를 나타내기 때문에, LogReg 출력의 상승 에지를 유지시키도록 고안된다. LRTD 스테레오 모드에 있어서의 XTALK 검출기(110)에 있어서 상승 에지의 검출을 위한 메커니즘은 LRTD 스테레오 모드의 UNCLR 분류와 관련하여 상기한 상승 에지의 검출 메커니즘과 다르다.
XTALK 검출기(110)에 있어서, 상승 에지 검출 알고리즘은 이전 프레임으로부터의 LogReg 출력값을 분석하고, 그들을 다른 경사들을 가진 사전 계산된 "이상적인" 상승 에지들의 세트와 비교한다. "이상적인" 상승 에지들은 프레임 인덱스 n의 선형 함수로서 표현된다. 도 10은 LRTD 스테레오 모드에 있어서의 XTALK 검출기(110)에 있어서 상승 에지들을 검출하는 메커니즘을 도시한 그래프이다. 도 10을 참조하면, x축은 현재 프레임 0에 선행하는 프레임들의 인덱스들 n을 포함한다. 작은 회색 직사각형은 현재 프레임에 선행하는 6개 프레임들 기간에 걸쳐서의 XTALK 스코어 의 예시적 출력이다. 도 10으로부터 알 수 있는 바와 같이, XTALK 스코어 에서 상승 에지는 현재 프레임 전에 3개의 프레임들에서 시작한다. 점선들은 서로 다른 길이들의 세크먼트들에 대한 "이상적인" 상승 에지들의 세트를 나타낸다.
각각의 "이상적인" 상승 에지에 대하여, 상승 에지 검출 알고리즘은 점선 라인과 XTALK 스코어 간의 평균 제곱 오차를 계산한다. 상승 에지 검출 알고리즘의 출력은 테스트된 "이상적인" 상승 에지들간의 최소 평균 제곱 오차이다. 점선으로 표시된 선형 함수는, 각각, 최소치 및 최대치, 즉, 와 에 대해 사전 정의된 임계치들에 기초하여 사전 계산된다. 이것은 도 10에서 크고 밝은 회색의 사각형으로 도시된다. 각각의 "이상적인" 상승 에지 선형 함수들의 경사는 최소 및 최대 임계치에 의존하며, 세그먼트의 길이에 의존한다.
이하의 기준을 충족시키는 프레임들에 있어서만 XTALK 검출기(110)에 의해 상승 에지 검출이 수행된다:
여기에서, K는 테스트된 상승 에지의 최대 길이이다.
상승 에지 검출 알고리즘의 출력값은 로 나타낸다. 아래첨자 "0_1"의 이용은, 상승 에지 검출의 출력값이 <0;1>내로 제한된다는 사실을 강조한 것이다. 수학식 (104)에 있어서의 기준을 충족하지 못하는 프레임들의 경우, 상승 에지 검출의 출력값은 0으로 바로 설정된다. 즉,
이다.
테스트된 "이상적인" 상승 에지들을 나타내는 선형 함수들의 세트는 수학적으로 이하의 수학식으로 나타낼 수 있다:
여기에서, 인덱스 l은 테스트된 상승 에지의 길이를 나타내고, n-k는 프레임 인덱스이다. 각 선형 함수의 경사는 3개의 파라메타들, 즉, 테스트된 상승 에지의 길이 l, 최소 임계치 및 최대 임계치 에 의해 결정된다. LRTD 스테레오 모드에 있어서의 XTALK 검출기(110)의 목적을 위해, 임계치들은 및 로 설정된다. 이 임계치들의 값은 실험적으로 발견되었다.
테스트된 상승 에지의 각 길이에 대해, 상승 에지 검출 알고리즘은, 예를 들어, 이하의 수학식을 이용하여, 선형 함수 t(수학식 (106))와 XTALK 스코어 간의 평균 제곱 오차를 계산한다:
최소 평균 제곱 오차는, 아래의 수학식을 이용하여, XTALK 검출기(110)에 의해 계산된다:
최소 평균 제곱 오차가 낮아지면, 검출된 상승 에지는 강해진다. 비-제한적 구현에 있어서, 최소 평균 제곱 오차가 0.3보다 크면, 상승 에지 검출의 출력은 0으로 설정된다. 즉,
이며, 상승 에지 검출 알고리즘은 중지된다. 모든 다른 경우들에 있어서, 최소 평균 제곱 오차는, 예를 들어, 이하의 수학식을 이용하여, 간격 <0;1>내로 선형적으로 매핑될 수 있다:
상술한 예시에 있어서, 상승 에지 검출의 출력과 최소 평균 제곱 오차간의 관계는 반비례한다.
XTALK 검출기(110)는, 예를 들어, 이하의 수학식을 이용하여 계산된 에지 선예도 파라메타들(edge sharpness parameters)을 생성하기 위하여, 간격 <0,5;0,9>내에서 상승 에지 검출의 출력을 정규화한다:
0,5와 0,9는, 각각, 하한과 상한으로서 이용된다.
마지막으로, XTALK 검출기(110)의 스코어 계산기(도시되지 않음)는, 망각 인자를 대신하여 이 이용되는, XTALK 검출기(110)의 IIR 필터에 의해, LogReg 모델의 정규화되고 가중화된 출력 을 평활화한다. 그러한 평활화는, 예를 들어, 이하의 수학식을 이용한다:
이다.
8.2
DFT
스테레오
모드에
있어서의 크로스-토크의 검출
DFT 스테레오 모드에 있어서, 스테레오 사운드 신호(190)를 코딩하는 방법(150)은 크로스 토크(XTALK)를 검출하는 동작(162)을 구비한다. 동작(162)을 수행하기 위하여, 스테레오 사운드 신호(190)를 코딩하는 디바이스(100)는 XTALK 검출기(112)를 구비한다.
DFT 스테레오 모드에 있어서의 XTALK 검출은 LRTD 스테레오 모드에 있어서의 XTALK 검출과 유사하게 실행된다. 로지스틱 회귀(LogReg) 모델은 입력 피처 벡터의 이진 분류에 이용된다. 간단히, LRTD 스테레오 모드에 있어서의 XTALK 검출로부터의 특정 파라메타들의 이름 및 그들과 연관된 수학적 심볼들이 본 섹션에서 또한 이용된다. 아래첨자는 2개의 섹션으로부터의 동일한 파라메타들이 동시에 언급될 때, 애매성을 피하기 위해 추가된다.
이하의 피처들은, 싱글-토그 및 크로스-토크 훈련 데이터베이스에 대해 DFT 스테레오 모드를 실행시킴에 의해 스테레오 사운드 신호(190)를 코딩하기 위한 디바이스(100)로부터 추출된다:
전체적으로, XTALK 검출기(112)는 F=11개의 피처들을 이용한다.
훈련 프로세스 전에, XTALK 검출기(112)는 추출된 피처들의 세트를 정규화하는 서브-동작(도시되지 않음)을 수행하는 정규화기(도시되지 않음)를 구비하는데, 그 정규화는, 예를 들어, 이하의 수학식을 이용하여, 피처들의 세트의 글로벌 평균을 제거하고, 피처들의 세트를 단위 분산으로 스케일링함에 의해 이루어진다:
여기에서, f i,raw 는 세트의 i번째 피처를 나타내고, f i 는 정규화된 i번째 피처이며, 는 훈련 데이터베이스에 걸쳐서의 i번째 피처의 글로벌 평균(global mean)이고, 는 훈련 데이터베이스에 걸쳐서의 i번째 피처의 글로벌 분산이다. 수학식 (115)에서 이용된 파라메타들 및 은 수학식 (81)에서 이용된 것들과 다르다.
LogReg 모델의 출력은 수학식 (82)에 전적으로 설명되며, 현재 프레임이 크로스-토크 세그먼트 클래스(클래스 0)에 속할 확률은 수학식 (83)에 의해 주어진다. 최적 결정 임계치를 발견하기 위한 절차 및 훈련 프로세스의 상세 설명은 상기의 LRTD 스테레오 모드에 있어서의 UNCLR 분류에 대한 섹션에서 제공된다. 다시 그 목적을 위해, XTALK 검출기(112)는 입력 스테레오 사운드 신호(190)에 있어서의 XTALK 검출을 나타내는 스코어를 계산하는 서브 동작(도시되지 않음)을 수행하는 스코어 계산기(도시되지 않음)를 구비한다.
XTALK 검출기(112)의 스코어 계산기(도시되지 않음)는 도 5에 도시되고 추가 프로세싱된 함수를 이용하여, LogReg 모델의 원시 출력 yp을 정규화한다. LogReg 모델의 정규화된 출력은 이다. DFT 스테레오 모드에 있어서, 상대적 프레임 에너지에 기초한 가중화는 이용되지 않는다. 그러므로, LogReg 모델의 정규화되고 가중화된 출력, 특히, XTALK 스코어는 는 아래에 의해 주어진다:
8.2.1 상승 에지 검출
LRTD 스테레오 모드에 있어서의 XTALK 검출의 경우에서 처럼, XTALK 검출기(112)의 스코어 계산기(도시되지 않음)는, 단기 피크들을 제거하기 위하여, XTALK 스코어 를 평활화한다. 그러한 평활화는 LRTD 스테레오 모드에 있어서의 XTALK 검출기(110)와 관련하여 기술한 바와 같이, 상승 에지 검출 메커니즘을 이용하는 IIR 필터에 의해 수행된다. XTALK 스코어 는, 예를 들어, 이하의 수학식을 이용하는 IIR 필터에 의해 평활화된다:
8.3 이진 XTALK
결정
XTALK 검출기(110/112)의 최종 출력은 이진수이다. 은 XTALK 검출기(110/112)의 출력을 나타내며, "1"은 크로스-토크 클래스를 나타내고, "0"은 싱글-토크 클래스를 나타낸다. 출력 은 상태 변수로서 여겨질 수 있다. 그것은 0으로 초기화된다. 상태 변수는, 특정 조건들이 충족되는 프레임들에서만 현재 프레임에서 다른 것으로 변경된다. 크로스-토크 클래스 스위칭을 위한 메커니즘은 섹션 7.3에서 상세하게 설명한 비상관 스테레오 콘텐츠에 대한 클래스 스위칭 메커니즘과 유사한다. 그러나, LRTD 스테레오 모드와 DFT 스테레오 모드간에는 차이가 있다. 이러한 차이를 이하에서 설명하겠다.
LRTD 스테레오 모드에 있어서, XTALK 검출기(110)는 도 11에 도시된 바와 같은 크로스-토크 스위칭 메커니즘을 이용한다. 도 11을 참조하면,
- (a) 현재 프레임 n에 있어서의 UNCLR 분류기(111)의 출력 이 "0"이고(1101), (b) 이전 프레임 n-1에 있어서의 XTALK 검출기(110)의 출력 c XTALK (n-1)이 "1"이면(1102), 현재 프레임 n에 있어서의 XTALK 검출기(110)의 출력 의 스위칭은 없다.
- (a) 현재 프레임 n에 있어서의 UNCLR 분류기(111)의 출력 이 "0"이고(1101), (b) 이전 프레임 n-1에 있어서의 XTALK 검출기(110)의 출력 c XTALK (n-1)이 "0"이며(1102), (c) 현재 프레임 n에 있어서의 평활화된 XTALK 스코어 가 0.03보다 크지 않으면(1104), 현재 프레임 n에 있어서의 XTALK 검출기(110)의 출력 의 스위칭은 없다.
- (a) 현재 프레임 n에 있어서의 UNCLR 분류기(111)의 출력 이 "0"이고(1101), (b) 이전 프레임 n-1에 있어서의 XTALK 검출기(110)의 출력 c XTALK (n-1)이 "0"이며(1102), (c) 현재 프레임 n에 있어서의 평활화된 XTALK 스코어 가 0.03보다 크고(1104), (d) 이전 프레임 n-1에 있어서의 카운터 cnt sw (n-1)가 "0"보다 크지 않으면(1105), 현재 프레임 n에 있어서의 XTALK 검출기(110)의 출력 의 스위칭은 없다.
- (a) 현재 프레임 n에 있어서의 UNCLR 분류기(111)의 출력 이 "0"이고(1101), (b) 이전 프레임 n-1에 있어서의 XTALK 검출기(110)의 출력 c XTALK (n-1)이 "0"이며(1102), (c) 현재 프레임 n에 있어서의 평활화된 XTALK 스코어 가 0.03보다 크고(1104), (d) 이전 프레임 n-1에 있어서의 카운터 cnt sw (n-1)가 "0"보다 크면(1105), 현재 프레임 n에 있어서의 XTALK 검출기(110)의 출력 은 "1"로 스위칭된다(1106).
마지막으로, 현재 프레임 n에 있어서의 카운터 cnt sw (n)는 갱신되고(1107), 그 절차는 다음 프레임에 대해 반복된다(1108).
카운터 cntsw(n)는 UNCLR 분류기(111) 및 XTALK 검출기(110)에 공통이며, 수학식 (97)에 정의된다. 카운터 cntsw(n)의 양의 값은, 상태 변수 (XTALK 검출기(110)의 출력 )의 스위칭이 허용됨을 나타낸다. 도 11로부터 알 수 있는 바와 같이, 스위칭 로직은 현재 프레임에 있어서의 UNCLR 분류기(111)의 출력 (1101)을 이용한다. 그러므로, UNCLR 분류기(111)는, XTALK 검출기(110)가 그의 출력을 이용함에 따라, XTALK 검출기(110) 전에 실행된다고 간주된다. 또한, 도 11의 상태 스위칭 로직은, XTALK 검출기(110)의 출력 이 단지 "0"(싱글-토크)에서 "1"(크로스-토크)로 변경될 수 있다는 견지에서, 전방향성이다. 반대 방향, 즉, "1"(크로스-토크)에서 "0"(싱글-토크)으로의 방향에 대한 상태 스위칭 로직은, 본 개시상에서 추후에 설명할 DFT/LRTD 스테레오 모드 스위칭 로직의 일부이다.
DFT 스테레오 모드에 있어서, XTALK 검출기(112)는 다음의 보조 파라메타들을 계산하는 서브-동작(도시되지 않음)을 수행하는 보조 파라메타 계산기(도시되지 않음)를 구비한다. 특히, 크로스-토크 스위칭 메커니즘은, 이하의 보조 파라메타들과, XTALK 검출기(112)의 출력 을 이용한다:
- 현재 프레임에 있어서의 VAD(Voice Activity Detection) 플래그(f VAD );
DFT 스테레오 모드에 있어서, XTALK 검출기(112)는 도 12에 도시된 바와 같은 크로스-토크 스위칭 메커니즘을 이용한다. 도 12를 참조하면,
- (a) 이 "0"이 아니고(1201), (b) 이 "0"이며(1202), (c) 가 "1"이고(1203), (d) 0.8 G ITD (n)이 보다 작고(1204), (e) 0.8 G ITD (n-1)이 보다 작고(1205), (f) 이 "4.0"보다 작고(1206), (g) G ITD (n)이 "0.15" 보다 크고(1207), (h) G ITD (n-1)이 "0.15"보다 크면(1208), 은 "1"로 스위칭된다 (1218);
- (a) 이 "0"이 아니고(1201), (b) 이 "0"이고(1202), (c) 가 "1"이고(1203), (d) 테스트들(1204 내지 1208) 중 임의 테스트가 네거티브이고,
- (a) 이 "0"이 아니고(1201), (b) 이 "0"이고(1202), (c) 가 이고"1"(1203), (d) 테스트들(1204 내지 1208) 중 임의 테스트가 네거티브이고, (e) 이 "0.8"보다 크지 않고(1209), (f) f sil (n)이 "1"이 아니고(1210),
- (a) 이 "0"이 아니고(1201), (b) 이 "0"이고(1202), (c) 가 "1"이고(1203), (d) 테스트들(1204 내지 1208) 중 임의 테스트가 네거티브이고, (e) 이 "0.8"보다 크지 않고(1209), (f) f sil (n)이 "1"이고 (1210), (g) 이 "8.0"보다 크고 (1211), (h) 이 "-8.0"보다 작으면, 은 "1"로 스위칭된다(1218);
- (a) 이 "0"이 아니고(1201), (b) 이 "0"이고(1202), (c) 이 "1"이고(1203), (d) 테스트들(1204 내지 1208) 중 임의 테스트가 네거티브이고, (e) 이 "0.8"보다 크지 않고(1209), (f) f sil (n)이 "1"이고(1210), (g) 테스트들(1211 및 1212) 중 임의 테스트가 네거티브이고, (h) 이 "8.0"보다 크고(1213), (i) 이 "-8.0"보다 작으면(1214), 은 "1"로 스위칭된다(1218);
- (a) 이 "0"이 아니고(1201), (b) 이 "0"이고(1202), (c) 이 "1"이고(1203), (d) 테스트들(1204 내지 1208) 중 임의 테스트가 네거티브이고, (e) 이 "0.8"보다 크지 않고 (1209), (f) f sil (n)이 "1" 이고(1210), (g) 테스트들(1211 및 1212) 중 임의 테스트가 네거티브이고, (h) 테스트들(1213 및 1214) 중 임의 테스트가 네거티브이고,
변수 는 LRTD 및 DFT 스테레오 모드들간의 스위칭이 가능한 프레임들의 카운터이다. 이 카운터 cntsw(n)은 UNCLR 분류기(113) 및 XTALK 검출기(112)에 대해 공통이다. 카운터 cntsw(n)는 0으로 초기화되고 수학식 (97)에 따라 각 프레임에 있어서 갱신된다.
9.
DFT
/
LRTD
스테레오
모드
선택
스테레오 사운드 신호(190)를 코딩하는 방법(150)은, LRTD 또는 DFT 스테레오 모드를 선택하는 동작(164)을 구비한다. 동작(164)을 수행하기 위하여, 스테레오 사운드 신호(190)를 코딩하는 디바이스(100)는, XTALK 검출기(110)로부터의 XTALK 검출, UNCLR 분류기(111)로부터의 UNCLR 분류, XTALK 검출기(112)로부터의 XTALK 결정, UNCLR 분류기(113)로부터의 UNCLR 결정을, 한 프레임만큼 지연되게(191) 수신하는 LRTD/DFT 스테레오 모드 선택기(114)를 구비한다.
LRTD/DFT 스테레오 모드 선택기(114)는 UNCLR 분류기(111/113)의 이진 출력 과 XTALK 검출기(110/112)의 이진 출력 에 기초하여, LRTD 또는 DFT 스테레오 모드를 선택한다. LRTD/DFT 스테레오 모드 선택기(114)는 일부 보조 파라메타들을 고려한다. 이 파라메타들은, 주로, 지각적으로 민감한 세그먼트들에 있어서의 스테레오 모드 스위칭을 방지하거나, UNCLR 분류기(111/113) 및 XTALK 검출기(110/112) 모두가 정확한 출력을 제공하지 않은 세그먼트들에 있어서의 빈번한 스위칭을 방지하는데 이용된다.
LRTD 또는 DFT 스테레오 모드를 선택하는 동작(164)은, 입력 스테레오 사운드 신호의 다운 믹싱과 인코딩 전에, 수행된다. 그 결과, 동작(164)은 도 1의 191에 나타난 바와 같이, 이전 프로레임으로부터의 XTALK 검출기(110/112)와 UNCLR 분류기(111/113)로부터의 출력을 이용한다. LRTD 또는 DFT 스테레오 모드를 선택하는 동작(164)은 도 13의 개략적인 블럭도에서 추가로 설명된다.
이하의 설명에 기술된 바와 같이, 동작(164)에서 이용되는 DFT/LRTD 스테레오 모드 선택 메커니즘은 이하의 서브-동작들을 구비한다:
- 초기 DFT/LRTD 스테레오 모드 선택; 및
- 크로스-토크 콘텐츠의 검출시 LRTD에서 DFT로의 스테레오 모드 스위칭.
9.1 초기
DFT
/
LRTD
스테레오
모드
선택
DFT 스테레오 모드는 입력 스테레오 사운드 신호(190)의 좌측(L)과 우측(R) 채널간의 높은 채널간 상관으로 싱글-토크 스피치를 인코딩하기 위한 바람직한 모드이다.
LRTD/DFT 스테레오 모드 선택기(114)는, 이전의 프로세싱된 프레임이 "스피치 프레임이었을 가능성이 높은 것(likely a speech frame)"인지를 결정함에 의해 스테레오 모드의 초기 선택을 시작한다. 이것은, 예를 들어, "스피치" 클래스와 "뮤직" 클래스간의 로그-우도 비율을 시험함에 의해, 실행될 수 있다. 로그-우도 비율은 "스피치" 소스에 의해 생성되는 입력 스테레오 사운드 신호 프레임의 로그-우도와 "뮤직" 소스에 의해 생성되는 입력 스테레오 사운드 신호 프레임의 로그-우도간의 절대 차이로서 정의된다. 이하의 수학식은 로그-우도 비율을 계산하는데 이용될 수 있다:
예시로서, 전체 콘텐츠가 본 명세서에 참조로서 수록된 참고문헌[7]에 기술된 바와 같은 3GPP EVS 코덱으로부터의 GMM(Gaussian Mistture Model)은 "스피치" 클래스의 로그-우도 와 "뮤직" 클래스의 로그-우도 를 추정하는데 이용될 수 있다. 스피치/뮤직 분류의 다른 방법들은 로그-우도 비율(차분 스코어) 를 계산하는데 이용될 수 있다.
여기에서, 윗첨자 (1)은, 제 1 IIR 필터를 나타내고, 윗첨자 (2)는 제 2 IIR 필터를 나타낸다.
초기 DFT/LRTD 스테레오 모드 선택 메커니즘은, 이전 프레임 n-1에 있어서, UNCLR 분류기(111/113)의 이진 출력 또는 XTALK 검출기(110/112)의 이진 출력 이 1로 설정되고, 이전 프레임이 스피치 프레임이었을 가능성이 높으면, 새로운 이진 플래그 를 1로 설정한다. 이것은 아래의 수학식으로 표현될 수 있다:
이다.
현재 프레임에 있어서 플래그 가 0으로 설정되고, 이전 프레임 n-1에 있어서의 스테레오 모드가 LRTD 스테레오 모드였다면, 예를 들어, 이하의 수학식을 이용하여 현재 프레임 n에 있어서의 스테레오 모드를 선택하기 위하여, LRTD/DFT 스테레오 모드 선택기(114)의 LRTD 에너지 분석 프로세서(1301)로부터의, 이하에 설명할, 보조 스테레오 모드 스위칭 플래그 가 분석된다:
도 13에 도시된 바와 같이, LRTD/DFT 스테레오 모드 선택기(114)는, 본 개시에 있어서 이하에서 보다 상세하게 설명된 보조 파라메타들 , , 및 를 생성하기 위해, LRTD 에너지 분석 프로세서(1301)를 구비한다.
현재 프레임에 있어서 플래그 가 0으로 설정되고, 이전 프레임에 있어서 스테레오 모드가 DFT 스테레오 모드였다면, 스테레오 모드 스위칭이 수행되지 않으며, DFT 스테레오 모드는 현재 프레임 n에서 선택된다.
9.2 TALK 검출시
LRTD에서
DFT로의
스테레오
모드
스위칭
LRTD 모드에 있어서의 XTALK 검출기(110)는 상기에서 설명되었다. 도 11로부터 알 수 있는 바와 같이, XTALK 검출기(110)의 이진 출력 은, 크로스-토크 콘텐츠가 현재 프레임에서 선택될 때, 1로 설정될 수 있다. 결과적으로, 상기에서 설명한 바와 같은 초기 스테레오 모드 선택 로직은, XTALK 검출기(110)가 싱글-토크 콘텐츠를 나타낼 때, DFT 스테레오 모드를 선택할 수 없다. 이것은, 크로스-토크 스테레오 사운드 신호 세그먼트 후에 싱글-토크 스테레오 사운드 신호 세그먼트가 오는 상황에서 LRTD 스테레오 모드의 원치않은 연장(unwanted extension)을 이끌 수 있다. 그러므로, 싱글-토크 콘텐츠의 검출시 LRTD 스테레오 모드에서 DFT 스테레오 모드로 스위칭 백(switching back)하기 위한 추가적인 메커니즘이 구현되었다. 그 메커니즘은 이하의 설명에 기술된다.
이전 프레임 n-1에 있어서 LRTD/DFT 스테레오 모드 선택기(114)가 LRTD 스테레오 모드를 선택하였고, 현재 프레임에 있어서 초기 스테레오 모드 선택이 LRTD 모드를 선택하였으며, 그와 동시에 XTALK 검출기(110)의 이진 출력 이 1 이였다면, 스테레오 모드는 LRTD에서 DFT 스테레오 모드로 변경될 수 있다. 후자의 변경은, 예를 들어, 아래에 목록화된 조건들이 충족되면, 허용된다:
상기에서 정의된 조건들의 세트는 및 파라메타들에 대한 참조를 포함한다. 파라메타는 스테레오 사운드 신호를 코딩하기 위한 디바이스(100)(스테레오 코덱)에 의해 이용되는 전체 비트레이트를 포함하는 고레벨 상수(high-level constant)이다. 그것은, 스테레오 코덱의 초기화동안 설정되고, 인코딩 프로세스동안 변경되지 않은 채 유지된다.
파라메타는 프레임 유형에 대한 정보를 포함하는 이산 변수이다. 파라메타는, 통상적으로, 스테레오 코덱의 신호 전치 프로세싱의 일부로서 추정된다. 비-제한적 예시로서, 참고문헌[1]에 기술된 바와 같은 3GPP EVS 코덱의 FEC(Frame Erasure Concealment) 모듈로부터의 파라메타가 DFT/LRTD 스테레오 모드 선택 메커니즘에 이용될 수 있다. 3GPP EVS 코덱의 FEC 모듈로부터의 파라메타는 프레임 소거 은폐(frame erasure concealment)와 디코더 복구 전략을 고려하여 선택된다. 파라메타는 이하의 사전 정의된 클래스들의 세트로부터 선택된다:
프레임 유형 분류의 다른 수단으로 DFT/LRTD 스테레오 모드 선택 메커니즘을 구현하는 것은 본 개시의 범주내이다.
상기에서 정의된 조건들의 세트(126)에 있어서, 아래의 조건은
스테레오 사운드 신호를 코딩하기 위한 디바이스(100)가 LRTD 스테레오 모드인 경우, 그 조건은 아래와 같은 조건으로 대체되어야 한다:
파라메타 및 는, 각각, LRTD 및 DFT 프레임들의 카운터들이다. 이 카운터들은 매 프레임에서 LRTD 에너지 분석 프로세서(1301)의 일부로서 갱신된다. 2개의 카운터들 및 의 갱신은 다음 섹션에서 자세하게 설명될 것이다.
9.3
LRTD
에너지 분석 모듈에서 계산된 보조
파라메타들
스테레오 사운드 신호를 코딩하기 위한 디바이스(100)가 LRTD 스테레오 모드에서 실행되면, LRTD/DFT 스테레오 모드 선택기(114)는 DFT/LRTD 스테레오 모드 선택 메커니즘의 안정성을 개선하기 위해, 여러 보조 파라메타들을 계산 또는 갱신한다.
특정 유형의 프레임들에 대해, LRTD 스테레오 모드는 소위 "TD 서브-모드"로 실행된다. TD 서브-모드는, 통상적으로, LRTD 스테레오 모드에서 DFT 스테레오 모드로의 스위칭 전, 짧은 천이 기간동안에 적용된다. LRTD 스테레오 모드가 TD 서브-모드로 실행될지의 여부는 이진 서브-모드 플래그 에 의해 표시된다. 이진 플래그 는 보조 파라메타들 중 하나이며, 아래와 같이 각 프레임에서 초기화된다:
LRTD 에너지 분석 프로세서(1301)는 상술한 2개의 카운터 및 를 구비한다. 카운터 는 보조 파라메타들 중 하나로서, 연속하는 LRTD 프레임들의 수를 카운트한다. 이 카운터는, 스테레오 사운드 신호를 코딩하기 위한 디바이스(100)에서 DFT 스테레오 모드가 선택되었던 매 프레임에서 0으로 설정되며, LRTD 스테레오 모드가 선택되었던 매 프레임에서 1씩 증가된다. 이것은, 아래와 같이 표현될 수 있다:
필수적으로, 카운터 는, 마지막 DFT→LRTD 스위칭 포인트로부터의 프레임들의 수를 포함한다. 카운터 는 100의 임계치에 의해 제한된다. 카운터 는 연속하는 DFT 프레임들의 수를 카운트한다. 카운터 는 보조 파라메타들 중 하나로서, 스테레오 사운드 신호를 코딩하기 위한 디바이스(100)에서 LRTD 스테레오 모드가 선택되었던 매 프레임마다 0으로 설정되며, DFT 스테레오 모드가 선택되었던 매 프레임마다 1씩 증가된다. 이것은 아래와 같이 표현될 수 있다.
LRTD 에너지 분석 프로세서(1301)에서 계산된 마지막 보조 파라메타는 보조 스테레오 모드 스위칭 플래그 이다. 이 파라메타는, 매 프레임마다, 아래와 같이 이진 플래그 로 초기화된다:
보조 스테레오 모드 스위칭 플래그 는, 입력 스테레오 사운드 신호(190)의 좌측(L) 및 우측(R) 채널이 OOP(out-of-phase)일 때, 0으로 설정된다. OOP 검출을 위한 예시적인 방법은, 예를 들어, 전체 콘테츠가 본 명세서에 참조로서 수록된, 참고문헌[8]에서 발견될 수 있다. OOP 상황이 검출되면, 이진 플래그 s2m은 현재 프레임 n에서 1로 설정되고, 그렇지 않으면 0으로 설정된다. 보조 LRTD 스테레오 모드에 있어서 스테레오 모드 스위칭 플래그 는, 이진 플래그 s2m이 1로 설정되면, 0으로 설정된다. 이것은, 수학식 (32)로 표현될 수 있다:
물론, DFT/LRTD 스테레오 모드 스위칭 메커니즘은 OOP 검출을 위한 다른 방법으로 구현될 수 있다.
상기에서 정의된 두 세트의 조건들에 있어서, 아래와 같은 조건
스테레오 사운드 신호를 코딩하기 위한 디바이스(100)가 LRTD 스테레오 모드일 때, 그 조건은 아래와 같은 조건으로 대체되어야 한다:
10. 코어 인코더들
스테레오 사운드 신호를 코딩하기 위한 방법(150)은, LRTD 스테레오 모드에 있어서 스테레오 사운드 신호(190)의 좌측 채널(L)을 코어 인코딩하는 동작(115)과, LRTD 스테레오 모드에 있어서, 스테레오 사운드 신호(190)의 우측 채널(R)을 코어 인코딩하는 동작(116) 및 DFT 스테레오 모드에 있어서 스테레오 사운드 신호(190)의 다운-믹싱된 모노(M) 채널을 코어 인코딩하는 동작(117)을 구비한다.
동작(115)을 수행하기 위하여, 스테레오 사운드 신호를 코딩하기 위한 디바이스(100)는, 예를 들어, 모노 코어 인코더와 같은, 코어 인코더(115)를 구비한다. 동작(116)을 수행하기 위하여, 디바이스(100)는, 예를 들어, 모노 코어 인코더와 같은, 코어 인코더(116)를 구비한다. 마지막으로, 동작(167)을 수행하기 위하여, 스테레오 사운드 신호를 코딩하는 디바이스(100)는 스테레오 사운드 신호(190)의 다운-믹싱된 모노(M) 채널을 코딩하도록 DFT 스테레오 모드에서 동작할 수 있는 코어 인코더(117)를 구비한다.
적당한 코어 인코더(115, 116 및 117)를 선택하는 것은 본 기술 분야의 숙련자들의 지식내임을 알 것이다. 따라서, 이러한 인코더는 본 개시에서 추가로 설명하지 않겠다.
11. 하드웨어 구현
도 14는 스테레오 사운드 신호를 코딩하기 위한 상술한 디바이스(100) 및 방법(150)을 형성하는 하드웨어 부품들의 예시적 구성의 간단한 블럭도이다.
스테레오 사운드 신호를 코딩하기 위한 디바이스(100)는 이동 단말의 일부로서, 휴대용 매체 플레이어의 일부로서, 또는 임의 다른 디바이스내에 구현될 수 있다. 디바이스(100)(도 14에서는 1400으로 식별됨)는 입력(1402), 출력(1404), 프로세서(1406) 및 메모리(1408)를 구비한다.
입력(1402)은 도 1의 입력 스테레오 사운드 신호(190)를 디지털 또는 아날로그 형태로 수신하도록 구성된다. 출력(1404)은 출력, 즉, 코딩된 스테레오 사운드 신호를 공급하도록 구성된다. 입력(1402) 및 출력(1404)은 직렬 입력/출력 디바이스와 같은, 공통 모듈로 구현될 수 있다.
프로세서(1406)는 입력(1402), 출력(1404) 및 메모리(1408)에 동작 가능하게 접속된다. 프로세서(1406)는 도 1에 도시된 바와 같이 스테레오 사운드 신호를 코딩하기 위한 디바이스(100)의 여러 부품들의 기능들을 보조하여 코드 명령어들을 실행시키는 하나 이상의 프로세서들로서 실현된다.
메모리(1408)는 프로세서(들)(1406)에 의해 실행될 수 있는 코드 명령어들을 저장하는 비-일시적 메모리, 특히, 비-일시적 명령어들을 구비/저장하는 프로세서-독출 가능 메모리를 구비하며, 비-일시적 명령어들은, 실행되면, 프로세서(들)가 본 개시에 기술된 스테레오 사운드 신호를 코딩하기 위한 방법(150) 및 디바이스(100)의 동작들 및 부품들을 구현하게 한다. 메모리(1408)는 프로세서(들)(1406)에 의해 수행되는 여러 기능들로부터의 중간 프로세싱 데이터를 저장하기 위한 랜덤 액세스 메모리 또는 버퍼(들)를 구비할 수 있다.
본 기술 분야의 숙련자라면, 스테레오 사운드 신호를 코딩하기 위한 디바이스(100) 및 방법(150)의 설명은 단지 예시적이며, 임의 방식으로 제한하기 위한 것은 아님을 알 것이다. 본 개시의 혜택을 가진 본 기술 분야의 숙련자면 다른 실시 예들을 쉽게 제안할 수 있을 것이다. 또한, 스테레오 사운드 신호를 코딩하기 위한, 개시된 디바이스(100) 및 방법(150)은 사운드를 코딩 및 디코딩하는 문제 및 기존의 필요성에 대한 가치있는 해법을 제공하도록 맞춤화될 수 있다.
명확성을 위해, 스테레오 사운드 신호를 코딩하기 위한 디바이스(100) 및 방법(150)의 구현의 일상적인 특징들의 모두를 개시하거나 설명하지는 않았다. 물론, 스테레오 사운드 신호를 코딩하기 위한 디바이스(100) 및 방법(150)의 임의 그러한 실제적 구현의 개발에 있어서, 애플리케이션, 시스템, 네트워크, 사업 관련 제약의 준수와 같은, 개발자의 특정 목표를 달성하기 위해 많은 구현 지정적 결정들이 이루어질 필요가 있으며, 이 특정 목표는 구현마다 및 개발자마다 가변될 것이다. 또한, 개발 노력이 복잡하고 시간 소모적이지만, 그럼에도 불구하고, 본 개시의 혜택을 받은 사운드 프로세싱 분야의 숙련자에게는 일상적인 엔지니어링 작업일 뿐임을 알 것이다.
본 개시에 따르면, 본 명세서에 설명된 소자들, 프로세싱 동작들 및/또는 데이터 구조는 다양한 유형의 운영 시스템들, 컴퓨팅 플랫폼, 네트워크 디바이스, 컴퓨터 프로그램 및/또는 범용 기계를 이용하여 구현될 수 있다. 추가적으로, 본 기술 분야의 숙련자라면, 하드와이어드 디바이스(hardwired device), FPGA(Field Programmable Gate Array), 애플리케이션 지정 집적 회로(ASIC) 등과 같은 덜 범용적인 특성의 디바이스가 이용될 수 있음을 알 것이다. 일련의 동작들 및 서브-동작들을 구비하는 방법이 프로세서, 컴퓨터 또는 머신에 의해 구현되고, 이 동작들 및 서브-동작들이 프로세서, 컴퓨터 또는 머신에 의해 판독 가능한 일련의 비-일시적 코드 명령어들로서 저장되는 경우, 그들은 유형의 및/또는 비-일시적 매체상에 저장된다.
본 명세서에서 설명한, 스테레오 사운드 신호를 코딩하기 위한 디바이스(100) 및 방법(150)은, 소프트웨어, 펌웨어, 하드웨어 또는, 본 명세서에서 설명한 목적에 적합한 소프트웨어, 펌웨어 또는 하드웨어의 조합을 이용할 수 있다.
본 명세서에서 설명한, 스테레오 사운드 신호를 코딩하기 위한 디바이스(100) 및 방법(150)에 있어서, 다양한 동작들 및 서브-동작들은 다양한 순서로 수행될 수 있으며, 그 동작들 및 서브 동작들의 일부는 선택적이다.
본 개시가 상기에서 비-제한적인 예시적 실시 예에 의해 설명되었지만, 이 실시 예들은 본 개시의 사상 및 특성으로부터 벗어나지 않고도 첨부된 청구항들의 범주내에서 자유롭게 수정될 수 있다.
참고문헌들
본 개시는, 전체 콘텐츠가 본 명세서에 참조로서 수록된 이하의 참고문헌들을 언급한다.
Claims (146)
- 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호를 코딩하기 위한 제 1 스테레오 모드 및 제 2 스테레오 모드 중 하나를 선택하는 디바이스로서:
스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠(uncorrelated stereo content)의 존재 또는 부재를 나타내는 제 1 출력을 생성하는 분류기;
스테레오 사운드 신호에 있어서 크로스-토크(cross-talk)의 존재 또는 부재를 나타내는 제 2 출력을 생성하는 검출기;
스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는데 이용하기 위한 보조 파라메타들을 계산하는 분석 프로세서; 및
제 1 출력, 제 2 출력 및 보조 파라메타에 응답하여 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는 스테레오 모드 선택기를 구비하는
디바이스.
- 제 1 항에 있어서,
제 1 스테레오 모드는 좌측 및 우측 채널들이 개별적으로 코딩되는 시간-도메인 스테레오 모드이고, 제 2 스테레오 모드는 주파수-도메인 스테레오 모드인
디바이스.
- 제 1 항 또는 제 2 항에 있어서,
스테레오 사운드 신호의 현재 프레임에 있어서, 스테레오 모드 선택기는 스테레오 사운드 신호의 이전 프레임으로부터의 제 1 출력과 이전 프레임으로부터의 제 2 출력을 이용하는,
디바이스.
- 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
스테레오 모드 선택기는 제 1 스테레오 모드와 제 2 스테레오 모드 사이에, 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드의 초기 선택을 수행하는,
디바이스.
- 제 4 항에 있어서,
스테레오 사운드 신호를 코딩하기 위한 스테레오 모드의 초기 선택을 수행하기 위해, 스테레오 모드 선택기는 이전 프레임이 스피치 프레임인지의 여부를 결정하는,
디바이스.
- 제 5 항에 있어서,
스테레오 사운드 신호를 코딩하기 위한 스테레오 모드의 초기 선택시에, 스테레오 모드 선택기는, 스테레오 사운드 신호의 각 프레임에 있어서, 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 이전 프레임에서 선택된 스테레오 모드로 초기화하는
디바이스.
- 제 5 항 또는 제 6 항에 있어서,
스테레오 모드의 초기 선택시에, 스테레오 모드 선택기는, (a) 이전 프레임이 스피치 프레임으로서 결정되고 (b) 분류기로부터의 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나, 검출기로부터의 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 스테레오 사운드 신호를 코딩하기 위한 제 1 스테레오 모드를 선택하는
디바이스.
- 제 7 항에 있어서,
스테레오 사운드 신호를 코딩하기 위한 스테레오 모드의 초기 선택시에, 스테레오 모드 선택기는, (ⅰ) 조건 (a) 및 (b) 중 적어도 하나가 충족되지 않고, (ⅱ) 이전 프레임에서 선택된 스테레오 모드가 제 2 스테레오 모드이면, 스테레오 사운드 신호를 코딩하기 위한 제 2 스테레오 모드를 선택하는,
디바이스.
- 제 7 항 또는 제 8 항에 있어서,
스테레오 모드의 초기 선택시에, 스테레오 모드 선택기는, (ⅰ) 조건 (a) 및 (b) 중 적어도 하나가 충족되지 않고, (ⅱ) 이전 프레임에서 선택된 스테레오 모드가 제 1 스테레오 모드이면, 보조 파라메타들 중 하나와 관련하여 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는,
디바이스.
- 제 9 항에 있어서,
하나의 보조 파라메타는 보조 스테레오 모드 스위칭 플래그인
디바이스.
- 제 4 항 내지 제 7 항 중 어느 한 항에 있어서,
스테레오 모드 선택기는, 스테레오 모드의 초기 선택에 뒤이어, 다수의 주어진 조건들이 충족되면, 스테레오 사운드 신호를 코딩하기 위한 제 2 스테레오 모드를 선택하는,
디바이스.
- 제 11 항에 있어서,
주어진 조건들은, 이하의 조건들 중 적어도 하나를 구비하는,
- 제 1 스테레오 모드가 스테레오 사운드 신호의 이전 프레임에서 선택됨;
- 제 1 스테레오 모드가, 스테레오 사운드 신호의 현재 프레임에서 초기에 선택됨;
- 현재 프레임에 있어서 검출기의 제 2 출력이 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타냄;
- (ⅰ) 이전 프레임이 스피치 프레임으로 결정되고, (ⅱ) 분류기로부터의 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나 검출기로부터의 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타냄;
- 이전 프레임에 있어서, 제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터가 제 1 값보다 더 높음;
- 이전 프레임에 있어서, 제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터가 제 2 값보다 높음;
- 이전 프레임에 있어서, 스테레오 사운드 신호의 클래스가 사전 정의된 클래스들의 세트내에 있음; 및
- (ⅰ) 스테레오 사운드 신호를 코딩하는데 이용되는 전체 비트레이트가 제 3 값 이상이거나, (ⅱ) 검출기로부터의 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 스코어가 이전 프레임에 있어서 제 4 값보다 작음,
디바이스.
- 제 1 항 내지 제 12 항 중 어느 한 항에 있어서,
분석 프로세서는, 제 1 스테레오 모드에서 제 2 스테레오 모드로의 스위칭 전에, 짧은 천이에 적용되는 서브-모드에서 동작하는 제 1 스테레오 모드를 나타내는 보조 서브-모드 플래그를, 보조 파라메타들 중 하나로서 계산하는
디바이스.
- 제 13 항에 있어서,
분석 프로세서는, (a) 이전 프레임이 스피치 모드로서 결정되고, (b) 분류기로부터의 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나 검출기로부터의 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 스테레오 사운드 신호의 프레임들에 있어서의 보조 서브-모드 플래그들을 리셋하는
디바이스.
- 제 14 항에 있어서,
분석 프로세서는, (1) 분석 프로세서에 의해 보조 파라메타로서 계산된 보조 스테레오 모드 스위칭 플래그가 1이고, (2) 이전 프레임의 스테레오 모드가 제 1 스테레오 모드가 아니거나, (3) 제 1 스테레오 모드를 이용하는 프레임들의 카운터가 주어진 값보다 작으면, 스테레오 사운드 신호의 프레임들에 있어서의 보조 서브-모드 플래그를 1로 리셋하는
디바이스.
- 제 15 항에 있어서,
분석 프로세서는, 조건 (1) 내지 (3)의 어느 것도 충족되지 않으면, 스테레오 사운드 신호의 프레임들에 있어서의 보조 서브-모드 플래그를 0으로 리셋하는
디바이스.
- 제 13 항 내지 제 16 항 중 어느 한 항에 있어서,
분석 프로세서는, (a) 이전 프레임이 스피치 프레임으로서 결정되는 조건과, (b) 분류기로부터의 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내는 조건 또는 검출기로부터의 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내는 조건 중, 적어도 하나가 충족되면, 스테레오 사운드 신호의 프레임들에 있어서의 보조 서브-모드 플래그를 변경하지 않는
디바이스.
- 제 1 항 내지 제 17 항 중 어느 한 항에 있어서,
분석 프로세서는, 제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 보조 파라메타들 중 하나로서 구비하는
디바이스.
- 제 18 항에 있어서,
분석 프로세서는, (a) 이전 프레임이 스피치 모드로서 결정되고, (b) 분류기로부터의 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나, 검출기로부터의 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 증가시키는
디바이스.
- 제 18 항 또는 제 19 항에 있어서,
분석 프로세서는, 현재 프레임에 있어서 제 2 스테레오 모드가 스테레오 모드 선택기에 의해 선택되면, 제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 0으로 리셋하는
디바이스.
- 제 18 항 내지 제 20 항 중 어느 한 항에 있어서,
제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터는 상한이 제한되는
디바이스.
- 제 1 항 내지 제 21 항에 있어서,
분석 프로세서는, 제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를, 보조 파라메타들 중 하나로서, 구비하는
디바이스.
- 제 22 항에 있어서,
분석 프로세서는, 현재 프레임에 있어서 제 2 스테레오 모드가 선택되면, 제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 증가시키는,
디바이스.
- 제 22 항 또는 제 23 항에 있어서,
분석 프로세서는, 현재 프레임에 있어서 제 1 스테레오 모드가 스테레오 모드 선택기에 의해 선택되면, 제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 0으로 리셋하는
디바이스.
- 제 22 항 내지 제 24 항 중 어느 한 항에 있어서,
제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터는 상한이 제한되는
디바이스.
- 제 1 항 내지 제 25 항 중 어느 한 항에 있어서,
분석 프로세서는, 보조 스테레오 모드 스위칭 플래그를, 보조 파라메타들 중 하나로서 생성하는
디바이스.
- 제 26 항에 있어서,
분석 프로세서는, (ⅰ) (a) 이전 프레임이 스피치 프레임으로서 결정되고, (b) 분류기로부터의 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나, 검출기로부터의 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 현재 프레임에 있어서의 보조 스테레오 모드 스위칭 플래그를 1로 초기화하고, (ⅱ) 조건 (a) 및 (b) 중 적어도 하나가 충족되지 않으면, 현재 프레임에 있어서의 보조 스테레오 모드 스위칭 플래그를 0으로 초기화하는
디바이스.
- 제 26 항 또는 제 27 항에 있어서,
분석 프로세서는, 스테레오 사운드 신호의 좌측 및 우측 채널들이 OOP(out-of-phase)이면, 보조 스테레오 모드 스위칭 플래그를 0으로 설정하는,
디바이스.
- 제 10 항 또는 제 15 항에 있어서,
분석 프로세서는, 보조 스테레오 모드 스위칭 플래그를, 보조 파라메타들 중 하나로서, 생성하는,
디바이스.
- 제 29 항에 있어서,
분석 프로세서는, (ⅰ) (a) 이전 프레임이 스피치 프레임으로서 결정되고, (b) 분류기로부터의 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나, 검출기로부터의 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 현재 프레임에 있어서의 보조 스테레오 모드 스위칭 플래그를 1로 초기화하고, (ⅱ) 조건 (a) 및 (b) 중 적어도 하나가 충족되지 않으면, 현재 프레임에 있어서의 보조 스테레오 모드 스위칭 플래그를 0으로 초기화하는
디바이스.
- 제 29 항 또는 제 30 항에 있어서,
분석 프로세서는, 스테레오 사운드 신호의 좌측 및 우측 채널들이 OOP(out-of-phase)이면, 보조 스테레오 모드 스위칭 플래그를 0으로 설정하는,
디바이스.
- 제 1 항 내지 제 31 항 중 어느 한 항에 있어서,
스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠의 존재 또는 부재를 나타내는 제 1 출력을 생성하는 분류기는 청구항 제 1 항 내지 제 21 항 중 어느 한 항에서 정의된 비상관 스테레오 콘텐츠의 분류기를 구비하는
디바이스.
- 제 1 항 내지 제 32 항 어느 한 항에 있어서,
스테레오 사운드 신호에 있어서 크로스-토크의 존재 또는 부재를 나타내는 제 2 출력을 생성하는 검출기는, 청구항 제 41 항 내지 제 60 항 중 어느 한 항에 정의된 크로스-토크의 검출기를 구비하는
디바이스.
- 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호를 코딩하기 위한 제 1 스테레오 모드 및 제 2 스테레오 모드 중 하나를 선택하는 디바이스로서,
적어도 하나의 프로세서; 및
프로세서에 결합되고, 비-일시적 명령어들을 구비하는 메모리를 구비하되,
비-일시적 명령어들은, 실행되면, 프로세서가,
스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠의 존재 또는 부재를 나타내는 제 1 출력을 생성하는 분류기;
스테레오 사운드 신호에 있어서 크로스-토크(cross-talk)의 존재 또는 부재를 나타내는 제 2 출력을 생성하는 검출기;
스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는데 이용하기 위한 보조 파라메타들을 계산하는 분석 프로세서; 및
제 1 출력, 제 2 출력 및 보조 파라메타에 응답하여 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는 스테레오 모드 선택기를
구현하게 하는
디바이스.
- 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호를 코딩하기 위한 제 1 스테레오 모드 및 제 2 스테레오 모드 중 하나를 선택하는 디바이스로서,
적어도 하나의 프로세서; 및
프로세서에 결합되고, 비-일시적 명령어들을 구비하는 메모리를 구비하되,
비-일시적 명령어들은, 실행되면, 프로세서가,
스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠의 존재 또는 부재를 나타내는 제 1 출력을 생성하게 하고;
스테레오 사운드 신호에 있어서 크로스-토크(cross-talk)의 존재 또는 부재를 나타내는 제 2 출력을 생성하게 하고;
스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는데 이용하기 위한 보조 파라메타들을 계산하게 하고;
제 1 출력, 제 2 출력 및 보조 파라메타에 응답하여 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하게 하는,
디바이스.
- 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호를 코딩하기 위한 제 1 스테레오 모드 및 제 2 스테레오 모드 중 하나를 선택하는 방법으로서,
스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠의 존재 또는 부재를 나타내는 제 1 출력을 생성하고;
스테레오 사운드 신호에 있어서 크로스-토크(cross-talk)의 존재 또는 부재를 나타내는 제 2 출력을 생성하고;
스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는데 이용하기 위한 보조 파라메타들을 계산하고;
제 1 출력, 제 2 출력 및 보조 파라메타에 응답하여 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는 것을 구비하는,
방법.
- 제 36 항에 있어서,
제 1 스테레오 모드는 좌측 및 우측 채널들이 개별적으로 코딩되는 시간-도메인 스테레오 모드이고, 제 2 스테레오 모드는 주파수-도메인 스테레오 모드인
방법.
- 제 36 항 또는 제 37 항에 있어서,
스테레오 사운드 신호의 현재 프레임에 있어서, 스테레오 모드를 선택하는 것은, 스테레오 사운드 신호의 이전 프레임으로부터의 제 1 출력과 이전 프레임으로부터의 제 2 출력을 이용하는 것을 구비하는,
방법.
- 제 36 항 내지 제 38 항 중 어느 한 항에 있어서,
스테레오 모드를 선택하는 것은, 제 1 스테레오 모드와 제 2 스테레오 모드 사이에, 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드의 초기 선택을 수행하는 것을 구비하는,
방법.
- 제 39 항에 있어서,
스테레오 사운드 신호를 코딩하기 위한 스테레오 모드의 초기 선택을 수행하기 위해, 스테레오 모드를 선택하는 것은, 이전 프레임이 스피치 프레임인지의 여부를 결정하는 것을 구비하는,
방법.
- 제 40 항에 있어서,
스테레오 사운드 신호를 코딩하기 위한 스테레오 모드의 초기 선택시에, 스테레오 모드를 선택하는 것은, 스테레오 사운드 신호의 각 프레임에 있어서, 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 이전 프레임에서 선택된 스테레오 모드로 초기화하는 것을 구비하는,
방법.
- 제 40 항 또는 제 41 항에 있어서,
스테레오 모드의 초기 선택시에, 스테레오 모드를 선택하는 것은, (a) 이전 프레임이 스피치 프레임으로서 결정되고 (b) 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나, 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 스테레오 사운드 신호를 코딩하기 위한 제 1 스테레오 모드를 선택하는 것을 구비하는
방법.
- 제 42 항에 있어서,
스테레오 사운드 신호를 코딩하기 위한 스테레오 모드의 초기 선택시에, 스테레오 모드를 선택하는 것은, (ⅰ) 조건 (a) 및 (b) 중 적어도 하나가 충족되지 않고, (ⅱ) 이전 프레임에서 선택된 스테레오 모드가 제 2 스테레오 모드이면, 스테레오 사운드 신호를 코딩하기 위한 제 2 스테레오 모드를 선택하는 것을 구비하는
방법.
- 제 42 항 또는 제 43 항에 있어서,
스테레오 모드의 초기 선택시에, 스테레오 모드를 선택하는 것은, (ⅰ) 조건 (a) 및 (b) 중 적어도 하나가 충족되지 않고, (ⅱ) 이전 프레임에서 선택된 스테레오 모드가 제 1 스테레오 모드이면, 보조 파라메타들 중 하나와 관련하여 스테레오 사운드 신호를 코딩하기 위한 스테레오 모드를 선택하는 것을 구비하는,
방법.
- 제 44 항에 있어서,
하나의 보조 파라메타는 보조 스테레오 모드 스위칭 플래그인
방법.
- 제 39 항 내지 제 42 항 중 어느 한 항에 있어서,
스테레오 모드를 선택하는 것은, 스테레오 모드의 초기 선택에 뒤이어, 다수의 주어진 조건들이 충족되면, 스테레오 사운드 신호를 코딩하기 위한 제 2 스테레오 모드를 선택하는 것을 구비하는,
방법.
- 제 46 항에 있어서,
주어진 조건들은, 이하의 조건들 중 적어도 하나를 구비하는,
- 제 1 스테레오 모드가 스테레오 사운드 신호의 이전 프레임에서 선택됨;
- 제 1 스테레오 모드가, 스테레오 사운드 신호의 현재 프레임에서 초기에 선택됨;
- 현재 프레임에 있어서의 제 2 출력이 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타냄;
- (ⅰ) 이전 프레임이 스피치 프레임으로 결정되고, (ⅱ) 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타냄;
- 이전 프레임에 있어서, 제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터가 제 1 값보다 더 높음;
- 이전 프레임에 있어서, 제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터가 제 2 값보다 높음;
- 이전 프레임에 있어서, 스테레오 사운드 신호의 클래스가 사전 정의된 클래스들의 세트내에 있음; 및
- (ⅰ) 스테레오 사운드 신호를 코딩하는데 이용되는 전체 비트레이트가 제 3 값 이상이거나, (ⅱ) 스테레오 사운드 신호에 있어서의 크로스-토크를 나타내는 스코어가 이전 프레임에 있어서 제 4 값보다 작음,
방법.
- 제 36 항 내지 제 47 항 중 어느 한 항에 있어서,
보조 파라메타들을 계산하는 것은, 제 1 스테레오 모드에서 제 2 스테레오 모드로의 스위칭 전에, 짧은 천이에 적용되는 서브-모드에서 동작하는 제 1 스테레오 모드를 나타내는 보조 서브-모드 플래그를, 보조 파라메타들 중 하나로서 계산하는 것을 구비하는,
방법.
- 제 48 항에 있어서,
보조 파라메타들을 계산하는 것은, (a) 이전 프레임이 스피치 모드로서 결정되고, (b) 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 스테레오 사운드 신호의 프레임들에 있어서의 보조 서브-모드 플래그들을 리셋하는 것을 구비하는,
방법.
- 제 49 항에 있어서,
보조 파라메타들을 계산하는 것은, (1) 보조 파라메타로서 계산된 보조 스테레오 모드 스위칭 플래그가 1이고, (2) 이전 프레임의 스테레오 모드가 제 1 스테레오 모드가 아니거나, (3) 제 1 스테레오 모드를 이용하는 프레임들의 카운터가 주어진 값보다 작으면, 스테레오 사운드 신호의 프레임들에 있어서의 보조 서브-모드 플래그를 1로 리셋하는 것을 구비하는
방법.
- 제 50 항에 있어서,
보조 파라메타들을 계산하는 것은, 조건 (1) 내지 (3)의 어느 것도 충족되지 않으면, 스테레오 사운드 신호의 프레임들에 있어서의 보조 서브-모드 플래그를 0으로 리셋하는 것을 구비하는
방법.
- 제 48 항 내지 제 51 항 중 어느 한 항에 있어서,
보조 파라메타들을 계산하는 것은, (a) 이전 프레임이 스피치 프레임으로서 결정되는 조건과, (b) 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내는 조건 또는 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내는 조건 중, 적어도 하나가 충족되면, 스테레오 사운드 신호의 프레임들에 있어서의 보조 서브-모드 플래그를 변경하지 않는 것을 구비하는
방법.
- 제 36 항 내지 제 52 항 중 어느 한 항에 있어서,
보조 파라메타들을 계산하는 것은, 제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 보조 파라메타들 중 하나로서 계산하는 것을 구비하는
방법.
- 제 53 항에 있어서,
보조 파라메타를 계산하는 것은, (a) 이전 프레임이 스피치 모드로서 결정되고, (b) 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나, 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 증가시키는 것을 구비하는
방법.
- 제 53 항 또는 제 54 항에 있어서,
보조 파라메타들을 계산하는 것은, 현재 프레임에 있어서 제 2 스테레오 모드가 선택되면, 제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 0으로 리셋하는 것을 구비하는
방법.
- 제 53 항 내지 제 55 항 중 어느 한 항에 있어서,
제 1 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터의 상한을 제한하는 것을 구비하는
방법.
- 제 36 항 내지 제 56 항에 있어서,
보조 파라메타들을 계산하는 것은, 제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를, 보조 파라메타들 중 하나로서, 계산하는 것을 구비하는
방법.
- 제 57 항에 있어서,
보조 파라메타들을 계산하는 것은, 현재 프레임에 있어서 제 2 스테레오 모드가 선택되면, 제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 증가시키는 것을 구비하는,
방법.
- 제 57 항 또는 제 58 항에 있어서,
보조 파라메타들을 계산하는 것은, 현재 프레임에 있어서 제 1 스테레오 모드가 선택되면, 제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터를 0으로 리셋하는 것을 구비하는
방법.
- 제 57 항 내지 제 59 항 중 어느 한 항에 있어서,
제 2 스테레오 모드를 이용하는 연속하는 프레임들의 개수의 카운터의 상한을 제한하는 것을 구비하는
방법.
- 제 36 항 내지 제 60 항 중 어느 한 항에 있어서,
보조 파라메타들을 계산하는 것은, 보조 스테레오 모드 스위칭 플래그를, 보조 파라메타들 중 하나로서 생성하는 것을 구비하는
방법.
- 제 61 항에 있어서,
보조 파라메타들을 계산하는 것은, (ⅰ) (a) 이전 프레임이 스피치 프레임으로서 결정되고, (b) 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나, 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 현재 프레임에 있어서의 보조 스테레오 모드 스위칭 플래그를 1로 초기화하고, (ⅱ) 조건 (a) 및 (b) 중 적어도 하나가 충족되지 않으면, 현재 프레임에 있어서의 보조 스테레오 모드 스위칭 플래그를 0으로 초기화하는 것을 구비하는,
방법.
- 제 61 항 또는 제 62 항에 있어서,
보조 파라메타들을 계산하는 것은, 스테레오 사운드 신호의 좌측 및 우측 채널들이 OOP(out-of-phase)이면, 보조 스테레오 모드 스위칭 플래그를 0으로 설정하는 것을 구비하는
방법.
- 제 45 항 또는 제 50 항에 있어서,
보조 파라메타들을 계산하는 것은, 보조 스테레오 모드 스위칭 플래그를, 보조 파라메타들 중 하나로서, 생성하는 것을 구비하는
방법.
- 제 64 항에 있어서,
보조 파라메타들을 계산하는 것은, (ⅰ) (a) 이전 프레임이 스피치 프레임으로서 결정되고, (b) 제 1 출력이 이전 프레임에 있어서 비상관 스테레오 콘텐츠의 존재를 나타내거나, 제 2 출력이 이전 프레임의 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내면, 현재 프레임에 있어서의 보조 스테레오 모드 스위칭 플래그를 1로 초기화하고, (ⅱ) 조건 (a) 및 (b) 중 적어도 하나가 충족되지 않으면, 현재 프레임에 있어서의 보조 스테레오 모드 스위칭 플래그를 0으로 초기화하는 것을 구비하는
방법.
- 제 64 항 또는 제 65 항에 있어서,
보조 파라메타들을 계산하는 것은, 스테레오 사운드 신호의 좌측 및 우측 채널들이 OOP(out-of-phase)이면, 보조 스테레오 모드 스위칭 플래그를 0으로 설정하는 것을 구비하는
방법.
- 제 36 항 내지 제 66 항 중 어느 한 항에 있어서,
스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠의 존재 또는 부재를 나타내는 제 1 출력을 생성하는 것은, 청구항 제 22 항 내지 제 40 항 중 어느 한 항에서 정의된 비상관 스테레오 콘텐츠를 분류하는 방법을 구비하는
방법.
- 제 36 항 내지 제 66 항 어느 한 항에 있어서,
스테레오 사운드 신호에 있어서 크로스-토크의 존재 또는 부재를 나타내는 제 2 출력을 생성하는 것은, 청구항 제 61 항 내지 제 78 항 중 어느 한 항에 정의된 크로스-토크를 검출하는 방법을 구비하는
방법.
- 좌측 및 우측 채널들을 포함하는 스테레오 사운드 신호로부터 추출된 피처(feature)들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서의 크로스-토크의 검출기로서:
추출된 피처에 응답하여 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 스코어의 계산기;
스테레오 사운드 신호에 있어서 크로스-토크를 검출하는데 이용하기 위한 보조 파라메타들의 계산기;
크로스-토크 스코어 및 보조 파라메타들에 응답하여 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내는 제 1 클래스와 스테레오 사운드 신호에 있어서 크로스-토크의 부재를 나타내는 제 2 클래스간의 스위칭을 위한 클래스 스위칭 메커니즘을 구비하는
크로스-토크 검출기.
- 제 69 항에 있어서,
크로스-토크의 검출기는 로지스틱 회귀 모델(logistic regression model)에 기반한
크로스-토크 검출기.
- 제 69 항 또는 제 70 항에 있어서,
좌측 및 우측 채널들이 개별적으로 코딩되는 시간-도메인 스테레오 모드에 있어서, 추출된 피처들은 이하의 피처들 중 적어도 하나를 구비하는,
- 좌측 채널에 있어서의 FEC(Frame Erasure Concealment) 클래스와 우측 채널에 있어서의 FEC 클래스간의 차이;
- 좌측 채널의 최대 자기 상관 값과 우측 채널의 최대 자기 상관 값간의 차이;
- 좌측 채널에 있어서의 LSF(Line Spectral Frequencies) 값들의 합과, 우측 채널에 있어서의 LSF 값들의 합간의 차이;
- 좌측 채널과 우측 채널간의 잔차 에러 에너지의 차이;
- 좌측 채널의 상관 맵과 우측 채널의 상관 맵간의 차이;
- 좌측 채널과 우측 채널간의 잡음 특성들의 차이;
- 좌측 채널과 우측 채널간의 비-정상성(non-stationarity)의 차이;
- 좌측 채널과 우측 채널간의 스펙트럼 다이버시티의 차이;
- 제로 래그의 좌측 및 우측의 채널간 상관 함수의 비-정규화된 값;
- 좌측 및 우측 채널들의 평균으로서 계산되는 모노 신호의 에너지와 좌측 및 우측 채널들 간의 차이를 이용하여 계산되는 사이드 신호의 에너지간의 비율;
- (a) 좌측 채널과 모노 신호간의 내적과 우측 채널과 모노 신호간의 내적 중의 최대치와, (b) 좌측 채널과 모노 신호간의 내적과 우측 채널과 모노 신호간의 내적 중의 최소치간의 차이;
- 제로-래그의 좌측 채널과 우측 채널의 채널간 상관 함수의 값;
- 채널간 상관 함수의 진화(evolution);
- 채널간 상관 함수의 최대치의 위치;
- 채널간 상관 함수의 최대치;
- 좌측 채널과 모노 신호간의 내적과 우측 채널과 모노 신호간의 내적의 차이; 및
사이드 신호와 모노 신호의 에너지들간의 평활화 비율,
크로스-토크 검출기.
- 제 69 항 내지 제 71 항 중 어느 한 항에 있어서,
각 추출된 피처의 정규화기를 구비하되, 정규화기는 추출된 피처들의 평균을 제거하고, 추출된 피처를 추출된 피처의 단위 분산으로 스케일링(scaling)하는,
크로스-토크 검출기.
- 제 69 항 내지 제 72 항에 있어서,
출력이 추출된 피처들의 선형 조합(linear combination)으로서 계산되는 로지스틱 회귀 모델을 구비하는
크로스-토크 검출기.
- 제 73 항에 있어서,
스코어 계산기는 로지스틱 회귀 모델의 출력을 정규화하는
크로스-토크 검출기.
- 제 73 항 또는 제 74 항에 있어서,
스코어 계산기는, 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 스코어를 생성하기 위하여, 현재 프레임의 상대 에너지를 이용하여 로지스틱 회귀 모델의 출력을 가중화하는
크로스-토크 검출기.
- 제 75 항에 있어서,
스코어 계산기는, 로직스틱 회귀 모델의 출력을 가중화하기 전에, 현재 프레임의 상대 에너지를 주어진 간격에 반비례로 선형적으로 매핑시키는
크로스-토크 검출기.
- 제 75 항 또는 제 76 항에 있어서,
스코어 계산기는 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 평활화된 스코어를 생성하기 위하여 현재 프레임에 있어서의 상대 에너지의 상승 에지들을 이용하여 로지스틱 회귀 모델의 가중화된 출력을 평활화하는
크로스-토크 검출기.
- 제 69 항 또는 제 70 항에 있어서,
주파수-도메인 스테레오 코딩 모드에 있어서, 추출된 피처들은 이하의 피처들 중 적어도 하나를 구비하는,
- ILD(Inter-Channel Level Difference) 이득;
- IPD(Inter-Channel Phase Difference) 이득;
- IPD 회전 각도;
- 좌측 채널과 우측 채널간의 위상 차이를 나타내는 예측 이득;
- 채널간 코히어런스의 평균 에너지;
- 최대 및 최소 채널내 크기 곱들의 비율;
- 전체 크로스-채널 스펙트럼 크기;
- GCC-PHAT(Generalized Cross-channel Correlation function with Phase Difference)의 최대치;
- GCC-PHAT의 제 1 및 제 2 최고 피크의 크기들간의 관계;
- GCC-PHAT의 제 2 최고 피크의 크기; 및
- 이전 프레임에 있어서의 제 2 최고 피크의 위치에 대한, 현재 프레임에 있어서의 제 2 최고 피크의 위치의 차이,
크로스-토크 검출기.
- 제 69 항, 제 70 항 및 제 78 항 중 어느 한 항에 있어서,
각 추출된 피처의 정규화기를 구비하며, 정규화기는 추출된 피처의 평균을 제거하고, 추출된 피처를 추출된 피처의 단위 분산으로 스케일링하는
크로스-토크 검출기.
- 제 69 항, 제 70 항, 제 78 항 및 제 79 항 중 어느 한 항에 있어서,
출력이 추출된 피처들의 선형 조합으로서 계산되는 로지스틱 회귀 모델을 구비하는
크로스-토크 검출기.
- 제 80 항에 있어서,
스코어 계산기는, 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 평활화된 스코어를 생성하기 위하여, 현재 프레임에 있어서의 상대 에너지의 상승 에지를 이용하여 로지스틱 회귀 모델의 출력을 평활화하는
크로스-토크 검출기.
- 제 69 항 내지 제 81 항 중 어느 한 항에 있어서,
클래스 스위칭 메커니즘은 제 1 클래스를 나타내는 제 1 값과, 제 2 클래스를 나타내는 제 2 값을 가진 이진 상태 출력을 생성하는
크로스-토크 검출기.
- 제 69 항 내지 제 82 항 중 어느 한 항에 있어서,
클래스 스위칭 메커니즘은, 크로스-토크 스코어 및 보조 파라메타들을, 제 1 및 제 2 클래스들간의 스위칭을 위해 주어진 값들과 비교하는
크로스-토크 검출기.
- 제 69 항 내지 제 83 항에 있어서,
좌측 및 우측 채널들이 개별적으로 코딩되는 시간-도메인 스테레오 코딩 모드에 있어서, 보조 파라메타들은, 이하의 파라메타들 중 적어도 하나를 구비하는,
- 스테레오 사운드 신호의 좌측 및 우측 채널들에 있어서 비상관 스테레오 콘텐츠의 분류기의 출력;
- 제 1 및 제 2 클래스 중의 한 클래스인, 이전 프레임에 있어서의 클래스 스위칭 메커니즘의 출력; 및
- 스테레오 모드들간의 스위칭이 가능한 프레임들의 카운터,
크로스-토크 검출기.
- 제 69 항 내지 제 84 항 중 어느 한 항에 있어서,
주파수-도메인 스테레오 코딩 모드에 있어서, 보조 파라메타들은 이하의 파라메타들 중 적어도 하나를 구비하는,
- 제 1 및 제 2 클래스들 중 한 클래스인, 이전 프레임에 있어서의 클래스 스위칭 메커니즘의 출력;
- 현재 프레임에 있어서의 VAD(Voice Activity Dection);
- 좌측 및 우측 채널들의 복소 크로스-채널 스펙트럼의 GCC-PHAT(Generalized Cross-channel Correlation function with Phase Difference)의 제 1 및 제 2 최고 피크들의 크기들;
- GCC-PHAT의 제 1 및 제 2 최고 피크들에 대응하는 ITD(Inter-Chnanel Time Difference) 위치들; 및
- 스테레오 신호 무음 플래그,
크로스-토크 검출기.
- 제 84 항에 있어서,
스테레오 모드들은 시간-도메인 스테레오 모드와 주파수-도메인 스테레오 모드를 구비하는
크로스-토크 검출기.
- 좌측 및 우측 채널들을 포함하는 스테레오 사운드 신호로부터 추출된 피처(feature)들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서의 크로스-토크의 검출기로서:
적어도 하나의 프로세서; 및
프로세서에 결합되며 비-일시적 명령어들을 구비하는 메모리를 구비하되,
비-일시적 명령어들은, 실행될 때, 프로세서가,
추출된 피처에 응답하여 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 스코어의 계산기;
스테레오 사운드 신호에 있어서 크로스-토크를 검출하는데 이용하기 위한 보조 파라메타들의 계산기;
크로스-토크 스코어 및 보조 파라메타들에 응답하여 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내는 제 1 클래스와 스테레오 사운드 신호에 있어서 크로스-토크의 부재를 나타내는 제 2 클래스간의 스위칭을 위한 클래스 스위칭 메커니즘을 구현하게 하는,
크로스-토크 검출기.
- 좌측 및 우측 채널들을 포함하는 스테레오 사운드 신호로부터 추출된 피처(feature)들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서의 크로스-토크의 검출기로서:
적어도 하나의 프로세서; 및
프로세서에 결합되며 비-일시적 명령어들을 구비하는 메모리를 구비하되,
비-일시적 명령어들은, 실행될 때, 프로세서가,
추출된 피처에 응답하여 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 스코어를 계산하게 하고;
스테레오 사운드 신호에 있어서 크로스-토크를 검출하는데 이용하기 위한 보조 파라메타들을 계산하게 하고;
크로스-토크 스코어 및 보조 파라메타들에 응답하여 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내는 제 1 클래스와 스테레오 사운드 신호에 있어서 크로스-토크의 부재를 나타내는 제 2 클래스간을 스위칭하게 하는
크로스-토크 검출기.
- 좌측 및 우측 채널들을 포함하는 스테레오 사운드 신호로부터 추출된 피처(feature)들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서 크로스-토크를 검출하는 방법으로서:
추출된 피처에 응답하여 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 스코어를 계산하고;
스테레오 사운드 신호에 있어서 크로스-토크를 검출하는데 이용하기 위한 보조 파라메타들을 계산하고;
크로스-토크 스코어 및 보조 파라메타들에 응답하여 스테레오 사운드 신호에 있어서 크로스-토크의 존재를 나타내는 제 1 클래스와 스테레오 사운드 신호에 있어서 크로스-토크의 부재를 나타내는 제 2 클래스간을 스위칭하는 것을 구비하는
크로스-토크 검출 방법.
- 제 89 항에 있어서,
크로스-토크의 검출은 로지스틱 회귀 모델(logistic regression model)에 기반한
크로스-토크 검출 방법.
- 제 89 항 또는 제 90 항에 있어서,
좌측 및 우측 채널들이 개별적으로 코딩되는 시간-도메인 스테레오 모드에 있어서, 추출된 피처들은 이하의 피처들 중 적어도 하나를 구비하는,
- 좌측 채널에 있어서의 FEC(Frame Erasure Concealment) 클래스와 우측 채널에 있어서의 FEC 클래스간의 차이;
- 좌측 채널의 최대 자기 상관 값과 우측 채널의 최대 자기 상관 값간의 차이;
- 좌측 채널에 있어서의 LSF(Line Spectral Frequencies) 값들의 합과, 우측 채널에 있어서의 LSF 값들의 합간의 차이;
- 좌측 채널과 우측 채널간의 잔차 에러 에너지의 차이;
- 좌측 채널의 상관 맵과 우측 채널의 상관 맵간의 차이;
- 좌측 채널과 우측 채널간의 잡음 특성들의 차이;
- 좌측 채널과 우측 채널간의 비-정상성(non-stationarity)의 차이;
- 좌측 채널과 우측 채널간의 스펙트럼 다이버시티의 차이;
- 제로 래그의 좌측 및 우측의 채널간 상관 함수의 비-정규화된 값;
- 좌측 및 우측 채널들의 평균으로서 계산되는 모노 신호의 에너지와 좌측 및 우측 채널들 간의 차이를 이용하여 계산되는 사이드 신호의 에너지간의 비율;
- (a) 좌측 채널과 모노 신호간의 내적과 우측 채널과 모노 신호간의 내적 중의 최대치와, (b) 좌측 채널과 모노 신호간의 내적과 우측 채널과 모노 신호간의 내적 중의 최소치간의 차이;
- 제로-래그의 좌측 채널과 우측 채널의 채널간 상관 함수의 값;
- 채널간 상관 함수의 진화(evolution);
- 채널간 상관 함수의 최대치의 위치;
- 채널간 상관 함수의 최대치;
- 좌측 채널과 모노 신호간의 내적과 우측 채널과 모노 신호간의 내적의 차이; 및
사이드 신호와 모노 신호의 에너지들간의 평활화 비율,
크로스-토크 검출 방법.
- 제 89 항 내지 제 91 항 중 어느 한 항에 있어서,
각 추출된 피처를 정규화하는 것을 구비하되, 각 추출된 피처를 정규화하는 것은 추출된 피처들의 평균을 제거하고, 추출된 피처를 추출된 피처의 단위 분산으로 스케일링(scaling)하는 것을 구비하는
크로스-토크 검출 방법.
- 제 89 항 내지 제 92 항에 있어서,
출력이 추출된 피처들의 선형 조합(linear combination)으로서 계산되는 로지스틱 회귀 모델을 이용하는 것을 구비하는
크로스-토크 검출 방법.
- 제 93 항에 있어서,
크로스-토크를 나타내는 스코어를 계산하는 것은, 로지스틱 회귀 모델의 출력을 정규화하는 것을 구비하는
크로스-토크 검출 방법.
- 제 93 항 또는 제 94 항에 있어서,
크로스-토크를 나타내는 스코어를 계산하는 것은, 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 스코어를 생성하기 위하여, 현재 프레임의 상대 에너지를 이용하여 로지스틱 회귀 모델의 출력을 가중화하는 것을 구비하는
크로스-토크 검출 방법.
- 제 95 항에 있어서,
크로스-토크를 나타내는 스코어를 계산하는 것은, 로직스틱 회귀 모델의 출력을 가중화하기 전에, 현재 프레임의 상대 에너지를 주어진 간격에 반비례로 선형적으로 매핑시키는 것을 구비하는
크로스-토크 검출 방법.
- 제 95 항 또는 제 96 항에 있어서,
크로스-토크를 나타내는 스코어를 계산하는 것은, 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 평활화된 스코어를 생성하기 위하여 현재 프레임에 있어서의 상대 에너지의 상승 에지들을 이용하여 로지스틱 회귀 모델의 가중화된 출력을 평활화하는 것을 구비하는
크로스-토크 검출 방법.
- 제 89 항 또는 제 90 항에 있어서,
주파수-도메인 스테레오 코딩 모드에 있어서, 추출된 피처들은 이하의 피처들 중 적어도 하나를 구비하는,
- ILD(Inter-Channel Level Difference) 이득;
- IPD(Inter-Channel Phase Difference) 이득;
- IPD 회전 각도;
- 좌측 채널과 우측 채널간의 위상 차이를 나타내는 예측 이득;
- 채널간 코히어런스의 평균 에너지;
- 최대 및 최소 채널내 크기 곱들의 비율;
- 전체 크로스-채널 스펙트럼 크기;
- GCC-PHAT(Generalized Cross-channel Correlation function with Phase Difference)의 최대치;
- GCC-PHAT의 제 1 및 제 2 최고 피크의 크기들간의 관계;
- GCC-PHAT의 제 2 최고 피크의 크기; 및
- 이전 프레임에 있어서의 제 2 최고 피크의 위치에 대한, 현재 프레임에 있어서의 제 2 최고 피크의 위치의 차이,
크로스-토크 검출 방법.
- 제 89 항, 제 90 항 및 제 98 항 중 어느 한 항에 있어서,
각 추출된 피처를 정규화하는 것을 구비하며, 각 추출된 피처를 정규화하는 것은, 추출된 피처의 평균을 제거하고, 추출된 피처를 추출된 피처의 단위 분산으로 스케일링하는 것을 구비하는
크로스-토크 검출 방법.
- 제 89 항, 제 90 항, 제 98 항 및 제 99 항 중 어느 한 항에 있어서,
출력이 추출된 피처들의 선형 조합으로서 계산되는 로지스틱 회귀 모델을 이용하는 것을 구비하는
크로스-토크 검출 방법.
- 제 100 항에 있어서,
크로스-토크를 나타내는 스코어를 계산하는 것은, 스테레오 사운드 신호에 있어서 크로스-토크를 나타내는 평활화된 스코어를 생성하기 위하여, 현재 프레임의 상대 에너지의 상승 에지를 이용하여 로지스틱 회귀 모델의 출력을 평활화하는 것을 구비하는
크로스-토크 검출 방법.
- 제 89 항 내지 제 101 항 중 어느 한 항에 있어서,
제 1 클래스와 제 2 클래스간의 스위칭은 제 1 클래스를 나타내는 제 1 값과, 제 2 클래스를 나타내는 제 2 값을 가진 이진 상태 출력을 생성하는 것을 구비하는
크로스-토크 검출 방법.
- 제 89 항 내지 제 102 항 중 어느 한 항에 있어서,
제 1 클래스와 제 2 클래스간의 스위칭은, 크로스-토크 스코어 및 보조 파라메타들을, 제 1 및 제 2 클래스들간의 스위칭을 위해 주어진 값들과 비교하는 것을 구비하는
크로스-토크 검출 방법.
- 제 89 항 내지 제 103 항에 있어서,
좌측 및 우측 채널들이 개별적으로 코딩되는 시간-도메인 스테레오 코딩 모드에 있어서, 보조 파라메타들은, 이하의 파라메타들 중 적어도 하나를 구비하는,
- 스테레오 사운드 신호의 좌측 및 우측 채널들에 있어서 비상관 스테레오 콘텐츠의 분류기의 출력;
- 제 1 및 제 2 클래스 중의 한 클래스인, 제 1 클래스와 제 2 클래스간의 스위칭의 출력; 및
- 스테레오 모드들간의 스위칭이 가능한 프레임들의 카운터,
크로스-토크 검출 방법.
- 제 89 항 내지 제 104 항 중 어느 한 항에 있어서,
주파수-도메인 스테레오 코딩 모드에 있어서, 보조 파라메타들은 이하의 파라메타들 중 적어도 하나를 구비하는,
- 제 1 및 제 2 클래스들 중 한 클래스인, 제 1 클래스와 제 2 클래스간의 스위칭의 출력;
- 현재 프레임에 있어서의 VAD(Voice Activity Dection);
- 좌측 및 우측 채널들의 복소 크로스-채널 스펙트럼의 GCC-PHAT(Generalized Cross-channel Correlation function with Phase Difference)의 제 1 및 제 2 최고 피크들의 크기들;
- GCC-PHAT의 제 1 및 제 2 최고 피크들에 대응하는 ITD(Inter-Chnanel Time Difference) 위치들; 및
- 스테레오 신호 무음 플래그,
크로스-토크 검출 방법.
- 제 104 항에 있어서,
스테레오 모드들은 시간-도메인 스테레오 모드와 주파수-도메인 스테레오 모드를 구비하는
크로스-토크 검출 방법.
- 좌측 및 우측 채널들을 포함하는 스테레오 사운드 신호로부터 추출된 피처(feature)들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠의 분류기로서:
추출된 피처에 응답하여 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 나타내는 스코어의 계산기; 및
스코어에 응답하여 스테레오 사운드 신호에 있어서 비상관 및 상관 스테레오 콘텐츠 들 중 하나를 나타내는 제 1 클래스와, 비상관 및 상관 스테레오 콘텐츠들 중 다른 하나를 나타내는 제 2 클래스간의 스위칭을 위한 클래스 스위칭 메커니즘을 구비하는
비상관 스테레오 콘텐츠의 분류기.
- 제 107 항에 있어서,
비상관 스테레오 콘텐츠의 분류는 로지스틱 회귀 모델(logistic regression model)에 기반한
비상관 스테레오 콘텐츠의 분류기.
- 제 107 항 또는 제 108 항에 있어서,
좌측 및 우측 채널들이 개별적으로 코딩되는 시간-도메인 스테레오 모드에 있어서, 추출된 피처들은 이하의 피처들 중 적어도 하나를 구비하는,
- 좌측 및 우측 채널들의 채널간 크로스-상관 함수의 최대치의 위치;
- 순시 목표 이득;
- 제로 래그(zero lag)의 채널간 상관 함수의 절대값의 로그;
- 좌측 채널과 우측 채널간의 차이에 대응하는 사이드 신호와, 좌측 채널과 우측 채널의 평균에 대응하는 모노 신호간의 사이드-모노간 에너지 비율;
- (a) 좌측 채널과 모노 신호간의 내적과, 우측 채널과 모노 신호간의 내적중의 최대치와, (b) 좌측 채널과 모노 신호간의 내적과, 우측 채널과 모노 신호간의 내적중의 최소치간의 차이;
- 좌측 채널과 모노 신호간의 내적과, 우측 채널과 모노 채널간의 내적 간의 로그 도메인에 있어서의 절대차(absolute difference);
- 크로스-채널 상관 함수의 제로-래그 값; 및
- 채널간 상관 함수의 진화,
비상관 스테레오 콘텐츠의 분류기.
- 제 107 항 내지 제 109 항 중 어느 한 항에 있어서,
각 추출된 피처의 정규화기를 구비하되, 정규화기는 추출된 피처들의 평균을 제거하고, 추출된 피처를 추출된 피처의 단위 분산으로 스케일링(scaling)하는,
비상관 스테레오 콘텐츠의 분류기.
- 제 107 항 내지 제 110 항에 있어서,
출력이 추출된 피처들의 선형 조합(linear combination)으로서 계산되는 로지스틱 회귀 모델을 구비하는
비상관 스테레오 콘텐츠의 분류기.
- 제 111 항에 있어서,
스코어 계산기는, 비상관 스테레오 콘텐츠를 나타내는 스코어를 생성하기 위하여, 현재 프레임의 상대 에너지를 이용하여 로지스틱 회귀 모델의 출력을 가중화하는
비상관 스테레오 콘텐츠의 분류기.
- 제 112 항에 있어서,
스코어 계산기는, 비상관 스테레오 콘텐츠를 나타내는 평활화된 스코어를 생성하기 위하여 현재 프레임에 있어서의 상대 에너지의 상승 에지들을 이용하여 로지스틱 회귀 모델의 가중화된 출력을 평활화하는
비상관 스테레오 콘텐츠의 분류기.
- 제 107 항 또는 제 108 항에 있어서,
주파수-도메인 스테레오 코딩 모드에 있어서, 추출된 피처들은 이하의 피처들 중 적어도 하나를 구비하는,
- ILD(Inter-Channel Level Difference) 이득;
- IPD(Inter-Channel Phase Difference) 이득;
- IPD를 각도 형태로 나타내는 IPD 회전 각도;
- 예측 이득;
- ILD와 IPD에 의해 포획되지 않은 좌측 채널과 우측 채널간의 차이를 나타내는 채널간 코히어런스의 평균 에너지;
- 최대 및 최소 채널내 크기 곱들의 비율;
- 크로스-채널 스펙트럼 크기; 및
- GCC-PHAT 함수의 최대치,
비상관 스테레오 콘텐츠의 분류기.
- 제 114 항에 있어서,
각 추출된 피처의 정규화기를 구비하며, 정규화기는 추출된 피처의 평균을 제거하고, 추출된 피처를 추출된 피처의 단위 분산으로 스케일링하는
비상관 스테레오 콘텐츠의 분류기.
- 제 107 항, 제 108 항, 제 114 항 및 제 115 항 중 어느 한 항에 있어서,
출력이 추출된 피처들의 선형 조합으로서 계산되는 로지스틱 회귀 모델을 구비하는
비상관 스테레오 콘텐츠의 분류기.
- 제 116 항에 있어서,
스코어 계산기는, 비상관 스테레오 콘텐츠를 나타내는 스코어를 생성하기 위하여, 현재 프레임의 상대 에너지를 이용하여 로지스틱 회귀 모델의 출력을 가중화하는
비상관 스테레오 콘텐츠의 분류기.
- 제 117 항에 있어서,
스코어 계산기는, 비상관 스테레오 콘텐츠를 나타내는 평활화된 스코어를 생성하기 위하여, 현재 프레임에 있어서의 상대 에너지의 상승 에지들을 이용하여 로지스틱 회귀 모델의 출력을 평활화하는
비상관 스테레오 콘텐츠의 분류기.
- 제 107 항 내지 제 118 항 중 어느 한 항에 있어서,
클래스 스위칭 메커니즘은 스테레오 사운드 신호에 있어서 비상관 및 상관 스테레오 콘텐츠 중 하나를 나타내는 제 1 값과, 비상관 및 상관 스테레오 콘텐츠 중 다른 하나를 나타내는 제 2 값을 가진 이진 상태 출력을 생성하는
비상관 스테레오 콘텐츠의 분류기.
- 제 107 항 내지 제 119 항 중 어느 한 항에 있어서,
클래스 스위칭 메커니즘은, 스코어를, 제 1 및 제 2 클래스들간의 스위칭을 위해 주어진 값들과 비교하는
비상관 스테레오 콘텐츠의 분류기.
- 제 107 항 내지 제 120 항에 있어서,
제 1 스테레오 모드와 제 2 스테레오 모드간의 스위칭이 가능한 프레임들의 카운터를 구비하는
비상관 스테레오 콘텐츠의 분류기.
- 제 121 항에 있어서,
제 1 스테레오 모드는 좌측 채널과 우측 채널이 개별적으로 코딩되는 시간-도메인 스테레오 모드이고, 제 2 스테레오 모드는 주파수-도메인 스테레오 모드인,
비상관 스테레오 콘텐츠의 분류기.
- 제 121 항 또는 제 122 항에 있어서,
클래스 스위칭 메커니즘은 제 1 및 제 2 클래스들간의 스위칭을 위해 스코어 및 카운터에 응답하는,
비상관 스테레오 콘텐츠의 분류기.
- 제 123 항에 있어서,
스코어는 현재 프레임으로부터이고, 카운터는 이전 프레임으로부터인
비상관 스테레오 콘텐츠의 분류기.
- 제 123 항 또는 제 124 항에 있어서,
클래스 스위칭 메커니즘은 제 1 및 제 2 클래스들간의 스위칭을 위해 스코어 및 카운터를 주어진 값들과 비교하는
비상관 스테레오 콘텐츠의 분류기.
- 좌측 및 우측 채널들을 포함하는 스테레오 사운드 신호로부터 추출된 피처(feature)들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠의 분류기로서:
적어도 하나의 프로세서; 및
프로세서에 결합되고 비-일시적 명령어들을 구비하는 메모리를 구비하되,
비-일시적 명령어들은, 실행될 때, 프로세서가,
추출된 피처에 응답하여 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 나타내는 스코어의 계산기; 및
스코어에 응답하여 스테레오 사운드 신호에 있어서 비상관 및 상관 스테레오 콘텐츠 들 중 하나를 나타내는 제 1 클래스와, 비상관 및 상관 스테레오 콘텐츠들 중 다른 하나를 나타내는 제 2 클래스간의 스위칭을 위한 클래스 스위칭 메커니즘을 구현하게 하는
비상관 스테레오 콘텐츠의 분류기.
- 좌측 및 우측 채널들을 포함하는 스테레오 사운드 신호로부터 추출된 피처(feature)들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠의 분류기로서:
적어도 하나의 프로세서; 및
프로세서에 결합되고 비-일시적 명령어들을 구비하는 메모리를 구비하되,
비-일시적 명령어들은, 실행될 때, 프로세서가,
추출된 피처에 응답하여 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 나타내는 스코어를 계산하게 하고;
스코어에 응답하여 스테레오 사운드 신호에 있어서 비상관 및 상관 스테레오 콘텐츠 들 중 하나를 나타내는 제 1 클래스와, 비상관 및 상관 스테레오 콘텐츠들 중 다른 하나를 나타내는 제 2 클래스간을 스위칭하게 하는
비상관 스테레오 콘텐츠의 분류기.
- 좌측 및 우측 채널들을 포함하는 스테레오 사운드 신호로부터 추출된 피처(feature)들에 응답하여 좌측 채널과 우측 채널을 포함하는 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 분류하는 방법으로서:
추출된 피처에 응답하여 스테레오 사운드 신호에 있어서 비상관 스테레오 콘텐츠를 나타내는 스코어를 계산하고;
스코어에 응답하여 스테레오 사운드 신호에 있어서 비상관 및 상관 스테레오 콘텐츠 들 중 하나를 나타내는 제 1 클래스와, 비상관 및 상관 스테레오 콘텐츠들 중 다른 하나를 나타내는 제 2 클래스간을 스위칭하는 것을 구비하는
비상관 스테레오 콘텐츠의 분류 방법.
- 제 128 항에 있어서,
비상관 스테레오 콘텐츠의 분류는 로지스틱 회귀 모델(logistic regression model)에 기반한
비상관 스테레오 콘텐츠의 분류 방법.
- 제 128 항 또는 제 129 항에 있어서,
좌측 및 우측 채널들이 개별적으로 코딩되는 시간-도메인 스테레오 모드에 있어서, 추출된 피처들은 이하의 피처들 중 적어도 하나를 구비하는,
- 좌측 및 우측 채널들의 채널간 크로스-상관 함수의 최대치의 위치;
- 순시 목표 이득;
- 제로 래그(zero lag)의 채널간 상관 함수의 절대값의 로그;
- 좌측 채널과 우측 채널간의 차이에 대응하는 사이드 신호와, 좌측 채널과 우측 채널의 평균에 대응하는 모노 신호간의 사이드-모노간 에너지 비율;
- (a) 좌측 채널과 모노 신호간의 내적과, 우측 채널과 모노 신호간의 내적중의 최대치와, (b) 좌측 채널과 모노 신호간의 내적과, 우측 채널과 모노 신호간의 내적중의 최소치간의 차이;
- 좌측 채널과 모노 신호간의 내적과, 우측 채널과 모노 채널간의 내적 간의 로그 도메인에 있어서의 절대차(absolute difference);
- 크로스-채널 상관 함수의 제로-래그 값; 및
- 채널간 상관 함수의 진화,
비상관 스테레오 콘텐츠의 분류 방법.
- 제 128 항 내지 제 130 항 중 어느 한 항에 있어서,
각 추출된 피처를 정규화하는 것을 구비하되, 각 추출된 피처를 정규화하는 것은, 추출된 피처들의 평균을 제거하고, 추출된 피처를 추출된 피처의 단위 분산으로 스케일링(scaling)하는 것을 구비하는
비상관 스테레오 콘텐츠의 분류 방법.
- 제 128 항 내지 제 131 항에 있어서,
출력이 추출된 피처들의 선형 조합(linear combination)으로서 계산되는 로지스틱 회귀 모델을 이용하는 것을 구비하는
비상관 스테레오 콘텐츠의 분류 방법.
- 제 132 항에 있어서,
비상관 스테레오 콘텐츠를 나타내는 스코어를 계산하는 것은, 비상관 스테레오 콘텐츠를 나타내는 스코어를 생성하기 위하여, 현재 프레임의 상대 에너지를 이용하여 로지스틱 회귀 모델의 출력을 가중화하는 것을 구비하는,
비상관 스테레오 콘텐츠의 분류 방법.
- 제 133 항에 있어서,
비상관 스테레오 콘텐츠를 나타내는 스코어를 계산하는 것은, 비상관 스테레오 콘텐츠를 나타내는 평활화된 스코어를 생성하기 위하여 현재 프레임에 있어서의 상대 에너지의 상승 에지들을 이용하여 로지스틱 회귀 모델의 가중화된 출력을 평활화하는 것을 구비하는
비상관 스테레오 콘텐츠의 분류 방법.
- 제 128 항 또는 제 129 항에 있어서,
주파수-도메인 스테레오 코딩 모드에 있어서, 추출된 피처들은 이하의 피처들 중 적어도 하나를 구비하는,
- ILD(Inter-Channel Level Difference) 이득;
- IPD(Inter-Channel Phase Difference) 이득;
- IPD를 각도 형태로 나타내는 IPD 회전 각도;
- 예측 이득;
- ILD와 IPD에 의해 포획되지 않은 좌측 채널과 우측 채널간의 차이를 나타내는 채널간 코히어런스의 평균 에너지;
- 최대 및 최소 채널내 크기 곱들의 비율;
- 크로스-채널 스펙트럼 크기; 및
- GCC-PHAT 함수의 최대치,
비상관 스테레오 콘텐츠의 분류 방법.
- 제 135 항에 있어서,
각 추출된 피처를 정규화하는 것을 구비하며, 각 추출된 피처를 정규화하는 것은, 추출된 피처의 평균을 제거하고, 추출된 피처를 추출된 피처의 단위 분산으로 스케일링하는 것을 구비하는
비상관 스테레오 콘텐츠의 분류 방법.
- 제 128 항, 제 129 항, 제 135 항 및 제 136 항 중 어느 한 항에 있어서,
출력이 추출된 피처들의 선형 조합으로서 계산되는 로지스틱 회귀 모델을 이용하는 것을 구비하는
비상관 스테레오 콘텐츠의 분류 방법.
- 제 137 항에 있어서,
비상관 스테레오 콘텐츠를 나타내는 스코어를 계산하는 것은, 비상관 스테레오 콘텐츠를 나타내는 스코어를 생성하기 위하여, 현재 프레임의 상대 에너지를 이용하여 로지스틱 회귀 모델의 출력을 가중화하는 것을 구비하는
비상관 스테레오 콘텐츠의 분류 방법.
- 제 138 항에 있어서,
비상관 스테레오 콘텐츠를 나타내는 스코어를 계산하는 것은, 비상관 스테레오 콘텐츠를 나타내는 평활화된 스코어를 생성하기 위하여, 현재 프레임에 있어서의 상대 에너지의 상승 에지들을 이용하여 로지스틱 회귀 모델의 출력을 평활화하는 것을 구비하는
비상관 스테레오 콘텐츠의 분류 방법.
- 제 128 항 내지 제 139 항 중 어느 한 항에 있어서,
제 1 클래스와 제 2 클래스간의 스위칭은, 스테레오 사운드 신호에 있어서 비상관 및 상관 스테레오 콘텐츠 중 하나를 나타내는 제 1 값과, 비상관 및 상관 스테레오 콘텐츠 중 다른 하나를 나타내는 제 2 값을 가진 이진 상태 출력을 생성하는 것을 구비하는
비상관 스테레오 콘텐츠의 분류 방법.
- 제 128 항 내지 제 140 항 중 어느 한 항에 있어서,
제 1 클래스와 제 2 클래스간의 스위칭은, 스코어를 주어진 값들과 비교하는 것을 구비하는
비상관 스테레오 콘텐츠의 분류 방법.
- 제 128 항 내지 제 141 항에 있어서,
제 1 스테레오 모드와 제 2 스테레오 모드간의 스위칭이 가능한 프레임들의 카운터를 구비하는
비상관 스테레오 콘텐츠의 분류 방법.
- 제 142 항에 있어서,
제 1 스테레오 모드는 좌측 채널과 우측 채널이 개별적으로 코딩되는 시간-도메인 스테레오 모드이고, 제 2 스테레오 모드는 주파수-도메인 스테레오 모드인,
비상관 스테레오 콘텐츠의 분류 방법.
- 제 142 항 또는 제 143 항에 있어서,
제 1 클래스와 제 2 클래스간의 스위칭은 스코어 및 카운터에 응답하는,
비상관 스테레오 콘텐츠의 분류 방법.
- 제 144 항에 있어서,
스코어는 현재 프레임으로부터이고, 카운터는 이전 프레임으로부터인
비상관 스테레오 콘텐츠의 분류 방법.
- 제 144 항 또는 제 145 항에 있어서,
제 1 클래스와 제 2 클래스간의 스위칭은 제 1 및 제 2 클래스들간의 스위칭을 위해 스코어 및 카운터를 주어진 값들과 비교하는 것을 구비하는
비상관 스테레오 콘텐츠의 분류 방법.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063075984P | 2020-09-09 | 2020-09-09 | |
US63/075,984 | 2020-09-09 | ||
PCT/CA2021/051238 WO2022051846A1 (en) | 2020-09-09 | 2021-09-08 | Method and device for classification of uncorrelated stereo content, cross-talk detection, and stereo mode selection in a sound codec |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230066056A true KR20230066056A (ko) | 2023-05-12 |
Family
ID=80629696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020237011936A KR20230066056A (ko) | 2020-09-09 | 2021-09-08 | 사운드 코덱에 있어서 비상관 스테레오 콘텐츠의 분류, 크로스-토크 검출 및 스테레오 모드 선택을 위한 방법 및 디바이스 |
Country Status (9)
Country | Link |
---|---|
US (1) | US20240021208A1 (ko) |
EP (1) | EP4211683A1 (ko) |
JP (1) | JP2023540377A (ko) |
KR (1) | KR20230066056A (ko) |
CN (1) | CN116438811A (ko) |
BR (1) | BR112023003311A2 (ko) |
CA (1) | CA3192085A1 (ko) |
MX (1) | MX2023002825A (ko) |
WO (1) | WO2022051846A1 (ko) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU5663296A (en) * | 1995-04-10 | 1996-10-30 | Corporate Computer Systems, Inc. | System for compression and decompression of audio signals fo r digital transmission |
US6151571A (en) * | 1999-08-31 | 2000-11-21 | Andersen Consulting | System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters |
JP2008513845A (ja) * | 2004-09-23 | 2008-05-01 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声データを処理するシステム及び方法、プログラム要素並びにコンピュータ読み取り可能媒体 |
US7599840B2 (en) * | 2005-07-15 | 2009-10-06 | Microsoft Corporation | Selectively using multiple entropy models in adaptive coding and decoding |
ES2829413T3 (es) * | 2015-05-20 | 2021-05-31 | Ericsson Telefon Ab L M | Codificación de señales de audio de múltiples canales |
-
2021
- 2021-09-08 JP JP2023515652A patent/JP2023540377A/ja active Pending
- 2021-09-08 CA CA3192085A patent/CA3192085A1/en active Pending
- 2021-09-08 KR KR1020237011936A patent/KR20230066056A/ko unknown
- 2021-09-08 CN CN202180071762.9A patent/CN116438811A/zh active Pending
- 2021-09-08 WO PCT/CA2021/051238 patent/WO2022051846A1/en active Application Filing
- 2021-09-08 EP EP21865422.6A patent/EP4211683A1/en active Pending
- 2021-09-08 BR BR112023003311A patent/BR112023003311A2/pt unknown
- 2021-09-08 US US18/041,772 patent/US20240021208A1/en active Pending
- 2021-09-08 MX MX2023002825A patent/MX2023002825A/es unknown
Also Published As
Publication number | Publication date |
---|---|
JP2023540377A (ja) | 2023-09-22 |
EP4211683A1 (en) | 2023-07-19 |
WO2022051846A1 (en) | 2022-03-17 |
BR112023003311A2 (pt) | 2023-03-21 |
CA3192085A1 (en) | 2022-03-17 |
US20240021208A1 (en) | 2024-01-18 |
MX2023002825A (es) | 2023-05-30 |
CN116438811A (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6641018B2 (ja) | チャネル間時間差を推定する装置及び方法 | |
US8532999B2 (en) | Apparatus and method for generating a multi-channel synthesizer control signal, multi-channel synthesizer, method of generating an output signal from an input signal and machine-readable storage medium | |
US11664034B2 (en) | Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal | |
US11594231B2 (en) | Apparatus, method or computer program for estimating an inter-channel time difference | |
US10825467B2 (en) | Non-harmonic speech detection and bandwidth extension in a multi-source environment | |
Hsu et al. | Learning-based personal speech enhancement for teleconferencing by exploiting spatial-spectral features | |
US11463833B2 (en) | Method and apparatus for voice or sound activity detection for spatial audio | |
CN112233682A (zh) | 一种立体声编码方法、立体声解码方法和装置 | |
KR20230066056A (ko) | 사운드 코덱에 있어서 비상관 스테레오 콘텐츠의 분류, 크로스-토크 검출 및 스테레오 모드 선택을 위한 방법 및 디바이스 | |
Langjahr et al. | Objective quality assessment of target speaker separation performance in multisource reverberant environment | |
US20230215448A1 (en) | Method and device for speech/music classification and core encoder selection in a sound codec | |
US20220351735A1 (en) | Audio Encoding and Audio Decoding | |
Mahmoodzadeh et al. | A hybrid coherent-incoherent method of modulation filtering for single channel speech separation | |
Farsi et al. | A novel method to modify VAD used in ITU-T G. 729B for low SNRs |