KR20230058705A - 노이즈 신호 믹싱에 의존하는 다채널 신호 발생기, 오디오 인코더, 및 관련 방법 - Google Patents

노이즈 신호 믹싱에 의존하는 다채널 신호 발생기, 오디오 인코더, 및 관련 방법 Download PDF

Info

Publication number
KR20230058705A
KR20230058705A KR1020237011262A KR20237011262A KR20230058705A KR 20230058705 A KR20230058705 A KR 20230058705A KR 1020237011262 A KR1020237011262 A KR 1020237011262A KR 20237011262 A KR20237011262 A KR 20237011262A KR 20230058705 A KR20230058705 A KR 20230058705A
Authority
KR
South Korea
Prior art keywords
noise
channel
signal
frame
audio
Prior art date
Application number
KR1020237011262A
Other languages
English (en)
Inventor
엠마누엘 라벨리
잔 프레더릭 키에네
기욤 푸치스
스리칸트 콜세
마르쿠스 물트루스
엘레니 포토포울로우
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20230058705A publication Critical patent/KR20230058705A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

제1 채널(201) 및 제2 채널(203)을 갖는 다채널 신호(204)를 생성하기 위한 다채널 신호 발생기(200)가 제공된다. 다채널 신호 발생기(200)는 제1 오디오 신호(221)를 발생하는 제1 오디오 소스(211); 제2 오디오 신호(223)를 발생하는 제2 오디오 소스(213); 믹싱 노이즈 신호(222)를 발생하는 믹싱 노이즈 소스(212); 및 상기 믹싱 노이즈 신호(222)와 상기 제1 오디오 신호(221)를 믹싱하여 상기 제1 채널(201)을 획득하고 상기 믹싱 노이즈 신호(222)와 상기 제2 오디오 신호(222)를 믹싱하여 상기 제2 채널(203)을 획득하는 믹서(206);를 구비한다.
또한 오디오 인코더가 제공되는데, 상기 오디오 디코더는 다채널 신호(304)를 분석하여, 상기 프레임 시퀀스의 프레임을 비활성 프레임(308)으로 결정(381)하는 활성 감지기(380); 상기 다채널 신호(304)의 제1 채널(301, 201)에 대한 제1 파라메트릭 노이즈 데이터(p_noise, vm,ind)를 계산하고, 상기 다채널 신호(304)의 제1 채널(303)에 대한 제2 파라메트릭 노이즈 데이터(p_noise, vs,ind)를 계산하는 노이즈 파라미터 계산기(3040); 상기 비활성 프레임(308)에서 상기 제1 채널(301, 201)과 상기 제2 채널(303, 203) 사이의 코히런스 상황을 표시하는 코히런스 데이터(404, c)를 계산하는 코히런스 계산기(320); 및 활성 프레임(306)에 대한 인코딩된 오디오 데이터와, 상기 비활성 프레임(308)에 대해서, 상기 제1 파라메트릭 노이즈 데이터(p_noise, vm,ind), 상기 제2 파라메트릭 노이즈 데이터(p_noise, vs,ind), 및/또는 상기 제1 파라메트릭 노이즈 데이터 및 상기 제2 파라메트릭 노이즈 데이터의 제1 선형 결합, 상기 제1 파라메트릭 노이즈 데이터 및 상기 제2 파라메트릭 노이즈 데이터의 제2 선형 결합, 및 상기 코히런스 데이터(404, c)를 포함하는, 인코딩된 다채널 오디오 신호(232)를 생성하는 출력 인터페이스(310);를 구비한다.

Description

노이즈 신호 믹싱에 의존하는 다채널 신호 발생기, 오디오 인코더, 및 관련 방법
본 발명은 특히 스테레오 코덱에서 불연속 송신(Discontinuous Transmission; DTX)를 가능하게 하는 컴포트 노이즈 생성(Comfort Noise Generation; CNG)에 관한 것이다. 또한 본 발명은, 예컨대 노이즈 신호 믹싱에 의존하는 다채널 신호 발생기, 오디오 인코더, 및 관련 방법에 관한 것이다. 본 발명은 디바이스, 장치, 시스템으로서, 방법으로서, 컴퓨터(프로세서, 컨트롤러)에 의해 실행될 때 컴퓨터(프로세서, 컨트롤러)로 하여금 특정 방법을 수행하게 하는 명령들을 저장하는 비일시적 저장 장치로서, 그리고 인코딩된 다채널 오디오 신호로서 구현될 수 있다.
컴포트 노이즈 생성기(comfort noise Generator)는 일반적으로 오디오 신호, 특히 음성을 포함하는 오디오 신호의 불연속 송신(DTX)에 사용된다. 이러한 모드에서 오디오 신호는 먼저 음성 활성 감지기(VAD)에 의해 활성 및 비활성 프레임으로 분류된다. 음성 활성 감지 결과를 토대로, 활성 음성 프레임들만 코딩되어 공칭 비트율로 송신된다. 배경 잡음만 존재하는 긴 휴지기 동안에는, 비트율이 낮아지거나 0이 되고, 배경 잡음이 무음 삽입 디스크립터(silence insertion descriptor) 프레임(SID 프레임)을 사용하여 파라미터 방식으로 코딩된다. 이에 따라 평균 비트율이 크게 감소된다.
잡음은 비활성 프레임 중에 디코더 측에서 컴포트 노이즈 생성기(CNG)에 의해 생성된다. SID 프레임의 크기는 실제로는 매우 제한적이다. 그러므로 배경 잡음을 기술하는 파라미터들의 수는 가능한 한 적게 유지되어야 한다. 이를 위해 노이즈 추정이 스펙트럼 변환의 출력에 직접 적용되지는 않는다. 그 대신, 예컨대 바크 스케일(Bark scale)에 따른 대역 그룹 간에 입력 파워 스펙트럼을 평균화함으로써, 더 낮은 스펙트럼 분해능에서 적용된다. 평균화는 산술평균 또는 기하평균을 사용해서 이루어질 수 있다. 불행하게도, SID 프레임에서 송신되는 파라미터들의 제한된 개수로 인하여 배경 노이즈의 미세한 스펙트럼 구조를 캡처할 수 없다. 따라서 노이즈의 부드러운 스펙트럼 포락선만 CNG에 의해 재생될 수 있다. 음성 활성 감지기(VAD)가 CNG 프레임을 트리거링할 때, 재생되는 통신 잡음의 부드러운 스펙트럼과 실제 배경 잡음의 스펙트럼 사이의 차이는 활성 프레임(신호에서 노이즈가 섞인 음성의 정상적인 코딩 및 디코딩이 이루이지는 구간임)과 CNG 프레임 간의 전환구간에서 매우 잘 들리게 될 수 있다.
전형적인 CNG 기술 중 일부를 ITU-T 권고 G.729B[비특허문헌 1], G.729.1C[비특허문헌 2], G.718[비특허문헌 3], 또는 적응적 다중-비트율(AMR) 코덱 및 적응적 다중-비트율 광대역(AMR-WB) 코덱에 대한 3GPP 규격[비특허문헌 4, 5]에서 찾을 수 있다. 이들 기술들은 모두 선형 예측(LP)을 사용하는 분석/합성 접근법에 의해 컴포트 노이즈를 생성한다.
송신 비트율을 더욱 줄이기 위하여, LTE의 향상된 음성 서비스(Enhanced Voice Services; EVS)를 위한 3GPP 통신 코덱[비특허문헌 6]에는, 비활성 프레임 즉 배경 잡음만을 포함하고 있는 것으로 결정된 프레임에 대해서 컴포트 노이즈 생성(CNG)을 적용하는 불연속 송신(Discontinuous Transmission; DTX) 모드가 구비된다. 이들 프레임에 대해서는, 신호의 저-비트율 파라미터 표현이 최대 8프레임(160ms)마다 무음 삽입 디스크립터(SID) 프레임에 의해 전달된다. 이에 따라 디코더의 CNG는 실제 배경 잡음과 유사한 인공 노이즈 신호를 생성할 수 있게 된다. 향상된 음성 서비스(EVS)에서 CNG는 배경 잡음의 스펙트럼 특성에 따라서 선형 예측 방식(LP-CNG) 또는 주파수 도메인 방식(FD-CNG)으로 달성될 수 있다.
EVS에서의 LP-CNG 접근법[비특허문헌 7]은 코딩이 저대역 및 고대역 분석/합성 인코딩 스테이지를 모두 구비하는 분할 대역 기반으로 작동한다. 저대역 인코딩과 달리, 고대역 신호에 대해서는 고대역 노이즈 스펙트럼의 파라미터 모델링이 수행되지 않는다. 고대역 신호의 에너지만 인코딩되어 디코더로 전송되고, 고대역 잡음 스펙트럼은 순전히 디코더 측에서 생성된다. 저대역 및 고대역 컴포트 노이즈(CN) 모두 합성 필터를 통해서 여기를 필터링하여 합성된다. 저대역 여기는 수신된 저대역 여기 에너지와 저대역 여기 주파수 포락선에서 도출된다. 저대역 합성 필터는 수신된 LP 파라미터들로부터 선스펙트럼 주파수(Line Spectral Frequency; LSF) 계수의 형태로 도출된다. 고대역 여기는 저대역 에너지로부터 외삽된 에너지를 사용하여 얻어지며, 고대역 합성 필터는 디코더 측 LSF 보간에 의해 도출된다. 고대역 합성은 저대역 합성에 스펙트럼적으로 반전되고 추가되어 최종 컴포트 노이즈(CN) 신호를 형성한다.
FD-CNG 접근법[비특허문헌 8, 특허문헌 1]은 주파수 도메인 잡음 추정 알고리즘과, 배경 잡음의 평활화된 스펙트럼 포락선의 벡터 양자화를 사용한다. 디코딩된 포락선은 디코더에서 제2 주파수 도메인 잡음 추정기를 실행하여 정제된다. 비활성 프레임 동안에는 순전히 파라미터만에 의한 표현이 사용되기 때문에, 이 경우 디코더에서 노이즈 신호를 사용할 수 없다. FD-CNG에서 잡음 추정은 인코더 및 디코더 측에서 최소 통계 알고리즘을 기반으로 모든 프레임(활성 및 비활성)에서 수행된다.
2개(또는 그 이상)의 채널의 경우에 컴포트 노이즈를 생성하는 방법은 특허문헌 2에 기재되어 있다. 특허문헌 2에는, 스테레오 DTX 및 CNG를 위한 시스템이 기재되어 있으며, 이 시스템은 인코더에서 두 입력 스테레오 채널들에 대해 계산된 대역별 코히런스(coherence) 척도를 모노 SID에 결합시킨다. 디코더에서는, 모노 CNG 정보와 코히런스 값들이 비트스트림으로부터 디코딩되고, 여러 주파수 대역에서의 목표 코히런스가 합성된다. 결과적인 스테레오 SID 프레임의 비트율을 낮추기 위하여, 코히런스 값들은 예측 체계와, 그에 뒤따르는 가변 비트율 엔트로피 코딩에 의해 인코딩된다. 앞서 설명한 방법으로 각 채널에 대해 컴포트 노이즈가 생성된 다음, SID 프레임에 포함되어 있는 송신된 대역 코히런스 값들을 토대로, 가중치를 적용한 공식을 사용하여 두 개의 컴포트 노이즈(CN)들이 대역별로 혼합된다.
스테레오 시스템에서 배경 잡음을 별도로 생성하면, 불쾌하게 들리는 완전히 무관한 잡음이 발생되고, 이 잡음은 실제 배경 잡음과 매우 다르며 활성 모드 배경에서 DTX 모드 배경으로 전환할 때 귀로 들을 수 있는 갑작스러운 전환을 유발한다. 또한 완전히 상관없는 두 개의 잡음 소스만 사용해서는 배경의 스테레오 이미지를 보존하는 것이 가능하지 않다. 마지막으로, 배경 노이즈 소스이 있고 화자가 그 노이즈 소스 주변에서 핸드헬드 장치를 들고 움직이는 경우, 배경 잡음의 공간 이미지는 시간에 따라 변하게 되는데, 이는 각 채널의 배경 잡음을 독립적으로 재구성할 때 복제할 수 없는 것이다. 그러므로 스테레오 신호에 대한 문제를 수용할 수 있는 새로운 접근 방식이 개발되어야 한다.
이것은 특허문헌 2에서도 다루어지지만, 실시예에 있어서는, 최종적인 컴포트 노이즈를 생성하기 위한, 상관관계가 있는 잡음을 모방하기 위해 두 채널에 대해 공통 노이즈 소스을 삽입하는 것이 스테레오 배경 잡음 녹음을 모방하는 데 중요한 역할을 한다.
현재 통신용 음성 코덱은 일반적으로 모노 신호만 코딩한다. 그러므로 대부분의 기존 DTX 시스템은 모노 CNG용으로 설계되었다. 스테레오 신호의 두 채널들 모두에 DTX 동작을 독립적으로 적용하는 것은 간단해 보이지만 몇 가지 문제가 있다. 첫째, 이 접근법은 2개의 채널에서 2개의 배경 노이즈 신호를 기술하는 2개의 파라미터 세트의 전송을 필요로 한다. 이는 SID 프레임 전송에 필요한 데이터율을 증가시키게 되어, 네트워크 부하 감소의 이점을 감소시킨다. 또 다른 문제는 VAD 결정에 있는데, 스테레오 신호의 공간 이미지의 기이함과 왜곡을 방지하고 시스템의 비트율 감소를 최적화하기 위해서는 VAD 결정이 채널들 간에 동기화되어야 한다. 더욱이, 수신기 측에서 두 채널들에 독립적으로 CNG를 적용할 때, 두 개의 독립적인 CNG 알고리즘들은 일반적으로 0 또는 매우 낮은 코히런스를 가지는 두 개의 랜덤 노이즈 신호를 생성한다. 이로 인하여, 생성된 컴포트 노이즈에서 매우 넓은 스테레오 이미지가 생기게 된다. 한편, 노이즈 생성기에만 적용하고 두 채널에서 동일한 컴포트 노이즈 신호를 사용하면, 코히런스가 매우 높아지고 스테레오 이미지가 매우 좁아지게 된다. 그렇지만, 대부분의 스테레오 신호의 경우, 스테레오 이미지와 그 공간적 인상은 이 두 극단 사이 어딘가에 있게 될 것이다. 그러므로, 활성 프레임에서 DTX 모드로 또는 그 반대로 전환하게 되면, 귀에 들리는 갑작스러운 전환이 발생한다. 또한, 배경 노이즈 소스이 있고 화자가 그 노이즈 소스 주변에서 핸드헬드 장치를 들고 움직이는 경우, 배경 잡음의 공간 이미지는 시간에 따라 변하게 되는데, 이는 각 채널의 배경 잡음을 독립적으로 재구성할 때 복제할 수 없는 것이다. 그러므로 스테레오 신호에 대한 문제를 수용할 수 있는 새로운 접근 방식이 필요하다.
특허문헌 2에 기술된 시스템은 디코더에서 배경 잡음의 스테레오 이미지를 재합성하는 데 사용되는 파라미터 값들과 함께 모노 CNG에 대한 정보를 전송함으로써 이들 문제를 해결하였다. 이러한 유형의 DTX 시스템은 모노 CNG 파라미터들이 도출될 수 있는 두 입력 채널들에 인코딩 및 전송 전에 다운믹스를 적용하는 파라메트릭 스테레오 코더에 적합하다. 그렇지만 이산 스테레오 코딩 방식에서는, 일반적으로 여전히 2개의 채널들이 공동 방식으로 코딩되며, 세밀한 코히런드 척도와 같은 업믹스 파라미터들이 일반적으로 도출되지 않는다. 따라서 이러한 종류의 스테레오 코더들에 대해서는 다른 접근 방식이 필요하다.
미국등록특허공보 9,583,114 B2, (A. Lombard, M. Dietz, S. Wilde, E. Ravelli, P. Setiawan and M. Multrus, "오디오 신호의 불연속 전송에서의 높은 스펙스럼-시간 해상도를 가지는 통신 잡음의 생성(Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals)"). 2015. 6. 19. 국제특허공개공보 WO 2019/193149 A1, (E. NORVELL and F. JANSSON, "통신 잡음의 생성 지원 및 통신 잡음 생성(Support for Generation of Comfort Noise, and Generation of Comfort Noise)"). 2019. 4. 5.
ITU-T G.729 Annex B 'ITU-T 권고 V.70을 준수하는 단말에 최적화된 G.729용 무음 압축 방식(A silence compression scheme for G.729 optimized for terminals conforming to ITU-T Recommendation V.70)'. International Telecommunication Union (ITU) Series G, 2007. ITU-T G.729.1 Annex C 'DTX/CNG 방식(DTX/CNG scheme)‘International Telecommunication Union (ITU) Series G, 2008. ITU-T G.718 '8~32kbit/s의 음성 및 오디오에 대한 프레임 오류에 견고한 협대역 및 광대역 임베디드 가변 비트율 코딩(Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s)'. International Telecommunication Union (ITU) Series G, 2008. '필수 음성 코덱 음성처리 기능; 적응적 다중-비트율 음성 코덱; 트랜스코딩 기능(Mandatory Speech Codec speech processing functions; Adaptive Multi-Rate (AMR) speech codec; Transcoding functions)', 3GPP Technical Specification TS 26.090, 2014. '광대역 적응적 다중-비트율(AMR-WB) 음성 코덱; 트랜스코딩 기능(Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions)', 3GPP, 2014. 3GPP TS 26.445, '향상된 음성 서비스(EVS)를 위한 코덱; 상세한 알고리즘 설명(Codec for Enhanced Voice Services (EVS); Detailed algorithmic description)'. Z. Wang and e. al, "EVS 코덱에서의 선형 예측 기반 컴포트 노이즈 생성(Linear prediction based comfort noise generation in the EVS codec)," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, QLD, 2015. A. Lombard, S. Wilde, E. Ravelli, S. Dohla. Fuchs and M. Dietz, "EVS에서의 불연속 전송을 위한 주파수 도메인 컴포트 노이즈 생성(Frequency-domain Comfort Noise Generation for Discontinuous Transmission in EVS)," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, QLD, 2015.
본 발명의 실시예들은 스테레오 음성 신호들의 효율적인 전송을 제공한다. 스테레오 신호를 전송하면, 특히 배경 잡음이나 기타 소리가 중첩된 상황에서, 한 채널의 오디오만(모노) 전송하는 것보다 사용자 경험과 음성 인식가능성을 향상시킬 수 있다. 스테레오 신호들은, 2개의 스테레오 채널들의 모노 다운믹스가 적용되고 이 단일 다운믹스 채널이 코딩되어 디코더에서 원 스테레오 신호를 근사화하는 데 사용되는 부가 정보와 함께 수신기로 전송되는, 파라메트릭 방식으로 코딩될 수 있다. 다른 접근 방식은, 어떤 신호 사전처리를 통해서 원 신호의 2채널 표현을 보다 보다 컴팩트화 하기 위하여 채널들 간의 중복을 제거하는 것을 목표로 하는, 이산 스테레오 코딩을 사용하는 것이다. 그 다음, 두 개의 처리된 채널들이 코딩되어 전송된다. 디코더에서는 역처리가 적용된다. 이 경우에도, 스테레오 처리와 관련된 부가 정보가 두 채널들과 함께 전송될 수 있다. 그러므로 파라메트릭 코딩 방법과 이산 스테레오 코딩 방법 간의 주된 차이점은 전송되는 채널들의 개수이다.
일반적으로 대화에는 모든 화자들이 적극적으로 말하고 있는 것이 아닌 구간이 있다. 그러므로 이 구간에서 음성 코더에 대한 입력 신호는 주로 배경 잡음 또는 (거의) 무음으로 구성된다. 데이터율을 절약하고 전송 네트워크의 부하를 낮추기 위하여, 음성 코더들은 음성을 포함하는 프레임들(활성 프레임들)과 주로 배경 잡음이나 무음을 포함하는 프레임들(비활성 프레임들)의 구분을 시도한다. 비활성 프레임들에 대해서는, 활성 프레임들에서와 같이 오디오 신호를 코딩하지 않고 그 대신 무음 삽입 디스크립터(Silence Insertion Descriptor; SID) 프레임의 형식으로 현재 배경 잡음에 대해 파라미터화된 저-비트율 설명을 도출함으로써, 데이터율이 크게 감소될 수 있다. 이 SID 프레임은 주기적으로 디코더로 전송되어 배경 잡음을 설명하는 파라미터들을 업데이트하게 되며, 이들 사이에 있는 비활성 프레임들에 대해서는 비트율이 감소되거나 정보가 전송되지 않는다. 디코더에서는, 컴포트 노이즈 생성(Comfort Noise Generation; CNG) 알고리즘에 의해, SID 프레임으로 전송된 파라미터들을 사용하여 배경 잡음이 리모델링된다. 이러한 방식으로, 사용자로 하여금 접속 중단 또는 종료로 해석하지 않게 하면서, 비활성 프레임의 전송율을 낮추거나 심지어 0이 되게 할 수 있다.
스테레오 SID로 구성된 이산 코딩된 스테레오 신호들에 대한 DTX 시스템과, 두 채널들의 배경 잡음의 스펙트럼 특성과 이들 사이의 상관도를 모델링함으로써 모노 애플리케이션에 필적하는 평균 비트율을 유지하면서 스테레오 컴포트 노이즈를 생성하는 컴포트 노이즈 생성 방법이 개시된다.
일 양태에 따르면, 1 채널 및 제2 채널을 갖는 다채널 신호를 생성하기 위한 다채널 신호 발생기가 제공된다. 다채널 신호 발생기는
제1 오디오 신호를 발생하는 제1 오디오 소스;
제2 오디오 신호를 발생하는 제2 오디오 소스;
믹싱 노이즈 신호를 발생하는 믹싱 노이즈 소스; 및
상기 믹싱 노이즈 신호와 상기 제1 오디오 신호를 믹싱하여 상기 제1 채널을 획득하고 상기 믹싱 노이즈 신호와 상기 제2 오디오 신호를 믹싱하여 상기 제2 채널을 획득하는 믹서;를 구비한다.
일 양태에 따르면, 상기 제1 오디오 소스는 제1 노이즈 소스이고 상기 제1 오디오 신호는 제1 노이즈 신호이고/이거나, 상기 제2 오디오 소스는 제2 노이즈 소스이고 상기 제2 오디오 신호는 제2 노이즈 신호이며,
제1 노이스 소스 및/또는 상기 제2 노이즈 소스는, 상기 제1 노이즈 신호및/또는 상기 제2 노이즈 신호가 상기 믹싱 노이즈 신호로부터 역상관될 수 있도록, 상기 제1 노이즈 신호 및/또는 상기 제2 노이즈 신호를 발생하게 구성된다.
일 양태에 따르면, 상기 믹서는 상기 제1 채널에서의 상기 믹싱 노이즈 신호의 양이 상기 제2 채널에서의 상기 믹싱 노이즈 신호의 양과 같거나 상기 제2 채널에서의 상기 믹싱 노이즈 신호의 양의 80% 내지 120% 범위 내에 있도록, 상기 제1 채널과 상기 제2 채널을 생성하게 구성된다.
일 양태에 따르면, 상기 믹서는 제어 파라미터를 수신하는 제어 입력을 포함하며, 여기서 상기 믹서는 상기 제1 채널 및 상기 제2 채널에서의 상기 믹싱 노이즈 신호의 양을 상기 제어 파라미터에 응답하여 조절하도록 구성된다.
일 양태에 따르면, 상기 제1 오디오 소스, 상기 제2 오디오 소스, 및 상기 믹싱 노이즈 소스의 각각은 가우시안 노이즈 소스이다.
일 양태에 따르면, 상기 제1 오디오 소스는 상기 제1 오디오 신호를 제1 노이즈 신호로서 발생하는 제1 노이즈 발생기를 포함하고, 상기 제2 오디오 소스는 상기 제1 노이즈 신호를 역상관시켜서 상기 제2 오디오 신호를 제2 노이즈 신호로서 발생하는 역상관기를 포함하고, 상기 믹싱 노이즈 소스는 제2 노이즈 발생기를 포함하거나,
상기 제1 오디오 소스는 상기 제1 오디오 신호를 제1 노이즈 신호로서 발생하는 제1 노이즈 발생기를 포함하고, 상기 제2 오디오 소스는 상기 제2 오디오 신호를 제2 노이즈 신호로서 발생하는 제2 노이즈 발생기를 포함하고, 상기 믹싱 노이즈 소스는 상기 제1 노이즈 신호 또는 상기 제2 노이즈 신호를 역상관시켜서 상기 믹싱 노이즈 신호를 발생하는 역상관기를 포함하거나,
상기 제1 오디오 소스, 상기 제2 오디오 소스, 및 상기 믹싱 노이즈 소스 중 하나는 노이즈 신호를 발생하는 노이즈 발생기를 포함하고, 상기 제1 오디오 소스, 상기 제2 오디오 소스, 및 상기 믹싱 노이즈 소스 중 다른 하나는 상기 노이즈 신호를 역상관시키는 제1 역상관기를 포함하고, 상기 제1 오디오 소스, 상기 제2 오디오 소스, 및 상기 믹싱 노이즈 소스 중 또 다른 하나는 상기 노이즈 신호를 역상관시키는 제2 역상관기를 포함하며, 상기 제1 역상관기와 상기 제2 역상관기는 상기 제1 역상관기와 상기 제2 역상관기의 출력 신호들이 서로 역상관되도록 서로 상이하거나,
상기 제1 오디오 소스는 제1 노이즈 발생기를 포함하고, 상기 제2 오디오 소스는 제2 노이즈 발생기를 포함하고, 상기 믹싱 노이즈 소스는 제3 노이즈 발생기를 포함하며, 상기 제1 노이즈 발생기, 상기 제2 노이즈 발생기, 및 상기 제3 노이즈 발생기는 상호 역상관된 노이즈 신호들을 발생하도록 구성된다.
일 양태에 따르면, 상기 제1 오디오 소스, 상기 제2 오디오 소스, 및 상기 믹싱 노이즈 소스 중 하나는 시드에 응답하여 의사 난수 시퀀스를 발생하도록 구성된 의사 난수 시퀀스 발생기를 포함하고, 상기 제1 오디오 소스, 상기 제2 오디오 소스, 및 상기 믹싱 노이즈 소스 중 적어도 2개는 상이한 시드를 사용하여 상기 의사 난수 시퀀스 발생기를 초기화하도록 구성된다.
일 양태에 따르면, 상기 제1 오디오 소스, 상기 제2 오디오 소스, 및 상기 믹싱 노이즈 소스 중 적어도 하나는 미리 저장된 노이즈 테이블을 사용하여 동작하도록 구성되거나,
상기 제1 오디오 소스, 상기 제2 오디오 소스, 및 상기 믹싱 노이즈 소스 중 적어도 하나는 실수부에 대한 제1 노이즈 값과 허수부에 대한 제2 노이즈 값을 사용하여 프레임에 대한 복소 스펙트럼을 생성하도록 구성되며,
선택적으로, 적어도 하나의 노이즈 발생기는 상기 실수부 및 상기 허수부 중 하나에 대하여 인덱스 k에서의 제1 난수 값을 사용하고 상기 실수부 및 상기 허수부 중 다른 하나에 대하여 인덱스 (k+M)에서의 제2 난수 값을 사용하여 주파수 빈 k에 대한 복소 노이즈 스펙트럼 값을 생성하도록 구성되며, 상기 제1 노이즈 값과 상기 제2 노이즈 값은 예를 들어 난수 시퀀스 발생기 또는 노이즈 테이블 또는 노이즈 프로세스로부터 도출되는 노이즈 어레이에 포함되고, 시작 인덱스에서 종료 인덱스까지의 범위 내에 있으며, 상기 시작 인덱스는 M보다 낮고 상기 종료 인덱스는 2M 이하이며, 여기서 M 및 k는 정수이다.
일 양태에 따르면, 상기 믹서가
상기 제1 오디오 신호의 진폭에 영향을 미치는 제1 진폭 요소;
상기 제1 진폭 요소의 출력 신호와 상기 믹싱 노이즈 신호의 적어도 일부를 가산하는 제1 가산기;
상기 제2 오디오 신호의 진폭에 영향을 미치는 제2 진폭 요소; 및
상기 제2 진폭 요소의 출력와 상기 믹싱 노이즈 신호의 적어도 일부를 가산하는 제2 가산기;를 포함하며,
상기 제1 진폭 요소에 의해 수행되는 영향의 양과 상기 제2 진폭 요소에 의해 수행되는 영향의 양이 서로 같거나, 상기 제2 진폭 요소에 의해 수행되는 영향의 양이 상기 제1 진폭 요소에 의해 수행되는 영향의 양의 20% 미만만큼 상이하다.
일 양태에 따르면, 상기 믹서가 상기 혼합 노이즈 신호의 진폭에 영향을 미치는 제3 진폭 요소;를 포함하고,
상기 제1 진폭 요소에 의해 수행되는 영향의 양 또는 상기 제2 진폭 요소에 의해 수행되는 영향의 양이 작아질 때 상기 제3 진폭 요소에 의해 수행되는 영향의 양은 커지도록, 상기 제3 진폭 요소에 의해 수행되는 영향의 양이 상기 제1 진폭 요소 또는 상기 제2 진폭 요소에 의해 수행되는 영향의 양에 의존한다.
일 양태에 따르면, 상기 제3 진폭 요소에 의해 수행되는 영향의 양이 소정의 값의 제곱근이고, 상기 제1 진폭 요소에 의해 수행되는 영향의 양과 상기 제2 진폭 요소에 의해 수행되는 영향의 양은 1과 상기 소정의 값의 차이의 제곱근이다.
일 양태에 따르면, 다채널 신호 발생기는 활성 프레임과, 상기 활성 프레임에 후속하는 비활성 프레임를 포함하는 일련의 프레임들에서 인코딩된 오디오 데이터를 받아들이는 입력 인터페이스; 및 상기 활성 프레임에 대한 코딩된 오디오 데이터를 디코딩하여 상기 활성 프레임에 대한 디코딩된 다채널 신호를 생성하는 오디오 디코더;를 더 포함한다.
상기 제1 오디오 소스, 상기 제2 오디오 소스, 상기 믹싱 노이즈 소스, 및 상기 믹서는 상기 비활성 프레임에 활성화되어 있어서 상기 비활성 프레임에 대한 상기 다채널 신호를 생성한다.
일 양태에 따르면, 상기 활성 프레임에 대한 인코딩된 오디오 신호는 제1 개수의 주파수 빈들을 기술하는 제1 복수의 계수들을 가지고,
상기 비활성 프레임에 대한 인코딩된 오디오 신호는 제2 개수의 주파수 빈들을 기술하는 제2 복수의 계수들을 가지며,
상기 주파수 빈들의 제1 개수가 상기 주파수 빈들의 제2 개수보다 더 큰 값을 가진다.
일 양태에 따르면, 상기 비활성 프레임에 대한 상기 인코딩된 오디오 데이터는 상기 비활성 프레임에 대하여 상기 2개의 채널들의 각 채널 또는 상기 제1 및 제2 채널들의 제1 선형 결합과 상기 제1 및 제2 채널들의 제2 선형 결합 각각에 대한 신호 에너지를 나타내고 상기 비활성 프레임의 상기 제1 채널와 상기 제2 채널간의 코히런스을 표시하는 컴포트 노이즈 데이터를 포함하는 무음 삽입 디스크립터 데이터를 포함하며,
상기 믹서는 상기 코히런스를 표시하는 상기 컴포트 노이즈 데이터에 기초하여 상기 믹싱 노이즈 신호와 상기 제1 오디오 신호 또는 상기 제2 오디오 신호를 믹싱하도록 구성되고,
상기 다채널 신호 발생기는 상기 제1 채널 및 상기 제2 채널 또는 상기 제1 오디오 신호 또는 상기 제2 오디오 신호 또는 상기 믹싱 노이즈 신호를 수정하기 위한 신호 수정기를 더 포함하고, 상기 신호 수정기는 상기 제1 오디오 채널 및 상기 제2 오디오 채널에 대한 신호 에너지를 나타내거나 상기 제1 및 제2 채널들의 제1 선형 결합과 상기 제1 및 제2 채널들의 제2 선형 결합에 대한 신호 에너지에 의해 제어되도록 구성된다.
일 태양에 따르면, 상기 비활성 프레임에 대한 상기 오디오 데이터는 상기 제1 채널에 대한 제1 무음 삽입 디스크립터 프레임와 상기 제2 채널에 대한 제2 무음 삽입 디스크립터 프레임을 포함한다.
상기 제1 무음 삽입 디스크립터 프레임는 상기 제1 채널 및/또는 상기 제1 및 제2 채널들의 제1 선형 결합에 대한 컴포트 노이즈 파라미터 데이터; 및 상기 제1 채널 및 상기 제2 채널에 대한 컴포트 노이즈 생성 사이드 정보;를 포함한다.
상기 제2 무음 삽입 디스크립터 프레임은 상기 제2 채널 및/또는 상기 제1 및 제2 채널들의 제2 선형 결합에 대한 컴포트 노이즈 파라미터 데이터; 및 상기 비활성 프레임에서 상기 제1 채널와 상기 제2 채널 간의 코히런스를 표시하는 코히런스 정보;를 포함한다.
상기 다채널 신호 발생기는, 상기 비활성 프레임에서 상기 다채널 신호의 생성을 제어하고, 상기 제1 무음 삽입 디스크립터 프레임에 대한 상기 컴포트 노이즈 생성 사이드 정보를 사용하여 상기 제1 채널 및 상기 제2 채널 및/또는 상기 제1 및 제2 채널들의 제1 선형 결합 및 상기 제1 및 제2 채널들의 제2 선형 결합에 대한 컴포트 노이즈 생성 모드를 결정하고, 상기 제2 무음 삽입 디스크립터 프레임 내에 있는 상기 코히런스 정보를 사용하여 상기 비활성 프레임에서 상기 제1 채널와 상기 제2 채널 간의 코히런스를 설정하고, 상기 제1 무음 삽입 디스크립터 프레임로부터의 상기 컴포트 노이즈 파라미터 데이터를 사용하고 상기 제2 무음 삽입 디스크립터 프레임로부터의 상기 컴포트 노이즈 파라미터 데이터를 사용하여 상기 제1 채널의 에너지 상황과 상기 제2 채널의 에너지 상황을 설정하는, 제어기를 포함한다.
일 양태에 따르면, 상기 비활성 프레임에 대한 상기 오디오 데이터는 상기 제1 및 제2 채널들의 제1 선형 결합과 상기 제1 및 제2 채널들의 제2 선형 결합에 대한 적어도 하나의 무음 삽입 디스크립터 프레임를 포함한다.
상기 적어도 하나의 무음 삽입 디스크립터 프레임은 상기 제1 및 제2 채널들의 상기 제1 선형 결합에 대한 컴포트 노이즈 파라미터 데이터; 및 상기 제1 및 제2 채널들의 상기 제2 선형 결합에 대한 컴포트 노이즈 생성 사이드 정보;를 포함한다.
상기 다채널 신호 발생기는, 상기 제1 및 제2 채널들의 상기 제1 선형 결합과 상기 제1 및 제2 채널들의 상기 제2 선형 결합에 대한 상기 컴포트 노이즈 생성 사이드 정보를 사용하여 상기 비활성 프레임에서 상기 다채널 신호의 생성을 제어하고, 상기 제2 무음 삽입 디스크립터 프레임 내에 있는 상기 코히런스 정보를 사용하여 상기 비활성 프레임에서 상기 제1 채널와 상기 제2 채널 간의 코히런스를 설정하고, 상기 적어도 하나의 무음 삽입 디스크립터 프레임로부터의 상기 컴포트 노이즈 파라미터 데이터를 사용하고 상기 적어도 하나의 무음 삽입 디스크립터 프레임로부터의 상기 컴포트 노이즈 파라미터 데이터를 사용하여 상기 제1 채널의 에너지 상황과 상기 제2 채널의 에너지 상황을 설정하는, 제어기를 포함한다.
일 양태에 따르면, 다채널 신호 발생기는 스펙트럼 조정되고 코히런스 조정된 결과적인 제1 채널 및 결과적인 제2 채널이 결과적인 제2 채널을, 상기 활성 프레임에 대한 디코딩된 다채널 신호의 대응 채널들의 시간 도메인 표현들과 결합하거나 연결할 상응하는 시간 도메인 표현으로 변환하는 스펙트럼-시간 변환기를 더 포함한다.
일 양태에 따르면, 상기 비활성 프레임에 대한 오디오 데이터가 무음 삽입 디스크립터 프레임을 포함한다.
상기 무음 삽입 디스크립터 프레임는 상기 제1 및 상기 제2 채널에 대한 컴포트 노이즈 파라미터 데이터와, 상기 제1 채널 및 상기 제2 채널에 대한 및/또는 상기 제1 및 제2 채널들의 제1 선형 결합과, 상기 제1 및 제2 채널들의 제2 선형 결합과, 상기 비활성 프레임에서 상기 제1 채널와 상기 제2 채널 사이의 코히런스를 표시하는 코히런스 정보에 대한 컴포트 노이즈 생성 사이드 정보를 포함하며,
상기 다채널 신호 발생기는, 상기 비활성 프레임에서 상기 다채널 신호의 생성을 제어하고, 상기 무음 삽입 디스크립터 프레임에 대한 상기 컴포트 노이즈 생성 사이드 정보를 사용하여 상기 제1 채널 및 상기 제2 채널에 대한 컴포트 노이즈 생성 모드를 결정하고, 상기 무음 삽입 디스크립터 프레임 내에 있는 상기 코히런스 정보를 사용하여 상기 비활성 프레임에서 상기 제1 채널와 상기 제2 채널 간의 코히런스를 설정하고, 상기 무음 삽입 디스크립터 프레임로부터의 상기 컴포트 노이즈 파라미터 데이터를 사용하여 상기 제1 채널의 에너지 상황과 상기 제2 채널의 에너지 상황을 설정하는, 제어기를 포함한다.
일 양태에 따르면, 상기 비활성 프레임에 대한 인코딩된 오디오 데이터는 중앙/사이드 표현에서 각 채널에 대한 신호 에너지를 표시하는 컴포트 노이즈 데이터와, 좌/우 표현에서 상기 제1 채널과 상기 제2 채널 사이의 코히런스를 표시하는 코히런스 데이터를 포함하는 무음 삽입 디스크립터 데이터를 포함하고, 상기 다채널 신호 발생기는 상기 제1 채널 및 상기 제2 채널에서의 상기 신호 에너지의 상기 중앙/사이드 표현을 상기 신호 에너지의 좌/우 표현으로 변환하도록 구성되며,
상기 믹서는 상기 코히런스 데이터를 토대로 상기 제1 오디오 신호 및 상기 제2 오디오 신호에 상기 믹싱 노이즈 신호를 믹싱하여 상기 제1 채널 및 상기 제2 채널를 획득하도록 구성되고,
상기 다채널 신호 발생기는 좌/우 도메인에서의 상기 신호 에너지를 토대로 상기 제1 및 상기 제2 채널를 정형함으로써 상기 제1 및 제2 채널를 수정하도록 구성되는 신호 수정기를 더 포함한다.
일 양태에 따르면, 상기 오디오 데이터는 사이드 채널의 에너지가 소정의 임계값보다 작다는 것을 나타내는 시그널링을 포함하는 경우, 상기 사이드 채널의 계수들을 제로(0)로 만들도록 구성된다.
일 양태에 따르면, 상기 비활성 프레임에 대한 상기 오디오 데이터가 중앙 및 사이드 채널에 대한 컴포트 노이즈 파라미터 데이터와, 상기 중앙 및 사이드 채널에 대한 컴포트 노이즈 생성 사이드 정보와, 상기 비활성 프레임에서 상기 제1 채널와 상기 제2 채널 사이의 코히런스를 표시하는 코히런스 정보를 포함하는, 적어도 하나의 무음 삽입 디스크립터 프레임;을 포함하고,
상기 다채널 신호 발생기가, 상기 비활성 프레임에서 상기 다채널 신호의 생성을 제어하고, 상기 무음 삽입 디스크립터 프레임에 대한 상기 컴포트 노이즈 생성 사이드 정보를 사용하여 상기 제1 채널 및 상기 제2 채널에 대한 컴포트 노이즈 생성 모드를 결정하고, 상기 무음 삽입 디스크립터 프레임 내에 있는 상기 코히런스 정보를 사용하여 상기 비활성 프레임에서 상기 제1 채널와 상기 제2 채널 간의 코히런스를 설정하고, 상기 무음 삽입 디스크립터 프레임로부터의 상기 컴포트 노이즈 파라미터 데이터를 사용하여 상기 제1 채널의 에너지 상황과 상기 제2 채널의 에너지 상황을 설정하는, 제어기를 포함한다.
일 양태에 따르면, 다채널 신호 발생기는 상기 제1 및 제2 채널들에 대한 신호 에너지 계수들을, 상기 제1 및 제2 채널들에 대한 상기 컴포트 노이즈 파라미터 데이터로 인코딩된 이득 정보에 의해, 스케일링하도록 추가로 구성된다.
일 양태에 따르면, 다채널 신호 발생기는 발생된 다채널 신호를 주파수 도메인 버전에서 시간 도메인 버전으로 변환하도록 구성된다.
일 양태에 따르면, 상기 제1 오디오 소스는 제1 노이즈 소스이고 상기 제1 오디오 신호는 제1 노이즈 신호이거나, 상기 제2 오디오 소스는 제2 노이즈 소스이고 상기 제2 오디오 신호가 제2 노이즈 신호이며,
상기 제1 노이즈 소스 또는 상기 제2 노이즈 소스가, 상기 제1 노이즈 신호 또는 상기 제2 노이즈 신호가 적어도 상관관계가 있게, 상기 제1 노이즈 신호 또는 상기 제2 노이즈 신호를 발생하도록 구성되고,
상기 믹싱 노이즈 소스는 제1 믹싱 노이즈 부분와 제2 믹싱 노이즈 부분를 갖는 상기 믹싱 노이즈 신호를 발생하도록 구성되고, 여기서 상기 제2 믹싱 노이즈 부분는 적어도 부분적으로 상기 제1 믹싱 노이즈 부분와 비상관되며,
상기 믹서는 상기 믹싱 노이즈 신호의 상기 제1 믹싱 노이즈 부분와 상기 제1 오디오 신호를 믹싱하여 상기 제1 채널를 획득하고, 상기 믹싱 노이즈 신호의 상기 제2 믹싱 노이즈 부분을 상기 제2 오디오 신호와 믹싱하여 상기 제2 채널를 획득하도록 구성된다.
일 양태에 따르면, 제1 채널 및 제2 채널를 갖는 다채널 신호를 생성하는 방법이 제공된다. 다채널 신호 생성 방법은 제1 오디오 소스를 사용하여 제1 오디오 신호를 발생하는 단계; 제2 오디오 소스를 사용하여 제2 오디오 신호를 발생하는 단계; 믹싱 노이즈 소스를 사용하여 믹싱 노이즈 신호를 발생하는 단계; 및 상기 믹싱 노이즈 신호와 상기 제1 오디오 신호를 믹싱하여 상기 제1 채널를 획득하고, 상기 믹싱 노이즈 신호와 상기 제2 오디오 신호를 믹싱하여 상기 제2 채널를 획득하는 단계;를 포함한다.
일 양태에 따르면, 활성 프레임와 비활성 프레임를 포함하는 프레임 시퀀스에 대하여, 인코딩된 다채널 오디오 신호를 생성하기 위한 오디오 인코더가 제공된다. 오디오 인코더는 다채널 신호를 분석하여, 상기 프레임 시퀀스의 프레임을 비활성 프레임로 결정하는 활성 감지기; 상기 다채널 신호의 제1 채널에 대한 제1 파라메트릭 노이즈 데이터를 계산하고, 상기 다채널 신호의 제1 채널에 대한 제2 파라메트릭 노이즈 데이터를 계산하는 노이즈 파라미터 계산기; 상기 비활성 프레임에서 상기 제1 채널와 상기 제2 채널 사이의 코히런스 상황을 표시하는 코히런스 데이터를 계산하는 코히런스 계산기; 및 활성 프레임에 대한 인코딩된 오디오 데이터와, 상기 비활성 프레임에 대해서, 상기 제1 파라메트릭 노이즈 데이터, 상기 제2 파라메트릭 노이즈 데이터, 및/또는 상기 제1 파라메트릭 노이즈 데이터 및 상기 제2 파라메트릭 노이즈 데이터의 제1 선형 결합, 상기 제1 파라메트릭 노이즈 데이터 및 상기 제2 파라메트릭 노이즈 데이터의 제2 선형 결합, 및 상기 코히런스 데이터를 포함하는, 인코딩된 다채널 오디오 신호를 생성하는 출력 인터페이스;를 구비한다.
일 양태에 따르면, 상기 코히런스 계산기는 코히런스 값을 계산하고, 상기 코히런스 값를 양자화하여 양자화된 코히런스 값을 획득하도록 구성되며,
상기 출력 인터페이스는 상기 양자화된 코히런스 값을 상기 인코딩된 다채널 신호의 상기 코히런스 데이터로써 사용하도록 구성된다.
일 양태에 따르면, 상기 코히런스 계산기는 상기 비활성 프레임의 상기 제1 채널 및 상기 제2 채널에 대한 복소 스펙트럼 값들으로부터 실수 중간 값 및 허수 중간 값을 계산하고;
상기 비활성 프레임에서 상기 제1 채널에 대한 제1 에너지 값과 상기 제2 채널에 대한 제2 에너지 값을 계산하고;
상기 실수 중간 값, 상기 허수 중간 값, 상기 제1 에너지 값, 및 상기 제2 에너지 값을 사용하여 상기 코히런스 데이터를 계산하거나;
상기 실수 중간 값, 상기 허수 중간 값, 상기 제1 에너지 값, 및 상기 제2 에너지 값 중 적어도 하나를 평활화하고, 적어도 하나의 평활화된 값을 사용하여 상기 코히런스 데이터를 산출하도록 구성된다.
일 양태에 따르면, 상기 코히런스 계산기는 상기 실수 중간 값을, 상기 비활성 프레임에서 상기 제1 채널 및 상기 제2 채널의 대응하는 주파수 빈들에 대한 복소 스펙트럼 값들의 곱들의 실수 부분에 대한 합으로서, 계산하도록 구성되거나,
상기 허수 중간 값을, 상기 비활성 프레임에서 상기 제1 채널 및 상기 제2 채널의 대응하는 주파수 빈들에 대한 복소 스펙트럼 값들의 곱들의 허수 부분에 대한 합으로서, 계산하도록 구성된다.
일 양태에 따르면, 상기 코히런스 계산기는, 평활화된 실수 중간 값을 제곱하고, 평활화된 허수 중간 값을 제곱하며, 제곱 값들을 더하여 제1 성분 수를 획득하고,
상기 코히런스 계산기는, 평활화된 제1 에너지 값과 평활화된 제2 에너지 값을 곱하여, 제2 성분 수를 획득하고, 상기 제1 및 상기 제2 성분 수들을 결합하여 상기 코히런스 데이터의 기초가 되는 상기 코히런스 값의 결과 값을 획득하도록 구성된다.
일 양태에 따르면, 상기 코히런스 계산기는, 상기 결과 값의 제곱근을 계산하여, 상기 코히런스 데이터의 기초가 되는 코히런스 값을 획득하도록 구성된다.
일 양태에 따르면, 상기 코히런스 계산기는, 균등 양자화기를 사용해서 상기 코히런스 값을 양자화하여, n 비트의 상기 양자화된 코히런스 값을 상기 코히런스 데이터로서 획득하도록 구성된다.
일 양태에 따르면, 상기 출력 인터페이스는 상기 제1 채널에 대한 제1 무음 삽입 디스크립터 프레임와 상기 제2 채널에 대한 제2 무음 삽입 디스크립터 프레임을 생성하도록 구성되고, 여기서 상기 제1 무음 삽입 디스크립터 프레임는 상기 제1 채널에 대한 컴포트 노이즈 파라미터 데이터와, 상기 제1 채널 및 상기 제2 채널에 대한 컴포트 노이즈 생성 사이드 정보를 포함하며, 상기 제2 무음 삽입 디스크립터 프레임는 상기 제2 채널에 대한 컴포트 노이즈 파라미터 데이터와, 상기 비활성 프레임에서 상기 제1 채널와 상기 제2 채널사이의 코히런스를 표시하는 코히런스 정보를 포함하고,
상기 출력 인터페이스는 무음 삽입 디스크립터 프레임를 생성하도록 구성되고, 여기서 상기 무음 삽입 디스크립터 프레임은 상기 제1 및 상기 제2 채널에 대한 컴포트 노이즈 파라미터 데이터와, 상기 제1 채널 및 상기 제2 채널에 대한 컴포트 노이즈 생성 사이드 정보와, 상기 비활성 프레임에서 상기 제1 채널과 상기 제2 채널사이의 코히런스를 표시하는 코히런스 정보를 포함하며,
상기 출력 인터페이스는 상기 제1 채널 및 상기 제2 채널에 대한 제1 무음 삽입 디스크립터 프레임과, 상기 제1 채널 및 상기 제2 채널에 대한 제2 무음 삽입 디스크립터 프레임를 생성하도록 구성되고, 여기서 상기 제1 무음 삽입 디스크립터 프레임는 상기 제1 채널 및 상기 제2 채널에 대한 컴포트 노이즈 파라미터 데이터와, 상기 제1 채널 및 상기 제2 채널에 대한 컴포트 노이즈 생성 사이드 정보를 포함하고, 상기 제2 무음 삽입 디스크립터 프레임는 상기 제1 채널 및 상기 제2 채널에 대한 컴포트 노이즈 파라미터 데이터와, 상기 비활성 프레임에서 상기 제1 채널와 상기 제2 채널사이의 코히런스를 표시하는 코히런스 정보를 포함한다.
일 양태에 따르면, 상기 균등 양자화기는, 상기 제1 무음 삽입 디스크립터 프레임에 대해서 컴포트 노이즈 생성 사이드 정보에 의해 점유되는 비트들의 값과 n 값이 동일할 수 있게, n-비트 수를 계산하도록 구성된다.
일 양태에 따르면, 상기 활성 감지기는, 상기 프레임 시퀀스의 적어도 한 프레임에 대하여, 상기 다채널 신호의 상기 제1 채널을 분석하여, 상기 제1 채널을 활성 또는 비활성으로 분류하고;
상기 다채널 신호의 상기 제2 채널을 분석하여, 상기 제2 채널을 활성 또는 비활성으로 분류하고;
상기 제1 채널 및 상기 제2 채널 모두가 비활성으로 분류되다면 상기 프레임이 비활성이라고 결정하고, 그렇지 않으면 활성이라고 결정하도록, 구성된다.
일 양태에 따르면, 상기 노이즈 파라미터 계산기는 상기 제1 채널에 대한 제1 이득 정보와, 상기 제2 채널에 대한 제2 이득 정보를 계산하고, 파라메트릭 노이즈 데이터를 상기 제1 채널에 대한 제1 이득 정보와 상기 제2 이득 정보로서 제공도록 구성된다.
일 양태에 따르면, 상기 노이즈 파라미터 계산기는 상기 제1 파라메트릭 노이즈 데이터 및 제2 파라메트릭 노이즈 데이터 중 적어도 일부를 좌/우 표현으로부터 중앙 채널과 사이드 채널을 가진 중앙/사이드 표현으로 변환하도록 구성된다.
일 양태에 따르면, 상기 노이즈 파라미터 계산기는 제1 파라메트릭 노이즈 데이터 및 제2 파라메트릭 노이즈 데이터 중 적어도 일부의 상기 중앙/사이드 표현을 좌/우 표현으로 재변환하도록 구성되며,
상기 노이즈 파라미터 계산기는 재변환된 좌/우 표현으로부터 상기 제1 채널에 대한 제1 이득 정보 및 제2 채널에 대한 제2 이득 정보를 계산하고, 상기 제1 파라메트릭 노이즈 데이터에 포함된 상기 제1 채널에 대한 상기 제1 이득 정보를 제공하고, 상기 제2 파라메트릭 노이즈 데이터에 포함된 상기 제2 이득 정보를 제공하도록 구성된다.
일 양태에 따르면, 상기 노이즈 파라미터 계산기는 상기 중앙/사이드 표현으로부터 상기 좌/우 표현으로 재변환된 상기 제1 채널에 대한 상기 제1 파라메트릭 노이즈 데이터의 버전;과 상기 중앙/사이트 표현으로부터 상기 좌/우 표현으로 변환되기 이전의 상기 제1 채널에 대한 상기 제1 파라메트릭 노이즈 데이터의 버전;을 비교하여 상기 제1 이득 정보를 계산하고/하거나,
상기 중앙/사이드 표현으로부터 상기 좌/우 표현으로 재변환된 상기 제2 채널에 대한 상기 제2 파라메트릭 노이즈 데이터의 버전;과 상기 중앙/사이트 표현으로부터 상기 좌/우 표현으로 변환되기 이전의 상기 제2 채널에 대한 상기 제2 파라메트릭 노이즈 데이터의 버전;을 비교하여 상기 제2 이득 정보를 계산하도록 구성된다.
일 양태에 따르면, 상기 노이즈 파라미터 계산기는 상기 제1 파라메트릭 노이즈 데이터와 상기 제2 파라메트릭 노이즈 데이터 사이의 상기 제2 선형 결합의 에너지를 소정의 에너지 임계값과 비교하고;
상기 제1 파라메트릭 노이즈 데이터와 상기 제2 파라메트릭 노이즈 데이터 사이의 상기 제2 선형 결합의 상기 에너지가 상기 소정의 에너지 임계값보다 큰 경우, 사이드 채널 노이즈 형태 벡터의 계수들이 0으로 되고;
상기 제1 파라메트릭 노이즈 데이터와 상기 제2 파라메트릭 노이즈 데이터 사이의 상기 제2 선형 결합의 상기 에너지가 상기 소정의 에너지 임계값보다 작은 경우, 상기 사이드 채널 노이즈 형태 벡터의 계수들이 그대로 유지되도록 구성된다.
일 양태에 따르면, 오디오 인코더는 상기 제1 파라메트릭 노이즈 데이터와 상기 제2 파라메트릭 노이즈 데이터 사이의 상기 제2 선형 결합을, 상기 제1 파라메트릭 노이즈 데이터와 상기 제2 파라메트릭 노이즈 데이터 사이의 상기 제1 선형 결합이 인코딩되는 비트량에 비하여 적은 양의 비트량으로, 인코딩하도록 구성된다.
일 양태에 따르면, 상기 출력 인터페이스는 제1 개수의 주파수 빈들에 대한 제1 복수의 계수들을 사용하여, 상기 활성 프레임에 대한 인코딩된 오디오 데이터를 갖는 인코딩된 다채널 오디오 신호를 생성하고;
제2 개수의 주파수 빈들을 기술하는 제2 복수의 계수들을 사용하여, 상기 제1 파라메트릭 노이즈 데이터, 상기 제2 파라메트릭 노이즈 데이터, 또는 상기 제1 파라메트릭 노이즈 데이터와 상기 제2 파라메트릭 노이즈 데이터의 상기 제1 선형 결합과 상기 제1 파라메트릭 노이즈 데이터와 상기 제2 파라메트릭 노이즈 데이터의 상기 제2 선형 결합을 생성하며;
주파수 빈들의 상기 제1 개수가 주파수 빈들의 상기 제2 개수보다 더 크도록 구성된다.
일 양태에 따르면, 활성 프레임 및 비활성 프레임을 포함하는 프레임 시퀀스에 대하여, 인코딩된 다채널 오디오 신호를 생성하기 위한 오디오 인코딩 방법이 제공된다. 오디오 인코딩 방법은
다채널 신호를 분석하여 상기 프레임 시퀀스의 한 프레임을 비활성 프레임인 것으로 결정하는 단계;
상기 다채널 신호의 제1 채널 및/또는 상기 다채널 신호의 제1 및 제2 채널의 제1 선형 결합에 대한 제1 파라메트릭 노이즈 데이터를 계산하고, 상기 다채널 신호의 제2 채널 및/또는 상기 다채널 신호의 상기 제1 및 상기 제2 채널의 제2 선형 결합에 대한 제2 파라메트릭 노이즈 데이터를 계산하는 단계;
상기 비활성 프레임에서 상기 제1 채널과 상기 제2 채널간의 코히런스 상황을 표시하는 코히런스 데이터를 계산하는 단계; 및
상기 활성 프레임에 대한 인코딩된 오디오 데이터와, 상기 비활성 프레임에 대한 상기 제1 파라메트릭 노이즈 데이터, 상기 제2 파라메트릭 노이즈 데이터, 및 상기 코히어런스 데이터를 갖는 상기 인코딩된 다채널 오디오 신호를 생성하는 단계;를 포함한다.
일 양태에 따르면, 컴퓨터 또는 프로세서에서 실행될 때 청구항 25 또는 청구항 43의 방법을 수행하기 위한 컴퓨터 프로그램이 제공된다.
일 양태에 따르면, 활성 프레임과 비활성 프레임을 포함하는 프레임 시퀀스로 조직화된, 인코딩된 다채널 오디오 신호가 제공된다. 인코딩된 다채널 오디오 신호는
상기 활성 프레임에 대한 인코딩된 오디오 데이터;
상기 비활성 프레임의 제1 채널에 대한 제1 파라메트릭 노이즈 데이터;
상기 비활성 프레임의 제2 채널에 대한 제2 파라메트릭 노이즈 데이터; 및
상기 비활성 프레임에서 상기 제1 채널과 상기 제2 채널 사이의 코히어런스 상황을 표시하는 코히어런스 데이터;를 포함한다.
일 양태에 따르면, 제1 오디오 소스는 제1 노이즈 소스이고 제1 오디오 신호는 제1 노이즈 신호이거나, 또는 제2 오디오 소스는 제2 노이즈 소스이고 제2 오디오 신호는 제2 노이즈 신호이고,
상기 제1 잡음 소스 또는 상기 제2 잡음 소스는 상기 제1 노이즈 신호 또는 상기 제2 노이즈 신호가 상기 믹싱 노이즈 신호로부터 비상관되도록 상기 제1 노이즈 신호 또는 상기 제2 노이즈 신호를 생성하도록 구성된다.
일 양태에 따르면, 믹서는 제1 채널의 믹싱 노이즈 신호의 양이 제2 채널의 믹싱 노이즈 신호의 양과 같거나 일정 범위 내에 있도록 제1 채널 및 제2 채널을 생성하도록 구성된다. 두 번째 채널의 믹싱 노이즈 신호 양의 80% ~ 120%이다.
일 양태에 따르면, 믹서는 제어 파라미터를 수신하기 위한 제어 입력을 포함하고, 믹서는 제어 파라미터에 응답하여 제1 채널 및 제2 채널에서 믹싱 노이즈 신호의 양을 제어하도록 구성된다.
일 양태에 따르면, 제1 오디오 소스, 제2 오디오 소스 및 믹싱 노이즈 소스 각각은 가우시안 노이즈 소스이다.
일 양태에 따르면, 제1 오디오 소스는 제1 노이즈 신호로서 제1 오디오 신호를 생성하기 위한 제1 노이즈 생성기를 포함하고, 제2 오디오 소스는 제2 노이즈로서 제2 오디오 신호를 생성하기 위해 제1 노이즈 신호를 역상관하기 위한 역상관기를 포함한다 믹싱 노이즈 소스는 제2 노이즈 생성기를 포함하거나,
상기 제1 오디오 소스는 상기 제1 오디오 신호를 제1 노이즈 신호로서 생성하기 위한 제1 노이즈 생성기를 포함하고, 상기 제2 오디오 소스는 상기 제2 오디오 신호를 제2 노이즈 신호로서 생성하기 위해 제2 노이즈 생성기를 포함하고, 상기 믹싱 노이즈 소스는 상기 혼합 노이즈 신호를 생성하기 위해 상기 제1 노이즈 신호 또는 상기 제2 노이즈 신호를 역상관하기 위한 역상관기를 포함하거나,
상기 제1 오디오 소스, 상기 제2 오디오 소스 및 상기 믹싱 노이즈 소스 중 하나는 노이즈 신호를 생성하기 위한 노이즈 생성기를 포함하고, 상기 제1 오디오 소스, 상기 제2 오디오 소스 및 상기 믹싱 노이즈 소스 중 다른 하나는 제1 역상관기를 포함하는 노이즈 신호를 역상관시키고, 제1 오디오 소스, 제2 오디오 소스 및 믹싱 잡음 소스 중 또 다른 하나는 노이즈 신호를 역상관시키기 위한 제2 역상관기를 포함하고, 여기서 제1 역상관기 및 제2 역상관기는 서로 상이하므로 상기 제1 역상관기 및 상기 제2 역상관기의 출력 신호들이 서로 역상관되거나, 또는
상기 제1 오디오 소스는 제1 노이즈 생성기를 포함하고, 상기 제2 오디오 소스는 제2 노이즈 생성기를 포함하고, 상기 믹싱 노이즈 소스는 제3 노이즈 생성기를 포함하고, 상기 제1 노이즈 생성기, 상기 제2 노이즈 생성기 및 상기 제3 노이즈 생성기는 상호 비상관된 노이즈 신호를 생성하도록 구성된다.
일 양태에 따르면, 제1 오디오 소스, 제2 오디오 소스 및 믹싱 노이즈 소스 중 하나는 시드에 응답하여 의사 난수 시퀀스를 생성하도록 구성된 의사 난수 시퀀스 생성기를 포함하고,
상기 제1 오디오 소스, 상기 제2 오디오 소스 및 상기 믹싱 노이즈 소스 중 적어도 2개는 상이한 시드를 사용하여 상기 의사 난수 시퀀스 생성기를 초기화하도록 구성된다.
일 양태에 따르면, 제1 오디오 소스, 제2 오디오 소스 및 믹싱 노이즈 소스 중 적어도 하나는 미리 저장된 노이즈 테이블을 사용하여 동작하도록 구성되거나, 또는
상기 제1 오디오 소스, 상기 제2 오디오 소스 및 상기 믹싱 노이즈 소스 중 적어도 하나는 실수부에 대한 제1 노이즈 값과 허수부에 대한 제2 노이즈 값을 사용하여 프레임에 대한 복소 스펙트럼을 생성하도록 구성되고,
여기서, 선택적으로, 적어도 하나의 노이즈 생성기는, 실수부 및 허수부 중 어느 하나에 대하여 인덱스 k에서 제1 난수 값을 사용하고 실수부와 허수부 중 다른 하나에 대하여 인덱스(k+M)에서의 제2 난수 값을 사용하여, 주파수 빈 k에 대한 복소 노이즈 스펙트럼 값을 생성하도록 구성된다.
상기 제1 잡음 값 및 상기 제2 잡음 값은 예를 들어 잡음 어레이에 포함된다. 난수 시퀀스 생성기 또는 노이즈 테이블 또는 노이즈 프로세스로부터 도출되며, 시작 인덱스에서 종료 인덱스까지의 범위를 가지며, 시작 인덱스는 M보다 낮고 종료 인덱스는 2M 이하이며, 여기서 M 및 k는 정수이다.
일 양태에 따르면, 믹서는
상기 제1 오디오 신호의 진폭에 영향을 주는 제1 진폭 요소;
상기 제1 진폭 성분의 출력 신호와 상기 믹싱 노이즈 신호의 적어도 일부를 가산하는 제1 가산기;
상기 제2 오디오 신호의 진폭에 영향을 주는 제2 진폭 요소;
제2 진폭 요소의 출력과 믹싱 노이즈 신호의 적어도 일부를 더하기 위한 제2 가산기;를 포함한다.
상기 제1 진폭 요소에 의해 수행되는 영향의 양과 상기 제2 진폭 요소에 의해 수행되는 영향의 양은 서로 동일하거나 상기 제1 진폭 요소에 의해 수행되는 양의 20% 미만으로 상이하다.
일 양태에 따르면, 믹서는 믹싱 노이즈 신호의 진폭에 영향을 주기 위한 제3 진폭 요소를 포함하고, 여기서 제3 진폭 요소에 의해 수행되는 영향의 양은 제1 진폭 요소 또는 제2 진폭 요소에 의해 수행되는 영향의 양에 의존한다. 따라서 제1 진폭 요소에 의해 수행되는 영향의 양이 작을 때 제3 진폭 요소에 의해 수행되는 영향의 양이 커지거나 제2 진폭 요소에 의해 수행되는 영향의 양이 작아진다.
일 양태에 따르면, 다채널 신호 발생기는,
인코딩된 오디오 데이터를 활성 프레임과 상기 활성 프레임 다음의 비활성 프레임을 포함하는 프레임 시퀀스로 수신하기 위한 입력 인터페이스;와
상기 활성 프레임에 대한 코딩된 오디오 데이터를 디코딩하여 활성 프레임에 대한 디코딩된 다채널 신호를 생성하는 오디오 디코더;를 더 포함한다.
제1 오디오 소스, 제2 오디오 소스, 믹싱 노이즈 소스 및 믹서는 비활성 프레임에 대한 다채널 신호를 생성하기 위해 비활성 프레임에서 활성화된다.
일 양태에 따르면, 비활성 프레임에 대한 인코딩된 오디오 데이터는 비활성 프레임에 대한 2개의 채널의 각각의 채널에 대한 신호 에너지를 나타내고 도 1에서 제1 채널과 제2 채널 사이의 코히런스를 나타내는 컴포트 잡음 데이터를 포함하는 무음 삽입 디스크립터 데이터를 포함한다.
상기 믹서는 상기 코히런스를 나타내는 컴포트 노이즈 데이터에 기초하여 상기 믹싱 노이즈 신호와 상기 제1 오디오 신호 또는 상기 제2 오디오 신호를 믹싱하도록 구성되고, 상기 다채널 신호 발생기는 상기 제1 채널 및 제2 채널 또는 제1 오디오 신호 또는 제2 오디오 신호 또는 믹싱 노이즈 신호를 수정하기 위한 신호 수정기를 더 포함한다.
상기 신호 수정기는 상기 제1 오디오 채널 및 상기 제2 오디오 채널에 대한 신호 에너지를 나타내는 컴포트 노이즈 데이터에 의해 제어되도록 구성된다.
한 양태에 따르면, 비활성 프레임에 대한 오디오 데이터는 다음을 포함한다:
상기 제1 채널에 대한 제1 무음 삽입 디스크립터 프레임 및 상기 제2 채널에 대한 제2 무음 삽입 디스크립터 프레임을 포함하고, 상기 제1 무음 삽입 디스크립터 프레임은 상기 제1 채널에 대한 컴포트 노이즈 파라미터 데이터 및 상기 제1 채널에 대한 컴포트 노이즈 생성 사이드 정보를 포함하고, 상기 제2 무음 삽입 디스크립터 프레임은 상기 제2 채널에 대한 컴포트 노이즈 파라미터 데이터 및 상기 비활성 프레임에서 상기 제1 채널과 상기 제2 채널간의 코히런스를 나타내는 코히런스 정보를 포함하고,
상기 다채널 신호 발생기는 상기 제1 무음 삽입 디스크립터 프레임에 대한 컴포트 노이즈 생성 부가 정보를 이용하여 상기 제1 채널에 대한 컴포트 노이즈 생성 모드를 결정하여 상기 비활성 프레임에서 상기 다채널 신호의 생성을 제어하는 제어부를 포함하고, 두 번째 채널, 두 번째 무음 삽입 디스크립터 프레임의 코히런스 정보를 사용하여 비활성 프레임의 첫 번째 채널과 두 번째 채널간의 코히런스를 설정하고 첫 번째 무음 삽입 디스크립터 프레임의 컴포트 잡음 생성 데이터를 사용하고 편안함을 사용하여 제1 채널의 에너지 상황 및 제2 채널의 에너지 상황을 설정하기 위한 제2 무음 삽입 디스크립터 프레임으로부터의 잡음 발생 파라미터 데이터.
일 양태에 따르면, 결과적인 제1 채널 및 결과적인 제2 채널이 스펙트럼적으로 조정되고 코히런스 조정되는 결과적인 제2 채널을, 대응하는 채널의 시간 영역 표현과 결합되거나 연결될 대응하는 시간 영역 표현으로 변환하기 위한 스펙트럼-시간 변환기를 더 포함한다.
한 양태에 따르면, 비활성 프레임에 대한 오디오 데이터는 다음을 포함한다:
상기 제1 및 제2 채널에 대한 컴포트 노이즈 파라미터 데이터, 상기 제1 및 제2 채널에 대한 컴포트 노이즈 생성 부가 정보, 및 상기 제1 채널과 상기 제2 채널간의 코히런스를 나타내는 코히런스 정보를 포함하는 무음 삽입 디스크립터 프레임 비활성 프레임의 두 번째 채널
상기 다채널 신호 발생기는 상기 무음 삽입 디스크립터 프레임에 대한 컴포트 노이즈 생성 부가 정보를 이용하여 상기 제1 채널에 대한 컴포트 노이즈 생성 모드를 결정하고, 두 번째 채널, 비활성 프레임의 첫 번째 채널과 두 번째 채널간의 코히런스를 설정하기 위해 두 번째 무음 삽입 디스크립터 프레임의 코히런스 정보를 사용하여 제1 채널과 제2 채널의 에너지 상황을 설정한다.
일 양태에 따르면, 상기 제1 오디오 소스는 제1 노이즈 소스이고 상기 제1 오디오 신호는 제1 노이즈 신호이거나, 상기 제2 오디오 소스는 제2 노이즈 소스이고 상기 제2 오디오 신호는 제2 노이즈 신호이고,
상기 제1 잡음 소스 또는 상기 제2 잡음 소스는 상기 제1 노이즈 신호 또는 상기 제2 노이즈 신호가 적어도 부분적으로 상관되도록 상기 제1 노이즈 신호 또는 상기 제2 노이즈 신호를 생성하도록 구성되고,
상기 믹싱 노이즈 소스는 제1 믹싱 노이즈 부분 및 제2 믹싱 노이즈 부분을 갖는 믹싱 노이즈 신호를 생성하도록 구성되며, 상기 제2 믹싱 노이즈 부분은 상기 제1 믹싱 노이즈 부분으로부터 적어도 부분적으로 비상관되고;
상기 믹서는 상기 믹싱 노이즈 신호의 제1 믹싱 노이즈 부분과 상기 제1 오디오 신호를 믹싱하여 상기 제1 채널을 획득하고 상기 믹싱 노이즈 신호의 상기 제2 믹싱 노이즈 부분과 상기 제2 오디오 신호를 믹싱하여 상기 제2 채널을 획득하도록 구성된다.
일 양태에 따르면, 제1 채널 및 제2 채널을 갖는 다채널 신호를 생성하는 방법은,
제1 오디오 소스를 이용하여 제1 오디오 신호를 생성하는 단계;
제2 오디오 소스를 사용하여 제2 오디오 신호를 생성하는 단계;
믹싱 노이즈 소스를 이용하여 믹싱 노이즈 신호를 생성하는 단계; 및
믹싱 노이즈 신호와 제1 오디오 신호를 믹싱하여 제1 채널을 획득하고 믹싱 노이즈 신호와 제2 오디오 신호를 믹싱하여 제2 채널을 획득하는 단계;를 포함한다.
일 양태에 따르면, 활성 프레임 및 비활성 프레임을 포함하는 일련의 프레임에 대해 인코딩된 다채널 오디오 신호를 생성하기 위한 오디오 인코더가 제공되며, 오디오 인코더는:
다채널 신호를 분석하여 상기 프레임 시퀀스의 프레임을 비활성 프레임으로 결정하는 활성 감지기;
상기 다채널 신호의 제1 채널에 대한 제1 파라메트릭 노이즈 데이터를 계산하고 상기 다채널 신호의 제2 채널에 대한 제2 파라메트릭 노이즈 데이터를 계산하는 노이즈 파라미터 계산기;
상기 비활성 프레임에서 상기 제1 채널과 상기 제2 채널간의 결맞음 상황을 표시하는 결맞음 데이터를 계산하는 결맞음 계산기; 및
활성 프레임에 대한 인코딩된 오디오 데이터 및 비활성 프레임에 대한 인코딩된 다채널 오디오 신호를 생성하기 위한 출력 인터페이스, 제1 파라메트릭 노이즈 데이터, 제2 파라메트릭 노이즈 데이터 및 코히런스 데이터;를 구비한다.
일 양태에 따르면, 코히런스 계산기는 코히런스 값을 계산하고 코히런스 값을 양자화하여 양자화된 코히런스 값을 얻도록 구성되고, 출력 인터페이스는 양자화된 코히런스 값을 인코딩된 다채널에서 코히런스 데이터로 사용하도록 구성된다.
일양태에 따르면, 코히런스 계산기는
비활성 프레임의 제1 채널 및 제2 채널에 대한 복소 스펙트럼 값으로부터 실제 중간 값 및 가상 중간 값을 계산하고;
비활성 프레임에서 제1 채널에 대한 제1 에너지 값 및 제2 채널에 대한 제2 에너지 값을 계산하고;
실제 중간 값, 가상 중간 값, 제1 에너지값 및 제2 에너지값을 사용하여 코히런스 데이터를 계산하거나,
실제 중간 값, 가상 중간 값, 제1 에너지 값 및 제2 에너지 값 중 적어도 하나를 평활화하고, 평활화된 적어도 하나의 값을 이용하여 코히런스 데이터를 산출하도록 구성된다.
일 양태에 따르면, 코히런스 계산기는 비활성 프레임에서 제1 채널 및 제2 채널의 대응하는 주파수 빈에 대한 복소 스펙트럼 값의 곱의 실수 부분에 대한 합으로서 실제 중간 값을 계산하도록 구성되거나, 또는
비활성 프레임에서 제1 채널 및 제2 채널의 대응하는 주파수 빈에 대한 복소 스펙트럼 값의 곱의 허수 부분에 대한 합으로서 허수 중간 값을 계산하도록 한다.
일 양태에 따르면, 코히런스 계산기는 평활화된 실수 중간 값을 제곱하고 평활화된 허수 중간 값을 제곱하고 제곱된 값을 더하여 제1 성분수를 획득하도록 구성되고,
상기 코히런스 계산기는 상기 평활화된 제1 및 제2 에너지 값을 곱하여 제2 성분 번호를 얻고, 상기 제1 및 제2 성분 번호를 결합하여 상기 코히런스 데이터가 기초하는 상기 코히런스 값에 대한 결과 번호를 얻도록 구성된다.
일 양태에 따르면, 오디오 인코더가 제공되고, 여기서 코히런스 계산기는 코히런스 데이터가 기반으로 하는 코히런스 값을 획득하기 위해 결과 수의 제곱근을 계산하도록 구성된다.
일 양태에 따르면, 코히런스 계산기는 균일 양자화기를 이용하여 코히런스 값을 양자화하여 코히런스 데이터로서 N 비트 수의 양자화된 코히런스 값을 획득하도록 구성된다.
일 양태에 따르면, 오디오 인코더가 제공되며,
상기 출력 인터페이스는 상기 제1 채널에 대한 제1 무음 삽입 디스크립터 프레임 및 상기 제2 채널에 대한 제2 무음 삽입 디스크립터 프레임을 생성하도록 구성되고, 상기 제1 무음 삽입 디스크립터 프레임은 상기 제1 채널에 대한 컴포트 노이즈 파라미터 데이터 및 컴포트 노이즈 생성을 포함하는 상기 제1 채널 및 상기 제2 채널에 대한 부가 정보를 포함하고, 상기 제2 무음 삽입 디스크립터 프레임은 상기 제2 채널에 대한 컴포트 노이즈 파라미터 데이터 및 상기 비활성 프레임에서 상기 제1 채널 및 상기 제2 채널간의 코히런스를 나타내는 코히런스 정보를 포함하거나,
상기 출력 인터페이스는 무음 삽입 디스크립터 프레임을 생성하도록 구성되고, 상기 무음 삽입 디스크립터 프레임은 상기 제1 및 제2 채널에 대한 컴포트 노이즈 파라미터 데이터, 상기 제1 채널 및 제2 채널에 대한 컴포트 노이즈 생성 부가 정보 및 코히런스 정보를 포함하는, 무음 삽입 디스크립터 프레임을 생성하도록 구성됨 비활성 프레임의 첫 번째 채널과 두 번째 채널간의 코히런스를 나타낸다.
일 양태에 따르면, 균일 양자화기는 N에 대한 값이 제1 무음 삽입 디스크립터 프레임에 대한 컴포트 노이즈 생성 부가 정보가 차지하는 비트의 값과 동일하도록 N 비트 수를 계산하도록 구성된다.
일 양태에 따르면, 활성 프레임 및 비활성 프레임을 포함하는 일련의 프레임에 대해 인코딩된 다채널 오디오 신호를 생성하기 위한 오디오 인코딩 방법으로서,
비활성 프레임이 될 프레임 시퀀스의 프레임을 결정하기 위해 다채널 신호를 분석하는 단계;
상기 다채널 신호의 제1 채널에 대한 제1 파라메트릭 노이즈 데이터를 계산하고 상기 다채널 신호의 제2 채널에 대한 제2 파라메트릭 노이즈 데이터를 계산하는 단계;
상기 비활성 프레임에서 상기 제1 채널과 상기 제2 채널간의 결맞음 상황을 표시하는 결맞음 데이터를 계산하는 단계; 및
활성 프레임에 대한 인코딩된 오디오 데이터 및 비활성 프레임에 대해 제1 파라메트릭 노이즈 데이터, 제2 파라메트릭 노이즈 데이터 및 코히런스 데이터를 갖는 인코딩된 다채널 오디오 신호를 생성하는 단계;를 포함한다.
일 양태에 따르면, 인코딩된 다채널 오디오 신호는 활성 프레임 및 비활성 프레임을 포함하는 일련의 프레임으로 구성되며, 인코딩된 다채널 오디오 신호는
활성 프레임에 대한 인코딩된 오디오 데이터;
비활성 프레임의 제1 채널에 대한 제1 파라메트릭 노이즈 데이터;
비활성 프레임의 제2 채널에 대한 제2 파라메트릭 노이즈 데이터; 및
비활성 프레임에서 제1 채널과 제2 채널 사이의 코히런스 상황을 표시하는 코히런스 데이터;를 포함한다.
본 발명은 이산 스테레오 코딩 방식에 특히 적합한 스테레오 컴포트 노이즈 생성 기술을 제공할 수 있다. 두 채널에 대한 노이즈 형태 파라미터들을 함께 코딩하고 전송함으로써, 모노 다운믹스를 필요로 하지 않고서 스테레오 CNG를 적용할 수 있다.
두 개의 개별 노이즈 파라미터 세트들과 함께, 하나의 공통 노이즈 소스와 단일 코히런스 값으로 제어되는 두 개의 개별 노이즈 소스를 믹싱하면 파라메트릭 오디오 코더들에서만 일반적으로 존재하는 세분화된 스테레오 파라미터를 전송할 필요 없이 배경 노이즈의 스테레오 이미지를 충실하게 재구성할 수 있다. 이 한가지 파라미터만 사용되므로, SID 프레임 크기를 낮게 유지하면서 복잡한 압축 방법 없이도 SID 인코딩이 간단해진다.
최종 컴포트 노이즈를 생성하기 위하여 상관 노이즈를 모방하기 위해 두 채널들에 공통 노이즈 소스를 삽입하는 것은 스테레오 배경 노이즈의 녹음을 모방하는데 중요한 역할을 한다.
본 발명의 실시예들은 각 채널에 대해 하나씩 그리고 세 번째 공통 노이즈 소스가 주어지는 3개의 가우시안 노이즈 소스를 믹싱하여 상관된 배경 노이즈를 생성하거나, 추가적으로 또는 이와 별도로, SID 프레임으로 전송되는 코히런스 값에 의해 노이즈 소스들의 믹싱을 제어하거나, 추가적으로 또는 이와 별도로, 다음과 같이 수행하는, 스테레오 신호에 대한 컴포트 노이즈를 생성하는 절차로 간주될 수 있다. 스테레오 시스템에서는 배경 노이즈를 별도로 생성하면, 듣기에 불편하고 실제 배경 노이즈와 매우 다른 완전히 상관없는 노이즈가 발생하며, 활성 모드 배경에서 DTX 모드 배경으로 전환할 때 갑작스러운 가청 전환을 유발하게 된다. 일 실시예에 있어서는, 인코더 측에서 노이즈 파라미터들에 더하여, 2개의 채널들의 코히런스가 계산되고 균등하게 양자화되어, SID 프레임에 부가된다. 디코더에서 CNG 동작은 전송된 코히런스 값에 의해 제어된다. 3개의 가우시안 노이즈 소스들(N1, N2, N3)이 사용된다. 채널 코히런스가 높으면 주로 상관된 노이즈가 두 채널에 더해지고, 코히런스가 낮으면 더 많은 비상관 노이즈가 더해질 수 있다.
도 1은 인코더, 특히 프레임을 활성 또는 비활성으로 분류하기 위한 인코더에서의 실시예를 보여준다.
도 2는 인코더 및 디코더의 실시예를 보여준다.
도 3a-3f는 디코더에서 사용될 수 있는 다채널 신호 발생기의 실시예들을 보여준다.
도 4는 인코더 및 디코더의 실시예를 보여준다.
도 5는 노이즈 파라미터 양자화 단계의 실시예를 보여준다.
도 6은 노이즈 파라미터 역양자화 단계의 실시예를 보여준다.
실시예로 구현될 수 있는 일부 양태
본 명세서에서는 특히, 예컨대 이산 코딩된 스테레오 신호에 대한 DTX 및 CNG를 위한, 새로운 기술을 설명한다. 스테레오 신호의 모노 다운믹스에서 작동하는 대신에, 두 채널에 대한 노이즈 파라미터들이 도출되고 함께 코딩되어 전송된다. 디코더에서(또는 일반적으로 다채널 생성기에서), 3개의 독립적인 컴포트 노이즈 신호들이, 예컨대 두 세트의 노이즈 파라미터들과 함께 전송되는, 단일 광대역 채널간 코히런스 값을 토대로 혼합될 수 있다. 일부 실시예들에서, 실시예들의 일부 양태는 다음 양태들 중 적어도 하나를 포함할 수 있다.
·예를 들어 3개의 독립적인 노이즈 신호들을 혼합함으로써, 디코더에서 컴포트 노이즈를 생성(CNG). 스테레오 무음 삽입 디스크립터(SID)를 디코딩하고 좌우 채널에 대한 노이즈 파라미터를 재구성한 후, 두 개의 노이즈 신호들이, 예컨대 상관 노이즈(correlated noise)와 비상관 노이즈(uncorrelated noise)의 믹싱된 신호로서, 생성될 수 있다. 이를 위하여, 두 채널들에 대한 하나의 공통 노이즈 소스(상관 노이즈 소스로서 작용함)와, 두 개의 개별 노이즈 소스(비상관 노이즈를 제공함)가 함께 믹싱될 수 있다. 믹싱 과정은 스테레오 SID로 전송되는 채널간 코히런스 값에 의해 제어될 수 있다. 믹싱 후에, 두 개의 믹싱된 노이즈 신호들은 좌우 채널들 각각에 대해 재구성된 노이즈 파라미터들을 사용하여 스펙트럼 정형화된다(spectrally shaped).
·노이즈 파라미터들의 공동 코딩은 스테레오 신호의 두 채널들로부터 도출될 수 있다. 스테레오 SID의 비트율을 낮게 유지하기 위하여, 노이즈 파라미터들은 스테레오 SID 내에서 코딩되기 전에 더 압축될 수 있다. 이는 예를 들어, 노이즈 파라미터들의 좌/우 채널 표현을 중앙/사이드 표현으로 변환하고 사이드 노이즈 파라미터들을 중앙 노이즈 파라미터들보다 적은 비트 수로 코딩함으로써, 달성될 수 있다.
·2-채널 불연속 송신(DTX)을 위한 SID(스테레오 SID). 이 SID는, 단일 광대역 채널간 코히런스 값과 두 채널에 대해 동일한 노이즈 파라미터를 나타내는 플래그와 함께, 스테레오 신호의 두 채널에 대한 노이즈 파라미터들을 포함할 수 있다.
이하 설명하는 실시예들은, 디바이스, 장치, 시스템으로서, 방법으로서, 프로세서에 의해 실행될 때 프로세서로 하여금 개시된 기술(예컨대, 일련의 작업들 같은 방법들)을 수행하게 하는 명령들을 저장하는 비일시적 저장 장치로서, 구현될 수 있다.
실시예(Examples)
본 실시예의 양태들을 상세하게 설명하기에 앞서, 가장 중요한 몇 가지에 대해 개략적으로 살펴보면 다음과 같다.
1) 도 3a~3f는 (예컨대 디코더에서) 다채널 오디오 신호를 생성하는 다채널 신호 발생기(예컨대, 적어도 하나의 제1 신호 내지 채널과, 하나의 제2 오디오 신호 내지 채널로 형성됨)의 실시예들을 보여준다. 다채널 오디오 신호(원래는 다수의 역상관 채널 형태로 되어 있음)는 진폭 요소(들)에 의해 영향을 받을(예컨대 스케일링될) 수 있다. 영향의 양은 인코더에서 추정된 제1 오디오 신호 및 제2 오디오 신호간 코히런스 데이터에 기초할 수 있다. 제1 및 제2 오디오 신호들은 공통 믹싱 신호(이 또한 역상관되고 예컨대 코히런스 데이터에 의해 영향을 받을 수 즉 스케일링될 수 있음)와 믹싱될 수 있다. 믹싱 신호에 대한 영향의 양은 믹싱 신호가 낮은 가중치(예컨대 0 또는 그 이상이되 예컨대 0에 가까운 값)로 스케일링될 때 제1 및 제2 오디오 신호는 높은 가중치(예컨대 1이하이되 예컨대 1에 가까운 값)으로 스케일링되고, 그 반대도 마찬가지인 방식이 될 수 있다. 또한 믹싱 신호에 대한 영향의 양은 인코더에서 측정된 코히런스가 높은 경우 제1 및 제2 오디오 신호가 낮은 가중치(예컨대 0 또는 그 이상이되 예컨대 0에 가까운 값)로 스케일링되고, 인코더에서 측정된 코히런스가 낮은 경우 제1 및 제2 오디오 신호가 낮은 가중치(예컨대 1이하이되 예컨대 1에 가까운 값)로 스케일링되게 하는 방식이 될 수도 있다. 도 3a~3f의 기술들은 컴포트 노이즈 생성기(CNG)를 구현하는데 사용될 수 있다.
2) 도 1, 도 2, 및 도 4는 인코더의 실시예들을 보여준다. 인코더는 오디오 프레임을 활성 또는 비활성으로 분류할 수 있다. 오디오 프레임이 비활성이면, 일부 파라메트릭 노이즈 데이터(parametric noise data)만 비트스트림 내에 인코딩되어 (예를 들어, 노이즈 신호 자체를 제공할 필요 없이 노이즈 형태의 파라미터 표현을 제공하는 파라메트릭 노이즈 형태를 제공)하게 되며, 이때 두 채널간 코히런스 데이터도 제공될 수 있다.
3) 도 2 및 도 4는 디코더의 실시예들을 보여준다. 디코더는 예를 들어 다음 방법들에 의해 오디오 신호(컴포트 노이즈)를 생성할 수 있다:
a. 도 3a~3f에 도시된 기법들(위 1)항 참조) 중 하나를 사용(특히 인코더에 의해 제공되는 코히런스 값을 고려하고 진폭 요소(들)에서 가중치로서 적용)
b. 비트스트림 내에 인코딩된 파라메트릭 노이즈 데이터를 사용하여 생성된 오디오 신호(컴포트 노이즈)를 정형(shaping)
특히, 인코더는 비활성 프레임에 대하여 완전한 오디오 신호를 제공할 필요가 없으며, 코히런스 값과, 노이즈 형태의 파라미터 표현만 제공함으로써, 비트스트림에서 인코딩되어야 하는 비트의 양을 감소시킨다.
신호 발생기(예컨대, 디코더 측), CNG
도 3a~3f는 제1 채널(201) 및 제2 채널(203)을 갖는 다채널 신호(204)를 생성하기 위한 컴포트 노이즈 생성기(CNG) 또는 보다 일반적으로 다채널 신호 발생기(200)의 일 실시예들을 보여준다. (본 명세서에 있어서, 일반화된 오디오 신호들(221, 224)은 노이즈로 간주되지만 노이즈가 아닌 다른 종류의 신호도 가능하다.) 먼저 도 3f를 참조하는데, 도 3a~3e가 특정 실시예들을 보여주는 반면 도 3f는 일반화된 실시예를 보여준다.
제1 오디오 소스(211)는 제1 노이즈 소스일 수 있고 제1 오디오 신호(221)를 발생하는 것으로 도시될 수 있는데, 상기 제1 오디오 신호(221)는 제1 노이즈 신호일 수 있다. 믹싱 노이즈 소스(212)는 믹싱 노이즈 신호(222)를 발생할 수 있다. 제2 오디오 소스(213)는 제2 노이즈 신호일 수 있는 제2 오디오 신호(223)를 발생할 수 있다. 다채널 신호 발생기(200)는 제1 오디오 신호(제1 노이즈 신호)(221)를 믹싱 노이즈 신호(222)와 믹싱하고, 제2 오디오 신호(제2 노이즈 신호)(223)를 믹싱 노이즈 신호(222)와 믹싱할 수 있다. (추가적으로 또는 대안으로서, 제1 오디오 신호(221)는 믹싱 노이즈 신호(222)의 버전(version, 221a)과 믹싱될 수 있고, 제2 오디오 신호(223)는 믹싱 노이즈 신호(222)의 버전(221b)과 믹싱될 수 있으며, 여기서 버전들(221a, 221b)은 예컨대 서로 20% 정도 다를 수 있고, 각각의 버전(221a 및 221b)은 예컨대 공통 신호(222)의 업스케일링 및/또는 다운스케일링된 것일 수 있다. 따라서, 다채널 신호(204)의 제1 채널(201)은 제1 오디오 신호(제1 노이즈 신호)(221) 및 믹싱 노이즈 신호(222)로부터 획득될 수 있다. 마찬가지로, 다채널 신호(204)의 제2 채널(203)은 믹싱 노이즈 신호(222)와 믹싱되는 제2 오디오 신호(223)로부터 획득될 수 있다. 또한, 여기서 신호들은 주파수 도메인에 있을 수 있고, k는 (특정 주파수 빈과 연관된) 특정 인덱스 또는 계수)를 지칭한다는 것도 주목해야 한다.
도 3a~3f에 도시된 바와 같이, 제1 오디오 신호(221), 믹싱 노이즈 신호(222), 및 제2 오디오 신호(223)는 서로 역상관될 수 있다. 이것은 (예컨대 역상관기에서) 예를 들어 동일한 신호를 역상관(decorrelating)시키고/거나 독립적으로 노이즈를 생성함으로써 얻어질 수 있다(실시예들은 아래에서 설명함).
믹서(208)는 제1 오디오 신호(221) 및 제2 오디오 신호(223)를 믹싱 노이즈 신호(222)와 믹싱하기 위해 구현될 수 있다. 제1 오디오 신호(221), 믹싱 노이즈 신호(222) 및 제2 오디오 신호(223)에 (예를 들어, 진폭 요소(208-1, 208-2, 208-3)에서) 스케일링에 의해 가중치가 부여된 후에, 신호들을 가산하는 유형일 수 있다. 믹싱은 "가중치 부여 후 모두 더하는" 유형이다. 도 3a~3f는 노이즈 신호들(Nl[k], Nr[k])을 생성하기 위해 적용되는 실제 신호처리를 보여주며, 여기서 가산(+) 요소는 두 신호들의 샘플-별 가산을 나타낸다(k는 주파수 빈의 인덱스임).
진폭 요소(내지 가중 요소 또는 스케일링 요소)(208-1, 208-2, 208-3)는 예를 들어 제1 오디오 신호(221), 믹싱 노이즈 신호(222), 및 제2 오디오 신호(223)를 적합한 계수들로 스케일링함으로써 획득될 수 있으며, 제1 오디오 신호(221)의 가중 버전(221'), 믹싱 노이즈 신호(222)의 가중 버전(222'), 및 제2 오디오 신호(223)의 가중 버전(223')을 출력할 수 있다. 적합한 계수들은 sqrt(coh) 및 sqrt(1-coh)이며, 예를 들어 특정 디스크립터 프레임(후술함)을 시그널링할 때 인코딩된 코히런스 정보로부터 얻을 수 있다(여기서, sqrt는 제곱근 연산을 나타냄). 코히런스 "coh"는 아래에서 상세히 논의되며, 예를 들어 아래에서 "c" 또는 "cind" 또는 "cq"로 표시된 것일 수 있으며, 예를 들어 비트스트림(232)의 코히런스 정보(404)로 인코딩된 것일 수 있다(도 2 및 도 4와 함께, 아래 참조). 특히, 믹싱 노이즈 신호(222)는 예를 들어 코히런스 값의 제곱근인 가중치로 스케일링될 수 있고, 제1 오디오 신호(221) 및 제2 오디오 신호(222)는 코히런스(coh) 중 하나의 상보적인 값의 제곱근인 가중치로 스케일링될 수 있다. 그럼에도 불구하고, 믹싱 노이즈 신호(222)는 공통 모드 신호로 간주될 수 있으며, 그 일부는 제1 오디오 신호(221)의 가중 버전(221')과 제2 오디오 신호(223)의 가중 버전(223')에 믹싱되어, 다채널 신호(204)의 제1 채널(201)과 다채널 신호(204)의 제2 채널(203)을 각각 획득하게 해줄 수 있다. 경우에 따라서는, 제1 노이즈 소스(211) 또는 제2 노이즈 소스(213)는 제1 노이즈 신호(221) 또는 제2 노이즈 신호(223)를 발생하도록 구성될 수 있어서, 제1 노이즈 신호(221) 및/또는 제2 노이즈 신호(223)가 믹싱 노이즈 신호(222)와 역상관될 수 있다(도 3b~3e를 참조하여 후술함).
제 1 오디오 소스(211), 제 2 오디오 소스(213), 및 믹싱 노이즈 소스(212) 중 적어도 하나(또는 각각)는 가우시안 노이즈 소스일 수 있다.
도 3a의 실시예에서, 제1 오디오 소스(211)(여기서는 211a로 표시됨)는 제1 노이즈 발생기를 포함하거나 이에 연결될 수 있고, 제2 오디오 소스(213(213a))는 제2 노이즈 발생기를 포함하거나 이에 연결될 수 있다. 믹싱 노이즈 소스(212(212a))는 제3 노이즈 발생기를 포함하거나 이에 연결될 수 있다. 제1 노이즈 발생기(211(211a)), 제2 노이즈 발생기(213(213a)), 및 제3 노이즈 발생기(212(212a))는 서로 역상관된 노이즈 신호들을 발생할 수 있다.
실시예들에서, 제1 오디오 소스(211(211a)), 제2 오디오 소스(213(213a)), 및 믹싱 노이즈 소스(212(212a)) 중 적어도 하나는 미리 저장된 노이즈 테이블을 사용하여 작동할 수 있으며, 따라서 랜덤 시퀀스를 제공할 수 있다. .
일부 실시예들에서, 제1 오디오 소스(211), 제2 오디오 소스(213), 및 믹싱 노이즈 소스(212) 중 적어도 하나는 실수부에 대한 제1 노이즈 값과 허수부에 대한 제2 노이즈 값을 사용하여 프레임에 대한 복소 스펙트럼을 생성할 수 있다. 선택적으로, 적어도 하나의 노이즈 발생기는, 실수부 및 허수부 중 하나에 대해서는 인덱스 k에서의 제1 난수 값을 사용하고 실수부 및 허수부 중 다른 하나에 대해서는 인덱스(k+M)에서의 제2 난수 값을 사용하여, 주파수 빈 k에 대한 복소수 노이즈 스펙트럼 값(예컨대 계수)을 생성할 수 있다. 상기 제1 노이즈 값과 상기 제2 노이즈 값은 예컨대 난수 시퀀스 발생기 또는 노이즈 테이블 또는 노이즈 프로세스로부터 도출된 노이즈 어레이에 포함될 수 있으며, 시작 인덱스에서 종료 인덱스까지의 범위 내에 있는 값을 가질 수 있고, 여기서 시작 인덱스는 M보다 작고 종료 인덱스는 2×의 두 배임) 이하일 수 있다. M과 k는 정수일 수 있다(k는 신호의 주파수 도메인 표현에서 특정 비트의 주파수 빈의 인덱스임).
각 오디오 소스(211, 212, 213)는 예를 들어 N1[k], N2[k], N3[k]의 관점에서 노이즈를 발생하는 적어도 하나의 오디오 소스 발생기(노이즈 발생기)를 포함할 수 있다.
도 3a~3f의 다채널 신호 발생기(200)는 예를 들어 디코더(200a, 200b(200'))에 사용될 수 있다. 특히, 다채널 신호 발생기(200)는 도 4에서의 컴포트 신호 생성기(CNG: 220)의 일부로 볼 수 있다. 디코더(200)는 일반적으로 인코더에 의해 인코딩되었던 신호를, 직접 디코딩하거나 또는 비트스트림으로부터 획득된 에너지 정보에 의해 정형될 신호를 생성하여 인코더로 입력되었던 원래의 입력 오디오 신호에 상응하는 오디오 신호를 생성될 수 있도록 함으로써, 디코딩하는데 사용될 수 있다. 일부 실시예들에서는, 음성이 있는 프레임들(즉 일반적으로 오디오 신호가 비어있지 않은 프레임들)과 무음 삽입 디스크립터 프레임들이 분류된다. 위에서 설명하고 아래에서 다시 설명하는 바와 같이, 무음 삽입 디스크립터(SID) 프레임(예컨대 SID 프레임(241 및/또는 243)으로 인코딩될 수 있는 소위 "비활성 프레임(308)")은 일반적으로 비트율 정보 이하로 제공되며, 따라서 일반 음성 프레임(소위 "활성 프레임(306)", 아래 설명 참조)보다 덜 자주 제공된다. 또한, 무음 삽입 디스크립터(SID) 프레임(비활성 프레임)(308)에 존재하는 정보는 일반적으로 제한적이다(그리고 실질적으로 신호의 에너지 정보에 해당할 수 있음).
그럼에도 불구하고, 다채널 신호 발생기에 의해 발생되는 다채널 잡음(204)으로 SID 프레임의 내용을 보완하는 것이 가능한 것으로 이해되었다. 기본적으로, 오디오 소스들(211, 212, 213)은, 서로 독립적이고 상관관계가 없을 수 있는, 신호(예컨대 잡음)를 처리할 수 있다. 제1 오디오 신호(221), 믹싱 노이즈 신호(222), 및 제2 오디오 신호(223)는 그럼에도 불구하고 인코더에 의해 제공되고 비트스트림에 삽입된 코히런스 정보에 의해 스케일링될 수 있다. 도 3a~3f에서 볼 수 있는 바와 같이, 코히런스 값은 제1 오디오 신호(221) 및 제2 오디오 신호(223) 모두에 공통 모드 신호로서 작용하는 믹싱 노이즈 신호(222)에 동일하게 작용할 수 있고, 따라서 다채널 신호(204)의 제1 채널(201) 및 제2 채널(203)을 획득할 수 있게 해준다. 코히런스 신호는 일반적으로 0과 1 사이의 값이다.
- 코히런스가 0이라는 것은 원래의 제1 오디오 채널(예컨대, L, 301)과 제2 오디오 채널(예컨대, R, 303)이 서로 상관관계가 전혀 없다는 것을 의미하며, 믹싱 노이즈 신호(222)의 진폭 요소(208-2)는 믹싱 노이즈 신호(222)를 0으로 스케일링하여, 제1 번째 오디오 신호(221)와 제2 오디오 신호(223)가 (항상 0인 신호와 믹싱됨으로써) 공통 모드 신호와 믹싱되지 않도록 하고, 출력 채널들(201, 203)은 다채널 신호(204)의 제1 노이즈 신호(221) 및 제2 노이즈 신호(223)와 실질적으로 동일하게 된다.
- 코히런스가 1이라는 것은 원래의 제1 오디오 채널(예컨대, L, 301)과 제2 오디오 채널(예컨대, R, 303)이 서로 동일하다는 것을 의미하며, 진폭 요소들(208-1, 208-3)은 입력 신호들을 0으로 스케일링하여, 제1 및 제2 채널들은 (진폭 요소(208-2)에서 1로 스케일링되는) 믹싱 노이즈 신호(222)와 같아지게 된다.
- 코히런스가 0과 1 사이에 있는 경우, 위의 두 상황들 사이에서 중간의 믹싱이 일어나게 된다.
이하, 믹서(206) 및/또는 CNG(220)의 일부 양태와 변형예들을 설명한다.
제1 오디오 소스(211)는 제1 노이즈 소스이고 제1 오디오 신호(221)는 제1 노이즈 신호일 수 있거나, 제2 오디오 소스(213)는 제2 노이즈 소스이고 제2 오디오 신호(223)는 제2 노이즈 신호일 수 있다. 제1 노이즈 소스(211) 또는 제2 노이즈 소스(213)는 제1 노이즈 신호(221) 또는 제2 노이즈 신호(223)를 발생하도록 구성될 수 있으며, 제1 노이즈 신호(221) 또는 제2 노이즈 신호(223)는 믹싱 노이즈 신호(222)로부터 역상관된다.
믹서(206)는 제1 채널(201) 및 제2 채널(203)을 생성하도록 구성될 수 있으며, 제1 채널(201)의 믹싱 노이즈 신호(222)의 양은 제2 채널(203)의 믹싱 노이즈 신호(222)의 양과 동일하거나, 제2 채널(203)의 믹싱 노이즈 신호(222)의 80% 내지 120%의 범위에 있을 수 있다. (예를 들어, 그 부분들(221a, 221b)이 80% 내지 120% 범위 내에서 서로 그리고 원래의 믹싱 노이즈 신호(222)와 차이가 날 수 있다).
일부 경우에 있어서,
제1 진폭 요소(208-1)에 의해 수행되는 영향의 양과 제2 진폭 요소(208-3)에 의해 수행되는 영향의 양이 서로 동일(예를 들어, 부분들(221a, 221b) 사이에 차이가 없을 때)하거나,
제2 진폭 요소(208-3)에 의해 수행되는 영향의 양이 제1 진폭 요소(208-1)에 의해 수행되는 영향의 양의 20% 미만만큼 다를 수 있다(예를 들어, 부분들(221a, 221b) 사이의 차이가 20% 미만일 때).
믹서(206) 및/또는 CNG(220)는 제어 파라미터(404, c)를 수신하기 위한 제어 입력을 포함할 수 있다. 그러므로 믹서(206)는 제어 파라미터(404, c)에 응답하여 제1 채널(201) 및 제2 채널(203)에서의 믹싱 노이즈 신호(222)의 양을 제어하도록 구성될 수 있다.
도 3a~3f에는, 믹싱 노이즈 신호(222)가 계수 sqrt(coh)의 영향을 받고, 제1 및 제2 오디오 신호(221, 223)는 계수 sqrt(1-coh)의 영향을 받는 것으로 도시되어 있다.
전술한 바와 같이, 도 3a는 제1 소스(211a)(211), 제2 소스(213a)(213), 및 믹싱 노이즈 소스(212a)(212)가 서로 다른 발생기들을 포함하는 CNG(220a)를 보여준다. 반드시 필요한 것은 아니지만, 여러 가지 변형예가 가능하다.
보다 일반적으로:
1. 제1 변형 CNG(220b) - 도 3b:
(1) 제1 오디오 소스(211b)(211)는 제1 노이즈 신호로서 제1 오디오 신호(221)를 발생하는 제1 노이즈 발생기를 포함할 수 있고,
(2) 제2 오디오 소스(213b)(213)는 제2 노이즈 신호로서 제2 오디오 신호(213)를 발생하기 위하여 제1 노이즈 신호(221)를 역상관시키는 역상관기를 포함할 수 있으며(예를 들어, 제2 오디오 신호는 제1 오디오 신호로부터 역상관화 후에 얻어짐),
(3) 믹싱 노이즈 소스(212b)(212)는 제2 노이즈 발생기(기본적으로 제1 노이즈 발생기와 상관관계가 없음)를 포함할 수 있다.
2. 제2 변형 CNG(220c) - 도 3c:
(1) 제1 오디오 소스(211c)(211)는 제1 노이즈 신호로서 제1 오디오 신호(221)를 발생하는 제1 노이즈 발생기를 포함할 수 있고,
(2) 제2 오디오 소스(213c)(213)는 제2 노이즈 신호로서 제2 오디오 신호(223)를 발생하는 제2 노이즈 발생기를 포함할 수 있으며(제2 노이즈 발생기는 기본적으로 제1 노이즈 발생기와 상관관계가 없음),
(3) 믹싱 노이즈 소스(212c)(212)는 믹싱 노이즈 신호(222)를 발생하기 위하여 제1 노이즈 신호(221) 또는 제2 노이즈 신호(223)를 역상관시키는 역상관기를 포함할 수 있다.
3. 제3 변형 CNG(220d) - 도 3d 및 도 3e:
(1) 제1 오디오 소스(211d 또는 211e)(211), 제2 오디오 소스(213d 또는 213e)(213), 및 믹싱 노이즈 소스(212d 또는 212e)(212) 중 하나는 노이즈 신호를 발생하는 노이즈 발생기를 포함할 수 있고,
(2) 제1 오디오 소스(211d 또는 211e)(211), 제2 오디오 소스(213d 또는 213e)(213), 및 믹싱 노이즈 소스(212d 또는 212e)(212) 중 다른 하나는 노이즈 신호를 역상관시키는 제1 역상관기를 포함할 수 있으며,
(3) 제1 오디오 소스(211d 또는 211e)(211), 제2 오디오 소스(213d 또는 213e)(213), 및 믹싱 노이즈 소스(212d 또는 212e)(212) 중 또 다른 하나는 노이즈 신호를 역상관시키는 제2 역상관기를 포함할 수 있고,
(4) 제1 역상관기 및 제2 역상관기는 서로 달라서, 제1 역상관기 및 제2 역상관기의 출력 신호들이 서로 역상관되어 있을 수 있다.
4. 제4 변형 CNG(220) - 도 3a:
(1) 제1 오디오 소스(211a)(211)는 제1 노이즈 발생기를 포함할 수 있고,
(2) 제2 오디오 소스(213a)(213)는 제2 노이즈 발생기를 포함할 수 있으며,
(3) 믹싱 노이즈 소스(212a)(212)는 제3 노이즈 발생기를 포함할 수 있고,
(4) 제1 노이즈 발생기, 제2 노이즈 발생기, 및 제3 노이즈 발생기는 서로 역상관된 노이즈 신호를 발생할 수 있다(예를 들어, 세 개의 노이즈 발생기들은 기본적으로 서로 상관관계가 없음).
5. 제5 변형예:
(1) 제1 오디오 소스(211), 제2 오디오 소스(213), 및 믹싱 노이즈 소스(212) 중 적어도 하나는 시드에 응답하여 의사 난수 시퀀스를 발생하는 의사 난수 시퀀스 발생기를 포함할 수 있고,
(2) 제1 오디오 소스(211), 제2 오디오 소스(213), 및 믹싱 노이즈 소스(212) 중 적어도 둘은 서로 다른 시드들을 사용하여 의사 난수 시퀀스 발생기를 초기화할 수 있다.
6. 제6 변형예:
(1) 제1 오디오 소스(211), 제2 오디오 소스(213), 및 믹싱 노이즈 소스(212) 중 적어도 하나는 미리 저장된 노이즈 테이블을 사용하여 동작할 수 있고,
(2) 선택적으로, 제1 오디오 소스(211), 제2 오디오 소스(213), 및 믹싱 노이즈 소스(212) 중 적어도 하나는 실수 부분에 대한 제1 노이즈 값과 허수 부분에 대한 제2 노이즈를 사용하여 프레임에 대한 복소 스펙트럼을 생성할 수 있으며,
(3) 선택적으로, 적어도 하나의 노이즈 발생기는, 실수부 및 허수부 중 하나에 대해서는 인덱스 k에서의 제1 난수 값을 사용하고 실수부 및 허수부 중 다른 하나에 대해서는 인덱스(k+M)에서의 제2 난수 값을 사용하여, 주파수 빈 k에 대한 복소수 노이즈 스펙트럼 값(예컨대 계수)을 생성할 수 있다(상기 제1 노이즈 값과 상기 제2 노이즈 값은 예컨대 난수 시퀀스 발생기 또는 노이즈 테이블 또는 노이즈 프로세스로부터 도출된 노이즈 어레이에 포함되며, 시작 인덱스에서 종료 인덱스까지의 범위 내에 있는 값을 가질 수 있고, 여기서 시작 인덱스는 M보다 작고 종료 인덱스는 2×이하일 수 있으며, M과 k는 정수이다).
도 4에서 볼 수 있는 바와 같이, 디코더(200': 200a, 200b)는, 도 3의 CNG(220) 이외에, 인코딩된 오디오 데이터를 활성 프레임과 상기 활성 프레임을 뒤잇는 비활성 프레임을 포함하는 프레임 시퀀스로써 받아들이는 입력 인터페이스(210)와; 활성 프레임에 대한 코딩된 오디오 데이터를 디코딩하여 활성 프레임에 대한 디코딩된 다채널 신호를 생성하는 오디오 디코더를 더 포함할 수 있으며, 여기서 제1 오디오 소스(211), 제2 오디오 소스(213), 믹싱 노이즈 소스(212), 및 믹서(206)는 비활성 프레임에서 활성화되어 비활성 프레임에 대한 다채널 신호를 생성하게 된다.
특히, 활성 프레임들은 인코더에 의해 음성(또는 여타 종류의 비잡음 소리)이 있는 것으로 분류된 프레임들이고, 비활성 프레임들은 무음이거나 노이즈만 있는 것으로 분류된 프레임들이다.
CNG(220: 220a~220e)의 실시예들은 어느 것이든 적합한 제어기에 의해 제어될 수 있다.
인코더
이제 인코더에 대하여 설명한다. 인코더는 활성 프레임들과 비활성 프레임들을 인코딩할 수 있다. 비활성 프레임들의 경우, 인코더는 오디오 신호 전체를 인코딩하지 않고서 파라메트릭 노이즈 데이터(예컨대, 노이즈 형태 및/또는 코히런스 값)를 인코딩할 수 있다. 비활성 오디오 프레임들의 인코딩은 활성 오디오 프레임들에 비하여 감소될 수 있어서, 비트스트림에 인코딩되는 정보의 양을 감소시킬 수 있음을 주목해야 한다. 또한 비활성 프레임들에 대한 파라메트릭 노이즈 데이터(예컨대, 노이즈 형태)는 각 주파수 대역에 대하여 더 적은 정보를 가질 수 있고/있거나 활성 프레임들에서 인코딩된 것보다 더 적은 빈을 가질 수 있다. 파라메트릭 노이즈 데이터는, 제1 및 제2 채널의 파라메트릭 노이즈 데이터 간의 제1 선형 결합과, 제1 및 제2 채널의 파라메트릭 노이즈 데이터 간의 제2 선형 결합을 제공함으로써(어떤 경우에는, 제1 및 제2 선형 결합과는 무관하지만 좌/우 도메인에서는 주어지는 이득 정보를 제공하는 것도 가능함), 좌/우 도메인 형식으로 또는 다른 도메인(예컨대, 중앙/사이드 도메인) 형식으로 제공될 수 있다. 제1 및 제2 선형 결합은 일반적으로 서로 선형 독립이다.
인코더는 프레임이 활성인지 비활성인지를 분류하는 활성 감지기를 포함할 수 있다.
도 1, 도 2, 및 도 4는 인코더들(300a, 300b)의 실시예들을 보여준다(이하, (인코더(300a)와 인코더(300b)를 구별할 필요가 없는 경우에는 300으로 표시함). 각 오디오 인코더(300)는, 입력 신호(304)의 프레임 시퀀스에 대하여, 인코딩된 다채널 오디오 신호(232)를 생성할 수 있다. 여기서, 입력 신호(304)는 제1 채널(301: 좌측 채널 또는 "l"로도 표시되는데, 여기서 "l"은 대문자가 "L"인 문자이며 영어로 "좌측(left)"의 첫 글자임)과 제2 채널(303: 즉 "r", 여기서 "r"은 대문자가 "R"인 문자이며 영어로 "우측(right)"의 첫 글자임)로 분리되어 있는 것으로 간주된다.
인코딩된 다채널 오디오 신호(232)는 프레임 시퀀스로 정의될 수 있으며, 상기 프레임 시퀀스는 예를 들어 시간 도메인에 있을 수 있다(예를 들어, 각 샘플 "n"은 특정 시점을 나타낼 수 있고, 한 프레임의 샘플들은 시퀀스, 예컨대 입력 오디오 신호의 샘플링 시퀀스 또는 입력 오디오 신호를 필터링한 후의 시퀀스를 형성할 수 있음).
인코더(300: 300a, 300b)는 활성 감지기(380)를 포함할 수 있는데, 이 활성 감지기는 (일부 실시예들에서는 구현되어 그 내부에 존재함에도) 도 2 및 도 4에는 도시되어 있지 않지만 도 1에는 도시되어 있다. 도 1은 입력 신호(304)의 각 프레임이 "활성 프레임(306)" 또는 "비활성 프레임(308)"으로 분류될 수 있음을 보여준다. 비활성 프레임(308)은 신호가 무음(예를 들어 무음 또는 잡음만 있음)으로 간주되는 반면, 활성 프레임(306)은 잡음없는 오디오 신호(예컨대, 음성, 음악 등)가 검출되는 프레임이다.
인코더(300)에 의해 (예컨대, 비트스트림으로) 인코딩된, 인코딩된 다중 오디오 신호(232)에서, 프레임이 활성 프레임(306)인지 무음 프레임(308)인지에 대한 정보는 예를 들어 소위 "컴포트 노이즈 생성 사이드 정보"(402, p_frame)로서 시그널링될 수 있는데, 이 정보를 "사이드 정보(side information)"라고도 한다.
도 1은 프레임이 활성 프레임(306)인지 무음 프레임(308)인지를 결정(예컨대 분류)할 수 있는 전처리 스테이지(360)를 보여준다. 여기서 입력 신호(304)의 채널들(301, 303)은 L(301, 좌측 채널) 및 R(303, 우측 채널)과 같이 대문자로 표시되어, 주파수 도메인에 있음을 나타내고 있음을 주목해야 한다. 도 1에서 볼 수 있는 바와 같이, 스펙트럼 분석 단계 스테이지(370)가 적용될 수 있다(제1 채널(301, L)에 대한 제1 스펙트럼 분석 스테이지(370-1); 및 제2 채널(303, R)에 대한 제2 스펙트럼 분석 스테이지(370-3)). 스펙트럼 분석 스테이지(370)는 입력 신호(304)의 각 프레임에 대하여 수행될 수 있고, 예를 들어 고조파 측정에 기초할 수 있다. 특히, 일부 실시예들에서는, 스테이지(370)에 의해 제1 채널(301) 상에서 수행되는 스펙트럼 분석이 동일한 프레임의 제2 채널(303) 상에서 수행되는 스펙트럼 분석과 별도로 수행될 수 있다. 일부 경우에는, 스펙트럼 분석 스테이지(370)가 미리 정의된 주파수 대역 범위에 대한 평균 에너지 및 총 평균 에너지와 같은 에너지-관련 파라미터의 계산을 포함할 수 있다.
활성 감지 스테이지(380)(음성 검색이 이루어지는 경우, 음성 활성 감지로 간주될 수 있음)가 적용될 수 있다. 제1 활성 감지 스테이지(380-1)는 제1 채널(301)에(그리고 특히 제1 채널 상에서 수행된 측정에 대해) 적용될 수 있고, 제2 활성 감지 스테이지(380-3)는 제2 채널(303)에(그리고 특히 제2 채널 상에서 수행된 측정에 대해) 적용될 수 있다. 실시예들에서, 활성 감지 스테이지(380)는 입력 신호(304)에서 배경 잡음의 에너지를 추정하고, 그 추정치를 사용하여 신호-대-잡음비를 계산할 수 있는데, 이 신호-대-잡음비를 신호-대-잡음비 임계치와 비교하여 프레임이 활성 또는 비활성으로 분류되는지를 결정하게 된다(즉, 계산된 신호-대-잡음비 신호-대-잡음비 임계치를 초과하면 프레임이 활성인 것으로 분류됨을 의미하고, 계산된 신호-대-잡음비가 신호-대-잡음비 임계치 미만이면 프레임이 비활성인 것으로 분류됨을 의미함). 실시예들에서, 스테이지(380)는 스펙트럼 분석 스테이지들(370-1, 370-3) 각각에 의해 획득된 고조파를 하나 또는 두 개의 고조파 임계치(예컨대, 제1 채널(301)에 대한 제1 임계치와, 제2 채널(303)에 대한 제2 임계치)와 비교할 수 있다. 두 경우 모두에 있어서, 각 프레임뿐만 아니라 각 프레임의 각 채널에 대해서도 활성 채널인지 비활성 채널인지 분류할 수 있다.
결정(381)이 수행될 수 있으며, 이를 기초로 하여, 이산 스테레오 처리(306a)를 수행할지 또는 스테레오 불연속 송신 처리(스테레오 DTX)(306b)를 수행할지를 결정(스위치(381')로 표시됨)하는 것이 가능하다. 특히, 활성 프레임(및 이산 스테레오 처리(306a))의 경우, 어떠한 전략 또는 처리 표준 또는 프로세스에 따라 인코딩이 수행될 수 있으며, 이에 대해서는 여기서 더 상세하게 분석하지 않는다. 아래의 설명 중 대부분은 스테레오 DTX(306b)에 관한 것이다.
특히, 실시예들에서, 두 채널들(301, 303) 모두가 각각 스테이지들(380-1, 380-3)에 의해 비활성으로 분류되는 경우에만, 프레임이 (스테이지(381)에서) 비활성 프레임으로 분류된다. 그러므로 위에서 설명한 활성 감지 결정에서의 문제들이 해소된다. 특히, 매 프레임마다 채널별 활성/비활성 구분을 시그널링할 필요가 없고(이로 인해 시그널링이 감소됨), 채널간 동기가 자연스럽게 이루어진다. 또한, 본 개시에 따른 디코더에 있어서는, 제1 및 제2 채널(301, 303) 간의 코히런스를 이용하여 일부 노이즈 신호들을 발생하는 것이 가능하며, 이 노이즈 신호들은 신호(304)에 대해 획득된 코히런스에 따라서 상관/역상관된다. 이하, 비활성 프레임을 인코딩하는데 사용되는 인코더(300: 300a, 300b)의 요소들에 대하여 상세하게 설명한다. 위에서 설명한 바와 같이, 임의의 다른 기술이 활성 프레임들(308)을 인코딩하는데 사용될 수 있으며, 그에 대해서는 여기서 설명하지 않는다.
일반적으로, 인코더(300: 300a, 300b)는 제1 및 제2 채널(301, 303)에 대한 파라메트릭 노이즈 데이터(401, 403)를 계산하는 노이즈 파라미터 계산기(3040)를 포함할 수 있다. 노이즈 파라미터 계산기(3040)는 제1 채널(301) 및 제2 채널(303)에 대한 파라메트릭 노이즈 데이터(401, 403; 예컨대 인덱스 및/또는 이득)를 계산할 수 있다. 그러므로 노이즈 파라미터 계산기(3040)는 인코딩된 오디오 데이터(232)를 활성 프레임들(306)과 상기 활성 프레임들(306)을 뒤잇는 비활성 프레임들(308)을 포함할 수 있는 프레임 시퀀스 형식으로 제공할 수 있다. 특히, 비활성 프레임(308)의 경우, 인코딩된 오디오 데이터(232)는 하나 또는 두 개의 무음 삽입 디스크립터(SID) 프레임(241, 243)으로 인코딩될 수 있다. 일부 실시예들(예컨대 도 2의 실시예)에서는 단 하나의 SID 프레임만이 있고, 다른 실시예(예컨대 도 4의 실시예)에서는 두 개의 SID 프레임이 있다.
비활성 프레임(308)은 특히 다음 중 적어도 하나를 포함할 수 있다:
- 컴포트 노이즈 생성 사이드 정보(예컨대, 402, p_frame);
- 제1 채널(301)에 대한 컴포트 노이즈 파라미터 데이터(401), 또는 제1 채널(301)에 대한 컴포트 노이즈 파라미터 데이터와 제2 채널에 대한 컴포트 노이즈 파라미터 데이터(vl,ind, vm,ind p_noise, 이득 gl,q)의 제1 선형 결합;
- 제2 채널(303)에 대한 컴포트 노이즈 파라미터 데이터(403), 또는 제1 채널(301)에 대한 컴포트 노이즈 파라미터 데이터와 제2 채널에 대한 컴포트 노이즈 파라미터 데이터(vr,ind, vs,ind p_noise, 이득 gr,q)의 제2 선형 결합;
- 코히런스 정보(코히런스 데이터)(c, 404).
일부 실시예들에서, 제1 무음 삽입 디스크립터 프레임(241)은 상기 목록의 처음 두 항목을 포함할 수 있고, 제2 무음 삽입 디스크립터 프레임(243)은 마지막 두 특징을 특정 데이터 필드에 포함할 수 있다. 그럼에도 불구하고, 다른 프로토콜에 따라서, 다른 데이터 필드가 제공되거나 비트스트림의 구성이 달라질 수 있다. 그렇지만 일부 경우에는(예컨대 도 2의 실시예의 경우), 두 채널들 모두에 대한 노이즈 파라미터들에 대해서 단 하나의 비활성 프레임만 있을 수도 있다.
아래에서 설명하는 바와 같이, 코히런스 정보(예컨대, "무음 삽입 디스크립터"의 일부)는 코히런스 정보(예컨대, 상관 데이터) 예컨대 동일한 비활성 프레임(308)의 제1 채널(301) 및 제2 채널(303) 간의 코히런스를 나타내는 하나의 단일 값(예컨대, 4비트와 같이, 수 비트로 인코딩될 수 있음)을 포함할 수 있다. 한편, 컴포트 노이즈 파라미터 데이터(401, 403)는, 각각의 채널(301, 303)에 대하여, 비활성 프레임(308)에 대한 신호 에너지를 나타내거나(예컨대, 실질적으로 포락선을 제공할 수 있음), 여하한 방식으로 노이즈 형태 정보를 제공할 수 있다. 포락선 내지 노이즈 형태 정보는 각 채널에 대한 주파수 빈(bin)들에 대한 다수의 계수들과 이득의 형태로 되어있을 수 있다. 노이즈 형태 정보는 스테이지(312)에서 원래의 입력 채널들(301, 303)을 사용하여 획득될 수 있으며, 그 다음 노이즈 형태 파라미터 벡터들에 대해서 중앙/사이드 인코딩이 수행될 수 있다. 디코더에서는, 코히런스 정보(404)에 의해 영향을 받을 수 있는 일부 노이즈 채널들(예컨대, 도 3에서의 201, 203)을 생성하는 것이 가능할 수 있다. 그러므로 CNG(220: 220a~220)에 의해 생성된 노이즈 채널들(201, 203)은 제1 오디오 채널(Lout) 및 제2 오디오 채널(Rout)에 대한 신호 에너지들을 나타내는 제어 노이즈 데이터(컴포트 노이즈 파라미터 데이터(401, 403, 2312))에 의해 제어되는 신호 수정기(250)에 의해 수정(modification)될 수 있다.
오디오 인코더(300: 300a, 300b)는 코히런스 계산기(320)를 포함할 수 있으며, 이 코히런스 계산기(320)는 비트스트림(예컨대, 신호(232) 또는 프레임(241, 243))으로 인코딩되어야 하는 코히런스 정보(404)를 획득할 수 있다. 코히런스 정보(c, 404)는 비활성 프레임(308)에서 제1 채널(301)(예컨대, 좌측 채널)과 제2 채널(303)(예컨대, 우측 채널) 간의 코히런스 상황을 표시할 수 있다. 코히런스 정보의 실시예는 후술한다.
인코더(300: 300a, 300b)는, 활성 프레임(306)에 대한 인코딩된 오디오 데이터와 비활성 프레임(308)에 대한 제1 파라미터 데이터(컴포트 노이즈 파라미터 데이터)(401: p_noise,left), 제2 파라메트릭 노이즈 데이터(403: p_noise,right), 및 코히런스 데이터(404: c)를 포함하는, 다채널 오디오 신호(232)(비트스트림)을 생성하도록 구성되는 출력 인터페이스(310)를 포함할 수 있다. 제1 파라미터 데이터(401)는 제1 채널(예컨대, 좌측 채널)의 파라미터 데이터이거나, 제1 채널 및 제2 채널(예컨대, 중앙 채널)의 제1 선형 결합의 파라미터 데이터일 수 있다. 제2 파라미터 데이터(403)는 제2 채널((예컨대, 좌측 채널)의 파라미터 데이터이거나, 제1 선형 결합과 다른, 제1 채널 및 제2 채널(예컨대, 사이드 채널)의 제2 선형 결합의 파라미터 데이터일 수 있다.
비트스트림(232)에는 사이드 정보(402)도 포함될 수 있는데, 상기 사이드 정보(402)는 현재 프레임이 활성 프레임(306)인지 또는 비활성 프레임(308)인지에 대한 표시를 포함하여, 예를 들어 디코더에게 사용되어야 할 디코딩 기법을 알릴 수 있다.
특히, 도 4는 제1 채널(301)에 대한 컴포트 노이즈 파라미터 데이터(401)가 계산될 수 있는 제1 노이즈 파라미터 계산기 스테이지(304-1)와 제2 채널(303)에 대한 제2 컴포트 노이즈 파라미터(403)가 계산될 수 있는 제2 노이즈 파라미터 계산기 스테이지(304-3)를 포함하는 형태의 노이즈 파라미터 계산기(노이즈 파라미터 계산 스테이지)(3040)를 보여준다. 도 2는 노이즈 파라미터가 함께 처리되고 양자화되는 실시예를 보여준다. 내부 구성(예컨대, 노이즈 형태 벡터들이 M/S 표현으로 변환됨)은 도 5에 도시되어 있다. 기본적으로, 제1 채널(M)의 노이즈 형태와 제2 채널(S)의 노이즈 형태는 중앙 인덱스(mid indices)와 사이드 인덱스(side indices)로 인코딩될 수 있으며, 이때 좌측 채널(301)의 노이드 형태에 대한 이득과 우측 채널(303)의 노이드 형태에 대한 이득도 인코딩될 수 있다.
코히런스 계산기(320)는 제1 채널(L)과 제2 채널(R) 간의 코히런스 상황을 표시하는 코히런스 데이터(코히런스 정보)(404: c)를 계산할 수 있다. 이 경우, 코히런스 계산기(320)는 주파수 도메인에서 동작할 수 있다.
도면에서 볼 수 있는 바와 같이, 코히런스 계산기(320)는 코히런스 값(404: c)이 획득되는 채널 코히런스 계산 스테이지(320')를 포함할 수 있다. 채널 코히런스 계산 스테이지(320')의 하류에는, 균등 양자화기 스테이지(320")가 사용될 수 있다. 따라서, 코히런스 값(c)의 양자화된 버전(cind)을 획득할 수 있다.
이하, 코히런스를 획득하고 양자화하는 방법에 대하여 몇 가지 설명을 한다.
일부 실시예들에서, 코히런스 계산기(320)는:
비활성 프레임의 제1 채널 및 제2 채널(303)에 대한 복소 스펙트럼 값으로부터 실수 중간 값 및 허수 중간 값을 계산하고;
비활성 프레임에서 제1 채널에 대한 제1 에너지 값과 제2 채널(303)에 대한 제2 에너지 값을 계산하고;
상기 실수 중간 값, 상기 허수 중간 값, 상기 제1 에너지 값, 및 상기 제2 에너지 값을 사용하여 코히런스 데이터(404, c)를 계산하고/하거나;
상기 실수 중간 값, 상기 허수 중간 값, 상기 제1 에너지 값, 및 상기 제2 에너지 값 중 적어도 하나를 평활화하고, 적어도 하나의 평활화된 값을 사용하여 코히런스 데이터를 산출한다.
코히런스 계산기(320)는 평활화된 실수 중간 값을 제곱하고, 평활화된 허수 중간 값을 제곱하며, 제곱 값들을 더하여 제1 성분 수를 구할 수 있다. 코히런스 계산기(320)는 평활화된 제1 에너지 값과 평활화된 제2 에너지 값을 곱하여, 제2 성분 수를 구하고, 제1 성분 수와 제2 성분 수를 결합하여 코히런스 데이터의 기초가 되는 코히런스 값에 대한 결과값을 구할 수 있다. 코히런스 계산기(320)는 결과값의 제곱근을 계산하여, 코히런스 데이터의 기초가 되는 코히런스 값을 구할 수 있다. 수식들의 예는 아래에서 제시한다.
디코더에서 렌더링될 노이즈 형태(또는 다른 신호 에너지)의 형태를 어떻게 획득되는지를 설명한다. 인코딩되는 것은 기본적으로 원본 입력 신호(302)의 노이즈의 형태(또는 에너지와 관련된 다른 정보)이며, 이 인코딩된 정보는 디코더에서 발생된 노이즈(203)에 적용되어 정형화하게 되며, 이에 따라 신호(304)의 원래 노이즈와 유사한 노이즈(252)(출력 오디오 신호)를 형성하게 된다.
먼저, 신호(304) 자체가 인코더에 의해 비트스트림(232)으로 인코딩되는 것이 아니라는 점을 주목해야 한다. 그렇지만, 잡음 정보(예컨대, 에너지 정보, 포락선 정보)가 비트스트림(232)으로 인코딩되어, 인코더에 의해 인코딩된 노이즈 형태를 갖는 노이즈 신호를 나중에 발생하게 된다.
노이즈 형태 획득 블록(312)이 인코더의 입력 신호(304)에 적용될 수 있다. "노이즈 형태 획득" 블록(312)은 입력 신호(304)에 있는 잡음의 스펙트럼 포락선의 저해상도 파라미터 표현(1312)을 계산할 수 있다. 이것은 예를 들어 입력 신호(304)의 주파수 도메인 표현의 주파수 대역들에서의 에너지 값들을 계산함으로써 행해질 수 있다. 에너지 값들은 (필요에 따라) 로그 표현으로 변환될 수 있고, 나중에 디코더에서 컴포트 노이즈를 생성하기 위해 사용되는 더 낮은 수(N)의 파라미터들로 압축될 수 있다. 노이즈에 대한 이와 같은 저해상도 표현을 본 명세서에서 "노이즈 형태"(1312)로 칭한다. 그러므로 "노이즈 형태 획득" 블록(312)의 하류에 있는 것은 입력 신호(304)를 나타내는 것이 아니라, 노이즈 형태(각각의 채널에서의 노이즈의 스펙트럼 포락선의 파라미터 표현)를 나타내는 것으로 이해해야 한다. 이것은, 인코더가 SID 프레임으로 노이즈의 스펙트럼 포락선의 저해상도 표현만을 전송할 수 있기 때문에, 중요하다. 따라서 도 2에서 "노이즈 파라미터 계산기(3040)"의 모든 부분은 이러한 노이즈 관련 파라미터 벡터(예컨대, vl, vr, vm,ind, vs,ind로 식별됨)에 대해서 작동하는 것이지 신호(304)의 신호 표현에 대해서 작동하는 것이 아닌 것으로 이해될 수 있다.
도 5는 "노이즈 파라미터 계산기" 부분(3040)(공동 노이즈 형태 양자화)의 일 실시예를 보여준다. 좌우-중앙/사이드 변환기(L/R-to-M/S converter) 스테이지(314)가 적용되어, 노이즈 형태(1312)(L/R 채널들의 노이즈 형태들의 제1 선형 결합)의 중앙(mid) 채널 표현(vm)과. 노이즈 형태(1312)(L/R 채널들의 노이즈 형태들의 제2 선형 결합)의 사이드 채널 표현(vs)을 획득할 수 있다. 이 표현들을 획득하는 방법은 아래에서 설명한다. 따라서 노이즈 형태(304)는 2개의 채널들(vm, vs)로 분할되는 결과가 될 수 있다.
이어서, 정규화 스테이지(316)에서는, 노이즈 형태(1312)의 중앙 채널 표현(vm)과 노이즈 형태(1312)의 사이드 채널 표현(vr) 중 적어도 하나가 정규화되어, 노이즈 형태(1312)의 중앙 채널 표현(vm)의 정규화된 버전(vm,n) 및/또는 노이즈 형태(1312)의 사이드 채널 표현(vs)의 정규화된 버전(vs,n)을 획득할 수 있다.
이어서, 예컨대 노이즈 형태(1312)의 중앙 채널 표현(vm)의 정규화된 버전(vm,n) 및 노이즈 형태(1312)의 사이드 채널 표현(vr)의 정규화된 버전(vr,n)의 형태로 된, 신호(1304)의 정규화된 버전에 양자화 스테이지(예컨대, 벡터 양자화(VQ: vector quantization))(318)가 적용될 수 있다. (예를 들어, 다단계 벡터 양자화기를 통해서) 벡터 양자화가 사용될 수 있다. 따라서, 인덱스들(vm,ind[k], k는 특정 주파수 빈의 인덱스임)은 노이즈 형태의 중앙 채널 표현을 기술할 수 있고, 인덱스들(vs,ind[k])은 노이즈 형태의 사이드 채널 표현을 기술할 수 있다. 그러므로 인덱스들(vm,ind[k], vs,ind[k])은 제1 채널에 대한 컴포트 노이즈 파라미터 데이터와 제2 채널에 대한 컴포트 노이즈 파라미터 데이터의 제1 선형 결합과, 제1 채널에 대한 컴포트 노이즈 파라미터 데이터와 제2 채널에 대한 컴포트 노이즈 파라미터 데이터의 제2 선형 결합으로서 비트스트림(232) 내에 인코딩될 수 있다.
역양자화 스테이지(322)에서는, 노이즈 형태(1312)의 정규화된 중앙 채널 표현(vm,n)의 양자화된 버전(vm,ind)과 노이즈 형태(1312)의 정규화된 사이드 채널 표현(vs,n)의 양자화된 버전(vs,ind)에 대하여 역양자화가 수행될 수 있다.
중앙/사이드-좌우 변환기(M/S-to-L/R converter)(324)는 노이즈 형태(1312)의 역양자화된 중앙 및 사이드 채널 표현(vm,q, vs,q)의 역양자화된 버전에 적용되어, 노이즈 형태(1312)의 원래(좌우) 채널들 버전(v'l, v'r)을 획득할 수 있다.
이어서, 스테이지(326)에서는, 이득들(gl, gr)이 계산될 수 있다. 특히, 상기 이득들은 동일한 비활성 프레임(306)의 동일한 채널들(v'l, v'r)의 노이즈 형태의 모든 샘플들에 대하여 유효하다. 이득들(gl, gr)은 노이즈 형태 표현들(v'l, v'r) 내에 있는 주파수 빈들의 전체(또는 거의 전체)를 고려하여 획득될 수 있다..
이득(gl)은 다음 두 가지 값들을 비교하여 획득될 수 있다.
- L/R 도메인(L/R-M/S 변환기(314)의 상류 부분)에서의 제1 채널(301)의 노이즈 형태의 주파수 빈들의 값들; 및
- L/R 도메인으로 재변환된 후의(M/S-L/R 변환기(324)의 하류 부분), 제1 채널(301)의 노이즈 형태(1312)의 주파수 빈들의 값들.
마찬가지로, 이득(gr)은 다음 두 가지 값들을 비교하여 획득될 수 있다.
- L/R 도메인(L/R-M/S 변환기(314)의 상류 부분)에서의 제2 채널(303)의 노이즈 형태의 계수들의 값들; 및
- L/R 도메인으로 재변환된 후의(M/S-L/R 변환기(324)의 하류 부분), 제2 채널(303)의 노이즈 형태(1312)의 계수들의 값들.
이득들을 획득하는 방법의 실시예는 아래에서 설명한다. 그렇지만 이득은 선형 도메인에 있고, 예를 들어 다수의 분수의 기하평균에 비례할 수 있으며, 여기서 각 분수는 L/R-M/S 변환기(314)의 상류 부분에 있는 L/R 도메인에서의 특정 채널의 노이즈 형태의 계수들과 M/S-L/R 변환기(324)의 하류 부분에 있는 L/R 도메인으로 재변환된 후의 동일 채널의 계수들 간의 비율일 수 있다. 대수(logarithmic) 도메인에서는, 각 채널에 대하여 이득이, L/R-M/S 변환기(314)의 상류 부분에 있는 L/R 도메인에서의 노이즈 형태의 주파수 도메인(FD) 버전의 계수들과 M/S-L/R 변환기(324)의 하류 부분에 있는 L/R 도메인으로 재변환된 후의 노이즈 형태의 계수들의 차이 값들의 산술평균에 비례하는 것으로 보고 구해질 수 있다. 일반적으로, 대수 내지 스칼라 도메인에서, 이득은 L/R-M/S 변환 및 양자화 이전의 좌우 채널의 노이즈 형태의 버전과 역양자화 및 M/S-L/R 재변환 이후의 좌우 채널의 노이즈 형태의 버전 사이의 관계를 제공한다.
양자화 스테이지(328)는 양자화되지 않은 이득(g1)에 적용되어 gl,q로 표시되는 그것의 양자화된 버전을 획득할 수 있고, 양자화되지 않은 이득(gr)에 적용되어 gr,q로 표시되는 그것의 양자화된 버전을 획득할 수 있다. 이득들(gl,q, gr,q)은 비트스트림(232)으로(예컨대, 컴포트 노이즈 파라미터 데이터(401 및/또는 403)로서) 인코딩되어, 디코더에 의해 판독될 수 있다.
일부 실시예들에서는, 사이드 채널 노이즈 형태 벡터(예를 들어 정규화되기 전, 예컨대 스테이지들(314, 316) 사이)의 에너지를 소정의 에너지 임계값 α(양의 실수 값일 수 있음; 이 경우 0.1이지만, 0.05와 0.15 사이의 값처럼 다른 값으로 정해질 수도 있음)와 비교하는 것도 가능하다. 비교 블록(435)에서 비활성 프레임(308)의 노이즈 형태의 사이드 표현(vs)이 충분한 에너지를 갖는지 여부를 결정할 수 있다. 노이즈 형태의 사이드 표현(vs)의 에너지가 에너지 임계값(α)보다 작은 경우, 이진 결과값("사이드-없음 플래그(no-side flag)")이 사이드 정보(402)로서 비트스트림(232)을 통해 시그널링된다. 여기서는, 노이즈 형태의 사이드 표현(vs)의 에너지가 에너지 임계값(α)보다 작은 경우 no-side flag = 1이고, 노이즈 형태의 사이드 표현(vs)의 에너지가 에너지 임계값(α)보다 큰 경우 no-side flag = 0인 것으로 생각하기로 한다. 경우에 따라서는, 에너지가 에너지 임계값과 정확히 동일한 경우 특정 애플리케이션에 따라서 플래그가 1 또는 0의 값을 가질 수 있다. 블록(436)은 사이드-없음 플래그(no-side flag)의 이진 값에 대해 논리부정(negation) 연산을 수행한다(블록(436)의 입력이 1이면 출력(436')은 0이 되고, 블록(436)의 입력이 0이면 출력(436')은 1이 된다). 블록(436)은 플래그의 반대 값을 출력(436')으로서 제공하는 것으로 도시되어 있다. 따라서, 노이즈 형태의 사이드 표현(vs)의 에너지가 에너지 임계값(α)보다 크면, 값(436')은 1이 되고, 노이즈 형태의 사이드 표현(vs)의 에너지가 에너지 임계값(α)보다 작으면, 값(436')은 0이 될 수 있다. 역양자화된 값(vs,q)에 이진 값(436')이 곱해질 수 있다는 것을 주목해야 한다. 이것은 단지, 노이즈 형태의 사이드 표현(vs)의 에너지가 에너지 임계값(α)보다 작은 경우에, 노이즈 형태의 역양자화된 사이드 표현(vs,q)의 빈들이 인위적으로 0이 되게 하는 한 가지 가능한 방법이다(블록(437)의 출력(437')은 0이 될 것이다). 한편, 노이즈 형태의 사이드 표현(vs)의 에너지가 충분히 크다면(> α), 블록(437)(곱셈기)의 출력(437')은 정확히 vs,q와 같아질 수 있다. 따라서, 노이즈 형태의 사이드 표현(vs)의 에너지가 상기 소정의 에너지 임계값(α)보다 작다면, 노이즈 형태의 사이드 표현(vs) (및 그 양자화된 버전(vs,q))은 노이즈 형태의 좌/우 표현들을 획득할 때 고려되지 않는다. (아래에서 설명하는 바와 같이, 디코더는 노이즈 형태의 사이드 표현의 계수들을 0으로 만드는 유사한 메커니즘을 추가적으로 또는 대안으로서 가질 수 있다.) 사이드-없음 플래그가 사이드 정보(402)의 일부로서 비트스트림(232) 내에 인코딩될 수도 있음을 주목해야 한다.
노이즈 형태의 사이드 표현의 에너지는 노이즈 형태의 정규화(블록 316) 이전에 측정(블록 435)되고, 에너지는 임계값과 비교되기 전에 정규화되지 않는다는 점에 주목해야 한다. 원리상으로는, 노이즈 형태를 정규화한 후에 블록(435)에 의해 노이즈 형태의 사이드 표현의 에너지를 측정할 수도 있다(예를 들어, 블록(435)에 vs 대신에 vs,n이 입력될 수도 있음).
노이즈 형태의 사이드 표현의 에너지를 비교하는 데 사용되는 임계값(α)와 관련하여, 위에서 예시한 값 0.1은 일부 실시예들에서 임의로 선택될 수 있다. 실시예들에서, 임계값(α)은 실험과 튜닝(예컨대 미세조정) 후에 선택될 수 있다. 일부 실시예들에서는, 원칙적으로 개별 구현예의 숫자 형식(부동 소수점 또는 고정 소수점) 또는 정밀도에 적합하다면 임의의 숫자가 사용될 수 있다. 그러므로 임계값(α)은 미세조정 후에 입력될 수 있는 구현 관련 파라미터일 수 있다.
출력 인터페이스(310)는:
제1 개수의 주파수 빈들에 대한 제1 복수의 계수들을 사용하여, 활성 프레임(306)에 대한 인코딩된 오디오 데이터를 갖는 인코딩된 다채널 오디오 신호(232)를 생성하고;
제2 개수의 주파수 빈들을 기술하는 제2 복수의 계수들을 사용하여, 제1 파라메트릭 노이즈 데이터, 제2 파라메트릭 노이즈 데이터, 또는 제1 파라메트릭 노이즈 데이터와 제2 파라메트릭 노이즈 데이터의 제1 선형 결합, 및 제1 파라메트릭 노이즈 데이터와 제2 파라메트릭 노이즈 데이터의 제2 선형 결합을 생성하며;
여기서 상기 주파수 빈들의 제1 개수가 상기 주파수 빈들의 제2 개수보다 크도록 구성될 수 있음을 주목해야 한다.
사실, 비활성 프레임에 대해서는 감소된 해상도가 사용될 수 있으며, 따라서 비트스트림 인코딩에 사용되는 비트의 양이 더 감소될 수 있다. 이는 디코더에도 동일하게 적용된다.
인코더의 모든 실시예들은 적합한 컨트롤러에 의해 제어될 수 있다.
디코더
이제, 실시예들에 따른 디코더를 설명한다. 디코더는, 예를 들어 위에서 설명한, 예컨대 도 3a~3f의 컴포트 노이즈 생성기(220: 220a~220e)를 포함할 수 있다. 컴포트 노이즈(204)(다채널 오디오 신호)는 출력 신호(252)를 얻기 위해 신호 수정기(250)에서 정형화될 수 있다. 여기서는 활성 프레임들(206)에 대한 동작은 제외하고 비활성 프레임(308)에서 노이즈를 생성하는 동작을 중심으로 설명한다.
도 4는 여기서 200'(200b)로 표시된 디코더(200')의 제1 실시예를 보여준다. 디코더(200')는 도 3a 내지 도 3f 중 임의의 것에 따른 생성기(220: 220a~220e)를 포함할 수 있는 컴포트 노이즈 생성기(220)를 포함한다. 생성기(220: 220a~220e)의 하류에는, 신호 수정기(250)(미도시, 도 4에는 도시됨)가 존재할 수 있으며, 이 신호 수정기(250)는 컴포트 노이즈 파라미터 데이터(401, 403) 내에 인코딩되어 있는 에너지 파라미터들에 따라서 생성된 다채널 노이즈(204)를 정형하게 된다. 디코더 입력 인터페이스(210)를 통해서, 디코더(200')는 비트스트림(232)으로부터 컴포트 노이즈 파라미터 데이터(401, 403)를 획득할 수 있으며, 상기 컴포트 노이즈 파라미터 데이터(401, 403)는 (예컨대, 제1 채널 및 제2 채널에 대한, 또는 제1 및 제2 채널들의 제1 및 제2 선형 결합에 대한: 여기서 제1 및 제2 선형 결합은 서로 선형 독립임) 신호의 에너지를 기술하는 컴포트 노이즈 파라미터 데이터를 포함할 수 있다. 디코더 입력 인터페이스(210)를 통해서, 디코더(200')는 서로 다른 채널들간의 코히런스를 표시하는 코히런스 데이터(404)를 획득할 수 있다.
도 4에는 비트스트림(232)에서 비활성 프레임의 인코딩을 위해 각각 2개의 상이한 무음 삽입 디스크립터 프레임들(241, 243)이 제공되는 것으로 도시되어 있지만, 2개보다 많은 디스크립터 프레임들을 사용하거나 단 하나의 단일 디스크립터 프레임을 사용할 가능성도 있다. 디코더(200b)의 출력은 다채널 출력이다.
도 2를 참조하여, 예를 들어 출력 신호(252)를 예컨대 노이즈 형태로 생성하기 위해 사용될 수 있는 디코더(200)의 예인 디코더(200')(여기서는 200a로 표시됨)를 설명한다.
먼저 디코더(200a(200'))는 인코딩된 오디오 데이터(232)(비트스트림)를 예를 들어 인코더(300a 또는 300b)에 의해 인코딩된 프레임(306, 308) 시퀀스형식으로 받아들이는 입력 인터페이스(210)를 포함할 수 있다. 디코더(200a(200'))는 예를 들어 도 3a 내지 도 3f 중 임의의 컴포트 노이즈 생성기(220: 220a~220e)이거나 이를 포함할 수 있는 다채널 신호 발생기(200)이거나 보다 일반적으로는 그 일부일 수 있다.
먼저, 도 2는 스테레오 컴포트 노이즈 생성기(CNG)(220: 220a~220e)를 보여준다. 특히, 컴포트 노이즈 생성기(220: 220a~220e)는 도 3a 내지 도 3f에 도시된 것과 같거나 그 변형예 중 하나일 수 있다. 여기서, 인코더(300a 또는 300b)로부터 획득되는 코히런스 정보(404)(예컨대, c 또는 보다 정확하게는 "coh" 또는 cind로도 표시되는 cq)가 채널들(201, 203)에서 다채널 신호(204)를 생성하기 위해 사용될 수 있는데, 이에 대해서는 위에서 설명한 바 있다. CNG(220: 220a~220e)에 의해 생성된 다채널 신호(204)는, 예를 들어, 정형할 다채널 신호의 제1(좌측) 채널과 제2(우측) 채널에 대한 노이즈 형태 정보와 같은 컴포트 노이즈 파라미터 데이터(401, 403)를 고려함으로써, 실제로 추가 수정될 수 있다. 특히, 아래에서 설명하는 바와 같이, 스테이지(316 및/또는 318)에서 인코더(300a)(및 특히 노이즈 파라미터 계산기(3040)에 의해 생성된 중앙 인덱스(vm,ind: 401) 및 사이드 인덱스(vs,ind: 403)와, 스테이지(326 및/또는 328)에서 획득되는 이득(gl,q, gr,q)을 획득할 가능성이 있다.
도 2에 도시된 바와 같이, 사이드 정보(402)는 현재 프레임이 활성 프레임(306)인지 비활성 프레임(308)인지에 대한 결정을 허용할 수 있다. 도 2의 요소들은 비활성 프레임(308)의 처리를 나타내며, 활성 프레임(306)에서 출력 신호의 생성에는 임의의 기술이 사용될 수 있는 것으로 의도되며, 이는 본 개시의 대상이 아니다.
도 2에 도시된 바와 같이, 컴포트 노이즈 데이터의 여러 실시예들은 비트스트림(232)으로부터 획득된다. 위에서 설명한 바와 같이, 컴포트 노이즈 데이터는 코히런스 정보(데이터)(404), 노이즈 형태를 나타내는 파라미터(401, 403: vm,ind, vs,ind) 및/또는 이득(gl,q, gr,q)을 포함할 수 있다.
스테이지(212-c)는 코히런스 정보(404)의 양자화된 버전(cind)를 역양자화하여, 역양자화된 코히런스 정보(cq)를 획득한다.
스테이지(2120)(공동 노이즈 형태 역양자화)는 비트스트림(232)으로부터 획득된 다른 컴포트 노이즈 데이터를 역양자화하는 것을 허용할 수 있다. 도 6을 참조하면, 역양자화 스테이지(212)는 여기서 참조번호 212-M, 212-S, 212-R, 212-L로 표시되는 다른 역양자화 스테이지들에 의해 형성될 수 있다. 스테이지(212-M)는 중앙 채널 노이즈 형태 파라미터들(401, 403)을 역양자화하여, 역양자화된 노이즈 형태 파라미터들(vm,q, vs,q)을 획득할 수 있다. 스테이지(212-S)는 사이드 채널 노이즈 형태 파라미터들(vs,ind: 403)의 역양자화된 버전(vs,q)을 제공할 수 있다. 일부 실시예들에서는, 사이드-없음 플래그를 사용하여, 인코더(300a)에서 블록(435)에 의해 노이즈 형태 벡터(vs)의 에너지가 소정의 임계값(α)보다 작은 것으로 인식되는 경우 스테이지(212-S)의 출력을 제로화하는 것도 가능하다. 상기 에너지가 소정의 임계값(α)보다 작고 사이드-없음 플래그가 그것을 시그널링하는 경우, 노이즈 형태 벡터(vs)의 역양자화된 버전(vs,q)은 0으로 될 수 있다(블록(536)이 실제로는 비트스트림(232)의 사이드 정보에 인코딩되어 있는 사이드-없음 플래그를 읽고 상기 임계값(α)과의 어떠한 비교도 수행하지 않지만, 인코더의 블록(436)과 동일한 기능을 갖는 블록(536)으로부터 획득된 플래그(536')를 곱하는 것으로 개념적으로 도시되어 있음). 그러므로, 인코더에서 사이드 채널의 에너지가 소정의 임계값(α)보다 작은 것으로 결정되면 노이즈 형태 벡터(vs)의 역양자화된 버전(vs,q)은 인위적으로 제로화되고 스케일러 블록(537)의 출력단(537')에서의 값은 0이 된다. 그렇지 않고, 에너지가 소정의 임계값보다 크면, 출력(537')은 사이드 채널의 노이즈 형태의 사이드 인덱스(vs,ind: 403)의 양자화된 버전(vs,q)과 같다. 즉, 사이드 채널의 에너지가 소정의 에너지 임계값(α) 이하인 경우, 노이즈 형태 벡터(vs,ind)의 값들은 무시된다.
M/S-L/R 변환 스테이지(516)에서는, M/S-L/R 변환이 수행되어, 파라미터 데이터(노이즈 형태)의 L/R 버전(v'l, v'r)을 획득한다. 이어서, 스테이지들(518-L, 518-L)로 형성된 이득 스테이지(518)가 사용되어, 스테이지(518-L)에서는 채널(v'l)이 이득(g1,d)만큼 스케일링되고, 스테이지(518-R)에서는 채널(v'r)이 이득(gr,d)만큼 스케일링될 수 있다. 그러므로, 에너지 채널들(vl,q, vr,q)이 이득 스테이지(518)의 출력으로서 획득될 수 있다. 값들의 전달이 로그 도메인에서 이루어지는 것으로 가정하기 때문에, 스테이지 블록들(518-L, 518-R)에는 "+"로 표시되어 있으며, 따라서 값들의 스케일링이 덧셈으로 표시된다. 그렇지만, 이득 스테이지(518)는 재구성된 노이즈 형태 벡터들(vl,q, vr,q)이 스케일링되었음을 나타낸다. 재구성된 노이즈 형태 벡터들(vl,q, vr,q)은 여기서 참조부호 2312로 복합적으로 표시되며, 인코더에서 "노이즈 형태 획득" 블록(312)에 의해 원래 획득된 노이즈 형태(1312)의 재구성된 버전이다. 일반적으로 각 이득은 동일한 비활성 프레임의 동일한 채널의 모든 인덱스들(계수들)에 대해 일정한다.
인덱스들(vm,ind, vs,ind)과 이득들(gl,q, gr,q)은 노이즈 형태의 계수들이며 프레임의 에너지에 대한 정보를 제공한다. 이들은 기본적으로 신호(252)를 생성하는 데 사용될 입력 신호(304)와 연관된 파라미터 데이터를 참조하지만, 신호(304) 또는 생성될 신호(252)를 나타내지는 않는다. 달리 말하자면, 노이즈 채널들(vl,q, vr,q)은 CNG(220)에 의해 생성되는 다채널 신호(204)에 적용될 포락선을 기술한다.
다시 도 2를 참조하면, 재구성된 노이즈 형태 벡터들(vl,q, vr,q)(2312)은 신호 수정기(250)에서 사용되어, 노이즈(204)를 정형함으로써 수정된 신호(252)를 획득한다. 특히, 생성된 노이즈(204)의 제1 채널(201)은 스테이지(250-L)에서 채널(vl,q)에 의해 정형되고 생성된 노이즈(204)의 제2 채널(203)은 스테이지(250-R)에서 채널(vr,q)에 의해 정형되어, 다채널 오디오 신호(252: Lout, Rout)를 획득하게 된다.
실시예들에서, 컴포트 노이즈 신호(204) 자체는 로그 도메인에서 생성되는 것이 아니며, 노이즈 형태들이 로그 표현을 사용할 수 있을 뿐이다. 로그 도메인에서 선형 도메인으로의 변환이 수행될 수 있다(도시되지 않음).
또한, 주파수 도메인에서 시간 도메인으로의 변환이 수행될 수 있다(도시되지 않음).
또한, 디코더(200': 200a, 200b)는 스펙트럼이 조정되고 코히런스가 조정된 결과적인 제1 채널(201) 및 결과적인 제2 채널(203)을 그에 상응한 시간 도메인 표현으로 변환하는 스펙트럼-시간 변환기(예컨대, 신호 수정기(250))를 포함할 수 있으며, 상기 시간 도메인 표현은 활성 프레임에 대한 디코딩된 다채널 신호의 상응한 채널의 시간 도메인 표현과 결합되거나 연결된다. 생성된 컴포트 노이즈의 시간 영역 신호로의 이러한 변환은 도 2의 신호 수정기 블록(250) 이후에 발생한다. 위에서 "결합 또는 연결"이라는 부분은 기본적으로, 이러한 CNG 기술들 중 하나를 채용하는 비활성 프레임의 이전 또는 이후에 활성 프레임들(도 1의 다른 처리 경로)이 있을 수 있으며 간격이나 가청 클릭 등이 없이 연속 출력을 발생하려면 프레임들이 정확하게 연결될 필요가 있음을, 의미한다.
일부 실시예들에서:
활성 프레임(306)에 대한 인코딩된 오디오 신호(232)는 제1 개수의 주파수 빈들을 기술하는 제1 복수의 계수들을 가지고;
비활성 프레임(308)에 대한 인코딩된 오디오 신호(232)는 제2 개수의 주파수 빈들을 기술하는 제2 복수의 계수들을 갖는다.
주파수 빈들의 제1 개수는 주파수 빈들의 제2 개수보다 클 수 있다.
디코더의 모든 실시예들은 적합한 제어기에 의해 제어될 수 있다.
처리 단계들: 첫 번째 버전
2개의 채널에 대한 2개의 SID 프레임 내에 코딩된 노이즈 파라미터들은 LP-CNG 또는 FD-CNG 또는 이들 모두와 같은 향상된 음성 서비스(EVS, 비특허문헌 6 참조)에서와 같이 계산된다. 디코더에서의 노이즈 에너지의 정형도 LP-CNG 또는 FD-CNG 또는 이들 모두와 같은 EVS에서와 같다.
인코더에서는, 2개 채널의 코히런스가 추가로 계산되고, 4비트를 사용하여 균등하게 양자화되며, 비트스트림(232)으로 송신된다. 디코더에서는, CNG 동작이 전송된 코히런스 값(404)에 의해 조절될 수 있다. 3개의 가우시안 노이즈 소스 N1, N2, N3(211a, 212a, 213a; 211b, 212b, 213b; 211c, 212c, 213c; 211d, 212d, 213d; 211e, 212e, 213e)가 도 3a 내지 도 3f에 도시된 바와 같이 사용될 수 있다. 채널 코히런스가 높을 때에는 주로 상관된 노이즈가 채널들(221', 223') 모두에 더해질 수 있는 반면, 코히런스(404)가 낮으면 더 많은 비상관 노이즈가 더해질 수 있다.
모든 비활성 프레임(306)에 대하여, 컴포트 노이즈 생성을 위한 파라미터들(노이즈 파라미터들)이 인코더(예컨대, 300, 300a, 300b)에서 지속적으로 추정될 수 있다. 이것은 예컨대 주파수-도메인 노이즈 추정 알고리즘(예컨대, 비특허문헌 8 참조)을 예를 들어 비특허문헌 6에 기재된 바와 같이 두 입력 채널들(예컨대, 301, 303)에 대해 별도로 적용함으로써 이루어질 수 있으며, 파라메트릭 노이즈 데이터로도 설명되는 두 세트의 노이즈 파라미터들(예컨대, 401, 403)를 계산하게 된다. 추가적으로, 2개의 채널의 코히런스(c, 404)가 다음과 같이(예를 들어, 코히런스 계산기(320)에서) 계산될 수 있다: 두 입력 채널들
Figure pct00001
(L, R은 301, 303일 수 있음)의 M-포인트 DFT-스펙트럼이 주어졌을 때, 4개의 중간 값들이 수학식 1에 의해 계산될 수 있다.
Figure pct00002
두 채널들의 에너지들은 수학식 2에 의해 표현될 수 있다.
Figure pct00003
여기서, M=256일 수 있고,
Figure pct00004
는 복소수의 실수부를 나타내고,
Figure pct00005
는 복소수의 허수부를 나타내며,
Figure pct00006
는 켤레 복소수를 나타낸다. 그 다음, 이들 중간 값을, 예를 들어 이전 프레임의 대응 값들을 사용하여 평활화할 수 있다.
Figure pct00007
이 내용은 인코더에서 "채널 코히런스 계산" 블록(320')의 기능의 일부일 수 있다. 이것은 프레임들 간에 파라미터의 크고 급격한 변화를 피하기 위하여 내부 파라미터들을 시간적으로 평활화하는 것이다. 다른 용어를 사용하자면, 파라미터들에 저역통과필터가 적용된다.
상수 0.95 및 0.05 대신에, 0.95
Figure pct00008
0.03 및 0.05
Figure pct00009
0.03 사이의 구간 내에서 다른 상수가 사용될 수 있다.
대안으로서 다음과 같이 정의할 수 있다.
Figure pct00010
여기서 β,γ∈[0,1]이고 β+γ=1이며, 예를 들어 β=0.95이고 γ=0.05이다.
코히런스(c, 404)(0과 1 사이에 있을 수 있음)는 (예를 들어 코히런스 계산기(320)에서) 다음과 같이 계산될 수 있다.
Figure pct00011
그 다음, 코히런스는 (예를 들어, 양자화기(320")에서) 예컨대 4비트를 사용하여 균등하게 양자화된다.
Figure pct00012
양 채널들에 대한 추정 노이즈 파라미터들(1312, 2312)의 인코딩은 예를 들어 예를 들어 비특허문헌 6에 기재된 바와 같이 개별적으로 이루어질 수 있다. 그 다음 2개의 SID 프레임들(241, 243)이 인코딩되어 디코더로 송신될 수 있다. 제1 SID 프레임(241)은 채널 L의 추정 노이즈 파라미터들(401)과 예를 들어 비특허문헌 6에 기재된 바와 같은 사이드 정보(402) 비트들(예컨대, 4비트)을 포함할 수 있다. 제2 SID 프레임(243)으로는, 채널 R의 노이즈 파라미터들(403)이 4비트로 양자화된 코히런스 값(c: 404)과 함께 송신될 수 있다(다른 실시예들에서는 다른 양의 비트들이 선택될 수 있음).
디코더(예컨대, 200', 200a, 200b)에서, 두 SID 프레임들의 노이즈 파라미터들(401, 403)과 제1 프레임의 사이드 정보(402)가 예를 들어 비특허문헌 6에 기재된 방식으로 디코딩될 수 있다. 제2 프레임의 코히런스 값(404)은 스테이지(212-C)에서 다음과 같이 역양자화될 수 있다.
Figure pct00013
(도 2에서,
Figure pct00014
는 cq로 대체되어 있다.)
(예를 들어, 생성기(220), 또는 도 3a 내지 도 3e에 도시된 것들 중 어느 하나를 포함할 수 있는 임의의 생성기들(220a-220e)에서) 컴포트 노이즈를 생성하기 위하여, 일 실시예에 따르면, 도 3에 도시된 바와 같이 3개의 가우시안 노이즈 소스들(211, 212, 213)이 사용될 수 있다. 노이즈 소스들(211, 212, 213)은 예를 들어 코히런스 값(c, 404)을 토대로 (예컨대, 가산기 스테이지들(206-1, 206-3)에서) 적응적으로 합산될 수 있다. 좌우 채널 노이즈 신호의 DFT-스펙트럼(Nl[k], Nr[k])은 다음과 같이 계산될 수 있다.
Figure pct00015
여기서,
Figure pct00016
(특정 주파수 빈의 인덱스이며 각 채널에는 M개의 주파수 빈이 있음)이고,
Figure pct00017
(즉, j는 허수 단위임)이며, "×는 일반적인 곱셈이다. "주파수 빈(frequency bin)"은 스펙트럼들(Nl, Nr) 각각에서의 복소수 값들의 개수를 가리킨다. M은 사용되는 FFT 또는 DFT의 변환 길이이므로, 스펙트럼의 길이는 M이다. 실수부에 삽입된 노이즈와 허수부에 삽입된 노이즈가 다를 수 있음을 주목해야 한다. 따라서 스펙트럼 길이가 M인 경우, 각 노이즈 소스에서 생성된 2×개의 값들(한 개의 실수와 한 개의 허수)이 필요하다. 즉, Nl과 Nr은 길이가 M인 복소수 벡터들이고 N1, N2, N3은 길이가 2×인 실수 벡터들이다.
그 다음, 두 채널들에서 노이즈 신호(204)가 (예를 들어, 도 2의 스테이지들(250-L, 250-R) 내에서) 각각의 SID 프레임으로부터 디코딩된 대응하는 노이즈 파라미터들(2312)을 사용하여 스펙트럼 정형되며, 이어서 주파수-도메인 컴포트 노이즈 생성을 위하여 (예를 들어 비특허문헌 6에 기재된 바와 같이) 시간 도메인으로 다시 변환된다.
처리의 모든 실시예들은 적합한 제어기에 의해 수행될 수 있다.
처리 단계들: 두 번째 버전
상술한 처리 단계들의 양태들은 아래에서 설명하는 양태들 중 적어도 하나와 통합될 수 있다. 여기서는 도 2와 도 5를 주로 참조하지만, 도 5를 참조할 수도 있다.
인코더의 일반 프레임워크에 대한 블록도가 도 1에 묘사되어 있다. 인코더에서는 각 프레임에 대하여, 비특허문헌 6에서 설명한 바와 같이 각 채널에서 개별적으로 음성 활성 감지(VAD)를 실행함으로써, 현재 신호가 활성 또는 비활성으로 분류될 수 있다. 그 다음, VAD 결정이 두 채널들 간에 동기화될 수 있다. 실시예들에서는, 두 채널들이 모두 비활성으로 분류되는 경우에만 프레임이 비활성 프레임(308)으로 분류된다. 그렇지 않으면 프레임은 활성 프레임으로 분류되고 두 채널들은 모두 특허문헌 2에 기재된 바와 같이 대역별 M/S를 사용하는 MDCT-기반 시스템에서 공동 코딩된다. 활성 프레임에서 비활성 프레임으로 전환될 때, 신호들은 도 3에 도시된 것처럼 SID 인코딩 경로에 진입할 수 있다.
컴포트 노이즈 생성을 위한 파라미터들(노이즈 파라미터들)은 활성 및 비활성 프레임들(306, 308)에 대하여 인코더(예컨대, 300, 300a, 300b)에서 지속적으로 추정될 수 있다. 이것은 예를 들어 비특허문헌 8에 기된 것과 같은 주파수-도메인 노이즈 추정 프로세스를, 예를 들어 비특허문헌 6에 기재된 바와 같이 두 입력 채널들(301, 303)에 대해 별도로 적용함으로써 이루어질 수 있으며, 스펙트럼 노이즈 형태(Mi(401) 및/또는 Is 또는 403)를, 예를 들어 각 채널에 대한 로그 도메인에서, 포함하는 두 세트의 노이즈 파라미터들을 계산하게 된다.
추가적으로, 2개의 채널의 코히런스(c, 404)가 다음과 같이(예를 들어, 코히런스 계산기(320)에서) 계산될 수 있다: 두 입력 채널들
Figure pct00018
의 M-포인트 DFT-스펙트럼이 주어졌을 때, 4개의 중간 값들이 수학식 9에 의해 계산될 수 있다.
Figure pct00019
두 채널들의 에너지들은 수학식 10에 의해 표현될 수 있다.
Figure pct00020
여기서, M=256일 수 있고(M에 대해 다른 값들이 사용될 수도 있음),
Figure pct00021
는 복소수의 실수부를 나타내고,
Figure pct00022
는 복소수의 허수부를 나타내며,
Figure pct00023
는 켤레 복소수를 나타낸다. 그 다음, 이들 중간 값들이 10ms-서브프레임 기준으로 평활화된다.
Figure pct00024
가 이전 서브프레임으로부터의 대응 값을 나타낸다고 할 때, 평활화된 값들은 다음과 같이 계산될 수 있다.
Figure pct00025
상수 0.95 및 0.05 대신에, 0.95
Figure pct00026
0.03 및 0.05
Figure pct00027
0.03 사이의 구간 내에서 다른 상수가 사용될 수 있다.
대안으로서 다음과 같이 정의할 수 있다.
Figure pct00028
여기서 β,γ∈[0,1]이고 β+γ=1이며, 예를 들어 β=0.95이고 γ=0.05이다(β > γ, 예를 들어 β > 3×γ 또는 β > 6×γ).
코히런스 c∈[0,1]은 (예를 들어 320'에서) 다음과 같이 계산될 수 있다.
Figure pct00029
그 다음, 코히런스는 (예를 들어, 양자화기(320")에서), 예컨대 4비트를 사용하여(그렇지만 다른 비트 양도 가능함), 균등하게 양자화된다.
Figure pct00030
여기서
Figure pct00031
는 가장 가까운 정수로 내림하는 것(바닥 함수)을 나타낸다.
두 채널의 추정된 노이즈 형태들의 인코딩은 공동으로 수행될 수 있다. (예컨대, 블록(314)에서) 좌측(vl) 및 우측(vr) 채널 노이즈 형태들로부터 (예컨대, 선형 결합을 통해서), 중앙 채널(vm) 노이즈 형태 및 사이드 채널(vs) 노이즈 형태와 같은, 다른 채널들을 획득할 수 있다.
Figure pct00032
여기서 N은 예를 들어 주파수 도메인에서 (예컨대, 각 비활성 프레임(308)에 대한) 노이즈 형태 벡터의 길이를 나타낸다. N은 EVS(비특허문헌 6)에서와 같이 추정되는 노이즈 형태 벡터의 길이를 나타내며 17에서 24 사이일 수 있다. 노이즈 형태 벡터는 입력 프레임에서 노이즈의 스펙트럼 포락선을 보다 간결하게 표현한 것으로 볼 수 있다. 또는, 보다 추상적으로는, N 파라미터를 사용하는 노이즈 신호의 파라미터 스펙트럼 설명이다. N은 FFT 또는 DFT의 변환 길이와 관련이 없다.
그 다음, 이들 노이즈 형태들은 정규화(예컨대, 스테이지(316)에서) 및/또는 양자화될 수 있다. 예를 들어, 노이즈 형태들은 (예컨대, 스테이지(318)에서) 예를 들어 다단계 벡터 양자화기(MSVQ: Multi-Stage Vector Quantizers)를 사용하여 벡터-양자화될 수 있다(비특허문헌 6, 442면 참조).
스테이지(318)에서 (vm,ind(401)을 획득하기 위하여) vm 형태를 양자화하기 위해 사용되는 MSVQ는, 비특허문헌 6에서 모노 채널에 대해 구현된 것과 같이, 6개의 스테이지를 가질 수 있고(그러나 다른 수의 스테이지들도 가능함) 그리고/또는 37비트를 사용할 수 있는데(그러나 다른 양의 비트가 가능함), 스테이지(318)에서 (vs,ind(403)을 획득하기 위하여) vs 형태를 양자화하기 위해 사용된 MSVQ는 4개의 스테이지(또는 어떤 경우에도 스테이지(318)에서 사용되는 스테이지의 수보다 적은 수의 스테이지)로 감소될 수 있고 그리고/또는 총 25비트(또는 어떤 경우에도 스테이지(318)에서 vm 형태를 코딩하기 위해 사용되는 비트 양보다 적은 비트 양)를 사용할 수 있다.
MSVQ의 코드북 인덱스들은 비트스트림으로(예를 들어, 데이터(232)로, 특히 컴포트 노이즈 파라미터 데이터(401, 403)로) 전송될 수 있다. 그런 다음, 인덱스들은 역양자화되어, 역양자화된 노이즈 형태(vm,q, vs,q)가 된다.
배경 잡음이 스테레오 이미지의 중앙에 있는 단일 노이즈 소스인 경우, 두 채널들(vm, vs)의 추정 노이즈 형태는 매우 비슷하거나 같을 것으로 예상된다. 그러면 결과적인 S 채널 노이즈 형태는 제로(0)들만 포함하게 된다. 그렇지만, vs 현재 구현을 양자화하는데 사용되는 벡터 양자화기(스테이지(322))는 모두 0인 벡터를 모델링할 수 없고, 역양자화 후에 역양자화된 vs 노이즈 형태(vs,q)가 더 이상 모두 0일 수는 없는 결과를 초래할 수 있다. 이는 그와 같은 중심 배경 잡음을 나타내는 것과 관련하여 인지적 문제를 야기할 수 있다. VQ(322)의 이러한 단점을 회피하기 위하여, 양자화되지 않은 vs 형태 벡터의 에너지(예컨대, 스테이지(314) 이후 및/또는 스테이지(316) 이전의 vs 노이즈 형태 벡터의 에너지)에 따라서, 사이드_없음 값(사이드-없음 플래그)이 계산(그리고 비트스트림으로 시그널링)될 수 있다. 사이드-없음 플래그는 다음과 같을 수 있다.
Figure pct00033
에너지 임계값(α)은 예를 들어 0.1 또는 구간 [0.05, 0.15] 내의 다른 값일 수 있다. 그렇지만 임계값(α_는 임의로 정해질 수 있으며, 일 구현예에서는 사용되는 숫자 형식(예컨대, 고정 소수점 또는 부동 소수점) 및/또는 어쩌면 사용된 신호 정규화에 따라 달라질 수 있다. 실시예들에서, 사용된 "무음" S 채널의 정의가 얼마나 엄격한지에 따라 양의 실수 값을 사용할 수 있다. 그러므로 구간은 (0, 1)이 될 수 있다. 사이드_없음(no_side) 값은 (예컨대 디코더에서) vl 및 vr 채널 노이즈 형태들을 재구성하기 위해 vs 노이즈 형태가 사용되어야 하는지 여부를 표시하는데 사용될 수 있다. no_side 값이 1이면, 역양자화된 vs 형태는 0으로 설정된다(예컨대, 도 5에서 논리값이 NOT(no_side)인 436' 값으로 채널 vs,q를 스케일링함으로써). no_side 값은, 예컨대 사이드 정보(402)로서, 비트스트림(232)으로 전송(시그널링)된다. 이어서, 역 M/S-변환(예컨대, 스테이지(324))이 역양자화된 노이즈 형태 벡터들(vm,q, vs,q)에 적용될 수 있어서(후자는 예를 들어 에너지가 낮은 경우에 0으로 대체되며 따라서 도 5에서 437'로 표시됨), 중간 벡터들(v'l, v'r)을 얻을 수 있다.
Figure pct00034
이들 중간 벡터들(v'l, v'r)과, 양자화되지 않은 노이즈 형태 벡터들(vl, vr)을 사용하여, 두 이득 값들을 다음과 같이 계산할 수 있다.
Figure pct00035
그 다음, 상기 두 이득 값들은 (예컨대, 스테이지(328)에서) 다음과 같이 선형 양자화될 수 있다.
Figure pct00036
다른 양자화들도 가능하다.
양자화된 이득들은 예를 들어 이득 값(gl,q)에 대해 7비트 및/또는 이득 값(gr,q)에 대해 7비트를 사용하여(각 이득 값에 대해 다른 비트 양을 사용하는 것도 가능함) SID 비트스트림으로(예를 들어, 컴포트 노이즈 파라미터 데이터(401, 403)의 일부로서. 보다 상세하게는 gl,q는 제1 파라메트릭 노이즈 데이터의 일부일 수 있고, gr,q는 제2 파라메트릭 노이즈 데이터의 일부일 수 있음) 인코딩될 수 있다.
디코더(예컨대, 200', 200a, 200b)에서, 양자화된 노이즈 형태 벡터(예를 들어, 컴포트 노이즈 파라미터 데이터(401, 403)의 일부. 보다 상세하게는 제1 파라메트릭 노이즈 데이터 및 제2 파라메트릭 노이즈 데이터의 일부)는 예컨대 스테이지(212)에서(특히, 하위 스테이지들(212-M, 212-S) 중 어느 하나에서) 역양자화될 수 있다.
이득 값들은 스테이지(212)에서(특히, 하위 스테이지들(212-L, 212-R) 중 어느 하나에서) 다음과 같이 역양자화될 수 있다.
Figure pct00037
45라는 값은 양자화에 따라 달라지며, 양자화마다 다를 수 있다. 도 2에서는 gl,deq 및 gr,deq 대신에 gl,d 및 gr,d를 사용하였다.
코히런스 값(404)은 (예를 들어, 스테이지(212-C)에서) 다음과 같이 역양자화될 수 있다.
Figure pct00038
(사이드 정보(402)에서) 사이드-없음 플래그가 1이면, 역양자화된 vs 노이즈 형태(vs,q)는 (예컨대, 스테이지(516)에서) 중간 벡터들(v'l, v'r)을 계산하기 전에 0(값 537')으로 설정된다. 그 다음, 해당 이득 값은 해당 중간 벡터의 모든 요소들에 가산되어, 참조부호 522로 복합적으로 표시된, 역양자화된 노이즈 형태들(vl,q, vr,q)을 생성한다.
Figure pct00039
(덧셈을 하는 이유는, 현재 로그 도메인에 있고, 덧셈이 선형 도메인에서의 인수와의 곱셈에 해당하기 때문이다.)
컴포트 노이즈 생성을 위해, 3개의 가우시안 노이즈 소스 N1, N2, N3(예를 들어, 도 3a의 211a, 212a, 213a, 도 3b의 211b, 212b, 212c 등)가 도 3a 내지 도 3f 중 임의의 것에 도시된 바와 같이 사용될 수 있다(또는 다른 임의의 기술이 사용될 수도 있음). 채널 코히런스가 높으면, 주로 상관된 노이즈가 두 채널에 가산되고, 코히런스가 낮으면 더 많은 비상관 노이즈가 더해질 수 있다.
3개의 노이즈 소스를 사용하여, 좌우 채널 노이즈 신호들(Nl(201), Nr(203))의 DFT-스펙트럼은 다음과 같이 계산될 수 있다.
Figure pct00040
여기서,
Figure pct00041
이고,
Figure pct00042
이다. M은 DFT의 블록 길이를 나타낸다. 복소 스펙트럼의 실수 부분과 허수 부분 모두에서 독립적인 노이즈를 생성하기 위해서는, 프레임당 2×개의 값들(하나의 주파수 빈에 대해 2개)이 각 노이즈 소스에 의해 생성되어야 한다. 그러므로, (각각 201, 203에 있는) Nl과 Nr은 길이가 M인 복소수 벡터들인 반면, N1, N2, N3(도 3f의 211, 212, 213 각각에서)은 2×의 길이를 갖는 실수 노이즈 벡터로 볼 수 있다.
그후에, 두 채널들의 노이즈 신호들은 비트스트림(232)으로부터 디코딩된 대응하는 노이즈 형태(vl,q 또는 vr,q)를 사용하여 (예컨대, 신호 수정기(252)에서) 스펙트럼 정형되고, 이어서 예를 들어 비특허문헌 6에 기재된 바와 같이, 로그 도메인에서 스칼라 도메인으로, 그리고 주파수 도메인에서 시간 도메인으로 재변환되어 스테레오 컴포트 노이즈 신호를 생성한다.
처리의 모든 실시예들은 적합한 제어기에 의해 수행될 수 있다.
발명의 일부 효과
본 발명은 이산 스테레오 코딩 방식에 특히 적합한 스테레오 컴포트 노이즈 생성 기술을 제공할 수 있다. 두 채널에 대한 노이즈 형태 파라미터들을 함께 코딩하고 전송함으로써, 모노 다운믹스를 필요로 하지 않고서 스테레오 CNG를 적용할 수 있다.
두 개의 개별 노이즈 파라미터 세트들과 함께, 하나의 공통 노이즈 소스와 단일 코히런스 값으로 제어되는 두 개의 개별 노이즈 소스를 믹싱하면 파라메트릭 오디오 코더들에서만 일반적으로 존재하는 세분화된 스테레오 파라미터를 전송할 필요 없이 배경 노이즈의 스테레오 이미지를 충실하게 재구성할 수 있다. 이 한가지 파라미터만 사용되므로, SID 프레임 크기를 낮게 유지하면서 복잡한 압축 방법 없이도 SID 인코딩이 간단해진다.
일부 중요한 양태
일부 실시예들에서는, 다음 양태들 중 적어도 하나가 획득된다:
1. 세 개의 가우시안 노이즈 소스들, 즉 각 채널당 하나씩의 소스와 세 번째 공통 노이즈 소스를 믹싱하여, 상관된 배경 노이즈를 생성함으로써, 스테레오 신호에 대한 컴포트 노이즈를 생성한다.
2. SID 프레임과 함께 전송되는 코히런스 값으로 노이즈 소스의 믹싱을 제어한다.
3. M/S 방식으로 노이즈 형태들을 함께 코딩하여, 두 스테레오 채널에 대한 개별 노이즈 형태 파라미터들을 전송한다. M보다 적은 수의 비트들로 S 형태를 코딩하여 SID 프레임 비트율을 낮춘다.
다른 기법
제1 채널 및 제2 채널을 갖는 다채널 신호를 생성하는 방법을 구현하는 것도 가능하며, 이 방법은 다음 단계들을 포함한다:
제1 오디오 소스를 사용하여 제1 오디오 신호를 생성하는 단계;
제2 오디오 소스를 사용하여 제2 오디오 신호를 생성하는 단계;
믹싱 노이즈 소스를 사용하여 믹싱 노이즈 신호를 생성하는 단계; 및
상기 믹싱 노이즈 신호와 상기 제1 오디오 신호를 믹싱하여 상기 제1 채널을 획득하고, 상기 믹싱 노이즈 신호와 상기 제2 오디오 신호를 믹싱하여 상기 제2 채널을 획득하는 단계.
활성 프레임 및 비활성 프레임을 포함하는 프레임 시퀀스에 대하여, 인코딩된 다채널 오디오 신호를 생성하기 위한 오디오 인코딩 방법을 구현하는 것도 가능하며, 이 방법은 다음 단계들을 포함한다:
다채널 신호를 분석하여 프레임 시퀀스의 한 프레임을 비활성 프레임인 것으로 결정하는 단계;
상기 다채널 신호의 제1 채널에 대한 제1 파라메트릭 노이즈 데이터를 계산하고, 상기 다채널 신호의 제2 채널에 대한 제2 파라메트릭 노이즈 데이터를 계산하는 단계;
상기 비활성 프레임에서 상기 제1 채널과 상기 제2 채널간의 코히런스 상황을 표시하는 코히런스 데이터를 계산하는 단계; 및
상기 활성 프레임에 대한 인코딩된 오디오 데이터와, 상기 비활성 프레임에 대한 상기 제1 파라메트릭 노이즈 데이터, 상기 제2 파라메트릭 노이즈 데이터, 및 상기 코히런스 데이터를 갖는 상기 인코딩된 다채널 오디오 신호를 생성하는 단계.
또한, 본 발명은 컴퓨터(또는 프로세서 또는 컨트롤러)에 의해 실행되었을 때 상기 컴퓨터(또는 프로세서 또는 컨트롤러)로 하여금 상기 방법을 수행하게 하는 명령들을 저장하는 비일시적 저장 장치로 구현될 수 있다.
또한, 본 발명은 활성 프레임 및 비활성 프레임을 포함하는 프레임 시퀀스로 구성된, 인코딩된 다채널 오디오 신호로 구현될 수 있으며, 상기 인코딩된 다채널 오디오 신호는 다음을 포함한다:
상기 활성 프레임에 대한 인코딩된 오디오 데이터;
상기 비활성 프레임의 제1 채널에 대한 제1 파라메트릭 노이즈 데이터;
상기 비활성 프레임의 제2 채널에 대한 제2 파라메트릭 노이즈 데이터; 및
상기 비활성 프레임에서 상기 제1 채널과 상기 제2 채널 사이의 코히런스 상황을 표시하는 코히런스 데이터. 상기 다채널 오디오 신호는 이상 및/또는 이하에서 개시되는 기술들 중 하나로 획득될 수 있다.
실시예들의 효과
최종 컴포트 노이즈를 생성하기 위하여 상관 노이즈를 모방하기 위해 두 채널들에 공통 노이즈 소스를 삽입하는 것은 스테레오 배경 노이즈의 녹음을 모방하는데 중요한 역할을 한다.
본 발명의 실시예들은 각 채널에 대해 하나씩 그리고 세 번째 공통 노이즈 소스가 주어지는 3개의 가우시안 노이즈 소스를 믹싱하여 상관된 배경 노이즈를 생성하거나, 추가적으로 또는 이와 별도로, SID 프레임으로 전송되는 코히런스 값에 의해 노이즈 소스들의 믹싱을 제어하거나, 추가적으로 또는 이와 별도로, 다음과 같이 수행하는, 스테레오 신호에 대한 컴포트 노이즈를 생성하는 절차로 간주될 수 있다. 스테레오 시스템에서는 배경 노이즈를 별도로 생성하면, 듣기에 불편하고 실제 배경 노이즈와 매우 다른 완전히 상관없는 노이즈가 발생하며, 활성 모드 배경에서 DTX 모드 배경으로 전환할 때 갑작스러운 가청 전환을 유발하게 된다. 일 실시예에 있어서는, 인코더 측에서 노이즈 파라미터들에 더하여, 2개의 채널들의 코히런스가 계산되고 균등하게 양자화되어, SID 프레임에 부가된다. 디코더에서 CNG 동작은 전송된 코히런스 값에 의해 제어된다. 3개의 가우시안 노이즈 소스들(N1, N2, N3)이 사용된다. 채널 코히런스가 높으면 주로 상관된 노이즈가 두 채널에 더해지고, 코히런스가 낮으면 더 많은 비상관 노이즈가 더해질 수 있다.
이상에서 설명한 모든 대안들 또는 양태들과, 청구의 범위에 기재된 독립항들에 의해 정의되는 모든 양태들은 개별적으로, 즉 고려되는 대안, 대상 또는 독립항 이외의 다른 대안 또는 대상 없이도 사용될 수 있다. 그렇지만, 다른 실시예들에서는, 2개 이상의 대안들 또는 양태들 또는 독립항들이 서로 결합될 수 있고, 다른 실시예에서는 모든 양태들 또는 대안들과 모든 독립항들이 서로 결합될 수 있다.
본 발명에 따라 인코딩된 신호는 디지털 저장 매체 또는 비일시적 저장 매체에 저장되거나, 무선 전송 매체 또는 인터넷과 같은 유선 전송 매체와 같은 전송 매체 상에서 전송될 수 있다.
비록 일부 양태가 장치의 맥락에서 설명되었지만, 그와 같은 양태들은 상응하는 방법에 대한 설명을 나타낼 수도 있으며, 이때 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 마찬가지로, 방법 단계의 맥락에서 설명한 양태들은 상응하는 장치의 대응 블록 또는 항목 또는 특징의 설명을 나타낼 수도 있다.
어떤 구현 요건들에 따라서, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 전자적으로 판독가능한 제어신호들이 저장되어 있고 각각의 방법이 수행될 수 있도록 프로그래밍 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 디지털 저장 매체, 예컨대 플로피 디스크, 디지털 비디오 디스크(DVD), 컴팩트 디스크(CD), 롬(ROM), 프로그래머블 롬(PROM), 삭제기록 가능형 롬(EPROM), 전기적 삭제기록 가능형 롬(EEPROM) 또는 플래시 메모리를 사용하여 이루어질 수 있다.
본 발명에 따른 일부 실시예들은 전자적으로 판독가능한 제어신호를 갖는 데이터 캐리어를 포함하고, 이 데이터 캐리어는 본 명세서에서 설명한 방법들 중 하나가 수행될 수 있도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 상기 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때 방법들 중 하나를 수행하기 위하여 동작할 수 있다. 상기 프로그램 코드는 예컨대 기계 판독 가능한 캐리어에 저장될 수 있다.
다른 실시예들은 기계 판독 가능 캐리어에 저장되어 있고 본 명세서에서 설명한 방법들 중 하나를 수행하는 컴퓨터 프로그램을 포함한다.
다시 말해서, 본 발명에 의한 방법의 실시예는 컴퓨터 프로그램이 컴퓨터에서 실행될 때 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
그러므로, 본 발명에 의한 방법들의 추가적인 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 기록되어 있는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터로 판독가능한 매체)이다.
그러므로, 본 발명에 의한 방법의 추가적인 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 내지 신호 시퀀스이다. 데이터 스트림 내지 신호 시퀀스는 예컨대 인터넷을 통한 데이터 통신 연결을 통해 전송되도록 구성될 수 있다.
추가적인 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성되거나 적합화된 처리 수단, 예컨대 컴퓨터 또는 프로그래밍 가능한 논리 장치를 포함한다.
추가적인 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시예들에서는, 프로그래밍 가능한 논리 장치(예컨대, 필드 프로그래머블 게이트 어레이)를 사용하여 본 명세서에서 설명한 방법들의 기능 중 일부 또는 전부를 수행할 수 있다. 일부 실시예들에서, 필드 프로그래머블 게이트 어레이는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하기로는 어떤 하드웨어 장치에 의해 수행된다.
위에서 설명한 실시예들은 본 발명의 원리를 단지 예시하기 위한 것일 뿐이다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람은 본 명세서에 설명한 배치들과 세부사항들을 수정하거나 변형할 수 있음이 자명함을 이해할 것이다. 그러므로, 본 발명의 범위는 후술하는 청구항들에 의해서 정해져야 하고, 본 명세서의 실시예들에 대한 기술과 설명을 통해 제공된 특정 세부사항에 한정되어서는 안된다.

Claims (45)

  1. 제1 채널(201) 및 제2 채널(203)을 갖는 다채널 신호(204)를 생성하기 위한 다채널 신호 발생기(200)로서,
    제1 오디오 신호(221)를 발생하는 제1 오디오 소스(211);
    제2 오디오 신호(223)를 발생하는 제2 오디오 소스(213);
    믹싱 노이즈 신호(222)를 발생하는 믹싱 노이즈 소스(212); 및
    상기 믹싱 노이즈 신호(222)와 상기 제1 오디오 신호(221)를 믹싱하여 상기 제1 채널(201)을 획득하고 상기 믹싱 노이즈 신호(222)와 상기 제2 오디오 신호(222)를 믹싱하여 상기 제2 채널(203)을 획득하는 믹서(206);를 구비하는.
    다채널 신호 발생기.
  2. 청구항 1에 있어서, 상기 제1 오디오 소스(211)는 제1 노이즈 소스이고 상기 제1 오디오 신호(221)는 제1 노이즈 신호이고/이거나, 상기 제2 오디오 소스(213)는 제2 노이즈 소스이고 상기 제2 오디오 신호(223)는 제2 노이즈 신호이며,
    제1 노이스 소스(211) 및/또는 상기 제2 노이즈 소스(213)는, 상기 제1 노이즈 신호(221) 및/또는 상기 제2 노이즈 신호(223)가 상기 믹싱 노이즈 신호(222)로부터 역상관될 수 있도록, 상기 제1 노이즈 신호(221) 및/또는 상기 제2 노이즈 신호(223)를 발생하게 구성되는,
    다채널 신호 발생기.
  3. 청구항 1 또는 청구항 2에 있어서, 상기 믹서(206)는
    상기 제1 채널(201)에서의 상기 믹싱 노이즈 신호(222)의 양이 상기 제2 채널(203)에서의 상기 믹싱 노이즈 신호(222)의 양과 같거나 상기 제2 채널(203)에서의 상기 믹싱 노이즈 신호(222)의 양의 80% 내지 120% 범위 내에 있도록, 상기 제1 채널(201)과 상기 제2 채널(203)을 생성하게 구성되는,
    다채널 신호 발생기.
  4. 청구항 1 내지 청구항 3 중 어느 한 항에 있어서,
    상기 믹서(206)는 제어 파라미터(404,c)를 수신하는 제어 입력을 포함하고,
    상기 믹서(206)는 상기 제1 채널(201) 및 상기 제2 채널(203)에서의 상기 믹싱 노이즈 신호(222)의 양을 상기 제어 파라미터(404,c)에 응답하여 조절하도록 구성되는,
    다채널 신호 발생기.
  5. 청구항 1 내지 청구항 4 중 어느 한 항에 있어서,
    상기 제1 오디오 소스(211), 상기 제2 오디오 소스(213), 및 상기 믹싱 노이즈 소스(212)의 각각이 가우시안 노이즈 소스인,
    다채널 신호 발생기.
  6. 청구항 1 내지 청구항 5 중 어느 한 항에 있어서,
    상기 제1 오디오 소스(211)는 상기 제1 오디오 신호(221)를 제1 노이즈 신호로서 발생하는 제1 노이즈 발생기를 포함하고, 상기 제2 오디오 소스(213)는 상기 제1 노이즈 신호(221)를 역상관시켜서 상기 제2 오디오 신호(213)를 제2 노이즈 신호로서 발생하는 역상관기를 포함하고, 상기 믹싱 노이즈 소스(212)는 제2 노이즈 발생기를 포함하거나,
    상기 제1 오디오 소스(211)는 상기 제1 오디오 신호(221)를 제1 노이즈 신호로서 발생하는 제1 노이즈 발생기(211)를 포함하고, 상기 제2 오디오 소스(213)는 상기 제2 오디오 신호(223)를 제2 노이즈 신호로서 발생하는 제2 노이즈 발생기(213)를 포함하고, 상기 믹싱 노이즈 소스(212)는 상기 제1 노이즈 신호(221) 또는 상기 제2 노이즈 신호(223)를 역상관시켜서 상기 믹싱 노이즈 신호(222)를 발생하는 역상관기를 포함하거나,
    상기 제1 오디오 소스(211), 상기 제2 오디오 소스(213), 및 상기 믹싱 노이즈 소스(212) 중 하나는 노이즈 신호를 발생하는 노이즈 발생기를 포함하고, 상기 제1 오디오 소스(211), 상기 제2 오디오 소스(213), 및 상기 믹싱 노이즈 소스(212) 중 다른 하나는 상기 노이즈 신호를 역상관시키는 제1 역상관기를 포함하고, 상기 제1 오디오 소스(211), 상기 제2 오디오 소스(213), 및 상기 믹싱 노이즈 소스(212) 중 또 다른 하나는 상기 노이즈 신호를 역상관시키는 제2 역상관기를 포함하며, 상기 제1 역상관기와 상기 제2 역상관기는 상기 제1 역상관기와 상기 제2 역상관기의 출력 신호들이 서로 역상관되도록 서로 상이하거나,
    상기 제1 오디오 소스(211)는 제1 노이즈 발생기를 포함하고, 상기 제2 오디오 소스(213)는 제2 노이즈 발생기를 포함하고, 상기 믹싱 노이즈 소스(212)는 제3 노이즈 발생기를 포함하며, 상기 제1 노이즈 발생기, 상기 제2 노이즈 발생기, 및 상기 제3 노이즈 발생기는 상호 역상관된 노이즈 신호들을 발생하도록 구성되는,
    다채널 신호 발생기.
  7. 청구항 1 내지 청구항 6 중 어느 한 항에 있어서,
    상기 제1 오디오 소스(211), 상기 제2 오디오 소스(213), 및 상기 믹싱 노이즈 소스(212) 중 하나는 시드에 응답하여 의사 난수 시퀀스를 발생하도록 구성된 의사 난수 시퀀스 발생기를 포함하고,
    상기 제1 오디오 소스(211), 상기 제2 오디오 소스(213), 및 상기 믹싱 노이즈 소스(212) 중 적어도 2개는 상이한 시드를 사용하여 상기 의사 난수 시퀀스 발생기를 초기화하도록 구성되는,
    다채널 신호 발생기.
  8. 청구항 1 내지 청구항 6 중 어느 한 항에 있어서,
    상기 제1 오디오 소스(211), 상기 제2 오디오 소스(213), 및 상기 믹싱 노이즈 소스(212) 중 적어도 하나는 미리 저장된 노이즈 테이블을 사용하여 동작하도록 구성되거나,
    상기 제1 오디오 소스(211), 상기 제2 오디오 소스(213), 및 상기 믹싱 노이즈 소스(212) 중 적어도 하나는 실수부에 대한 제1 노이즈 값과 허수부에 대한 제2 노이즈 값을 사용하여 프레임에 대한 복소 스펙트럼을 생성하도록 구성되며,
    선택적으로, 적어도 하나의 노이즈 발생기는 상기 실수부 및 상기 허수부 중 하나에 대하여 인덱스 k에서의 제1 난수 값을 사용하고 상기 실수부 및 상기 허수부 중 다른 하나에 대하여 인덱스 (k+M)에서의 제2 난수 값을 사용하여 주파수 빈 k에 대한 복소 노이즈 스펙트럼 값을 생성하도록 구성되며, 상기 제1 노이즈 값과 상기 제2 노이즈 값은 예를 들어 난수 시퀀스 발생기 또는 노이즈 테이블 또는 노이즈 프로세스로부터 도출되는 노이즈 어레이에 포함되고, 시작 인덱스에서 종료 인덱스까지의 범위 내에 있으며, 상기 시작 인덱스는 M보다 낮고 상기 종료 인덱스는 2M 이하이며, 여기서 M 및 k는 정수인,
    다채널 신호 발생기.
  9. 청구항 1 내지 청구항 8 중 어느 한 항에 있어서, 상기 믹서(206)가
    상기 제1 오디오 신호(221)의 진폭에 영향을 미치는 제1 진폭 요소(208-1);
    상기 제1 진폭 요소의 출력 신호(221)와 상기 믹싱 노이즈 신호(222)의 적어도 일부를 가산하는 제1 가산기(206-1);
    상기 제2 오디오 신호(223)의 진폭에 영향을 미치는 제2 진폭 요소(208-3); 및
    상기 제2 진폭 요소(208-3)의 출력(223)과 상기 믹싱 노이즈 신호(222)의 적어도 일부를 가산하는 제2 가산기(206-3);를 포함하며,
    상기 제1 진폭 요소(208-1)에 의해 수행되는 영향의 양과 상기 제2 진폭 요소(208-3)에 의해 수행되는 영향의 양이 서로 같거나, 상기 제2 진폭 요소(208-3)에 의해 수행되는 영향의 양이 상기 제1 진폭 요소(208-1)에 의해 수행되는 영향의 양의 20% 미만만큼 상이한,
    다채널 신호 발생기.
  10. 청구항 9에 있어서, 상기 믹서(206)가
    상기 혼합 노이즈 신호(222)의 진폭에 영향을 미치는 제3 진폭 요소(208-2);를 포함하고,
    상기 제1 진폭 요소(208-1)에 의해 수행되는 영향의 양 또는 상기 제2 진폭 요소(208-3)에 의해 수행되는 영향의 양이 작아질 때 상기 제3 진폭 요소(208-2)에 의해 수행되는 영향의 양은 커지도록, 상기 제3 진폭 요소(208-2)에 의해 수행되는 영향의 양이 상기 제1 진폭 요소(208-1) 또는 상기 제2 진폭 요소(208-3)에 의해 수행되는 영향의 양에 의존하는,
    다채널 신호 발생기.
  11. 청구항 10에 있어서,
    상기 제3 진폭 요소(208-2)에 의해 수행되는 영향의 양이 소정의 값(cq)의 제곱근이고, 상기 제1 진폭 요소(208-1)에 의해 수행되는 영향의 양과 상기 제2 진폭 요소(208-3)에 의해 수행되는 영향의 양은 1과 상기 소정의 값(cq)의 차이의 제곱근인,
    다채널 신호 발생기.
  12. 청구항 1 내지 청구항 11 중 어느 한 항에 있어서,
    활성 프레임(306)과, 상기 활성 프레임(306)에 후속하는 비활성 프레임(308)을 포함하는 일련의 프레임들(306, 308)에서 인코딩된 오디오 데이터(232)를 받아들이는 입력 인터페이스(210); 및
    상기 활성 프레임(306)에 대한 코딩된 오디오 데이터를 디코딩하여 상기 활성 프레임에 대한 디코딩된 다채널 신호를 생성하는 오디오 디코더(200', 200a, 200b);를 더 포함하고,
    상기 제1 오디오 소스(211), 상기 제2 오디오 소스(213), 상기 믹싱 노이즈 소스(212), 및 상기 믹서(206)는 상기 비활성 프레임(308)에 활성화되어 있어서 상기 비활성 프레임에 대한 상기 다채널 신호(204)를 생성하는,
    다채널 신호 발생기.
  13. 청구항 1 내지 청구항 12 중 어느 한 항에 있어서,
    상기 활성 프레임(306)에 대한 인코딩된 오디오 신호(232)는 제1 개수의 주파수 빈들을 기술하는 제1 복수의 계수들을 가지고,
    상기 비활성 프레임(308)에 대한 인코딩된 오디오 신호(232)는 제2 개수의 주파수 빈들을 기술하는 제2 복수의 계수들을 가지며,
    상기 주파수 빈들의 제1 개수가 상기 주파수 빈들의 제2 개수보다 더 큰 값을 가지는,
    다채널 신호 발생기.
  14. 청구항 12 또는 청구항 13에 있어서,
    상기 비활성 프레임(308)에 대한 상기 인코딩된 오디오 데이터(232)는 상기 비활성 프레임에 대하여 상기 2개의 채널들(301, 303)의 각 채널 또는 상기 제1 및 제2 채널들의 제1 선형 결합과 상기 제1 및 제2 채널들의 제2 선형 결합 각각에 대한 신호 에너지(1312)를 나타내고 상기 비활성 프레임의 상기 제1 채널(301)과 상기 제2 채널(303) 간의 코히런스(404, c)을 표시하는 컴포트 노이즈 데이터(c, p_noise)를 포함하는 무음 삽입 디스크립터 데이터(p_noise, c)를 포함하며,
    상기 믹서(206, 220)는 상기 코히런스(404, c)를 표시하는 상기 컴포트 노이즈 데이터에 기초하여 상기 믹싱 노이즈 신호(222)와 상기 제1 오디오 신호(221) 또는 상기 제2 오디오 신호(223)를 믹싱(206-1, 206-3)하도록 구성되고,
    상기 다채널 신호 발생기(200, 220, 220a-220e)는 상기 제1 채널(201) 및 상기 제2 채널(203) 또는 상기 제1 오디오 신호(221) 또는 상기 제2 오디오 신호(223) 또는 상기 믹싱 노이즈 신호(222)를 수정하기 위한 신호 수정기(250)를 더 포함하고,
    상기 신호 수정기(250)는 상기 제1 오디오 채널(301) 및 상기 제2 오디오 채널(303)에 대한 신호 에너지를 나타내거나 상기 제1 및 제2 채널들의 제1 선형 결합과 상기 제1 및 제2 채널들의 제2 선형 결합에 대한 신호 에너지에 의해 제어되도록 구성되는,
    다채널 신호 발생기.
  15. 청구항 12, 13, 또는 14에 있어서, 상기 비활성 프레임에 대한 상기 오디오 데이터(232)가
    상기 제1 채널(201)에 대한 제1 무음 삽입 디스크립터 프레임(241)과 상기 제2 채널(203)에 대한 제2 무음 삽입 디스크립터 프레임(243)을 포함하며,
    상기 제1 무음 삽입 디스크립터 프레임(241)이
    상기 제1 채널(201) 및/또는 상기 제1 및 제2 채널들의 제1 선형 결합에 대한 컴포트 노이즈 파라미터 데이터(p_noise); 및
    상기 제1 채널(201) 및 상기 제2 채널(203)에 대한 컴포트 노이즈 생성 사이드 정보(p_frame);를 포함하고,
    상기 제2 무음 삽입 디스크립터 프레임(243)이
    상기 제2 채널(203) 및/또는 상기 제1 및 제2 채널들의 제2 선형 결합에 대한 컴포트 노이즈 파라미터 데이터(p_noise); 및
    상기 비활성 프레임에서 상기 제1 채널(201)과 상기 제2 채널(203) 간의 코히런스를 표시하는 코히런스 정보(404, c);를 포함하며,
    상기 다채널 신호 발생기가, 상기 비활성 프레임에서 상기 다채널 신호(204)의 생성을 제어하고, 상기 제1 무음 삽입 디스크립터 프레임(241)에 대한 상기 컴포트 노이즈 생성 사이드 정보(p_frame)를 사용하여 상기 제1 채널(201) 및 상기 제2 채널(203) 및/또는 상기 제1 및 제2 채널들의 제1 선형 결합 및 상기 제1 및 제2 채널들의 제2 선형 결합에 대한 컴포트 노이즈 생성 모드를 결정하고, 상기 제2 무음 삽입 디스크립터 프레임(243) 내에 있는 상기 코히런스 정보(404, c)를 사용하여 상기 비활성 프레임에서 상기 제1 채널(201)과 상기 제2 채널(203) 간의 코히런스를 설정하고, 상기 제1 무음 삽입 디스크립터 프레임(241)으로부터의 상기 컴포트 노이즈 파라미터 데이터(p_noise)를 사용하고 상기 제2 무음 삽입 디스크립터 프레임(243)으로부터의 상기 컴포트 노이즈 파라미터 데이터(p_noise)를 사용하여 상기 제1 채널(301)의 에너지 상황(vl,q)과 상기 제2 채널(303)의 에너지 상황(vr,q)을 설정하는, 제어기를 포함하는,
    다채널 신호 발생기.
  16. 청구항 12, 13, 14, 또는 15에 있어서, 상기 비활성 프레임에 대한 상기 오디오 데이터(232)가
    상기 제1 및 제2 채널들의 제1 선형 결합과 상기 제1 및 제2 채널들의 제2 선형 결합에 대한 적어도 하나의 무음 삽입 디스크립터 프레임(241)을 포함하고,
    상기 적어도 하나의 무음 삽입 디스크립터 프레임(241)이
    상기 제1 및 제2 채널들의 상기 제1 선형 결합에 대한 컴포트 노이즈 파라미터 데이터(p_noise); 및
    상기 제1 및 제2 채널들의 상기 제2 선형 결합에 대한 컴포트 노이즈 생성 사이드 정보(p_frame);를 포함하며,
    상기 다채널 신호 발생기가, 상기 제1 및 제2 채널들의 상기 제1 선형 결합과 상기 제1 및 제2 채널들의 상기 제2 선형 결합에 대한 상기 컴포트 노이즈 생성 사이드 정보(p_frame)를 사용하여 상기 비활성 프레임에서 상기 다채널 신호(204)의 생성을 제어하고, 상기 제2 무음 삽입 디스크립터 프레임(243) 내에 있는 상기 코히런스 정보(404, c)를 사용하여 상기 비활성 프레임에서 상기 제1 채널(201)과 상기 제2 채널(203) 간의 코히런스를 설정하고, 상기 적어도 하나의 무음 삽입 디스크립터 프레임(241)으로부터의 상기 컴포트 노이즈 파라미터 데이터(p_noise)를 사용하고 상기 적어도 하나의 무음 삽입 디스크립터 프레임(243)으로부터의 상기 컴포트 노이즈 파라미터 데이터(p_noise)를 사용하여 상기 제1 채널(301)의 에너지 상황(vl,q)과 상기 제2 채널(303)의 에너지 상황(vr,q)을 설정하는, 제어기를 포함하는,
    다채널 신호 발생기.
  17. 청구항 14, 15, 또는 16에 있어서,
    스펙트럼 조정되고 코히런스 조정된 결과적인 제1 채널 및 결과적인 제2 채널이 결과적인 제2 채널을, 상기 활성 프레임에 대한 디코딩된 다채널 신호의 대응 채널들의 시간 도메인 표현들과 결합하거나 연결할 상응하는 시간 도메인 표현으로 변환하는 스펙트럼-시간 변환기;를 더 포함하는,
    다채널 신호 발생기.
  18. 청구항 12 내지 청구항 17 중 어느 한 항에 있어서, 상기 비활성 프레임에 대한 오디오 데이터가
    무음 삽입 디스크립터 프레임(241, 243);을 포함하고,
    상기 무음 삽입 디스크립터 프레임(241, 243)은 상기 제1 및 상기 제2 채널(201, 203)에 대한 컴포트 노이즈 파라미터 데이터(p_noise)와, 상기 제1 채널(203) 및 상기 제2 채널(203)에 대한 및/또는 상기 제1 및 제2 채널들의 제1 선형 결합과, 상기 제1 및 제2 채널들의 제2 선형 결합과, 상기 비활성 프레임에서 상기 제1 채널(201)과 상기 제2 채널(203) 사이의 코히런스를 표시하는 코히런스 정보(404, c)에 대한 컴포트 노이즈 생성 사이드 정보(p_frame)를 포함하며,
    상기 다채널 신호 발생기가, 상기 비활성 프레임에서 상기 다채널 신호(202)의 생성을 제어하고, 상기 무음 삽입 디스크립터 프레임(241, 243)에 대한 상기 컴포트 노이즈 생성 사이드 정보(p_frame)를 사용하여 상기 제1 채널(201) 및 상기 제2 채널(203)에 대한 컴포트 노이즈 생성 모드를 결정하고, 상기 무음 삽입 디스크립터 프레임(241) 내에 있는 상기 코히런스 정보(404, c)를 사용하여 상기 비활성 프레임에서 상기 제1 채널(201)과 상기 제2 채널(203) 간의 코히런스를 설정하고, 상기 무음 삽입 디스크립터 프레임(241, 243)으로부터의 상기 컴포트 노이즈 파라미터 데이터(p_noise)를 사용하여 상기 제1 채널(301)의 에너지 상황(vl,q)과 상기 제2 채널(303)의 에너지 상황(vr,q)을 설정하는, 제어기를 포함하는,
    다채널 신호 발생기.
  19. 청구항 12 내지 청구항 18 중 어느 한 항에 있어서,
    상기 비활성 프레임에 대한 인코딩된 오디오 데이터(232)는 중앙/사이드 표현에서 각 채널에 대한 신호 에너지를 표시하는 컴포트 노이즈 데이터(c, p_noise)와, 좌/우 표현에서 상기 제1 채널과 상기 제2 채널 사이의 코히런스를 표시하는 코히런스 데이터(404)를 포함하는 무음 삽입 디스크립터 데이터(p_noise, c)를 포함하고, 상기 다채널 신호 발생기는 상기 제1 채널(301) 및 상기 제2 채널(303)에서의 상기 신호 에너지의 상기 중앙/사이드 표현을 상기 신호 에너지의 좌/우 표현으로 변환하도록 구성되며,
    상기 믹서(206, 220)는 상기 코히런스 데이터(404, c)를 토대로 상기 제1 오디오 신호(221) 및 상기 제2 오디오 신호(223)에 상기 믹싱 노이즈 신호(222)를 믹싱(206-1, 206-3)하여 상기 제1 채널(201) 및 상기 제2 채널(203)을 획득하도록 구성되고,
    상기 다채널 신호 발생기는 좌/우 도메인에서의 상기 신호 에너지를 토대로 상기 제1 및 상기 제2 채널(201, 203)을 정형함으로써 상기 제1 및 제2 채널(201, 203)을 수정하도록 구성되는 신호 수정기(250)를 더 포함하는,
    다채널 신호 발생기.
  20. 청구항 19에 있어서,
    상기 오디오 데이터가 사이드 채널의 에너지가 소정의 임계값보다 작다는 것을 나타내는 시그널링을 포함하는 경우, 상기 사이드 채널(vs,q)의 계수들을 제로(0)로 만들도록 구성되는,
    다채널 신호 발생기.
  21. 청구항 19 또는 청구항 20에 있어서, 상기 비활성 프레임에 대한 상기 오디오 데이터가
    중앙 및 사이드 채널(vm,q, vs,q)에 대한 컴포트 노이즈 파라미터 데이터(p_noise, vm,ind, ql,q, qr,q, vs,ind)와, 상기 중앙 및 사이드 채널(vm,q, vs,q)에 대한 컴포트 노이즈 생성 사이드 정보(p_frame)와, 상기 비활성 프레임에서 상기 제1 채널(201)과 상기 제2 채널(203) 사이의 코히런스를 표시하는 코히런스 정보(404, c)를 포함하는, 적어도 하나의 무음 삽입 디스크립터 프레임(241, 243);을 포함하고,
    상기 다채널 신호 발생기가, 상기 비활성 프레임에서 상기 다채널 신호(202)의 생성을 제어하고, 상기 무음 삽입 디스크립터 프레임(241, 243)에 대한 상기 컴포트 노이즈 생성 사이드 정보(p_frame)를 사용하여 상기 제1 채널(201) 및 상기 제2 채널(203)에 대한 컴포트 노이즈 생성 모드를 결정하고, 상기 무음 삽입 디스크립터 프레임(241) 내에 있는 상기 코히런스 정보(404, c)를 사용하여 상기 비활성 프레임에서 상기 제1 채널(201)과 상기 제2 채널(203) 간의 코히런스를 설정하고, 상기 무음 삽입 디스크립터 프레임(241, 243)으로부터의 상기 컴포트 노이즈 파라미터 데이터(p_noise)를 사용하여 상기 제1 채널(301)의 에너지 상황(vl,q)과 상기 제2 채널(303)의 에너지 상황(vr,q)을 설정하는, 제어기를 포함하는,
    다채널 신호 발생기.
  22. 청구항 12 내지 청구항 21 중 어느 한 항에 있어서,
    상기 제1 및 제2 채널들에 대한 신호 에너지 계수들(1312, v'l, v'r)을, 상기 제1 및 제2 채널들에 대한 상기 컴포트 노이즈 파라미터 데이터(401, 403)로 인코딩된 이득 정보(gl,q, gr,q)에 의해, 스케일링하도록 추가로 구성된,
    다채널 신호 발생기.
  23. 청구항 1 내지 청구항 22 중 어느 한 항에 있어서,
    발생된 다채널 신호(252)를 주파수 도메인 버전에서 시간 도메인 버전으로 변환하도록 구성되는,
    다채널 신호 발생기.
  24. 청구항 1 내지 청구항 23 중 어느 한 항에 있어서,
    상기 제1 오디오 소스(211)가 제1 노이즈 소스이고 상기 제1 오디오 신호(221)는 제1 노이즈 신호이거나, 상기 제2 오디오 소스(213)는 제2 노이즈 소스이고 상기 제2 오디오 신호(223)가 제2 노이즈 신호이며,
    상기 제1 노이즈 소스 또는 상기 제2 노이즈 소스가, 상기 제1 노이즈 신호(201) 또는 상기 제2 노이즈 신호(203)가 적어도 상관관계가 있게, 상기 제1 노이즈 신호(201) 또는 상기 제2 노이즈 신호(203)를 발생하도록 구성되고,
    상기 믹싱 노이즈 소스(212)는 제1 믹싱 노이즈 부분(221a)과 제2 믹싱 노이즈 부분(221b)을 갖는 상기 믹싱 노이즈 신호(222)를 발생하도록 구성되고, 여기서 상기 제2 믹싱 노이즈 부분(221b)은 적어도 부분적으로 상기 제1 믹싱 노이즈 부분(221b)과 비상관되며,
    상기 믹서(206)는 상기 믹싱 노이즈 신호(222)의 상기 제1 믹싱 노이즈 부분(221a)과 상기 제1 오디오 신호(221)를 믹싱하여 상기 제1 채널(201)을 획득하고, 상기 믹싱 노이즈 신호(222)의 상기 제2 믹싱 노이즈 부분을 상기 제2 오디오 신호(223)와 믹싱하여 상기 제2 채널(203)을 획득하도록 구성되는,
    다채널 신호 발생기.
  25. 제1 채널(201) 및 제2 채널(203)을 갖는 다채널 신호를 생성하는 방법으로서,
    제1 오디오 소스(211)를 사용하여 제1 오디오 신호(221)를 발생하는 단계;
    제2 오디오 소스(213)를 사용하여 제2 오디오 신호(223)를 발생하는 단계;
    믹싱 노이즈 소스(212)를 사용하여 믹싱 노이즈 신호(222)를 발생하는 단계; 및
    상기 믹싱 노이즈 신호(222)와 상기 제1 오디오 신호(221)를 믹싱하여 상기 제1 채널(201)을 획득하고, 상기 믹싱 노이즈 신호(222)와 상기 제2 오디오 신호(223)를 믹싱하여 상기 제2 채널(202)을 획득하는 단계;를 포함하는,
    다채널 신호 생성 방법.
  26. 활성 프레임(306)과 비활성 프레임(308)을 포함하는 프레임 시퀀스에 대하여, 인코딩된 다채널 오디오 신호(232)를 생성하기 위한 오디오 인코더(300, 300a, 300b)로서,
    다채널 신호(304)를 분석하여, 상기 프레임 시퀀스의 프레임을 비활성 프레임(308)으로 결정(381)하는 활성 감지기(380);
    상기 다채널 신호(304)의 제1 채널(301, 201)에 대한 제1 파라메트릭 노이즈 데이터(p_noise, vm,ind)를 계산하고, 상기 다채널 신호(304)의 제1 채널(303)에 대한 제2 파라메트릭 노이즈 데이터(p_noise, vs,ind)를 계산하는 노이즈 파라미터 계산기(3040);
    상기 비활성 프레임(308)에서 상기 제1 채널(301, 201)과 상기 제2 채널(303, 203) 사이의 코히런스 상황을 표시하는 코히런스 데이터(404, c)를 계산하는 코히런스 계산기(320); 및
    활성 프레임(306)에 대한 인코딩된 오디오 데이터와, 상기 비활성 프레임(308)에 대해서, 상기 제1 파라메트릭 노이즈 데이터(p_noise, vm,ind), 상기 제2 파라메트릭 노이즈 데이터(p_noise, vs,ind), 및/또는 상기 제1 파라메트릭 노이즈 데이터 및 상기 제2 파라메트릭 노이즈 데이터의 제1 선형 결합, 상기 제1 파라메트릭 노이즈 데이터 및 상기 제2 파라메트릭 노이즈 데이터의 제2 선형 결합, 및 상기 코히런스 데이터(404, c)를 포함하는, 인코딩된 다채널 오디오 신호(232)를 생성하는 출력 인터페이스(310);
    를 구비하는 오디오 인코더.
  27. 청구항 26에 있어서, 상기 코히런스 계산기(320)는 코히런스 값(404, c)을 계산하고(320'), 상기 코히런스 값(320')을 양자화(320")하여 양자화된 코히런스 값(cind)을 획득하도록 구성되며,
    상기 출력 인터페이스(310)는 상기 양자화된 코히런스 값(cind)을 상기 인코딩된 다채널 신호의 상기 코히런스 데이터로써 사용하도록 구성되는,
    오디오 인코더.
  28. 청구항 26 또는 청구항 27에 있어서, 상기 코히런스 계산기(320)는
    상기 비활성 프레임의 상기 제1 채널(301) 및 상기 제2 채널(303)에 대한 복소 스펙트럼 값들으로부터 실수 중간 값 및 허수 중간 값을 계산하고;
    상기 비활성 프레임에서 상기 제1 채널에 대한 제1 에너지 값과 상기 제2 채널(303)에 대한 제2 에너지 값을 계산하고;
    상기 실수 중간 값, 상기 허수 중간 값, 상기 제1 에너지 값, 및 상기 제2 에너지 값을 사용하여 상기 코히런스 데이터(404, c)를 계산하거나;
    상기 실수 중간 값, 상기 허수 중간 값, 상기 제1 에너지 값, 및 상기 제2 에너지 값 중 적어도 하나를 평활화하고, 적어도 하나의 평활화된 값을 사용하여 상기 코히런스 데이터를 산출;하도록 구성되는,
    오디오 인코더.
  29. 청구항 28에 있어서,
    상기 코히런스 계산기(320)는 상기 실수 중간 값을, 상기 비활성 프레임에서 상기 제1 채널(301) 및 상기 제2 채널(303)의 대응하는 주파수 빈들에 대한 복소 스펙트럼 값들의 곱들의 실수 부분에 대한 합으로서, 계산하도록 구성되거나,
    상기 허수 중간 값을, 상기 비활성 프레임에서 상기 제1 채널(301) 및 상기 제2 채널(303)의 대응하는 주파수 빈들에 대한 복소 스펙트럼 값들의 곱들의 허수 부분에 대한 합으로서, 계산하도록 구성되는,
    오디오 인코더.
  30. 청구항 28 또는 청구항 29에 있어서,
    상기 코히런스 계산기(320)는, 평활화된 실수 중간 값을 제곱하고, 평활화된 허수 중간 값을 제곱하며, 제곱 값들을 더하여 제1 성분 수를 획득하고,
    상기 코히런스 계산기(320)는, 평활화된 제1 에너지 값과 평활화된 제2 에너지 값을 곱하여, 제2 성분 수를 획득하고, 상기 제1 및 상기 제2 성분 수들을 결합하여 상기 코히런스 데이터의 기초가 되는 상기 코히런스 값의 결과 값을 획득하도록 구성되는,
    오디오 인코더.
  31. 청구항 30에 있어서,
    상기 코히런스 계산기는, 상기 결과 값의 제곱근을 계산하여, 상기 코히런스 데이터의 기초가 되는 코히런스 값을 획득하도록 구성되는,
    오디오 인코더.
  32. 청구항 27 내지 청구항 31 중 어느 한 항에 있어서,
    상기 코히런스 계산기(320)는, 균등 양자화기(320")를 사용해서 상기 코히런스 값(404, c)을 양자화하여, n 비트의 상기 양자화된 코히런스 값(cind)을 상기 코히런스 데이터로서 획득하도록 구성되는,
    오디오 인코더.
  33. 청구항 26 내지 청구항 32 중 어느 한 항에 있어서,
    상기 출력 인터페이스(310)는 상기 제1 채널(301, L)에 대한 제1 무음 삽입 디스크립터 프레임(241)과 상기 제2 채널(303, R)에 대한 제2 무음 삽입 디스크립터 프레임을 생성하도록 구성되고, 여기서 상기 제1 무음 삽입 디스크립터 프레임(241)은 상기 제1 채널(301, L)에 대한 컴포트 노이즈 파라미터 데이터(p_noise)와, 상기 제1 채널(301, L) 및 상기 제2 채널(303, R)에 대한 컴포트 노이즈 생성 사이드 정보(p_frame)를 포함하며, 상기 제2 무음 삽입 디스크립터 프레임(243)은 상기 제2 채널(303)에 대한 컴포트 노이즈 파라미터 데이터(p_noise)와, 상기 비활성 프레임에서 상기 제1 채널(301)과 상기 제2 채널(303) 사이의 코히런스를 표시하는 코히런스 정보(404)를 포함하고,
    상기 출력 인터페이스(310)는 무음 삽입 디스크립터 프레임(241, 243)을 생성하도록 구성되고, 여기서 상기 무음 삽입 디스크립터 프레임은 상기 제1 및 상기 제2 채널(301, 303)에 대한 컴포트 노이즈 파라미터 데이터(p_noise)와, 상기 제1 채널(301, L) 및 상기 제2 채널(303, R)에 대한 컴포트 노이즈 생성 사이드 정보(p_frame)와, 상기 비활성 프레임에서 상기 제1 채널(301, L)과 상기 제2 채널(303, R) 사이의 코히런스를 표시하는 코히런스 정보(404, c)를 포함하며,
    상기 출력 인터페이스(310)는 상기 제1 채널(301, L) 및 상기 제2 채널(303, R)에 대한 제1 무음 삽입 디스크립터 프레임(241)과, 상기 제1 채널(301, L) 및 상기 제2 채널(303, R)에 대한 제2 무음 삽입 디스크립터 프레임(243)을 생성하도록 구성되고, 여기서 상기 제1 무음 삽입 디스크립터 프레임(241)은 상기 제1 채널 및 상기 제2 채널에 대한 컴포트 노이즈 파라미터 데이터(p_noise)와, 상기 제1 채널(301, L) 및 상기 제2 채널(303, R)에 대한 컴포트 노이즈 생성 사이드 정보(p_frame)를 포함하고, 상기 제2 무음 삽입 디스크립터 프레임(243)은 상기 제1 채널(301) 및 상기 제2 채널(303)에 대한 컴포트 노이즈 파라미터 데이터(p_noise)와, 상기 비활성 프레임에서 상기 제1 채널(301)과 상기 제2 채널(303) 사이의 코히런스를 표시하는 코히런스 정보(404, c)를 포함하는,
    오디오 인코더.
  34. 청구항 32 내지 청구항 33에 있어서,
    상기 균등 양자화기(320")는, 상기 제1 무음 삽입 디스크립터 프레임(241)에 대해서 컴포트 노이즈 생성 사이드 정보(p_frame)에 의해 점유되는 비트들의 값과 n 값이 동일할 수 있게, n-비트 수를 계산하도록 구성되는,
    오디오 인코더.
  35. 청구항 26 내지 청구항 34 중 어느 한 항에 있어서, 상기 활성 감지기(380)는, 상기 프레임 시퀀스의 적어도 한 프레임에 대하여,
    상기 다채널 신호(304)의 상기 제1 채널(301, L)을 분석(370-1)하여, 상기 제1 채널(301, L)을 활성 또는 비활성으로 분류하고;
    상기 다채널 신호(304)의 상기 제2 채널(303, R)을 분석(370-2)하여, 상기 제2 채널(303, R)을 활성 또는 비활성으로 분류하고;
    상기 제1 채널(301, L) 및 상기 제2 채널(303, R) 모두가 비활성으로 분류되다면 상기 프레임이 비활성이라고 결정(381)하고, 그렇지 않으면 활성이라고 결정하도록, 구성되는,
    오디오 인코더.
  36. 청구항 26 내지 청구항 35 중 어느 한 항에 있어서,
    상기 노이즈 파라미터 계산기(3040)는 상기 제1 채널(301)에 대한 제1 이득 정보(gl)와, 상기 제2 채널(303)에 대한 제2 이득 정보(gs)를 계산하고, 파라메트릭 노이즈 데이터를 상기 제1 채널(301)에 대한 제1 이득 정보(gl)와 상기 제2 이득 정보(gs)로서 제공도록 구성되는,
    오디오 인코더.
  37. 청구항 26 내지 청구항 36 중 어느 한 항에 있어서,
    상기 노이즈 파라미터 계산기(3040)는 상기 제1 파라메트릭 노이즈 데이터 및 제2 파라메트릭 노이즈 데이터 중 적어도 일부를 좌/우 표현으로부터 중앙 채널과 사이드 채널을 가진 중앙/사이드 표현으로 변환하도록 구성되는,
    오디오 인코더.
  38. 청구항 37에 있어서,
    상기 노이즈 파라미터 계산기(3040)는 제1 파라메트릭 노이즈 데이터 및 제2 파라메트릭 노이즈 데이터 중 적어도 일부의 상기 중앙/사이드 표현(M, S)을 좌/우 표현으로 재변환하도록 구성되며,
    상기 노이즈 파라미터 계산기(3040)는 재변환된 좌/우 표현으로부터 상기 제1 채널(301)에 대한 제1 이득 정보(gl) 및 제2 채널(303)에 대한 제2 이득 정보(gr)를 계산하고, 상기 제1 파라메트릭 노이즈 데이터에 포함된 상기 제1 채널(301)에 대한 상기 제1 이득 정보(gl)를 제공하고, 상기 제2 파라메트릭 노이즈 데이터에 포함된 상기 제2 이득 정보(gr)를 제공하도록 구성되는,
    오디오 인코더.
  39. 청구항 38에 있어서, 상기 노이즈 파라미터 계산기(3040)는
    상기 중앙/사이드 표현으로부터 상기 좌/우 표현으로 재변환된 상기 제1 채널(301)에 대한 상기 제1 파라메트릭 노이즈 데이터의 버전(v'l);과
    상기 중앙/사이트 표현으로부터 상기 좌/우 표현으로 변환되기 이전의 상기 제1 채널(301)에 대한 상기 제1 파라메트릭 노이즈 데이터의 버전(vl);
    을 비교하여 상기 제1 이득 정보(gl)를 계산하고/하거나,
    상기 중앙/사이드 표현으로부터 상기 좌/우 표현으로 재변환된 상기 제2 채널(301)에 대한 상기 제2 파라메트릭 노이즈 데이터의 버전(v'r);과
    상기 중앙/사이트 표현으로부터 상기 좌/우 표현으로 변환되기 이전의 상기 제2 채널(301)에 대한 상기 제2 파라메트릭 노이즈 데이터의 버전(vr);
    을 비교하여 상기 제2 이득 정보(gr)를 계산하도록 구성되는,
    오디오 인코더.
  40. 청구항 26 내지 청구항 39 중 어느 한 항에 있어서,
    상기 노이즈 파라미터 계산기(3040)는 상기 제1 파라메트릭 노이즈 데이터와 상기 제2 파라메트릭 노이즈 데이터 사이의 상기 제2 선형 결합의 에너지를 소정의 에너지 임계값(α)과 비교하고;
    상기 제1 파라메트릭 노이즈 데이터와 상기 제2 파라메트릭 노이즈 데이터 사이의 상기 제2 선형 결합의 상기 에너지가 상기 소정의 에너지 임계값(α)보다 큰 경우, 사이드 채널 노이즈 형태 벡터의 계수들이 0으로 되고(437);
    상기 제1 파라메트릭 노이즈 데이터와 상기 제2 파라메트릭 노이즈 데이터 사이의 상기 제2 선형 결합의 상기 에너지가 상기 소정의 에너지 임계값(α)보다 작은 경우, 상기 사이드 채널 노이즈 형태 벡터의 계수들이 그대로 유지되도록 구성되는,
    오디오 인코더.
  41. 청구항 26 내지 청구항 40 중 어느 한 항에 있어서,
    상기 제1 파라메트릭 노이즈 데이터와 상기 제2 파라메트릭 노이즈 데이터 사이의 상기 제2 선형 결합을, 상기 제1 파라메트릭 노이즈 데이터와 상기 제2 파라메트릭 노이즈 데이터 사이의 상기 제1 선형 결합이 인코딩되는 비트량에 비하여 적은 양의 비트량으로, 인코딩하도록 구성되는,
    오디오 인코더.
  42. 청구항 26 내지 청구항 41 중 어느 한 항에 있어서, 상기 출력 인터페이스(310)가
    제1 개수의 주파수 빈들에 대한 제1 복수의 계수들을 사용하여, 상기 활성 프레임(306)에 대한 인코딩된 오디오 데이터를 갖는 인코딩된 다채널 오디오 신호(232)를 생성하고;
    제2 개수의 주파수 빈들을 기술하는 제2 복수의 계수들을 사용하여, 상기 제1 파라메트릭 노이즈 데이터, 상기 제2 파라메트릭 노이즈 데이터, 또는 상기 제1 파라메트릭 노이즈 데이터와 상기 제2 파라메트릭 노이즈 데이터의 상기 제1 선형 결합과 상기 제1 파라메트릭 노이즈 데이터와 상기 제2 파라메트릭 노이즈 데이터의 상기 제2 선형 결합을 생성하며;
    주파수 빈들의 상기 제1 개수가 주파수 빈들의 상기 제2 개수보다 더 크도록 구성되는,
    오디오 인코더.
  43. 활성 프레임 및 비활성 프레임을 포함하는 프레임 시퀀스에 대하여, 인코딩된 다채널 오디오 신호를 생성하기 위한 오디오 인코딩 방법으로서,
    다채널 신호를 분석하여 상기 프레임 시퀀스의 한 프레임을 비활성 프레임인 것으로 결정하는 단계;
    상기 다채널 신호의 제1 채널 및/또는 상기 다채널 신호의 제1 및 제2 채널의 제1 선형 결합에 대한 제1 파라메트릭 노이즈 데이터를 계산하고, 상기 다채널 신호의 제2 채널 및/또는 상기 다채널 신호의 상기 제1 및 상기 제2 채널의 제2 선형 결합에 대한 제2 파라메트릭 노이즈 데이터를 계산하는 단계;
    상기 비활성 프레임에서 상기 제1 채널과 상기 제2 채널(303) 간의 코히런스 상황을 표시하는 코히런스 데이터를 계산하는 단계; 및
    상기 활성 프레임에 대한 인코딩된 오디오 데이터와, 상기 비활성 프레임에 대한 상기 제1 파라메트릭 노이즈 데이터, 상기 제2 파라메트릭 노이즈 데이터, 및 상기 코히어런스 데이터를 갖는 상기 인코딩된 다채널 오디오 신호를 생성하는 단계;를 포함하는 오디오 인코딩 방법.
  44. 컴퓨터 또는 프로세서에서 실행될 때 청구항 25 또는 청구항 43의 방법을 수행하기 위한 컴퓨터 프로그램.
  45. 활성 프레임과 비활성 프레임을 포함하는 프레임 시퀀스로 조직화된, 인코딩된 다채널 오디오 신호로서,
    상기 활성 프레임에 대한 인코딩된 오디오 데이터;
    상기 비활성 프레임의 제1 채널에 대한 제1 파라메트릭 노이즈 데이터;
    상기 비활성 프레임의 제2 채널에 대한 제2 파라메트릭 노이즈 데이터; 및
    상기 비활성 프레임에서 상기 제1 채널과 상기 제2 채널 사이의 코히어런스 상황을 표시하는 코히어런스 데이터;를 포함하는,
    인코딩된 다채널 오디오 신호.
KR1020237011262A 2020-08-31 2021-06-30 노이즈 신호 믹싱에 의존하는 다채널 신호 발생기, 오디오 인코더, 및 관련 방법 KR20230058705A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20193716 2020-08-31
EP20193716.6 2020-08-31
PCT/EP2021/068079 WO2022042908A1 (en) 2020-08-31 2021-06-30 Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal

Publications (1)

Publication Number Publication Date
KR20230058705A true KR20230058705A (ko) 2023-05-03

Family

ID=72432694

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237011262A KR20230058705A (ko) 2020-08-31 2021-06-30 노이즈 신호 믹싱에 의존하는 다채널 신호 발생기, 오디오 인코더, 및 관련 방법

Country Status (11)

Country Link
US (1) US20230206930A1 (ko)
EP (1) EP4205107A1 (ko)
JP (1) JP2023539348A (ko)
KR (1) KR20230058705A (ko)
CN (1) CN116075889A (ko)
AU (2) AU2021331096B2 (ko)
BR (1) BR112023003557A2 (ko)
CA (1) CA3190884A1 (ko)
MX (1) MX2023002238A (ko)
TW (1) TWI785753B (ko)
WO (1) WO2022042908A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024051955A1 (en) * 2022-09-09 2024-03-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for discontinuous transmission of parametrically coded independent streams with metadata
WO2024051954A1 (en) * 2022-09-09 2024-03-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder and encoding method for discontinuous transmission of parametrically coded independent streams with metadata

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5337941B2 (ja) * 2006-10-16 2013-11-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル・パラメータ変換のための装置および方法
MX344169B (es) 2012-12-21 2016-12-07 Fraunhofer Ges Forschung Generacion de ruido de confort con alta resolucion espectro-temporal en transmision discontinua de señales de audio.
CN104050969A (zh) * 2013-03-14 2014-09-17 杜比实验室特许公司 空间舒适噪声
US10861470B2 (en) * 2014-02-14 2020-12-08 Telefonaktiebolaget Lm Ericsson (Publ) Comfort noise generation
MX2020010462A (es) * 2018-04-05 2020-10-22 Fraunhofer Ges Forschung Aparato, metodo o programa de computacion para estimar la diferencia de tiempo entre canales.
CN112119457A (zh) * 2018-04-05 2020-12-22 瑞典爱立信有限公司 可截断的预测编码

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
3GPP TS 26.445, '향상된 음성 서비스(EVS)를 위한 코덱; 상세한 알고리즘 설명(Codec for Enhanced Voice Services (EVS); Detailed algorithmic description)'.
A. Lombard, S. Wilde, E. Ravelli, S. Dohla. Fuchs and M. Dietz, "EVS에서의 불연속 전송을 위한 주파수 도메인 컴포트 노이즈 생성(Frequency-domain Comfort Noise Generation for Discontinuous Transmission in EVS)," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, QLD, 2015.
ITU-T G.718 '8~32kbit/s의 음성 및 오디오에 대한 프레임 오류에 견고한 협대역 및 광대역 임베디드 가변 비트율 코딩(Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s)'. International Telecommunication Union (ITU) Series G, 2008.
ITU-T G.729 Annex B 'ITU-T 권고 V.70을 준수하는 단말에 최적화된 G.729용 무음 압축 방식(A silence compression scheme for G.729 optimized for terminals conforming to ITU-T Recommendation V.70)'. International Telecommunication Union (ITU) Series G, 2007.
ITU-T G.729.1 Annex C 'DTX/CNG 방식(DTX/CNG scheme)‘International Telecommunication Union (ITU) Series G, 2008.
Z. Wang and e. al, "EVS 코덱에서의 선형 예측 기반 컴포트 노이즈 생성(Linear prediction based comfort noise generation in the EVS codec)," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, QLD, 2015.
'광대역 적응적 다중-비트율(AMR-WB) 음성 코덱; 트랜스코딩 기능(Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions)', 3GPP, 2014.
국제특허공개공보 WO 2019/193149 A1, (E. NORVELL and F. JANSSON, "통신 잡음의 생성 지원 및 통신 잡음 생성(Support for Generation of Comfort Noise, and Generation of Comfort Noise)"). 2019. 4. 5.
미국등록특허공보 9,583,114 B2, (A. Lombard, M. Dietz, S. Wilde, E. Ravelli, P. Setiawan and M. Multrus, "오디오 신호의 불연속 전송에서의 높은 스펙스럼-시간 해상도를 가지는 통신 잡음의 생성(Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals)"). 2015. 6. 19.
'필수 음성 코덱 음성처리 기능; 적응적 다중-비트율 음성 코덱; 트랜스코딩 기능(Mandatory Speech Codec speech processing functions; Adaptive Multi-Rate (AMR) speech codec; Transcoding functions)', 3GPP Technical Specification TS 26.090, 2014.

Also Published As

Publication number Publication date
TW202215417A (zh) 2022-04-16
US20230206930A1 (en) 2023-06-29
MX2023002238A (es) 2023-04-21
TWI785753B (zh) 2022-12-01
CA3190884A1 (en) 2022-03-03
CN116075889A (zh) 2023-05-05
BR112023003557A2 (pt) 2023-04-04
AU2021331096A1 (en) 2023-03-23
JP2023539348A (ja) 2023-09-13
AU2021331096B2 (en) 2023-11-16
EP4205107A1 (en) 2023-07-05
WO2022042908A1 (en) 2022-03-03
AU2023254936A1 (en) 2023-11-16
TW202320057A (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
JP7244609B2 (ja) ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム
US9495972B2 (en) Multi-mode audio codec and CELP coding adapted therefore
EP2981956B1 (en) Audio processing system
US20230206930A1 (en) Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal
RU2809646C1 (ru) Генератор многоканальных сигналов, аудиокодер и соответствующие способы, основанные на шумовом сигнале микширования
TWI840892B (zh) 音頻編碼器、音頻編碼方法、電腦程式及編碼的多聲道音頻信號