KR100675126B1

KR100675126B1 - 향상된 충실도를 위해 안락 잡음 가변특성을 가지는 음성코딩

Info

Publication number: KR100675126B1
Application number: KR1020017006293A
Authority: KR
Inventors: 에릭 에쿠덴; 로아르 하겐; 인게마르 조한손
Original assignee: 텔레포나크티에볼라게트 엘엠 에릭슨(피유비엘)
Priority date: 1998-11-23
Filing date: 1999-11-08
Publication date: 2007-01-26
Also published as: KR20010080497A; CN1183512C; JP2003529950A; EP1145222A3; US7124079B1; AU1591100A; CA2349944C; WO2000031719A2; DE69917677D1; TW469423B; JP4659216B2; AR028468A1; EP1145222B1; CA2349944A1; AU760447B2; CN1354872A; BR9915577A; WO2000031719A3; EP1145222A2; DE69917677T2

Abstract

비-음성 주기 동안에 음성 디코더(93)가 발생하는 안락잡음의 품질은 통상적으로 안락잡음을 생성하는데 사용되는 안락잡음 변수값(33)을 수정함으로써(30, 75) 개선된다. 안락잡음 변수값들은 배경잡음 변수와 관련된 가변성 정보(43)에 응해 수정된다. 수정된 안락잡음 변수값(35)은 안락잡음을 생성하는데 사용된다.

안락잡음, 배경잡음, 스펙트럼, 에너지, 필터, 필터계수, 안락잡음 변수

Description

향상된 충실도를 위해 안락 잡음 가변특성을 가지는 음성 코딩{SPEECH CODING WITH COMFORT NOISE VARIABILITY FEATURE FOR INCREASED FIDELITY}

본 출원은 35 USC 119(e)(1) 하에서, 1998년 11월 23일에 출원된, 계류중인 미합중국 잠정출원 60/109,555 호의 우선권을 주장한다.

본 발명은 음성코딩에 관한 것으로서, 특히 음성 비활성 주기 동안에 인위적인 배경잡음이 생성되는 음성코딩에 관한 것이다.

음성 코더와 디코더들은 통상적으로 무선송신기와 무선수신기에 각각 제공되고 또한 무선링크를 통해 소정의 송신기와 수신기 간에 음성통신이 이루어지도록 협동한다. 음성코더와 음성디코더의 조합은 종종 음성코덱(speech codec)이라 부른다. 이동 무선전화(예컨대, 셀룰러전화)는, 전형적으로 음성코더를 가지는 무선송신기와 음성디코더를 가지는 무선수신기를 포함하는 통상적인 통신장치의 일례이다.

통상적인 블록-기반(block-based) 음성코더에 있어서, 입중계(incoming) 음성신호는 프레임으로 불리는 블록들로 분할된다. 공통 4 ㎑ 전화 대역폭 응용에 있어서, 전형적인 프레임길이는 20ms 또는 160 샘플이다. 이들 프레임들은 전형적으로 길이 5 ms 또는 40 샘플의 서브프레임으로 분할된다.

통상적인 합성에 의한 선형 예측 분석(linear predictive analysis-by-synthesis:LPAS) 코더는 음성 생성 관련모델을 사용한다. 입력 음성신호에서부터 음성의 트랙, 피치 등을 기술하는 모델 변수들을 추출한다. 이러한 변수들의 예는 음성을 생헌한 장치에서 음성 트랙을 기술하는 STP(short term prediction;단기간 예측) 변수이다. STP 젼수들의 한 예는 입력 음성신호의 스펙트럼적 형상을 나타내는 선형 예측 계수(linear prediction coefficient;LPC)이다. 보다 급속히 변화하는 변수들의 예는, 전형적으로 매 프레임마다 계산되는 피치와 혁신적인 형상/이득 변수들을 포함한다.

추출한 변수들은 잘 공지된 스칼라 및 벡터 양자화 기술을 사용하여 양자화된다. STP 변수들, 예컨대 선형 예측 계수들은 종종 라인 스펙트럼 주파수(Line Spectral Frequencies;LSFs)와 같은 양자화에 보다 적합한 표시들로 변환된다. 양자화 후에, 이들 변수들은 통신채널을 통해 디코더로 전송된다.

통상적인 LPAS 디코더에 있어서, 일반적으로 상기와 반대로 이루어지고 또한 음성신호를 합성한다. 보통 포스트 필터링(Postfiltering)기술을 합성된 음성신호에 적용하여 감각 품질(perceived quality)를 향상시킨다.

많은 공통 배경잡음 유형들에 있어서, 음성에 대해 필요한 것 보다 훨씬 더 낮은 비트율(bit rate)은 충분히 훌륭한 신호모델을 제공한다. 현존하는 이동시스템은 상기와 같은 사실을 사용하여 배경잡음 동안에 전송된 비트율을 조정한다. 연속 전송기술을 사용하는 통상적인 시스템들에 있어서, 가변율(variable rate;VR) 음성코더는 그의 가장 낮은 비트율을 사용한다. 통상적인 불연속 전송(Discontinuous Transmission; DTX) 방법에서, 스피커가 비활성이 되면, 송신기는 코드화된 음성 프레임들을 전송하는 것을 중단한다. 정규적인 또는 불규칙한 간격으로(전형적으로 매 500ms 마다), 송신기는 디코더에서 안락한 잡음(comfort noise)의 생성에 적합한 음성 변수들을 전송한다. 안락 잡음생성(comfort noise generation;CNG)을 위한 이들 변수들은 통상적으로, 때때로 침묵 서술자(敍述子) (Silence Descriptor;SID) 프레임이라고 부르는 것으로 코드화된다. 수신기에서, 디코더는 SID 프레임에서 수신된 안락 잡음 변수들을 사용하여 통상적 안락 잡음 삽입(comfort noise injection;CIN) 알고리즘으로 인위적인 잡음을 합성한다.

통상적인 DTX 시스템내 디코더에서 안락 잡음이 생성되면, 상기 잡음은 종종, 활성모드(비-DTX) 모드에서 생성되는 배경잡음과는 상당히 다르고 또한 정적인 것으로 감지된다. 이러한 감지에 대한 이유는, DTX SID 프레임들이 정규 음성 프레임만큼 자주 수신기로 전송되지 않기 때문이다. DTX 모드를 가지는 LPAS 코덱들에 있어서, 배경잡음의 스펙트럼과 에너지는 전형적으로 여러 프레임들에 걸쳐 추정되고(예컨대, 평균화되고), 그리고 추정된 변수들은 양자화되어 채널을 통해 디코더로 전송된다. 도 1은 상기에서 설명한 추정된 배경잡음(안락 잡음) 변수들을 생성하는 예시적인 선행기술 안락 잡음 엔코더를 설명한다. 양자화된 안락 잡음 변수들은 전형적으로 100 내지 500 ms 마다 전송된다.

정규적인 음성 프레임들을 전송하는 대신에 낮은 갱신율(low update rate)로 SID 프레임들을 전송함에 있어서의 잇점은 두 배이다. 예컨대, 낮은 전력소비로 인해 이동 무선송수신기의 배터리 수명이 연장되고, 또한 송신기에 의해 발생되는 간 섭이 낮아져 높은 시스템 용량을 제공하게 된다.

통상적인 디코더에서, 안락 잡음 변수들은 도 2에 도시된 것과 같이 수신되어 디코더된다. 일반적으로 음성 변수들을 수신하는 것만큰 자주 새로운 안락 잡음 변수들을 디코더가 수신하지 않기 때문에, SID 프레임들에서 수신되는 안락 잡음 변수들은 전형적으로 23에서 보간되어 안락 잡음 합성에서 부드러운 변수들의 콘볼류션을 제공한다. 25에 도시된 상기 합성 동작에서, 디코더는 합성 필터에 이득 크기 조정된 랜덤 잡음(gain scaled random noise)(예컨대, 백색잡음)여기 (excitation)와 보간된 스펙트럼 변수들을 입력한다. 따라서, 발생된 안락 답음(s_c(n))은, 엔코더 말단에서 배경잡음(s(n))의(도 1 참조) 특성이 변경되는지 여부에 상관없이 상당히 변하지 않는("정적인")것으로 감지하게 된다. 이러한 문제는, 자동차 잡음 환경에서도 존재할 수 있지만, 길거리에서의 잡음과 왁자지껄한 잡음(예컨대, 식당에서의 잡음)과 같은 강한 가변성을 가지는 배경잡음에서 두드러진다.

이러한 "정적인" 안락 잡음 문제를 해결하기 위한 한 가지 통상적인 해결책은, DTX 안락 잡음 변수들의 갱신율을 단순히 증가시키는 것이다(예컨대, 보다 높은 SID 프레임율을 사용한다). 이 해결책에서 예시적인 문제점은, 송신기가 보다 자주 동작하여야 하기 때문에 (예컨대, 이동송수신기 내의) 배터리 소비가 증가하게 되고 또한 증가된 SID 프레임율로 인해 시스템 용량이 감소하게 된다는 것이다. 그러므로, 정적인 배경잡음을 받아들이는 것이 통상적인 시스템들에는 보편적인 것 이다.

따라서, 통상적인 안락 잡음 생성과 관련하여 상기에서 설명한 단점을 제거하는 것이 바람직하다.

본 발명에 따라, 통상적으로 생성도는 안락 잡음 변수들은 엔코더에서 경험하게 되는 실제 배경잡음의 특성을 기초로 수정된다. 수정된 변수들로부터 생성되는 안락 잡음은 통상적으로 생성되는 안락 잡음 보다 덜 정적인 것으로 느껴지고, 엔코더에서 경험하게 되는 실제 배경잡음에 보다 유사하다.

도 1은 통상적인 음성 엔코더에서 안락 잡음 변수들의 생성을 도식적으로 설명하는 도면.

도 2는 통상적인 음성 디코더에서 안락 잡음의 생성을 도식적으로 설명하는 도면.

도 3은 본 발명에 따른 안락 잡음을 생성하는데 사용하는 안락 잡음 변수 수정기를 설명하는 도면.

도 4는 도 3의 수정의 예시적인 실시예를 설명하는 도면.

도 5는 도 4의 가변성 추정기의 예시적인 실시예를 설명하는 도면.

도 5A는 도 5의 SELECT 신호의 예시적인 신호를 설명하는 도면.

도 6은 도 3-5의 수정기의 예시적인 실시예를 설명하는 도면으로서, 도 5의 가변성 추정기가 엔코더와 디코더에 부분적으로 제공되는 상황을 설명하는 도면.

도 7은 도 3-6의 수정기가 수행할 수 있는 예시적인 동작을 설명하는 도면.

도 8은 도 7의 추정단계 예를 설명하는 도면.

도 9는 도 3-8의 수정기 실시예들을 구현할 수 있는 음성통신시스템을 설명하는 도면.

도 3은 본 발명에 따라 안락 잡음 변수들 수정하는 안락 잡음 변수 수정기(30)를 설명한다. 도 3의 예에서, 수정기(30)는 입력(33)에서 통상적인 보간된 안락잡음 변수들, 예컨대 도 2의 보간기(23)에서부터 출력되는 스펙트럼과 에너지 변수들을 수신한다. 수정기(30)는 또한 엔코더에서 경험하게 되는 배경잡음과 관련된 스펙트럼과 에너지 변수들을 입력(31)에서 수신한다. 수정기(30)는 31에서 수신한 배경잡음 변수들을 기반으로 수신한 안락잡음 변수들을 수정하여 35에서 수정된 안락잡음 변수들을 생성한다. 그런 다음, 수정된 안락잡음 변수들은 통상적인 안락잡음 합성 작업에 사용하기 위해 도 2의 안락잡음 합성섹션(25)에 제공된다. 35에 제공된 수정된 안락잡음 변수들은 합성섹션(25)이, 음성 엔코더에 제공되는 실제 배경잡음을 보다 정확히 재생하는 안락잡음을 생성할 수 있도록 한다.

도 4는 도 3의 안락잡음 변수 수정기(30)의 예시적인 실시예를 설명한다. 수정기(30)는 배경잡음의 스펙트럼과 에너지 변수들을 수신하기 위해 입력(31)에 연결되는 가변성 추정기(variability estimator)(41)를 포함한다. 가변성 추정기(41)는 배경잡음 변수들의 가변 특성을 추정하여, 배경잡음 변수들의 가변성을 나타내는 정보를 43에서 출력한다. 상기 가변성 정보는 변수들의 평균값에 대한 변수들의 가변성을 특징할 수 있다. 예컨대 변수의 평균값에서부터 변수들의 변화, 또는 최대 편차를 특징할 수 있다.

가변성 정보(43)는 또한 상관특성, 시간에 대한 변수의 전개, 또는 시간에 대한 변수의 가변성의 다른 측도(measure)를 나타낼 수 있다. 시간 가변성 정보의 예들은, 변수의 변화율(빠른 또는 느린 변화), 변수의 변화, 최대 평균 편차, 변수의 가변성을 특징하는 다른 통계적인 측도와 같은 단순한 측도와 자동상관 (autocorrelation) 특성과, 변수로부터 추정된 자동회귀(auto-regressive:AR) 예측기(predictor)의 필터 계수와 같은 보다 진보된 측도를 포함한다. 단순한 변화율 측도의 한 예는 부호 변환율(zero corssing rate)을 계수하는 것이다. 즉, 연속적인 변수값들에서 제1변수값에서 마지막 변수값을 보았을 때 변수의 부호(sign)가 변경하는 횟수를 계수하는 것이다. 추정기(41)에서부터 43에서 출력된 정보는 결합기(combiner)(45)에 입력되고, 결합기는 수정된 안락잡음 변수들을 35에서 생성하기 위해 33에서 수신한 보간된 안락잡음 변수들과 상기 출력정보를 43에서 결합한다.

도 5는 도 4의 가변성 추정기(41)의 예시적인 실시예를 설명한다. 도 5의 추정기는 배경잡음의 스펙트럼과 에너지 변수들을 수신하는 입력(31)에 연결된 평균 가변성 결정기(51)를 포함한다. 상기 평균 가변성 결정기(51)는 상기에서 설명한 것과 같이 평균 가변성 특징을 결정할 수 있다. 예컨대, 만일 도 3의 배경잡음 버퍼(37)가 8 프레임과 32 서브프레임을 포함한다면, 버퍼링된 스펙트럼과 에너지 변수들의 가변성은 다음과 같이 분석할 수 있다. (SID 프레임들을 생성하기 위해 DTX 엔코더에서 통상적으로 이루어지는 것과 같이) 버퍼링된 스펙트럼 변수들의 평균(mean)값을 계산하여 버퍼링된 스펙터럼 변수값들로부터 감산하여, 스펙트럼적인 편차값의 벡터를 산출한다. 비슷하게, (SID 프레임드을 생성하기 위해 DTX 엔코더에서 통상적으로 이루어지는 것과 같이)버퍼링된 에너지 변수들의 평균 서브프레임값을 계산하여 버퍼링된 상기 서브프레임 에너지 변수값들에서부터 감산하여, 에너지 편차값들의 벡터를 산출한다. 그러므로, 스펙트럼과 에너지 벡터들은 스펙트럼과 에너지 변수들의 평균이-제거된(mean-removed) 값들을 포함한다. 스펙트럼과 에너지 편차 벡터들은 통신경로(52)를 통해 가변성 결정기(51)에서 편차 벡터 저장유닛(55)으로 전송된다.

계수 계산기(53)는 또한 배경잡음 변수들을 수신하기 위해 입력(31)에 연결된다. 예시적인 계수 계산기(53)는 스펙트럼과 에너지 변수들 각각에 대해 통상적인 AR 추정을 수행하도록 동작할 수 있다. AR 추정으로부터 나온 필터 계수들은 통신경로(54)를 통해 계수 계산기(53)에서 필터(57)로 전송된다. 53에서 계산한 필터 계수들은, 예컨대 스펙트럼과 에너지 변수들에 대해 각각 올-폴(all-pole) 필터들을 규정할 수 있다.

한 실시예에서, 계수 계산기(53)는 스펙트럼과 에너지 변수들 둘다에 대해 1차 AR 추정을 수행하여, 통상적인 방식으로 각각의 변수에 대해 필터 계수 a1=Rxx(1)/Rxx(0)를 계산한다. Rxx(0)와 Rxx(1) 값들은 특정 변수의 통상적인 자동 상관 값들이다.

이들 Rxx 계산에서, x는 배경잡음(예컨대, 스펙트럼 또는 에너지) 변수를 나타낸다. a1의 양의 값은 일반적으로, 변수가 천천히 변화한다는 것을 나타내고, 음의 값은 일반적으로 급속한 변화를 나타낸다.

한 실시예에 따라, 스펙트럼 변수들 프레임 각각과, 에너지 변수들의 서브프레임 각각에 대해, 대응하는 편차 벡터로부터의 성분 x(k)는 (저장 유닛 55의 SELECT 입력을 통해) 무작위적으로 선택되어 대응하는 필터 계수를 사용하는 필터(57)에 의해 필터링된다. 그런 다음, 필터로부터의 출력은 스케일링 장치 (scaling appartus)(59), 예컨대 승산기를 통해 상수 스케일 인자에 의해 스케일된다. 도 5에서 xp(k)로 표시되는, 스케일된 출력은 도 4의 결합기(45)의 입력(43)에 제공된다.

한 실시예에서, 도 5A에 도시적으로 설명하였듯이, 부호 변환율 결정기(50)는 31에서 연결되어 37 버퍼링된 변수들을 수신한다. 결정기(50)는 스펙트럼과 에너지 변수들의 부호 변환율 각각을 결정한다. 즉, 37에 버퍼링된 에너지 변수들의 순서에 대해 또한 37에 버퍼링된 스펙트럼 변수의 순서에 대해, 부호 변환율 결정기(50)는, 버퍼링된 순서로 제1변수값에서 마지막 변수값을 보았을 때에 관련 변수값의 부호가 변화하는 순서의 횟수를 결정한다. 그런 다음, 이 부호 변환율 정보는 56에서 사용되어 도 5의 SELECT 신호를 제어한다.

예컨대, 소정의 편차 벡터에 대해, 만일 변수와 관련된 부호 변환율이 상당히 높으면(상당히 높은 변수 가변성을 나타냄) SELECT 신호는 (모든 프레임 또는 서브프레임과 같이 자주) 상당히 빈번히 편차 벡터의 성분 x(k)를 무작위적으로 선택하도록 제어되고 또한 만일 관련된 부호 변환율이 상당히 낮으면(상당이 낮은 변수 가변성을 나타냄) 상기 SELECT 신호는 (모든 프레임 또는 서브프레임 보다는 덜 자주) 보다 적은 횟수로 편차 벡터의 성분 x(k)를 무작위적으로 선택하도록 제어된다. 다른 실시예들에서, 소정 편차 벡터의 성분 x(k)의 선택 횟수는 규정되고, 요망하는 값에 설정될 수 있다.

도 4의 결합기는 통상적인 안락잡음 변수들과 스케일된 출력 xp(k)를 결합하도록 동작한다. 상기 결합은 스펙트럼적인 변수들에 대해서는 프레임 단위로 수행되고, 에너지 변수들에 대해서는 서브프레임 단위로 수행된다. 한 실시예에서, 결합기(45)는 신호 xp(k)를 단순히 통상적인 안락잡음 변수들에 부가하는 가산기 (adder)일 수 있다. 따라서, 도 5의 스케일된 출력 xp(k)는 안락잡음 합성섹션(25)에 입력되게 되는 수정된 (또는 교란된(perturbed)) 안락잡음 변수를 생성하기 위하여 33에서 수신되는 통상적인 안락잡음 변수들을 교란하기 위해 결합기(45)가 사용하는 교란신호로 여길 수 있다(도 2-4 참조).

통상적인 안락잡음 합성섹션(25)은 교란된 안락잡음 변수들을 통상적인 방식으로 사용할 수 있다. 통상적인 변수들의 교란으로 인해, 생성되는 안락잡음은 반-무작위 가변성을 가지게 되는데, 이는 자동차 잡음뿐만 아니라 왁자지껄한 소리와 길거리 소음과 같은 보다 가변적인 배경잡음에 대해 감각 품질을 상당히 향상시킨다.

한 실시예에서, 교란신호 xp(k)는 다음과 같이 나타낼 수 있다:

이때

는 스케일링 인자이고, b0_x 와 a1_x 들은 필터 계수이고,

는 대역폭 확장인수이다.

도 5의 파선은, 필터링 연산이 생략되고, 또한 교란신호 xp(k)가 스케일된 편차 벡터 성분을 포함하는 실시예를 설명한다.

몇몇 실시예에서, 도 3-5의 수정기는 음성 디코더내에 완전히 제공되고, 다른 실시예들에서는 도 3-5의 수정기는 음성 엔코더와 음성 디코더 사이에 설치된다(도 9의 파선을 참조). 수정기(30)가 디코더 내에 완전히 제공되는 실시예들에서, 도 3에 도시된 배경잡음 변수들은 디코더에서와 같이 식별되어야만 한다. 이는 37에서 엔코더에서 수신되는 요망하는 량(프레임들 및 서브프레임들)의 스펙트럼과 에너지 변수들을 전송채널을 통해 버퍼링함으로써 이룰 수 있다. DTX 방법에서, 디코더에서 통상적으로 이용할 수 있는 암시적인 정보는, 버퍼(37)가 배경잡음과 관련된 변수들만을 포함하는 때를 결정하는데 사용할 수 있다. 예컨대, 만일 버퍼(37)가 N개의 프레임들을 버퍼할 수 있고 또한 전송전 음성 세그먼트 후에 행오버의 N 프레임들을 사용한다면, DTX 모드로 전환전의 이들 마지막 N 프레임들은 배경잡음의 스펙트럼과 에너지 변수들만을 포함하는 것으로 알려져 있다. 그런 다 음, 이들 배경잡음 변수들은 상기에서 설명한 것과 같이 수정기(30)가 사용할 수 있다.

수정기(30)가 엔코더와 디코더 사이에 설치되어 있는 실시예에서, 평균 가변성 결정기(51)와 계수 계산기(53)를 엔코더에 제공할 수 있다. 그러므로, 이러한 실시예에서 통신경로 (52 및 54)들은 엔코더에서 디코더로 통상적인 안락잡음 변수들을 전송하는데 사용하는 통상적인 통신경로와 유사하다(도1 및 도2 참조). 특히, 도 6에 도시되어 있듯이, 경로(52 및 54)는 양자화기(역시 도1 참조)와, 통신채널(역시 도1 및 2 참조) 및 역양자화 섹션(역시 도 2 참조)을 지나 저장유닛(55)과 필터(57)로 각각 진행한다(역시 도5 참조). AR 필터 계수뿐만 아니라 스칼라 값의 양자화에 대해 잘 공지된 기술들을 평균 가변성 및 AR 필터 계수정보에 관해 사용할 수 있다.

통상적인 수단을 통해, 엔코더는 평균 가변성 결정기(51)와 계수 계산기(53)로 처리를 위해 배경잡음의 스텍트럼과 에너지 변수들을 이용할 때를 알 수 있는데, 이는 엔코더가 통상적으로 동일한 스펙트럼과 에너지 변수들을 사용하여 통상적인 안락잡음 변수들을 생성하기 때문이다. 통상적인 엔코더들은 전형적으로 다수의 프레임들에 대해 평균 에너지와 평균 스펙트럼을 계산하고, 이들 평균 스펙트럼과 에너지 변수들은 안락잡음 변수로서 디코더에 전송된다.

계수 계산기(53)으로부터 필터 계수들과 평균 가변성 결정기(51)로부터의 편차 벡터들은 도 6에 도시된 것과 같이 전송채널을 지나 엔코더에서 디코더로 전송되어야만 하기 때문에, 엔코더와 디코더 사이에 수정기가 설치되면 여분의 대역폭 이 필요하다. 반대로, 수정기가 디코더 내에 완전하게 제공되면, 이의 구현을 위해 여분의 대역폭이 필요없다.

도 7은 도 305의 수정기 실시예들에 의해 수행될 수 있는, 상기에서 설명한 예시적인 동작을 설명한다. 이용가능한 스펙트럼과 에너지 변수들(예컨대, 도 3의 버퍼 37 내에 있음)이 음성 또는 배경잡음과 관련되는지가 71에서 먼저 결정된다. 만일 이용가능한 변수들이 배경잡음과 관련되어 있다면, 평균 가변성과 시간 가변성과 같은 배경잡음의 특성이 73에서 추정된다. 이후에, 75에서 보간된 안락잡음 변수들이 추정된 배경잡음의 특성에 따라 교란된다. 75에서의 교란 프로세스는 77에서 배경잡음이 검출되는 한은 지속된다. 만일 음성활동이 77에서 검출되면, 다른 배경잡음 변수들의 이용가능성이 71에서 대기된다.

도 8은 도 7의 추정단계 73 동안에 수행할 수 있는 예시적인 동작을 설명한다. 81에서 프로세싱은 상기에서 언급한 N개의 버퍼링된 프레임들에 대응하는 N 프레임과 kN 서브프레임들을 고려한다. 한 실시예에서, N=8이고 k=4이다. N 성분들을 가지는 스펙트럼 편차들의 벡터가 83에서 구해지고 kn 성분을 가지는 에너지 편차의 벡터가 85에서 구해진다. 87에서, 편차 벡터들 각각에서부터 성분이 선택된다(예컨대, 무작위적으로 선택된다). 89에서, 필터 계수가 계산되고, 선택된 벡터성분들이 필터링된다. 88에서, 도 7의 단계 75에서 사용하는 교란신호를 생성하기 위해, 필터링된 상기 벡터성분들은 스케일링된다. 도 8의 파선은 도 5의 파선 실시예에 대응한다. 즉, 이 실시예는, 필터링이 생략되고 그리고 스케일링된 편차 벡터성분들이 교란변수로서 사용되는 실시예이다.

도 9는 도 3-8의 안락잡음 변수 수정기 실시예들을 구현할 수 있는 예시적인 음성통신시스템을 설명한다. 송신기 XMTR은 전송채널(95)을 통해 수신기 RCVR내 음성 디코더(93)에 커플링되는 음성 엔코더(91)를 포함한다. 도 9의 송신기와 수신기 중 하나 또는 둘 다는 예컨대, 무선전화의 일부일 수 있거나 또는 무선통신시스템의 다른 부품일 수 있다. 채널(95)은 무선통신채널을 포함한다. 도 9에 도시된 바와 같이, 도 3-8의 수정기 실시예들은 디코더내에구현할 수 있거나 또는 도 5와 6과 관련해 상기에서 설명한 것과 같이 엔코더와 디코더 사이에 설치될 수 있다(파선 참조).

도 3-9의 실시예들은 적절한 수정 소프트웨어, 하드웨어 또는 둘 다에 의해 통상적인 음성코덱에 쉽게 구현될 수 있다는 것은 본 기술분야의 당업자라면 잘 알 것이다.

상기에서 설명한 본 발명은 (부가적인 대역폭 또는 전력소비 없이) 배경잡음의 자연스러움을 개선시킨다. 이는, 음성코덱에서 음성과 비음성 간에 보다 이음새가 없는 스위칭이 이루어지도록 하여, 사람의 귀가 보다 잘 수용할 수 있도록 한다.

본 발명의 예시적인 실시예들이 상기에서 상세히 설명되었지만, 이는 본 발명의 범위를 제한하는 것이 아니고, 차라리 다양한 실시형태로 구현할 수 있다.

Claims

음성 디코더에서 안락잡음을 생성하는 방법에 있어서, 상기 음성 디코더는 통신채널을 통해 인코더로부터 음성정보 및 복수개의 안락잡음 변수 값들을 수신하고, 상기 음성 디코더는 상기 복수개의 안락잡음 변수 값들을 보간하고 보간된 안락잡음 변수 값들로부터 안락잡음을 생성하고,

상기 음성 디코더에 의해 수신기 버퍼로부터 실제 배경잡음을 나타내는 배경잡음 변수 값들을 수신하고;

상기 음성 디코더에서 시간 주기 동안의 배경잡음 변수 값들의 평균값을 계산하고;

상기 음성 디코더에서 상기 계산된 배경잡음 변수 값들의 평균값에 비교해 상기 배경잡음 변수 값들이 어떻게 변화하는지를 나타내는 가변성 정보를 계산하고;

교란된 안락잡음 변수 값들을 생성하기 위해 상기 음성 디코더가 상기 가변성 정보에 응해 상기 보간된 안락잡음 변수 값들을 교란하고; 그리고

교란된 안락잡음의 생성에 사용되기 위한 적어도 상기 교란된 안락잡음 변수 값들의 일부를 상기 음성 디코더가 선택하는;

단계들을 포함하여 이루어지는 것을 특징으로 하는 음성 디코더에서 안락잡음을 생성하는 방법.
제1항에 있어서, 상기 배경잡음 변수가 스펙트럼 변수인 것을 특징으로 하는 방법.
제1항에 있어서, 상기 가변성 정보를 계산하는 단계가 배경잡음 변수 값 각각에서부터 상기 평균값을 감산하여 다수의 편차값을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
제3항에 있어서, 상기 교란 단계는 상기 편차값들 중 하나를 무작위적으로 선택하고, 무작위적으로 선택한 상기 편차값을 스케일 인자로 스케일링하여 스케일링된 편차값을 생성하고, 그리고 스케일링된 편차값을 안락잡음 변수 값들 중 하나와 결합하여 교란된 안락잡음 변수 값들 중 하나를 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 음성 디코더가 무선통신장치 내에 제공되는 것을 특징으로 하는 방법.
제5항에 있어서, 상기 음성 디코더가 셀룰러전화 내에 제공되는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 가변성 정보를 계산하는 단계가 평균값이 제거된 배경잡음 변수 값들을 생성하기 위해 상기 평균값과 상기 배경잡음 변수 값들의 적어도 몇몇의 차이를 계산하는 단계를 포함하는 것을 특징으로 하는 방법.
제7항에 있어서, 상기 가변성 정보를 계산하는 단계가 다수의 배경잡음 변수 값들을 사용하여 필터 계수들을 계산하고, 상기 필터 계수들에 따라 평균값이 제거된 배경잡음 변수 값들 중 적어도 몇몇을 필터링하는 단계를 포함하는 것을 특징으로 하는 방법.
제8항에 있어서, 상기 가변성 정보를 계산하는 단계가 자동-회귀 예측 필터의 필터계수를 계산하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 가변성 정보가 배경잡음 변수 값들이 시간에 대해 어떻게 변하는지를 나타내는 시간 가변성 정보를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 가변성 정보를 계산하는 단계는 프레임 단위로 상기 배경잡음 변수 값들에 대한 가변성 정보에 상기 보간된 안락잡음 변수 값들을 결합하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 가변성 정보를 계산하는 단계는 시간 변화율, 평균값으로부터의 변화, 평균값으로부터의 최대 편차 및 부호 변환율로 이루어진 그룹으로부터 적어도 하나의 가변성 인자를 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
통신채널로부터 음성 및 잡음 정보를 수신하는 음성 디코더에서,

안락잡음 생성을 위해 음성 디코더가 사용하는 복수개의 보간된 안락잡음 변수 값들을 제공하는 제1 입력부;

수신기 버퍼로부터의 배경잡음 변수의 값들을 제공하는 제2 입력부;

상기 제2 입력부에 연결되어 있고, 가변성 정보를 계산하기 위해 상기 배경잡음 변수 값들에 감응하고, 시간 주기 동안의 배경잡음 변수의 평균값을 계산하기 위해 복수개의 상기 배경잡음 변수 값들에 감응하고, 상기 배경잡음 변수의 평균값에 비교해 상기 배경잡음 변수가 어떻게 변하는지를 나타내는 가변성 정보를 생성하고 평균값이 제거된 배경잡음 변수 값들을 생성하기 위해 상기 평균값과 상기 배경잡음 변수 값들의 적어도 몇몇의 차이를 계산할 수 있는 가변성 결정기를 포함하는 가변성 추정기;

상기 제1 입력부 및 제2 입력부에 연결되어 있고, 교란된 안락잡음 변수 값들을 생성하도록 상기 안락잡음 변수 값들을 교란하기 위해 상기 배경잡음 변수의 평균값에 대한 상기 평균값이 제거된 배경잡음 변수 값들의 가변성을 나타내는 가변성 정보에 감응하는 수정기; 및

상기 수정기에 연결되어, 교란된 안락잡음 생성에 사용하는 상기 교란된 안락잡음 변수 값들의 적어도 하나를 선택하는 출력부;

를 포함하여 이루어진 것을 특징으로 하는 안락잡음을 발생하는데 사용하는 안락잡음 변수들을 생성하는 장치.
제13항에 있어서, 상기 가변성 정보는 배경잡음 변수가 시간에 대해 어떻게 변하는지를 나타내는 시가변성 정보를 포함하는 것을 특징으로 하는 장치.
제14항에 있어서, 상기 가변성 추정기는 필터계수들을 계산하기 위해 다수의 배경잡음 변수 값들에 감응하는 계수 계산기를 포함하고, 상기 시가변성 정보가 필터계수들을 포함하는 것을 특징으로 하는 장치.
제15항에 있어서, 상기 필터계수들이 자동-회귀 예측 필터의 필터계수인 것을 특징으로 하는 장치.
제15항에 있어서, 상기 필터계수들을 수신하기 위해 상기 계수 계산기에 연결되고, 또한 상기 필터계수들에 따라 평균값이 제거된 배경잡음 변수값들 중 적어도 몇몇을 필터링하기 위해 상기 평균 가변성 결정기에 연결되는 필터를 포함하는 것을 특징으로 하는 장치.
제15항에 있어서, 상기 계수 계산기가 음성 디코더에 제공되는 것을 특징으로 하는 장치.
제13항에 있어서, 상기 출력부는 상기 수신기 버퍼로부터 제공된 배경잡음 변수 값들의 순차적인 순서에 기초하여 적어도 하나의 교란된 배경잡음 변수 값을 선택하는 것을 특징으로 하는 장치.
제13항에 있어서, 상기 교란된 안락잡음 변수 값들은 무작위적으로 선택되는 것을 특징으로 하는 장치.
제13항에 있어서, 상기 출력부는 교란된 안락잡음 변수 값들을 선택하는 주기를 미리 결정된 값으로 설정하는 수단을 포함하는 것을 특징으로 하는 장치.
제13항에 있어서, 상기 수정기는 상기 평균값이 제거된 배경잡음 변수 값들 중 하나를 무작위적으로 선택하고, 스케일링된 평균값이 제거된 배경잡음 변수 값을 생성하기 위해 스케일 인자로 상기 선택된 평균값이 제거된 배경잡음 변수 값을 스케일링하고, 상기 교란된 안락잡음 변수 값들 중 하나를 생성하기 위해 상기 스케일링된 평균값이 제거된 배경잡음 변수 값에 상기 안락잡음 변수 값들 중 하나를 결합하는 것을 특징으로 하는 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제