KR101018952B1

KR101018952B1 - 음성 통신 시스템에서의 컴포트 노이즈 생성 방법 및 장치

Info

Publication number: KR101018952B1
Application number: KR1020087007709A
Authority: KR
Inventors: 에드가도 엠. 크루즈-제노; 제임스 피. 애쉴리
Original assignee: 모토로라 모빌리티, 인크.
Priority date: 2005-08-31
Filing date: 2006-06-29
Publication date: 2011-03-02
Also published as: WO2007027291A1; US7610197B2; KR20080042153A; CN101366077A; JP2007065636A; US20070050189A1; CN101366077B; JP4643517B2

Abstract

컴포트 노이즈 신호를 생성하기 위해 다양한 전자 디바이스에서 이용될 수 있는 방법은 음성 플러스 배경 노이즈를 나타내는 복수의 정보 프레임을 수신하는 단계; 복수의 정보 프레임에 기초하여 하나 이상의 배경 노이즈 특성을 추정하는 단계(325); 및 하나 이상의 배경 노이즈 특성에 기초하여 컴포트 노이즈 신호를 생성하는 단계(330)를 포함한다. 이 방법은 복수의 정보 프레임으로부터 음성 신호를 생성하는 단계; 및 음성 활성 검출에 기초하여 컴포트 노이즈 신호와 음성 신호 사이에서 스위칭함으로써(335) 출력 신호를 생성하는 단계를 더 포함할 수 있다.

음성 통신 시스템, 컴포트 노이즈 신호, 배경 노이즈, 정보 프레임, 음성 신호

Description

음성 통신 시스템에서의 컴포트 노이즈 생성 방법 및 장치{METHOD AND APPARATUS FOR COMFORT NOISE GENERATION IN SPEECH COMMUNICATION SYSTEMS}

본 발명은 일반적으로 통신 시스템에 관한 것으로서, 구체적으로는 음성 통신 시스템에서의 컴포트 노이즈 생성에 관한 것이다.

이동 통신 서비스에 대한 증가하는 요구를 만족시키기 위하여, 현대의 많은 이동 통신 시스템은 대화 동안에 채널이 40% 내지 60%의 시간까지만 음성 정보를 전송한다는 사실을 이용함으로써 그들의 능력을 향상시킨다. 나머지 시간은 채널이 침묵 또는 배경 노이즈를 전송하는 데 이용된다. 많은 경우에, 채널에서의 음성 활성은 40%보다 훨씬 더 낮다. 불연속 전송(DTX)과 같은 종래의 이동 통신 시스템들은 음성 활성이 없는 시간 동안에는 감소된 양의 정보를 전송함으로써 소정의 채널 능력 향상을 제공하였다.

도 1을 참조하면, 타이밍 도는 종래의 DTX 시스템에 대한 전형적인 아날로그 음성 신호(105) 및 대응하는 데이터 프레임 신호(110)를 나타낸다. DTX 시스템에서, 송신단은 통상적으로 음성 활성 검출기(VAD)를 이용하여 음성의 존재를 검출한다. VAD 출력에 기초하여, 송신단은 음성 활성이 존재할 때 액티브 음성 프레임(115)을 전송한다. 음성 활성이 검출되지 않을 때, 송신단은 침묵 식별[침묵 기 술자](SID) 프레임(120)을 간헐적으로 수신단에 전송하고, 음성이 다시 검출되거나 갱신 SID가 요구될 때까지 액티브 음성 프레임의 전송을 중지한다. 디코딩(수신)단은 SID 프레임(120)을 이용하여 "컴포트" 노이즈를 생성한다. SID 프레임이 수신되지 않을 때, 디코더는 그가 수신한 최종 SID 프레임에 기초하여 컴포트 노이즈를 계속 생성한다. 종래의 DTX 시스템의 일례가 3 세대 파트너쉽 프로젝트에 의해 발행된 3GPP TS 26.092 V6.00 (2004-12) Technical Specification; Technical Specification Group Services and System Aspects; Mandatory speech codec speech processing functions, Adaptive Multi-Rate (AMR) speech codec Comfort noise aspects(Release 6)에 기술되어 있다.

도 2를 참조하면, 타이밍 도면이 종래의 CTX 시스템에 대한 전형적인 아날로그 음성 신호(205) 및 대응하는 데이터 프레임 신호(210)를 나타낸다. CTX 시스템에서는, 가변 레이트 보코더를 사용하여 채널에서의 음성 활성을 이용할 수 있다. 이러한 시스템에서, 통신 링크를 유지하는 데 필요한 비트 레이트는 음성 활성이 없는 기간 동안 감소한다. VAD는 음성 활성 및 전송되는 음성 프레임의 타입에 따라 전송 비트 레이트를 변경하는 레이트 결정 서브 시스템의 일부이다. 이러한 기술의 일례는 CDMA 시스템에서 사용되는 EVRC(enhanced variable rate codec)이다. EVRC는 3개의 가능한 비트 레이트(풀, 하프 및 8 레이트 프레임) 중에서 선택한다. 음성 활성이 없는 동안에는 8 레이트 프레임만이 전송되며, 따라서 시스템에서 채널에 의해 사용되는 대역폭이 감소된다. 이러한 기술은 전체 시스템의 능력의 증가를 돕는다. 종래의 CTX 시스템의 일례가 EVRC에 의해 발행된 3GPP2 C.S0014-A V1.0 April 2004, Speech Service Option 3 for Wideband Spread Spectrum Digital Systems에 기술되어 있다.

패킷 기반 통신 시스템에서, 가변 레이트 코덱을 갖춘 DTX 또는 CTX 시스템에서 사용되는 것들과 같은 대역폭 감소 스킴들은 커다란 능력 향상을 제공하지 못할 수 있다. DTX 네트워크에서, 예를 들어 SID 프레임은 정상적인 음성 프레임의 대역폭과 동일한 대역폭을 사용할 수 있다. CTX 시스템에서, 가변 레이트 코덱을 이용하는 이점은 패킷 기반 네트워크 상에서의 커다란 대역폭 감소를 제공하지 못할 수 있다. 이것은 패킷 기반 네트워크에서 감소된 비트 레이트 프레임들이 음성 액티브 프레임과 유사한 대역폭을 사용할 수 있기 때문이다. 예를 들어, EVRC가 사용될 때, 각 패킷에 추가되는 오버헤드 정보로 인해, 8 레이트 패킷이 풀 레이트 또는 하프 레이트 패킷과 유사한 대역폭을 사용할 수 있으며, 따라서 다른 타입의 통신 채널 상에서 얻어지는 가변 레이트 코덱에 의해 제공되는 능력 향상이 없어진다.

EVRC를 이용하는 패킷 기반 네트워크에서 대역폭 사용을 줄이기 위한 하나의 접근법은 모든 8 레이트 패킷의 전송을 없애는 것이다. 그러면, 디코딩 측에서, 누락 패킷들은 FER(frame erasure)로서 처리될 수 있다. 그러나 EVRC의 FER 처리는 제거된 프레임들의 긴 스트링을 처리하도록 설계되지 않았으며, 따라서 이 기술은 사용자에게 제공되는 신호를 합성할 때 열악한 품질의 출력을 생성한다. 또한, 디코더는 제거된 8 레이트 프레임들에 의해 나타나는 배경 노이즈에 대한 어떠한 정보도 수신하지 못하므로, 송신 측에서의 오리지널 배경 노이즈 신호와 유사한 신 호를 생성할 수 없게 된다.

따라서, 네트워크 대역폭 사용을 줄이면서 보다 높은 품질을 달성하기 위해 전술한 방법을 개선할 필요가 있다.

개별 도면들 전반에서 동일한 참조 번호들이 동일하거나 기능적으로 유사한 요소들을 지칭하는 첨부 도면들은 아래의 상세한 설명과 함께 본 명세서에 포함되어 그 일부를 구성하며, 본 발명에 따른 실시예들을 더 설명하고 다양한 원리 및 이점을 설명한다.

도 1은 종래의 불연속 전송 시스템에 대한 전형적인 아날로그 음성 신호 및 대응하는 데이터 프레임 신호를 나타내는 타이밍 도면.

도 2는 종래의 불연속 전송 시스템에 대한 전형적인 아날로그 음성 신호 및 대응하는 데이터 프레임 신호를 나타내는 타이밍 도면.

도 3은 본 발명의 몇몇 실시예에 따른 인코더-디코더의 기능 블록도.

도 4는 본 발명의 실시예들에 따른 배경 노이즈 추정기의 기능 블록도.

도 5는 본 발명의 몇몇 실시예에 따른 누락 패킷 합성기의 기능 블록도.

도 6은 본 발명의 몇몇 실시예에 따른 리인코더의 기능 블록도.

도 7은 본 발명의 실시예들에 따라 음성 통신에서 컴포트 노이즈를 생성하는 방법의 몇몇 단계를 나타내는 흐름도.

도 8은 본 발명의 몇몇 실시예에 따라 가청 컴포트 노이즈를 생성할 수 있는 장치인 전자 디바이스의 블록도.

당업자들이라면 도면 내의 요소들이 간결하게 도시되어 있으며, 반드시 실제 치수에 따라 도시되어 있지는 않다는 점을 알 것이다. 예컨대, 도면 내의 소정 요소들의 몇몇 치수들은 본 발명의 실시예들의 이해를 돕기 위해 다른 요소들에 비해 확대될 수 있다.

본 발명에 따른 실시예들을 상세히 설명하기 전에, 실시예들은 주로 음성 통신 시스템에서의 컴포트 노이즈 생성과 관련된 방법 단계들 및 장치 컴포넌트들의 조합에 존재한다는 점에 유의해야 한다. 따라서, 장치 컴포넌트들 및 방법 단계들은 당업자들에게 자명할 수 있는 세부 사항에 의해 불명확하게 되는 것을 피하기 위해 본 발명의 실시예들의 이해와 관련된 특정한 세부 사항만을 나타내는 도면들 내의 통상의 심벌들에 의해 적절히 표시된다.

본 명세서에서, 제1 및 제2, 상부 및 하부 등과 같은 관계 용어들은 엔티티들 또는 액션들 간의 임의의 실제 관계 또는 순서를 요구하거나 의미할 필요 없이 하나의 엔티티 또는 액션을 다른 엔티티 또는 액션과 구별하기 위해서만 사용될 수 있다. 용어 "포함한다", "포함하는" 또는 이들의 임의의 다른 변형은 비배타적으로 포함한다는 것을 의도하며, 따라서 요소들의 리스트를 포함하는 프로세스, 방법, 물건 또는 장치는 이들 요소만을 포함하는 것이 아니라, 명시적으로 리스트되거나 프로세스, 방법, 물건 또는 장치에 고유하지 않은 다른 요소들을 포함할 수도 있다. "하나의 ~를 포함한다"로 진행되는 요소는, 보다 많은 한정 없이, 그 요소를 포함하는 프로세스, 방법, 물건 또는 장치 내의 추가적인 동일 요소들의 존재를 배제하지 않는다.

아래에서, CTX 시스템에서 비음성 프레임들을 전송할 필요를 줄이거나 없애는 프레임 억제 방법이 설명된다. 종래의 방법과 달리, 본 명세서에 설명되는 방법은 특히 패킷 기반 네트워크에서 컴포트 노이즈와 감소된 대역폭 이용의 보다 양호한 종합을 제공한다.

도 3을 참조하면, 본 발명의 몇몇 실시예에 따른 인코더-디코더(300)의 기능 블록도가 도시되어 있다. 인코더-디코더(300)는 인코더(301) 및 디코더(302)를 포함한다. 아날로그 음성 신호(304) s는 프레임 버퍼(305)에 의해 프레임들(306)로 분해되고, 패킷 인코더(310)에 의해 인코딩된다. 입력 신호의 특성들에 기초하여, DTX 스위치(315)에 의해 현재 음성 패킷을 전송하거나 누락시키기 위한 결정이 이루어진다. 디코딩 측에서, 수신된 패킷들(319)은 패킷 디코더(320)에 의해 정보 프레임(321)이라고도 하는 프레임들 s_m(n)로 디코딩된다.

본 명세서에 설명되는 본 발명의 실시예들은 US 특허 제5,870,397호에서 행해지는 바와 같이 임의의 SID 프레임들, 또는 비록 패킷 디코더(320)에서 수신될 경우에는 사용될 수 있는 노이즈 인코딩(8 레이트) 프레임들을 전송하기 위한 패킷 인코더(310)(송신 측)를 필요로 하지 않는다. 컴포트 노이즈를 재생하기 위하여, 이들 실시예에서는 배경 노이즈 추정기(325)를 이용하여, 디코딩된 액티브 음성 정보 프레임들(321)을 처리하고, 배경 노이즈의 스펙트럼 특성(326)(배경 노이즈 특성이라고도 한다)의 추정 값을 산출한다. 이렇게 추정된 배경 특성들(326)은 누락 패킷 합성기에 의해 컴포트 노이즈 신호(331)를 생성하는 데 사용된다. 이어서, 스위치(335)를 이용하여, 정보 프레임들(321)과 컴포트 노이즈(331) 중에서 선택하여, 출력 신호(303)를 생성한다. 스위치는 액티브 음성을 포함하는 정보 프레임들이 2개의 정상 프레임의 기간과 같은 소정 시간 동안 수신되지 않을 때를 검출하는 음성 활성 검출기(도 3에 도시되지 않음)에 의해 활성화된다.

후술하는 바와 같이, 스위치(335)는 "소프트" 스위치로서 간주될 수 있다.

도 4를 참조하면, 본 발명의 실시예들에 따른 배경 노이즈 추정기의 기능 블록도가 도시되어 있다. 본 명세서에서 정보 프레임이라고도 하는 디코딩된 음성 플러스 노이즈 프레임 m에 대해, 다음과 같이 음성 플러스 노이즈 신호(321) s_m(n)로부터 배경 노이즈 추정치가 얻어질 수 있다. 먼저, 이산 푸리에 변환(DFT) 함수(405)를 이용하여 음성 플러스 노이즈 프레임(406) S_m(k)의 DFT를 얻는데, 여기서 k는 빈(bin)들에 대한 인덱스이다. 프레임의 스펙트럼 표현의 각각의 빈 k에 대해, 또는 채널이라고 하는 한 그룹의 빈들 각각에 대해, 추정 채널 또는 빈 에너지 E_ch(m,i)가 계산된다. 이것은 각각의 채널 i(i=0 내지 N_c-1이고, N_c는 채널 수이다)에 대해 아래의 수학식 1을 이용하여 달성될 수 있다. 각각의 i 값에 대해, 이 연산은 도 4에서 설명되는 바와 같은 추정 채널 에너지 추정기들(ECE; 420) 중 하나에 의해 수행될 수 있다.

여기서, E_min은 최소 허용 가능 채널 에너지이고, α_w(m)은 채널 에너지 평활화 인자(아래에 정의됨)이고, f_L(i) 및 f_H(i)는 각각의 낮고 높은 채널 조합 테이블들의 i 번째 요소들이며, 이들은 아래에 보여지는 것과 같은 EVRC의 노이즈 억제를 위해 정의되는 동일한 제한들 또는 다른 시스템에서 적합하도록 결정되는 다른 제한들일 수 있다.

채널 에너지 평활화 인자 α_w(m)는 프레임 에러의 존재를 포함하는 상이한 인자들에 따라 변할 수 있다. 예를 들어, 인자는 다음과 같이 정의될 수 있다.

이것은 α_w(m)이 첫 번째 프레임(m=1)에 대해 0의 값을, 모든 후속 프레임에 대해 가중 계수 w_α의 0.85배의 값을 취한다는 것을 의미한다. 또한, 이는 추정 채널 에너지가 첫 번째 프레임의 필터링되지 않은 채널 에너지로 초기화되는 것을 가 능하게 하며, 모든 다른 프레임에 대한 가중 계수를 통한 소정의 적응 제어를 제공한다. 가중 계수는 다음과 같이 변할 수 있다.

각 채널에 대한 배경 노이즈 에너지의 추정치 E_bgn(m,i)는 다음 식에 따라 얻어지고 갱신될 수 있다.

각각의 i 값에 대해, 이 연산은 도 4에 도시된 바와 같은 배경 노이즈 추정기들(425) 중 하나에 의해 수행될 수 있다. 수학식 5에 의해 주어지는 배경 노이즈 추정치 E_bgn은 도 5 및 6을 참조하여 더 후술하는 바와 같이 사용될 수 있는 배경 특성들의 한 형태이다. 다른 것들도 사용될 수 있다.

프레임 m의 채널 i에 대한 추정 채널 에너지가 프레임 m-1의 채널 i의 배경 노이즈 에너지 추정치보다 작을 때, 프레임 m의 채널 i의 배경 노이즈 에너지 추정치는 프레임 m의 채널 i에 대한 추정 채널 에너지로 설정된다는 것을 이해할 것이다.

프레임 m의 채널 i에 대한 추정 채널 에너지가 프레임 m-1의 채널 i의 배경 노이즈 추정치보다 이 예에서 12 데시벨인 값만큼 큰 경우, 프레임 m의 채널 i의 배경 노이즈 추정치는 프레임 m-1의 채널 i에 대한 배경 노이즈 플러스 이 예에서 0.005 데시벨인 제1 소량 증분치로 설정된다. 값 12는 채널 에너지가 본 명세서에서 E_voice로도 식별되는 액티브 음성 에너지일 가능성이 매우 큰 최소 데시벨 값을 나타낸다. 제1 소량 증분치는 본 명세서에서 Δ₁로서 식별된다. 프레임 레이트가 초당 50 프레임이고, E_ch가 수초 동안 몇몇 주파수 채널에서 E_voice 이상으로 유지될 때, 배경 노이즈 추정치는 초당 0.25 데시벨만큼 증가된다는 것을 이해할 것이다.

프레임 m의 채널 i에 대한 추정 채널 에너지가 프레임 m-1의 채널 i의 배경 노이즈 추정치보다 이 예에서 12 데시벨보다 작고 프레임 m-1의 채널 i의 배경 노이즈 추정치 이상인 값만큼 큰 경우, 프레임 m의 채널 i의 배경 노이즈 에너지 추정치는 프레임 m-1의 채널 i에 대한 배경 노이즈 에너지 추정치 플러스 이 예에서 0.01 데시벨인 제2 소량 증분치로 설정된다. 값 12 데시벨은 E_voice를 나타낸다. 제2 소량 증분치는 본 명세서에서 Δ₂로서 식별된다. 프레임 레이트가 초당 50 프레임이고, 추정 채널 에너지가 수초 동안 몇몇 주파수 채널에서 E_voice 이상으로 유지될 때, 배경 노이즈 에너지 추정치는 채널마다 초당 0.5 데시벨 증가한다는 것을 이해할 것이다. 추정 채널 에너지가 이전 프레임으로부터의 배경 노이즈 에너지 추정치에 보다 가까운 경우, 배경 노이즈 에너지 추정치는 보다 큰 값만큼 증가하는데, 이는 채널 에너지가 배경 노이즈로부터 유래될 가능성이 보다 높기 때문이라 는 것을 이해할 것이다. 이 때문에, 이들 실시예에서 Δ₂는 Δ₁보다 크다는 것을 이해할 것이다.

몇몇 실시예에서, E_voice,Δ₁ 및 Δ₂의 값들은 시스템 특성들에서의 차이를 조절하기 위하여 상이하게 선택될 수 있다. 예를 들어, Δ 또는 Δ₁은 최대 0.5 dB가 되도록 설계될 수 있고, Δ₂는 최대 1.0 dB가 되도록 설계될 수 있으며, E_voice는 50 dB보다 작을 수 있다.

또한, 복수의 증분치가 존재하도록, 또는 프레임 m의 채널 i의 추정 채널 에너지와 프레임 m-1의 채널 i의 배경 노이즈 추정치의 차와 기준 값(예를 들어 12 데시벨)의 비로부터 증분치가 계산될 수 있도록 보다 많은 인터벌이 사용될 수 있다. 당업자들에게 자명한 다른 함수들을 이용하여, 음성 오디오와 동시에 존재하는 배경 오디오의 양호한 추정을 행하는 배경 특성들을 생성할 수 있다.

몇몇 실시예에서, 배경 노이즈 추정기들은 보다 간단한 기술에 따라 배경 특성들(426) E_bgn(m,i)을 결정할 수 있다.

이 기술에 의하여 제공되는 배경 노이즈 에너지 추정치들(배경 특성들)의 값들은 전술한 것들만큼 양호하게 작용하지 않을 수 있지만, 본 명세서에서 설명되는 다른 실시예들의 이익들 중 일부를 여전히 제공할 것이다.

도 5를 참조하면, 본 발명의 몇몇 실시예에 따른 누락 패킷 합성기(330; 도 3)의 기능 블록도가 도시되어 있다. 배경 노이즈 추정치 E_bgn(326)는 배경 노이즈 추정기(325; 도 3)에 의해 모든 수신된 음성 프레임에 대해 갱신된다. 패킷 디코더(320)가 프레임 m에 대한 패킷을 수신할 때, 이 패킷은 s_m(n)을 생성하기 위해 디코딩된다. 패킷 디코더(320)가 음성 프레임이 누락되거나 수신되지 않은 것을 검출할 때, 누락 패킷 합성기(330)는 E_bgn의 스펙트럼 특성들에 기초하여 컴포트 노이즈를 합성하도록 동작한다. 컴포트 노이즈는 다음과 같이 합성될 수 있다.

먼저, 컴포트 노이즈의 스펙트럼의 크기 X_decmag(m,k)가 배경 노이즈 추정치(426) E_bgn(m,i)에 기초하여 스펙트럼 컴포넌트 크기 계산기(505)에 의해 산출된다. 이것은 수학식 7에 보여지는 바와 같이 달성될 수 있다.

수학식 8에 따라서 스펙트럼 컴포넌트 랜덤 위상 생성기(510)에 의해 랜덤 스펙트럼 컴포넌트 위상들이 생성된다.

여기서, ran0은 [0.0,1.0] 범위에서의 균일 분포 의사 난수 생성기이다. 배경 노이즈 스펙트럼은 수학식 9에서와 같이 승산기(515)에 의해 생성되며,

이어서, 역 DFT(520)를 이용하여 시간 도메인으로 변환되어 수학식 10이 생성된다.

여기서, g(n)은 수학식 11에 의해 정의되는 평활화된 사다리꼴 윈도우이다.

여기서, L은 디지탈화된 오디오 프레임 길이이고, D는 디지털화된 오디오 프레임 오버랩이며, M은 DFT 길이이다.

수학식 10에 대해, x_dec(m-1,n)은 액티브 음성 패킷이 수신되지 않은 때 패킷 디코더(320)로부터, 또는 생성된 컴포트 노이즈 프레임으로부터 나올 수 있는 이전 프레임의 출력이다. 수학식 10은 이전 및 현재 프레임의 오버랩-추가를 이용하여 프레임들의 전이를 통해 오디오를 평활화함으로써 컴포트 노이즈의 기간 동안, 그 리고 컴포트 노이즈의 기간 후의 하나의 액티브 음성 프레임 동안 음성 신호 x_dec가 생성되는 방법을 정의한다. 이들 식에 의해, 연속적인 컴포트 노이즈 프레임들 간의 전이는 물론, 컴포트 노이즈와 액티브 음성 간의 전이 및 그 반대의 전이 동안 평활화가 또한 발생한다. 다른 통상의 오버랩 함수들이 몇몇 다른 실시예에서 사용될 수 있다. 수학식 10 및 11의 사용으로부터 결과되는 오버랩은 도 3의 스위치(355)와 같은 "소프트" 형태의 스위치를 호출하는 것으로 간주될 수 있다.

도 6을 참조하면, 본 발명의 몇몇 실시예에 따른 리인코더(600)의 기능 블록도가 도시되어 있다. 도 3-5 및 식 1-11을 참조하여 지금까지 설명된 기술은 양호한 결과를 생성하지만, 몇몇 시스템에서는 리인코딩 스킴을 포함시킴으로써 보다 양호한 결과가 제공될 수 있다. 리인코딩 방안에서, 통신 링크(601)를 통해 수신된 패킷들은 음성 활성 검출기(VAD; 625)로 결합되고, 스위치(605)를 통해 전달되며, 음성 활성이 검출될 때 패킷 디코더(610)에 의해 디코딩된다. VAD(625)는 음성 활성을 포함하는 패킷들의 존부를 검출하고, 결과적인 결정에 의해 스위치(605)를 제어한다. 음성 활성이 검출될 때, 패킷 디코더(610)는 액티브 음성의 디지털화된 오디오 샘플들을 출력 신호(621)의 음성 신호 부분으로서 생성한다. 액티브 음성의 오디오 샘플들은 스위치(605)를 통해 동시에 피드백되고, 그 결과들은 배경 컴포트 노이즈 합성기(615)로 결합되는데, 이 합성기는 전술한 바와 같은 배경 노이즈 추정기(325) 및 누락 패킷 합성기(330)를 포함한다. 배경 컴포트 노이즈 합성기(615)의 출력은 배경 컴포트 노이즈 합성기(615)에 의해 생성된 컴포트 노이즈 를 나타내는 패킷들을 생성하는 인코더로 결합된다. 액티브 음성이 검출되고 있을 때 인코더(620)의 출력은 사용되지 않는다. VAD(625)가 음성 활성 패킷이 존재하지 않는 것으로 결정할 때, 패킷 디코더(620)의 출력은 패킷 디코더(610)의 입력으로 스위칭되어, 출력 신호(621)의 컴포트 노이즈 신호 부분에 대한 디지털화된 노이즈 샘플들이 생성된다.

몇몇 실시예에서, VAD(625)는 스위치(605)가 컴포트 노이즈를 전송하는 8 레이트 패킷들 및 액티브 음성을 전송하는 다른 패킷들과 같은 유효 패킷들이 수신될 때 제1 상태에 있고 패킷들이 누락된 것으로 결정될 때 제2 상태에 있게 하는 유효 패킷 검출기로 대체될 수 있다. 유효 패킷 검출기의 출력이 제1 상태에 있을 때, 스위치(605)는 통신 링크(601)를 통해 수신된 패킷들을 패킷 디코더(610)로 결합시키고, 패킷 디코더(610)의 출력은 배경 노이즈 합성기(615)로 결합된다. 유효 패킷 검출기의 출력이 제2 상태에 있을 때, 스위치(605)는 패킷 인코더(620)의 출력을 패킷 디코더(610)로 결합시키고, 패킷 디코더(610)의 출력은 더 이상 배경 노이즈 합성기(615)로 결합되지 않는다. 또한, 배경 컴포트 노이즈 합성기(615)는 예를 들어 다음 식으로 주어지는 바와 같은 대안적인 배경 노이즈 추정 방법을 포함하도록 변경될 수 있다.

여기서, β는 0 내지 1 범위의 값을 갖는 가중 인자이다. 이 식은 비 음성 프레임들이 수신될 때 배경 노이즈 추정치를 갱신하는 데 사용된다. 이 식의 갱신 방법은 음성 프레임들이 수신될 때 사용되는 수학식 5 및 6에 의해 제공되는 것보다 적극적일 수 있다.

"배경 노이즈"라는 용어가 본 설명의 전반에서 사용되지만, 음성이 존재하는지의 여부를 나타내는 에너지는 음악과 같이 통상적으로 노이즈로 간주되는 것과 다른 그 어떤 것일 수 있다는 것을 이해할 것이다. 또한, "음성"이라는 용어는 발성, 또는 청취자에게 전달되도록 의도되는 다른 오디오를 의미하는 것으로 해석되며, 예를 들어 배경 노이즈의 존재 하에 마이크로폰 근처에서 재생되는 음악을 포함할 수 있다.

요컨대, 도 7의 흐름도에 나타낸 바와 같이, 본 발명의 실시예들에 따른 음성 통신에 있어서 컴포트 노이즈를 생성하기 위한 방법의 몇몇 단계는 음성 플러스 배경 노이즈를 나타내는 복수의 정보 프레임을 수신하는 단계(705), 복수의 정보 프레임에 기초하여 하나 이상의 배경 노이즈 특성을 추정하는 단계(710), 및 하나 이상의 배경 노이즈 특성에 기초하여 컴포트 노이즈 신호를 생성하는 단계(715)를 포함한다. 이 방법은 복수의 정보 프레임으로부터 음성 신호를 생성하는 단계(720), 및 음성 활성 검출에 기초하여 컴포트 노이즈 신호와 음성 신호 사이에서 스위칭함으로써 출력 신호(725)를 생성하는 단계(725)를 더 포함할 수 있다.

도 8을 참조하면, 블록도는 본 발명의 몇몇 실시예에 따라 가청 컴포트 노이즈를 생성할 수 있는 장치인 전자 디바이스(800)를 나타낸다. 전자 디바이스(800)는 무선 신호(801)를 수신하고 무선 신호로부터 전술한 정보 프레임들(319, 601; 도 3, 6)과 같은 정보 프레임들을 디코딩하여, 이들을 처리부(810)에 결합시키는 무선 주파수 수신기(805)를 포함한다. 전술한 상황에서와 같이, 정보 프레임들은 음성 부분들 및 배경 노이즈 부분들을 포함하는 음성 신호를 전송하며, 음성 부분들은 통상적으로 음성 부분들 내에 포함된 음성 오디오보다 낮고 통상적으로 배경 노이즈 부분들에 포함된 배경 노이즈와 매우 유사한 에너지 레벨에 있는 배경 노이즈를 또한 포함한다. 처리부(810)는 컴포트 노이즈를 포함하는 출력 신호(621)의 생성을 포함하는, 도 7과 관련하여 전술한 기능들을 수행하도록 하나 이상의 프로세서를 제어하는 프로그램 명령들을 포함한다. 출력 신호(621)는 도 6의 출력 신호(621)에 기초하여 가청 출력(816)을 제공하는 스피커(815)에 적절한 전자 장치(도 8에 도시되지 않음)를 통해 결합된다. 가청 출력은 통상적으로 가청 음성 부분들 및 가청 컴포트 노이즈 부분들의 양자를 포함한다.

본 명세서에서 설명되는 실시예들은 음성 신호를 수신기에 전송하는 디바이스에 의해 배경 노이즈만이 캡처되고 있는 시간 동안에 음성 신호의 배경 노이즈 내용에 대한 어떠한 정보도 전송할 필요 없이 셀룰러 전화와 같이 음성 신호를 수신하는 디바이스에서 컴포트 노이즈를 생성하는 방법 및 장치를 제공한다는 것을 이해할 것이다. 이것은 음성 신호를 송수신하기 위한 통상의 방법 및 수단에 비해 대역폭의 절약을 가능하게 하므로 중요하다.

본 명세서에 설명되는 본 발명의 실시예들은 하나 이상의 통상의 프로세서, 및 소정의 비 프로세서 회로들과 함께 본 명세서에 설명되는 본 발명의 실시예들의 기능들의 일부, 대부분 또는 모두를 구현하도록 하나 이상의 통상의 프로세서를 제 어하는 고유한 저장된 프로그램 명령들을 포함할 수 있다. 비 프로세서 회로들은 무선 수신기, 무선 송신기, 신호 드라이버, 클럭 회로, 전원 회로, 및 사용자 입력 디바이스를 포함할 수 있지만, 이에 한정되지 않는다. 따라서, 이러한 기능들은 음성 통신 시스템에서 컴포트 노이즈 생성을 수행하기 위한 방법의 단계들로서 해석될 수 있다. 이와 달리, 일부 또는 모든 기능은 저장된 프로그램 명령들을 갖지 않는 상태 머신에 의해, 또는 각각의 기능 또는 소정 기능들의 조합이 커스텀 로직에 의해 구현되는 하나 이상의 ASIC에서 구현될 수 있다. 물론, 이러한 접근법들의 조합이 이용될 수 있다. 따라서, 이러한 기능들을 위한 방법들 및 수단들이 본 명세서에 설명되었다. 본 발명의 실시예들의 기능들이 프로세서 및 저장된 프로그램 명령들을 이용하여 구현될 수 있는 상황에서, 이러한 기능들을 구현하기 위한 하나의 수단은 저장되는 프로그램 명령들을 저장하는 매체, 즉 자기 저장 장치 또는 파일을 전송하는 신호라는 것을 이해할 것이다. 또한, 본 명세서에 설명되는 개념들 및 원리들에 의해 인도될 때, 예를 들어 이용 가능한 시간, 현재의 기술 및 경제적 고려에 의해 유발되는 아마도 상당한 노력 및 많은 설계 선택에도 불구하고, 당업자들이라면 그러한 저장 프로그램 명령들 및 IC들을 최소한의 실험으로 쉽게 생성할 수 있을 것으로 예상된다.

이상에서, 본 발명의 특정 실시예들에 대해 설명하였다. 하지만, 당업자들이라면 다음의 청구범위에 설명되는 바와 같은 본 발명의 범주를 벗어나지 않고서 다양한 수정 및 변경이 이루어질 수 있다는 점을 알 것이다. 따라서, 본원의 명세서 및 도면들은 한정적이 아니라 예시적인 것으로 간주되어야 하며, 그러한 모든 변형은 본 발명의 범주에 속하는 것으로 의도되어 진다. 이득, 이점 및 문제점들에 대한 해결책들, 및 임의의 이익, 이점 또는 해결책을 발생시키거나 더 현저하게 할 수 있는 임의의 요소(들)는 임의의 또는 모든 청구항들의 중요한, 필요한 또는 필수적인 특징들 또는 요소들로서 해석되지 않아야 한다. 결국, 본 발명은 본 출원의 계류 중에 이루어지는 임의의 보정을 포함하는 첨부된 청구범위 및 그 균등물에 의해서만 규정되어 진다.

Claims

음성 통신 시스템에서의 컴포트 노이즈 생성(comfort noise generation)을 위한 방법으로서,

음성에 배경 노이즈가 더해진 것(speech plus background noise)을 나타내는 복수의 정보 프레임을 디코더에서 수신하는 단계;

상기 복수의 정보 프레임에 기초하여 하나 또는 그 이상의 배경 노이즈 특성을 추정하는 단계;

상기 하나 또는 그 이상의 배경 노이즈 특성에 기초하여 컴포트 노이즈 프레임을 인코딩하는 단계; 및

어떤 정보 프레임들도 수신되지 않을 때, 인코딩된 컴포트 노이즈 프레임에 기초하여 컴포트 노이즈 신호를 생성하는 단계를 포함하는 컴포트 노이즈 생성 방법.
제1항에 있어서,

상기 하나 또는 그 이상의 배경 노이즈 특성을 추정하는 단계는, 상기 복수의 정보 프레임 중 현재 프레임의 복수의 주파수 채널의 각각에 대한 현재의 추정되는 배경 노이즈 에너지 값을, 상기 복수의 정보 프레임 중 이전 프레임들의 대응하는 주파수 채널들에 대해 추정된 배경 노이즈 에너지 값들 및 상기 현재 프레임의 대응하는 주파수 채널들에 대해 추정된 채널 에너지 값들로부터 연속적으로 결정하는 단계를 포함하는 방법.
제1항에 있어서,

상기 하나 또는 그 이상의 배경 노이즈 특성을 추정하는 단계는

상기 복수의 정보 프레임 중 현재 프레임의 주파수 채널의 현재의 추정되는 배경 노이즈 에너지 값을, 상기 현재 프레임의 대응하는 주파수 채널의 추정되는 채널 에너지 값이 복수의 주파수 프레임 중 이전 프레임의 대응하는 주파수 채널의 추정되는 배경 노이즈 에너지 값보다 작을 경우에, 상기 복수의 정보 프레임 중 현재 프레임의 대응하는 주파수 채널의 추정되는 채널 에너지 값과 동일하게 설정하는 단계; 및

그렇지 않은 경우, 상기 복수의 정보 프레임 중 현재 프레임의 주파수 채널의 현재의 추정되는 배경 노이즈 에너지 값을, 복수의 주파수 프레임 중 이전 프레임의 대응하는 주파수 채널의 추정되는 배경 노이즈 에너지 값에 증분 에너지 값을 더한 것과 동일하게 설정하는 단계

를 포함하는 방법.
제1항에 있어서,

상기 하나 또는 그 이상의 배경 노이즈 특성을 추정하는 단계는 다음 수학식을 포함하고,

여기서, E_bgn(m,i)는 상기 복수의 정보 프레임 중 m 번째 프레임의 i 번째 주파수 채널의 추정되는 배경 노이즈 에너지 값이고,

E_ch(m,i)는 상기 복수의 정보 프레임 중 m 번째 프레임의 i 번째 주파수 채널의 추정되는 채널 에너지 값이고,

E_bgn(m-1,i)는 상기 복수의 정보 프레임 중 (m-1) 번째 프레임의 i 번째 주파수 채널의 추정되는 배경 노이즈 에너지 값이고,

Δ는 증분 에너지 값인 방법.
제1항에 있어서,

상기 하나 또는 그 이상의 배경 노이즈 특성을 추정하는 단계는 다음 수학식을 포함하고,

여기서, E_bgn(m,i)는 상기 복수의 정보 프레임 중 m 번째 프레임의 i 번째 주파수 채널의 추정되는 배경 노이즈 에너지 값이고,

E_ch(m,i)는 상기 복수의 정보 프레임 중 m 번째 프레임의 i 번째 주파수 채널의 추정되는 채널 에너지 값이고,

E_bgn(m-1,i)는 상기 복수의 주파수 프레임 중 (m-1) 번째 프레임의 i 번째 주파수 채널의 추정되는 배경 노이즈 에너지 값이고,

Δ₁은 제1 증분 에너지 값이고,

Δ₂는 제2 증분 에너지 값이고,

E_voice는 음성 에너지를 나타내는 에너지 값인 방법.
제1항에 있어서,

상기 복수의 정보 프레임으로부터 음성 신호를 생성하는 단계; 및

음성 활성 검출에 기초하여 상기 컴포트 노이즈 신호와 상기 음성 신호 사이에서 스위칭함으로써 출력 신호를 생성하는 단계

를 더 포함하는 방법.
제1항에 있어서,

상기 컴포트 노이즈 신호를 생성하는 단계는 상기 배경 노이즈 특성으로부터 도출되는 스펙트럼 컴포넌트들의 역 이산 푸리에 변환을 수행하는 단계를 포함하는 방법.
음성 통신 시스템에서의 컴포트 노이즈 생성을 위한 장치로서,

음성에 배경 노이즈를 더한 것을 나타내는 복수의 정보 프레임을 디코더에서 수신하고,

상기 복수의 정보 프레임에 기초하여 하나 또는 그 이상의 배경 노이즈 특성을 추정하고,

상기 하나 또는 그 이상의 배경 노이즈 특성에 기초하여 컴포트 노이즈 프레임을 인코딩하고,

어떤 정보 프레임들도 수신되지 않을 때, 상기 인코딩된 컴포트 노이즈 프레임에 기초하여 컴포트 노이즈 신호를 생성하도록 하나 또는 그 이상의 프로세서들을 제어하는 프로그램 명령어들의 세트들을 구비한 처리 시스템

을 포함하는 장치.
제8항에 있어서,

상기 정보 프레임을 포함하는 무선 신호를 수신하는 무선 주파수 수신기 및 상기 컴포트 노이즈를 제공하는 스피커를 더 포함하는 장치.
음성에 배경 노이즈를 더한 것을 나타내는 복수의 정보 프레임을 디코더에서 수신하고,

상기 복수의 정보 프레임에 기초하여 하나 또는 그 이상의 배경 노이즈 특성을 추정하고,

상기 하나 또는 그 이상의 배경 노이즈 특성에 기초하여 컴포트 노이즈 프레임을 인코딩하고,

어떤 정보 프레임들도 수신되지 않을 때, 상기 인코딩된 컴포트 노이즈 프레임에 기초하여 컴포트 노이즈 신호를 생성하도록 하나 또는 그 이상의 프로세서들을 제어하는데 사용될 수 있는 프로그램 명령어들의 세트들을 포함하는 매체.