KR20040005860A - 음성 통신에서의 위로 잡음 생성 방법 및 시스템 - Google Patents

음성 통신에서의 위로 잡음 생성 방법 및 시스템 Download PDF

Info

Publication number
KR20040005860A
KR20040005860A KR10-2003-7007026A KR20037007026A KR20040005860A KR 20040005860 A KR20040005860 A KR 20040005860A KR 20037007026 A KR20037007026 A KR 20037007026A KR 20040005860 A KR20040005860 A KR 20040005860A
Authority
KR
South Korea
Prior art keywords
voice
noise
value
static
component
Prior art date
Application number
KR10-2003-7007026A
Other languages
English (en)
Inventor
로톨라-푸킬라자니
믹콜라한누
바이니오잔느
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20040005860A publication Critical patent/KR20040005860A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

음성 통신에서 비-음성 기간들에서 위로 잡음(150)을 제공하기 위한 방법(200) 및 시스템(1)이 개시된다. 상기 위로 잡음은 음성 입력에서의 배경 잡음이 정적인지 비-정적인지에 기초(206)하여 생성된다. 배경 잡음이 비-정적인 경우, 디더링(dithering) 과정을 사용하여 위로 잡음에 랜덤 성분이 삽입된다(32, 38, 232). 배경 잡음이 정적인 경우, 상기 디더링 과정은 사용되지 않는다.

Description

음성 통신에서의 위로 잡음 생성 방법 및 시스템{Method and system for comfort noise generation in speech communication}
보통의 전화 통화에서, 한번에 한 사람의 사용자가 말을 하고 다른 사용자는 듣는다. 때때로, 사용자들 중 누구도 말하지 않는다. 침묵 기간들은 평균 음성 활동이 50% 미만인 경우가 될 수 있다. 이러한 침묵 기간들 동안, 단지 배경 음향 잡음이 아마 들릴 것이다. 배경 잡음은 보통 어떠한 정보 내용도 구비하지 않을 것이고 송신측(TX)으로부터 수신측(RX)으로 정확한 배경 잡음을 전송하는 것은 불필요하다. 이동 통신에서, 이동 장치에서의 전력을 절감하기 위하여 불연속 전송(DTX; discontinuous transmission)으로 알려진 절차가 이러한 사실을 이용한다. 특히, TX DTX 메커니즘은 이동국(MS)에서의 전력을 절감하고 공중 인터페이스에서의 전반적인 인터페이스 레벨을 감소시키기 위하여 대부분의 음성 휴지 시간 동안 이동국(MS)으로부터 기지국(BS)으로의 무선 전송이 스위치 오프되는 로우 상태(DTX 로우(Low))를 갖는다.
DTX를 사용하는 경우 기본적인 문제는 음성 기간들 동안 음성과 함께 나타나는 배경 음향 잡음이 무선 전송이 스위치 오프되는 경우 사라지고, 그 결과 배경 잡음이 불연속된다는 것이다. DTX 스위칭이 신속하게 일어날 수 있기 때문에, 이러한 영향은 청취자에게 매우 성가실 수 있다고 알려져 있다. 더욱이, 음성 활동 검출기(VAD; voice activity detector)가 때때로 잡음을 음성으로 분류하는 경우, 음성 합성 동안 배경 잡음의 어떤 부분들은 재구성되고 다른 부분들은 침묵으로 남아있게 된다. 배경 잡음의 갑작스런 출현과 사라짐은 매우 불안하게 하고 성가실 뿐만 아니라, 특히, 이동중인 차량 안에 있는 경우와 같이, 잡음의 에너지 레벨이 높은 경우, 대화의 명료도를 감소시킨다. 이러한 불안하게 하는 영향을 감소시키기 위하여, 송신측에서의 배경 잡음과 유사한 합성 잡음이 수신측에서 생성된다. 상기 합성 잡음은 위로 잡음(CN; comfort noise)으로 지칭되는데, 왜냐하면 그것이 더 편안하게 청취하도록 하기 때문이다.
수신측이 송신측에서의 배경 잡음을 시뮬레이션하기 위하여, 위로 잡음 매개변수들이 송신측에서 추정되고 침묵 설명어(SID; Silence Descriptor) 프레임들을 사용하여 수신측으로 전송된다. 상기 전송은 DTX 로우 상태로 전이되기 전에 그리고 그 후 MS 정의된 전송율로 전송된다. TX DTX 핸들러는 계산할 매개변수들의 종류가 무엇인지를 결정하고 음성 프레임을 생성할지 SID 프레임을 생성할지를 결정한다. 도 1은 TX DTX의 논리적인 동작을 도시한다. 이 동작은 현재 프레임이 음성을 포함하는지 아닌지를 나타내는, 음성 활동 검출기(VAD)의 도움을 받아 수행된다. VAD 알고리즘의 출력은 음성이 검출되는 경우 '참(true)'으로 표시되고, 그렇지 않은 경우 '거짓(false)으로 표시되는 불 플래그(Boolean flag)이다. TX DTX는또한 음성 부호기 및 위로 잡음 생성 모듈들을 포함한다.
TX DTX 핸들러의 기본 동작은 다음과 같다. 불 음성(SP) 플래그는 프레임이 음성 프레임인지 SID 프레임인지를 표시한다. 음성 기간 동안, SP 플래그는 '참'으로 세팅되고 음성 프레임은 음성 부호화 알고리즘을 사용하여 생성된다. VAD 플래그가 '거짓'으로 변경되기 전에 충분히 긴 기간의 시간 동안 음성 기간이 지속된 경우, 잔류 기간(hangover period)이 존재한다(도 2 참조). 이 기간은 평균 배경 잡음 매개변수들의 계산을 위해 사용된다. 잔류 기간 동안, 비록 부호화된 신호가 배경 잡음만을 포함한다 하더라도, 보통의 음성 프레임들이 수신측에 전송된다. 잔류 기간 동안 SP 플래그의 값은 '참'으로 남아있다. 잔류 기간 이후에, 위로 잡음(CN) 기간이 시작한다. 상기 CN 기간 동안, SP 플래그는 '거짓'으로 표시되고 SID 프레임들이 생성된다.
잔류 기간 동안, 각 프레임의 스펙트럼(S) 및 전력 레벨(E)이 저장된다. 잔류 기간 이후에 상기 저장된 매개변수들의 평균들(Save및 Eave)이 계산된다. 평균 길이는 잔류 기간의 길이보다 한 프레임 더 길다. 따라서, 제1 위로 잡음 매개변수들은 상기 잔류 기간 및 그 다음 제1 프레임으로부터의 평균들이다.
위로 잡음 기간 동안, SID 프레임들은 매 프레임마다 생성되지만, 그들이 모두 전송되지는 않는다. TX 무선 서브시스템(RSS; radio subsystem)은 상기 SP 플래그에 기초하여 SID 프레임 전송의 스케줄링을 제어한다. 음성 기간이 종료하는 경우, 제1 SID 프레임 이후에 전송이 차단된다. 그 다음, 위로 잡음의 추정을 갱신하기 위하여 때때로 하나의 SID 프레임이 전송된다.
도 3은 RX DTX의 논리적인 동작을 도시한다. 오류들이 수신된 프레임에서 검출된 경우, 불량 프레임 표시자(BFI) 플래그가 '참'으로 세팅된다. 송신측에서의 SP 플래그와 유사하게, 수신측에서의 SID 플래그는 수신된 프레임이 SID 프레임인지 음성 프레임인지를 나타내는데 사용된다.
RX DTX 핸들러는 전반적인 RX DTX 동작을 책임진다. 상기 RX DTX 핸들러는 수신된 프레임이 유효한 프레임인지 무효한 프레임인지 (각각 BFI=0 또는 BFI=1) 그리고 수신된 프레임이 SID 프레임인지 음성 프레임인지(각각 SID=1 또는 SID=0)를 분류한다. 유효한 음성 프레임이 수신된 경우, RX DTX 핸들러는 상기 유효한 음성 프레임을 바로 음성 복호기에 전달한다. 오류가 있는 음성 프레임이 수신되거나 음성 기간 동안 프레임이 손실되는 경우, 음성 복호기는 음성 합성을 위해 최종 우량 음성 프레임으로부터 음성 관련 매개변수들을 사용하고, 동시에 상기 복호기는 점차로 출력 신호의 소리를 낮추기 시작한다.
유효한 SID 프레임이 수신되는 경우, 신규 유효한 SID 프레임이 수신될 때까지 위로 잡음이 생성된다. 과정은 동일한 방식으로 반복한다. 그러나, 수신된 프레임이 무효한 SID 프레임으로 분류되는 경우, 최종 유효한 SID가 사용된다. 위로 잡음 기간 동안, 복호기는 전송되지 않은 SID 프레임들 사이에 전송 채널 잡음을 수신한다. 상기 프레임들에 대한 신호들을 합성하기 위하여, 위로 잡음 갱신을 위하여 2개의 이전에 수신된 유효 SID 프레임들로부터 보간된 매개변수들을 가지고 위로 잡음이 생성된다. RX DTX 핸들러는 아마 전송 중지에 기인하기 때문에, CN 기간동안 전송되지 않은 프레임들을 무시한다.
위로 잡음은 배경 잡음으로부터 분석된 정보를 사용하여 생성된다. 배경 잡음은 자신의 소스에 의존하여 매우 상이한 특징들을 구비할 수 있다. 따라서, 모든 유형들의 배경 잡음의 특징들을 적합하게 기술하고 또한 작은 수의 비트들을 사용하여 초당 소수의 횟수로 전송될 수 있는 매개변수들의 집합을 발견하기 위한 일반적인 방식이 없다. 음성 통신에서의 음성 합성이 인간의 음성 생성 시스템에 기초하기 때문에, 음성 합성 알고리즘들은 동일한 방식으로 위로 잡음 생성을 위해 사용될 수 없다. 더욱이, 음성 관련 매개변수들과는 달리, SID 프레임들에서의 매개변수들은 매 프레임마다 전송되지 않는다. 인간의 청각 시스템은 위상 응답에 대한 것보다 신호의 진폭 스펙트럼에 더 집중한다고 알려져 있다. 따라서, 위로 잡음 생성을 위해 배경 잡음의 전력 및 평균 스펙트럼에 대한 정보만을 전송하는 것만으로 충분하다. 따라서, 위로 잡음은 이들 2 매개변수들을 사용하여 생성된다. 이러한 유형의 위로 잡음 생성이 실제로 시간 영역에서 많은 왜곡을 도입하지만, 그것은 주파수 영역에서 배경 잡음과 유사하다. 이것은 음성 기간 및 위로 잡음 기간 사이의 전이 사이에서의 성가신 영향들을 충분히 감소시킨다. 잘 수행된 위로 잡음 생성은 매우 누그러뜨리는 효과를 가지며 위로 잡음은 자신에게 주의를 끌지 않는다. 위로 잡음 생성이 단지 작은 지각하는 오류를 도입하면서 전송율을 감소시키기 때문에, 그 개념은 잘 받아들여진다. 그러나, 생성된 위로 잡음의 특성들이 진짜 배경 잡음과 상당히 상이한 경우, 위로 잡음 및 진짜 배경 잡음간의 전이는 보통 들을 수 있다.
선행 기술에 있어서, 합성 선형 예측(LP; Linear Predictive) 필터 및 에너지 인자들이 2 최종 SID 프레임들 사이의 매개변수들을 보간함으로써 획득된다(도 4 참조). 이러한 보간은 프레임-대-프레임 기초로 수행된다. 하나의 프레임 내에서, 각 서브프레임의 위로 잡음 부호록 이득들은 동일하다. 위로 잡음 매개변수들은 SID 프레임들의 전송율로 상기 수신된 매개변수들로부터 보간된다. SID 프레임들은 매 k번째 프레임마다 전송된다. 제n 프레임 이후에 전송된 SID 프레임은 제(n+k) 프레임이다. 제(n+k) SID 프레임이 수신되는 경우 보간된 매개변수들이 제n SID 프레임의 매개변수들에서 제(n+k) SID 프레임의 매개변수들로 변경되도록 CN 매개변수들이 매 프레임마다 보간된다. 상기 보간은 수학식 1에 따라 수행된다.
여기서 k는 보간 기간이고, S'(n+i)는 제(n+i) 프레임의 스펙트럼 매개변수 벡터이며, i = 0, .., k-1이고, S(n)는 최종 갱신의 스펙트럼 매개변수 벡터이며, S(n-k)는 제2 최종 갱신의 스펙트럼 매개변수 벡터이다. 유사하게, 수신 에너지는 수학식 2와 같이 보간된다.
여기서 k는 보간 기간이고, E'(n+i)는 제(n+i) 프레임의 수신 에너지이며, i = 0, .., k-1이고, E(n)는 최종 갱신의 수신 에너지이며, E(n-k)는 제2 최종 갱신의 수신 에너지이다. 이러한 방식으로, 위로 잡음은 천천히 매끄럽게 변화하고, 한 세트의 매개변수들에서 다른 세트의 매개변수들로 이동한다. 이러한 선행 기술 해결책의 블록도는 도 4에 도시된다. GSM EFR(이동 통신을 위한 글로벌 시스템의 향상된 전 속도; Global System for Mobile Communication Enhanced Full Rate) 코덱은 LSF 영역에서 합성 (LP) 필터 계수들을 전송함으로써 이 접근을 사용한다. 고정 부호록 이득이 프레임의 에너지를 전송하는데 사용된다. 이들 2 매개변수들은 k=24를 가지고 수학식 1 및 수학식 2에 따라 보간된다. GSM EFR CN 생성의 상세한 설명은 디지털 셀룰러 통신 시스템(단계 2+), 향상된 전 속도 음성 트래픽 채널들에 대한 위로 잡음 태양들(ETSI EN 300 728 v8.0.0(2000-07))로부터 발견될 수 있다.
대안으로, 에너지 디더링(dithering) 및 스펙트럼 디더링 블록들이 각각 상기 매개변수들에 랜덤 성분을 삽입하는데 사용된다. 목적은 실제 배경 잡음의 스펙트럼 및 에너지 레벨에서의 변동을 시뮬레이션하는 것이다. 스펙트럼 디더링 블록의 동작은 수학식 3과 같다(도 5 참조).
여기서, S는 이 경우에 LSF 벡터이고, L은 상수 값이며, rand(-L,L)는 -L 및 L 사이의 값들을 생성하는 랜덤 함수이고, Save"(i)는 위로 잡음 스펙트럼 표현에 사용되는 LSF 벡터이며, Save'(i)는 배경 잡음의 평균 스펙트럼 정보(LSF 영역)이고, M은 합성 필터(LP)의 차수이다. 유사하게, 에너지 디더링은 수학식 4와 같이 될 수있다.
에너지 디더링 및 스펙트럼 (LP) 디더링 블록들은 선행 기술 해결책에서 고정 크기를 가지고 디더링을 수행한다. 합성 (LP) 필터 계수들은 또한 제2 선행 기술 시스템의 설명에서 LSF 영역에서 표시된다는 것을 주의해야 한다. 그러나, 어떤 다른 표현이 또한 사용될 수 있다(예를 들어 ISP 영역).
IS-641과 같은, 어떤 선행 기술 시스템들은 위로 잡음 생성에서 에너지 디더링 블록을 버린다. IS-641 위로 잡음 생성의 상세한 설명은 TDMA 셀룰러/PCS-무선 인터페이스 향상된 전-속도 음성 코덱, 개정 A(TIA/EIA IS-641-A)에서 발견될 수 있다.
상술된 선행 기술 해결책들은 어떤 배경 잡음 유형들에서는 상당히 잘 작용하지만, 다른 잡음 유형들에서는 좋지 않게 작용한다. (배경 잡음으로서 차의 잡음 또는 바람과 같은) 정적 배경 잡음 유형들에 있어서, 비-디더링(non-dithering) 접근이 잘 작동하지만, 디더링 접근은 잘 작동하지 않는다. 이것은 비록 배경 잡음이 실제로 정적이기는 하지만, 디더링 접근이 위로 잡음 생성을 위해 스펙트럼 매개변수 벡터들내에 랜덤 지터들을 도입하기 때문이다. 비-정적 배경 잡음 유형들(거리 또는 사무실 잡음)에 있어서, 디더링 접근은 상당히 잘 작동하지만, 비-디더링 접근은 잘 작동하지 않는다. 따라서, 디더링 접근은 배경 잡음의 비-정적 특성들을 시뮬레이션하는데 보다 더 적합하고, 비-디더링 접근은 배경 잡음이 시간에 따라변동하는 경우들에 정적 위로 잡음을 생성하는데 보다 더 적합하다. 위로 잡음을 생성하기 위한 어느 하나의 접근을 사용하는 경우, 합성 배경 잡음 및 진짜 배경 잡음 사이의 전이는 많은 경우에 들을 수 있다.
진짜 배경 잡음이 정적인지 비-정적인지에 상관없이, 합성 배경 잡음과 진짜 배경 잡음 사이의 전이의 가청도가 감소되거나 실질적으로 제거될 수 있는, 위로 잡음 생성을 위한 방법 및 시스템을 제공하는 것이 유리하고 바람직하다. WO0031719는 위로 잡음 매개변수들의 수정에 사용되는 변화가능성 정보를 계산하기 위한 방법을 기술한다. 특히, 변화가능성 정보의 계산은 복호기에서 수행된다. 상기 계산은 위로 잡음 기간 동안, 변화가능성 정보가 하나의 위로 잡음 프레임(매 24번째 프레임)에 대해서만 존재하고 계산에 기인하는 지연은 길게 되는 복호기에서 전적으로 수행될 수 있다. 상기 계산은 또한 부호기 및 복호기 간에 분할될 수 있지만, 부호기로부터 복호기로 정보를 전송하기 위한 전송 채널에서 더 높은 비트-율이 요구된다. 위로 잡음을 수정하기 위한 더 간단한 방법을 제공하는 것이 바람직하다.
본 발명은 일반적으로 음성 통신에 관한 것으로, 보다 상세하게는 불연속 전송에서의 위로 잡음 생성에 관한 것이다.
도 1은 전형적인 송신측 불연속 전송 핸들러를 도시하는 블록도이다.
도 2는 음성 활동 검출기 및 불 음성 플래그간의 동기화를 도시하는 타이밍도이다.
도 3은 전형적인 수신측 불연속 전송 핸들러를 도시하는 블록도이다.
도 4는 비-디더링 접근을 사용하는 선행 기술 위로 잡음 생성 시스템을 도시하는 블록도이다.
도 5는 디더링 접근을 사용하는 선행 기술 위로 잡음 생성 시스템을 도시하는 블록도이다.
도 6은 본 발명에 따른 위로 잡음 생성 시스템을 도시하는 블록도이다.
도 7은 본 발명에 따른 위로 잡음 생성 방법을 도시하는 흐름도이다.
본 발명의 주요 목적은 음성 기간들에서의 진짜 배경 잡음과 비-음성 기간에서 제공되는 위로 잡음 사이에서의 전이에서 들을 수 있는 것을 줄이거나 실질적으로 제거하는 것이다. 이 목적은 배경 잡음의 특성들을 기초로 하는 위로 잡음을 제공함으로써 달성될 수 있다.
따라서, 본 발명의 제1 태양은 음성 통신에서 비-음성 기간들에서의 위로 잡음(comfort noise) 생성 방법으로서, 음성 입력을 나타내는 신호들은 상기 음성 통신을 용이하게 하기 위하여 송신측에서 수신측으로 프레임들에서 제공되고, 상기 음성 입력은 음성 성분 및 비-음성 성분을 구비하며, 상기 비-음성 성분은 정적(stationary) 및 비-정적(non-stationary)으로 분류할 수 있는 위로 잡음 생성 방법이다. 상기 위로 잡음 생성 방법은:
상기 비-음성 성분이 정적인지 비-정적인지를 결정하는 단계;
상기 비-음성 성분이 정적임을 나타내는 제1 값 또는 상기 비-음성 성분이 비-정적임을 나타내는 제2 값을 구비하는 추가 신호를 상기 송신측에서 제공하는 단계; 및
상기 송신측으로부터 수신된 상기 추가 신호에 응답하여, 상기 추가 신호가 상기 제1 값을 구비하는지 상기 제2 값을 구비하는지에 기초하는 방식으로, 상기 비-음성 기간들에서 상기 위로 잡음을 상기 수신측에서 제공하는 단계를 포함한다.
본 발명에 따라, 상기 신호들은 상기 음성 입력의 상기 비-음성 성분으로부터 추정되는 에너지 레벨 및 스펙트럼 매개변수 벡터를 포함하고, 상기 스펙트럼 매개변수 벡터 및 상기 에너지 레벨에 기초하여 상기 위로 잡음이 생성된다. 상기 추가 신호가 상기 제2 값을 구비하는 경우, 상기 위로 잡음을 생성하기 위하여 랜덤 값이 상기 에너지 레벨 및 상기 스펙트럼 매개변수 벡터의 요소들에 삽입된다.
본 발명에 따라, 상기 결정 단계는 상기 스펙트럼 매개변수 벡터들 중 스펙트럼 거리들에 기초하여 수행된다. 바람직하기로는, 상기 스펙트럼 거리들은 합계 값을 제공하기 위하여 평균 기간 동안 합계되고, 상기 합계 값이 소정 값보다 작은경우 상기 비-음성 성분은 정적으로서 분류되고 상기 합계 값이 상기 소정 값보다 크거나 같은 경우 상기 비-음성 성분은 비-정적으로서 분류된다. 상기 스펙트럼 매개변수 벡터들은 선형 스펙트럼 주파수(LSF; linear spectral frequency) 벡터들, 이미턴스 스펙트럼 주파수(ISF; immittance spectral frequency) 벡터들 및 그런 종류의 다른 것일 수 있다.
본 발명의 제2 태양에 따라, 음성 입력을 나타내는 음성 관련 매개변수들을 제공하기 위한 송신측 및 상기 음성 관련 매개변수들에 기초하여 상기 음성 입력을 재구성하기 위한 수신측을 구비하는 통신 네트워크에서 음성 통신에서의 위로 잡음 생성 시스템으로서, 상기 음성 통신은 음성 기간들 및 비-음성 기간들을 구비하고, 상기 음성 입력은 음성 성분 및 비-음성 성분을 구비하며, 상기 비-음성 성분은 정적 또는 비-정적으로 분류할 수 있고, 상기 위로 잡음은 상기 비-음성 기간들에서 제공되는 위로 잡음 생성 시스템이 제공된다. 상기 위로 잡음 생성 시스템은:
상기 비-음성 성분이 정적인지 비정적인지를 결정하고, 상기 비-음성 성분이 정적임을 나타내는 제1 값 또는 상기 비-음성 성분이 비-정적임을 나타내는 제2 값을 구비하는 신호를 제공하기 위한 상기 송신측에 있는 수단; 및
상기 신호에 응답하여, 상기 신호가 상기 제2 값을 구비하는 경우에만 랜덤 성분을 상기 위로 잡음에 삽입하기 위한 상기 수신측에 있는 수단을 포함한다.
본 발명의 제3 태양에 따라, 음성 입력을 나타내는 음성 매개변수들을 제공하기 위한 부호기 및 상기 제공된 음성 매개변수들에 응답하여, 상기 음성 매개변수들에 기초하여 상기 음성 입력을 재구성하기 위한 복호기를 구비하는 음성 통신에서 사용하기 위한 음성 코더(speech coder)로서, 상기 음성 통신은 음성 기간들 및 비-음성 기간들을 구비하고, 상기 음성 입력은 음성 성분 및 비-음성 성분을 구비하며, 상기 비-음성 성분은 정적 또는 비-정적으로 분류할 수 있는 음성 코더가 제공된다.
상기 부호기는 상기 음성 입력에 응답하여, 상기 음성 입력의 상기 비-음성 성분을 나타내는 에너지 매개변수 및 스펙트럼 매개변수 벡터를 제공하기 위한 스펙트럼 분석 모듈을 포함하고,
상기 복호기는 상기 스펙트럼 매개변수 벡터 및 상기 에너지 매개변수에 기초하여 상기 비-음성 성분을 대체하기 위하여 상기 비-음성 기간들에서 위로 잡음을 제공하기 위한 수단을 포함한다.
상기 음성 코더는:
상기 스펙트럼 매개변수 벡터 및 상기 에너지 매개변수에 응답하여, 상기 비-음성 성분이 정적인지 비정적인지를 결정하고, 상기 비-음성 성분이 정적임을 나타내는 제1 값 및 상기 비-음성 성분이 비-정적임을 나타내는 제2 값을 구비하는 신호를 제공하기 위한 상기 부호기에 있는 잡음 검출기 모듈; 및
상기 신호에 응답하여, 상기 비-음성 성분이 비-정적인 경우에만 상기 위로 잡음을 수정하기 위하여 상기 에너지 매개변수 및 상기 스펙트럼 매개변수 벡터의 요소들에 랜덤 성분을 삽입하기 위한 상기 복호기에 있는 디더링 모듈(dithering module)을 포함한다.
본 발명은 도 1 내지 도 7과 함께 취해진 설명을 읽는 경우 명백하게 될 것이다.
본 발명에 따른 위로 잡음 생성 시스템(1)이 도 6에 도시된다. 도시된 바와 같이, 상기 시스템(1)은 부호기(10) 및 복호기(12)를 포함한다. 상기 부호기(10)에서, 스펙트럼 분석 모듈(20)이 입력 음성 신호(100)로부터 선형 예측(LP; linear prediction) 매개변수들(112)을 추출하는데 사용된다. 동시에, 에너지 계산 모듈(24)이 상기 입력 음성 신호(100)로부터 에너지 인자(122)를 계산하는데 사용된다. 스펙트럼 평균 모듈(22)은 LP 매개변수들(112)로부터 평균 스펙트럼 매개변수 벡터들(114)을 계산한다. 유사하게, 에너지 평균 모듈(26)은 에너지 인자(122)로부터 수신 에너지(124)를 계산한다. 평균 매개변수들의 계산은 디지털 셀룰러 통신 시스템(단계 2+), 향상된 전 속도 음성 트래픽 채널들에 대한 위로 잡음 태양들(ETSI EN 300 728 v8.0.0(2000-07))에 개시된 바와 같이, 해당 기술에 공지되어 있다. 선행 기술에서와 같이, 상기 평균 스펙트럼 매개변수 벡터들(114) 및 상기 평균 수신 에너지(124)는 송신측의 부호기(10)로부터 수신측의 복호기(12)에 전송된다.
본 발명에 따라, 부호기(10)에 있어서, 검출기 모듈(28)은 스펙트럼 매개변수 벡터들(114) 및 수신 에너지(124)로부터 배경 잡음이 정적인지 비-정적인지를 결정한다. 배경 잡음이 정적인지 비-정적인지를 나타내는 정보는 상기 부호기(10)로부터 상기 복호기(12)로 "정적-플래그(stationarity-flag)"(130) 형태로 전송된다. 상기 플래그(130)는 이진수로 전송될 수 있다. 예를 들어, 배경 잡음이 정적으로 분류되는 경우, 상기 정적-플래그가 세팅되고 상기 플래그(130)는 1의 값이 주어진다. 그렇지 않은 경우, 상기 정적-플래그는 세팅되지 않고 상기 플래그(130)는 0의 값이 주어진다. 도 4 및 도 5에 도시된 바와 같은 선행 기술 복호기와 같이, 스펙트럼 보간기(30)(spectral interpolator) 및 에너지 보간기(36)(energy interpolator)는 각각 수학식 1 및 수학식 2에 따라 이전 SID 프레임들로부터 신규 SID 프레임에서의 S'(n+i) 및 E'(n+i)를 보간한다. 보간된 스펙트럼 매개변수 벡터(S'ave)는 참조 번호 116으로 표시된다. 보간된 수신 에너지(E'ave)는 참조 번호 126으로 표시된다. 플래그(130)의 값(=0)에 의해 표시되는 바와 같이, 상기 검출기모듈(28)에 의해 배경 잡음이 비-정적으로 분류되는 경우, 스펙트럼 디더링 모듈(32)(spectral dithering module)은 수학식 3에 따라 스펙트럼 매개변수 벡터들(116)에 랜덤 성분을 삽입함으로써 실제 배경 잡음 스펙트럼의 변동을 시뮬레이션하고, 에너지 디더링 모듈(38)(energy dithering module)은 수학식 4에 따라 수신 에너지(126)에 랜덤 디더링을 삽입한다. 상기 디더링된 스펙트럼 매개변수 벡터(S"ave)는 참조 번호 118로 표시되고, 상기 디더링된 수신 에너지(E"ave)는 참조 번호 128로 표시된다. 그러나, 배경 잡음이 정적으로 분류되는 경우, 정적-플래그(130)는 세팅된다. 상기 스펙트럼 디더링 모듈(32) 및 상기 에너지 디더링 모듈(38)은 사실상 사용되지 않고 따라서 S"ave= S'ave, E"ave= E'ave가 된다. 그러한 경우, 신호(118)는 신호(116)와 동일하고, 신호(128)는 신호(126)와 동일하다. 어느 경우에든지, 신호(128)는 스케일링 모듈(40)(scaling module)에 전달된다. 평균 에너지(E"ave)에 기초하여, 상기 스케일링 모듈(40)은 위로 잡음의 에너지를 수정하고, 따라서 복호기(12)에 의해 제공되는 바와 같은 위로 잡음(150)의 에너지 레벨은 부호기(10)에서의 배경 잡음의 에너지와 거의 동일하다. 도 6에 도시된 바와 같이, 랜덤 잡음 발생기(50)는 여기(excitation)로서 사용되는 랜덤 백색 잡음 벡터를 생성하는데 사용된다. 백색 잡음은 참조 번호(140)로써 표시되고 스케일링되거나 수정된 백색 잡음은 참조 번호(142)로써 표시된다. 입력(100)의 평균 배경 잡음을 나타내는 신호(118) 또는 평균 스펙트럼 매개변수 벡터(S"ave)는 합성 필터 모듈(34)에 제공된다. 상기 신호(118) 및 상기 스케일링된 여기(142)에 기초하여, 상기 합성 필터 모듈(34)은 위로 잡음(150)을 제공한다.
배경 잡음은 스펙트럼 매개변수 (LSF 또는 ISF) 벡터들(f(i)) 각각으로부터 다른 스펙트럼 매개변수 벡터들(f(j)) 각각으로의 스펙트럼 거리들(ΔDi)에 기초하여 정적으로 또는 비-정적으로 분류될 수 있다. 여기서, CN 평균 기간(ldtx) 내에서 i=0,...,ldtx-1이고, j=0,...,ldtx-1이며, i≠j이다. 상기 평균 기간은 전형적으로 8이다. 스펙트럼 거리들은 수학식 5와 같이 근사치가 구해진다.
또는 모든 i=0,...,ldtx-1이고, i≠j이며, 여기서
이고, fi(k)는 프레임 i에서 스펙트럼 매개변수 벡터(f(i))의 k번째 스펙트럼 매개변수이고, M은 합성 필터(LP)의 차수이다.
평균 기간이 8인 경우, 전체 스펙트럼 거리는이다. Ds가 작은 경우, 정적-플래그가 세팅되고(플래그(130)가 1의 값을 갖는다), 배경 잡음이 정적인 것을 나타낸다. 그렇지 않은 경우, 정적-플래그가 세팅되지 않고(플래그(130)가0의 값을 갖는다), 배경 잡음이 비-정적인 것을 나타낸다. 바람직하기로는, 전체 스펙트럼 거리(Ds)는 상수에 대해 비교되고, 상기 상수는 고정 소수점 연산에서 67108864와 동일하고 부동 소수점에서 대략 5147609와 동일할 수 있다. Ds가 상기 상수보다 더 작은지 아닌지에 의존하여 정적-플래그가 세팅되거나 세팅되지 않는다.
추가로, 프레임들간의 전력 변화가 고려될 수 있다. 그 목적을 위해, 2 인접 프레임들간의 에너지 비 E(i)/E(i+1)가 계산된다. 종래 기술에 공지된 바와 같이, VAD=0으로 표시된 각 프레임에 대한 프레임 에너지는 수학식 7과 같이 계산된다.
여기서 s(n)는 현재 프레임(i)의 고역 통과 필터링된 입력 음성 신호이다. 이들 에너지 비들 중에서 1보다 많은 것이 충분히 큰 경우, 비록 정적-플래그가 작은 Ds에 대해 이전에 세팅되었다 하더라도, 상기 정적-플래그는 리셋된다(플래그(130)의 값이 0이 된다). 이것은 각 프레임에 대한 대수 영역에서의 프레임 에너지를 평균 대수 에너지와 비교하는 것과 균등하다. 따라서, 평균 enlog으로부터 enlog(i)의 절대 편차의 합이 큰 경우, 비록 정적-플래그가 작은 Ds에 대해 이전에 세팅되었다 하더라도, 상기 정적-플래그는 리셋된다. 절대 편차의 합이 고정 소수점 연산에서 180 (부동 소수점에서 1.406) 보다 큰 경우, 정적-플래그는 리셋된다.
수학식 3에 따라 디더링을 스펙트럼 매개변수 벡터들에 삽입하는 경우, 상위 스펙트럼 성분들(LSF 또는 ISF 요소들)에 삽입되는 디더링의 양보다 더 작은 양의 디더링이 하위 스펙트럼 성분들에 삽입되는 것이 바람직하다. 이것은 수학식 3의 스펙트럼 디더링의 삽입을 다음 수학식 8로 수정한다.
여기서 L(i)은 i의 함수로서 고주파 성분들에 대해 증가하고, M은 합성 필터(LP)의 차수이다. 예로서, AMR 광대역 코덱에 적용되는 경우, L(i) 벡터는 다음 값들을 가질 수 있다:
{128, 140, 152, 164, 176, 188, 200, 212, 224, 236, 248, 260, 272, 284, 296, 0} (제3 세대 협력 프로젝트, 기술 사양 그룹 서비스들 및 시스템 태양들, 필수 음성 코덱 음성 처리 기능들, AMR 광대역 음성 코덱, 트랜스코딩 기능들(3G TS 26.190 버전 0.02) 참조). 여기서 ISF 영역이 스펙트럼 표시를 위해 사용되고, 벡터의 제2 최종 요소(i-M-2)가 최고 주파수 및 벡터의 제1 요소(i=0)를 나타낸다는 것을 주의해야 한다. LSF 영역에서, 벡터의 최종 요소(i-M-1)는 최고 주파수 및 벡터의 제1 요소(i=0)를 나타낸다.
에너지 매개변수들에 대한 디더링 삽입은 스펙트럼 디더링에서와 유사하고 수학식 4에 따라 계산될 수 있다. 대수 영역에서, 에너지 매개변수들에 대한 디더링 삽입은 수학식 9와 같다.
도 7은 본 발명에 따른 비-음성 기간들 동안 위로 잡음을 생성하는 방법을 도시하는 흐름도이다. 흐름도(200)에 도시된 바와 같이, 단계 202에서 평균 스펙트럼 매개변수 벡터(S'ave) 및 평균 수신 에너지(E'ave)가 계산된다. 단계 204에서, 전체 스펙트럼 거리(Ds)가 계산된다. 단계 206에서, Ds가 소정 값(예를 들어 고정 소수점 연산에서 67108864)보다 더 작지 않다고 결정되는 경우, 정적-플래그가 세팅되지 않는다. 따라서, 단계 232에서, 디더링이 S'ave및 E'ave에 삽입되고, 그 결과 S"ave및 E"ave가 된다. Ds가 상기 소정값보다 더 작은 경우, 정적-플래그가 세팅된다. 단계 232에서의 디더링 과정은 사용되지 않고, S"ave= S'ave, E"ave= E'ave가 된다. 옵션으로, 프레임들 사이에 에너지 변화를 측정하기 위하여 단계 208이 수행된다. 단계 230에서 결정되는 바와 같이, 에너지 변화가 큰 경우, 정적-플래그가 리셋되고 과정은 단계 232로 진행한다. 단계 234에서, S"ave및 E"ave에 기초하여 위로 잡음이 생성된다.
본 발명에 따른 방법을 사용하여 3가지 상이한 배경 잡음 유형들이 테스트되었다. 차(car) 잡음에 있어서, 위로 잡음 프레임들의 95.0%가 정적으로 분류된다. 사무실 잡음에 있어서, 위로 잡음 프레임들의 36.9%가 정적으로 분류된다. 거리 잡음에 있어서, 위로 잡음 프레임들의 25.8%가 정적으로 분류된다. 이것은 매우 양호한 결과인데, 왜냐하면, 차 잡음은 대개 정적 배경 잡음이고, 사무실 및 거리 잡음은 대개 배경 잡음의 비-정적 유형들이기 때문이다.
본 발명에 따라 정적-플래그에 관한 계산이 전적으로 부호기에서 수행된다는 것을 주의해야 한다. 그와 같은 경우, WO 00/31719에서 개시된 바와 같은 복호기만의 방법에 비해 계산 지연이 상당히 감소된다. 더욱이, 본 발명에 따른 방법은 위로 잡음 수정을 위해 부호기로부터 복호기로 정보를 전송하는데 단 하나의 비트만을 사용한다. 대비하여, WO 00/31719에서 개시된 바와 같이, 부호기 및 복호기 사이에 계산이 분할되는 경우 훨씬 더 높은 비트율이 전송 채널에서 요구된다.
비록 본 발명이 본 발명의 바람직한 실시예에 관하여 설명되었다 하더라도, 본 발명의 범위를 벗어나지 않으면서 본 발명의 형태 및 상세에서의 상기 및 다양한 다른 변화들, 생략들 및 변경들이 수행될 수 있다는 것이 당업자에 의해 이해될 것이다.

Claims (25)

  1. 음성 기간들 및 비-음성 기간들을 구비하는 음성 통신에서의 위로 잡음(150)(comfort noise) 생성 방법(200)으로서, 음성 입력을 나타내는 신호들(114, 124)은 상기 음성 통신을 용이하게 하기 위하여 송신측에서 수신측으로 프레임들에서 제공되고, 상기 음성 입력은 음성 성분 및 비-음성 성분을 구비하며, 상기 비-음성 성분은 정적(stationary) 또는 비-정적(non-stationary)으로 분류할 수 있는 위로 잡음 생성 방법에 있어서,
    상기 비-음성 성분이 정적인지 비-정적인지를 결정하는 단계(204);
    상기 비-음성 성분이 정적임을 나타내는 제1 값 또는 상기 비-음성 성분이 비-정적임을 나타내는 제2 값을 구비하는 추가 신호(130)를 상기 송신측에서 제공하는 단계(206); 및
    상기 송신측으로부터 수신된 상기 추가 신호에 응답하여, 상기 추가 신호(130)가 상기 제1 값을 구비하는지 상기 제2 값을 구비하는지에 기초하는 방식으로, 상기 비-음성 기간들에서 상기 위로 잡음(150)을 상기 수신측에서 제공하는 단계(202, 232)를 포함하는 것을 특징으로 하는 위로 잡음 생성 방법.
  2. 제1항에 있어서, 상기 비-음성 성분은 상기 송신측에서 배경 잡음인 것을 특징으로 하는 위로 잡음 생성 방법.
  3. 제1항에 있어서, 상기 추가 신호가 상기 제2 값을 구비하는 경우 상기 위로 잡음에 랜덤 성분이 제공되는 것을 특징으로 하는 위로 잡음 생성 방법.
  4. 제1항에 있어서, 상기 신호들은 상기 비-음성 성분의 스펙트럼으로부터 추정되는 에너지 레벨(124) 및 스펙트럼 매개변수 벡터(114)를 포함하고, 상기 스펙트럼 매개변수 벡터(114) 및 상기 에너지 레벨(124)에 기초하여 상기 위로 잡음(150)이 제공되는 것을 특징으로 하는 위로 잡음 생성 방법.
  5. 제4항에 있어서, 상기 추가 신호(130)가 상기 제2 값을 구비하는 경우, 상기 위로 잡음(150)이 제공되기 전에 랜덤 값이 상기 스펙트럼 매개변수 벡터(114)의 요소들에 삽입(32)되는 것을 특징으로 하는 위로 잡음 생성 방법.
  6. 제4항에 있어서, 상기 추가 신호(130)가 상기 제2 값을 구비하는 경우, 상기 위로 잡음(150)이 제공되기 전에 제1 세트의 랜덤 값들이 상기 스펙트럼 매개변수 벡터(114)의 요소들에 삽입(32)되고, 제2 랜덤 값이 상기 에너지 레벨(124)에 삽입(38)되는 것을 특징으로 하는 위로 잡음 생성 방법.
  7. 제1항에 있어서, 상기 신호들은 상기 비-음성 성분들을 나타내는 복수의 스펙트럼 매개변수 벡터들(114)을 포함하고, 상기 결정 단계(204)는 상기 스펙트럼매개변수 벡터들(114) 중 스펙트럼 거리들(Ds)에 기초하여 수행되는 것을 특징으로 하는 위로 잡음 생성 방법.
  8. 제7항에 있어서, 상기 스펙트럼 거리들(Ds)은 합계 값을 제공하기 위하여 평균 기간 동안 합계되고, 상기 합계 값이 소정 값보다 작은 경우 상기 비-음성 성분은 정적으로서 분류되고 상기 합계 값이 상기 소정 값보다 크거나 같은 경우 상기 비-음성 성분은 비-정적으로서 분류되는 것을 특징으로 하는 위로 잡음 생성 방법.
  9. 제7항에 있어서, 상기 스펙트럼 매개변수 벡터들(114)은 선형 스펙트럼 주파수(LSF; linear spectral frequency) 벡터들인 것을 특징으로 하는 위로 잡음 생성 방법.
  10. 제7항에 있어서, 상기 스펙트럼 매개변수 벡터들(114)은 이미턴스 스펙트럼 주파수(ISF; immittance spectral frequency) 벡터들인 것을 특징으로 하는 위로 잡음 생성 방법.
  11. 제4항에 있어서, 상기 추가 신호가 상기 제1 값을 구비하는 경우 프레임들간의 에너지 레벨의 변화들을 계산하는 단계(208)를 더 포함하고, 상기 에너지 레벨의 변화들이 소정 값을 초과하는 경우, 상기 위로 잡음(150)이 제공되기 전에 상기추가 신호는 상기 제2 값을 구비하도록 변경되고 랜덤 값 벡터가 상기 스펙트럼 매개변수 벡터(114)에 삽입(232)되는 것을 특징으로 하는 위로 잡음 생성 방법.
  12. 제4항에 있어서, 상기 추가 신호(130)가 상기 제1 값을 구비하는 경우 프레임들간의 에너지 레벨의 변화들을 계산하는 단계(208)를 더 포함하고, 상기 에너지 레벨의 변화들이 소정 값을 초과하는 경우, 상기 위로 잡음(150)이 제공되기 전에 상기 추가 신호는 상기 제2 값을 구비하도록 변경되고 랜덤 값 벡터가 상기 스펙트럼 매개변수 벡터(114) 및 상기 에너지 레벨(124)에 삽입(232)되는 것을 특징으로 하는 위로 잡음 생성 방법.
  13. 제4항에 있어서, 상기 추가 신호(130)는 상기 비-음성 성분이 정적인지 비-정적인지를 나타내기 위한 상기 송신측에서 상기 수신측으로 전송되는 플래그를 포함하고, 상기 추가 신호(130)가 상기 제1 값을 구비하는 경우 상기 플래그는 세팅되고 상기 추가 신호가 상기 제2 값을 구비하는 경우 상기 플래그는 세팅되지 않는 것을 특징으로 하는 위로 잡음 생성 방법.
  14. 제13항에 있어서, 상기 플래그가 세팅되지 않는 경우, 상기 위로 잡음(150)이 제공되기 전에 랜덤 값이 상기 스펙트럼 매개변수 벡터(114)에 삽입(232)되는 것을 특징으로 하는 위로 잡음 생성 방법.
  15. 제13항에 있어서,
    상기 추가 신호가 상기 제1 값을 구비하는 경우 프레임들간의 에너지 레벨의 변화들을 계산하는 단계(208);
    상기 에너지 레벨의 변화들이 소정 값을 초과하는지를 결정하는 단계(230); 및
    상기 변화들이 상기 소정 값을 초과하는 경우 상기 플래그를 리셋(reset)하는 단계를 포함하는 것을 특징으로 하는 위로 잡음 생성 방법.
  16. 제15항에 있어서, 상기 플래그가 세팅되지 않는 경우, 상기 위로 잡음(150)이 제공되기 전에 랜덤 값이 상기 스펙트럼 매개변수 벡터(114)에 삽입(232)되는 것을 특징으로 하는 위로 잡음 생성 방법.
  17. 제5항에 있어서, 상기 랜덤 값은 -L 및 L 범위내에 있고, 여기서 L은 소정 값인 것을 특징으로 하는 위로 잡음 생성 방법.
  18. 제17항에 있어서, 상기 소정 값은 100+0.8i Hz와 실질적으로 동일한 것을 특징으로 하는 위로 잡음 생성 방법.
  19. 제6항에 있어서, 상기 제2 랜덤 값은 -75 및 75 범위내에 있는 것을 특징으로 하는 위로 잡음 생성 방법.
  20. 제5항에 있어서, 상기 랜덤 값은 -L 및 L 범위내에 있고, 여기서 L은 상위 주파수들을 나타내는 요소들을 가지고 증가하는 값인 것을 특징으로 하는 위로 잡음 생성 방법.
  21. 제1항에 있어서, 상기 추가 신호는 이진 플래그이고, 상기 제1 값은 1이고 상기 제2 값은 0인 것을 특징으로 하는 위로 잡음 생성 방법.
  22. 제1항에 있어서, 상기 추가 신호는 이진 플래그이고, 상기 제1 값은 0이고 상기 제2 값은 1인 것을 특징으로 하는 위로 잡음 생성 방법.
  23. 음성 입력(100)을 나타내는 음성 관련 매개변수들(114, 124)을 제공하기 위한 송신측 및 상기 음성 관련 매개변수들(114, 124)에 기초하여 상기 음성 입력을 재구성하기 위한 수신측을 구비하는 통신 네트워크에서 음성 통신에서의 위로 잡음(150)(comfort noise) 생성 시스템(10, 12)으로서, 상기 음성 통신은 음성 기간들 및 비-음성 기간들을 구비하고, 상기 음성 입력은 음성 성분 및 비-음성 성분을 구비하며, 상기 비-음성 성분은 정적(stationary) 또는 비-정적(non-stationary)으로 분류할 수 있고, 상기 위로 잡음(150)은 상기 비-음성 기간들에서 제공되는 위로 잡음 생성 시스템에 있어서,
    상기 비-음성 성분이 정적인지 비정적인지를 결정하고, 상기 비-음성 성분이정적임을 나타내는 제1 값 또는 상기 비-음성 성분이 비-정적임을 나타내는 제2 값을 구비하는 신호(130)를 제공하기 위한 상기 송신측에 있는 수단(28); 및
    상기 신호(130)에 응답하여, 상기 신호가 상기 제2 값을 구비하는 경우에만 랜덤 성분을 상기 위로 잡음(150)에 삽입하기 위한 상기 수신측에 있는 수단(32, 38)을 포함하는 것을 특징으로 하는 위로 잡음 생성 시스템.
  24. 음성 입력(100)을 나타내는 음성 매개변수들(114, 124)을 제공하기 위한 부호기(10) 및 상기 제공된 음성 매개변수들(114, 124)에 응답하여, 상기 음성 매개변수들에 기초하여 상기 음성 입력을 재구성하기 위한 복호기(12)를 구비하는 음성 통신에서 사용하기 위한 음성 코더(1)(speech coder)로서, 상기 음성 통신은 음성 기간들 및 비-음성 기간들을 구비하고, 상기 음성 입력은 음성 성분 및 비-음성 성분을 구비하며, 상기 비-음성 성분은 정적 또는 비-정적으로 분류할 수 있는 음성 코더에 있어서,
    상기 부호기(10)는 상기 음성 입력(100)에 응답하여, 상기 음성 입력의 상기 비-음성 성분을 나타내는 에너지 매개변수(124) 및 스펙트럼 매개변수 벡터(114)를 제공하기 위한 스펙트럼 분석 모듈(20, 24)을 포함하고,
    상기 복호기(12)는 상기 스펙트럼 매개변수 벡터 및 상기 에너지 매개변수에 기초하여 상기 비-음성 성분을 대체하기 위하여 상기 비-음성 기간들에서 위로 잡음(150)을 제공하기 위한 수단(30, 36)을 포함하며,
    상기 음성 코더(1)는
    상기 스펙트럼 매개변수 벡터(114) 및 상기 에너지 매개변수(124)에 응답하여, 상기 비-음성 성분이 정적인지 비정적인지를 결정하고, 상기 비-음성 성분이 정적임을 나타내는 제1 값 및 상기 비-음성 성분이 비-정적임을 나타내는 제2 값을 구비하는 신호(130)를 제공하기 위한 상기 부호기(10)에 있는 잡음 검출기 모듈(28); 및
    상기 신호(130)에 응답하여, 상기 비-음성 성분이 비-정적인 경우에만 상기 위로 잡음(150)을 수정하기 위하여 상기 에너지 매개변수(124) 및 상기 스펙트럼 매개변수 벡터(114)의 요소들에 랜덤 성분을 삽입하기 위한 상기 복호기(12)에 있는 디더링 모듈(32, 38)(dithering module)을 포함하는 것을 특징으로 하는 음성 코더.
  25. 음성 기간들 및 비-음성 기간들을 구비하는 음성 통신에서의 위로 잡음(150) 제공 방법(200)으로서, 음성 입력을 나타내는 신호들(114, 124)은 상기 음성 통신을 용이하게 하기 위하여 송신측에서 수신측으로 제공되고, 상기 음성 입력은 음성 성분 및 비-음성 성분을 구비하며, 상기 비-음성 성분은 정적(stationary) 또는 비-정적(non-stationary)으로 분류할 수 있고, 상기 위로 잡음은 상기 비-음성 기간들에서 제공되는 위로 잡음 제공 방법에 있어서,
    상기 비-음성 성분이 정적인지 비정적인지를 상기 송신측에서 결정하는 단계(204);
    상기 결정을 나타내는 추가 신호(130)를 상기 송신측에서 제공하는단계(206); 및
    상기 송신측으로부터 수신된 상기 추가 신호(130)에 응답하여, 상기 추가 신호(130)에 기초하여 상기 비-음성 성분이 비-정적인 경우, 상기 수신측에서 상기 위로 잡음을 수정하는 단계(232)를 포함하는 것을 특징으로 하는 위로 잡음 제공 방법.
KR10-2003-7007026A 2000-11-27 2001-11-26 음성 통신에서의 위로 잡음 생성 방법 및 시스템 KR20040005860A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US25317000P 2000-11-27 2000-11-27
US60/253,170 2000-11-27
PCT/IB2001/002235 WO2002043048A2 (en) 2000-11-27 2001-11-26 Method and system for comfort noise generation in speech communication

Publications (1)

Publication Number Publication Date
KR20040005860A true KR20040005860A (ko) 2004-01-16

Family

ID=22959162

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-7007026A KR20040005860A (ko) 2000-11-27 2001-11-26 음성 통신에서의 위로 잡음 생성 방법 및 시스템

Country Status (13)

Country Link
US (1) US6662155B2 (ko)
EP (1) EP1337999B1 (ko)
JP (1) JP3996848B2 (ko)
KR (1) KR20040005860A (ko)
CN (1) CN1265353C (ko)
AT (1) ATE336059T1 (ko)
AU (1) AU2002218428A1 (ko)
BR (1) BR0115601A (ko)
CA (1) CA2428888C (ko)
DE (1) DE60122203T2 (ko)
ES (1) ES2269518T3 (ko)
WO (1) WO2002043048A2 (ko)
ZA (1) ZA200303829B (ko)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3451998B2 (ja) * 1999-05-31 2003-09-29 日本電気株式会社 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体
JP2001242896A (ja) * 2000-02-29 2001-09-07 Matsushita Electric Ind Co Ltd 音声符号化/復号装置およびその方法
US7012901B2 (en) * 2001-02-28 2006-03-14 Cisco Systems, Inc. Devices, software and methods for generating aggregate comfort noise in teleconferencing over VoIP networks
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
JP4063508B2 (ja) * 2001-07-04 2008-03-19 日本電気株式会社 ビットレート変換装置およびビットレート変換方法
CN100466671C (zh) * 2004-05-14 2009-03-04 华为技术有限公司 语音切换方法及其装置
JP4381291B2 (ja) * 2004-12-08 2009-12-09 アルパイン株式会社 車載用オーディオ装置
DE102004063290A1 (de) * 2004-12-29 2006-07-13 Siemens Ag Verfahren zur Anpassung von Comfort Noise Generation Parametern
US20070038443A1 (en) * 2005-08-15 2007-02-15 Broadcom Corporation User-selectable music-on-hold for a communications device
US20070136055A1 (en) * 2005-12-13 2007-06-14 Hetherington Phillip A System for data communication over voice band robust to noise
US7573907B2 (en) * 2006-08-22 2009-08-11 Nokia Corporation Discontinuous transmission of speech signals
US20080059161A1 (en) * 2006-09-06 2008-03-06 Microsoft Corporation Adaptive Comfort Noise Generation
KR100834679B1 (ko) 2006-10-31 2008-06-02 삼성전자주식회사 음성 인식 오류 통보 장치 및 방법
RU2469419C2 (ru) 2007-03-05 2012-12-10 Телефонактиеболагет Лм Эрикссон (Пабл) Способ и устройство для управления сглаживанием стационарного фонового шума
CN101303855B (zh) * 2007-05-11 2011-06-22 华为技术有限公司 一种舒适噪声参数产生方法和装置
US20090043577A1 (en) * 2007-08-10 2009-02-12 Ditech Networks, Inc. Signal presence detection using bi-directional communication data
CN101790756B (zh) * 2007-08-27 2012-09-05 爱立信电话股份有限公司 瞬态检测器以及用于支持音频信号的编码的方法
CN101335003B (zh) * 2007-09-28 2010-07-07 华为技术有限公司 噪声生成装置、及方法
CN101335000B (zh) 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
CN101651752B (zh) * 2008-03-26 2012-11-21 华为技术有限公司 解码的方法及装置
US8577677B2 (en) * 2008-07-21 2013-11-05 Samsung Electronics Co., Ltd. Sound source separation method and system using beamforming technique
US9253568B2 (en) * 2008-07-25 2016-02-02 Broadcom Corporation Single-microphone wind noise suppression
CN102044246B (zh) * 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
CN102044241B (zh) * 2009-10-15 2012-04-04 华为技术有限公司 一种实现通信系统中背景噪声的跟踪的方法和装置
JP5482998B2 (ja) * 2009-10-19 2014-05-07 日本電気株式会社 音声復号化切替えシステムおよび音声復号化切替え方法
US10218327B2 (en) * 2011-01-10 2019-02-26 Zhinian Jing Dynamic enhancement of audio (DAE) in headset systems
DE102011076484A1 (de) * 2011-05-25 2012-11-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Tonwiedergabevorrichtung mit hörszenariosimulation
CN103093756B (zh) * 2011-11-01 2015-08-12 联芯科技有限公司 舒适噪声生成方法及舒适噪声生成器
CN103137133B (zh) * 2011-11-29 2017-06-06 南京中兴软件有限责任公司 非激活音信号参数估计方法及舒适噪声产生方法及系统
US20140278380A1 (en) * 2013-03-14 2014-09-18 Dolby Laboratories Licensing Corporation Spectral and Spatial Modification of Noise Captured During Teleconferencing
KR102072365B1 (ko) * 2013-04-05 2020-02-03 돌비 인터네셔널 에이비 고급 양자화기
CN104217723B (zh) * 2013-05-30 2016-11-09 华为技术有限公司 信号编码方法及设备
EP2980790A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for comfort noise generation mode selection
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals
US10325588B2 (en) * 2017-09-28 2019-06-18 International Business Machines Corporation Acoustic feature extractor selected according to status flag of frame of acoustic signal

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE501981C2 (sv) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
FI100932B (fi) * 1995-04-12 1998-03-13 Nokia Telecommunications Oy Äänitaajuussignaalien lähetys radiopuhelinjärjestelmässä
FR2739995B1 (fr) * 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
WO2000011649A1 (en) 1998-08-24 2000-03-02 Conexant Systems, Inc. Speech encoder using a classifier for smoothing noise coding
US6823303B1 (en) 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
FI105635B (fi) 1998-09-01 2000-09-15 Nokia Mobile Phones Ltd Menetelmä taustakohinainformaation lähettämiseksi tietokehysmuotoisessa tiedonsiirrossa
US7124079B1 (en) 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity

Also Published As

Publication number Publication date
CA2428888C (en) 2007-10-30
JP3996848B2 (ja) 2007-10-24
JP2004525540A (ja) 2004-08-19
WO2002043048A2 (en) 2002-05-30
ZA200303829B (en) 2004-07-28
WO2002043048A3 (en) 2002-12-05
CA2428888A1 (en) 2002-05-30
US6662155B2 (en) 2003-12-09
EP1337999A2 (en) 2003-08-27
ES2269518T3 (es) 2007-04-01
CN1513168A (zh) 2004-07-14
CN1265353C (zh) 2006-07-19
ATE336059T1 (de) 2006-09-15
DE60122203D1 (de) 2006-09-21
US20020103643A1 (en) 2002-08-01
AU2002218428A1 (en) 2002-06-03
EP1337999B1 (en) 2006-08-09
BR0115601A (pt) 2004-12-28
DE60122203T2 (de) 2007-08-30

Similar Documents

Publication Publication Date Title
KR20040005860A (ko) 음성 통신에서의 위로 잡음 생성 방법 및 시스템
US6101466A (en) Method and system for improved discontinuous speech transmission
KR101018952B1 (ko) 음성 통신 시스템에서의 컴포트 노이즈 생성 방법 및 장치
FI116643B (fi) Kohinan vaimennus
ES2337137T3 (es) Mejoramiento de audio en dominio codificado.
JP2002237785A (ja) 人間の聴覚補償によりsidフレームを検出する方法
US6424942B1 (en) Methods and arrangements in a telecommunications system
ES2371455T3 (es) Pre-procesamiento de datos digitales de audio para codecs de audio de móvil.
JP2003501925A (ja) パラメトリックノイズモデル統計値を用いたコンフォートノイズの生成方法及び装置
KR20080080893A (ko) 음성신호의 대역폭 확장 제어 방법 및 장치
CN112334980A (zh) 自适应舒适噪声参数确定
JPS62274941A (ja) 音声符号化方式
JP2003504669A (ja) 符号化領域雑音制御
EP1020848A2 (en) Method for transmitting auxiliary information in a vocoder stream
KR100688069B1 (ko) 백그라운드 잡음 재생을 이용한 음성 코딩
US20050071154A1 (en) Method and apparatus for estimating noise in speech signals
US20050102136A1 (en) Speech codecs
CN113571072B (zh) 一种语音编码方法、装置、设备、存储介质及产品
Cox et al. Speech coders: from idea to product
CN100369108C (zh) 编码域中的音频增强的方法和设备
JP3896654B2 (ja) 音声信号区間検出方法及び装置
CN117223054A (zh) 经解码的声音信号中的多声道舒适噪声注入的方法及设备
JPH0870285A (ja) 音声復号装置
JPH07210199A (ja) 音声符号化方法および音声符号化装置
JP2000132192A (ja) 信号処理方法及び装置、並びに帯域幅拡張方法及び装置

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
E801 Decision on dismissal of amendment
B601 Maintenance of original decision after re-examination before a trial
J301 Trial decision

Free format text: TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20060318

Effective date: 20070329

J2X1 Appeal (before the patent court)

Free format text: APPEAL AGAINST DECISION TO DECLINE REFUSAL

J302 Written judgement (patent court)

Free format text: JUDGMENT (PATENT COURT) FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20070504

Effective date: 20071221