KR100688069B1 - 백그라운드 잡음 재생을 이용한 음성 코딩 - Google Patents

백그라운드 잡음 재생을 이용한 음성 코딩 Download PDF

Info

Publication number
KR100688069B1
KR100688069B1 KR1020017002853A KR20017002853A KR100688069B1 KR 100688069 B1 KR100688069 B1 KR 100688069B1 KR 1020017002853 A KR1020017002853 A KR 1020017002853A KR 20017002853 A KR20017002853 A KR 20017002853A KR 100688069 B1 KR100688069 B1 KR 100688069B1
Authority
KR
South Korea
Prior art keywords
parameter
current
normality
original speech
determining
Prior art date
Application number
KR1020017002853A
Other languages
English (en)
Other versions
KR20010090438A (ko
Inventor
스베드베르그조나스
우브리덴앤더스
조한손인게말
Original Assignee
텔레포나크티에볼라게트 엘엠 에릭슨(피유비엘)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=22551052&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR100688069(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 텔레포나크티에볼라게트 엘엠 에릭슨(피유비엘) filed Critical 텔레포나크티에볼라게트 엘엠 에릭슨(피유비엘)
Publication of KR20010090438A publication Critical patent/KR20010090438A/ko
Application granted granted Critical
Publication of KR100688069B1 publication Critical patent/KR100688069B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain

Abstract

오리지널 음성 신호에 대한 부호화 정보로부터 오리지널 음성 신호에 근사한 추정 신호를 생성함에 있어서, 오리지널 음성 신호와 관련한 현재 파라미터들(EnPar(i))은 부호화 정보로부터 결정된다. 상기 파라미터들 중에서 적어도 하나의 현재 파라미터와 오리지널 음성 신호의 이전 세그먼트들과 각각 관련한 이전 파라미터들을 이용하여(31)(37)(39) 변형 파라미터(EnPar(i)mod)를 생성하는 것을 통하여 오리지널 음성 신호의 잡음 성분이 재생된다. 그런 다음, 변형 파라미터는 오리지널 음성 신호의 현재 세그먼트에 근사한 추정 세그먼트를 생성하는 데에 이용된다(25)(40).
음성 디코딩, 부호화, 세그먼트, 송수신기, 추정신호

Description

백그라운드 잡음 재생을 이용한 음성 코딩{SPEECH CODING WITH BACKGROUND NOISE REPRODUCTION}
본 발명은 일반적으로 음성 코딩에 관한 것으로, 특히 음성 코딩에서 백그라운드 잡음의 재생에 관한 것이다.
코드 여기 선형 예측(CELP) 음성 코더와 같은 선형 예측형 음성 코더에 있어서, 수신되는 오리지널 음성 신호는 일반적으로 프레임이라고 하는 블록들로 나누어진다. 통상의 프레임 길이는 20 밀리초나 160 샘플이고, 이와 같은 프레임 길이는 예를 들어 종래의 전화 대역폭 이동 기기에 사용된다. 프레임들은 통상적으로 서브 프레임들로 세분된다. 서브 프레임들은 길이가 5 밀리초나 40 샘플이다.
상기에 언급한 종래의 음성 코더에 있어서, 음성 부호화 과정에서 오리지널 음성 신호로부터 성도, 피치 및 기타 특징을 나타내는 파라미터가 추출된다. 천천히 변하는 파라미터들은 프레임 단위로 계산된다. 이와 같이 천천히 변하는 파라미터들의 예로는 성도를 나타내는 소위 단기 예측(STP) 파라미터를 포함한다. STP 파라미터들은 선형 예측 음성 코더에서 합성 필터의 필터 계수들을 정의한다. 피치와 같이 보다 빨리 변하는 파라미터들과 이노베이션 형상 및 이노베이션 이득 파라미터들은 통상적으로 각 서브 프레임에 대하여 계산된다.
파라미터들이 계산된 다음에는 양자화된다. STP 파라미터들은 선스펙트럼 주파수(LSF) 표현과 같이 양자화에 보다 적합한 표현으로 변형된다. STP 파라미터가 LSF 표현으로 변형되는 것은 당업계에 잘 알려진 사실이다.
파라미터들이 양자화되면, 파라미터 정보가 인터리빙되고 변조되기 전에 에러 제어 코딩 및 검사합 정보가 부가된다. 그런 다음, 파라미터 정보는 통신 채널을 통하여 수신기로 전송된다. 이 때, 수신기에서는 오리지널 음성 신호와 매우 흡사한 음성 신호를 합성하기 위하여 음성 디코더가 상기 설명한 음성 부호화 과정의 반대 과정을 수행한다. 음성 디코더에서, 합성된 음성 신호에 사후 필터링이 수행되어 신호의 감지 품질을 향상시킨다.
CELP 모델과 같은 선형 예측 모델을 이용하는 음성 코더는 통상적으로 음성의 코딩에 매우 조심스럽게 채택되므로, 이와 같은 코더에서는 백그라운드 잡음과 같은 비음성 신호의 합성이나 재생이 잘 이루어지지 않는다. 양자화 파라미터가 채널 에러에 의해 왜곡되는 경우와 같이 채널 상태가 불량할 때에는 백그라운드 잡음의 재생이 더욱 저하된다. 채널 상태가 양호한 경우에도, 청취자가 수신기로 백그라운드 잡음을 변동 및 비정상 잡음으로 감지할 수 있다. CELP 코더에서, 이와 같은 문제점이 발생하는 이유는 주로 타겟 신호와 합성 신호 사이의 나쁜 상관 관계와 함께 종래에 분석별 루프에 사용되는 평균 제곱 에러(MSE) 기준이다. 채널 상태가 불량한 경우, 백그라운드 잡음이 크게 변동하기 때문에 앞서 언급한 문제가 심해진다. 백그라운드 잡음 수준이 매우 천천히 변하므로 청취자는 이 것을 매우 거슬리게 느낄 수 있다.
채널 상태가 양호하거나 불량한 경우에 백그라운드 잡음의 감지 품질을 개선하기 위한 한 가지 해결책은 코딩되고 있는 신호가 음성인지 또는 비음성인지를 'YES' 또는 'NO'로 판단하는 음성 활동 검출기(VAD)를 이용하는 것이다. 이와 같은 판단에 있어서, 디코더에 여러 가지 처리 기술을 적용할 수 있을 것이다. 예를 들면, 비음성으로 판단되는 경우에는 디코더는 신호가 백그라운드 잡음이라고 가정하여 백그라운드 잡음의 스펙트럼 변화를 둔화시키는 동작을 한다. 그러나, 이와 같은 판단 기술은 청취자가 음성 처리 동작과 비음성 처리 동작간에 디코더가 바뀌는 것을 듣게 되는 단점이 있다.
앞서 언급한 문제 이외에도, 비트 레이트를 낮게(예: 8 kb/s 미만으로)하면 백그라운드 잡음의 재생이 훨씬 더 저하된다. 낮은 비트 레이트에서 채널 상태가 불량한 경우, 백그라운드 잡음은 부호화 백그라운드 잡음의 수준의 부자연스런 변화에 의해 발생하는 플러터링 효과로 들릴 수 있다.
유럽 특허 출원 제 0,843,301 호는 불연속 전송 모드에서 동작하는 이동 단말기에서 쾌적한 잡음을 생성하기 위한 방법을 개시하고 있다. 무작위 여기 제어 파라미터들은 송신측에서 계산되어 수신측에서 변형된다. 이로써, 수신측의 백그라운드 잡음에 맞는 쾌적한 잡음을 발생할 수 있다. 이들 파라미터들은 그밖에 다른 쾌적한 잡음 파라미터들과 함께 음성 중단 상태에서 계산된다. 상태가 불량한 음성 코딩 파라미터의 중간값으로 원래의 파라미터들이 대체된다.
미국 특허 제 4,630,305 호에는 잡음이 있는 음성 신호를 수신할 때 잡음이 제거된 음성 신호를 생성하여 음성 품질을 향상시키는 잡음 제거 시스템에 사용하기 위한 자동 이득 선택기가 소개되어 있다. 이와 같은 방법은 각각의 채널 이득이 채널 개수, 현재 채널 SNR, 및 전체 평균 백그라운드 잡음과 같은 몇 가지 파라미터들에 따라 선택되는 스펙트럼 이득 변형 방법을 이용한다.
유럽 특허 출원 제 0,786,760 호는 특정한 세그먼트 기간 중에 입력 신호의 자동 상관치의 가중 평균을 이용하여 백그라운드 잡음의 통계치를 추정하는 디코더를 이용함으로써 쾌적한 잡음을 발생하는 것을 설명하고 있다. 또한, 음성 사이에 쾌적한 잡음을 점진적으로 넣어주는 평활화 천이 방법을 사용한다.
WO 96/34382는 신호의 현재 부분이 음성인지 또는 잡음인지를 결정하기 위한 방법에 관한 것이다. 이 것은, 현재 부분을 이전 부분과 비교하여 현재 신호 부분이 잡음인지 또는 음성인지를 결정함으로써 가능하다.
1998년 5월 12-15일자의 음향, 음성 및 신호 처리에 관한 IEEE 국제 회의 회보, ICASSP '98, 제 1권, 365-368 페이지(미국, 워싱턴주, 시애틀, XP0002085126)에 나와 있는 "A voice activity detector employing soft decision based noise spectrum adaptation"이라는 제목의 IEEE 논문에는 가변 레이트 음성 코딩에 사용하기 위한 음성 활동 검출기(VAD)가 나와 있다. 잡음 통계치는 선험적으로 주어지며, 소프트 결정을 이용한 잡음 스펙트럼 적용 알고리즘을 이용하여 추정할 수 있다.
따라서, 앞서 언급한 바와 같이 청취자가 백그라운드 잡음을 듣지 않게 하면서도 CELP 디코더와 같은 선형 예측 음성 디코더에서 백그라운드 잡음을 재생하는 것이 바람직하다.
본 발명은 백그라운드 잡음의 개선된 재생 방식을 제공한다. 디코더는 재구성되고 있는 신호로 평활화되는 에너지 윤곽을 점진적으로(또는 소프트하게) 증감시킬 수 있다. 따라서, 에너지 윤곽 평활화 동작의 활성화/비활성화가 감지되는 문제점을 일으키지 않으면서도 에너지 윤곽을 평활화시킴으로써 백그라운드 잡음의 재생에 관련한 문제를 해결할 수 있다.
도 1은 종래의 선형 예측 음성 디코더의 관련 부분을 나타낸 도면;
도 2는 본 발명에 따른 선형 예측 음성 디코더의 관련 부분을 나타낸 도면;
도 3은 도 2의 변형부를 보다 상세히 나타낸 도면;
도 4는 도 2 및 도 3의 음성 디코더에 의해 수행될 수 있는 동작을 설명하는 흐름도;
도 5는 본 발명에 다른 통신 시스템을 나타낸 도면;
도 6은 본 발명에서 혼합 계수와 정상성 측도 사이의 관계를 그래프로 나타낸 도면; 및
도 7은 도 2 및 도 3에 나타낸 음성 재구성부의 부분을 상세히 설명한 도면.
도 1은 CELP 디코더와 같은 종래의 선형 예측 음성 디코더의 관련 부분을 도시하여 설명하고 있다. 도 1에 도시한 종래의 디코더에서, 파라미터 결정부(11)는 디코더가 오리지널 음성 신호를 가능하면 근접하게 재구성하는 데에 사용되는 파라미터들을 나타내는 정보를 종래의 통신 채널(도시되어 있지 않음)을 통하여 음성 인코더로부터 수신한다. 파라미터 결정부(11)는 인코더 정보로부터 에너지 파라미터와 현재의 서브 프레임 또는 프레임에 대한 그 밖의 파라미터들을 결정한다. 에너지 파라미터들은 도 1에서 EnPar(i)로 지정되고, 기타 파라미터들(참조 번호 13)은 OtherPar(i)로 지정된다. 여기서, i는 현재 서브 프레임(또는 프레임)의 서브 프레임(또는 프레임) 인덱스이다. 파라미터들은 음성 재구성부(15)로 입력된다. 음성 재구성부(15)는 에너지 파라미터와 기타 파라미터들로부터 오리지널 음성과 근사한 음성과 백그라운드 잡음을 합성 또는 재구성한다.
에너지 파라미터 EnPar(i)의 예로는 CELP 모델에 이용되는 종래의 고정 코드북 이득, 장기 예측 이득, 및 프레임 에너지 파라미터가 있다. 기타 파라미터 OtherPar(i)의 예로는 앞서 언급한 STP 파라미터의 LSF 표현이 있다. 도 1의 음성 재구성부(15)로 입력되는 에너지 파라미터와 기타 파라미터는 당해 업계의 지식을 득한 이에게 공지된 것이다.
도 2는 본 발명에 따른 CELP 디코더와 같은 선형 예측 디코더의 관련 부분을 도시한 것이다. 도 2의 디코더는 도 1에 나타낸 종래의 파라미터 결정부(11)와, 음성 재구성부(25)를 포함한다. 그러나, 도 2의 파라미터 결정부(21)에서 출력되는 에너지 파라미터 EnPar(i)는 에너지 파라미터 변형부(21)로 입력된다. 에너지 파라미터 변형부(21)는 변형된 에너지 파라미터 EnPar(i)mod를 출력한다. 변형된 에너지 파라미터들은 파라미터 결정부(11)에 의해 생성된 파라미터들 EnPar(i) 및 OtherPar(i)과 함께 음성 재구성부(25)로 입력된다.
에너지 파라미터 변형부(21)는 파라미터 결정부(11)에서 출력된 기타 파라미터들로부터 제어 입력(23)을 수신하고, 채널 상태를 나타내는 제어 입력도 수신한다. 이들 제어 입력에 응답하여, 에너지 파라미터 변형부(21)는 선택적으로 에너지 파라미터 EnPar(i)를 변형하고 변형된 에너지 파라미터 EnPar(i)mod를 출력한다. 변 형된 에너지 파라미터들은 앞서 언급한 바와 같이 도 1에 나타낸 종래의 디코더에서 청취자가 백그라운드 잡음의 재생과 관련하여 듣게 되는 문제의 잡음을 발생하지 않고 백그라운드 잡음을 재생할 수 있도록 한다.
본 발명의 일 실시예에 있어서, 에너지 파라미터 변형부(21)는 정상 백그라운드 잡음의 에너지 윤곽만을 평활화하고자 한다. 정상 백그라운드 잡음은 이동하는 차량 안에서 이동 전화기를 사용할 때 존재하는 백그라운드 잡음과 같은 지속적인 백그라운드 잡음을 말한다. 일 실시예에서, 본 발명은 현재 및 종래의 단기 합성 필터 계수들(STP 파리미터들)을 이용하여 신호의 정상성을 측정한다. 이들 파라미터들은 통상적으로 채널 에러를 방지할 수 있다. 현재 및 종래의 단기 합성 필터 계수들을 이용하는 정상성의 측정치는 다음과 같이 주어진다:
Figure 112001004708521-pct00001
(1)
상기 방정식에서, lsfj는 현재 서브 프레임과 관련하여 단기 필터 계수들의 선스펙트럼 주파수 표현에서 j 번째 선스펙트럼 주파수 계수를 나타낸다. 또한, 방정식 1에서, lsfAverj는 이전의 N 개의 프레임들 중에서 j 번째 단기 필터 계수의 lsf 개의 표현들의 평균값을 나타낸다. 이 때, N은 8로 설정된다. 따라서, 방정식 1에서 합산 부호의 오른쪽 계산은 단기 필터 계수들의 각각의 선스펙트럼 주파수 표현들에 대하여 수행된다. 일례로, 10 개의 단기 필터 계수들(10차 합성 필터에 해당)과 10 개의 해당 선스펙트럼 주파수 표현들이 있으면, j는 lsf를 1에서 10까지 색인하게 된다. 이 예에서, 각 서브 프레임에 대하여, 10 개의 값(각 단기 필터 계수마다 한 개 씩)이 방정식 1에서 계산되고, 이들 10 개의 값은 합산되어 해당 서브 프레임의 정상성 측도 diff가 얻어진다.
단기 필터 계수들과 이에 해당하는 선스펙트럼 주파수 표현들이 프레임마다 한 번씩만 갱신된다 하여도 방정식 1은 서브 프레임 단위로 적용된다는 사실에 유의해야 한다. 이 것은 종래의 디코더가 각 서브 프레임마다 각각의 선스펙트럼 주파수 lsf의 값을 보간하기 때문이다. 따라서, 종래의 CELP 디코딩 동작에 있어서 각 프레임에는 한 세트의 보간된 lsf 값들이 부여된다. 앞서 설명한 예를 이용하면, 각 서브 프레임에는 10 개의 보간된 lsf 값들이 부여된다.
방정식 1에서 lsfAverj 항은 lsf 값들의 서브 프레임 보간을 설명할 수 있다. 예를 들면, lsfAverj 항은 각각 N 개의 이전 프레임들과 일대일 대응되는 N 개의 이전 lsf 값들의 평균이거나, N 개 이전 프레임의 각각의 (보간 lsf 값들을 이용하는) 네 개의 서브 프레임들과 일대일 대응되는 4N 개의 이전 lsf 값들의 평균이다. 방정식 1에서, lsf의 길이는 통상적으로 0 내지 π이다. 이 때, π는 샘플링 주파수의 절반이다.
방정식 1의 lsfAverj를 계산하는 다른 방법은 다음과 같다:
Figure 112001004708521-pct00002
(1A)
이 때, lsfAverj(i) 항과 lsfAverj(i-1) 항은 각각 i 번째 프레임과 i-1 번째 프레임의 j 번째 lsf 표현에 해당하고, lsfj(i) 항은 i 번째 프레임의 j 번째 lsf 표현을 나타낸다. 첫 번째 프레임의 경우(i=1일 때), 적당한 (즉, 경험적으로 결정되는) 초기값을 lsfAverj(i-1)(=1sfAverj(0))항에 대하여 선택할 수 있다. A1과 A2 값의 예를 들면, A1=0.84 및 A2=0.16이다. 상기 방정식 1A는 앞서 언급한 8프레임 평균 방정식보다 덜 복잡하다.
방정식 1의 정상성 측도의 다른 계산 방법에 있어서, 분모의 lsfAverj 항을 lsfj로 바꿀 수 있다.
방정식 1에서 정상성 측도 diff는 현재 서브 프레임의 스펙트럼이 소정 개수의 이전 프레임들에 대하여 평균을 낸 평균 스펙트럼과 다른 정도를 나타낸다. 스펙트럼 형상의 차이는 음성 스퍼트, 문이 쾅하고 닫히는 소리 등과 같이 신호 에너지가 크게 변하는 것과 매우 상관이 있다. 대부분의 백그라운드 잡음은 diff가 매우 낮지만, 음성 언어의 경우에는 diff가 매우 높다.
백그라운드 잡음과 같이 부호화하기 어려운 신호의 경우, 정확한 파형 매칭보다는 완만한 에너지 윤곽을 얻는 것이 바람직하다. 정상성 측도 diff는 에너지 윤곽 평활화가 얼마나 필요한지를 결정하는 데에 이용된다. 평활화 동작의 활성화/비활성화가 들리지 않도록 하기 위해서는 에너지 윤곽 평활화를 디코더 처리에 점진적으로(소프트하게) 넣거나 제거해야 한다. 따라서, diff 측정치는 다음과 같이 주어지는 혼합 계수 k를 정하는 데에 사용된다:
Figure 112001004708521-pct00003
(2)
이 때, K1과 K2는 혼합 계수 k가 음성 언어의 경우에는 1(에너지 윤곽 평활화 없음)이고 정상 백그라운드 잡음인 경우에는 0(모든 에너지 윤곽 평활화)이 되도록 정해진다. K1과 K2의 적당한 값을 예로 들면, K1 = 0.40, K2 = 0.25이다. 도 6은 상기에 주어진 예(K1 = 0.40, K2 = 0.25)에서 정상성 측도 diff와 혼합 계수 k의 관계를 그래프로 나타낸 것이다. 혼합 계수 k는 diff 측정치의 다른 적당한 함수 F로 k = F(diff)와 같이 공식화시킬 수 있다.
도 2의 에너지 파라미터 변형부(21)는 이전 서브 프레임들과 관련한 에너지 파라미터들을 이용하여 변형된 에너지 파라미터 EnPar(i)mod를 얻을 수 있다. 예를 들면, 에너지 파라미터 변형부(21)는 도 2에 도시된 바와 같이 종래에 수신된 에너지 파라미터 EnPar(i)mod의 시간 평균식을 계산할 수 있다. 시간 평균식은 다음과 같이 계산할 수 있다:
Figure 112001004708521-pct00004
(3)
이 때, bi는 에너지의 가중 합계를 구하는 데에 사용된다. 예를 들면, bi의 값을 1/M으로 설정하여 지난 M 개의 서브 프레임들로부터 에너지 파라미터 값들의 평균을 얻을 수 있다. 방정식 3의 평균은 서브 프레임 단위로 수행할 필요는 없고, M 개의 프레임에 대하여 수행할 수도 있다. 평균 단위는 평균되는 에너지 파라미터(들)와 원하는 처리 방식에 따라 달라진다.
방정식 3을 이용하여 에너지 파라미터 EnPar(i)avg의 시간 평균식을 계산하였 으면, 혼합 계수 k를 이용하여 수신된 에너지 파라미터 값 EnPar(i)와 평균 에너지 파라미터 값 EnPar(i)avg의 이용을 소프트하게 또는 점진적으로 바꾸어 준다. 혼합 계수 k를 적용하는 식의 일례는 다음과 같다:
Figure 112001004708521-pct00005
(4)
도 4에서, k가 작으면(정상 백그라운드 잡음일 때) 평균 에너지 파라미터들은 에너지 윤곽을 평활화하는 데에 사용된다. 한편, k가 크면 현재 파라미터들을 사용한다. k의 값이 중간이면, 현재 파라미터들과 평균 파라미터들을 섞어서 계산한다. 방정식 3 및 방정식 4의 연산은 원하는 만큼 많은 에너지 파라미터들에 적용할 수 있으며 에너지 파라미터들의 일정한 혼합 형태에도 적용할 수 있음에 유의해야 한다.
도 2의 에너지 파라미터 변형부(21)에 입력되는 채널 상태에 대하여 설명하자면, 먼저 이러한 채널 상태 정보는 종래에 CELP 디코더와 같은 선형 예측 디코더에 채널 디코딩 정보 또는 CRC 검사합의 형태로 이용할 수 있다. 예를 들면, CRC 검사합 에러가 없으면 채널 상태가 양호한 것을 나타내고, 소정의 서브 프레임 시퀀스 내에 CRC 검사합 에러가 너무 많으면 인코더와 디코더간에 내부 상태가 서로 맞지 않는 것을 나타낸다. 마지막으로, 소정의 프레임이 CRC 검사합 에러를 갖는다면, 해당 프레임이 불량한 프레임이라는 것을 나타낸다. 상기에서 양호한 채널인 경우, 에너지 파라미터 변형부는 방정식 3에서 M을 4 또는 5로 설정한다. 상기에서 인코더와 디코더간에 내부 상태가 서로 맞지 않는 것으로 의심되는 경우에는, 도 2 의 에너지 파라미터 변형부(21)는 방정식 2에서 K1의 값을 0.4에서 0.55로 증가시켜 혼합 계수 k를 바꾸어준다. 방정식 4와 도 6에서 알 수 있는 바와 같이, K1의 값이 커지면 혼합 계수 k가 넓은 범위의 diff 값에 대하여 0(완전 평활화)이므로 방정식 4에서 시간 평균 에너지 파라미터 EnPar(i)avg의 영향을 향상시킬 수 있다. 채널 상태 정보가 불량한 프레임임을 나타내면, 도 2의 에너지 파라미터 변형부(21)는 방정식 2의 K1 값과 방정식 3의 M 값을 모두 증가시킨다.
도 3은 도 2에 도시한 에너지 파라미터 변형부(21)의 구현예를 보여 주는 도면이다. 도 3의 실시예에서, EnPar(i)와 lsf(i)로 지정되는 현재 서브 프레임의 lsf 값이 수신되어 메모리(31)에 저장된다. 정상성 결정부(33)는 메모리(31)로부터 현재 lsf 값과 이전 lsf 값을 얻어서 상기 방정식 1을 사용하여 정상성 측도 diff를 구한다. 그런 다음, 정상성 결정부(33)는 혼합 계수 결정부(35)에 diff를 알린다. 혼합 계수 결정부(35)는 상기 방정식 2를 이용하여 혼합 계수 k를 구한다. 그리고, 혼합 계수 결정부(35)는 혼합 계수 k를 혼합 로직(37)으로 보낸다.
에너지 파라미터 평균부(39)는 메모리(31)로부터 EnPar(i)의 현재 값과 이전 값을 얻어서 상기 방정식 3을 푼다. 그런 다음, 에너지 파라미터 평균부(39)는 EnPar(i)avg를 혼합 로직(37)으로 보낸다. 혼합 로직(37)은 현재 에너지 파라미터 EnPar(i)도 받는다. 혼합 로직(37)은 상기 방정식 4를 풀어서 EnPar(i)mod를 구한다. EnPar(i)mod는 앞서 언급한 파라미터 EnPar(i) 및 OtherPar(i)와 함께 음성 재구 성부(25)로 입력된다. 혼합 계수 결정부(35)와 에너지 파라미터 평균부(39)는 각각 종래에 사용하고 있는 채널 상태 정보를 제어 입력으로 받아서 앞서 설명한 바와 같이 각종 채널 상태에 대하여 적당한 동작을 취한다.
도 4는 도 2와 도 3에 도시되어 있는 선형 예측 디코더의 동작예를 보여 주는 도면이다. 41에서, 파라미터 결정부(11)는 인코더 정보로부터 음성 파라미터들을 결정한다. 그런 다음, 43에서 정상성 결정부(33)는 백그라운드 잡음의 정상성 측도를 결정한다. 45에서, 혼합 계수 결정부(35)는 정상성 측도와 채널 상태 정보에 따라 혼합 계수 k를 결정한다. 47에서, 에너지 파라미터 평균부(39)는 시간 평균 에너지 파라미터 EnPar(i)avg를 결정한다. 49에서, 혼합 로직(37)은 혼합 계수 k를 현재 에너지 파라미터(들) EnPar(i)와 평균 에너지 파라미터(들) EnPar(i)avg에 적용시켜 변형된 에너지 파라미터들 EnPar(i)mod를 결정한다. 40에서, 변형된 에너지 파라미터(들) EnPar(i)mod는 파라미터들 EnPar(i) 및 OtherPar(i)와 음성 재구성부로 제공된다. 그리고, 백그라운드 잡음을 포함하는 오리지널 음성의 추정 음성은 이들 파라미터들로부터 재구성된다.
도 7은 도 2 및 도 3에 나타난 음성 재구성부(25)의 부분을 구현한 예를 보여 주는 도면이다. 도 7은 음성 재구성부(25)가 에너지 파라미터가 관련되는 종래의 계산 방식으로 파라미터들 EnPar(i) 및 EnPar(i)mod를 사용하는 방법을 보여 준다. 음성 재구성부(25)는 피치 내역과 같이 디코더의 내부 상태에 영향을 미치는 종래의 에너지 파라미터 계산에 파라미터(들) EnPar(i)를 이용한다. 그리고, 음성 재구성부(25)는 기타 종래의 모든 에너지 파라미터 계산에 변형 파라미터(들) EnPar(i)mod를 사용한다. 반면에, 도 1에 나타낸 종래의 음성 재구성부(15)는 도 7에 도시한 종래의 모든 에너지 파라미터 계산에 EnPar(i)를 사용한다. 파라미터들 OtherPar(i)(도 2 및 도 3)는 음성 재구성부(25)에서 종래의 음성 재구성부(15)가 종래에 사용한 것과 같은 방식으로 사용된다.
도 5는 본 발명에 따른 통신 시스템의 일례를 보여 주는 블록도이다. 도 5에서, 본 발명에 따른 디코더(52)는 통신 채널(55)을 통하여 송수신기(54)와 교신하는 송수신기(XCVR)(53)에 내장된다. 디코더(52)는 통신 채널(55)을 통하여 송수신기(54)에 내장된 인코더(45)로부터 파라미터 정보를 받아서 재구성된 음성과 백그라운드 잡음을 송수신기(53)의 청취자에게 제공한다. 일례로, 도 5의 송수신기들(53)(54)은 이동 전화기일 수 있고, 채널(55)은 이동 전화망을 통한 통신 채널일 수 있다. 본 발명에 따른 음성 디코더(52)의 다른 응용예도 얼마든지 가능하며 쉽게 구현할 수 있다.
본 발명에 따른 음성 디코더는 적합하게 프로그램된 디지털 신호 처리기(DSP)나 그밖에 데이터 처리 장치를 단독 또는 외부 지원 논리 회로와 복합으로 사용하여 쉽게 구현할 수 있음은 분명하다.
본 발명에 따른 음성 디코딩은 에러가 없는 상태나 불량한 채널 상태에서 음성 품질을 저하시키지 않으면서도 백그라운드 잡음을 재생할 수 있도록 한다. 본 발명의 혼합 계수는 에너지 평활 동작을 완만하게 활성화 또는 비활성화시킬 수 있으므로 에너지 평활화 동작의 활성화/비활성화로 인하여 재생된 음성 신호의 품질이 저하되어 감지되는 경우가 없다. 또한, 에너지 평활화 동작에서 사용되는 이전 파라미터 정보의 양이 비교적 적으므로 재생된 음성 신호가 저하되는 위험성이 없다.
한편, 본 발명의 상세한 설명에서는 구체적인 실시예에 관하여 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안되며 후술하는 특허 청구의 범위뿐만 아니라 이 특허 청구의 범위와 균등한 것들에 의해 정해져야 한다.

Claims (33)

  1. 부호화 정보로부터 오리지널 음성 신호의 현재 세그먼트와 관련한 현재 파라미터를 결정하는 단계;
    변형된 파라미터를 생성하기 위해 상기 오리지널 음성 신호의 이전 세그먼트들과 각각 관련된 대응하는 이전 파라미터들과 상기 현재 파라미터를 이용하는 단계; 및
    상기 오리지널 음성 신호의 현재 세그먼트에 근사한 추정 신호를 생산하기 위해 상기 변형 파라미터를 이용하는 단계;
    를 포함하고, 상기 이전 파라미터들과 현재 파라미터를 이용하는 단계는 상기 변형 파라미터를 생성함에 있어 현재 파라미터에 대한 이전 파라미터들의 상대적인 중요도를 나타내는 혼합 계수를 결정하는 단계를 포함하는 것을 특징으로 하는 오리지널 음성 신호에 대한 부호화 정보로부터 오리지널 음성 신호에 근사한 추정 신호를 생산하는 방법.
  2. 제 1 항에 있어서, 상기 변형 파라미터는 현재 파라미터와 상이한 것임을 특징으로 하는 방법.
  3. 제 1 항에 있어서, 현재 파라미터는 오리지널 음성 신호의 현재 세그먼트에서 신호 에너지를 나타내는 파라미터인 것임을 특징으로 하는 방법.
  4. 제 3 항에 있어서, 현재 파라미터와 이전 파라미터를 이용하는 상기 단계는 이전 파라미터를 평균하여(39)(47) 평균 파라미터 생산하고, 현재 파라미터와 함께 평균 파라미터를 이용하여 변형 파라미터를 생산하는 것을 포함하는 것임을 특징으로 하는 방법.
  5. 제 4 항에 있어서, 현재 파라미터와 평균 파라미터를 이용하는 상기 단계는 변형 파라미터를 생산함에 있어서 현재 파라미터와 평균 파라미터의 상대적인 중요도를 나타내는 혼합 계수를 결정하는 것(35)(45)을 포함하는 것임을 특징으로 하는 방법.
  6. 제 5 항에 있어서, 혼합 계수를 결정하는 상기 단계는 오리지널 음성 신호의 현재 세그먼트와 관련한 잡음 성분의 정상성 특성을 나타내는 정상성 측도를 결정하고(33)(43), 혼합 계수를 정상성 측도의 함수로서 결정하는 것(35)을 포함하는 것임을 특징으로 하는 방법.
  7. 제 6 항에 있어서, 정상성 측도를 결정하는 상기 단계(33)(43)는 현재 파라미터들 중에서 적어도 다른 하나의 현재 파라미터에 대하여, 현재 파라미터와 각각 오리지널 음성 신호의 이전 세그먼트들과 관련한 이전 파라미터들을 이용하여 정상성 측도를 결정하는 것을 포함하는 것임을 특징으로 하는 방법.
  8. 제 7 항에 있어서, 현재 파라미터와 이전 파라미터를 이용하는 상기 마지막 단계는 이전 파라미터들을 평균하여 평균 파라미터를 결정하고, 현재 파라미터와 함께 평균 파라미터를 이용하여 정상성 측도를 결정하는 것을 포함하는 것임을 특징으로 하는 방법.
  9. 제 7 항에 있어서, 상기 다른 하나의 현재 파라미터는 오리지널 음성 신호에 근사한 추정 신호를 생성하는 데에 이용되는 합성 필터의 필터 계수인 것임을 특징으로 하는 방법.
  10. 제 5 항에 있어서, 현재 파라미터와 평균 파라미터를 이용하는 상기 단계는 혼합 계수로부터 각각 현재 파라미터 및 평균 파라미터와 관련한 또 다른 계수들을 결정하고(35), 현재 파라미터와 평균 파라미터를 각각의 또 다른 계수들과 곱하는 것을 포함하는 것임을 특징으로 하는 방법.
  11. 제 4 항에 있어서, 이전 파라미터들을 평균하는 상기 단계는 부호화 정보를 제공하는 데에 사용된 통신 채널의 상태에 따라 평균화 연산을 선택적으로 바꾸어주는 것을 포함하는 것임을 특징으로 하는 방법.
  12. 제1항에 있어서, 혼합 계수를 결정하는 상기 단계는 오리지널 음성 신호의 현재 세그먼트와 관련하여 잡음 성분의 정상성 특성을 나타내는 정상성 측도를 결정하고, 혼합 계수를 정상성 측도의 함수로 결정하는 것을 포함하는 것임을 특징으로 하는 방법.
  13. 제1항에 있어서, 혼합 계수를 결정하는 상기 단계는 부호화 정보를 제공하는 데에 사용된 통신 채널의 상태에 따라 혼합 계수를 선택적으로 바꾸어 주는 것을 포함하는 것임을 특징으로 하는 방법.
  14. 제3항에 있어서, 현재 파라미터는 코드 여기 선형 예측 음성 디코딩 과정에서 사용하기 위한 고정 코드북 이득인 것임을 특징으로 하는 방법.
  15. 오리지널 음성 신호에 근사한 추정 신호를 생성하기 위한 부호화 정보를 수신하는 입력단;
    상기 추정 신호를 출력하는 출력단;
    상기 입력단에 연결되고, 오리지널 음성 신호의 현재 세그먼트에 근사한 추정 세그먼트를 생성하는 데에 사용될 현재 파라미터들을 부호화 정보로부터 결정하기 위한 파라미터 결정부(11);
    상기 파라미터 결정부와 상기 출력단 사이에 연결되고, 오리지널 음성 신호에 근사한 추정 신호를 생성하기 위한 재구성부(25); 및
    상기 파라미터 결정부와 상기 재구성부 사이에 연결되고, 변형 파라미터를 생성하기 위해 오리지널 음성의 이전 세그먼트들과 각각 관련된 대응하는 이전 파라미터들과 상기 현재 파라미터를 이용하고, 오리지널 음성 신호의 현재 세그먼트에 근사한 추정 세그먼트 생성에 사용되도록 상기 재구성부로 상기 변형 파라미터를 제공하는 변형부;
    를 포함하여 이루어지고, 상기 변형부는 상기 변형 파라미터를 생성함에 있어 현재 파라미터에 대한 이전 파라미터들의 상대적인 중요도를 나타내는 혼합 계수를 결정하는 혼합 계수 결정부를 포함하는 것을 특징으로 하는 음성 디코딩 장치.
  16. 제15항에 있어서, 상기 변형 파라미터는 현재 파라미터와 상이한 것임을 특징으로 하는 장치.
  17. 제15항에 있어서, 현재 파라미터는 오리지널 음성 신호의 현재 세그먼트에서 신호 에너지를 나타내는 파라미터인 것임을 특징으로 하는 장치..
  18. 제17항에 있어서, 상기 변형부는 이전 파라미터를 평균하여 평균 파라미터 생산하기 위한 평균부를 포함하고, 상기 변형부는 현재 파라미터와 함께 평균 파라미터를 이용하여 변형 파라미터를 생산하도록 동작하는 것임을 특징으로 하는 장치.
  19. 제18항에 있어서, 상기 혼합 계수 결정부는 변형 파라미터를 생성함에 있어서 현재 파라미터와 평균 파라미터의 상대적인 중요도를 나타내는 혼합 계수를 결정하는 것을 특징으로 하는 장치.
  20. 제19항에 있어서, 상기 변형부는 상기 파라미터 결정부와 상기 혼합 계수 결정부 사이에 연결되어 현재 세그먼트의 잡음 성분의 정상성 특성을 나타내는 정상성 측도를 결정하기 위한 정상성 결정부를 포함하고, 상기 혼합 계수 결정부는 상기 혼합 계수를 상기 정상성 측도의 함수로 결정하는 것임을 특징으로 하는 장치.
  21. 제20항에 있어서, 상기 정상성 결정부는 상기 정상성 측도를 결정하기 위해 적어도 다른 하나의 현재 파라미터와 각각 오리지널 음성 신호의 이전 세그먼트들과 관련한 이전 파라미터들을 이용하도록 작동될 수 있는 것을 특징으로 하는 장치.
  22. 제21항에 있어서, 상기 정상성 결정부는 또 다른 평균 파라미터를 생성하기 위해 상기 적어도 다른 하나의 현재 파라미터에 해당하는 상기 이전 파라미터들을 평균하고, 상기 정상성 측도를 결정하기 위해 상기 현재 파라미터와 함께 상기 또 다른 평균 파라미터를 이용하도록 더 작동될 수 있는 것을 특징으로 하는 장치.
  23. 제21항에 있어서, 상기 다른 하나의 현재 파라미터는 오리지널 음성 신호에 근사한 추정 신호를 생성하는 데에 상기 재구성부에 의해 구현되는 합성 필터의 필터 계수인 것임을 특징으로 하는 장치.
  24. 제19항에 있어서, 상기 변형부는 상기 혼합 계수 결정부와 상기 재구성부 사이에 연결되어 혼합 계수로부터 각각 현재 파라미터 및 평균 파라미터와 관련한 또 다른 계수들을 결정하고, 현재 파라미터와 평균 파라미터를 각각의 계수들과 곱하여 각각의 승산 결과를 생성하기 위한 혼합 논리 회로를 포함하고, 상기 혼합 논리 회로는 상기 승산 결과에 따라 변형 파라미터를 생성하는 것임을 특징으로 하는 장치.
  25. 제18항에 있어서, 상기 평균부는 부호화 정보를 제공하는 데에 사용된 통신 채널의 상태를 나타내는 정보를 수신하기 위한 입력단을 포함하고, 상기 평균부는 상기 정보에 따라 평균화 연산을 선택적으로 바꾸어주는 것임을 특징으로 하는 장치.
  26. 제15항에 있어서, 상기 변형부는 상기 파라미터 결정부와 상기 혼합 계수 결정부 사이에 연결되어 현재 세그먼트의 잡음 성분의 정상성 특성을 나타내는 정상성 측도를 결정하기 위한 정상성 결정부를 포함하고, 상기 혼합 계수 결정부는 상기 혼합 계수를 정상성 측도의 함수로 결정하는 것임을 특징으로 하는 장치.
  27. 제15항에 있어서, 상기 혼합 계수 결정부는 부호화 정보를 제공하는 데에 사용된 통신 채널의 상태를 나타내는 정보를 수신하기 위한 입력단을 포함하고, 상기 혼합 계수 결정부는 상기 정보에 따라 상기 혼합 계수를 선택적으로 바꾸어 주는 것임을 특징으로 하는 장치.
  28. 제17항에 있어서, 현재 파라미터는 코드 여기 선형 예측 음성 디코딩 과정에서 사용하기 위한 고정 코드북 이득인 것임을 특징으로 하는 장치.
  29. 제15항에 있어서, 음성 디코딩 장치는 코드 여기 선형 예측 음성 디코더를 포함하는 것임을 특징으로 하는 장치.
  30. 통신 채널을 통하여 송신기로부터 정보를 수신하기 위한 입력단;
    송수신기의 이용자에게 출력을 제공하기 위한 출력단; 및
    입력단이 상기 송수신기 입력단에 연결되고, 출력단이 상기 송수신기의 출력단에 연결되며, 상기 입력단은 상기 송수신기 입력단으로부터 오리지널 음성 신호에 근사한 추정 신호를 생산하기 위한 부호화 정보를 수신하고, 상기 출력단은 추정 신호를 상기 송수신 출력단으로 출력하는 음성 디코딩 장치;
    를 포함하고, 상기 음성 디코딩 장치는 상기 음성 디코딩 장치의 입력단에 연결되어 오리지널 음성 신호의 현재 세그먼트에 근사한 추정 세그먼트를 생성하는 데에 사용될 현재 파라미터들을 상기 부호화 정보로부터 결정하기 위한 파라미터 결정부와, 상기 파라미터 결정부와 상기 음성 디코딩 장치의 출력단 사이에 연결되어 오리지널 음성 신호에 근사한 추정 신호를 생성하기 위한 재구성부와, 그리고 상기 파라미터 결정부와 상기 재구성부 사이에 연결되어 현재 파라미터들 중에서 적어도 한 개의 현재 파라미터와 오리지널 음성 신호의 이전 세그먼트들과 각각 관련한 이전 파라미터들을 이용하여 변형 파라미터를 생성하기 위한 변형부를 부가적으로 포함하고, 상기 변형부는 상기 변형 파라미터를 생성함에 있어 현재 파라미터에 대한 이전 파라미터들의 상대적인 중요도를 나타내는 혼합 계수를 결정하는 혼합 계수 결정부를 포함하고, 상기 변형부는 상기 변형 파라미터를 재구성부에 제공하여 오리지널 음성 신호의 현재 세그먼트에 근사한 추정 세그먼트를 생성하는 데에 사용하도록 하는 것임을 특징으로 하는 통신 시스템에 사용하기 위한 송수신 장치.
  31. 제30항에 있어서, 상기 송수신 장치는 이동 전화기의 일부를 이루는 것임을 특징으로 하는 장치.
  32. 삭제
  33. 삭제
KR1020017002853A 1998-09-16 1999-09-10 백그라운드 잡음 재생을 이용한 음성 코딩 KR100688069B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/154,361 1998-09-16
US09/154,361 US6275798B1 (en) 1998-09-16 1998-09-16 Speech coding with improved background noise reproduction

Publications (2)

Publication Number Publication Date
KR20010090438A KR20010090438A (ko) 2001-10-18
KR100688069B1 true KR100688069B1 (ko) 2007-02-28

Family

ID=22551052

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020017002853A KR100688069B1 (ko) 1998-09-16 1999-09-10 백그라운드 잡음 재생을 이용한 음성 코딩

Country Status (15)

Country Link
US (1) US6275798B1 (ko)
EP (2) EP1112568B1 (ko)
JP (1) JP4309060B2 (ko)
KR (1) KR100688069B1 (ko)
CN (1) CN1244090C (ko)
AU (1) AU6377499A (ko)
BR (1) BR9913754A (ko)
CA (1) CA2340160C (ko)
DE (2) DE69942288D1 (ko)
HK (1) HK1117629A1 (ko)
MY (1) MY126550A (ko)
RU (1) RU2001110168A (ko)
TW (1) TW454167B (ko)
WO (1) WO2000016313A1 (ko)
ZA (1) ZA200101222B (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
JP2000172283A (ja) * 1998-12-01 2000-06-23 Nec Corp 有音検出方式及び方法
JP3451998B2 (ja) * 1999-05-31 2003-09-29 日本電気株式会社 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体
JP4464707B2 (ja) * 2004-02-24 2010-05-19 パナソニック株式会社 通信装置
US8566086B2 (en) * 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
PL2118889T3 (pl) 2007-03-05 2013-03-29 Ericsson Telefon Ab L M Sposób i sterownik do wygładzania stacjonarnego szumu tła
US8457953B2 (en) 2007-03-05 2013-06-04 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for smoothing of stationary background noise
CN101320563B (zh) * 2007-06-05 2012-06-27 华为技术有限公司 一种背景噪声编码/解码装置、方法和通信设备
EP2816560A1 (en) * 2009-10-19 2014-12-24 Telefonaktiebolaget L M Ericsson (PUBL) Method and background estimator for voice activity detection
JP5840075B2 (ja) * 2012-06-01 2016-01-06 日本電信電話株式会社 音声波形データベース生成装置、方法、プログラム
DE102017207943A1 (de) * 2017-05-11 2018-11-15 Robert Bosch Gmbh Signalbearbeitungsvorrichtung für ein insbesondere in ein Batteriesystem einsetzbares Kommunikationssystem

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
EP0843301A2 (en) * 1996-11-15 1998-05-20 Nokia Mobile Phones Ltd. Methods for generating comfort noise during discontinous transmission

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
US5179626A (en) * 1988-04-08 1993-01-12 At&T Bell Laboratories Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis
US5008941A (en) * 1989-03-31 1991-04-16 Kurzweil Applied Intelligence, Inc. Method and apparatus for automatically updating estimates of undesirable components of the speech signal in a speech recognition system
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
US5991725A (en) * 1995-03-07 1999-11-23 Advanced Micro Devices, Inc. System and method for enhanced speech quality in voice storage and retrieval systems
GB2317084B (en) 1995-04-28 2000-01-19 Northern Telecom Ltd Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
US5794199A (en) 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
EP0843301A2 (en) * 1996-11-15 1998-05-20 Nokia Mobile Phones Ltd. Methods for generating comfort noise during discontinous transmission

Also Published As

Publication number Publication date
KR20010090438A (ko) 2001-10-18
US6275798B1 (en) 2001-08-14
CA2340160A1 (en) 2000-03-23
EP1112568B1 (en) 2007-02-21
AU6377499A (en) 2000-04-03
CN1318187A (zh) 2001-10-17
JP2002525665A (ja) 2002-08-13
JP4309060B2 (ja) 2009-08-05
DE69942288D1 (de) 2010-06-02
HK1117629A1 (en) 2009-01-16
EP1112568A1 (en) 2001-07-04
TW454167B (en) 2001-09-11
EP1879176B1 (en) 2010-04-21
ZA200101222B (en) 2001-08-16
RU2001110168A (ru) 2003-03-10
DE69935233D1 (de) 2007-04-05
MY126550A (en) 2006-10-31
WO2000016313A1 (en) 2000-03-23
EP1879176A2 (en) 2008-01-16
EP1879176A3 (en) 2008-09-10
CA2340160C (en) 2010-11-30
DE69935233T2 (de) 2007-10-31
CN1244090C (zh) 2006-03-01
BR9913754A (pt) 2001-06-12

Similar Documents

Publication Publication Date Title
JP4112027B2 (ja) 再生成位相情報を用いた音声合成
JP3842821B2 (ja) 通信システムにおいて雑音を抑圧する方法および装置
US5933803A (en) Speech encoding at variable bit rate
KR100675126B1 (ko) 향상된 충실도를 위해 안락 잡음 가변특성을 가지는 음성코딩
EP1328927B1 (en) Method and system for estimating artificial high band signal in speech codec
AU4675999A (en) Improved lost frame recovery techniques for parametric, lpc-based speech coding systems
JPH09152895A (ja) 合成フィルタの周波数応答に基づく知覚ノイズマスキング測定法
KR20040005860A (ko) 음성 통신에서의 위로 잡음 생성 방법 및 시스템
JPH09152900A (ja) 予測符号化における人間聴覚モデルを使用した音声信号量子化法
KR100688069B1 (ko) 백그라운드 잡음 재생을 이용한 음성 코딩
US7269553B2 (en) Pseudo-cepstral adaptive short-term post-filters for speech coders
JPH0850500A (ja) 音声エンコーダ及び音声デコーダ、並びに音声符号化方法及び音声復号化方法
US6424942B1 (en) Methods and arrangements in a telecommunications system
JP2003533902A (ja) 符号化されたドメインのエコーの制御
JP2003533902A5 (ko)
CA2293165A1 (en) Method for transmitting data in wireless speech channels
JPH05158495A (ja) 音声符号化伝送装置
CN100369108C (zh) 编码域中的音频增强的方法和设备
KR100220783B1 (ko) 음성 양자화 및 에러 보정 방법
JPH07115403A (ja) 無音区間情報の符号化及び復号化回路
MXPA01002332A (en) Speech coding with background noise reproduction
JPH07210199A (ja) 音声符号化方法および音声符号化装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130207

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140210

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150206

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160205

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180208

Year of fee payment: 12

EXPY Expiration of term