KR100315692B1 - 가변 비율 음성부호화기의 음성 부호화 비율 결정장치 및방법 - Google Patents

가변 비율 음성부호화기의 음성 부호화 비율 결정장치 및방법 Download PDF

Info

Publication number
KR100315692B1
KR100315692B1 KR1019990052580A KR19990052580A KR100315692B1 KR 100315692 B1 KR100315692 B1 KR 100315692B1 KR 1019990052580 A KR1019990052580 A KR 1019990052580A KR 19990052580 A KR19990052580 A KR 19990052580A KR 100315692 B1 KR100315692 B1 KR 100315692B1
Authority
KR
South Korea
Prior art keywords
rate
energy
signal energy
signal
log
Prior art date
Application number
KR1019990052580A
Other languages
English (en)
Other versions
KR20000062171A (ko
Inventor
스티븐에이치. 이사벨
Original Assignee
윤종용
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자 주식회사 filed Critical 윤종용
Publication of KR20000062171A publication Critical patent/KR20000062171A/ko
Application granted granted Critical
Publication of KR100315692B1 publication Critical patent/KR100315692B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/69Spread spectrum techniques
    • H04B1/707Spread spectrum techniques using direct sequence modulation
    • H04B1/7097Interference-related aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

가변 비율 음성부호화기의 음성 부호화 비율 결정장치에 있어서, 주변 잡음 에너지와 그 변동량을 참조하여 소정의 임계치를 설정하는 임계치 설정부와, 신호 에너지와 롱-텀 예측 이득을 입력하고 상기 신호 에너지의 로그치를 계산하는 로그치 신호 에너지 계산부와, 상기 계산된 로그치 신호 에너지를 상기 임계치 설정부에서 설정된 임계치와 비교하여 음성부호화 비율을 결정하는 비율 결정부로 구성됨을 특징으로 한다.

Description

가변 비율 음성부호화기의 음성 부호화 비율 결정장치 및 방법{RATE DECISION APPARATUS FOR VARIABLE-RATE VOCODERS AND METHOD THEREOF}
본 발명은 음성부호화기(vocoder)에 관한 것으로, 특히 음성의 부호화 비율을 몇 가지로 변화시킬 수 있는 음성부호화기(variable rate vocoder)에서 음성 부호화 비율을 설정하는 장치 및 방법에 관한 것이다.
가변 비율 음성부호화기는 고정 음성부호화기 보다 적은 수의 비트를 사용하여 음성을 비슷한 품질로 부호화(encoding)할 수 있다. 이처럼 비트율(bit rate)의 감소를 달성할 수 있는 것은 가변 비율 음성부호화기가 음성신호의 각 세그먼트 (segment)의 특성에 따라 각기 다른 비트 수를 사용하여 부호화하기 때문이다.
일반적으로 음성신호의 무음 구간(pauses in the speech signal)에 대해서는높은 에너지의 음성보다 적은 수의 비트로 부호화한다. 짧은 음성 세그먼트(예를 들면 20msec 세그먼트)를 사용하여 비트율 결정을 빈번히 함으로써, 가변 비율 음성부호화기는 고품질의 부호화된 음성을 생성할 수 있다. 그러나 종국적으로는 가변 비율 음성부호화기에 의해 생성된 압축 음성의 품질은 부호화 비트율을 선택하는 데 사용된 알고리즘은 물론 압축 알고리즘 자체에 의하여 결정된다.
EVRC(Enhanced Variable Rate Codec) 코덱을 위한 음성 부호화 비율 결정 알고리즘의 필요 조건은 기술문서인 'MINIMUM PERFORMANCE SPECIFICATION FOR THE ENHANCED VARIABLE RATE CODEC, SPEECH SERVICE OPTION 3 FOR SPREAD SPECTRUM DIGITAL SYSTEMS, TIA/EIA/IS-718 Standard'에 기술되어 있다. IS-718 표준에 따른 테스트를 위해서, 상기 코덱의 평균 비트율은 IS-718 표준에 의해 제공된 12개의 벤치마크 파일(banchmark file)을 사용하여 측정될 필요가 있다. 상기 벤치마크 파일들은 다양한 입력 레벨과 다양한 주변(background) 잡음 레벨 및 형태와 함께 기록되어 있다. 규격을 만족시키기 위해서, 모든 벤치마크 파일의 평균 비트율은 4400bps 보다 작아야 한다. 모든 벤치마크 파일들에 대한 평균 비트율은 4400bps 보다 작다고 하더라도, 개별적인 벤치마크 파일은 4400bps 이상의 비트율을 필요로 할 수 있다.
IS-127 비율 결정 알고리즘은 음성의 변화에 기반을 둔 기술(speech-activity-based technique)의 일 예이다. 상기 IS-127 비율 결정 알고리즘은 160개의 음성 샘플들을 가지는 현재 프레임(20msec)에 대한 부호화할 비율을 결정한다. 상기 IS-127 비율 결정 알고리즘의 입력은 현재 프레임으로부터 자기상관계수(autocorrelation coefficient)를 계산할 때 사용되어지는 대역과 롱-텀 예측 이득(long-term prediction gain) 이다.
IS-127 비율 결정 알고리즘이 실행되기 위해서는 서로 다른 두개의 주파수 밴드가 필요하다. 이를 위해서 밴드-분할 필터(band-splitting filter)를 사용한다. 상기 IS-127 비율 결정 알고리즘에 따르면, 각각의 밴드에 대한 비율 결정을 독립적으로 행한 다음, 둘중 더 큰 비율을 선택하고 그 선택한 비율을 다시 행오버 (hangover)와 구속장(constraint)을 고려하여 수정함으로써 최종적으로 비율을 결정한다. 상기 행오버와 구속장은 외부 제어기에서 제공된다.
상기 IS-127 비율 결정 알고리즘에서는 비율 결정에 사용되는 임계치를 계산할 때 주변 잡음 에너지 외에도 신호대 잡음비(signal-to-noise ratio: SNR)를 이용하기 때문에 비율 결정이 실제 신호성분 보다는 잡음 성분에 의해 이루어지는 경향이 있다. 또한 상기 IS-127 비율 결정 알고리즘은 전체적인 계산이 다소 복잡하다.
따라서 본 발명의 목적은 IS-127 비율 결정 알고리즘에서 요구된 신호대 잡음비 계산을 위한 평균 신호 레벨의 정확한 추정 및 밴드분할의 필요성이 없고, 전체적인 계산 복잡도를 완화시킨 음성부호화 비율 결정 방법을 제공함에 있다.
상기한 목적을 달성하기 위한 본 발명은 가변 비율 음성부호화기의 음성 부호화 비율 결정장치에 있어서, 주변 잡음 에너지와 그 변동량을 참조하여 소정의임계치를 설정하는 임계치 설정부와, 신호 에너지와 롱-텀 예측 이득을 입력하고 상기 신호 에너지의 로그치를 계산하는 로그치 신호 에너지 계산부와, 상기 계산된 로그치 신호 에너지를 상기 임계치 설정부에서 설정된 임계치와 비교하여 음성부호화 비율을 결정하는 비율 결정부로 구성됨을 특징으로 한다.
도 1은 본 발명의 실시 예에 따른 음성 부호화 비율 결정 장치의 구성을 나타낸 도면
이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 발명을 설명함에 있어, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 실시 예에 따른 음성 부호화 비율 결정 장치의 구성을 나타낸 도면이다.
본 음성 부호화 비율 결정 장치는 이전 프레임에서 결정된 양(quantity)들로부터 계산된 임계치(threshold)들을 사용하여 비율을 결정한다. 그후 상기 양들은 현재 프레임으로부터의 신호 에너지와 롱-텀 예측 이득을 이용하여 갱신된다.
또한 본 음성 부호화 비율 결정 장치는 현재 프레임 에너지를 주변 잡음 레벨 및 그 변동량에 의해 결정된 임계치의 조합과 비교하므로써 예비(preliminary) 부호화 비율을 결정한다. 잡음 레벨 변동량의 추정은 임계치들을 설정하는 데 사용되며, 상기 임계치들은 음성 에너지가 존재하는지를 판별하는 데 사용된다. IS-127 비율 결정 알고리즘과는 반대로, 상기 임계치들은 신호 대 잡음비의 영향을 받지않으며 풀-밴드(full-band) 신호에 적용된다. 상기 예비 비율 결정은 롱-텀 예측 이득 β의 값에 근거하여 수정된다. 행오버 로직(hangover logic)은 임의의 한 비율에서 다른 비율로 급속히 변환하는 것을 막는 역할을 한다. 마지막으로, 상기 임계치들을 설정하는 데 사용된 추정 변수들이 갱신된다.
본 음성 부호화 비율 결정 알고리즘을 설명하기 위해 사용된 기호는 아래 표와 같다.
입 력
롱-텀 예측 이득 β
제 1 자기상관계수(신호 에너지) R[0]
최대 비율 구속장 rmax
최소 비율 구속장 rmin
출 력
결정된 음성 부호화 비율 r
상 태 변 수
이전 프레임의 비율 결정치 rlast
평균 로그 신호 에너지(신호에너지의 로그치 평균)
평균 로그 잡음 에너지(잡음에너지의 로그치 평균)
평활화 최소 트래킹 신호 에너지 Et
이전프레임의 로그치 신호에너지 Elast
로그 잡음 에너지의 변동량 σn
신호의 평균 교차율
듀얼-타임-콘스턴트 필터에 사용된 임계치 T3
이전 주변 잡음 갱신 결정치 dlast
신호 에너지의 급격한 강하를 나타내는 플래그 fd
행오버 프레임들의 남은 개수 h
중 간 변 수
주변 잡음 갱신 결정치 d
교차 신호 x[n]
상기 표와 도 1을 참조하여 본 발명의 실시 예에 따른 음성부호화 비율 결정 장치 및 방법을 구체적으로 설명하면 다음과 같다.
본 발명의 실시 예에 따른 음성부호화 비율은 제1자기상관계수 R[0] 및 롱-텀 예측 이득에 근거하여 결정된다. 즉, 로그치 신호 에너지 계산부(200)는 롱-텀예측(Long Term Prediction: LTP) 및 자기상관계수를 구하는 공지의 신호 에너지 계산부(100)으로부터 전달받은 상기 제1자기상관계수 R[0] 및 롱-텀 예측 이득를 이용하여 로그치 신호 에너지를 계산한다. 그리고 편의상 상한값(max)을 취한다.
상기 로그치 신호 에너지 계산부(200)의 출력, 즉 로그치 신호 에너지는 다음 식으로 나타낼 수 있다. 본 실시 예에서는 자연 로그(natural logarithms)를 이용한다.
만일 이것이 첫 번째 프레임이라면, 신호 에너지와 주변 잡음 에너지를 나타내는 변수들이 초기화되어야 한다. 첫 번째 프레임의 경우, 상기 변수들은 변수 초기화부(300)에 의해 다음과 같이 초기화 된다.
= E
Et= E
= 0
= 0.05
T3= 1
dlast= 1
rlast= Full
Elast= 0
단, 신호 에너지 R[0]에 로그를 취한 값 log(R[0])가 log(160) 보다 작을 경우에는 로그치 신호 에너지(E)를 log(160)으로 한다. 평균 에너지()와 최소 트래킹 에너지(Et)는 모두 첫 번째 프레임내의 에너지 값에 의해서 결정된다.
임계치 결정부(500)는 부호화 비율을 결정하는 데 사용하기 위해 두 개의 임계치(T1, T2)를 하기 식에 의해 계산한다.
T1=+ 6
T2=+ 3
주변 잡음의 에너지에 근접한 에너지를 가지는 신호들은 모두 주변 잡음 프레임으로 분류되어 1/8-비율로 부호화되고, 다른 프레임들은 음성을 포함하는 것으로 가정되어 높은 비율로 부호화된다.
예비 비율 결정부(600)는 상기 계산된 임계치들과 현재 프레임의 에너지를 비교하여 예비 비율과 행오버를 결정한다. 상기 예비 비율과 행오버는 아래와 같이 계산된다.
IS-127 RDA와는 반대로, 행오버가 SNR의 영향을 받지 않는다. 신호 에너지가 주변 잡음 에너지에 비해 높을 때에는 높은 비율이 선택되며, 신호 에너지가 주변잡음 에너지에 필적할 때에는 최하의 비율이 선택된다.
예비 비율 수정부(700)는 상기 예비 비율 결정부(600)에서 결정한 예비 비율을 수정한 결과 최종적으로 음성부호화 비율을 결정하여 출력한다. 이처럼 수정이 필요한 경우는 롱-텀 예측 이득들이 매우 낮은 경우이다. 롱-텀 예측 이득들이 매우 낮다는 것은 그 신호가 음성을 나타내는 신호의 구조를 갖지 않았다(The signal has very little speech-like structure.)는 것이며, 이 경우에는 낮은 비율로 부호화된다.
구체적으로, 우선 롱-텀 예측 이득(β)이 미리 정한 제1특정 롱-텀 예측 이득의 범위(β<0.2)에 속하면 하기와 같이 예비 비율을 1/8로 수정하고, 그렇지 않은 경우에는 수정하지 않고 그대로 둔다.
이처럼 매우 낮은 롱-텀 예측 이득, 즉 미리 정한 제2특정 롱-텀 예측 이득의 범위(β< 0.1)에 속하는 롱-텀 예측 이득을 가지는 프레임에 대해서는 행오버 구간을 감소시켜준다.
또한 예비 비율을 수정할 때는 행오버와 최소 및 최대 비율 구속장 (constraint)을 고려한다.
실제로 행오버가 진행되는 동안에는(h>0), 이전 프레임에 대한 음성부호화 비율이 풀-레이트(full-rate: 1-비율)였다가 현재 프레임은 다른 비율(예: 1/8,1/2)인 경우 풀-레이트로 리세트해주어야 한다. 또한 행오버 카운트는 감소한다. 하기의 의사코드는 이러한 로직을 수행한다.
if((rlast== Full) and (r! = Full)){
if(h>0){
r=Full;
h=h-1,
}
}
IS-127 표준 규격은 1/8-비율 프레임이 풀-레이트 프레임에 곧이어 뒤따를 수 없음을 규정하고 있다. 그래서 본 발명에서는 1/8-비율 프레임 대신에 1/2-비율 패킷을 삽입하도록 한다. 이로써 IS-127 비율 결정 알고리즘과의 호환성을 유지시킨다. 만일 그러한 특성들이 제거되면, IS-127 호환 디코더는 풀-레이트에서 1/8-비율로의 천이가 일어날 때마다 에러 조건을 검출하게 된다. 이러한 구속장 (constraint)은 아래의 의사코드로 수행된다.
if ((rlast== Full) and (r == Eighth)){
r = Half;
}
마지막으로, 아래와 같이 최소 및 최대 비율 구속장들이 적용되고, 이전 프레임의 비율 결정자(rlast)가 갱신된다.
결국, 일단 결정한 비율(r)이 최대 비율 구속장(rmax) 보다 크면 상기 최대 비율 구속장(rmax)을 최종적으로 음성부호화 비율(r')로 결정한다. 하지만 상기 결정한 비율(r)이 최소 비율 구속장(rmin) 보다 작으면 상기 최소 비율 구속장(rmin)을 음성부호화 비율로 결정한다. 상기 두 경우 모두 아닐 때는 상기 결정한 비율(r)을 그대로 음성부호화 비율로 결정한다.
이와 같이 최종적으로 음성부호화 비율을 결정한 다음에는, 변수 갱신부 (400)에서 임계치들(T1, T2)을 계산하는 데 이용되는 변수를 갱신해야 한다. 상기 임계치들(T1, T2)은 잡음 레벨 및 그 변동량의 추정치들에 의해 결정된다. 또한 이 임계치들(T1, T2)은 평균 신호 에너지 추정치들에 의해 차례로 결정된다.
상기 변수 갱신부(400)는 변수 추정 결정 부분(400A), 리세트 로직(400B), 잡음변수 갱신 부분(400C) 및 신호변수 갱신 부분(400D)으로 구성된다.
상기 변수 추정 결정 부분(400A)에서 변수 추정 결정을 하기 위해서는 먼저 주변 잡음 레벨 및 그 변동량을 추정해야 한다. 주변 잡음 레벨 및 그 변동량을 추정하기 위해서는 잡음만으로 이루어진 신호 세그먼트들을 음성과 잡음으로 이루어진 신호 세그먼트들과 구별해야 한다. 음성과 잡음으로부터 잡음만을 식별하기 위해 이용되는 원리는 신호 에너지가 잡음만으로 이루어진 경우 최소값을 가진다는사실에 기초한다. 원리적으로, 잡음 레벨은 최소 신호 에너지를 계산하므로써 추정할 수 있다. 그러나 이러한 단순한 접근법은 두 가지 단점을 가지고 있다. 첫째, 잡음의 불규칙한 특성 때문에, 최소 신호값은 평균 잡음 레벨을 정확히 표현하기에는 너무 낮다. 둘째, 상기 최소 신호 에너지를 추적(tracking)하는 장치가 주변 잡음 에너지의 전체적인 증가에 적응할 수 없다. 다음의 [1], [2] 두 단계는 이러한 문제들을 충분히 고려한 주변 잡음 추정 절차를 나타낸 것이다.
[1] 주변 잡음 에너지의 큰 증가를 감시하기 위해 평균교차율(mean crossing rate)을 산출한다. 상기 평균교차율은 다수 프레임의 신호 에너지 총 합을 평균한 값과 현재 프레임의 신호 에너지가 교차하는 비율이다. 평균교차율이 높을 경우 (0.35보다 클 때)는 신호가 주변 잡음만으로 이루어졌을 때이고, 정상 상태(steady-state)는 이러한 때를 의미한다.
평균교차율[n]을 계산하기 위해서는 교차율신호 x[n]을 발생시켜야 한다. 상기 교차율신호 x[n]은 n번 째 음성 프레임내의 신호 에너지가 평균 로그 신호에너지()와 교차할 때 1로 발생되고, 그렇지 않을 때에는 0으로 발생된다.
상기 평균교차율[n]은 시상수 0.98을 가지며, 입력 신호 x[n]에 대하여 다음과 같이 나타내어지는 단일 폴 필터의 출력이다.
[n] = 0.98[n-1] + 0.02x[n]
[2] 평균 로그 신호 에너지()와 최소 트래킹 신호 에너지(Et) 및 평균 로그 잡음 에너지()에 근거한 주변 잡음 변수 추정치들을 갱신할 것인지 여부를 결정한다. 만일 신호 에너지가 그의 평균치() 이하이고, 추정된 평균 로그 잡음 에너지()가 최소 트래킹 신호 에너지(Et) 이상일 경우에는 잡음 변수들을 갱신하게 된다. 또한 잡음 변수들이 이전 프레임에서 갱신되었고 에너지가 그의 평균치() 보다 상당히 낮을 경우에도 잡음 변수들을 갱신하게 된다. 두 번째 조건은 최소 트래킹 에너지가 추정 주변 잡음 에너지를 초과하는 때(불규칙한 변동으로 인한 결과임.)에도 낮은 에너지의 신호들이 잡음 프레임으로 분류될 수 있도록 허용한다.
변수들이 갱신되어야 하는 경우이면 평균교차율을 0으로 리세트하게 된다. 단, 신호 에너지가 0이면 잡음 변수들을 갱신하지 않게 된다. 갱신 여부의 결정은 아래의 의사코드에 의해 이루어진다.
if ((E <) and)
{
d = 0;
[n] = 0;
}
else if (dlast== 0)
{
if(E <+ 3)
{
d = 0;
[n] = 0;
}
else
{
d = 1;
}
}
else
{
d = 1;
}
if (E < Elast- LOG_ALPHA) / *don't update during digital silence */
d = 1;
잡음변수 갱신 부분(400B)에서는 갱신 결정 변수가 'd = 0'인 조건을 만족하면 현재의 신호가 주변 잡음만으로 이루어진 것으로 가정한다. 이 경우 잡음 에너지 및 그 변동량을 갱신한다. 주변 잡음 에너지 추정치는 현재 프레임의 로그 에너지를 입력으로 가지는 단일 폴 필터의 출력이다. 주변 잡음 변동량은 현재 프레임 내의 로그 에너지와 현재 추정 잡음 에너지 사이의 차이값을 입력으로 하는 단일 폴 필터의 출력으로서 계산된다. 잡음 변동량은 이전 프레임으로부터의 신호 에너지의 급격한 강하가 없을 경우에만 갱신된다. 이는 음성에서 잡음으로의 천이로 인한 잡음 변동 신호의 큰 진폭 변화를 방지한다. 상기 천이기간 중에 잡음 에너지는 신호 평균치와 실질적으로 확연히 다르다. 또한 잡음 에너지 변동량의 증가율 (growth rate)은 1.05로 한정되며, 최소 에너지 구속장(constraint)이 부과된다.
아래의 의사코드는 이러한 갱신을 예시한다.
if (d==0) {
/* update noise energy estimate */
if (fd == 0)
{
σn = max(min_noise_erg, min(1.05σn, 0.98σn + 0.02);
}
/* update decision memory */
Elast= E;
dlast= d;
잡음 변동량은 절대값을 사용하여 계산되며, 에너지가 상당히 강하될 때에는 갱신되지 않는다. 이는 변동량의 추정치가 음성에서 주변 잡음으로 천이할 시 신호 에너지가 급격히 강하하는 동안 발생하는 큰 값들로 인해 부정확해지는 것을 방지한다.
리세트 로직(400C)에서는 평균교차율[n]이 높으면 주변 에너지가 증가한 것으로 가정한다. 이 경우 잡음 에너지 및 그의 변동량은 아래에 의사코드로 도시된 것과 같이 다시 초기화된다.
if ([n] > 0.35)
{
;
=;
T3= 1;
dlast= 1;
[n] = 0;
}
이러한 재 초기화는 비율 결정 알고리즘이 주변 잡음 에너지의 증가에 적응할 수 있도록 한다.
신호변수 갱신 부분(400D)에서는 최종적으로 롱-텀 평균 로그 신호에너지 () 및 최소 트래킹 신호 에너지(Et)를 갱신한다. 이때 최소 트래킹 신호 에너지(Et)는 듀얼-타임 콘스턴트 필터의 출력이 되며, 상기 듀얼-타임 콘스턴트 필터는 로그치 신호 에너지(E)가 증가할 때 롱-텀 평균 로그 신호에너지()를 계산하고 로그치 신호 에너지(E)가 감소할 때 쇼트-텀(short-term) 평균 로그 신호에너지()를 계산한다. 지시자(indicator) 플래그(fd)는 로그치 신호 에너지(E)가 감소할 때(E < T3) 설정된다. 이러한 계산은 아래의 수학식에 따라 수행된다.
본 실시 예에 따른 음성부호화 비율 결정은 160 샘플의 각 음성 프레임에 효과적으로 작용하므로, 약간의 변경을 가하여 공지의 EVRC 음성부호화기에 적용할 수 있다.
한편 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 안되며 후술하는 특허청구의 범위뿐 만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
상술한 바와 같은 가변 비율 음성부호화기의 음성 부호화 비율 결정은 다음 세 가지 새로운 특징을 갖는다.
첫째, 주변 잡음의 변동과 그 레벨을 추정하는 데 사용되는 기술이 간단하며, 상기 기술은 주변 잡음에서 큰 변화들을 탐색(tracking)하기 위한 방법을 포함한다.
둘째, 상기 비율은 추정된 잡음 레벨과 긴-구간 예측(long-term predicition) 이득(gain)의 조합을 이용하여 정의된다.
이러한 두 특징들을 함께 취하여 신호 대 잡음비(SNR) 계산[IS-127 RDA에서 요구된 것임.]을 위한 평균신호레벨의 정확한 추정이 필요 없게 되고, IS-127 RDA에서 요구된 밴드분할(bandsplitting)의 필요성이 없어진다.
셋째, 계산되어야 하는 자동상관계수의 개수(the number of autocorrelation coefficients)가 17개에서 11개로 줄어들기 때문에 음성 코딩 알고리즘의 전체적인 계산 복잡도를 완화시킨다.

Claims (19)

  1. 가변 비율 음성부호화기의 음성 부호화 비율 결정장치에 있어서,
    주변 잡음 에너지와 그 변동량을 참조하여 소정의 임계치를 설정하는 임계치 설정부와,
    신호 에너지와 롱-텀 예측 이득을 입력하고 상기 신호 에너지의 로그치를 계산하는 로그치 신호 에너지 계산부와,
    상기 계산된 로그치 신호 에너지를 상기 임계치 설정부에서 설정된 임계치와 비교하여 음성부호화 비율을 결정하는 비율 결정부로 구성됨을 특징으로 하는 장치.
  2. 가변 비율 음성부호화기의 음성 부호화 비율 결정장치에 있어서,
    신호 에너지와 롱-텀 예측 이득을 입력하고 상기 로그치 신호 에너지를 계산하는 로그치 신호 에너지 계산부와,
    주변 잡음 에너지와 그 변동량을 참조하여 적어도 두 개 이상의 임계치를 설정하는 임계치 설정부와,
    상기 계산된 로그치 신호 에너지를 상기 임계치 설정부에서 설정된 임계치들과 비교하여 예비 비율과 행오버 간격을 결정하는 예비 비율 결정부와,
    행오버 구속장들, 낮은 롱-텀 예측 이득 그리고 최소 및 최대 비율 구속장들을 고려하여 상기 예비 비율을 수정하고, 그 수정된 비율을 최종적으로 결정된 음성부호화 비율로서 출력하는 예비 비율 수정부로 구성됨을 특징으로 하는 장치.
  3. 제2항에 있어서,
    상기 예비 비율 수정부는 미리 정한 제1특정 롱-텀 예측 이득의 범위 (β<0.2)를 고려하여 하기 식과 같이 예비 비율(r)을 수정하여 최종적인 음성 부호화 비율을 결정하며,
    제2특정 롱-텀 예측 이득의 범위(β<0.1)를 고려하여 하기 식과 같이 행오버 간격(h)을 수정하여 최종적인 행오버 간격을 결정함을 특징으로 하는 장치.
  4. 제2항에 있어서,
    상기 로그치 신호 에너지 계산부에서 출력되는 로그치 신호 에너지(E)는 다음 식과 같이 계산함을 특징으로 하는 장치.
  5. 제4항에 있어서,
    상기 임계치 결정부는 제1 및 제2 임계치(T1, T2)를 하기 식과 같이 계산함을 특징으로 하는 장치.
    T1=+ 6
    T2=+ 3
    : 평균 로그 잡음 에너지
    : 로그 잡음 에너지의 변동량
  6. 제5항에 있어서,
    상기 예비 비율 결정부는 예비 비율(r)과 행오버 간격(h)을 하기 식과 같이 계산함을 특징으로 하는 장치.
  7. 제6항에 있어서,
    상기 예비 비율 수정부는 미리 정한 제1특정 롱-텀 예측 이득(β)의 범위를 고려하여 하기 식과 같이 예비 비율(r)을 수정하여 최종적인 음성 부호화 비율을 결정하며,
    제2특정 롱-텀 예측 이득(β)의 범위를 고려하여 하기 식과 같이 행오버 간격(h)을 수정하여 최종적인 행오버 간격을 결정함을 특징으로 하는 장치.
  8. 제7항에 있어서,
    미리 정한 소정 값은 0.35임을 특징으로 하는 장치.
  9. 제2항에 있어서,
    음성부호화 비율(r)을 결정한 다음, 상기 임계치 설정부에서 임계치들(T1, T2)을 계산하는 데 이용되는 변수를 갱신하기 위한 변수 갱신부를 더 구비함을 특징으로 하는 장치.
  10. 제9항에 있어서,
    상기 임계치들(T1, T2)은 잡음 레벨 및 그 변동량의 추정치들과 평균 신호 에너지 추정치들에 의해 차례로 결정됨을 특징으로 하는 장치.
  11. 제9항에 있어서,
    상기 변수 갱신부는 현재의 신호가 주변 잡음만으로 이루어진 경우 잡음에너지와 그 변동량을 갱신하는 잡음변수 갱신부분과,
    신호 에너지가 증가할 때는 롱-텀 평균치를, 신호 에너지가 감소할 때 쇼트-텀 평균치를 다음 수학식과 같이 계산하는 신호변수 갱신부분으로 구성됨을 특징으로 하는 장치.
  12. 제11항에 있어서,
    상기 신호변수 갱신부분은 듀얼-타임 콘스턴트 필터를 구비하며,
    신호 에너지의 급강하 여부를 판단하기 위해 상기 듀얼-타임 콘스턴트 필터에서 사용되는 임계치(T3)는 다음 수학식에 따라 계산되는 값임을 특징으로 하는 장치.
  13. 제11항에 있어서,
    상기 신호변수 갱신부분은 최소 트래킹 신호에너지(Et)를 다음 수학식과 같이 계산함을 특징으로 하는 장치.
  14. 제11항 내지 제13항중 어느 하나의 항에 있어서,
    평균교차율([n])이 미리 정한 특정 값 보다 높을 때 신호가 주변 잡음만으로 이루어진 것으로 판단하기 위해, 교차 신호 x[n]을 다음과 같이 n번째 음성 프레임내의 신호 에너지가 평균 로그 신호에너지()와 교차할 때 1로 발생하고, 그렇지 않을 때에는 0으로 발생하는 변수 추정 결정부분을 더 구비함을 특징으로 하는 장치.
  15. 제14항에 있어서,
    상기 평균교차율([n])은 시상수 0.98을 가지며, 입력 신호 x[n]에 대하여 다음과 같이 나타내어지는 단일 폴 필터의 출력임을 특징으로 하는 장치.
    [n] = 0.98[n-1] + 0.02x[n]
  16. 제14항에 있어서,
    상기 평균교차율([n])이 미리 정한 소정 값보다 높으면,
    평균 로그 잡음 에너지()는 평균 로그 신호 에너지()로,
    로그 잡음 에너지의 변동량()은 평균 로그 신호 에너지에 최종 프레임에너지의 로그를 뺀 값()으로,
    듀얼-타임-콘스턴트 필터에 사용된 임계치(T3)는 1로,
    이전 백그라운드 잡음 갱신 결정자(dlast)는 1로,
    신호의 평균 교차율([n])은 0으로 초기화하는 리셋 로직을 더 구비함을 특징으로 하는 장치.
  17. 가변 비율 음성부호화기의 음성 부호화 비율 결정방법에 있어서,
    로그치 신호 에너지를 계산하는 제1과정과,
    상기 로그치 신호 에너지를 미리 설정된 임계치들과 비교하여 예비 비율 결정치와 행오버 값을 결정하는 제2과정과,
    행오버 구속장들, 롱-텀 예측 이득 그리고 최소 및 최대 비율 구속장들을 고려하여 상기 예비 비율 결정치를 수정하여 음성부호화 비율을 결정하는 제3과정으로 이루어짐을 특징으로 하는 방법.
  18. 제17항에 있어서,
    상기 제3과정 수행후, 프레임이 주변 잡음만으로 이루어졌는지 여부를 체크하여 주변 잡음만으로 이루어진 경우에는 잡음변수들과 신호변수들을 갱신하는 제4과정을 더 포함함을 특징으로 하는 방법.
  19. 제17항에 있어서,
    상기 제1과정에서, 해당 프레임이 첫 번째 프레임인 경우에는 변수들을 초기화하는 제1-1단계를 더 포함함을 특징으로 하는 방법.
KR1019990052580A 1999-03-10 1999-11-25 가변 비율 음성부호화기의 음성 부호화 비율 결정장치 및방법 KR100315692B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/265,455 US6397177B1 (en) 1999-03-10 1999-03-10 Speech-encoding rate decision apparatus and method in a variable rate
US09/265,455 1999-03-10
US9/265,455 1999-03-10

Publications (2)

Publication Number Publication Date
KR20000062171A KR20000062171A (ko) 2000-10-25
KR100315692B1 true KR100315692B1 (ko) 2001-12-13

Family

ID=23010518

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990052580A KR100315692B1 (ko) 1999-03-10 1999-11-25 가변 비율 음성부호화기의 음성 부호화 비율 결정장치 및방법

Country Status (2)

Country Link
US (1) US6397177B1 (ko)
KR (1) KR100315692B1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1177668A2 (en) * 1999-05-10 2002-02-06 Nokia Corporation Header compression
US7080009B2 (en) * 2000-05-01 2006-07-18 Motorola, Inc. Method and apparatus for reducing rate determination errors and their artifacts
US6745012B1 (en) * 2000-11-17 2004-06-01 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive data compression in a wireless telecommunications system
TW200409454A (en) * 2002-11-18 2004-06-01 Winbond Electronics Corp Automatic gain controller and its controlling method
KR100754439B1 (ko) * 2003-01-09 2007-08-31 와이더댄 주식회사 이동 전화상의 체감 음질을 향상시키기 위한 디지털오디오 신호의 전처리 방법
US20070160154A1 (en) * 2005-03-28 2007-07-12 Sukkar Rafid A Method and apparatus for injecting comfort noise in a communications signal
US20070061727A1 (en) * 2005-09-15 2007-03-15 Honeywell International Inc. Adaptive key frame extraction from video data
KR100883656B1 (ko) * 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
DE102008009719A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
CN102610234B (zh) * 2012-04-09 2013-10-30 河海大学 信号复杂度和编码速率选择的映射实现方法
CN105023579A (zh) * 2014-04-30 2015-11-04 中国电信股份有限公司 语音通信中语音编码实现方法、装置和通信终端

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU671952B2 (en) * 1991-06-11 1996-09-19 Qualcomm Incorporated Variable rate vocoder
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US6104993A (en) * 1997-02-26 2000-08-15 Motorola, Inc. Apparatus and method for rate determination in a communication system
US6122610A (en) * 1998-09-23 2000-09-19 Verance Corporation Noise suppression for low bitrate speech coder

Also Published As

Publication number Publication date
US6397177B1 (en) 2002-05-28
KR20000062171A (ko) 2000-10-25

Similar Documents

Publication Publication Date Title
US7983906B2 (en) Adaptive voice mode extension for a voice activity detector
EP1340223B1 (en) Method and apparatus for robust speech classification
KR100581413B1 (ko) 음성 복호기에서 프레임 오류 은폐를 위한 개선된스펙트럼 매개변수 대체
KR100742443B1 (ko) 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법
KR101158291B1 (ko) 음성 활동 검출 디바이스 및 방법
US5341456A (en) Method for determining speech encoding rate in a variable rate vocoder
US6275794B1 (en) System for detecting voice activity and background noise/silence in a speech signal using pitch and signal to noise ratio information
US20120215536A1 (en) Methods and Voice Activity Detectors for Speech Encoders
MXPA04011751A (es) Metodo y dispositivo para ocultamiento de borrado adecuado eficiente en codecs de habla de base predictiva lineal.
KR100315692B1 (ko) 가변 비율 음성부호화기의 음성 부호화 비율 결정장치 및방법
US9443526B2 (en) Generation of comfort noise
WO2012161881A1 (en) Noise-robust speech coding mode classification
US7231348B1 (en) Tone detection algorithm for a voice activity detector
US20100106490A1 (en) Method and Speech Encoder with Length Adjustment of DTX Hangover Period
US6226607B1 (en) Method and apparatus for eighth-rate random number generation for speech coders
US6564182B1 (en) Look-ahead pitch determination
US9208796B2 (en) Estimation of speech energy based on code excited linear prediction (CELP) parameters extracted from a partially-decoded CELP-encoded bit stream and applications of same
JPH10207491A (ja) 背景音/音声分類方法、有声/無声分類方法および背景音復号方法
EP1129451A1 (en) Closed-loop variable-rate multimode predictive speech coder
WO2001003114A1 (en) Location and coding of unvoiced plosives in linear predictive coding of speech
Oh et al. Output Recursively Adaptive (ORA) Tree Coding of Speech with VAD/CNG
KR20160065054A (ko) 부호화 방식 결정 방법 및 장치
KR20150053891A (ko) 부호화 방식 결정 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121030

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20131030

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20141030

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20150930

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20161028

Year of fee payment: 16

FPAY Annual fee payment

Payment date: 20170929

Year of fee payment: 17

LAPS Lapse due to unpaid annual fee