KR0155807B1 - 저지연 가변 전송률 다중여기 음성 부호화장치 - Google Patents
저지연 가변 전송률 다중여기 음성 부호화장치 Download PDFInfo
- Publication number
- KR0155807B1 KR0155807B1 KR1019950005980A KR19950005980A KR0155807B1 KR 0155807 B1 KR0155807 B1 KR 0155807B1 KR 1019950005980 A KR1019950005980 A KR 1019950005980A KR 19950005980 A KR19950005980 A KR 19950005980A KR 0155807 B1 KR0155807 B1 KR 0155807B1
- Authority
- KR
- South Korea
- Prior art keywords
- pitch
- frame
- value
- unvoiced
- error function
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 4
- 230000003595 spectral effect Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000005284 excitation Effects 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
입력 음성 신호에 대해서 낮은 전송률과 짧은 시간 지연을 보장하는 음성 부호가 장치가 개시된다.
본 발명에 따른 음성 부호화장치는 초기피치 추정시 록-어헤드 피치 추정과정을 제거함에 의해 분석시의 지연 시간을 2 프레임 시간만큼 단축할 수 있으며 그만큼 계산량도 감축할 수가 있게 된다.
Description
제1도는 종래의 음성 부호화장치의 구성을 보이는 블럭도이다.
제2도는 제1도에 도시된 초기피치 추정부의 구성을 보이는 블럭도이다.
제3도는 제1도에 도시된 유무성음 판별부의 동작을 보이기 위한 도면이다.
제4도는 본 발명에 따른 개선된 음성 부호화장치의 구성을 보이는 블럭도이다.
본 발명은 저지연 가변 전송률 다중여기 음성 부호화장치에 관한 것으로, 특히 낮은 전송률과 짧은 시간 지연을 보장하는 음성 부호화장치에 관한 것이다.
음성통신에 있어서는 좋은 음질을 유지하면서도 낮은 전송률이 가능한 음성압축기술이 필요하다. 이를 위하여 널리 이용되고 있는 음성 부호화/복호화기법은 IMBE(Improved multi-band excitation)이다.
제1도는 종래의 IMBE방식의 부호화기를 보이는 블럭도이다. 제1도에 도시된 장치는 하이패스필터(10), 로우패스필터(20), 초기피치 추정부(30), 피치정제부(40), 유무성음 검출부(50), 스펙트럼 앰플리튜드 추정부(60)을 구비한다.
A/D(Analog to Digital) 변환기(미도시)를 통하여 입력된 음성신호는 DC성분을 제거하기 위하여 하이패스필터(10)를 통과한다. 이 신호는 다시 로우패스필터(20)를 거쳐 초기피치추정부(30)로 입력 된다. 음성에서의 피치는 보통 낮은 주파수를 갖기 때문에 로우패스필터(20)를 통하여 피치추정시 불필요한 고역 주파수 성분을 제거한다.
제2도는 제1도에 도시된 초기피치추정부(30)의 상세한 구성을 보이는 블럭도이다. 제2도에 도시된 장치는 에러함수 계산부(31), 룩-백(Lock-Back)피치 추정부(32), 룩-어헤드(Look-Ahead)피치 추정부(33), 그리고 비교기(34)를 구비한다.
에러함수계산기(31)에서는 로우패스필터(20)에서 제공되는 신호의 에러함수를 계산한다. 이 함수는 1/2 샘플 간격으로 피치를 변경해가서 주어진 피치값에 따른 오차값을 구하는 함수이다. 룩-백 피치추정부(32)는 현재로부터 과거의 두 프레임에 대한 에러함수가 최소화되는 피치값을 구하는 것이고, 룩-어헤드 피치추정부(33)는 현재로부터 미래의 두 프레임에 대한 에러함수가 최소화되는 피치값을 구하는 것이다.
비교부(34)는 룩-백 피치추정부(32) 및 룩-어헤드 피치추정부(33)에서 추정된 4개의 피치값을 비교하여 추정된 초기피치값을 결정하여 출력한다.
피치정제부(40)는 로우패스필터(20)를 통과하기 전의 신호를 이용하여 초기피치로 추정된 값의 근처에서 1/4간격으로 피치를 변경해가면서 보다 상세하게 최종의 피치값을 추정한다.
유무성음 판별부(50)는 피치정제부(40)에서 결정된 최종피치값을 참조하여 로우패스필터(20)에서 출력되는 신호의 유무성음 구간을 판별하고 그 결과를 전송한다.
제3도는 제1도에 도시된 유무성음 판별부(50)의 동작을 보이기 위한 도면이다. 현재 분석중인 프레임의 피치가 검출되면 제3도와 같이 피치주기에 따라 총L개의 고조파(Harmonics)가 주파수 영역에서 정해지게 된다. 이것을 3개의 고조파(Harmonics)마다 1개의 밴드로 묶어서 유성음 밴드와 무성음 밴드를 판별하게 된다.
유무성음 판별부(50)에서 판별된 결과는 제1도의 Vk로 전송된다.
스펙트럼 앰플리튜드 추정부(60)는 L개의 고조파의 스펙트럼크기를 결정하는 데 이때 밴드의 종류에 따라 각기 다른 스펙트럼크기가 결정된다.
복호화부에서는 피치정제부(40)에서 결정된 최종피치 추정값(w0), 유무성음 검출부(50)에서 판단된 유무성음정보(Vk), 그리고 스펙트럼 앰플리튜드(Mi)를 이용하여 부호화된 음성을 재생한다.
그러나 제1도에 도시된 종래의 부호화장치에서는 항상 4.4Kbps의 전송률을 유지하기 때문에 전송률 측면에서 효율적이지 못하며, 피치 검출시에 룩-어헤드 추적을 수행하기 때문에 많은 시간지연이 생기며, 부호화기가 복잡하고, 계산량이 많은 등의 결점들이 있었다.
본 발명은 상기와 같은 결점을 개선하여 낮은 전송률과 짧은 시간 지연을 보장하는 음성 부호화장치를 제공하는 것을 그 목적으로 한다.
상기의 목적을 달성하기 위한 본 발명에 따른 음성 부호화장치는 각 프레임에 대한 에러함수값이 최소가 되는 피치값을 결정하는 초기 피치추정부, 초기피치를 참조하여 최종피치 추정값을 결정하는 피치정제부, 현재 프레임의 피치를 참조하여 주파수밴드의 유/무성음 판별을 행하고 비트 할당을 하는 유무성음 판별부, 그리고 각 주파수밴드의 스펙트럼의 크기를 구하는 스펙트럼 앰플리튜드 추정부를 구비하는 저지연 가변 전송률 다중 여기 음성 부호화장치에 있어서, 상기 초기피치 추정부는 주어진 피치값에 따른 오차값을 구하는 에러함수 계산부, 현재로부터 과거의 피치값에 대한 에러 함수가 최소가 되도록 하는 룩-백피치 추정부, 그리고 피치값을 에러 함수의 입력으로 줄 때 유성음 프레임에서는 작은 값을 이용하고, 무성음 프레임에서는 큰 값을 이용하는 규칙을 갖는 피치결정부를 구비하고, 상기 유/무성음 검출부는 프레임 단위로 유무성음 구간을 판별하며, 무성음 프레임의 경우 비트 할당을 적게하여 전송하도록 하는 것을 특징으로 한다. 이하 첨부한 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.
제4도는 본 발명에 따른 음성 부호화장치를 보이는 블럭도이다. 제4도에 도시된 장치는 하이패스필터(110), 로우패스필터(120), 초기피치 추정부(130), 피치정제부(140), 프레임 유무성음 검출부(150), 스펙트럼 앰플리튜드 추정부(160)을 구비한다.
제4도에 도시된 장치에 있어서 하이패스필터(110), 로우패스필터(120), 초기피치 추정부(130), 스펙트럼 앰플리튜드 추정부(160)의 동작은 제1도에 도시된 하이패스필터(10), 로우패스필터(20), 초기피치 추정부(30), 스펙트럼 앰플리튜드 추정부(60)의 동작과 동일하므로 상세한 설명을 생략한다.
제5도는 제4도에 도시된 초기 피치추정부를 보이는 블럭도이다. 제5도에 도시된 장치는 에러함수계산부(35), 룩-백 피치추정부(36), 그리고 피치결정부(37)를 구비한다.
제5도에 도시된 장치를 제2도에 도시된 장치와 비교해 보면, 제5도에 도시된 장치는 제2도에 도시된 장치에 비해 룩-어헤드 피치추정부가 삭제되어져 있음을 알 수 있다. 따라서 제5도에 도시된 장치는 분석시의 지연 시간을 두 프레임 기간만큼 단축할 수 있으며 또한 그만큼 계산량도 감축할 수가 있게 된다.
또한, 제4도에 도시된 장치에서는 룩-어헤드 피치추정부가 삭제됨으로써 피치검출의 정확도가 떨어지는 현상을 방지하기 위하여 두가지의 방안이 강구되고 있다.
첫번째로는, 초기 피치추정부(130)에서 강화된 피치결정규칙(Pitch Decision Rule)을 갖는다는 것이고, 두번째로는 프레임단위의 유/무성 판별을 한다는 것이다.
제1도에 도시된 장치는 모든 프레임에 대해서 그 프레임의 주파수 영역에 대한 유/무성음 판별을 행한다. 그러나 주지하는 바와 같이 프레임이 무성음쪽의 특성이 강한 경우에는 많은 수의 비트를 할당하지 않더라도 재생 음질의 저하가 크지 않다.
본 발명에서는 이러한 성질을 이용하여 프레임에 대한 유/무성음 판별을 행하고 무성음 프레임의 경우에 비트 할당을 대폭 줄여서 전송함으로써 전체 압축률을 높일 수 있게 한다.
즉, 제4도와 같이 프레임 유/무성음 검출부를 채택함으로써 전체적인 압축률을 낮출 수 있게 된다.
제4도에 도시된 장치에 있어서 피치검출을 위한 피치 결정 규칙(Pitch Decisio n Rule), 가변 전송률을 위한 프레임 판별 규칙, 그리고 비트할당에 대해서 표1,2,3와 수식을 이용하여 상세히 설명한다.
우선 피치결정부(35)에서의 피치결정규칙 Pitch(Decision Rule)은 다음과 같다. 에러함수(error function)는 피치값을 함수의 입력으로 줄 때 유성음 프레임에서는 그 값이 작고, 무성음 프레임에서는 그 값이 큰 특성을 가지고 있다. 이와 같은 특성을 이용하여 이전 프레임에서의 에러 함수값 E(P-1)이 큰 값이면, 이전 프레임은 무성음으로 간주되고 현재의 프레임은 새로운 유성음 구간이 시작될 가능성이 있으므로 피치 후보식은 아래와 같이 가능한 모든 피치값에서 Pi를 결정한다.
반면에 E(P-1)이 작으면 이전 프레임은 유성음으로 간주하고 현재의 프레임도 유성음일 가능성이 크다고 판단하여 피치 후보 범위를 제한하여 에러 함수(error function)을 계산한다.
제1도에 도시된 장치에서는 초기피치값을 구하기 위하여 (1)식과 같이 1/2 샘플 단위로 피치값을 변경하면서 에러함수의 계산을 해야 했으나 본 발명과 같이 경우에 따라서 계산 횟수를 대폭 줄여서 연산량 감축을 할수 있다.
다음으로는 가변 전송률을 위한 프레임 판별 규칙과 비트할당이며 표1,2,3과 같다.
여기서, ER1 = 현재 프레임의 절대 합/ 전프레임의 절대 합
ER1 = 전프레임의 절대 합/ 현재 프레임의 절대 합
이상과 같은 규칙에 의하여 프레임이 결정되면 다음과 같은 비트할당으로 인코딩(Encoding)한다.
상술한 바와 같이 본 발명에 따른 음성 부호화장치는 룩-어헤드 피치추정부를 삭제함으로써 구조적인 복잡성을 완화시키고 낮은 전송률과 짧은 시간 지연을 달성할 수 있게 하는 잇점이 있다.
Claims (4)
- 각 프레임에 대한 에러함수값이 최소가 되는 피치값을 결정하는 초기 피치추정부, 초기피치를 참조하여 최종피치 추정값을 결정하는 피치정제부, 현재 프레임의 피치를 참조하여 주파수밴드의 유/무성음 판별을 행하고 비트 할당을 하는 유무성음 검출부, 그리고 각 주파수밴드의 스펙트럼의 크기를 구하는 스펙트럼 앰플리튜드 추정부를 구비하는 저지연 가변 전송률 다중 여기 음성 부호화장치에 있어서, 상기 초기피치 추정부는 주어진 피치값에 따른 오차값을 구하는 에러함수 계산부, 현재로부터 과거의 피치값에 대한 에러 함수가 최소가 되도록 하는 룩-백피치 추정부, 그리고 피치값을 에러 함수의 입력으로 줄 때 유성음 프레임에서는 작은 값을 이용하고, 무성음 프레임에서는 큰 값을 이용하는 규칙을 갖는 피치결정부를 구비하고, 상기 유/무성음 검출부는 프레임 단위로 유무성음 구간을 판별하며, 무성음 프레임의 경우 비트 할당을 적게하여 전송하도록 하는 것을 특징으로 하는 저지연 가변전송률 다중 여기 음성 부호화장치.
- 제1항에 있어서, 상기 피치결정부는 이전 프레임에서의 에러 함수값 E(P-1)이 큰 값이면, 이전 프레임은 무성음으로 간주되고 현재의 프레임은 새로운 유성음 구간이 시작될 가능성이 있다고 판단하여 가능한 모든 피치값에서 초기 피치값 Pi을 결정하며, 반면에 이전 프레임에서의 에러함수값 E(P-1)이 작으면 이전 프레임은 유성음으로 간주하고 현재의 프레임도 유성음일 가능성이 크다고 판단하여 피치 후보 범위를 제한하여 초기 피치값 Pi을 결정하는 것을 특징으로 하는 저지연 가변전송률 다중 여기 음성 부호화장치.
- 제1항에 있어서, 상기 프레임 유/무성음 판별부는 모든 주파수 밴드가 무성음이면 현재 프레임은 무성음이며, 밴드1을 제외한 모든 밴드가 무성음일 때, ER10.06 or ER20.08 이면 현재 프레임은 무성음이며 ER110 or ER210 이면 현재 프레임은 유성음인 것을 특징으로 하는 저지연 가변전송률 다중 여기 음성 부호화장치.
- 제3항에 있어서, 상기 프레임 유/무성음 판별부에서 판별된 프레임이 무성음쪽의 특성이 강한 프레임일 경우 비트할당을 적게하여 전송하는 것을 특징으로 하는 저지연 가변전송률 다중 여기 음성 부호화장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019950005980A KR0155807B1 (ko) | 1995-03-21 | 1995-03-21 | 저지연 가변 전송률 다중여기 음성 부호화장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019950005980A KR0155807B1 (ko) | 1995-03-21 | 1995-03-21 | 저지연 가변 전송률 다중여기 음성 부호화장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR960036345A KR960036345A (ko) | 1996-10-28 |
KR0155807B1 true KR0155807B1 (ko) | 1998-12-15 |
Family
ID=19410281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019950005980A KR0155807B1 (ko) | 1995-03-21 | 1995-03-21 | 저지연 가변 전송률 다중여기 음성 부호화장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR0155807B1 (ko) |
-
1995
- 1995-03-21 KR KR1019950005980A patent/KR0155807B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR960036345A (ko) | 1996-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7191120B2 (en) | Speech encoding method, apparatus and program | |
US6134518A (en) | Digital audio signal coding using a CELP coder and a transform coder | |
KR100742443B1 (ko) | 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법 | |
US7155386B2 (en) | Adaptive correlation window for open-loop pitch | |
EP0628947B1 (en) | Method and device for speech signal pitch period estimation and classification in digital speech coders | |
US7472059B2 (en) | Method and apparatus for robust speech classification | |
EP1141947B1 (en) | Variable rate speech coding | |
EP1738355B1 (en) | Signal encoding | |
EP1509903B1 (en) | Method and device for efficient frame erasure concealment in linear predictive based speech codecs | |
US6687668B2 (en) | Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same | |
US7016832B2 (en) | Voiced/unvoiced information estimation system and method therefor | |
Kleijn et al. | A 5.85 kbits CELP algorithm for cellular applications | |
KR101235830B1 (ko) | 음성코덱의 품질향상장치 및 그 방법 | |
US6449592B1 (en) | Method and apparatus for tracking the phase of a quasi-periodic signal | |
SE470577B (sv) | Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud | |
Cellario et al. | CELP coding at variable rate | |
Özaydın et al. | Matrix quantization and mixed excitation based linear predictive speech coding at very low bit rates | |
KR0155807B1 (ko) | 저지연 가변 전송률 다중여기 음성 부호화장치 | |
Stegmann et al. | Robust classification of speech based on the dyadic wavelet transform with application to CELP coding | |
KR20050085744A (ko) | 오디오 인코딩에서의 사인곡선 선택 | |
EP1259955B1 (en) | Method and apparatus for tracking the phase of a quasi-periodic signal | |
KR0175250B1 (ko) | 보코더의 톤 검출회로 및 방법 | |
KR20050085761A (ko) | 오디오 인코딩에서의 사인곡선 선택 | |
JP2892462B2 (ja) | コード励振線形予測符号化器 | |
LeBlanc et al. | An enhanced full rate speech coder for digital cellular applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20080627 Year of fee payment: 11 |
|
LAPS | Lapse due to unpaid annual fee |