KR0155807B1 - 저지연 가변 전송률 다중여기 음성 부호화장치 - Google Patents

저지연 가변 전송률 다중여기 음성 부호화장치 Download PDF

Info

Publication number
KR0155807B1
KR0155807B1 KR1019950005980A KR19950005980A KR0155807B1 KR 0155807 B1 KR0155807 B1 KR 0155807B1 KR 1019950005980 A KR1019950005980 A KR 1019950005980A KR 19950005980 A KR19950005980 A KR 19950005980A KR 0155807 B1 KR0155807 B1 KR 0155807B1
Authority
KR
South Korea
Prior art keywords
pitch
frame
value
unvoiced
error function
Prior art date
Application number
KR1019950005980A
Other languages
English (en)
Other versions
KR960036345A (ko
Inventor
기석철
김남수
Original Assignee
김광호
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김광호, 삼성전자주식회사 filed Critical 김광호
Priority to KR1019950005980A priority Critical patent/KR0155807B1/ko
Publication of KR960036345A publication Critical patent/KR960036345A/ko
Application granted granted Critical
Publication of KR0155807B1 publication Critical patent/KR0155807B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

입력 음성 신호에 대해서 낮은 전송률과 짧은 시간 지연을 보장하는 음성 부호가 장치가 개시된다.
본 발명에 따른 음성 부호화장치는 초기피치 추정시 록-어헤드 피치 추정과정을 제거함에 의해 분석시의 지연 시간을 2 프레임 시간만큼 단축할 수 있으며 그만큼 계산량도 감축할 수가 있게 된다.

Description

저지연 가변 전송률 다중여기 음성 부호화장치
제1도는 종래의 음성 부호화장치의 구성을 보이는 블럭도이다.
제2도는 제1도에 도시된 초기피치 추정부의 구성을 보이는 블럭도이다.
제3도는 제1도에 도시된 유무성음 판별부의 동작을 보이기 위한 도면이다.
제4도는 본 발명에 따른 개선된 음성 부호화장치의 구성을 보이는 블럭도이다.
본 발명은 저지연 가변 전송률 다중여기 음성 부호화장치에 관한 것으로, 특히 낮은 전송률과 짧은 시간 지연을 보장하는 음성 부호화장치에 관한 것이다.
음성통신에 있어서는 좋은 음질을 유지하면서도 낮은 전송률이 가능한 음성압축기술이 필요하다. 이를 위하여 널리 이용되고 있는 음성 부호화/복호화기법은 IMBE(Improved multi-band excitation)이다.
제1도는 종래의 IMBE방식의 부호화기를 보이는 블럭도이다. 제1도에 도시된 장치는 하이패스필터(10), 로우패스필터(20), 초기피치 추정부(30), 피치정제부(40), 유무성음 검출부(50), 스펙트럼 앰플리튜드 추정부(60)을 구비한다.
A/D(Analog to Digital) 변환기(미도시)를 통하여 입력된 음성신호는 DC성분을 제거하기 위하여 하이패스필터(10)를 통과한다. 이 신호는 다시 로우패스필터(20)를 거쳐 초기피치추정부(30)로 입력 된다. 음성에서의 피치는 보통 낮은 주파수를 갖기 때문에 로우패스필터(20)를 통하여 피치추정시 불필요한 고역 주파수 성분을 제거한다.
제2도는 제1도에 도시된 초기피치추정부(30)의 상세한 구성을 보이는 블럭도이다. 제2도에 도시된 장치는 에러함수 계산부(31), 룩-백(Lock-Back)피치 추정부(32), 룩-어헤드(Look-Ahead)피치 추정부(33), 그리고 비교기(34)를 구비한다.
에러함수계산기(31)에서는 로우패스필터(20)에서 제공되는 신호의 에러함수를 계산한다. 이 함수는 1/2 샘플 간격으로 피치를 변경해가서 주어진 피치값에 따른 오차값을 구하는 함수이다. 룩-백 피치추정부(32)는 현재로부터 과거의 두 프레임에 대한 에러함수가 최소화되는 피치값을 구하는 것이고, 룩-어헤드 피치추정부(33)는 현재로부터 미래의 두 프레임에 대한 에러함수가 최소화되는 피치값을 구하는 것이다.
비교부(34)는 룩-백 피치추정부(32) 및 룩-어헤드 피치추정부(33)에서 추정된 4개의 피치값을 비교하여 추정된 초기피치값을 결정하여 출력한다.
피치정제부(40)는 로우패스필터(20)를 통과하기 전의 신호를 이용하여 초기피치로 추정된 값의 근처에서 1/4간격으로 피치를 변경해가면서 보다 상세하게 최종의 피치값을 추정한다.
유무성음 판별부(50)는 피치정제부(40)에서 결정된 최종피치값을 참조하여 로우패스필터(20)에서 출력되는 신호의 유무성음 구간을 판별하고 그 결과를 전송한다.
제3도는 제1도에 도시된 유무성음 판별부(50)의 동작을 보이기 위한 도면이다. 현재 분석중인 프레임의 피치가 검출되면 제3도와 같이 피치주기에 따라 총L개의 고조파(Harmonics)가 주파수 영역에서 정해지게 된다. 이것을 3개의 고조파(Harmonics)마다 1개의 밴드로 묶어서 유성음 밴드와 무성음 밴드를 판별하게 된다.
유무성음 판별부(50)에서 판별된 결과는 제1도의 Vk로 전송된다.
스펙트럼 앰플리튜드 추정부(60)는 L개의 고조파의 스펙트럼크기를 결정하는 데 이때 밴드의 종류에 따라 각기 다른 스펙트럼크기가 결정된다.
복호화부에서는 피치정제부(40)에서 결정된 최종피치 추정값(w0), 유무성음 검출부(50)에서 판단된 유무성음정보(Vk), 그리고 스펙트럼 앰플리튜드(Mi)를 이용하여 부호화된 음성을 재생한다.
그러나 제1도에 도시된 종래의 부호화장치에서는 항상 4.4Kbps의 전송률을 유지하기 때문에 전송률 측면에서 효율적이지 못하며, 피치 검출시에 룩-어헤드 추적을 수행하기 때문에 많은 시간지연이 생기며, 부호화기가 복잡하고, 계산량이 많은 등의 결점들이 있었다.
본 발명은 상기와 같은 결점을 개선하여 낮은 전송률과 짧은 시간 지연을 보장하는 음성 부호화장치를 제공하는 것을 그 목적으로 한다.
상기의 목적을 달성하기 위한 본 발명에 따른 음성 부호화장치는 각 프레임에 대한 에러함수값이 최소가 되는 피치값을 결정하는 초기 피치추정부, 초기피치를 참조하여 최종피치 추정값을 결정하는 피치정제부, 현재 프레임의 피치를 참조하여 주파수밴드의 유/무성음 판별을 행하고 비트 할당을 하는 유무성음 판별부, 그리고 각 주파수밴드의 스펙트럼의 크기를 구하는 스펙트럼 앰플리튜드 추정부를 구비하는 저지연 가변 전송률 다중 여기 음성 부호화장치에 있어서, 상기 초기피치 추정부는 주어진 피치값에 따른 오차값을 구하는 에러함수 계산부, 현재로부터 과거의 피치값에 대한 에러 함수가 최소가 되도록 하는 룩-백피치 추정부, 그리고 피치값을 에러 함수의 입력으로 줄 때 유성음 프레임에서는 작은 값을 이용하고, 무성음 프레임에서는 큰 값을 이용하는 규칙을 갖는 피치결정부를 구비하고, 상기 유/무성음 검출부는 프레임 단위로 유무성음 구간을 판별하며, 무성음 프레임의 경우 비트 할당을 적게하여 전송하도록 하는 것을 특징으로 한다. 이하 첨부한 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.
제4도는 본 발명에 따른 음성 부호화장치를 보이는 블럭도이다. 제4도에 도시된 장치는 하이패스필터(110), 로우패스필터(120), 초기피치 추정부(130), 피치정제부(140), 프레임 유무성음 검출부(150), 스펙트럼 앰플리튜드 추정부(160)을 구비한다.
제4도에 도시된 장치에 있어서 하이패스필터(110), 로우패스필터(120), 초기피치 추정부(130), 스펙트럼 앰플리튜드 추정부(160)의 동작은 제1도에 도시된 하이패스필터(10), 로우패스필터(20), 초기피치 추정부(30), 스펙트럼 앰플리튜드 추정부(60)의 동작과 동일하므로 상세한 설명을 생략한다.
제5도는 제4도에 도시된 초기 피치추정부를 보이는 블럭도이다. 제5도에 도시된 장치는 에러함수계산부(35), 룩-백 피치추정부(36), 그리고 피치결정부(37)를 구비한다.
제5도에 도시된 장치를 제2도에 도시된 장치와 비교해 보면, 제5도에 도시된 장치는 제2도에 도시된 장치에 비해 룩-어헤드 피치추정부가 삭제되어져 있음을 알 수 있다. 따라서 제5도에 도시된 장치는 분석시의 지연 시간을 두 프레임 기간만큼 단축할 수 있으며 또한 그만큼 계산량도 감축할 수가 있게 된다.
또한, 제4도에 도시된 장치에서는 룩-어헤드 피치추정부가 삭제됨으로써 피치검출의 정확도가 떨어지는 현상을 방지하기 위하여 두가지의 방안이 강구되고 있다.
첫번째로는, 초기 피치추정부(130)에서 강화된 피치결정규칙(Pitch Decision Rule)을 갖는다는 것이고, 두번째로는 프레임단위의 유/무성 판별을 한다는 것이다.
제1도에 도시된 장치는 모든 프레임에 대해서 그 프레임의 주파수 영역에 대한 유/무성음 판별을 행한다. 그러나 주지하는 바와 같이 프레임이 무성음쪽의 특성이 강한 경우에는 많은 수의 비트를 할당하지 않더라도 재생 음질의 저하가 크지 않다.
본 발명에서는 이러한 성질을 이용하여 프레임에 대한 유/무성음 판별을 행하고 무성음 프레임의 경우에 비트 할당을 대폭 줄여서 전송함으로써 전체 압축률을 높일 수 있게 한다.
즉, 제4도와 같이 프레임 유/무성음 검출부를 채택함으로써 전체적인 압축률을 낮출 수 있게 된다.
제4도에 도시된 장치에 있어서 피치검출을 위한 피치 결정 규칙(Pitch Decisio n Rule), 가변 전송률을 위한 프레임 판별 규칙, 그리고 비트할당에 대해서 표1,2,3와 수식을 이용하여 상세히 설명한다.
우선 피치결정부(35)에서의 피치결정규칙 Pitch(Decision Rule)은 다음과 같다. 에러함수(error function)는 피치값을 함수의 입력으로 줄 때 유성음 프레임에서는 그 값이 작고, 무성음 프레임에서는 그 값이 큰 특성을 가지고 있다. 이와 같은 특성을 이용하여 이전 프레임에서의 에러 함수값 E(P-1)이 큰 값이면, 이전 프레임은 무성음으로 간주되고 현재의 프레임은 새로운 유성음 구간이 시작될 가능성이 있으므로 피치 후보식은 아래와 같이 가능한 모든 피치값에서 Pi를 결정한다.
반면에 E(P-1)이 작으면 이전 프레임은 유성음으로 간주하고 현재의 프레임도 유성음일 가능성이 크다고 판단하여 피치 후보 범위를 제한하여 에러 함수(error function)을 계산한다.
제1도에 도시된 장치에서는 초기피치값을 구하기 위하여 (1)식과 같이 1/2 샘플 단위로 피치값을 변경하면서 에러함수의 계산을 해야 했으나 본 발명과 같이 경우에 따라서 계산 횟수를 대폭 줄여서 연산량 감축을 할수 있다.
다음으로는 가변 전송률을 위한 프레임 판별 규칙과 비트할당이며 표1,2,3과 같다.
여기서, ER1 = 현재 프레임의 절대 합/ 전프레임의 절대 합
ER1 = 전프레임의 절대 합/ 현재 프레임의 절대 합
이상과 같은 규칙에 의하여 프레임이 결정되면 다음과 같은 비트할당으로 인코딩(Encoding)한다.
상술한 바와 같이 본 발명에 따른 음성 부호화장치는 룩-어헤드 피치추정부를 삭제함으로써 구조적인 복잡성을 완화시키고 낮은 전송률과 짧은 시간 지연을 달성할 수 있게 하는 잇점이 있다.

Claims (4)

  1. 각 프레임에 대한 에러함수값이 최소가 되는 피치값을 결정하는 초기 피치추정부, 초기피치를 참조하여 최종피치 추정값을 결정하는 피치정제부, 현재 프레임의 피치를 참조하여 주파수밴드의 유/무성음 판별을 행하고 비트 할당을 하는 유무성음 검출부, 그리고 각 주파수밴드의 스펙트럼의 크기를 구하는 스펙트럼 앰플리튜드 추정부를 구비하는 저지연 가변 전송률 다중 여기 음성 부호화장치에 있어서, 상기 초기피치 추정부는 주어진 피치값에 따른 오차값을 구하는 에러함수 계산부, 현재로부터 과거의 피치값에 대한 에러 함수가 최소가 되도록 하는 룩-백피치 추정부, 그리고 피치값을 에러 함수의 입력으로 줄 때 유성음 프레임에서는 작은 값을 이용하고, 무성음 프레임에서는 큰 값을 이용하는 규칙을 갖는 피치결정부를 구비하고, 상기 유/무성음 검출부는 프레임 단위로 유무성음 구간을 판별하며, 무성음 프레임의 경우 비트 할당을 적게하여 전송하도록 하는 것을 특징으로 하는 저지연 가변전송률 다중 여기 음성 부호화장치.
  2. 제1항에 있어서, 상기 피치결정부는 이전 프레임에서의 에러 함수값 E(P-1)이 큰 값이면, 이전 프레임은 무성음으로 간주되고 현재의 프레임은 새로운 유성음 구간이 시작될 가능성이 있다고 판단하여 가능한 모든 피치값에서 초기 피치값 Pi을 결정하며, 반면에 이전 프레임에서의 에러함수값 E(P-1)이 작으면 이전 프레임은 유성음으로 간주하고 현재의 프레임도 유성음일 가능성이 크다고 판단하여 피치 후보 범위를 제한하여 초기 피치값 Pi을 결정하는 것을 특징으로 하는 저지연 가변전송률 다중 여기 음성 부호화장치.
  3. 제1항에 있어서, 상기 프레임 유/무성음 판별부는 모든 주파수 밴드가 무성음이면 현재 프레임은 무성음이며, 밴드1을 제외한 모든 밴드가 무성음일 때, ER10.06 or ER20.08 이면 현재 프레임은 무성음이며 ER110 or ER210 이면 현재 프레임은 유성음인 것을 특징으로 하는 저지연 가변전송률 다중 여기 음성 부호화장치.
  4. 제3항에 있어서, 상기 프레임 유/무성음 판별부에서 판별된 프레임이 무성음쪽의 특성이 강한 프레임일 경우 비트할당을 적게하여 전송하는 것을 특징으로 하는 저지연 가변전송률 다중 여기 음성 부호화장치.
KR1019950005980A 1995-03-21 1995-03-21 저지연 가변 전송률 다중여기 음성 부호화장치 KR0155807B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019950005980A KR0155807B1 (ko) 1995-03-21 1995-03-21 저지연 가변 전송률 다중여기 음성 부호화장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019950005980A KR0155807B1 (ko) 1995-03-21 1995-03-21 저지연 가변 전송률 다중여기 음성 부호화장치

Publications (2)

Publication Number Publication Date
KR960036345A KR960036345A (ko) 1996-10-28
KR0155807B1 true KR0155807B1 (ko) 1998-12-15

Family

ID=19410281

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019950005980A KR0155807B1 (ko) 1995-03-21 1995-03-21 저지연 가변 전송률 다중여기 음성 부호화장치

Country Status (1)

Country Link
KR (1) KR0155807B1 (ko)

Also Published As

Publication number Publication date
KR960036345A (ko) 1996-10-28

Similar Documents

Publication Publication Date Title
US7191120B2 (en) Speech encoding method, apparatus and program
US6134518A (en) Digital audio signal coding using a CELP coder and a transform coder
KR100742443B1 (ko) 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법
US7155386B2 (en) Adaptive correlation window for open-loop pitch
EP0628947B1 (en) Method and device for speech signal pitch period estimation and classification in digital speech coders
US7472059B2 (en) Method and apparatus for robust speech classification
EP1141947B1 (en) Variable rate speech coding
EP1738355B1 (en) Signal encoding
EP1509903B1 (en) Method and device for efficient frame erasure concealment in linear predictive based speech codecs
US6687668B2 (en) Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same
US7016832B2 (en) Voiced/unvoiced information estimation system and method therefor
Kleijn et al. A 5.85 kbits CELP algorithm for cellular applications
KR101235830B1 (ko) 음성코덱의 품질향상장치 및 그 방법
US6449592B1 (en) Method and apparatus for tracking the phase of a quasi-periodic signal
SE470577B (sv) Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
Cellario et al. CELP coding at variable rate
Özaydın et al. Matrix quantization and mixed excitation based linear predictive speech coding at very low bit rates
KR0155807B1 (ko) 저지연 가변 전송률 다중여기 음성 부호화장치
Stegmann et al. Robust classification of speech based on the dyadic wavelet transform with application to CELP coding
KR20050085744A (ko) 오디오 인코딩에서의 사인곡선 선택
EP1259955B1 (en) Method and apparatus for tracking the phase of a quasi-periodic signal
KR0175250B1 (ko) 보코더의 톤 검출회로 및 방법
KR20050085761A (ko) 오디오 인코딩에서의 사인곡선 선택
JP2892462B2 (ja) コード励振線形予測符号化器
LeBlanc et al. An enhanced full rate speech coder for digital cellular applications

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080627

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee