KR100300964B1 - 음성 코딩/디코딩 장치 및 그 방법 - Google Patents

음성 코딩/디코딩 장치 및 그 방법 Download PDF

Info

Publication number
KR100300964B1
KR100300964B1 KR1019990017792A KR19990017792A KR100300964B1 KR 100300964 B1 KR100300964 B1 KR 100300964B1 KR 1019990017792 A KR1019990017792 A KR 1019990017792A KR 19990017792 A KR19990017792 A KR 19990017792A KR 100300964 B1 KR100300964 B1 KR 100300964B1
Authority
KR
South Korea
Prior art keywords
pitch
frequency
signal
length
pitch period
Prior art date
Application number
KR1019990017792A
Other languages
English (en)
Other versions
KR20000074088A (ko
Inventor
김무영
조용덕
Original Assignee
윤종용
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자 주식회사 filed Critical 윤종용
Priority to KR1019990017792A priority Critical patent/KR100300964B1/ko
Publication of KR20000074088A publication Critical patent/KR20000074088A/ko
Application granted granted Critical
Publication of KR100300964B1 publication Critical patent/KR100300964B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms

Abstract

음성코딩/디코딩 장치 및 그 방법이 개시된다. 본 음성 코딩 장치는 입력 음성에 대하여 선형예측코딩(Linear Predictive Coding: LPC) 분석을 수행함으로써 피치와 선형예측코딩 계수 및 잔차신호를 출력하는 음성 특징 추출부와, 하나의 피치주기파형(pitch cycle waveform: PCW)을 추출하는 PCW 추출부와, 상기 피치주기파형을 과거 피치주기 파형과 얼라인하는 PCW 얼라인부와, 추출된 피치주기파형을 고정된 길이의 파형으로 변환하는 길이변환부와, 변환된 고정길이 파형을 코드여기선형예측(code-excited linear prediction: CELP) 알고리즘으로 양자화하여 고정코드북 인덱스 및 게인과 적응코드북 게인을 출력하는 PCW 인코딩부와, 고정코드북 인덱스 및 게인과 적응코드북 게인을 입력하여 CELP 디코딩을 수행함으로써 양자화된 고정길이의 잔차신호를 출력하는 PCW 디코딩부와, 양자화된 고정길이의 잔차신호를 상기 PCW 인코딩부로 피드백하는 지연부, 및 선 스펙트럼 쌍, 피치, 인덱스, 고정 코드북 및 적응 코드북 게인을 포함한 변수들을 패킷화하여 전송 비트스트림을 출력하는 패킷화부를 포함한다. 본 음성코딩장치는 5.6 kbps 코더로 구현하면 8 kbps 국제 표준 코더인 G.729와 거의 동일한 음질을 나타내고, 특히 고주파수 재생 능력이 우수하다. 또한, 4 kbps 코더로 구현하면 ITU-T, Study Group 16, Question Number 21에 국제표준안으로 제안하고 있는 코더와 동일한 음질을 재생할 수 있다.

Description

음성 코딩/디코딩 장치 및 그 방법{Speech coding/decoding device and method therof}
본 발명은 음성 코딩 장치에 관한 것으로, 특히 낮은 전송률로 음성을 코딩하는 음성 코딩 장치에 관한 것이다.
또한, 본 발명은 상기 음성 코딩 장치에 의하여 코딩된 저전송률의 비트 스트림을 디코딩하는 음성 디코딩 장치에 관한 것이다.
또한, 본 발명은 상기 음성 코딩 장치 및 디코딩 장치에서 구현되는 음성 코딩 방법 및 음성 디코딩 방법에 관한 것이다.
최근 미국, 일본, 및 유럽등에서는 음성 코더(Voice Coder: Vocoder)에 대한 표준화가 진행되고 있다. 표준화에 참가하고 있는 음성 코더들은 음성을 스펙트럼 포락선과 여기 신호로 나누어 표현하고, 각각을 양자화하여 해당 비트 스트림을 전송하는 방식을 채택하고 있다. 이러한 음성 코더의 응용분야에는 멀티미디어 통신 시스템(Multimedia Communication System), 디지털 셀룰러 시스템(Digital Cellular System), 디지털 자동 응답 시스템(Digital Answering System), 인터넷 폰(Internet Phone), 음성 메일 시스템(Voice Mailing System)등이 있다.
종래의 코딩장치 분야에서는 현재의 기술수준상 8 kbps 이상의 전송률에서는 코드여기 선형 예측코딩(Code Excited Linear Predictive coding: CELP)과 같은 합성분석(Analysis-by-Synthesis: AbS) 방식의 음성 코딩장치가 적합하다고 알려져 있다. 합성분석(AbS) 방식에서 합성음은 파형 매칭에 의하여 음성을 코딩하기 때문에 높은 신호 대 잡음비(Signal-to-Noise Ratio: SNR)를 가지지만 비트율을 낮추면 디코더의 성능이 급속히 저하되고, 잡음이 부가된 것과 같은 소리가 재생되는 문제점이 있다.
또한, 종래의 다른 코딩장치로써 2 kbps 부근의 전송률을 가지는 코딩장치들은 한 주기 피치의 프로토 타입 파형(prototype waveform)에서 피치의 하모닉스(harmonics) 성분만을 해당 주파수 영역에서 양자화한 다음에 전송하며, 양자화하지 않은 피치와 피치 사이의 구간은 보간(interpolation)하여 파형을 재생한다. 여기서, 이러한 보간과정을 사용하는 방식은 한 주기 피치의 파형이 부드럽게 진행하도록 처리해 주며 유성음의 높은 주기성에 손상을 주지 않는다는 장점이 있지만, 비트율을 증가시켜도 톨 품질(toll quality)을 얻기가 어렵다는 단점이 있다.
종래기술에 따른 음성 코딩장치가 알. 샐러미(R.Salami), 씨. 라플레임(C.Laflamme), 제이. 아둘(J.Adoul), 에이. 카타오카(A.Kataoka), 에스. 하야시(S.Hayashi), 티. 모리야(T.Moriya), 씨. 램블린(C.Lamblin), 디. 매사룩스(D.Massaloux), 및 에스. 프로우스트(S.Proust)등에 의한 'Design and Description of CS-ACELP : A Toll Quality 8 kb/s Speech Coder', IEEE Trans. in Speech and Audio Processing, Vol.6, No.2, March 1998, pp.116 - 130와, '개선된 코드 여기 선형 예측 코더(Renewal Code-Excited Linear Prediction (RCELP) Coder)'라는 제목의 미국특허출원 96-F-24호에 개시되어 있다. 상기 자료에 의하면, 8kbps 근처에서 톨 품질(Toll Quality)을 달성할 수 있다. 또한, 적응 코드북(Adaptive Codebook)을 사용함으로써 과거정보와의 상관(Correlation)을 제거한후 양자화하므로 비트 리덕션(bit reduction) 관점에서 효과적이다. 또한, 적은 비트로 피치 사이클 파형(Pitch Cycle Waveform)의 Perceptually Equivalent 묘사가 가능하다. 또한, 예를들어 10차와 같이 선형 예측 분석(LP Analysis) 차수가 낮아도 만족할만한 성능을 달성할 수 있다는 장점이 있다.
하지만, 상기와 같은 음성 코딩장치는 4.8kbps 이하에서는 음질이 급격히 감소하고, 과거정보와의 차이를 코딩하는 구조이므로 채널 에러(Channel Error) 및 비트 에러(Bit Error)에 취약하며, 음질에 크게 영향을 미치지않는 위상시프트항(Phase shift term)을 양자화에 포함하고 있으므로 비트 리던던시(bit redundancy)가 발생한다는 문제점이 있다.
종래기술에 따른 다른 음성 코딩장치가 더블유. 베스티안 클레이진(W.Bastiaan Kleijn)에 의한 '프로토 타입 파형들을 사용한 음성 코딩(Encoding Speech Using Prototype Waveforms)', IEEE Trans. on Speech and Audio Processing, Vol.1, No.4, OCTOBER 1993, pp.386 - 399에 개시되어 있다. 상기 자료에 따르면, 2.4kbps에서 군사용, 위성용으로 사용가능한 음질의 코딩장치를 설계할 수 있다. 하지만, 이러한 종래기술에 따른 음성 코딩장치는 톨 품질(Toll Quality) 설계가 어렵다는 문제점이 있다.
본 발명이 이루고자 하는 기술적 과제는 향상된 음질을 재생할 수 있는 음성 코딩 장치를 제공하는 것이다.
본 발명이 이루고자 하는 다른 기술적 과제는 상기 음성 코딩 장치에 의하여 코딩된 비트 스트림을 디코딩하는 음성 디코딩 장치를 제공하는 것이다.
본 발명이 이루고자 하는 또 다른 기술적 과제는 향상된 음질을 재생할 수 있는 음성 코덱 장치를 제공하는 것이다.
본 발명이 이루고자 하는 또 다른 기술적 과제는 상기 음성 코딩 장치에서 구현되는 음성 코딩 방법을 제공하는 것이다.
본 발명이 이루고자 하는 또 다른 기술적 과제는 상기 음성 디코딩 장치에서 구현되는 음성 디코딩 방법을 제공하는 것이다.
도 1은 본 발명의 음성 코딩 장치에 적용될 수 있는 음성코딩 특징 추출부의 구조의 일예를 도시한 블록도이다.
도 2는 본 발명의 실시예에 따른 음성 코딩 장치의 구조를 도시한 블록도이다.
도 3a는 본 발명에 따른 음성 코딩 장치에서 피치 주기 파형 추출부 및 얼라인(Pitch Cycle Waveform Extraction & Alignment)부의 동작을 설명하기 위한 파형도이다.
도 3b는 도 3a의 처리과정을 종래의 음성 코딩 장치에서 피치 사이클 파형 추출 및 얼라인(Pitch Cycle Waveform Extraction & Alignment) 처리 과정과 비교 설명하기 위한 파형도이다.
도 4는 길이 변환부에서 사용되는 길이 변환 알고리즘을 도시한 블록도이다.
도 5는 도 2의 길이변환부와 PCW 인코딩부와 PCW 디코딩부 및 지연부를 구성하는 일예를 상세 도시한 블록도이다.
도 6은 본 발명의 실시예에 의한 음성 디코딩 장치의 구조를 도시한 흐름도이다.
도 7은 길이역변환부에서 사용되는 길이 역 변환 알고리즘을 도시한 흐름도이다.
도 8은 피치 주기 파형 연결(Pitch Cycle Waveform Concatenation)부의 동작을 설명하기 위한 파형도이다.
도 9a와 도 9b는 본 발명의 실시예에 따른 음성 코딩 방법의 주요단계들을 도시한 흐름도이다.
도 10은 본 발명의 실시예에 따른 음성 디코딩 방법의 주요단계들을 도시한 흐름도이다.
<도면의 주요 부분에 대한 부호의 설명>
202...PCW 추출부, 204...PCW 얼라인부,
206...길이변환부, 208...PCW 인코딩부,
210...PCW 디코딩부, 212...지연부.
상기 과제를 이루기 위하여 본 발명의 일태양에 따른 음성 코딩 장치는 입력 음성에 대하여 선형예측코딩(Linear Predictive Coding: LPC) 분석을 수행함으로써 음성의 특성 파라미터인 피치와 선형예측코딩 계수 및 잔차신호를 출력하는 음성 특징 추출부; 상기 잔차신호와 상기 피치를 입력하여 하나의 피치주기파형(pitch cycle waveform: PCW)을 추출하는 PCW 추출부; 상기 피치주기파형을 과거 피치주기 파형과 얼라인하는 PCW 얼라인부; 추출된 피치주기파형을 고정된 길이의 파형으로 변환하는 길이변환부; 변환된 고정길이 파형을 코드여기선형예측(code-excited linear prediction: CELP) 알고리즘으로 양자화하여 고정코드북 인덱스 및 게인과 적응코드북 게인을 출력하는 PCW 인코딩부; 고정코드북 인덱스 및 게인과 적응코드북 게인을 입력하여 CELP 디코딩을 수행함으로써 양자화된 고정길이의 잔차신호를 출력하는 PCW 디코딩부; 양자화된 고정길이의 잔차신호를 상기 PCW 인코딩부로 피드백하는 지연부; 및 선 스펙트럼 쌍(Line Spectrum Pair: LSP), 피치, 인덱스, 고정 코드북 및 적응 코드북 게인을 포함한 변수들을 패킷화하여 전송 비트스트림을 출력하는 패킷화부;를 포함하는 것을 특징으로 한다.
또한, 상기 음성 코딩 장치에서 상기 PCW 추출부는 전체 잔차 신호 중에서 이전 프레임 경계에서 하나의 피치주기 파형을 추출하고, 현재 프레임 경계에서는 피치만을 추출하며, 상기 PCW 얼라인부는 이전 프레임 경계에서 추출한 피치주기파형의 정보를 이용하여 현재 프레임에서 피치를 추출할 위치를 결정함으로써 상기 PCW 추출부에 의하여 추출된 피치주기 파형을 과거 피치주기 파형과 얼라인하는 것이 바람직하다.
대안적으로, 상기 음성 코딩 장치에서 상기 PCW 추출부는 전체 잔차 신호 중에서 이전 프레임 경계에서 하나의 피치주기 파형을 추출한 후, 현재 프레임 경계에서는 피치만을 추출하며, 이전 프레임 경계에서 추출한 피치주기파형의 정보를 이용하여 현재 프레임에서 피치를 추출할 위치를 결정하고, 상기 PCW 얼라인부는 현재 피치를 선형보간하면서 현재 프레임 경계에 걸치는 다른 하나의 피치주기파형의 시작위치를 결정하고, 상기 시작위치에 따라 현재 프레임 경계에서 피치주기파형을 추출하여도 무방하다.
또한, 상기 길이변환부는 이산푸리에 변환의 주파수 순번을 나타내는 소정의 변수 f가 고정길이 N의 절반 주파수에 도달하였는지를 판정하여 도달여부를 나타내는 제어신호를 출력하는 주파수 판정 수단; 상기 판정수단의 제어신호에 응답하여 f번째 주파수가 피치길이 T의 절반 주파수보다 작은 경우는 이미 구한 피치주기파형의 DFT 계수를 복사하거나, f번째 주파수가 피치길이 T의 절반 주파수보다 큰 경우는 0을 채워넣는 삽입 수단; 및 f를 하나 증가시키는 주파수 증가 수단;을 포함하는 것이 바람직하다.
또한, 상기 길이변환부는 상기 소정 변수 f를 0으로 설정하여 주파수 도메인에서의 주파수 순번을 0으로 초기화하는 주파수 초기화 수단을 더 포함하는 것이 바람직하다.
또한, 상기 길이변환부는 f의 주파수가 고정길이 N의 절반 주파수보다 큰지의 여부를 판정하여 제어신호를 출력하는 주파수 판정 수단; 및 상기 제어신호에응답하여 f의 주파수가 고정길이 N의 절반 주파수보다 큰 것으로 결정된 경우에는 정확히 가운데 주파수에 0을 채워 넣고, 주파수 도메인의 나머지 절반에 이미 구한 DFT 계수의 복소 공액을 채워 넣는 삽입 수단;을 더 포함하는 것이 바람직하다.
또한, 상기 과제를 이루기 위하여 본 발명의 타태양에 따른 음성 코딩 장치는 입력 음성에 대하여 선형예측코딩(Linear Predictive Coding: LPC) 분석을 수행함으로써 음성의 특성 파라미터인 피치와 선형예측코딩 계수 및 잔차신호를 출력하는 음성 특징 추출부; 상기 잔차신호와 상기 피치를 입력하여 하나의 피치주기파형(pitch cycle waveform: PCW)을 추출하는 PCW 추출부; 상기 피치주기파형을 과거 피치주기 파형과 얼라인하는 PCW 얼라인부; 현재 피치길이를 T, 과거 신호의 LPC 차수를 P라 할 때, 현재 메모리 T와 과거 메모리 P가 0인 신호와, 현재 메모리 T중 첫 포인트만 1이고 나머지는 0인 신호를 LPC 계수로 합성함으로써 길이 T인 임펄스 응답을 구하는 LPC 합성부; 길이 T인 임펄스 응답을 이산푸리에변환(Discrete Fourier Transform)하는 제1 DFT부; 이산푸리에변환된 임펄스 응답을 고정된 길이의 임펄스 응답으로 변환하는 길이변환부; 역푸리에변환을 수행하여 고정된 길이 N의 임펄스 응답 신호를 출력하는 제1 IDFT부; 상기 고정 길이의 잔차신호와 상기 제1 IDFT부에서 출력된 고정 임펄스 응답 신호를 콘벌루션하여 포만트 대역이 확장된 고정길이 N의 음성신호를 타겟신호로서 출력하는 제1 콘벌루션부; 양자화된 고정길이 잔차신호를 입력하여 지연시킴으로써 과거의 양자화된 고정길이 잔차신호를 출력하는 지연부; 상기 지연부로부터 출력된 과거의 양자화된 고정길이 잔차신호와 피치 정보를 입력하여 과거신호로서 제1 코드벡터를 출력하는 적응 코드북; 상기 제1 코드벡터에 적응코드북 게인을 곱하여 타겟신호와 가장 가까운 신호로서 제1 신호를 출력하는 제1 승산기; 저장하고 있는 제2 코드벡터를 출력하는 고정코드북; 상기 제2 코드벡터에 고정코드북 게인을 곱하여 타겟신호와 가장 가까운 신호로서 제2 신호를 출력하는 제2 승산기; 상기 제1 신호와 상기 제2 신호를 더하여 양자화된 최종 잔차신호를 출력하는 제1 가산기; 상기 양자화된 최종잔차신호와 상기 고정된 길이 N의 임펄스 응답 신호에 대하여 콘벌루션을 수행하는 제2 콘벌루션부; 상기 제2 콘벌루션부의 출력을 상기 타겟신호와 비교하여 비교신호를 출력하는 제2 가산기; 상기 비교신호를 입력하여 상기 적응코드북과 상기 고정코드북이 상기 타겟신호와 가장 차이가 적은 코드벡터를 출력할 수 있도록 상기 적응코드북과 상기 고정코드북을 제어하는 최소화 처리부; 및 선 스펙트럼 쌍(Line Spectrum Pair: LSP), 피치, 인덱스, 고정 코드북 및 적응 코드북 게인을 포함한 변수들을 패킷화하여 전송 비트스트림을 출력하는 패킷화부;를 포함하는 것을 특징으로 한다.
또한, 상기 다른 과제를 이루기 위하여 본 발명에 의한 음성 디코딩 장치는 선 스펙트럼 쌍(Line Spectrum Pair: LSP), 피치, 인덱스, 고정 코드북 및 적응 코드북 게인을 포함하는 변수들이 패킷화된 비트 스트림을 수신하여 디코딩하는 장치에 있어서, 피치, 인덱스, 고정 코드북 및 적응 코드북 게인을 입력하여 CELP 디코딩을 수행함으로써 양자화된 고정길이 잔차신호를 출력하는 PCW 디코딩부; 양자화된 고정길이 신호를 피치주기 파형으로 변환하는 길이역변환부; 양자화된 현재 프레임의 피치주기 파형을 과거 프레임의 피치주기 파형과 연결하는 PCW 연결부; 및연결된 잔차신호를 LPC 합성하여 합성음을 재생하는 LPC 합성부;를 포함하는 것을 특징으로 한다.
또한, 상기 음성 디코딩 장치는 양자화된 고정길이 잔차신호를 다음 프레임에 사용하기 위하여 지연시켜 상기 PCW 인코딩부로 피드백하는 제1 지연부; 및 양자화된 고정길이 잔차신호를 다음 프레임에 사용하기 위하여 지연시켜 상기 길이역변환부로 피드백하는 제2 지연부;를 더 포함하는 것이 바람직하다.
또한, 상기 음성 디코딩 장치는 LSP를 입력하여 LPC 계수로 변환함으로써 양자화된 LPC 계수를 출력하는 LSP-LPC 변환부를 더 포함하는 것이 바람직하다.
또한, 상기 길이역변환부는 f는 0에서부터 시작하지 않고 f=1에서부터 시작하도록 설정하는 초기주파수 설정 수단; 이미 구한 DFT 계수의 평균 크기를 계산하는 평균크기 계산수단; f가 피치길이 T의 절반 주파수에 도달하였는지를 판정하여 제1 제어신호를 출력하는 제1 주파수 판정 수단; 상기 제1 제어신호에 응답하여 f가 피치길이 T의 절반 주파수에 도달하였으면 평균크기를 계산하고 f=0로 설정하는 평균크기 계산수단; 위상값을 미리 저장하고 있는 위상값 저장수단; f번째 주파수가 고정길이 N의 절반 주파수보다 작은 지의 여부를 판정하여 제2 제어신호를 출력하는 제2 주파수 판정수단; 상기 제2 제어신호에 응답하여 f번째 주파수가 고정길이 N의 절반 주파수보다 작은 경우에는 이미 구한 고정길이 신호의 DFT 계수를 복사하는 DFT 계수 복사 수단; 그렇지 않은 경우는 이미 구한 평균 크기와 상기 위상값 저장수단으로부터 위상값을 읽어들여 DFT 계수를 발생시키는 DFT 계수 발생 수단; f를 하나 증가시키는 주파수 증가 수단; 및 f의 주파수가 피치길이 T의 절반주파수보다 큰지를 판정하여 그러한 경우에는 정확히 가운데 주파수는 0을 채워넣고, 나머지 절반에는 이미 구한 DFT 계수의 복소 공액을 채워넣음으로써 임의의 피치 길이를 가지는 현재 및 과거의 피치주기 파형을 출력하는 피치주기파형 출력 수단;을 포함하는 것이 바람직하다.
또한, 상기 PCW 연결부는 이전에 양자화한 피치주기파형을 공급하는 이전 피치주기파형 공급 수단; 현재 양자화한 피치주기파형을 공급하는 현재 피치주기파형 공급 수단; 이전에 양자화한 피치주기파형으로부터 얻은 과거 피치와 현재 양자화한 피치주기파형으로부터 얻은 현재 피치를 사용하여 이전에 양자화한 피치주기파형과 현재 양자화한 피치주기파형 사이에 몇개의 피치주기파형이 존재하는지 계산하는 피치주기파형 계산 수단; 및 경계부분에서 각 피치주기파형들을 선형보간 및 중첩부가 방식으로 접합함으로써 연결된 잔차신호를 합성하는 잔차신호 합성수단;을 포함하는 것이 바람직하다.
상기 또 다른 과제를 이루기 위하여 본 발명에 의한 음성 코덱 장치는 입력 음성에 대한 LPC 분석에 의해 생성된 잔차신호와 피치를 입력하여 한 피치주기파형을 추출하는 PCW 추출부; 상기 피치주기파형을 과거 피치주기 파형과 얼라인하는 PCW 얼라인부; 추출된 피치주기 신호를 고정길이 신호로 변환하는 길이변환부; 변환된 고정길이 신호를 CELP 알고리즘으로 양자화하여 고정코드북 인덱스 및 게인과 적응코드북 게인을 출력하는 PCW 인코딩부; 고정코드북 인덱스 및 게인과 적응코드북 게인을 입력하여 CELP 디코딩을 수행함으로써 양자화된 고정길이의 잔차신호를 출력하는 PCW 디코딩부; 피치, 인덱스, 고정 코드북 및 적응 코드북 게인을 입력하여 CELP 디코딩을 수행함으로써 양자화된 고정길이 잔차신호를 출력하는 PCW 디코딩부; 양자화된 고정길이 신호를 피치주기 파형으로 변환하는 길이역변환부; 양자화된 현재 프레임의 피치주기 파형을 과거 프레임의 피치주기 파형과 연결하는 PCW 연결부; 및 연결된 잔차신호를 LPC 합성하여 합성음을 재생하는 LPC 합성부;를 포함하는 것을 특징으로 한다.
상기 또 다른 과제를 이루기 위하여 본 발명에 의한 음성 코딩 방법은 (a) 음성신호로부터 제1 LPC 계수를 구하는 선형예측코딩(LPC) 계수 분석 단계; (b) 제1 LPC 계수를 변환하여 LSP를 출력하는 LPC-LSP 변환 단계; (c) LSP(Line Spectrum Pair)를 양자화하는 단계; (d) 양자화된 LSP를 제2 LPC 계수로 변환하는 단계; (e) 필터링된 음성신호와 제1 LPC 계수를 사용하여 피치 및 잔차를 추출하는 단계; (f) 과거 피치주기 파형으로부터 현재 프레임 경계에 해당하는 한 주기파형의 시작위치를 결정하는 단계; (g) 시작위치를 사용하여 현재 프레임 경계에서 피치 주기 파형을 추출하는 단계; (h) 추출한 피치 주기 파형을 고정길이 파형으로 변환하는 단계; 및 (i) 변환된 고정길이 파형을 CELP 알고리즘을 사용하여 양자화하는 단계;를 포함하는 것을 특징으로 한다.
상기 또 다른 과제를 이루기 위하여 본 발명에 의한 음성 디코딩 방법은 (a) 패킷화된 비트스트림을 수신하여 언패킷하는 단계; (b) 음성의 잔차신호에서 추출되고 얼라인된 피치주기 파형을 CELP 디코딩에 의하여 고정길이 파형으로 변환하고 양자화하는 단계; (c) 양자화된 고정길이 파형을 현재 프레임의 피치주기 파형으로 변환하는 길이역변환 단계; (d) 복원된 현재 프레임의 피치주기 파형을 과거 프레임의 피치주기 파형과 연결하여 합성 잔차신호를 출력하는 단계; 및 (e) 연결에 의하여 생성된 합성 잔차신호를 LPC 합성하여 합성음을 재생하는 단계;를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면들을 참조하여 본 발명에 따른 바람직한 실시예를 설명하기로 한다
도 1에는 본 발명에 의한 음성 코딩 장치에 적용될 수 있는 음성코딩 특징 추출부의 구조의 일예를 블록도로써 도시하였다. 이러한 음성코딩 특징 추출부는 종래 기술에서 사용되고 있는 것이다. 동작을 설명하면, 먼저, 입력음성 s(n)이 예를들어 140 Hz의 차단주파수(Cutoff Frequency )를 가지는 고역통과필터(102)에 입력되고, 상기 차단 주파수에 해당하는 고역통과필터링이 수행됨으로써 잡음이 제거된다. LPC(Linear Predictive Coding: 선형예측코딩) 분석부(104)는 잡음이 제거된 음성으로부터 LPC 계수를 추출하고, 이 LPC 계수 {}는 LPC-LSP 변환부(106)에 의하여 LSP (Line Spectrum Pair) {}로 변환한다. LSP 양자화부(108)는 변환된 LSP를 양자화하여 양자화된 LSP {}를 출력한다. 이 LSP 양자화부(108)에 관하여는 '스펙트럼 포락선 양자화기'라는 제목으로 국내에 출원된 특허출원 제98-37169호에 상세하게 개시되어 있으며 여기서는 더 이상 상세하게 설명하지 않는다. 양자화된 LSP{}는 LSP-LPC 변환부(110)에 의해 LPC 계수{}로 다시 변환되며, 이 LPC 계수{}는 LPC 합성 필터의 계수로 사용된다. 포만트 대역폭 확장부(112)에서는 잡음이 제거된 음성과 LPC 계수를 입력하여 포만트 부분을 상대적으로 덜 강조하도록대역폭을 넓혀준다. 피치 추출부(114)는 대역폭이 확장된 음성을 입력하여 피치(T)를 추출하고, 잔차추출부(116)는 대역폭이 확장된 음성과 LPC 계수 {}를 입력하여 잔차(residual) 신호를 구한다. 대역폭이 확장된 음성은 이후에 설명되어지는 바와 같이 CELP (Codebook Excited Linear Predictive Coding) 알고리즘의 타겟(target) 벡터로 사용된다.
도 2에는 본 발명의 실시예에 따른 음성 코딩 장치의 구조를 블록도로써 도시하였다. 도 2를 참조하면, 본 발명에 따른 음성 코딩 장치는 도 1을 참조하여 설명한 음성특징 추출부(1)와, 코딩부(2)를 구비한다. 코딩부(2)는 PCW 추출부(202), PCW 얼라인부(204), 길이변환(Dimension Conversion)부(206), PCW 인코딩부(208), PCW 디코딩부(210), 지연부(212), 및 비트 패킷화부(220)를 구비한다.
상기 음성 코딩 장치의 동작을 설명하면, 먼저, PCW 추출부(202)는 잔차 신호와 피치 T를 입력하여 피치 주기 파형(Pitch Cycle Waveform: PCW)을 추출하고, PCW 얼라인부(204)는 추출된 피치주기 파형을 과거 피치주기 파형과 얼라인한다. 도 3a에는 이러한 피치 주기 파형 추출부(202) 및 얼라인부(204)의 동작을 설명하기 위한 파형도를 도시하였으며, 도 3b에는 도 3a의 처리과정을 종래의 음성 코딩 장치에서 피치 사이클 파형 추출 및 얼라인(Pitch Cycle Waveform Extraction & Alignment) 처리 과정과 비교 설명하기 위한 파형도를 도시하였다.
도 3a를 참조하면, 본 발명에 따른 음성코딩장치의 PCW 추출부(202)와 PCW 얼라인부(204)는 전체 잔차 신호(302) 중에서, 이전 프레임 경계에서 하나의 피치주기 파형(304)을 추출한 후, 현재 프레임 경계에서는 단순히 피치만을 추출하고이전 프레임 경계에서 추출한 피치주기파형(304)의 정보를 이용하여 현재 프레임에서 피치를 추출할 위치를 결정한다. 즉, 과거 피치와 현재 피치를 선형보간하는 과정에서 현재 프레임 경계에 걸치는 다른 하나의 피치주기파형(310)의 시작위치를 알 수 있다. 또한, 이전 프레임 경계에서 추출한 피치주기파형(304)과의 선형 보간에 의하여 피치주기파형(306,308)을 만든다. 이러한 방법으로 피치주기파형(306,308)과 현재 프레임 경계에서 피치주기파형(310)을 추출하며, 이 피치주기파형은 과거의 피치주기파형과 별도의 얼라인 과정을 거치지 않아도 음질에 영향을 주지 않을만큼 성능이 우수하였다. 본 발명에 의한 음성 코딩장치내에서는 피치주기파형의 추출과 얼라인이 동시에 이루어지는 것으로 이해할 수 있다. 따라서, 도 2에서는 PCW 추출부(202)와 PCW 얼라인부(204)를 각각 분리하여 도시하였다.
도 3b를 참조하여 종래의 방법을 설명하면, 전체 잔차 신호(322)에서, 이전 프레임 경계에서는 하나의 피치주기파형(324)을 추출하고, 현재 프레임 경계에서는 다른 하나의 피치주기파형(326)을 추출한 후, 상기 피치주기파형(326)을 회전순환(rotate shift)시켜 피치주기파형(324)와 상관(correlation ) 값이 가장 큰 피치주기파형(328)을 얻는다. 이러한 방법은 회전순환 후보(rotate shift candidiate)가 한 피치길이이므로 계산량이 많고, 과거 파형과 현재 파형의 상관 정도가 낮은 부분에서는 얼라인 에러가 음질 저하에 큰 영향을 미친다.
다시 도 2를 참조하면, 얼라인된 피치주기파형의 길이는 프레임마다 가변하기 때문에 고정길이로 변환하여야 하며, 따라서, 길이변환부(206)는 얼라인된 한피치 길이의 피치주기 파형을 입력하여 고정된 길이의 피치주기 파형으로 변환한다.
도 4에는 길이 변환부(206)에서 사용되는 길이 변환 알고리즘을 흐름도로써 나타내었다. 도 4를 참조하면, 단계(402)에서는 f=0로 설정하여 주파수 도메인에서의 주파수 순번을 0으로 초기화한다. 다음에는 f가 고정길이 N의 절반 주파수에 도달하였는지를 판정(단계 404)한다. 이러한 판정단계(404)의 결과에 따라 f번째 주파수가 피치길이 T의 절반 주파수보다 작은 경우는 단계(406)를 수행하고, 그렇지 않은 경우는 단계(408)을 수행한다. 단계(406)는 이미 구한 피치길이 신호의 DFT 계수를 복사하는 작업을 수행한다. 단계(408)은 0을 채워넣는 작업을 수행한다. 단계(406,408)을 수행한 다음에는 f를 하나 증가(단계 410)시키고 단계(412)를 수행하여 f의 주파수가 고정길이 N의 절반 주파수보다 큰지를 체크한다. 단계(412)에서 f의 주파수가 고정길이 N의 절반 주파수보다 큰 것으로 결정된 경우에는 단계(414)를 수행한다. 단계(414)에서는 정확히 가운데 주파수에 0을 채워 넣는 작업을 수행한다. 다음에는 단계(416, 418, 420)를 수행함으로써 주파수 도메인의 나머지 절반에 단계(404~412)에서 구한 DFT 계수의 복소 공액(Complex Conjugate)을 채워 넣는다. 즉, 이러한 길이 변환 과정은 f가 0부터 고정길이 N의 절반 주파수가 될때까지 반복된다. f번째 주파수가 피치길이 T의 절반 주파수보다 작은 경우는 이미 구한 피치길이 신호의 DFT 계수를 복사하며, 그렇지 않은 경우는 단순히 0을 채워넣는다. 정확히 가운데 주파수는 0을 채워넣고, 나머지 절반에는 이미 구한 DFT 계수의 복소공액을 채워 넣음으로써 하나의 완성된 주파수 도메인상의 스펙트럼을 얻는다.
다시 도 2를 참조하면, 다음으로, PCW 인코딩부(208)는 CELP 인코딩을 수행함으로써 적응 코드북에서 사용될 게인과, 고정 코드북에서 사용될 인덱스와 게인을 출력하고, PCW 디코딩부(210)는 PCW 인코딩부(208)에서 출력된 게인, 인덱스및 게인을 입력하여 고정길이의 잔차신호를 출력한다. 이 고정길이의 잔차신호는 다음 프레임에 사용되기 위하여 지연부(212)로 입력된다. 이상의 과정에서 구한 변수들 {}, T,,,은 비트 패킷화부(220)에 입력되어 패킷화되어 비트스트림 Tx으로서 출력된다.
도 5는 도 2의 길이변환부와 PCW 인코딩부와 PCW 디코딩부 및 지연부를 구성하는 일예를 블록도로서 상세 도시하였다. 도 5를 참조하면, LPC 합성부(502)는 현재 피치길이를 T, 과거 신호의 LPC 차수를 P라 할 때, 현재 메모리 T 개와 과거 메모리 P 개를 0으로 초기화한 신호와, 현재 메모리 T 개중 첫 포인트만 1이고 나머지는 0인 여기 신호를 LPC 계수로 합성함으로써 길이 T인 임펄스 응답(Impulse Response)을 구한다. 제1 DFT부(504)는 길이 T인 임펄스 응답을 이산푸리에변환(Discrete Fourier Transform)한다. 길이변환부(506)는 이산푸리에변환된 임펄스 응답을 고정된 길이 N의 임펄스 응답으로 변환한다(도 4). 제1 IDFT부(508)는 역푸리에변환을 수행하여 고정된 길이 N의 임펄스 응답 신호를 출력한다. 제1 DFT부(504), 길이변환부(506), 및 제1 IDFT부(508)는 도 2에서의 길이변환부(206)에 해당한다.
다음으로, 제1 콘벌루션부(512)는 상기 고정 길이의 잔차신호와 상기 제1 IDFT부에서 출력된 고정 임펄스 응답 신호를 콘벌루션하여 포만트 대역이 확장된 고정길이 N의 음성신호를 최종 타겟 신호로서 출력한다.
한편, 지연부(524)는 양자화된 고정길이 잔차신호를 입력하여 지연시킴으로써 과거의 양자화된 고정길이 잔차신호를 출력한다.
적응 코드북(522)은 상기 지연부로부터 출력된 과거의 양자화된 고정길이 잔차신호와 피치 정보를 입력하여 과거신호로서 제1 코드벡터를 출력한다. 제1 승산기(526)는 상기 제1 코드벡터에 적응코드북 게인을 곱하여 타겟신호와 가장 가까운 신호로서 제1 신호를 출력한다.
고정코드북(528)은 저장하고 있는 제2 코드벡터를 출력하고, 제2 승산기(530)는 상기 제2 코드벡터에 고정코드북 게인을 곱하여 타겟신호와 가장 가까운 신호로서 제2 신호를 출력한다.
제1 가산기(531)는 상기 제1 신호와 상기 제2 신호를 더하여 양자화된 최종 잔차신호를 출력한다.
제2 콘벌루션부(532)는 상기 양자화된 최종잔차신호와 상기 고정된 길이 N의 임펄스 응답 신호에 대하여 콘벌루션을 수행하고, 제2 가산기(533)는 상기 제2 콘벌루션부의 출력을 상기 타겟신호와 비교하여 비교신호를 출력한다.
최소화 처리부(534)는 상기 비교신호를 입력하여 상기 적응코드북과 상기 고정코드북이 상기 타겟신호와 가장 차이가 적은 코드벡터를 출력할 수 있도록 상기적응코드북과 상기 고정코드북을 제어한다. 즉, 최소화 처리부(534)는 적응코드북과 고정코드북이 생성 가능한 코드벡터 후보중에서 타겟벡터와 가장 차이가 적은 코드벡터를 구하여 출력한다. 이러한 과정에서 구해진 양자화된 잔차신호는 고정된 길이의 피치주기파형이 된다.
비트 패킷화부(220)는 LSP(Line Spectrum Pair), 피치(T), 인덱스, 고정 코드북 및 적응 코드북 게인을 포함한 변수들을 패킷화하여 전송 비트스트림(Tx)을 출력한다. 이와 같은 전송 비트 스트림(Tx)은 이하에서 설명되어질 본 발명에 의한 음성 디코딩 장치에서 디코딩된다.
도 6에는 본 발명의 실시예에 의한 음성 디코딩 장치의 구조를 블록도로써 도시하였다. 도 6을 참조하면, 본 발명에 따른 음성 디코딩장치는 비트언패킷화부(602), PCW 디코딩부(604), 길이역변환부(608), PCW 연결부(612), 및 LPC 합성부(616)를 구비한다. 또한, 상기 음성 디코딩 장치는 지연부(606,610)와 LSP-LPC 변환부(614)를 구비한다.
상기 음성 디코딩 장치의 동작을 설명하면, 비트언패킷화부(602)는 수신된 비트스트림(Rx)을 언패킷하여 디코딩을 위한 변수들인 양자화된 LSP 계수, 피치(T), 적응코드북 게인, 고정코드북 인덱스, 및 고정코드북 게인을 출력한다. 본 실시예에서는 양자화된 선스펙트럼쌍(Line Spectrum Pair: LSP)을 {}로 나타내었다.
PCW 인코딩부(604)는 당업자에게 알려져 있는 CELP 디코딩 동작을 수행하며, 피치, 인덱스, 고정 코드북 및 적응 코드북 게인을 입력하여 PCW 인코딩을 수행함으로써 양자화된 고정길이 잔차신호를 출력한다. 양자화된 고정길이 잔차신호는 다음 프레임에 사용되기 위해서 지연부(606)에 입력된다. PCW 인코딩부(604)로부터 출력된 양자화된 고정길이 잔차신호는 고정 길이이므로 길이 역변환부(608)에 입력되어 임의의 피치길이로 역변환되며, 동시에 지연부(610)에 의하여 과거신호로서 저장된다.
도 7에는 길이역변환부(308)에서 사용되는 길이 역변환(Inverse Dimension Conversion) 알고리즘을 흐름도로써 도시하였다. 도 7을 참조하여 길이역변환 과정을 설명하면, 먼저, 평균 크기 계산과정에서 IDFT의 직류(DC) 성분을 포함시키지 않기 위해서 f는 0에서부터 시작하지 않고 f=1에서부터 시작하도록 설정한다(단계 702). 단계(702, 704, 706, 708, 710)에서는 이미 구한 DFT 계수의 평균 크기(Magnitude)를 계산하며, 이때, 단계(708)에서는 f가 피치길이 T의 절반 주파수이 되었는지를 판정하여 그 이전까지 단계(706)을 반복한다. f가 피치길이 T의 절반 주파수에 도달하였으면, 평균크기를 계산한다(단계 710). 단계(710)에서는 또한 f=1로 설정한다. 다음에는 단계(712,722)에서 0번째 주파수에서부터 f가 피치길이 T의 절반 주파수에 도달하였는지를 판정한다. f번째 주파수가 고정길이 N의 절반 주파수보다 작은 경우는 이미 구한 고정길이 신호의 DFT 계수를 복사(단계 744)하며, 그렇지 않은 경우는 이미 구한 평균 크기와 저장하고 있는 위상값을 읽어들여(단계 718), DFT 계수를 발생시킨다(단계 716). 단계(720)에서는 f를 하나 증가시키고, 단계(722)에서 f의 주파수가 피치길이 T의 절반 주파수보다 큰지를 판정하여 그러한 경우에는 정확히 가운데 주파수는 0을 채워넣고(단계 724), 나머지 절반에는 이미 구한 DFT 계수의 복소 공액을 채워넣는다(단계 726). 이로써 길이 역변환이 종료됨으로써, 임의의 피치 길이를 가지는 현재 및 과거의 피치주기 파형이 복원된다.
다시 도 6을 참조하면, PCW 연결(Concatenation)부(612)는 임의의 피치 길이를 가지는 현재 및 과거 프레임의 피치주기파형과, 피치 T를 입력하여 양자화된 현재 프레임의 피치주기 파형을 과거 프레임의 피치주기 파형과 연결함으로써 연결된 한 프레임의 잔차신호를 출력한다.
도 8에는 피치 주기 파형 연결(Pitch Cycle Waveform Concatenation)부의 동작을 설명하기 위한 파형도를 도시하였다. 도 8을 참조하면, 이전에 양자화한 피치주기파형이 참조번호 802와 같고, 현재 양자화한 피치주기파형이 804와 같다면 과거와 현재 피치를 이용하여 피치주기파형 802와 피치주기파형 804 사이에 몇개의 피치주기파형이 존재하는지 계산할 수 있다. 예를들어, 2개의 피치주기파형이 가능하다면, 피치주기파형 802와 피치주기파형 804를 선형보간하여 피치주기파형 806과 피치주기파형 808 형태로 구현할 수 있으며, 각 피치주기파형들을 경계부분에서만 중첩부가(Overlap-add) 방식으로 접합함으로써 810과 같은 연결된 잔차신호를 합성해낼 수 있다. 즉, 과거와 현재 피치를 알고 있다면 이전에 양자화한 피치주기파형과 현재 양자화한 피치주기파형 사이에 몇개의 피치주기파형이 존재하는지 계산할 수 있다.
다시 도 6을 참조하면, LSP-LPC 변환부(614)는 LSP 계수를 입력하여 LPC 계수로 변환하고, LPC 합성부(616)는 PCW 연결부(612)에서 출력되는 연결된 잔차신호를 LSP-LPC 변환부(614)에서 출력된 LPC 계수를 사용하여 LPC 합성함으로써 양자화된 합성신호를 출력한다.
상기와 같은 음성 코딩 장치와 음성 디코딩 장치의 코딩/디코딩 특성을 평가한 결과를 이하에서 기술한다. 평가 조건을 설명하면, 테스트 데이타로서는 NATC 데이타베이스의 영어 음성(ITU-T, Study Group 16, Question Number 21에서 웹사이트상에 업로드한 테스트 음성)을 사용하였다. 다음과 같은 비트 테이블에 근거하여 5.6kbps와 4kbps로 설계하였다.
변수 부프레임 #1 부프레임 #2 프레임 변수 부프레임 #1 부프레임 #2 프레임
{ i} 20 { i} 20
T 3 7 10 T 3 7 10
ga 4 4 8 ga 4 4 8
if 32 32 64 if 16 16 32
gf 5 5 10 gf 5 5 10
합계 112 합계 80
비트율 112/20 ms = 5.6 kbps 비트율 80/20 ms = 4 kbps
코딩 및 디코딩에 사용된 테스트 음성 신호는 8000 Hz로 샘플링한 다음, 20ms를 하나의 프레임 단위으로 설정하였고, 하나의 프레임은 다시 10ms 단위의 부프레임으로 나누었다. 또한, LSP 계수는 일반적인 종래기술의 한 방법에 따라 양자화하여 { i}로 표시하였고, 피치도 또한 종래기술의 한 방법에 따라 추출하여 T로 나타내었으며, 적응 코드북은 피치 T와 게인로 모델링하고, 고정 코드북은 인덱스와 게인로 모델링하였다. 이와 같은 조건에서 음질을 비교 청취한 결과,5.6 kbps 코더는 8 kbps 국제 표준 코더인 G.729와 거의 동일한 음질을 보였으며, 특히 고주파 재생 능력이 매우 우수하게 나타났다. 4kbps 코더는 ITU-T, 스터디그룹(Study Group) 16, 안건번호(Question Number) 21에 국제표준안으로 제안하고 있는 코더와 동등한 수준의 음질을 재생할 수 있었다.
도 9a와 도 9b에는 상기와 같은 음성 코딩장치를 구현하기 위한 본 발명의 실시예에 따른 음성 코딩 방법의 주요단계들을 흐름도로써 도시하였다. 도 9a와 도 9b를 참조하여 본 발명에 의한 음성 코딩 방법을 설명하면, 먼저, 입력된 음성신호로부터 LPC 계수를 구하는 LPC 분석 단계를 수행(단계 902)함으로써 제1 LPC 계수{}를 구한다. 이러한 분석단계(902)에서 사용될 입력 음성 s(n)은 예를들어 140 Hz의 차단주파수(Cutoff Frequency )를 가지는 고역통과필터수단에 의하여 필터링을 수행함으로써 잡음이 제거된 음성 신호인 것이 바람직하다. 다음에는 제1 LPC 계수{}를 LSP{}로 변환한다(단계 903). 다음에는 변환된 LSP{}를 양자화(단계 904)하고, 양자화된 LSP {}를 LPC 계수로 변환(단계 905)함으로써 제2 LPC 계수{}를 구한다. 다음에는, 잡음이 제거된 음성과 제1 LPC 계수{}를 입력하여 포만트 부분을 상대적으로 덜 강조하도록 포만트 대역폭 확장을 수행함으로써 대역폭이 확장된 음성을 생성하고, 대역폭이 확장된 음성으로부터 피치(T)를 추출하고, 대역폭이 확장된 음성과 LPC 계수 {}로부터 잔차(residual) 신호를 구한다(단계 906). 다음에는 도 3a를 참조하여 설명한 바와 같이 잔차신호의 이전 프레임 경계에서 추출한 하나의 피치주기파형을 이용해서 현재 프레임 경계에 해당하는 한 주기파형의 시작위치를 결정하며(단계 924), 그 시작위치를 사용하여 현재 프레임 경계에서 피치 주기 파형을 추출한다(단계 926). 다음에는 도 4를 참조하여 설명한 방법으로 단계(926)에서 추출된 피치 주기 파형을 고정길이 파형으로 변환(단계 94)한다. 다음에는, 변환된 고정길이 파형을 CELP 알고리즘을 사용하여 양자화한다(단계 96).
다음에는 CELP 디코딩으로써 양자화된 고정길이파형을 구하고, 현재 프레임의 피치주기파형으로 변환한 다음, 지연시켜 과거프레임의 피치주기 파형을 얻는다(단계 97). 이러한 피치주기파형은 CELP 알고리즘에 사용된다.
마지막으로 LSP(Line Spectrum Pair){}, 피치 T, 고정코드북 인덱스, 고정 코드북 및 적응 코드북 게인(,)을 포함한 변수들을 패킷화하여 비트스트림(Tx)을 송신한다(단계 98).
도 10에는 상기와 같은 음성 디코딩장치를 구현하기 위한 본 발명의 실시예에 따른 음성 디코딩 방법의 주요단계들을 흐름도로써 도시하였다. 도 10을 참조하여 본 발명에 의한 음성 디코딩 방법을 설명하면, 먼저, 패킷화된 비트스트림을 수신(단계 1002)하여 언패킷(단계 1004)함으로써, LSP(Line Spectrum Pair){}, 피치 T, 고정코드북 인덱스, 고정 코드북 및 적응 코드북 게인(,)을 포함한 변수들을 추출한다. 다음에는 음성의 잔차신호에서 추출되고 얼라인된 피치주기 파형을 CELP 디코딩에 의하여 고정길이 파형으로 변환한 다음, 양자화를 수행한다(단계 1006). 양자화된 고정길이 파형은 도 7을 참조하여 설명한 방법으로 현재 프레임의 피치주기 파형으로 역변환한다(단계 1008). 다음에는 역변환에 의하여 복원된 현재 프레임의 피치주기 파형을 도 8을 참조하여 설명한 방법으로 과거 프레임의 피치주기 파형과 연결함으로써 합성 잔차신호를 생성한다(단계 1010). 마지막으로, 단계(1012)에서는 연결에 의하여 생성된 합성 잔차신호를 LPC 합성하여 양자화된 합성음을 구함으로써 음성 디코딩이 종료된다.
이러한 본 발명에 따른 음성 코딩 장치는 당업자에 의하여 이해되어지는 바와 같이 컴퓨터에서 실행될 수 있는 프로그램으로 작성하여 구현하는 것도 가능하다. 그리고, 컴퓨터에서 사용되는 매체로부터 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 매체는 플로피 디스크나 하드 디스크와 같은 자기기록매체, 시디롬(CD-ROM)이나 디비디(DVD)와 같은 광기록매체, 및 인터넷을 통한 전송과 같은 캐리어 웨이브와 같은 저장매체를 포함한다. 또한, 이러한 기능적 프로그램, 코드 및 코드 세그멘트들은 본 발명이 속하는 기술분야의 프로그래머에 의해 용이하게 추론될 수 있다.
또한, 이러한 본 발명에 따른 음성 코딩 장치는 당업자에 의하여 이해되어지는 바와 같이 디지털신호처리(DSP: digital signal processing)용 집적회로(IC) 칩으로 구현할 수 있다.
본 발명의 실시예에 따른 음성 코딩/디코딩 장치 및 그 방법에서는, 음성 데이터를 8000 Hz로 샘플링하고 20ms 단위를 하나의 프레임으로 설정하며, 하나의 프레임은 다시 10ms 단위의 부프레임으로 나누었고, LSP 계수는 종래기술의 한 방법에 따라 양자화하여 { i}로 표시하였고, 피치도 또한 종래 기술의 한 방법에 따라 추출하여 T로 나타내었으며, 적응 코드북은 피치 T와 게인로 모델링하고, 고정 코드북은 인덱스와 게인로 모델링하는 것으로 기술하였으나, 이는 다만 설명을 위한 것이며, 당업자에 의하여 이해되는 바와 같이 그 응용분야에 따라 적절한 다른 시간간격으로 설정할 수 있고, 적응 코드북 및 고정 코드북을 알려진 다른 방법에 의하여 모델링하도록 변형하는 것이 가능하다. 따라서, 이러한 실시예들은 첨부된 청구항들에 의하여 정의되는 본 발명의 범위를 한정하지 않는다.
상술한 바와 같이 본 발명에 따른 음성 코딩 장치는 5.6 kbps 코더로 구현한 경우 8 kbps 국제 표준 코더인 G.729와 거의 동일한 음질을 나타내고, 특히 고주파수 재생 능력이 우수하다. 또한, 4 kbps 코더로 구현한 경우 ITU-T, Study Group 16, Question Number 21에 국제표준안으로 제안하고 있는 코더와 동일한 음질을 재생할 수 있다. 더욱이, 5.6 kbps 코더로 구현한 경우 음성 저장 매체 및 TAD(Tapeless Answering Device) 등에 적용이 가능하며, 4 kbps 코더로 구현하면 기존의 8kbps 음성 휴대전화기를 대체하는 것이 가능할 수 있고 기타 IMT-2000, 인터넷폰 등 다양한 응용 분야에 적용될 수 있다.

Claims (22)

  1. 입력 음성을 저전송률의 비트스트림으로 코딩하는 장치에 있어서,
    입력 음성에 대하여 선형예측코딩(Linear Predictive Coding: LPC) 분석을 수행함으로써 음성의 특성 파라미터인 피치와 선형예측코딩 계수 및 잔차신호를 출력하는 음성 특징 추출부;
    상기 잔차신호와 상기 피치를 입력하여 하나의 피치주기파형(pitch cycle waveform: PCW)을 추출하는 PCW 추출부;
    상기 피치주기파형을 과거 피치주기 파형과 얼라인하는 PCW 얼라인부;
    추출된 피치주기파형을 고정된 길이의 파형으로 변환하는 길이변환부;
    변환된 고정길이 파형을 코드여기선형예측(code-excited linear prediction: CELP) 알고리즘으로 양자화하여 고정코드북 인덱스 및 게인과 적응코드북 게인을 출력하는 PCW 인코딩부;
    고정코드북 인덱스 및 게인과 적응코드북 게인을 입력하여 CELP 디코딩을 수행함으로써 양자화된 고정길이의 잔차신호를 출력하는 PCW 디코딩부;
    양자화된 고정길이의 잔차신호를 상기 PCW 인코딩부로 피드백하는 지연부; 및
    선 스펙트럼 쌍(Line Spectrum Pair: LSP), 피치, 인덱스, 고정 코드북 및 적응 코드북 게인을 포함한 변수들을 패킷화하여 전송 비트스트림을 출력하는 패킷화부;를 포함하는 것을 특징으로 하는 음성 코딩 장치.
  2. 제1항에 있어서,
    상기 PCW 추출부는 전체 잔차 신호 중에서 이전 프레임 경계에서 하나의 피치주기 파형을 추출하고, 현재 프레임 경계에서는 피치만을 추출하며,
    상기 PCW 얼라인부는 이전 프레임 경계에서 추출한 피치주기파형의 정보를 이용하여 현재 프레임에서 피치를 추출할 위치를 결정함으로써 상기 PCW 추출부에 의하여 추출된 피치주기 파형을 과거 피치주기 파형과 얼라인하는 것을 특징으로 하는 음성 코딩 장치.
  3. 제1항 또는 제2항에 있어서,
    상기 PCW 추출부는 전체 잔차 신호 중에서 이전 프레임 경계에서 하나의 피치주기 파형을 추출한 후, 현재 프레임 경계에서는 피치만을 추출하며, 이전 프레임 경계에서 추출한 피치주기파형의 정보를 이용하여 현재 프레임에서 피치를 추출할 위치를 결정하고,
    상기 PCW 얼라인부는 현재 피치를 선형보간하면서 현재 프레임 경계에 걸치는 다른 하나의 피치주기파형의 시작위치를 결정하고, 상기 시작위치에 따라 현재 프레임 경계에서 피치주기파형을 추출하는 것을 특징으로 하는 음성 코딩 장치.
  4. 제1항에 있어서, 상기 길이변환부는,
    이산푸리에 변환의 주파수 순번을 나타내는 소정의 변수 f가 고정길이 N의 절반 주파수에 도달하였는지를 판정하여 도달여부를 나타내는 제어신호를 출력하는 주파수 판정 수단;
    상기 판정수단의 제어신호에 응답하여 f번째 주파수가 피치길이 T의 절반 주파수보다 작은 경우는 이미 구한 피치주기파형의 DFT 계수를 복사하거나, f번째 주파수가 피치길이 T의 절반 주파수보다 큰 경우는 0을 채워넣는 삽입 수단; 및
    f를 하나 증가시키는 주파수 증가 수단;을 포함하는 것을 특징으로 하는 음성 코딩 장치.
  5. 제4항에 있어서, 상기 길이변환부는 상기 소정 변수 f를 0으로 설정하여 주파수 도메인에서의 주파수 순번을 0으로 초기화하는 주파수 초기화 수단을 더 포함하는 것을 특징으로 하는 음성 코딩 장치.
  6. 제4항에 있어서, 상기 길이변환부는,
    f의 주파수가 고정길이 N의 절반 주파수보다 큰지의 여부를 판정하여 제어신호를 출력하는 주파수 판정 수단; 및
    상기 제어신호에 응답하여 f의 주파수가 고정길이 N의 절반 주파수보다 큰 것으로 결정된 경우에는 정확히 가운데 주파수에 0을 채워 넣고, 주파수 도메인의 나머지 절반에 이미 구한 DFT 계수의 복소 공액을 채워 넣는 삽입 수단;을 더 포함하는 것을 특징으로 하는 음성 코딩 장치.
  7. 입력 음성을 저전송률의 비트스트림으로 코딩하는 장치에 있어서,
    입력 음성에 대하여 선형예측코딩(Linear Predictive Coding: LPC) 분석을 수행함으로써 음성의 특성 파라미터인 피치와 선형예측코딩 계수 및 잔차신호를 출력하는 음성 특징 추출부;
    상기 잔차신호와 상기 피치를 입력하여 하나의 피치주기파형(pitch cycle waveform: PCW)을 추출하는 PCW 추출부;
    상기 피치주기파형을 과거 피치주기 파형과 얼라인하는 PCW 얼라인부;
    현재 피치길이를 T, 과거 신호의 LPC 차수를 P라 할 때, 현재 메모리 T와 과거 메모리 P가 0인 신호와, 현재 메모리 T중 첫 포인트만 1이고 나머지는 0인 신호를 LPC 계수로 합성함으로써 길이 T인 임펄스 응답을 구하는 LPC 합성부;
    길이 T인 임펄스 응답을 이산푸리에변환(Discrete Fourier Transform)하는 제1 DFT부;
    이산푸리에변환된 임펄스 응답을 고정된 길이의 임펄스 응답으로 변환하는 길이변환부;
    역푸리에변환을 수행하여 고정된 길이 N의 임펄스 응답 신호를 출력하는 제1 IDFT부;
    상기 고정 길이의 잔차신호와 상기 제1 IDFT부에서 출력된 고정 임펄스 응답 신호를 콘벌루션하여 포만트 대역이 확장된 고정길이 N의 음성신호를 타겟신호로서 출력하는 제1 콘벌루션부;
    양자화된 고정길이 잔차신호를 입력하여 지연시킴으로써 과거의 양자화된 고정길이 잔차신호를 출력하는 지연부;
    상기 지연부로부터 출력된 과거의 양자화된 고정길이 잔차신호와 피치 정보를 입력하여 과거신호로서 제1 코드벡터를 출력하는 적응 코드북;
    상기 제1 코드벡터에 적응코드북 게인을 곱하여 타겟신호와 가장 가까운 신호로서 제1 신호를 출력하는 제1 승산기;
    저장하고 있는 제2 코드벡터를 출력하는 고정코드북;
    상기 제2 코드벡터에 고정코드북 게인을 곱하여 타겟신호와 가장 가까운 신호로서 제2 신호를 출력하는 제2 승산기;
    상기 제1 신호와 상기 제2 신호를 더하여 양자화된 최종 잔차신호를 출력하는 제1 가산기;
    상기 양자화된 최종잔차신호와 상기 고정된 길이 N의 임펄스 응답 신호에 대하여 콘벌루션을 수행하는 제2 콘벌루션부;
    상기 제2 콘벌루션부의 출력을 상기 타겟신호와 비교하여 비교신호를 출력하는 제2 가산기;
    상기 비교신호를 입력하여 상기 적응코드북과 상기 고정코드북이 상기 타겟신호와 가장 차이가 적은 코드벡터를 출력할 수 있도록 상기 적응코드북과 상기 고정코드북을 제어하는 최소화 처리부; 및
    선 스펙트럼 쌍(Line Spectrum Pair: LSP), 피치, 인덱스, 고정 코드북 및 적응 코드북 게인을 포함한 변수들을 패킷화하여 전송 비트스트림을 출력하는 패킷화부;를 포함하는 것을 특징으로 하는 음성 코딩 장치.
  8. LSP(Line Spectrum Pair), 피치, 인덱스, 고정 코드북 및 적응 코드북 게인을 포함하는 변수들이 패킷화된 비트 스트림을 수신하여 디코딩하는 장치에 있어서,
    상기 수신 비트스트림을 입력하여 언패킷화함으로써 LSP(Line Spectrum Pair), 피치, 인덱스, 고정 코드북 및 적응 코드북 게인을 포함하는 변수들을 출력하는 언패킷화부;
    피치, 인덱스, 고정 코드북 및 적응 코드북 게인을 입력하여 CELP 디코딩을 수행함으로써 양자화된 고정길이 잔차신호를 출력하는 PCW 디코딩부;
    상기 양자화된 고정길이 신호를 피치주기 파형으로 변환하는 길이역변환부;
    상기 양자화된 현재 프레임의 피치주기 파형을 과거 프레임의 피치주기 파형과 연결하는 PCW 연결부; 및
    연결된 잔차신호를 LPC 합성하여 합성음을 재생하는 LPC 합성부;를 포함하는 것을 특징으로 하는 음성 디코딩 장치.
  9. 제8항에 있어서,
    양자화된 고정길이 잔차신호를 다음 프레임에 사용하기 위하여 지연시켜 상기 PCW 인코딩부로 피드백하는 제1 지연부; 및
    양자화된 고정길이 잔차신호를 다음 프레임에 사용하기 위하여 지연시켜 상기 길이역변환부로 피드백하는 제2 지연부;를 더 포함하는 것을 특징으로 하는 음성 디코딩 장치.
  10. 제8항 또는 제9항에 있어서, LSP를 입력하여 LPC 계수로 변환함으로써 양자화된 LPC 계수를 출력하는 LSP-LPC 변환부를 더 포함하는 것을 특징으로 하는 음성 디코딩 장치.
  11. 제8항에 있어서, 상기 길이역변환부는,
    f는 0에서부터 시작하지 않고 f=1에서부터 시작하도록 설정하는 초기주파수 설정 수단;
    이미 구한 DFT 계수의 평균 크기를 계산하는 평균크기 계산수단;
    f가 피치길이 T의 절반 주파수에 도달하였는지를 판정하여 제1 제어신호를 출력하는 제1 주파수 판정 수단;
    상기 제1 제어신호에 응답하여 f가 피치길이 T의 절반 주파수에 도달하였으면 평균크기를 계산하고 f=0로 설정하는 평균크기 계산수단;
    위상값을 미리 저장하고 있는 위상값 저장수단;
    f번째 주파수가 고정길이 N의 절반 주파수보다 작은 지의 여부를 판정하여 제2 제어신호를 출력하는 제2 주파수 판정수단;
    상기 제2 제어신호에 응답하여 f번째 주파수가 고정길이 N의 절반 주파수보다 작은 경우에는 이미 구한 고정길이 신호의 DFT 계수를 복사하는 DFT 계수 복사 수단;
    그렇지 않은 경우는 이미 구한 평균 크기와 상기 위상값 저장수단으로부터 위상값을 읽어들여 DFT 계수를 발생시키는 DFT 계수 발생 수단;
    f를 하나 증가시키는 주파수 증가 수단; 및
    f의 주파수가 피치길이 T의 절반 주파수보다 큰지를 판정하여 그러한 경우에는 정확히 가운데 주파수는 0을 채워넣고, 나머지 절반에는 이미 구한 DFT 계수의 복소 공액을 채워넣음으로써 임의의 피치 길이를 가지는 현재 및 과거의 피치주기 파형을 출력하는 피치주기파형 출력 수단;을 포함하는 것을 특징으로 하는 음성 디코딩 장치.
  12. 제8항에 있어서, 상기 PCW 연결부는,
    이전에 양자화한 피치주기파형을 공급하는 이전 피치주기파형 공급 수단;
    현재 양자화한 피치주기파형을 공급하는 현재 피치주기파형 공급 수단;
    이전에 양자화한 피치주기파형으로부터 얻은 과거 피치와 현재 양자화한 피치주기파형으로부터 얻은 현재 피치를 사용하여 이전에 양자화한 피치주기파형과 현재 양자화한 피치주기파형 사이에 몇개의 피치주기파형이 존재하는지 계산하는 피치주기파형 계산 수단; 및
    경계부분에서 각 피치주기파형들을 선형보간 및 중첩부가 방식으로 접합함으로써 연결된 잔차신호를 합성하는 잔차신호 합성수단;을 포함하는 것을 특징으로 하는 음성 디코딩 장치.
  13. 음성의 특성 파라미터인 피치와 LPC(Linear Predictive Coding) 계수 및 잔차신호를 출력하는 음성 특징 추출부를 구비하여 음성 코딩 및 디코딩을 수행하는 음성 코덱 장치에 있어서,
    입력 음성에 대한 LPC 분석에 의해 생성된 잔차신호와 피치를 입력하여 한 피치주기파형을 추출하는 PCW 추출부;
    상기 피치주기파형을 과거 피치주기 파형과 얼라인하는 PCW 얼라인부;
    추출된 피치주기 신호를 고정길이 신호로 변환하는 길이변환부;
    변환된 고정길이 신호를 CELP 알고리즘으로 양자화하여 고정코드북 인덱스 및 게인과 적응코드북 게인을 출력하는 PCW 인코딩부; 및
    고정코드북 인덱스 및 게인과 적응코드북 게인을 입력하여 CELP 디코딩을 수행함으로써 양자화된 고정길이의 잔차신호를 출력하는 PCW 디코딩부;
    피치, 인덱스, 고정 코드북 및 적응 코드북 게인을 입력하여 CELP 디코딩을 수행함으로써 양자화된 고정길이 잔차신호를 출력하는 PCW 디코딩부;
    양자화된 고정길이 신호를 피치주기 파형으로 변환하는 길이역변환부;
    양자화된 현재 프레임의 피치주기 파형을 과거 프레임의 피치주기 파형과 연결하는 PCW 연결부; 및
    연결된 잔차신호를 LPC 합성하여 합성음을 재생하는 LPC 합성부;를 포함하는 것을 특징으로 하는 음성 코덱 장치.
  14. 음성을 코딩하는 방법에 있어서,
    (a) 음성신호로부터 제1 LPC 계수를 구하는 선형예측코딩(LPC) 계수 분석 단계;
    (b) 제1 LPC 계수를 변환하여 LSP를 출력하는 LPC-LSP 변환 단계;
    (c) LSP(Line Spectrum Pair)를 양자화하는 단계;
    (d) 양자화된 LSP를 제2 LPC 계수로 변환하는 단계;
    (e) 필터링된 음성신호와 제1 LPC 계수를 사용하여 피치 및 잔차를 추출하는 단계;
    (f) 과거 피치주기 파형으로부터 현재 프레임 경계에 해당하는 한 주기파형의 시작위치를 결정하는 단계;
    (g) 시작위치를 사용하여 현재 프레임 경계에서 피치 주기 파형을 추출하는 단계;
    (h) 추출한 피치 주기 파형을 고정길이 파형으로 변환하는 단계; 및
    (i) 변환된 고정길이 파형을 CELP 알고리즘을 사용하여 양자화하는 단계;를 포함하는 것을 특징으로 하는 음성 코딩 방법.
  15. 제14항에 있어서, 상기 (a) 단계 이전에 음성신호를 입력하여 고역통과 필터링을 수행하는 단계를 더 포함하고, 상기 (a) 단계는 필터링된 음성신호로부터 제1 LPC 계수를 구하는 단계이며, 변환된 고정길이 파형에 대한 양자화 단계 다음에는 LSP, 피치, 인덱스, 고정 코드북 및 적응 코드북 게인을 포함한 변수들을 패킷화하는 단계;를 더 포함하는 것을 특징으로 하는 음성 코딩 방법.
  16. LSP(Line Spectrum Pair), 피치, 인덱스, 고정 코드북 및 적응 코드북 게인을 포함한 변수들이 패킷화된 비트 스트림을 입력하여 음성을 디코딩하는 방법에있어서,
    (a) 패킷화된 비트스트림을 수신하여 언패킷하는 단계;
    (b) 음성의 잔차신호에서 추출되고 얼라인된 피치주기 파형을 CELP 디코딩에 의하여 고정길이 파형으로 변환하고 양자화하는 단계;
    (c) 양자화된 고정길이 파형을 현재 프레임의 피치주기 파형으로 변환하는 길이역변환 단계;
    (d) 복원된 현재 프레임의 피치주기 파형을 과거 프레임의 피치주기 파형과 연결하여 합성 잔차신호를 출력하는 단계; 및
    (e) 연결에 의하여 생성된 합성 잔차신호를 LPC 합성하여 합성음을 재생하는 단계;를 포함하는 것을 특징으로 하는 음성 디코딩 방법.
  17. 제16항에 있어서, 상기 (c) 단계는,
    (c-1) DFT 계수의 평균 크기를 계산하는 단계;
    (c-2) 소정의 계수 f를 정의하고 f번째 주파수가 고정길이 N의 절반 주파수보다 작은지의 여부를 판정하는 단계;
    (c-3) 상기 (c-2) 단계에서 f번째 주파수가 고정길이 N의 절반 주파수보다 작다고 결정된 부분에는 이미 구한 고정길이 신호의 DFT 계수를 복사하는 단계;
    (c-4) 상기 (c-2) 단계에서 f번째 주파수가 고정길이 N의 절반 주파수를 초과하는 부분에는 이미 구한 평균 크기와 저장하고 있는 위상값을 사용하여 DFT 계수를 생성하는 단계;
    (c-5) 정확히 가운데 주파수에는 0을 채워 넣는 단계; 및
    (c-6) 나머지 절반에는 구한 DFT 계수의 복소 공액값을 채워넣는 단계;를 포함하는 것을 특징으로 하는 음성 디코딩 방법.
  18. 제17항에 있어서, 상기 (c-2) 단계 이전에 상기 소정의 계수 f를 1로 설정하는 단계;를 더 포함하는 것을 특징으로 하는 음성 디코딩 방법.
  19. 제17항에 있어서, 상기 (c-2) 단계 이전에 DFT 계수의 평균 크기의 합을 0으로 설정하는 단계;를 더 포함하는 것을 특징으로 하는 음성 디코딩 방법.
  20. 제17항에 있어서, 상기 (c-1) 단계는,
    (c-1-1 ) 각 주파수별 크기의 합을 구하고 f를 1 증가 시키는 제1 단계;
    (c-1-2 ) 이산푸리에변환의 주파수 순번을 표시하는 소정 계수 f가 피치길이 T의 절반 주파수가 되었는지를 판별하는 단계; 및
    (c-1-3 ) 상기 (c-1-2 ) 단계에서 f가 피치길이 T의 절반 주파수에 도달하였으면 DFT 계수의 평균 크기를 계산하고 그렇지 않은 경우에는 제1 단계로 분기시키는 단계;를 포함하는 것을 특징으로 하는 음성 디코딩 방법.
  21. 제17항에 있어서, 상기 (c-3) 및 (c-4) 단계는,
    (c-3-1) f가 피치길이 T의 절반 주파수인지를 판별하는 단계;
    (c-3-2) 상기 (c-3-1) 단계에서 f번째 주파수가 고정길이 N의 절반 주파수보다 작은 것으로 결정된 경우에는 이미 구한 고정길이 신호의 DFT 계수를 복사하고 f를 1 증가시킨 다음 상기 판별단계로 복귀하는 단계; 및
    (c-3-3) 상기 (c-3-1) 단계에서 f번째 주파수가 고정길이 N의 절반 주파수보다 큰 것으로 결정된 경우에는 이미 구한 평균 크기와 저장하고 있는 위상값을 사용하여 DFT 계수를 발생시키고 f를 1 증가시킨 다음 상기 (c-3-1) 단계로 복귀하는 단계;를 포함하는 것을 특징으로 하는 음성 디코딩 방법.
  22. 제17항에 있어서, 상기 (c-5) 및 (c-6) 단계는,
    (c-5-1) f의 주파수가 피치길이 T의 절반 주파수보다 큰지를 판별하는 단계;
    (c-5-2) 상기 (c-5-1) 단계에서 f의 주파수가 피치길이 T의 절반 주파수보다 크지 않은 것으로 결정되면 정확히 가운데 주파수에는 0을 채워 넣는 제1 단계;
    (c-5-3) 대칭 위치에 해당하는 DFT 계수의 복소 공액값을 채워넣는 제2 단계;
    (c-5-4) f를 하나 증가시키는 단계; 및
    (c-5-5) f의 주파수가 피치길이를 초과하는지를 판별하여 그렇지 않은 경우에는 제2 단계로 분기시키는 단계;를 포함하는 것을 특징으로 하는 음성 디코딩 방법.
KR1019990017792A 1999-05-18 1999-05-18 음성 코딩/디코딩 장치 및 그 방법 KR100300964B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990017792A KR100300964B1 (ko) 1999-05-18 1999-05-18 음성 코딩/디코딩 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990017792A KR100300964B1 (ko) 1999-05-18 1999-05-18 음성 코딩/디코딩 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20000074088A KR20000074088A (ko) 2000-12-05
KR100300964B1 true KR100300964B1 (ko) 2001-09-26

Family

ID=19586150

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990017792A KR100300964B1 (ko) 1999-05-18 1999-05-18 음성 코딩/디코딩 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100300964B1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100460109B1 (ko) * 2001-09-19 2004-12-03 엘지전자 주식회사 음성패킷 변환을 위한 lsp 파라미터 변환장치 및 방법
EP1653445A1 (en) * 2004-10-26 2006-05-03 Harman Becker Automotive Systems-Wavemakers, Inc. Periodic signal enhancement system
KR100789368B1 (ko) * 2005-05-30 2007-12-28 한국전자통신연구원 잔차 신호 부호화 및 복호화 장치와 그 방법
US7599833B2 (en) 2005-05-30 2009-10-06 Electronics And Telecommunications Research Institute Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
KR100803205B1 (ko) 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
CN112086095B (zh) * 2020-09-10 2024-01-19 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
KR20000074088A (ko) 2000-12-05

Similar Documents

Publication Publication Date Title
US6260009B1 (en) CELP-based to CELP-based vocoder packet translation
EP3039676B1 (en) Adaptive bandwidth extension and apparatus for the same
JP5412463B2 (ja) 音声信号内の雑音様信号の存在に基づく音声パラメータの平滑化
US11721349B2 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
US5060269A (en) Hybrid switched multi-pulse/stochastic speech coding technique
DK2102619T3 (en) METHOD AND DEVICE FOR CODING TRANSITION FRAMEWORK IN SPEECH SIGNALS
WO2000038177A1 (en) Periodic speech coding
EP1273005A1 (en) Wideband speech codec using different sampling rates
EP1671317B1 (en) A method and a device for source coding
JP3062226B2 (ja) 条件付き確率的励起符号化法
JP4180677B2 (ja) 音声符号化並びに復号化方法及びその装置
KR100300964B1 (ko) 음성 코딩/디코딩 장치 및 그 방법
JP3598111B2 (ja) 広帯域音声復元装置
Gersho Speech coding
JP3560964B2 (ja) 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法
JP3598112B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
Bae et al. On a reduction of pitch searching time by preliminary pitch in the CELP vocoder
JP2001100799A (ja) 音声符号化装置、音声符号化方法および音声符号化アルゴリズムを記録したコンピュータ読み取り可能な記録媒体
Han et al. On A Reduction of Pitch Searching Time by Preprocessing in the CELP Vocoder
JP2004046238A (ja) 広帯域音声復元装置及び広帯域音声復元方法
JPH0291699A (ja) 音声符号化復号化方式
KR19980035867A (ko) 음성 데이터 부호화/복호화장치 및 그 방법
JP2004355018A (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP2004341551A (ja) 広帯域音声復元方法及び広帯域音声復元装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080312

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee