KR100701253B1 - 이동통신 환경 하에서의 서버 기반 음성 인식을 위한음성부호화 방법 및 장치 - Google Patents

이동통신 환경 하에서의 서버 기반 음성 인식을 위한음성부호화 방법 및 장치 Download PDF

Info

Publication number
KR100701253B1
KR100701253B1 KR1020050005493A KR20050005493A KR100701253B1 KR 100701253 B1 KR100701253 B1 KR 100701253B1 KR 1020050005493 A KR1020050005493 A KR 1020050005493A KR 20050005493 A KR20050005493 A KR 20050005493A KR 100701253 B1 KR100701253 B1 KR 100701253B1
Authority
KR
South Korea
Prior art keywords
speech
coefficient
mel frequency
speech recognition
linear predictive
Prior art date
Application number
KR1020050005493A
Other languages
English (en)
Other versions
KR20060084704A (ko
Inventor
이길호
윤재삼
오유리
김홍국
Original Assignee
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광주과학기술원 filed Critical 광주과학기술원
Priority to KR1020050005493A priority Critical patent/KR100701253B1/ko
Publication of KR20060084704A publication Critical patent/KR20060084704A/ko
Application granted granted Critical
Publication of KR100701253B1 publication Critical patent/KR100701253B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Abstract

본 발명은 서버 기반 음성인식을 위한 음성부호화 방법에 관한 것으로써, 사용자의 음성이 입력되면 상기 음성에 대한 특징 파라미터로 음성 재생을 위한 선형예측계수(Linear Predictive Coding coefficients, 'LPC')와 음성인식을 위한 멜프리퀀시켑스트럴계수(Mel Frequency Cepstral Coefficient, 'MFCC')를 추출하는 단계; 상기 멜프리퀀시켑스트럴계수를 선형예측계수로 변환하는 단계; 및 상기 멜프리퀀시켑스트럴계수를 선형예측계수로 변환하는 과정에서 발생하는 정보의 손실을 보상하는 파라미터를 추출하는 단계를 포함한다.
서버 기반 음성인식, LPC, MFCC, 음성부호화

Description

이동통신 환경 하에서의 서버 기반 음성 인식을 위한 음성부호화 방법 및 장치{System and Methods of Speech Coding for Server-Based Speech Recognition in Mobile Communication Environments}
도 1은 본 발명이 적용되는 음성 부호화기의 구성을 나타내는 도면
도 2는 음성 인식을 위한 음성 특징 파라미터인 MFCC를 추출하는 과정을 나타내는 흐름도
도 3은 음성 재생을 위한 음성 특징 파라미터 LPC를 MFCC로 부터 구하는 과정을 나타내는 흐름도
도 4는 도 3의 과정에서 발생하는 정보의 손실을 보상하기 위해 추가된 보상 파라미터를 구하는 과정을 나타내는 흐름도
본 발명은 서버 기반 음성인식을 위한 음성부호화 방법에 관한 것으로써, 특히 이동통신 환경 하에서 음성 인식과 음성 부호화를 성능의 저하 없이 동시에 수 행하기 위한 기법에 관한 것이다.
이동통신(또는 무선통신)환경 하에서의 자동 음성 인식(Automatic Speech Recognition, 'ASR') 방식은 특징 파라미터의 추출과 인식을 어디서 담당하는 가에 따라 크게 세 가지 로 나눌 수 있다 (H. K. Kim and R. V. Cox, "A bitstream-based front-end for wireless speech recognition on IS-136 communications system," IEEE Transactions on Speech and Audio Processing, vol. 9, no. 5, pp. 558-568, July 2001). 다시 말해, 음성 인식을 단말기에서 하는지 혹은 통신망에 연결된 서버에서 하는 지에 따라 음성 인식 시스템을 분류할 수 있다. 즉 단말기 기반 방식(client-based system 혹은 embedded system), 서버 기반 방식 (server-based system 혹은 bitstream-based system), 그리고 이들 두 가지 방식을 혼합한 단말기/서버 기반 방식(client/server-based system 혹은 distributed speech recognition(DSR) system) 이 있다.
모든 음성 인식 시스템들은 우선 입력된 신호 중에서 실제 사람이 발성한 음성 신호만을 검출하여 특징을 추출하고 이것으로 기준 음성모델과의 유사도를 측정해 최종적으로 인식한다.
음성신호를 입력받게 되면 실제 화자가 발성한 음성부분만을 검출하여야 하는데 이 음성 검출 부분은 인식성능에 매우 큰 영향을 미친다. 왜냐하면 아무리 좋은 음성 인식 알고리즘을 사용한다 하더라도 음성검출이 제대로 이루어지지 않으면 좋은 인식률을 기대하기 어렵기 때문이다. 특히 전화선을 통한 발성에서와 같이 잡음이 많은 환경에서는 검출된 구간에 잡음이 포함되는 경우가 많다. 따라서 인식률 을 높이기 위해서는 음성 인식에 앞서 정확한 음성검출이 요구된다.
실제음성을 검출한 다음에는 음성의 특징을 추출한다. 음성은 똑같은 언어라 할지라도 발음하는 사람의 성별, 나이, 발음 시의 상태 등에 따라 매우 복잡하게 변할 뿐 아니라 단독으로 발음될 때와 단어나 문장 내에서 발음 될 때마다 그 성질이 변하기 때문에 음성의 특징을 잘 표현할 수 있는 특징검출이 중요하다. 즉, 특징 추출 과정에서는 불필요하게 중복되는 음성정보를 없애고 동일 음성 신호들 간의 일관성을 높임과 동시에 다른 음성 신호와는 변별력을 높일 수 있는 정보를 추출해야 한다. 이러한 정보를 특징벡터라고 한다. 현재 사용되고 있는 주요 특징벡터 추출 기술들로는 선형예측계수(Linear Predictive Coding Coefficient), 켑스트럼(Cepstrum), 멜프리퀀시켑스트럼 계수(Mel Frequency Cepstral Coefficient, MFCC), 주파수 대역별 에너지(Filter Bank Energy) 등이 있다.
선형예측계수는 현재의 신호는 이전의 신호들의 조합으로 알 수 있다는 개념을 이용한 것이다. 즉, 음성은 급격하게 변하지 않고 특정 구간은 그 특성이 동일하기 때문에 현재 이전까지의 신호를 알면 이전 신호에 어떤 특정한 계수를 곱하고, 이 값에 이전 신호들을 더하면 현재의 신호를 알 수 있게 된다는 것이다. 따라서 초기 신호 일부만으로도 그 계수들만 알면 다음 신호들을 계속해서 알 수 있으므로 적합한 특징벡터가 될 수 있다. 이렇게 구한 계수를 선형예측계수라고 한다.
켑스트럼은 음성 신호의 특징벡터인 선형예측계수를 화자의 변동에 따른 변화와 무관하게 강인한 인식률을 유지하는데 도움을 주기 위한 방법으로 선형예측계수보다 잡음에 훨씬 강인하다.
멜프리퀀시 켑스트럼은 기존의 켑스트럼 개념과 멜프리퀀시(Mel Frequency)라는 개념을 혼합한 것으로, 일정한 대역(Critical Band)내에서 여러 대역의 소리가 합쳐진 소리는 그 대역의 중앙 주파수 대역에서의 소리와 동일하게 들리는 특성을 이용한 것이다. 예를 들어 100~110Hz 사이, 130~145Hz 사이, 150~180Hz사이에서 10 데시벨(dB) 음이 동시에 들린다고 하면 그 소리는 150~180Hz 대역에서 10 데시벨(dB)의 음과 동일한 크기로 들린다. 즉, 일반적인 주파수 단위를 이 특징에 맞게 매핑시켜 특징벡터를 구하고 켑스트럼 계수를 적용하여 그 특징을 보다 강인하게 표현하는 방법이다.
주파수 대역별 에너지(Filter Bank Energy)는 음성신호의 특징을 추출하기 위해 각 대역통과 필터를 통과한 출력의 에너지 값을 음성 특징으로 사용하는 방법으로 구현의 용이성과 다양한 응용성 때문에 음성 인식에서 주로 많이 쓰이는 모델 중의 하나이다.
이렇게 특징 추출에서 얻어진 특징벡터는 유사도 측정 및 인식과정을 거치게 된다. 유사도 측정 및 인식을 위해서는 음성의 신호적인 특성을 모델링하여 비교하는 음향모델과(Acoustic Model) 인식어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어모델(Language Model)이 사용된다. 음향모델은 다시 인식대상을 특징벡터 모델로 설정하고 이를 입력신호의 특징벡터와 비교하는 직접비교 방법과 인식대상의 특징벡터를 통계적으로 처리하여 이용하는 통계방법으로 나뉘어 진다. 직접비교 방법은 인식대상이 되는 단어, 음소 등의 단위를 특징벡터 모델로 설정하고 입력음성이 이와 얼마나 유사한가 비교하는 방법이다. 대표적인 것으로 벡터양자화(Vector Quantization) 방법이 있는데, 앞서 구한 특징벡터 또는 계수들을 기존 모델인 코드북(Codebook)과 매핑시켜 대표 값으로 부호화함으로써 이 부호 값들을 서로 비교하는 방법이다. 통계적 모델방법은 인식대상에 대한 단위를 상태 열(State Sequence)로 구성하고 상태 열간의 관계를 이용하는 방법이다. 상태 열은 복잡한 모델을 표시할 수 있어 간단한 단어인식을 제외하고는 대부분의 음성 인식이 이 기술을 이용한다. 상태 열간의 관계를 이용하는 방법은 다시 DTW(Dynamic Time Warping)과 같이 시간적 배열관계를 이용하는 방법, HMM과 같이 확률값, 평균, 그리고 분산을 비교대상으로 하는 통계적 방법, 그리고 인공신경망을 이용하는 방법이 있다.
상기와 같은 음성인식 시스템은 음성부호화기에 의해 구현되는데, 기존의 이동통신 환경에서의 음성인식은 이 재생된 음성을 이용한 것으로 이때의 음성 인식 능력은 기존 음성 인식기의 성능에 비해 떨어지는 문제점을 가지고 있다.
본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로써, 이동통신 환경 하에서 음성 인식과 음성 부호화를 성능의 저하 없이 동시에 수행하기 위한 음성 부호화 방법을 제공하는 데 있다.
상기와 같은 목적을 달성하기 위하여 본 발명의 서버 기반 음성인식을 위한 음성부호화 방법은 사용자의 음성이 입력되면 상기 음성에 대한 특징 파라미터로 음성 재생을 위한 선형예측계수(Linear Predictive Coding coefficients, 'LPC')와 음성인식을 위한 멜프리퀀시켑스트럴계수(Mel Frequency Cepstral Coefficient, 'MFCC')를 추출하는 단계; 상기 멜프리퀀시켑스트럴계수를 선형예측계수로 변환하는 단계; 및 상기 멜프리퀀시켑스트럴계수를 선형예측계수로 변환하는 과정에서 발생하는 정보의 손실을 보상하는 파라미터를 추출하는 단계를 포함한다.
본 발명에서 상기 음성인식을 위한 멜프리퀀시켑스트럴계수를 추출하는 방법은 입력된 음성신호를 고역통과필터를 거치는 단계; 비대칭윈도우를 통과시킨 후 고속푸리에변환(FFT)을 거치는 단계; 멜 필터링, 로그 스케일링 및 이산코사인변환(DCT)을 거치는 단계를 포함한다.
본 발명에서 상기 고역통과필터는 140㎐의 컷-오프 주파수를 가지는 것이 바람직하다.
본 발명에서 상기 고속푸리에변환은 256개의 샘플로 제로 패딩을 한 후 256포인트의 고속푸리에변환을 거치는 것이 바람직하다.
본 발명에서 상기 멜프리퀀시켑스트럴계수를 선형예측계수로 변환하는 방법은 역이산코사인변환(IDCT)과 역대수(inverse logarithm)과정을 거치는 단계; 및 선형보간후 이를 제곱하여 역고속푸리에변환을 거치는 단계를 포함하는 것이 바람직하다.
본 발명에서 상기 역이산코사인변환(IDCT)을 거치기 이전에 13개의 멜프리퀀시켑스트럴계수는 제로 패딩을 거쳐서 23개의 멜프리퀀시켑스트럴계수로 변화되는 단계를 더 포함하는 것이 바람직하다.
본 발명에서 상기 선형보간은 256개의 값으로 이루어지는 것이 바람직하다.
본 발명에서 상기 멜프리퀀시켑스트럴계수를 선형예측계수로 변환하는 과정에서 발생하는 정보의 손실을 보상하는 파라미터를 추출하는 방법은 원래 음성으로부터 구한 선형예측계수와 변환과정을 거쳐 구한 선형예측계수의 차이를 계산한 후 이를 전송되는 것이 바람직하다.
본 발명에서 상기 선형예측계수의 차이는 해상도를 높이기 위하여 선 스펙트럼 주파수(LSF) 변환한 후 구하는 것이 바람직하다.
이하, 본 발명의 바람직한 실시예를 첨부한 도면을 참조하여 설명하기로 한다. 하기의 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하며, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.
본 발명에서는 단순한 음성 부호화기가 아닌 음성인식기에서도 충분한 성능을 보이는 음성 부호화기를 제안하고 있다. 제안된 음성 부호화기는 DSR의 개념과 음성 부호화의 특징 분석 음성 부호의 양자화를 조합하여 구현하였다.
서버 기반 방식에서의 음성 인식률을 유지하기 위해 스펙트럼 포락(spectral envelope)를 MFCC로부터 구하는 코드 여기된 선형 예측 부호화(code-excited linear prediction, 'CELP') 음성 부호화기를 설계했다 .
기존 CELP 음성 부호화기는 스펙트럼 포락을 LPC로부터 구하고 그 LPC를 양자화하여 전송하게 된다. 그러나 제안된 음성 부호화기에서는 음성 인식률을 고려하여 음성 특징 파라미터로 MFCC를 구하여 양자화한 후 전송한다. 따라서 음성 재생을 위해 MFCC를 LPC로 변환하는 과정이 필요하다. 제안된 음성 부호화기는 도 1에 나타나 있다.
제안된 음성 부호화기는 ITU-T Recommendation G.729 (ITU-T Recommendation G.729, Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (CS-ACELP), 1996)를 기본으로 하여 구현하였다. 즉, 10ms마다 프레임을 구성하며 각 프레임은 장기예측(long-term prediction)과 여기(excitation)모델링을 위해 두 개의 서브 프레임으로 나뉘게 된다. 제안된 음성 부호화기가 G.729 와 다른 점은 MFCC 여기(extraction), MFCC 양자화 그리고 MFCC를 LPC로 바꾸는 변환과정이 추가된 것이다. 제안된 음성 부호화기의 전체 비트할당 정보는 표 1에 나타내었다.
파라미터 서브프레임 프레임
1 2
MFCC - 44
채용된 코드북 인덱스 8 5 13
피치 패러티 1 - 1
고정된 코드북 인덱스 13 13 26
고정된 코드북 사인 4 4 8
코드북 7 7 14
합계 106
도 2는 MFCC 추출과정을 보여주고 있다 .
음성 신호는 140 Hz 의 컷-오프 주파수를 갖는 고역통과필터를 거쳐 2로 나누어지는 프리프로세싱을 하게 된다. 다음으로 다음의 수식을 갖는 G.729에서 사용하는 비대칭 윈도우를 통과하게 된다.
Figure 112005003371755-pat00001
..... (식 1)
그 후 256 개의 샘플 제로로 패딩을 한 후 256 포인트의 고속푸리에변환을 하여 절대값 스펙트럼(magnitude spectrum)이 계산되어 진다. 이 절대값 스펙트럼이 23 개의 삼각 멜-필터뱅크와 로그 스케일 이산코사인변환의 단계를 거쳐 MFCC가 된다. 이 23개의 MFCC중 13개가 음성 인식에 사용된다.
MFCC를 LPC로 변환하는 과정은 도 3에 나타나 있다.
먼저 13개의 MFCC는 제로 패딩을 거쳐 23개의 MFCC로 만들어지고 이 값들은 역 이산 코사인 변환과(DCT) 역 로그 스케일을 거치게 된다.
Figure 112005003371755-pat00002
..... (식 2)
여기서 N은 23이며, 역 DCT를 수행하기 위해서는 23개의 MFCC가 필요하다. 따라서 zero padding을 통해 13개의 MFCC를 23개의 MFCC로 확장할 필요가 있다.
Figure 112005003371755-pat00003
.... (식 3)
다음으로 23개의 값들은 256개의 값으로 선형 보간을 하고 각 값들을 제곱하여 역 FFT과정을 거치면 스펙트럼을 구할 수 있다.
Figure 112005003371755-pat00004
..... (식 4)
(여기서 FFTL은 256이다.)
이 파워 밀도 스펙트럼을 역 FFT와 다음 수식의 래그 윈도윙, Levinson-Durbin recursion을 거치면 최종적으로 음성 재생에 필요한 LPC를 구할 수 있다.
Figure 112005003371755-pat00005
...... (식 5)
이 스펙트럼을 통해 최종적으로 LPC를 구할 수 있다.
표 2 는 원래 음성으로부터 구한 LPC와 G.729의 LPC와의 스펙트럼 왜곡(Spectral Distortion; SD)그리고 위의 과정을 통해서 구한 LPC와의 SD를 보여주고 있다. LPC정보는 SD가 다음과 같을 때 손실을 줄일 수 있다. 평균 SD는 약 1㏈ 이내 2-4 ㏈의 outlier는 2% 이내에 존재해야 하며 4㏈ 이상의 outlier는 거의 없어야 한다. 따라서 위의 방법으로 구한 LPC는 문제가 있다고 할 수 있다 .
따라서, 이러한 문제를 해결하는 방법에 대해서는 이하 설명하도록 한다.
부호화기 평균SD(in DB) Outliers(in%)
2-4 dB >4 dB
G.729 1.069 3.652 0.085
제안된 부호화기 1.473 14.548 0.059
서브벡터 요소 코드북 사이즈
(c0) 256
(c1, c2) 64
(c3, c4) 64
(c5, c6) 64
(c7, c8) 64
(c9, c10) 64
(c11, c12) 64
MFCC는 스플릿 벡터 양자화(SVQ)의 방법으로 양자화 된다. MFCC의 스플릿 방법과 양자화에 소요된 할당 비트수는 DSR 표준 프론트-엔드 (ETSI Standard ES 201 108 v1.1.3, Speech processing, transmission and quality aspects; Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithm, 2003)를 참고하여 수행하였다 표 3은 SVQ 와 각 서브벡터의 할당된 비트수를 보여준다. MFCC 양자화기는 LBG 알고리즘을 이용하였으며 트레이닝에 사용된 데이터는 총 205,100 의 미국, 영국, 한국 NTT-AT 음성 데이터베이스 (NTT-AT, Multi-lingual speech database for telephonometry, 1994) 의 데이터 이다.
표 2 에서 보듯 MFCC 를 LPC 로 변환하는 과정을 통해 구한 LPC는 원래 음성으로부터 직접 구한 LPC와 일치하지 않는다. MFCC를 LPC 로 바꾸는 과정을 다시 살 펴보면, 그 원인에 대해 몇 가지 사실을 알 수 있다. 첫째. 역 DCT과정에서 문제가 발생한다. 음성 인식에 필요한 MFCC 는 총 13개이다. 따라서 23개의 MFCC중 13 개의 MFCC를 부호화한 후 전송하게 되는데 이 13개의 MFCC로부터 23 개의 MFCC 를 구할 때 정확한 원래 값을 복원할 수 없다. 두 번째 원인은 스펙트럼을 구하기 위한 과정에서 발생한다. 즉 선형 보간을 할 때 멜-필터링 이전의 값을 정확히 복원할 수 없는 것이다.
이런 문제점을 해결하기 위해 도 4 의 과정을 거쳐 파라미터 변환 과정의 오차를 보정하게 하였다. 즉 원음성으로부터 구한 선 스펙트럼 주파수(LSF, ω)와 MFCC로부터 구한 LSF (
Figure 112005003371755-pat00006
)의 차이를 부호화하여 전송하고 이를 이용하면 오차를 보정하게 되는 것(
Figure 112005003371755-pat00007
)다. 표 4는 보상 파라미터 양자화에 필요한 코드북 인덱스를 추가한 음성 부호화기의 bit할당 정보이다 .
파라미터 서브프레임 프레임
1 2
MFCC - 44
LSF 에러 코드북 인덱스 - 12
채용된 코드북 인덱스 8 5 13
피치 패러티 1 - 1
고정된 코드북 인덱스 13 13 26
고정된 코드북 사인 4 4 8
코드북 7 7 14
합계 118
코드북은 LBG 알고리즘 (Y. Linde, A. Buzo, and R. M. Gray, "An algorithm for vector quantizer design," IEEE Transactions on Communications, vol. 28, no. 1, pp. 84-95, Jan. 1980)을 이용해 10개의 LSF 를 5 개씩 분리하여 SVQ (Split VQ) 의 방법으로 생성했다. 이 때 각 LSF에 G.729 에서 사용한 가중 요소를 사용해 양자화 오차에 따르는 LSF의 SD저하를 최소화하였다. 두 개의 코드북은 6 비트의 엔트리를 갖게 되어 개선된 음성 부호화기는 12 비트가 추가되어 11.8 kbps의 전송 률을 갖게 된다. 트레이닝에 사용된 데이터베이스와 MFCC조건은 양자화의 그것과 같다.
표 5 는 오차 보정 방법을 이용하였을 때의 스펙트럼 왜곡을 보여주고 있다. 즉 개선된 음성 부호화기는 Paliwal이 밝힌 기준 (K. K. Paliwal and B. S. Atal, "Efficient vector quantization of LPC parameters at 24 bits/frame," IEEE Transactions on Speech and Audio Processing, vol. 1, no. 1, pp. 3-14, Jan. 1994)에 부합하게 되며 이는 G.729보다 좋은 성능을 나타내게 된다. 즉 G.729 의 LSF양자화에 따른 에러보다 도 4의 과정을 통한 에러가 적게 나타나는 것이다.
부호화기 평균SD(in DB) Outliers(in%)
2-4dB >4dB
G.729 1.069 3.652 0.085
제안된 부호화기 0.903 1.227 0.004
표 6은 오차 보정 방법을 이용하여 구현한 개선된 11.8 kbps 의 음성 부호화기의 음질 성능을 보여준다. 즉 개선된 부호화기는 G.729보다 0.04 MOS 높게 측정 되고, G.729E보다는 0.159 MOS 낮게 측정되었다.
화자 G.729E (11.8kbps) G.729 (8kbps) 개선된 부호화기 (11.8kbps)
남자 4.147 3.968 4.004
여자 3.910 3.729 3.769
평균 4.028 3.848 3.886
상기와 같이, 본 발명의 바람직한 실시예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
상술한 바와 같이 본 발명에 의하면, 양질의 음성 재생과 신뢰성 있는 음석 인식률을 보여주어 이동통신 환경에서 음성 부호화기 및 음성 인식기로 뛰어난 성능을 갖게 되는 장점이 있다.

Claims (11)

  1. 사용자의 음성이 입력되면 상기 음성에 대한 특징 파라미터로 음성 재생을 위한 선형예측계수(linear predictive filter coefficients, 'LPC')와 음성인식을 위한 멜프리퀀시켑스트럴계수(Mel Frequency Cepstral Coefficient, 'MFCC')를 추출하는 단계; 상기 멜프리퀀시켑스트럴계수를 선형예측계수로 변환하는 단계; 및 상기 멜프리퀀시켑스트럴계수를 선형예측계수로 변환하는 과정에서 발생하는 정보의 손실을 보상하는 파라미터를 추출하는 단계를 포함하는 서버 기반 음성인식을 위한 음성부호화 방법.
  2. 제 1항에 있어서, 상기 음성인식을 위한 멜프리퀀시켑스트럴계수를 추출하는 방법은 입력된 음성신호를 고역통과필터를 거치는 단계; 비대칭윈도우를 통과시킨 후 고속푸리에변환(FFT)을 거치는 단계; 멜 필터링, 로그 스케일링 및 이산코사인변환(DCT)을 거치는 단계를 포함하는 것을 특징으로 하는 서버 기반 음성인식을 위한 음성부호화 방법.
  3. 제 2항에 있어서, 상기 고역통과필터는 140㎐의 컷-오프 주파수를 가지는 것을 특징으로 하는 서버 기반 음성인식을 위한 음성부호화 방법.
  4. 제 2항에 있어서, 상기 비대칭윈도우는 하기의 수식을 가지는 것을 특징으로 하는 서버 기반 음성인식을 위한 음성부호화 방법.
    Figure 112005003371755-pat00008
  5. 삭제
  6. 제 1항에 있어서, 상기 멜프리퀀시켑스트럴계수를 선형예측계수로 변환하는 방법은 역이산코사인변환(IDCT)과 역대수(inverse logarithm)과정을 거치는 단계; 및 선형보간후 이를 제곱하여 역고속푸리에변환을 거치는 단계를 포함하는 것을 특징으로 하는 서버 기반 음성인식을 위한 음성부호화 방법.
  7. 제 6항에 있어서, 상기 역이산코사인변환(IDCT)을 거치기 이전에 13개의 멜프리퀀시켑스트럴계수는 제로 패딩을 거쳐서 23개의 멜프리퀀시켑스트럴계수로 변화되는 단계를 더 포함하는 것을 특징으로 하는 서버 기반 음성인식을 위한 음성부호화 방법.
  8. 제 6항에 있어서, 상기 선형보간은 256개의 값으로 이루어지는 것을 특징으 로 하는 서버 기반 음성인식을 위한 음성부호화 방법.
  9. 제 1항에 있어서, 상기 멜프리퀀시켑스트럴계수를 선형예측계수로 변환하는 과정에서 발생하는 정보의 손실을 보상하는 파라미터를 추출하는 방법은 원래 음성으로부터 구한 선형예측계수와 변환과정을 거쳐 구한 선형예측계수의 차이를 계산한 후 이를 전송하는 것을 특징으로 하는 서버 기반 음성인식을 위한 음성부호화 방법.
  10. 제 9항에 있어서, 상기 선형예측계수의 차이는 해상도를 높이기 위하여 선스펙트럼주파수(LSF) 변환한 후 구하는 것을 특징으로 하는 서버 기반 음성인식을 위한 음성부호화 방법.
  11. 제 1항 내지 제 10항 중 어느 한 항의 음성 부호화 방법을 이용한 디지털 휴대용 전화기.
KR1020050005493A 2005-01-20 2005-01-20 이동통신 환경 하에서의 서버 기반 음성 인식을 위한음성부호화 방법 및 장치 KR100701253B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050005493A KR100701253B1 (ko) 2005-01-20 2005-01-20 이동통신 환경 하에서의 서버 기반 음성 인식을 위한음성부호화 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050005493A KR100701253B1 (ko) 2005-01-20 2005-01-20 이동통신 환경 하에서의 서버 기반 음성 인식을 위한음성부호화 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20060084704A KR20060084704A (ko) 2006-07-25
KR100701253B1 true KR100701253B1 (ko) 2007-03-29

Family

ID=37174656

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050005493A KR100701253B1 (ko) 2005-01-20 2005-01-20 이동통신 환경 하에서의 서버 기반 음성 인식을 위한음성부호화 방법 및 장치

Country Status (1)

Country Link
KR (1) KR100701253B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100861653B1 (ko) * 2007-05-25 2008-10-02 주식회사 케이티 음성 특징을 이용한 네트워크 기반 분산형 음성 인식단말기, 서버, 및 그 시스템 및 그 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990001828A (ko) * 1997-06-18 1999-01-15 윤종용 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990001828A (ko) * 1997-06-18 1999-01-15 윤종용 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치 및 방법

Also Published As

Publication number Publication date
KR20060084704A (ko) 2006-07-25

Similar Documents

Publication Publication Date Title
US6633839B2 (en) Method and apparatus for speech reconstruction in a distributed speech recognition system
KR101213840B1 (ko) 복호화 장치 및 복호화 방법, 및 복호화 장치를 구비하는 통신 단말 장치 및 기지국 장치
McLoughlin Line spectral pairs
US20130166294A1 (en) Frame Erasure Concealment Technique for a Bitstream-Based Feature Extractor
US6678655B2 (en) Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope
JP3189598B2 (ja) 信号合成方法および信号合成装置
Song et al. A study of HMM-based bandwidth extension of speech signals
JP2006171751A (ja) 音声符号化装置及び方法
De Lara A method of automatic speaker recognition using cepstral features and vectorial quantization
US6792405B2 (en) Bitstream-based feature extraction method for a front-end speech recognizer
Touazi et al. An experimental framework for Arabic digits speech recognition in noisy environments
Tucker et al. Compression of acoustic features-are perceptual quality and recognition performance incompatible goals?
KR100701253B1 (ko) 이동통신 환경 하에서의 서버 기반 음성 인식을 위한음성부호화 방법 및 장치
Pickersgill et al. Investigation of DNN prediction of power spectral envelopes for speech coding & ASR
Arun Sankar et al. Design of MELPe-based variable-bit-rate speech coding with mel scale approach using low-order linear prediction filter and representing excitation signal using glottal closure instants
JPH10254473A (ja) 音声変換方法及び音声変換装置
KR100474969B1 (ko) 음성신호 부호화를 위한 선 스펙트럼 계수의 벡터 양자화방법과 이를 위한 마스킹 임계치 산출 방법
Yoon et al. A MFCC-based CELP speech coder for server-based speech recognition in network environments
Sankar et al. Mel scale-based linear prediction approach to reduce the prediction filter order in CELP paradigm
Sakka et al. Using geometric spectral subtraction approach for feature extraction for DSR front-end Arabic system
Chazan et al. Low bit rate speech compression for playback in speech recognition systems
Ali et al. Low bit-rate speech codec based on a long-term harmonic plus noise model
Salor et al. Dynamic programming approach to voice transformation
Min et al. Perceptually weighted Analysis-by-Synthesis vector quantization for low bit rate MFCC codec
Lee et al. Design of a speech coder utilizing speech recognition parameters for server-based wireless speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121211

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20131211

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20141218

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee