KR20060068278A - 분산 음성 인식 시스템에서의 멜켑스트럼 계수의 양자화방법 및 장치 - Google Patents

분산 음성 인식 시스템에서의 멜켑스트럼 계수의 양자화방법 및 장치 Download PDF

Info

Publication number
KR20060068278A
KR20060068278A KR1020040106926A KR20040106926A KR20060068278A KR 20060068278 A KR20060068278 A KR 20060068278A KR 1020040106926 A KR1020040106926 A KR 1020040106926A KR 20040106926 A KR20040106926 A KR 20040106926A KR 20060068278 A KR20060068278 A KR 20060068278A
Authority
KR
South Korea
Prior art keywords
vector
quantization
coefficients
quantized
trellis
Prior art date
Application number
KR1020040106926A
Other languages
English (en)
Inventor
윤병식
김형중
최송인
이준석
강상원
Original Assignee
한국전자통신연구원
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원, 한양대학교 산학협력단 filed Critical 한국전자통신연구원
Priority to KR1020040106926A priority Critical patent/KR20060068278A/ko
Publication of KR20060068278A publication Critical patent/KR20060068278A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 분산 음성 인식 시스템에서 블록제한된 트렐리스 부호화 양자화(Block Constrained Trellis Coded Quantization: BC-TCQ)를 이용하여 멜켑스트럼 계수를 양자화하기 위한 방법 및 장치에 관한 것이다.
본 발명의 실시 예에 따른 분산 음성 인식 시스템에서의 멜켑스트럼 계수 양자화 방법에 따르면, 입력되는 멜켑스트럼 계수 벡터로부터 멜켑스트럼 계수 벡터의 DC 성분을 제거한다. 그리고 DC 성분이 제거된 멜켑스트럼 벡터 계수에 대하여 프레임간 예측을 수행하여 예측에러벡터를 생성하고, 생성된 예측에러벡터를 BC-TCQ를 이용하여 양자화한다. 다음 양자화된 예측에러벡터에 프레임내 예측 보상을 수행하고 DC 성분을 더하여 양자화된 최종 멜켑스트럼 계수 벡터를 생성한다. 이와 같이 하면, 양자화 시에 요구되는 메모리 크기와 코드북 탐색 시에 계산량을 감소시킬 수 있으며, 향상된 양자화 성능을 얻을 수 있게 된다.
멜켑스트럼, 양자화, BC-TCQ, 분산음성인식시스템, 벡터, 트렐리스

Description

분산 음성 인식 시스템에서의 멜켑스트럼 계수의 양자화 방법 및 장치{APPARATUS AND METHOD FOR QUANTIZATION OF MEL-CEPSTRUM PARAMETERS IN DISPERSED VOICE RECOGNITION SYSTEM}
도 1a 내지 도 1c는 일반적인 벡터 양자화를 설명하기 위한 도면이다.
도 2는 ETSI 규격에서 사용되는 멜켑스트럼 양자화 장치를 나타낸 도면이다.
도 3은 본 발명의 실시 예에 따른 멜켑스트럼 계수의 양자화 장치의 구성을 나타낸 도면이다.
도 4는 전체 4-상태 트렐리스 구조에
Figure 112004059356219-PAT00001
가 1인 BC-TCQ 알고리즘을 적용하는 경우 고려되는 트렐리스 경로를 나타낸 것이다.
도 5는 BC-TCQ부의 비터비 인코딩 과정을 도식화한 도면이다.
도 6 내지 도 8은 BC-TCQ부의 BC-TCQ 인코딩 과정을 나타낸 도면이다.
본 발명은 분산 음성 인식 시스템에 관한 것으로, 특히 블록제한된 트렐리스 부호화 양자화(Block Constrained Trellis Coded Quantization: BC-TCQ)를 이용하여 멜켑스트럼 계수를 양자화하기 위한 방법 및 장치에 관한 것이다.
음성 인식 시스템들은 입력된 신호 중에서 실제 사람이 발성한 음성 신호만을 검출하여 특징을 추출하고 이것으로 기준 음성 모델과의 유사도를 측정해 최종적으로 인식하게 된다. 따라서 인식률을 높이기 위해서는 음성 인식에 앞서 정확한 음성 검출이 요구된다.
실 음성을 검출한 다음에는 음성의 특징을 추출하는데, 음성은 똑같은 언어라 할지라도 발음하는 사람의 성별, 나이, 발음 시의 상태 등에 따라 매우 복잡하게 변할 뿐 아니라 단독으로 발음될 때와 단어나 문장 내에서 발음될 때마다 그 성질이 변하기 때문에 음성의 특징을 잘 표현할 수 있는 특징 검출이 중요하다.
즉, 특징 추출 과정에서 불필요하게 중복되는 음성 정보를 없애고 동일 음성 신호들간의 일관성을 높임과 동시에 다른 음성 신호와의 변별력을 높일 수 있는 정보를 추출해야 한다. 이러한 정보를 특징벡터라고 하는데, 주요 특징벡터 추출 기술들로는 선형예측계수(Linear Prediction Coefficient: LPC), 켑스트럼(cepstrum), 멜켑스트럼(Mel Frequency Cepstral Coefficients: MFCC), 주파수 대역별 에너지(Filter Bank Energy) 등이 있다.
현재 분산 음성 인식 시스템에서 가장 널리 사용되는 특징벡터는 멜켑스트럼이다. 멜켑스트럼은 일정한 대역(Critical Band)내에서 여러 대역의 소리가 합쳐진 소리가 그 대역의 중간 주파수 대역에서의 소리와 동일하게 들리는 특성을 이용한 것이다. 즉, 일반적인 주파수 단위를 특징에 맞게 매핑시켜 특징벡터를 구하고 켑스트럼 계수를 적용하여 그 특징을 보다 강인하게 표현하는 방법이다.
분산 음성 인식 시스템에서는 위의 특징벡터를 양자화하여 모바일 채널 환경 에서 송수신하게 되는데, 송신단에서는 특징벡터를 기존 모델인 코드북(Codebook)과 매핑시켜 대표 값으로 부호화하고, 수신단에서는 부호화된 특징벡터를 이용해서 유사도 측정 및 인식과정을 거친다.
한편, 특징 벡터에 대한 양자화 방법은 스칼라 양자화와 벡터 양자화로 나눌 수 있다. 스칼라 양자화는 하나의 양자화 입력 값에 대해 하나의 양자화 출력 값을 얻는 양자화 방법이고, 벡터 양자화는 여러 개의 입력 값을 가지고 있는 벡터를 간단한 형태의 벡터로 매핑(mapping)하는 양자화 방법이다.
8 비트의 256×256 영상을 예로 들어 벡터 양자화에 대해서 간단하게 설명하면, 도 1a와 같이 영상을 블록으로 나누고, 이 블록과 같은 크기(4*4=16)를 갖는 참조벡터 256개로 코드 북을 도 1b와 같이 마련한다. 즉, 하나의 참조벡터는 16개의 그레이값으로 구성된다. 그리고 256개의 원소가 있기 때문에 이 참조벡터는 각각의 주소 인덱스를 나타내기 위해서는 8비트가 필요하다. 각각의 블록에 있는 그레이 값들과 가장 일치하는 값들을 갖는 참조벡터를 찾아서 그 참조벡터의 인덱스를 전송한다. 수신측에서 송신측과 같은 코드북을 갖고 있다면, 하나의 블록을 전송하기 위해 8비트의 벡터가 필요한 반면, 블록을 그대로 전송하려면 16*8=128비트가 필요하므로, 16:1의 압축률을 얻을 수 있다. 따라서, 성능에 비하여 많은 비트들을 사용하는 스칼라 양자화(Scalar Quantization) 방법보다 벡터 양자화(Vector Quantization) 방법을 널리 사용하고 있다.
이러한 벡터 양자화의 장점으로는 스펙트럼 분석(Spectral analysis)의 정보를 코드북(codebook)에 대응시켜 메모리를 줄일 수 있으며, 음성 인식에 있어서 두 벡터 사이의 유사성 결정에 필요한 계산은 연속적인 음성을 코드북의 코드워드로 분리(discrete)하여 표현하고 전체 계산량의 상당한 부분을 차지하기 때문에 유사도 측정에 필요한 계산량을 줄일 수 있다.
반면, 벡터 양자화의 단점으로는 유한한 수의 코드워드를 가진 코드북을 이용하므로 항상 어느 정도의 양자화 에러가 발생되며, 양자화 에러를 감소시키기 위해서는 코드북의 크기가 커져야 한다. 따라서 메모리의 사용이 증가한다. 따라서 전체 패턴 즉 주어진 영역에 나타난 전체 음성 특징 벡터를 가장 효율적으로 표현할 수 있는 벡터 양자화 방법이 연구되고 있다.
벡터 양자화 방법에서 전체 벡터를 한번에 양자화하는 것은 벡터 테이블의 크기가 너무 커지고 검색 시간이 많이 소요되므로 불가능하다. 이를 해결하기 위하여 전체 벡터를 여러 개의 부벡터로 나누어 각각을 독립적으로 벡터 양자화하는 방법이 개발되었다. 이를 분할 벡터양자화(Split Vector Quantization: SVQ)방법이라고 한다. 그러나 SVQ 방법은 각 부벡터를 독립적으로 양자화하기 때문에 부벡터들 사이의 상관 관계를 충분히 이용하지 못하고 전체 벡터에 대한 최적화를 하지 못하는 단점이 있다.
도 2는 ETSI 규격에서 사용되는 멜켑스트럼 양자화 장치를 나타낸 도면이다.
도 2에 도시된 바와 같이, ETSI 규격에서 사용되는 멜켑스트럼 양자화 장치는 SVQ 구조로 이루어진다. 이 양자화 장치는 프런트엔드 알고리즘에 의해서 구해진 12차 멜켑스트럼 계수를 연속된 두 개의 요소로 분할한 후 총 36비트를 할당하여 부호화한다.
이와 같은 SVQ 구조의 멜켑스트럼 양자화 장치는 완전탐색(Full Search) 벡터 양자화 장치와 비교해 볼 때, 보다 많은 부벡터로 나누면 벡터 테이블의 크기가 줄어들어 메모리를 절약할 수 있고 검색 시간을 줄일 수 있는 장점이 있으나, 벡터 값들간의 상관 관계를 충분히 활용하지 못하여 성능이 떨어지는 단점이 있다.
이 외에도 벡터양자화를 여러 단계로 나누어 벡터 양자화하는 방법, 두 개의 테이블을 이용하여 선택적으로 양자화하는 선택적 벡터양자화 방법, 각 부벡터의 경계 값을 보고 사용할 테이블을 선택하는 링크분할 벡터양자화 방법 등이 개발되어 있으며, 많은 음성 인식기가 이들 중 한 방법을 선택하여 사용한다.
이와 같이 벡터 양자화 장치의 메모리 요구량과 전체 계산량에 대한 문제점을 해결하면서 높은 인식률을 제공하는 특징벡터의 양자화 장치의 개발이 활발히 진행되고 있다.
본 발명이 이루고자 하는 기술적 과제는 양자화 시 요구되는 메모리 용량과 코드북 탐색 과정에서의 계산량 및 복잡도를 감소시키면서 우수한 SNR(Signal to Noise Ratio) 성능을 갖도록 하는 분산 음성 인식 시스템에서의 멜켑스트럼 계수 양자화 방법 및 장치를 제공하는 것이다.
이러한 과제를 해결하기 위해, 본 발명에서는 분산 음성 시스템에서의 멜켑스트럼 계수의 양자화 방법 및 장치가 제공된다.
본 발명의 한 특징에 따르면, 분산 음성 인식 시스템에서 멜켑스트럼(Mel Frequency Cepstral Coefficients) 계수를 양자화하는 방법으로서,
a) 입력되는 멜켑스트럼 계수 벡터로부터 멜켑스트럼 계수 벡터의 DC 성분을 제거하는 단계; b) 상기 DC 성분이 제거된 멜켑스트럼 벡터 계수에 대하여 프레임간 예측을 수행하여 예측에러벡터를 생성하는 단계; c) 상기 생성된 예측에러벡터를 양자화하는 단계; 및 d) 상기 양자화된 예측에러벡터에 상기 a)단계에서 제거된 상기 DC 성분을 더하여 양자화된 멜켑스트럼 계수 벡터를 생성하는 단계를 포함한다. 이 때, 상기 c)단계에서 블록제한된 트렐리스 부호화 양자화(Block Constrained Trellis Coded Quantization: BC-TCQ) 방식을 이용하여 양자화한다.
또한 본 발명의 다른 한 특징에 따르면, 분산 음성 인식 시스템에서 멜켑스트럼(Mel Frequency Cepstral Coefficients) 계수를 양자화하는 장치로서,
입력되는 멜켑스트럼 계수 벡터로부터 멜켑스트럼 벡터의 DC 성분을 제거하는 감산부; 상기 멜켑스트럼 계수 벡터에 대한 예측에러벡터를 산출하는 예측부; 상기 예측에러벡터를 양자화하는 양자화부; 상기 양자화된 예측에러벡터에 프레임 내 예측보상을 수행하여 제1 멜켑스트럼 계수 벡터를 생성하는 예측보상부; 및 상기 제1 멜켑스트럼 계수 벡터에 상기 감산부에 의해 제거된 상기 멜켑스트럼 벡터의 DC 성분을 가산하여 양자화된 최종 멜켑스트럼 계수 벡터를 산출하는 가산부를 포함한다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기 에서 설명하는 실시 예에 한정되지 않는다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였다. 명세서 전체를 통하여 유사한 부분에 대해서는 동일한 도면 부호를 붙였다.
이제 본 발명의 실시 예에 따른 분산 음성 인식 시스템에서 사용되는 멜켑스트럼 계수의 양자화 방법 및 장치에 대하여 도면을 참고로 하여 상세하게 설명한다.
먼저, 본 발명의 실시 예에 따른 멜켑스트럼 계수의 양자화 장치에 대해서 도 3을 참고로 하여 상세하게 설명한다.
도 3은 본 발명의 실시 예에 따른 멜켑스트럼 계수의 양자화 장치의 구성을 나타낸 도면이다.
도 3에 나타낸 바와 같이, 멜켑스트럼 계수의 양자화 장치는 감산부(10), 예측부(20), 트렐리스 부호화 양자화부(30), 예측보상부(40) 및 가산부(50)를 포함한다.
감산부(10)는 입력되는 멜켑스트럼 계수 벡터
Figure 112004059356219-PAT00002
로부터 멜켑스트럼 계수 벡터의 DC 성분(
Figure 112004059356219-PAT00003
)을 감산하여 DC 성분이 제거된 멜켑스트럼 계수 벡터
Figure 112004059356219-PAT00004
를 생성한다.
예측부(20)에서는 DC 성분이 제거된 멜켑스트럼 계수 벡터
Figure 112004059356219-PAT00005
를 입력받아 프레임간 1차 AR 예측을 수행하여 예측에러벡터
Figure 112004059356219-PAT00006
를 생성한다.
BC-TCQ부(30)는 예측에러벡터
Figure 112004059356219-PAT00007
를 후술할 BC-TCQ 알고리즘을 이용하여 양자화를 수행하여 양자화된 예측에러벡터
Figure 112004059356219-PAT00008
를 구한다.
예측보상기(40)는 구해진 예측에러벡터
Figure 112004059356219-PAT00009
에 대해서 프레임 내 예측보상을 수행하여 양자화 및 예측 보상된 멜켑스트럼 계수 벡터
Figure 112004059356219-PAT00010
를 생성한다.
가산기(50)는 양자화 및 예측 보상된 멜켑스트럼 계수 벡터
Figure 112004059356219-PAT00011
와 멜켑스트럼 계수 벡터의 DC 성분
Figure 112004059356219-PAT00012
을 가산하여 최종 양자화된 멜켑스트럼 계수 벡터
Figure 112004059356219-PAT00013
을 생성한다.
예측기(20)에 대해 좀더 세부적으로 설명하면, DC 성분이 제거된 멜켑스트럼 계수 벡터
Figure 112004059356219-PAT00014
에 대하여 수학식 1과 같이 1차 AR 프레임간 예측을 적용하여 현재 프레임(n)의 예측에러벡터
Figure 112004059356219-PAT00015
를 구한다.
Figure 112004059356219-PAT00016
수학식 1에서 는 이전 프레임에서 BC-TCQ 알고리즘에 의해 양자화된 다음, 프레임 내 예측보상이 수행된 벡터이고, 는 멜켑스트럼 계수 벡터의 프래임간 상관도를 나타내는 1차 AR 예측 계수이다.
다음, 본 발명에 적용되는 BC-TCQ 알고리즘에 대하여 설명한다.
본 발명에서 적용되는 BC-TCQ 알고리즘은 부호율이 1/2인 길쌈부호기 및 피드백이 없는 인코더를 기반으로 하는
Figure 112004059356219-PAT00017
(
Figure 112004059356219-PAT00018
, 여기서
Figure 112004059356219-PAT00019
는 샘플당 할당 비트수) 트렐리스 구조를 이용한 것이다.
BC-TCQ 알고리즘을 위한 전제 조건으로서, 선택 가능한 트렐리스 경로의 초기 상태를 전체
Figure 112004059356219-PAT00020
개의 상태 중
Figure 112004059356219-PAT00021
개로 제약하고, 마지막 스테이지의 상태도 트렐리스 경로의 초기 상태에 따라 전체
Figure 112004059356219-PAT00022
개의 스테이지 중
Figure 112004059356219-PAT00023
개로 제약한다.
이와 같은 BC-TCQ 알고리즘을 적용하여 싱글 비터비 부호화를 수행하는 과정은 다음과 같다.
첫 번째 스테이지부터
Figure 112004059356219-PAT00024
(여기서,
Figure 112004059356219-PAT00025
은 전체 스테이지수,
Figure 112004059356219-PAT00026
은 전체 트렐리스 상태 수) 스테이지까지 초기 상태 제약 조건 하에서 결정된
Figure 112004059356219-PAT00027
개의 생존경로들의 초기 상태를 참고한 후, 나머지
Figure 112004059356219-PAT00028
상태에서는 각 초기 상태에 따라 결정된
Figure 112004059356219-PAT00029
개의 상태들 중 하나를 마지막 스테이지의 상태가 선택되도록 하는 트렐리스 경로들만을 고려한다. 고려된 트렐리스 경로 중 최적의 트렐리스 경로를 구하여 전송하게 된다.
도 4는 전체 4-상태 트렐리스 구조에
Figure 112004059356219-PAT00030
가 1인 BC-TCQ 알고리즘을 적용하는 경우 고려되는 트렐리스 경로를 나타낸 것이다.
도 4에 나타낸 바와 같이, 선택 가능한 트렐리스 경로의 초기 상태는 4개 state들 중 '00' 혹은 '10'이며, 마지막 스테이지의 상태는 초기 상태가 '00'인 경우 '00' 혹은 '01', 초기 상태가 '10'인 경우 '10' 혹은 '11'로 제약을 둔다.
즉,
Figure 112004059356219-PAT00031
스테이지에서 상태 '00'까지 결정된 생존 경로(굵은 점선)의 초기 상태가 '00'이므로, 나머지 스테이지에서 선택 가능한 트렐리스 경로들은 마 지막 스테이지의 경로가 '00'과 '01'이 되는 굵은 실-점선으로 표시된다.
다음, 도 5에서와 같이 선택된 트렐리스 경로 하에서 동작하는 BC-TCQ 인코딩 과정을 도 6 내지 도 8을 참조하여 설명하기로 한다.
도 5는 BC-TCQ부의 비터비 인코딩 과정을 도식화한 도면이고, 도 6 내지 도 8은 BC-TCQ부의 BC-TCQ 인코딩 과정을 나타낸 도면이다.
먼저, 도 6에 나타낸 바와 같이, j번째 스테이지에서의 비터비 인코딩 과정을 도 7 내지 도 8을 통해 살펴보면, 0 스테이지의 p 상태에서의 전체 거리()에 대한 초기화가 수행되고(S100), 첫 번째 스테이지로부터
Figure 112004059356219-PAT00032
(여기서,
Figure 112004059356219-PAT00033
은 전체 스테이지수,
Figure 112004059356219-PAT00034
은 전체 트렐리스 상태 수) 스테이지까지 N개의 생존 경로를 결정한다(S200∼S300).
즉, 첫 번째 스테이지부터
Figure 112004059356219-PAT00035
스테이지의 N개의 상태에 대하여 j번째 스테이지의 p 상태와 연결된 두 개의 브랜치에 할당된 부코드북을 이용하여 양자화 왜곡
Figure 112004059356219-PAT00036
을 수학식 2 및 수학식 3에서와 같이 구하여 거리 메트릭
Figure 112004059356219-PAT00037
에 저장한다(S210).
Figure 112004059356219-PAT00038
Figure 112004059356219-PAT00039
수학식 2 및 수학식 3에 있어서,
Figure 112004059356219-PAT00040
는 j번째 스테이지의 p 상태와 (j-1)번째 스테이지의 i' 상태 사이의 브랜치에 할당된 부코드북을,
Figure 112004059356219-PAT00041
는 j번째 스테이지의 p 상태와 (j-1)번째 스테이지의 i" 상태 사이의 브랜치에 할당된 부코드북을 각각 나타낸다. 여기서,
Figure 112004059356219-PAT00042
Figure 112004059356219-PAT00043
는 각각 부코드북
Figure 112004059356219-PAT00044
Figure 112004059356219-PAT00045
내의 코드벡터를 나타낸다.
이후 j번째 스테이지의 p 상태와 연결된 두개의 트렐리스 경로 중 하나에 대한 선택 과정과 누적 왜곡 업데이트 과정은 수학식 4에서와 같이 수행되고, 그 결과에 따라서 경로를 선택하고
Figure 112004059356219-PAT00046
를 업데이트한다(S220의 S221∼S222).
Figure 112004059356219-PAT00047
다음, 나머지 v 스테이지에서 각 초기 상태에 따라 결정된
Figure 112004059356219-PAT00048
개의 상태 중 하나를 마지막 스테이지의 상태가 선택되도록 하는 트렐리스 경로들만을 고려한다(S400). 이를 위하여 단계(S300)에서와 같이 결정된 N개의 생존경로와 각각의 초기 상태 및 마지막
Figure 112004059356219-PAT00049
스테이지에서의
Figure 112004059356219-PAT00050
개의 트렐리스 경로를 결정한다(S410).
그리고 전체 N개의 생존경로에서 각 초기 상태 값에 따라 정의된
Figure 112004059356219-PAT00051
개의 상태 각각에 대하여 마지막 상태까지 결정된 경로에서의 입력 시퀀스와 양자화된 시퀀스간의 전체 거리가 가장 작은 값을 갖는 트렐리스 경로 정보 및 코드워드 정보를 구한다(S420∼S450). 이를 위하여
Figure 112004059356219-PAT00052
스테이지의 마지막 상태까지 결정된 경로에서의 입력 시퀀스와 양자화된 시퀀스간의 전체 거리 값
Figure 112004059356219-PAT00053
을 초기 스테이지부터
Figure 112004059356219-PAT00054
스테이지의 n 상태까지 구해진 거리 값
Figure 112004059356219-PAT00055
로 초기화한다(S421).
다음,
Figure 112004059356219-PAT00056
부터
Figure 112004059356219-PAT00057
스테이지의 생로경로 i에서 마지막 상태
Figure 112004059356219-PAT00058
까지 결정된 트렐리스 경로상에서 입력 샘플
Figure 112004059356219-PAT00059
의 양자화 값과 입력 샘플간의 거리
Figure 112004059356219-PAT00060
를 전체 거리 값
Figure 112004059356219-PAT00061
에 가산하여
Figure 112004059356219-PAT00062
를 업데이트한다(S422).
그리고 이렇게 구해진 전체 거리 값을 가장 작게 하는 상태 n을 구한 후에 구해진 전체 거리 값과 트렐리스 경로 정보 및 코드워드 정보를 저장한다(S424∼S425).
다음으로, 단계(420)에서 구해진 정보를 이용하여 전체 N 개의 생존경로에서 전체 거리 값을 최소로 하는 상태 i를 정한 후, 최종적으로 트렐리스 경로 정보와 코드워드 정보 및 전체 거리 값을 저장한다(S430∼S450).
<실험 예>
표 1∼표 3에 본 발명의 성능, 계산량, 코드북 저장을 위한 메모리 용량을 ETSI 규격에서 제안된 멜켑스트럼 계수 양자화 장치(SVQ)와 비교해서 도표로 각각 나타내었다. 성능은 CD(Cepstral Distance)를 사용하여 측정하였고, 계산량은 인코딩시 측정되는 가산, 승산, 비교 연산을 측정하여 나타내었다.
Figure 112004059356219-PAT00063
Figure 112004059356219-PAT00064
Figure 112004059356219-PAT00065
상기 표 1∼표 3을 살펴보면, 본 발명의 실시 예에 따른 멜켑스트럼 계수의 양자화 장치가 ETSI 규격의 SVQ에 비하여 CD값이 59.7%, 전체 계산량이 5.36%, 메모리 요구량이 46.87% 감소한 것을 알 수 있다.
이상에서 본 발명의 바람직한 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리 범위에 속하는 것이다.
본 발명에 의하면, 입력되는 멜켑스트럼 계수 벡터에 대해 DC 성분 제거 및 프레임간 예측을 적용해 얻어진 예측에러벡터를 BC-TCQ 알고리즘에 의해 양자화함으로써, 양자화시 요구되는 메모리 사이즈와 코드북 탐색과정에서의 계산량을 감소시키면서 향상된 양자화 성능을 얻을 수 있다.

Claims (11)

  1. 분산 음성 인식 시스템에서 멜켑스트럼(Mel Frequency Cepstral Coefficients) 계수를 양자화하는 방법에 있어서,
    a) 입력되는 멜켑스트럼 계수 벡터로부터 멜켑스트럼 계수 벡터의 DC 성분을 제거하는 단계;
    b) 상기 DC 성분이 제거된 멜켑스트럼 벡터 계수에 대하여 프레임간 예측을 수행하여 예측에러벡터를 생성하는 단계;
    c) 상기 생성된 예측에러벡터를 양자화하는 단계; 및
    d) 상기 양자화된 예측에러벡터에 상기 a)단계에서 제거된 상기 DC 성분을 더하여 양자화된 멜켑스트럼 계수 벡터를 생성하는 단계
    를 포함하는 분산 음성 시스템에서의 멜켑스트럼 계수의 양자화 방법.
  2. 제1항에 있어서,
    상기 c)단계에서 블록제한된 트렐리스 부호화 양자화(Block Constrained Trellis Coded Quantization: BC-TCQ) 방식을 이용하여 양자화하는 분산 음성 시스템에서의 멜켑스트럼 계수의 양자화 방법.
  3. 제2항에 있어서,
    상기 b)단계에서 상기 프레임간 예측은 상기 멜켑스트럼 계수 벡터의 프레임 간 상관도를 나타내는 1차 AR 예측 계수에 기초하여 수행되는 분산 음성 시스템에서의 멜켑스트럼 계수의 양자화 방법.
  4. 제2항에 있어서,
    상기 블록제한된 트렐리스 부호화 양자화 방식은, 부호율이 1/2인 길쌈부호기 및 피드백이 없는 인코더를 기반으로 하는
    Figure 112004059356219-PAT00066
    (
    Figure 112004059356219-PAT00067
    )―여기서, v는 샘플당 할당 비트수임― 트렐리스를 이용하는 분산 음성 시스템에서의 멜켑스트럼 계수의 양자화 방법.
  5. 제4항에 있어서,
    상기 블록제한된 트렐리스 부호화 양자화 방식은, 선택 가능한 트렐리스 경로의 초기 상태를 전체 N 개의 상태 중
    Figure 112004059356219-PAT00068
    개로 제약하고, 마지막 스테이지의 상태도 트렐리스 경로의 초기 상태에 따라 전체
    Figure 112004059356219-PAT00069
    개의 스테이지 중 개로 제약하는 분산 음성 시스템에서의 멜켑스트럼 계수의 양자화 방법.
  6. 제5항에 있어서,
    상기 블록제한된 트렐리스 부호화 양자화 방식은,
    첫 번째 스테이지부터 ―여기서, L은 전체 스테이지수, N 은 전체 트렐리스 상태 수임― 스테이지까지 결정된 N 개의 생존경로들의 초기 상태를 참고한 후, 나 머지
    Figure 112004059356219-PAT00070
    상태에서는 각 초기 상태에 따라 결정된
    Figure 112004059356219-PAT00071
    개의 상태 중 하나를 마지막 스테이지의 상태로 선택되도록 하는 트렐리스 경로들만을 고려하고, 고려된 트렐리스 경로 중 최적의 트렐리스 경로를 구하여 전송하는 분산 음성 시스템에서의 멜켑스트럼 계수의 양자화 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 d)단계는,
    양자화된 예측에러벡터에 프레임내 예측보상을 수행하여 1차 양자화된 멜켑스트럼 계수 벡터를 생성하는 단계; 및
    생성된 멜켑스트럼 계수 벡터에 멜켑스트럼 계수 벡터의 DC 성분을 더하여 최종 양자화된 멜켑스트럼 계수 벡터를 생성하는 단계
    를 포함하는 분산 음성 시스템에서의 멜켑스트럼 계수의 양자화 방법.
  8. 분산 음성 인식 시스템에서 멜켑스트럼(Mel Frequency Cepstral Coefficients) 계수를 양자화하는 장치에 있어서,
    입력되는 멜켑스트럼 계수 벡터로부터 멜켑스트럼 벡터의 DC 성분을 제거하는 감산부;
    상기 멜켑스트럼 계수 벡터에 대한 예측에러벡터를 산출하는 예측부;
    상기 예측에러벡터를 양자화하는 양자화부;
    상기 양자화된 예측에러벡터에 프레임 내 예측보상을 수행하여 제1 멜켑스트 럼 계수 벡터를 생성하는 예측보상부; 및
    상기 제1 멜켑스트럼 계수 벡터에 상기 감산부에 의해 제거된 상기 멜켑스트럼 벡터의 DC 성분을 가산하여 양자화된 최종 멜켑스트럼 계수 벡터를 산출하는 가산부
    를 포함하는 분산 음성 시스템에서의 멜켑스트럼 계수의 양자화 장치.
  9. 제8항에 있어서,
    상기 양자화부는, 블록제한된 트렐리스 부호화 양자화(Block Constrained Trellis Coded Quantization: BC-TCQ) 방식을 이용하여 양자화하는 분산 음성 시스템에서의 멜켑스트럼 계수의 양자화 장치.
  10. 제9항에 있어서,
    상기 블록제한된 트렐리스 부호화 양자화 방식은, 부호율이 1/2인 길쌈부호기 및 피드백이 없는 인코더를 기반으로 하는
    Figure 112004059356219-PAT00072
    (
    Figure 112004059356219-PAT00073
    )―여기서, v는 샘플당 할당 비트수임― 트렐리스를 이용하는 분산 음성 시스템에서의 멜켑스트럼 계수의 양자화 장치.
  11. 제9항에 있어서,
    상기 예측부는, 다음의 관계식
    여기서,
    Figure 112004059356219-PAT00074
    은 예측에러벡터이고, 는 이전 프레임에서 상기 블록제한된 트렐리스 부호화 양자화 방식에 의해 양자화된 다음, 프레임 내 예측보상이 수행된 벡터이고, 는 멜켑스트럼 계수 벡터의 프래임간 상관도를 나타내는 1차 AR 예측 계수임.
    에 의해 예측에러벡터를 구하는 분산 음성 시스템에서의 멜켑스트럼 계수의 양자화 장치.
KR1020040106926A 2004-12-16 2004-12-16 분산 음성 인식 시스템에서의 멜켑스트럼 계수의 양자화방법 및 장치 KR20060068278A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040106926A KR20060068278A (ko) 2004-12-16 2004-12-16 분산 음성 인식 시스템에서의 멜켑스트럼 계수의 양자화방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040106926A KR20060068278A (ko) 2004-12-16 2004-12-16 분산 음성 인식 시스템에서의 멜켑스트럼 계수의 양자화방법 및 장치

Publications (1)

Publication Number Publication Date
KR20060068278A true KR20060068278A (ko) 2006-06-21

Family

ID=37162609

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040106926A KR20060068278A (ko) 2004-12-16 2004-12-16 분산 음성 인식 시스템에서의 멜켑스트럼 계수의 양자화방법 및 장치

Country Status (1)

Country Link
KR (1) KR20060068278A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100763325B1 (ko) * 2003-02-07 2007-10-05 인터내셔널 비지네스 머신즈 코포레이션 분산 음성 인식을 위한 클래스 양자화
CN112927703A (zh) * 2014-05-07 2021-06-08 三星电子株式会社 对线性预测系数量化的方法和装置及解量化的方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100763325B1 (ko) * 2003-02-07 2007-10-05 인터내셔널 비지네스 머신즈 코포레이션 분산 음성 인식을 위한 클래스 양자화
CN112927703A (zh) * 2014-05-07 2021-06-08 三星电子株式会社 对线性预测系数量化的方法和装置及解量化的方法和装置

Similar Documents

Publication Publication Date Title
USRE49363E1 (en) Variable bit rate LPC filter quantizing and inverse quantizing device and method
US5271089A (en) Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits
US5778334A (en) Speech coders with speech-mode dependent pitch lag code allocation patterns minimizing pitch predictive distortion
KR100712056B1 (ko) 가변 비트율 음성 부호화에서의 선형 예측 매개변수들의견실한 예측 벡터 양자화를 위한 방법 및 장치
JP3151874B2 (ja) 音声パラメータ符号化方式および装置
US6148283A (en) Method and apparatus using multi-path multi-stage vector quantizer
KR100872538B1 (ko) Lpc 파라미터의 벡터 양자화 장치, lpc 파라미터복호화 장치, lpc 계수의 복호화 장치, 기록 매체,음성 부호화 장치, 음성 복호화 장치, 음성 신호 송신장치, 및 음성 신호 수신 장치
US8510105B2 (en) Compression and decompression of data vectors
CA2202825C (en) Speech coder
JPH08263099A (ja) 符号化装置
KR102400540B1 (ko) 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
KR960013082A (ko) 벡터양자화장치
JP4750366B2 (ja) ブロック制限されたtcqにおけるトレリス経路決定方法、ならびに音声符号化システムにおいてそのtcqにおけるトレリス経路決定方法を採用したラインスペクトル周波数係数の量子化方法及び装置
KR100647290B1 (ko) 합성된 음성의 특성을 이용하여 양자화/역양자화를선택하는 음성 부호화/복호화 장치 및 그 방법
KR100728056B1 (ko) 다중 경로 트랠리스 부호화 양자화 방법 및 이를 이용한다중 경로 트랠리스 부호화 양자화 장치
JP2645465B2 (ja) 低遅延低ビツトレート音声コーダ
KR100465316B1 (ko) 음성 부호화기 및 이를 이용한 음성 부호화 방법
CA2233896C (en) Signal coding system
KR20060068278A (ko) 분산 음성 인식 시스템에서의 멜켑스트럼 계수의 양자화방법 및 장치
JP2842276B2 (ja) 広帯域信号符号化装置
EP0483882B1 (en) Speech parameter encoding method capable of transmitting a spectrum parameter with a reduced number of bits
Xydeas et al. A long history quantization approach to scalar and vector quantization of LSP coefficients
EP0755047B1 (en) Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits
KR100322702B1 (ko) 스펙트럼피크패턴을이용한음성신호의양자화및복호화방법
JP3874851B2 (ja) 音声符号化装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application