KR100446594B1 - 음성선스펙트럼주파수의부호화/복호화장치및그방법 - Google Patents

음성선스펙트럼주파수의부호화/복호화장치및그방법 Download PDF

Info

Publication number
KR100446594B1
KR100446594B1 KR1019970013872A KR19970013872A KR100446594B1 KR 100446594 B1 KR100446594 B1 KR 100446594B1 KR 1019970013872 A KR1019970013872 A KR 1019970013872A KR 19970013872 A KR19970013872 A KR 19970013872A KR 100446594 B1 KR100446594 B1 KR 100446594B1
Authority
KR
South Korea
Prior art keywords
vector
quantized
codebook
code vector
index
Prior art date
Application number
KR1019970013872A
Other languages
English (en)
Other versions
KR19980076955A (ko
Inventor
김무영
조용덕
김홍국
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1019970013872A priority Critical patent/KR100446594B1/ko
Publication of KR19980076955A publication Critical patent/KR19980076955A/ko
Application granted granted Critical
Publication of KR100446594B1 publication Critical patent/KR100446594B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 선스펙트럼 주파수의 프레임간 뿐만 아니라 프레임내의 상관관계도 고려한 음성 선스펙트럼 주파수의 부호화/복호화 장치 및 그 방법에 관한 것으로서, 프레임 단위로 선스펙트럼 주파수를 부호화하는 장치는 프레임 단위의 선스펙트럼 주파수 벡터를 입력받아 하위부벡터, 중간부벡터, 상위부벡터로 나누는 벡터분할부; 중간부벡터를 중간코드북을 이용하여 양자화하고, 중간코드벡터인덱스와 양자화된 중간코드벡터를 산출하는 중간부벡터 부호화부; 양자화된 중간코드벡터의 최하위 선스펙트럼 주파수에 의해 소정의 수의 하위코드북들 중 하나의 하위코드북을 선택하고, 하위부벡터를 선택된 하위코드북을 이용하여 양자화하고, 하위코드벡터인덱스를 산출하는 하위부벡터 부호화부; 양자화된 중간코드벡터의 최상위 선스펙트럼 주파수에 의해 소정의 수의 상위코드북들 중 하나의 상위코드북을 선택하고, 상위부벡터를 선택된 상위코드북을 이용하여 양자화하고, 상위코드벡터인덱스를 산출하는 상위부벡터 부호화부; 및 중간코드벡터 인덱스, 하위코드벡터 인덱스 및 상위코드벡터 인덱스를 결합하여 복호화 장치로 전달하는 인덱스 결합부를 포함함을 특징으로 한다.
본 발명에 의하면, LSFs의 프레임간 뿐만 아니라 프레임내의 상관관계도 고려함으로써 종래의 방식에 비하여 동일한 정도의 원음의 복구 능력을 부여한 경우 음성부호화 장치와 음성복호화 장치 사이에 보다 적은 전송 비트가 요구된다.

Description

음성 선스펙트럼 주파수의 부호화/복호화 장치 및 그 방법.
본 발명은 음성 부호화/복호화 장치 및 그 방법에 관한 것으로서, 특히 선스펙트럼 주파수의 프레임간 뿐만 아니라 프레임내의 상관관계도 고려한 음성 선스펙트럼 주파수의 부호화/복호화 장치 및 그 방법에 관한 것이다.
최근에 개발되고 있는 음성코더들은 스펙트럼 포락선을 나타내기 위해 선형 예측 암호화(linear predictive coding : 이하에서 LPC라 한다) 계수를 사용하고 있다. 하지만, LPC 계수는 직접 양자화하기에는 너무 변화가 심하므로 선스펙트럼 주파수(line spectrum frequencies : 이하에서 LSFs라 한다)로 변환하여 양자화한다.
LSFs에 대한 양자화 방법은 다음과 같이 다양하다. 우선 스칼라(Scalar) 양자화 방법은 각 LSFs를 개별적으로 양자화하는데, 양질의 음성을 나타내기 위해서는 적어도 한 프레임당 32비트가 요구된다. 하지만, 최근의 음성 코더(speech coder)들은 LSFs에 프레임당 24비트 이상을 할당할 수 없기 때문에, 비트수를 줄이기 위해 여러가지 벡터 양자화(Vector Quantization : VQ) 알고리듬을 사용하고 있다.
종래의 벡터 양자화 기법을 이용하면 비트수를 줄일 수는 있으나, 다음과 같은 두가지 제약이 따른다. 첫째 코드북(codebook)을 저장하는데 소정의 양의 메모리가 필요하며, 둘째 상기 코드북에서 코드벡터(codevctor)를 찾아내는데 소정의 시간이 필요하다는 것이다. 상기 두가지 문제를 해결하기 위해서 팔리월(Paliwal)과 아탈(Atal)은 분할 벡터 양자화(split-vector quantization : 이하에서 SVQ라 한다) 방법을 제안했다. 이 방법에서는 상기 LSFs를 n개의 부분으로 나누고, 각 부분을 독립적으로 양자화함으로써, 메모리와 시간을 절약할 수 있었다. 하지만, 상기 SVQ에서는 LSFs의 순차성(the ordering property of LSFs)이 무시되는 코드벡터가 다수 존재하여 벡터 양자화 탐색 공간이 좁아지는 단점이 있다.
ITU-T에서 제안된 G.723.1 암호화기(coder)의 경우 LSFs를 양자화하기 위해 예측 분할 양자화(Predictive Split-Vector Quantizer : 이하에서 PSVQ라 한다)를 사용하며, 프레임당 24비트를 LSFs 양자화기에 할당한다. PSVQ의 경우 LSFs의 프레임간 상관관계(interframe correlation)를 사용함으로써, 팔리월(Paliwal)과 아탈(Atal)이 제안한 기존의 SVQ보다는 우수한 성능을 나타낸다. 그러나, PSVQ 방식에서도 프레임 내의 상관관계(intraframe correlation)를 고려하지 않기 때문에 일정한 한계를 지니게 된다.
본 발명은 상기의 문제점을 해결하기 위하여 창작된 것으로서, LSFs의 프레임간 뿐만 아니라 프레임내의 상관관계도 고려하여 종래의 벡터 양자화 방식에 비하여 원음의 복구 능력이 뛰어난 음성 선스펙트럼 주파수의 부호화/복호화 장치 및 그 방법을 제공함을 그 목적으로 한다.
상기의 목적을 달성하기 위하여, M개의 선스펙트럼 주파수로 변환된 음성신호를 하나의 프레임이라 할 때, 본 발명에 의한 상기 프레임 단위로 상기 선스펙트럼 주파수를 부호화하는 장치는 상기 프레임 단위의 선스펙트럼 주파수 벡터를 입력받아, 각각 소정의 차원의 하위부벡터, 중간부벡터, 상위부벡터로 나누는 벡터분할부; 상기 벡터분할부로부터 입력받은 중간부벡터를 중간코드북을 이용하여 양자화하고, 중간코드벡터인덱스와 양자화된 중간코드벡터를 산출하는 중간부벡터 부호화부; 상기 중간부벡터 부호화부에서 산출된 양자화된 중간코드벡터의 최하위 선스펙트럼 주파수에 의해 소정의 수의 하위코드북들 중 하나의 하위코드북을 선택하고, 상기 벡터분할부로부터 입력받은 하위부벡터를 상기 선택된 하위코드북을 이용하여 양자화하고, 하위코드벡터인덱스와 양자화된 하위코드벡터를 산출하는 하위부벡터 부호화부; 상기 중간부벡터 부호화부에서 산출된 양자화된 중간코드벡터의 최상위 선스펙트럼 주파수에 의해 소정의 수의 상위코드북들 중 하나의 상위코드북을 선택하고, 상기 벡터분할부로부터 입력받은 상위부벡터를 상기 선택된 상위코드북을 이용하여 양자화하고, 상위코드벡터인덱스와 양자화된 상위코드벡터를 산출하는 상위부벡터 부호화부; 및 상기 중간부벡터 부호화부에서 산출된 중간코드벡터 인덱스, 상기 하위부벡터 부호화부에서 산출된 하위코드벡터 인덱스 및 상기 상위부벡터 부호화부에서 산출된 상위코드벡터 인덱스를 결합하여 복호화 장치로 전달하는 인덱스 결합부를 포함함을 특징으로 한다.
상기의 다른 목적을 달성하기 위하여, M개의 선스펙트럼 주파수로 변환된 음성신호를 하나의 프레임이라 할 때, 본 발명에 의한 상기 프레임 단위 상기 선스펙트럼 주파수를 부호화하는 방법은 N개의 학습 데이터를 이용하여 상기 M개의 선스펙트럼 주파수에 대한 평균값을 구하는 제1단계; 상기 프레임 단위의 선스펙트럼 주파수 벡터를 입력받아, 각각 소정의 차원의 하위부벡터, 중간부벡터, 상위부벡터로 나누는 제2단계; 상기 나뉘어진 중간부벡터를 중간코드북을 이용하여 양자화하고, 중간코드벡터인덱스와 양자화된 중간코드벡터를 산출하는 제3단계; 상기 산출된 양자화된 중간코드벡터의 최하위 선스펙트럼 주파수에 의해 소정의 수의 하위코드북들 중 하나의 하위코드북을 선택하고, 상기 나뉘어진 하위부벡터를 상기 선택된 하위코드북을 이용하여 양자화하고, 하위코드벡터인덱스와 양자화된 하위코드벡터를 산출하는 제4단계; 상기 산출된 양자화된 중간코드벡터의 최상위 선스펙트럼 주파수에 의해 소정의 수의 상위코드북들 중 하나의 상위코드북을 선택하고, 상기 나뉘어진 상위부벡터를 상기 선택된 상위코드북을 이용하여 양자화하고, 상위코드벡터인덱스와 양자화된 상위코드벡터를 산출하는 제5단계; 상기 산출된 중간코드벡터 인덱스, 상기 산출된 하위코드벡터 인덱스 및 상기 산출된 상위코드벡터 인덱스를 결합하는 복호화 장치에 전달하는 제6단계; 및 새로운 입력 프레임이 존재하는 경우 상기 제2단계 내지 상기 제6단계를 반복하는 제7단계를 포함함을 특징으로 한다.
상기의 또 다른 목적을 달성하기 위하여, M개의 선스펙트럼 주파수로 변환된 음성신호를 하나의 프레임이라 할 때, 상기 프레임 단위를 복수의 부벡터로 나누어 각각의 코드북 내에서의 인덱스열로 부호화된 데이터를 복호화하는 본 발명에 의한 선스펙트럼 주파수 복호화 장치는 상기 프레임 단위로 부호화된 인덱스열을 입력받아 각각 하위인덱스, 중간인덱스, 상위인덱스로 나누는 인덱스분할부; 상기 인덱스분할부로부터 입력받은 중간인덱스에 의해 중간코드북에서 양자화된 중간코드벡터를 산출하는 중간코드벡터 복호화부; 상기 중간코드벡터 복호화부에서 산출된 양자화된 중간코드벡터의 최하위 선스펙트럼 주파수에 의해 소정의 수의 하위코드북들 중 하나의 하위코드북을 선택하고, 상기 인덱스분할부로부터 입력받은 하위인덱스에 의해 상기 선택된 하위코드북에서 양자화된 하위코드벡터를 산출하는 하위코드벡터 복호화부; 및 상기 중간코드벡터 복호화부에서 산출된 양자화된 중간코드벡터의 최상위 선스펙트럼 주파수에 의해 소정의 수의 상위코드북들 중 하나의 상위코드북을 선택하고, 상기 인덱스분할부로부터 입력받은 상위인덱스에 의해 상기 선택된 상위코드북에서 양자화된 상위코드벡터를 산출하는 상위코드벡터 복호화부를 포함함을 특징으로 한다.
상기의 또 다른 목적을 달성하기 위하여, M개의 선스펙트럼 주파수로 변환된 음성신호를 하나의 프레임이라 할 때, 상기 프레임 단위를 복수의 부벡터로 나누어 각각의 코드북 내에서의 인덱스열로 부호화된 데이터를 복호화하는 본 발명에 의한 선스펙트럼 주파수 복호화 방법은 N개의 학습 데이터를 이용하여 상기 M개의 선스펙트럼 주파수에 대한 평균값을 구하는 제1단계; 상기 프레임 단위로 부호화된 인덱스열을 각각 하위인덱스, 중간인덱스, 상위인덱스로 나누는 제2단계; 상기 중간인덱스에 의해 중간코드북에서 양자화된 중간코드벡터를 산출하는 제3단계; 상기 산출된 양자화된 중간코드벡터의 최하위 선스펙트럼 주파수에 의해 소정의 수의 하위코드북들 중 하나의 하위코드북을 선택하고, 상기 하위인덱스에 의해 상기 선택된 하위코드북에서 양자화된 하위코드벡터를 산출하는 제4단계; 상기 산출된 양자화된 중간코드벡터의 최상위 선스펙트럼 주파수에 의해 소정의 수의 상위코드북들 중 하나의 상위코드북을 선택하고, 상기 상위인덱스에 의해 상기 선택된 상위코드북에서 양자화된 상위코드벡터를 산출하는 제5단계; 및 새로운 입력 프레임이 존재하는 경우 상기 제2단계 내지 상기 제5단계를 반복하는 제6단계를 포함함을 특징으로 한다.
이하에서 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.
도 1은 본 발명에 의한 음성 선스펙트럼 주파수 부호화 장치의 구성을 도시한 블락도이다. 도 1에 의하면, 본 발명에 의한 음성 선스펙트럼 주파수 부호화 장치는 벡터 분할부(100), 중간부벡터 부호화부(110), 하위부벡터 부호화부(120), 상위부벡터 부호화부(130), 인덱스 결합부(140) 및 평균값 계산부(150)로 구성된다.
M개의 선스펙트럼 주파수로 변환된 음성신호를 하나의 프레임이라 할 때, 상기 평균값 계산부(150)는 소정의 수(N)의 학습 데이터를 사용하여 각 선스펙트럼 주파수의 평균값을 식
Figure pat00001
에 의해 미리 계산하여 둔다. 상기 계산된 각 선스펙트럼 주파수의 평균값은 선스펙트럼 주파수의 잔차를 구하는데 사용된다.
상기 벡터 분할부(100)는 상기 프레임 단위의 선스펙트럼 주파수 벡터를 입력받아, 각각 소정의 차원의 하위부벡터, 중간부벡터, 상위부벡터로 나누어 준다.
상기 중간부벡터 부호화부(110)는 상기 벡터분할부(100)로부터 입력받은 중간부벡터를 중간코드북(512)을 이용하여 양자화하고, 중간코드벡터인덱스와 양자화된 중간코드벡터를 산출한다.
도 5는 상기 중간부벡터 부호화부(110)의 구성을 도시한 블락도이다. 도 5에 의하면 상기 중간부벡터 부호화부(110)는 중간부벡터잔차 생성부(500), 중간코드북 탐색부(510), 양자화된 중간코드벡터 생성부(520)를 구비한다.
상기 중간부벡터잔차 생성부(500)는 상기 벡터분할부(100)로부터 입력받은 중간부벡터, 상기 평균값 계산부(150)에서 구하여진 스펙트럼 주파수의 평균값, 직전 프레임에 속한 양자화된 중간코드벡터를 이용하여 중간부벡터 잔차를 생성한다.
상기 중간코드북 탐색부(510)는 상기 중간코드북(512)을 구비하고, 상기 중간벡터잔차 생성부에서 생성된 중간부벡터 잔차와 가장 근접한 값을 상기 중간코드북(512)에서 찾아 양자화된 중간코드벡터 잔차로 두고, 상기 양자화된 중간코드벡터 잔차의 상기 중간코드북에서의 인덱스를 중간 코드벡터인덱스로 둔다.
상기 양자화된 중간코드벡터 생성부(520)는 상기 양자화된 중간코드벡터 잔차, 상기 평균값 계산부(150)에서 구하여진 스펙트럼 주파수의 평균값, 상기 직전 프레임에 속한 양자화된 중간코드벡터를 이용하여 양자화된 중간코드벡터를 생성한다.
상기 하위부벡터 부호화부(120)는 상기 중간부벡터 부호화부(110)에서 산출된 양자화된 중간코드벡터의 최하위 선스펙트럼 주파수에 의해 소정의 수의 하위코드북들 중 하나의 하위코드북을 선택하고, 상기 벡터분할부(100)로부터 입력받은 하위부벡터를 상기 선택된 하위코드북을 이용하여 양자화하고, 하위코드벡터인덱스와 양자화된 하위코드벡터를 산출한다.
도 6은 상기 하위부벡터 부호화부(120)의 구성을 도시한 블락도이다. 도 6에 의하면 상기 하위부벡터 부호화부(120)는 하위부벡터잔차 생성부(600), 하위코드북 분류부(610), 하위코드북 탐색부(620), 양자화된 하위코드벡터 생성부(630)를 구비한다.
상기 하위부벡터잔차 생성부(500)는 상기 벡터분할부(100)로부터 입력받은 하위부벡터, 상기 평균값 계산부(150)에서 구하여진 스펙트럼 주파수의 평균값, 직전 프레임에 속한 양자화된 하위코드벡터를 이용하여 하위부벡터 잔차를 생성한다.
상기 하위코드북 분류부(610)는 상기 중간부벡터 부호화부(110)에서 산출된 양자화된 중간코드벡터의 최하위 선스펙트럼 주파수에 의해 소정의 수의 하위코드북(622)들 중 하나의 하위코드북을 선택한다. 도 8은 상기 하위코드북 분류부(610)가 코드북(622)을 선택하는 조건의 일실시예를 도시한 것이다.
상기 하위코드북 탐색부(620)는 상기 소정의 수의 하위코드북(622)을 구비하고, 상기 하위부벡터잔차 생성부(600)에서 생성된 하위부벡터 잔차와 가장 근접한 값을 상기 하위코드북 분류부(610)에서 선택된 하위코드북에서 찾아, 상기 양자화된 하위코드벡터 잔차의 상기 선택된 하위코드북에서의 인덱스를 하위 코드벡터인덱스로 둔다.
상기 양자화된 하위코드벡터 생성부(630)는 상기 양자화된 하위코드벡터 잔차, 상기 평균값 계산부(150)에서 구하여진 스펙트럼 주파수의 평균값, 상기 직전 프레임에 속한 양자화된 하위코드벡터를 이용하여 양자화된 하위코드벡터를 생성한다.
상기 상위부벡터 부호화부(130)는 상기 중간부벡터 부호화부(110)에서 산출된 양자화된 중간코드벡터의 최상위 선스펙트럼 주파수에 의해 소정의 수의 상위코드북들 중 하나의 상위코드북을 선택하고, 상기 벡터분할부(100)로부터 입력받은 상위부벡터를 상기 선택된 상위코드북을 이용하여 양자화하고, 상위코드벡터인덱스와 양자화된 상위코드벡터를 산출한다.
도 7은 상기 상위부벡터 부호화부(130)의 구성을 도시한 블락도이다. 도 7에 의하면 상기 상위부벡터 부호화부(130)는 상위부벡터잔차 생성부(700), 상위코드북 분류부(710), 상위코드북 탐색부(720), 양자화된 상위코드벡터 생성부(730)를 구비한다. 상기 상위부벡터 부호화부(130)를 구성하는 구성요소들의 동작 내용은 상기 하위부벡터 부호화부(120)를 구성하는 구성요소들의 동작 내용과 유사하다.
도 9는 상기 상위코드북 분류부(710)가 코드북을 선택하는 조건의 일실시예를 도시한 것이다.
상기 인덱스 결합부(140)는 상기 중간부벡터 부호화부(110)에서 산출된 중간코드벡터 인덱스, 상기 하위부벡터 부호화부(120)에서 산출된 하위코드벡터 인덱스 및 상기 상위부벡터 부호화부(130)에서 산출된 상위코드벡터 인덱스를 결합하여 복호화 장치로 전달한다.
상기 중간부벡터 잔차, 상기 상위부벡터 잔차 및 상기 하위부벡터 잔차를 구성하는 각 선스펙트럼 주파수에 대한 잔차는 식
Figure pat00002
(여기서, {Δωi,i=1,2,…,M}는 선스펙트럼 주파수에 대한 잔차이고, {ωi DC,i=1,2,…,M}는 선스펙트럼 주파수의 평균값이다)
에 의하여 구하여지고,
상기 식에서 {ωi -1,i=1,2,…,M}는
Figure pat00003
(여기서, {
Figure pat00004
,i=1,2,…,M}는 직전 프레임의 양자화된 선스펙트럼 주파수이다.)
에 의해 구하여지는데 단, 초기 프레임에 대해서는
Figure pat00005
에 의해 구하여진다.
또, 상기 양자화된 중간코드벡터, 상기 양자화된 하위코드벡터 및 상기 양자화된 상위코드벡터를 구성하는 각 선스펙트럼 주파수는 식
Figure pat00006
(여기서, {
Figure pat00007
,i=1,2,…,M}는 양자화된 코드벡터이고, {
Figure pat00008
,i=1,2,…,M}는 양자화된 코드벡터 잔차이고, {ωi DC,i=1,2,…,M}는 선스펙트럼 주파수의 평균값이다.)
에 의하여 구하여진다.
도 2는 본 발명에 의한 음성 선스펙트럼 주파수 부호화 과정을 시간의 흐름에 따라 도시한 흐름도이다. 도 2에 의하면, M개의 선스펙트럼 주파수로 변환된 음성신호를 하나의 프레임이라 할 때, 본 발명에 의한 상기 프레임 단위 상기 선스펙트럼 주파수를 부호화하는 방법은 다음과 같다.
먼저, N개의 학습 데이터를 이용하여 M개의 선스펙트럼 주파수에 대한 평균값을 구하여 둔다(200단계). 다음, 상기 프레임 단위의 선스펙트럼 주파수 벡터를 입력받아, 각각 소정의 차원의 하위부벡터, 중간부벡터, 상위부벡터로 분할한다(210단계). 다음, 상기 중간부벡터를 중간코드북(512)을 이용하여 양자화하고, 중간코드벡터인덱스와 양자화된 중간코드벡터를 산출한다(220단계). 이 과정에서 과거 프레임의 LSFs로부터 현재 프레임의 LSFs를 예측하는 기법이 사용된다. 다음, 상기 산출된 양자화된 중간코드벡터의 최하위 선스펙트럼 주파수에 의해 소정의 수의 하위코드북들 중 하나의 하위코드북을 선택하고, 상기 하위부벡터를 상기 선택된 하위코드북을 이용하여 양자화하고, 하위코드벡터인덱스와 양자화된 하위코드벡터를 산출한다(230단계). 다음, 상기 산출된 양자화된 중간코드벡터의 최상위 선스펙트럼 주파수에 의해 소정의 수의 상위코드북들 중 하나의 상위코드북을 선택하고, 상기 상위부벡터를 상기 선택된 상위코드북을 이용하여 양자화하고, 상위코드벡터인덱스와 양자화된 상위코드벡터를 산출한다(240단계). 다음, 상기 산출된 중간코드벡터 인덱스, 상기 산출된 하위코드벡터 인덱스 및 상기 산출된 상위코드벡터 인덱스를 결합하는 복호화 장치에 전달하고(250단계), 새로운 입력 프레임이 존재하는지 여부를 검사하여(260단계), 새로운 입력 프레임이 존재하는 경우에는 상기 210단계로 되돌아 가고, 존재하지 않는 경우에는 부호화 과정을 종료한다.
도 3은 본 발명에 의한 음성 선스펙트럼 주파수 복호화 장치의 구성을 도시한 블락도이다. 도 3에 의하면, 본 발명에 의한 선스펙트럼 주파수의 복호화 장치는 인덱스 분할부(300), 중간코드벡터 복호화부(310), 하위코드벡터 복호화부(320), 상위코드벡터 복호화부(330) 및 평균값 계산부(340)으로 구성된다.
상기 인덱스 분할부(300)는 프레임 단위로 부호화된 인덱스열을 입력받아 각각 하위인덱스, 중간인덱스, 상위인덱스로 나누어 준다.
상기 중간코드벡터 복호화부(310)는 상기 인덱스 분할부(300)로부터 입력받은 중간인덱스에 의해 중간코드북에서 양자화된 중간코드벡터를 산출한다. 이때, 상기 중간코드벡터 복호화부(310)가 구비한 상기 중간코드북은 도 5에 도시된 중간코드북(512)과 동일한 것이다.
상기 하위코드벡터 복호화부(320)는 상기 중간코드벡터 복호화부(310)에서 산출된 양자화된 중간코드벡터의 최하위 선스펙트럼 주파수에 의해 소정의 수의 하위코드북들 중 하나의 하위코드북을 선택하고, 상기 인덱스 분할부(300)로부터 입력받은 하위인덱스에 의해 상기 선택된 하위코드북에서 양자화된 하위코드벡터를 산출한다. 이때, 상기 하위코드벡터 복호화부(320)가 구비한 상기 소정의 하위코드북은 도 6에 도시된 소정의 수의 하위코드북(612)과 동일한 것이다.
상기 상위코드벡터 복호화부(330)는 상기 중간코드벡터 복호화부(310)에서 산출된 양자화된 중간코드벡터의 최상위 선스펙트럼 주파수에 의해 소정의 수의 상위코드북들 중 하나의 상위코드북을 선택하고, 상기 인덱스 분할부(300)로부터 입력받은 상위인덱스에 의해 상기 선택된 상위코드북에서 양자화된 상위코드벡터를 산출한다. 이때, 상기 상위코드벡터 복호화부(330)가 구비한 상기 소정의 상위코드북은 도 7에 도시된 소정의 수의 상위코드북(712)과 동일한 것이다.
도 4는 본 발명에 의한 음성 선스펙트럼 주파수 복호화 과정을 시간의 흐름에 따라 도시한 흐름도이다. 도 4에 의하면, M개의 선스펙트럼 주파수로 변환된 음성신호를 하나의 프레임이라 할 때, 상기 프레임 단위를 복수의 부벡터로 나누어 각각의 코드북 내에서의 인덱스열로 부호화된 데이터를 복호화하는 선스펙트럼 주파수 복호화 방법은 다음과 같다.
먼저, N개의 학습 데이터를 이용하여 상기 M개의 선스펙트럼 주파수에 대한 평균값을 구한다(400단계). 다음, 상기 프레임 단위로 부호화된 인덱스열을 각각 하위인덱스, 중간인덱스, 상위인덱스로 분할한다(410단계). 다음, 상기 중간인덱스에 의해 중간코드북(512)에서 양자화된 중간코드벡터를 산출한다(420단계). 다음, 상기 산출된 양자화된 중간코드벡터의 최하위 선스펙트럼 주파수에 의해 소정의 수의 하위코드북들(622) 중 하나의 하위코드북을 선택하고, 상기 하위인덱스에 의해 상기 선택된 하위코드북에서 양자화된 하위코드벡터를 산출한다(430단계). 그 다음, 상기 산출된 양자화된 중간코드벡터의 최상위 선스펙트럼 주파수에 의해 소정의 수의 상위코드북들(722) 중 하나의 상위코드북을 선택하고, 상기 상위인덱스에 의해 상기 선택된 상위코드북에서 양자화된 상위코드벡터를 산출한다(440단계). 그 다음, 새로운 입력 프레임이 존재하는 지 여부를 검사하여(450단계), 새로운 인덱스열이 존재하는 경우 상기 410단계로 되돌아 가고, 존재하지 않는 경우에는 복호화 작업을 종료한다.
이하에서 본 발명에 대해 일실시예를 들어 설명한다. 즉, 하나의 프레임이 10차의 LSFs 이루어져 있다고 가정하고, 도 1에 도시된 벡터 분할기(100)에서는 상기 10차의 LSFs를 아래와 같이 하위, 중간, 상위 3개의 부벡터로 분할한다고 가정하자.
Figure pat00009
그리고, 상기 각 부벡터들의 양자화된 형태를 다음과 같이 표기하자.
Figure pat00010
본 발명에 의한 선스펙트럼 주파수의 부/복호화 장치에서의 양자화 과정은 크게 다음 두가지 구조로 이루어져있다. 첫번째는 직전 프레임의 LSFs로부터 현재 프레임의 LSFs를 예측(Prediction)하는 과정이고, 두번째는 LSFs의 프레임내 상관관계를 이용하여 하위 코드벡터와 상위 코드벡터를 중간 코드벡터와 연결(Link)하여 양자화하는 과정이다.
먼저 현재 프레임의 LSFs를 예측하는 과정을 살펴본다. 현재 프레임의 LSFs를 {ωi,i=1,2,…,10}라 하고, 직전 프레임의 LSFs를 {ωi -1,i=1,2,…,10} 라고 하자. 이때, 현재 프레임의 실제 LSFs와 예측된 LSFs의 잔차를 {Δωi,i=1,2,…,10}라 하면,
Figure pat00011
라고 할 수 있고, 이 값을 양자화 및 학습(training)에 사용한다.
여기서, {ωi DC,i=1,2,…,10} 는 i번째 LSFs의 평균값으로 N개의 학습 데이터에 대해서 다음 식에 의해 미리 구한다.
Figure pat00012
또한, {Δωi,i=1,2,…,10}의 양자화된 값을 {
Figure pat00013
,i=1,2,…,10}이라고 하면, 현재 프레임의 LSFs의 양자화된 값은 다음식과 같이 나타낼 수 있다.
Figure pat00014
또한, 현재 프레임의 LSFs의 양자화된 값은 다음 프레임을 위해 다음식과 같이 변경되며,
Figure pat00015
초기 프레임에 대해서는 다음식으로 초기화되어 있다.
Figure pat00016
다음은 하위 코드벡터와 상위 코드벡터를 중간 코드벡터와 연결(Link)하여 양자화하는 과정을 살펴본다.
도 5, 도 6, 도 7에 도시된 바와 같이, 하위코드북(COL)과 상위코드북(COU)은 각각 3가지 종류가 존재하며, 이중에서 어떤것이 사용될지는 중간코드북(COM)내에서 어떤 코드벡터가 결정되는가에 따라서 달라진다.
첫째로, 중간 LSFs (ω456)를 예측과 중간코드북을 사용해서 양자화하고, 그에 해당하는 중간코드벡터 인덱스를 얻는다. 가장 근접한 코드벡터를 구하기 위해서 다음과 같은 가중 유클리디언 거리척도(weighted Euclidean distance measure)
Figure pat00017
를 사요한다. 여기서 ω는 양자화되기 전에 원래 LSFs이고,
Figure pat00018
는 양자화 후에 얻게될 중코드북 내에 보관된 코드벡터의 값이다.
Figure pat00019
여기서, 하위코드북의 경우에는 i는 1,2,3이고, 중간코드북의 경우에는 i는 4,5,6이고, 상위코드북의 경우에는 i는 7,8,9,10이며, ωi
Figure pat00020
는 각각 ω와
Figure pat00021
의 i번째 LSFs이다.
i번째 LSFs의 가변 가중치 함수(variable weight function)는 다음과 같이 나타낸다.
Figure pat00022
(여기에서 ω0=0, ω11=fs/2 (fs=8kHz)이다.)
이 함수는 포만트 주파수(formant frequencies)에 가중치를 두어, 이 함수를 사용하지 않은 경우에 비해서 음질을 향상시킨다.
둘째로, 이미 양자화된
Figure pat00023
를 이용하여 어떤 하위코드북을 사용할 지 결정한다. 그 과정은 도 8에 나타나있다. 하위코드북의 종류가 결정된 후에는 첫번째 과정과 유사하게 (ω123)을 양자화하여, 하위코드벡터 인덱스를 구한다.
마지막으로,
Figure pat00024
와 도 9의 상위코드북 분류기를 이용하여 어떤 상위코드북을 사용할 지 결정하고, 이에 의해서 상위코드벡터 인덱스를 구한 다음, 상기 구한 중간코드벡터 인덱스, 상기 구한 하위코드벡터 인덱스 및 상기 구한 상위코드벡터 인덱스를 전송한다. 또한, 상기 3개의 하위코드북과 상기 3개의 상위코드북 중 어떤 하위코드북과 어떤 상위코드북이 선택되어 지는가는 상기 중간코드벡터 인덱스를 통하여 구할 수 있으므로, 부가적인 비트를 전송하지 않아도 복호화 장치에서 양자화된 LSFs를 복원할 수 있다.
본 발명의 성능을 측정하기 위해, NATC 음성 데이터 베이스를 사용하였다.
본 실험에서 학습 데이터로 사용한 NATC 데이터베이스의 한국어 음성은 4명의 남성과 4명의 여성이 각각 서로 다른 12개 문장씩을 8초씩 발음한 총 768초의 음성 데이터로 구성되어 있다. 공정한 평가를 위하여, 테스트 음성은 NATC 데이터베이스의 영어 음성으로, 2명의 남성과 2명의 여성이 각각 서로 다른 1개 문장씩을 8초씩 발음한 것으로 구성하였다.
음성 데이터는 20ms마다 자기상관함수(autocorrelation method)에 근거한 10차 LPC 분석을 거쳤으며, 다시 LSFs로 변환되었다. LSFs는 효율적인 양자화를 위해서 3,3,4 차원을 갖는 3개의 부벡터로 분리되었다.
여기에서 본 발명에 의한 방식을 일반적인 SVQ, LSVQ, PSVQ 등과 비교하기 위하여 PLSVQ(Predictive Linked Split-Vector Quantizer)이라고 한다. 성능 평가는 스펙트럼 왜곡(SD:spectral distortion) 측정법을 사용하였다. i 번째 프레임의 SD는 다음과 같으며,
Figure pat00025
여기서 Pj는 원래 LSF의 파워 스펙트럼(power spectrum of the original LSF)을 나타내며,
Figure pat00026
j는 양자화된 LSF의 파워 스펙트럼(power spectrum of the quantized LSF)을 나타낸다. 사람 귀의 특성에 맞춰서 a는 125Hz, b는 3400Hz가 선택되었다.
[표 1]
다양한 비트율에서의 PLSVQ 성능 비교
Figure pat00027
[표 2]
프레임당 24비트에서의 PLSVQ와 다른 알고리듬의 성능 비교
Figure pat00028
표 1은 PLSVQ의 성능을 여러 비트율에 대해서 측정한 것이다. 표 1에서와 같이 프레임당 22비트에서 평균 SD = 1.00dB, SD > 4dB되는 것이 0.19% 로 나타났다.
표 2에는 PLSVQ와 다른 SVQ 알고리듬의 평균 SD가 나타나있다. PLSVQ의 평균 SD는 다른 알고리듬에 비해 낮았고, 아웃라이어 퍼센티지(outlier percentage)에서도 우수함을 알 수 있다. 표 1과 표 2를 통해 PLSVQ는 프레임당 21비트에서 프레임당 24비트의 SVQ보다 뛰어난 성능을 나타냄을 알 수 있다.
본 발명에 의하면, LSFs의 프레임간 뿐만 아니라 프레임내의 상관관계도 고려함으로써 종래의 방식에 비하여 동일한 정도의 원음의 복구 능력을 부여한 경우 음성부호화 장치와 음성복호화 장치 사이에 보다 적은 전송 비트가 요구된다.
도 1은 본 발명에 의한 음성 선스펙트럼 주파수 부호화 장치의 구성을 도시한 블락도이다.
도 2는 본 발명에 의한 음성 선스펙트럼 주파수 부호화 과정을 시간의 흐름에 따라 도시한 흐름도이다.
도 3은 본 발명에 의한 음성 선스펙트럼 주파수 복호화 장치의 구성을 도시한 블락도이다.
도 4는 본 발명에 의한 음성 선스펙트럼 주파수 복호화 과정을 시간의 흐름에 따라 도시한 흐름도이다.
도 5는 본 발명에 의한 음성 선스펙트럼 주파수 부호화 장치에 포함된 중간부벡터 부호화부의 구성을 도시한 블락도이다.
도 6은 본 발명에 의한 음성 선스펙트럼 주파수 부호화 장치에 포함된 하위부벡터 부호화부의 구성을 도시한 블락도이다.
도 7는 본 발명에 의한 음성 선스펙트럼 주파수 부호화 장치에 포함된 상위부벡터 부호화부의 구성을 도시한 블락도이다.
도 8은 도 6에 도시된 하위코드북 분류부가 코드북을 선택하는 조건의 일실시예를 도시한 것이다.
도 9는 도 7에 도시된 상위코드북 분류부가 코드북을 선택하는 조건의 일실시예를 도시한 것이다.

Claims (9)

  1. M개의 선스펙트럼 주파수로 변환된 음성신호를 하나의 프레임이라 할 때, 상기 프레임 단위로 선스펙트럼 주파수를 부호화하는 장치에 있어서,
    N개의 프레임으로 이루어진 학습 데이터를 사용하여 선스펙트럼 주파수별 평균값을 계산하는 평균값 계산부;
    상기 프레임 단위의 선스펙트럼 주파수 벡터를 입력받아, 각각 소정의 차원의 하위부벡터, 중간부벡터, 상위부벡터로 나누는 백터분할;
    상기 벡터분할부로부터 입력받은 중간부벡터, 상기 평균값 계산부에서 계산된 평균값, 및 직전 프레임에 속한 양자화된 중가코드백터로부터 생서된 중간부벡터 잔차를 중간코드북을 이용하여 양자화하고, 양자화된 중간코드벡터 잔차로부터 중간코드벡터인덱스와 양자화된 중간코드벡터를 산출하는 중간부벡터 부호화;
    상기 중간부벡터 부호화부에서 산출된 양자화된 중간코드벡터의 최하위 선스펙트럼 주파수에 의해 소정의 수의 하위코드북들 중 하나의 하위코드복을 선택하고, 상기 벡터분할부로부터 입력받은 하위부벡터, 상기 평균값 계산부에서 계산된 평균값, 및 직전 프레임에 속한 양자화된 하위코드벡터로부터 생성된 하위부벡터 잔차를 상기 선택된 하위코드북을 이용하여 양자화하고, 양자화된 하위코드벡터 잔차로부터 하위코드벡터인덱스와 양자화된 하위코드벡터를 산축하는 하위부벡터 부 호화부;
    상기 중간부벡터 부호화부에서 산출된 양자화된 중간코드벡터의 최상위 선스펙트럼 주파수에 의해 소정의 수의 상위코드북들 중 하나의 상위코드북을 선택하고, 상기 벡터분할부로부터 입력받은 상위부벡터, 상기 평균값 계산부에서 계산된 평균값, 및 직전 프레임에 속한 양자화된 상위코드벡터로부터 생성된 상위부벡터 잔차를 상기 선택된 상위코드북을 이용하여 양자화하고, 양자화된 상위코드벡터 잔차로부터 상위코드벡터인덱스와 양자화된 상위코드벡터를 산출하는 상위부벡터 부호화부; 및
    상기 중간부벡터 부호화부에서 산출된 중간코드벡터 인덱스, 상기 하위부벡터 부호화부에서 산출된 하위코드벡터 인덱스 및 상기 상위부벡터 부호화부에서 산출된 상위코드벡터 인덱스를 결합하는 인덱스 결합부를 포함함을 특징으로 하는 음성 선스펙트럼 주파수 부호화 장치.
  2. 제2항에 있어서, 상기 중간부벡터 부호화부는
    상기 벡터분할부로부터 입력받은 중간부벡터, 상기 평균값 계산부에서 구하여진 스펙트럼 주파수의 평균값, 직전 프레임에 속한 양자화된 중간코드벡터를 이용하여 중간부벡터 잔차를 생성하는 중간부벡터잔차 생성부;
    상기 중간코드북을 구비하고, 상기 중간벡터잔차 생성부에서 생성된 중간부벡터 잔차와 가장 근접한 값을 상기 중간코드북에서 찾아 양자화된 중간코드벡터 잔차로 두고, 상기 양자화된 중간코드벡터 잔차의 상기 중간코드북에서의 인덱스를 중간 코드벡터인덱스로 두는 중간코드북 탐색부; 및
    상기 양자화된 중간코드벡터 잔차, 상기 평균값 계산부에서 구하여진 스펙트럼 주파수의 평균값, 상기 직전 프레임에 속한 양자화된 중간코드벡터를 이용하여 양자화된 중간코드벡터를 생성하는 양자화된 중간코드벡터 생성부를 구비하고,
    상기 하위부벡터 부호화부는
    상기 벡터분할부로부터 입력받은 하위부벡터, 상기 평균값 계산부에서 구하여진 스펙트럼 주파수의 평균값, 직전 프레임에 속한 양자화된 하위코드벡터를 이용하여 하위부벡터 잔차를 생성하는 하위부벡터잔차 생성부;
    상기 중간부벡터 부호화부에서 산출된 양자화된 중간코드벡터의 최하위 선스펙트럼 주파수에 의해 소정의 수의 하위코드북들 중 하나의 하위코드북을 선택하는 하위코드북 분류부;
    상기 소정의 수의 하위코드북을 구비하고, 상기 하위부벡터잔차 생성부에서 생성된 하위부벡터 잔차와 가장 근접한 값을 상기 하위코드북 분류부에서 선택된 하위코드북에서 찾아, 상기 양자화된 하위코드벡터 잔차의 상기 선택된 하위코드북에서의 인덱스를 하위 코드벡터인덱스로 두는 하위코드북 탐색부; 및
    상기 양자화된 하위코드벡터 잔차, 상기 평균값 계산부에서 구하여진 스펙트럼 주파수의 평균값, 상기 직전 프레임에 속한 양자화된 하위코드벡터를 이용하여 양자화된 하위코드벡터를 생성하는 양자화된 하위코드벡터 생성부를 구비하고,
    상기 상위부벡터 부호화부는
    상기 벡터분할부로부터 입력받은 상위부벡터, 상기 평균값 계산부에서 구하여진 스펙트럼 주파수의 평균값, 직전 프레임에 속한 양자화된 상위코드벡터를 이용하여 상위부벡터 잔차를 생성하는 상위부벡터잔차 생성부;
    상기 중간부벡터 부호화부에서 산출된 양자화된 중간코드벡터의 최상위 선스펙트럼 주파수에 의해 소정의 수의 상위코드북들 중 하나의 상위코드북을 선택하는 상위코드북 분류부;
    상기 소정의 수의 상위코드북을 구비하고, 상기 상위부벡터잔차 생성부에서 생성된 상위부벡터 잔차와 가장 근접한 값을 상기 상위코드북 분류부에서 선택된 상위코드북에서 찾아, 상기 양자화된 상위코드벡터 잔차의 상기 선택된 상위코드북에서의 인덱스를 상위 코드벡터인덱스로 두는 상위코드북 탐색부; 및
    상기 양자화된 상위코드벡터 잔차, 상기 평균값 계산부에서 구하여진 스펙트럼 주파수의 평균값, 상기 직전 프레임에 속한 양자화된 상위코드벡터를 이용하여 양자화된 상위코드벡터를 생성하는 양자화된 상위코드벡터 생성부를 구비하는 것을 특징으로 하는 음성 선스펙트럼 주파수 부호화 장치.
  3. 제2항에 있어서, 상기 중간부벡터 잔차, 상기 상위부벡터 잔차 및 상기 하위부벡터 잔차를 구성하는 각 선스펙트럼 주파수에 대한 잔차는 식
    Figure pat00029
    (여기서, {Δωi,i=1,2,…,M}는 선스펙트럼 주파수에 대한 잔차이고, {ωi DC,i=1,2,…,M}는 선스펙트럼 주파수의 평균값이다)
    에 의하여 구하여지고,
    상기 식에서 {ωi -1,i=1,2,…,M}는
    Figure pat00030
    (여기서, {
    Figure pat00031
    ,i=1,2,…,M}는 직전 프레임의 양자화된 선스펙트럼 주파수이다.)
    에 의해 구하는데 단, 초기 프레임에 대해서는
    Figure pat00032
    에 의해 구하는 것을 특징으로 하는 음성 선스펙트럼 주파수 부호화 장치.
  4. 제2항에 있어서, 상기 양자화된 중간코드벡터, 상기 양자화된 하위코드벡터 및 상기 양자화된 상위코드벡터를 구성하는 각 선스펙트럼 주파수는 식
    Figure pat00033
    (여기서, {
    Figure pat00034
    ,i=1,2,…,M}는 양자화된 코드벡터이고, {
    Figure pat00035
    ,P=1,2,…,M}는 양자화된 코드벡터 잔차이고, {ωi DC,i=1,2,…,M}는 선스펙트럼 주파수의 평균값이다.)
    에 의하여 구하여지고,
    상기 식에서 {ωi -1,i=1,2,…,M}는
    Figure pat00036
    (여기서, {
    Figure pat00037
    ,i=1,2,…,M}는 직전 프레임의 양자화된 선스펙트럼 주파수이다.)
    에 의해 구하는데 단, 초기 프레임에 대해서는
    Figure pat00038
    에 의해 구하는 것을 특징으로 하는 음성 선스펙트럼 주파수 부호화 장치.
  5. 제2항에 있어서, 상기 하위코드벡터코드북 탐색부는
    제1하위벡터 코드북, 제2하위벡터 코드북 및 제3하위벡터 코드북을 구비하고,
    상기 하위코드북 분류부는
    상기 중간부벡터 부호화부에서 산출된 양자화된 중간코드벡터의 최하위 선스펙트럼 주파수값을 x라 할 때, 0*4000/π ≤ x < 1.000*4000/π 인 경우에는 상기 제1하위벡터 코드북을 선택하고, 1.000*4000/π ≤ x < 1.079*4000/π 인 경우에는 상기 제2하위벡터 코드북을 선택하고, 1.079*4000/π ≤ x < π*4000/π 인 경우에는 상기 제3하위벡터 코드북을 선택하는 것을 특징으로 하는 음성 선스펙트럼 주파수 부호화 장치.
  6. 제2항에 있어서, 상기 상위코드벡터코드북 탐색부는
    제1상위벡터 코드북, 제2상위벡터 코드북 및 제3상위벡터 코드북을 구비하고,
    상기 상위코드북 분류부는
    상기 중간부벡터 부호화부에서 산출된 양자화된 중간코드벡터의 최상위 선스펙트럼 주파수값을 x라 할 때, 0*4000/π ≤ x < 1.613*4000/π 인 경우에는 상기 제1상위벡터 코드북을 선택하고, 1.613*4000/π ≤ x < 1.674*4000/π 인 경우에는 상기 제2상위벡터 코드북을 선택하고, 1.674*4000/π ≤ x < π*4000/π 인 경우에는 상기 제3상위벡터 코드북을 선택하는 것을 특징으로 하는 음성 선스펙트럼 주파수 부호화 장치.
  7. M개의 선스펙트럼 주파수로 변환된 음성신호를 하나의 프레임이라 할 때, 프레임 단위로 부호화하는 선스펙트럼 주파수 부호화 방법에 있어서,
    N개의 프레임으로 이루어진 학습 데이터를 이용하여 선스펙트럼 주파수별 평균값을 구하는 제1단계;
    상기 프레임 단위의 선스펙트럼 주파수 벡터를 입력받아, 각각 소정의 차원의 하위부벡터, 중간부벡터, 상위부벡터로 나누는 제2단계;
    상기 나뉘어진 중간부벡터, 상기 평균값 계산부에서 계산된 평균값, 및 직전 프레임에 속한 양자회된 중간코드벡터로부터 생성된 중간부벡터 잔차를 중간코드북을 이용하여 양자화하고; 양자화된 중간코드벡터 잔차로부터 중간코드벡터인덱스와 양자화된 중간코드벡터를 산출하는 제3단계;
    상기 산출된 양자화된 중간코드벡터의 최하위 선스펙트럼 주파수에 의해 소정의 수의 하위코드북들 중 하나의 하위코드북을 선택하고, 상기 나뉘어진 하위부벡터, 상기 평균값 계산부에서 계산된 평균값, 및 직전 프레임에 속한 양자화된 하위코드벡터로부터 생성된 하위부벡터 잔차를 상기 선택된 하위코드북을 이용하여 양자화하고, 양자화된 하위코드벡터 잔차로부터 하위코드벡터인덱스와 양자화된 하위코드벡터를 산출하는 제4단계;
    상기 산출된 양자화된 중간코드벡터의 최상위 선스펙트럼 주파수에 의해 소정의 수의 상위코드북들 중 하나의 상위코드북을 선택하고, 상기 나뉘어진 상위부벡터, 상기 평균값 계산부에서 계산된 평균값, 및 직전 프레임에 속한 양자화된 상위코드벡터로부터 생성된 상위부벡터 잔차를 상기 선택된 상위코드북을 이용하여 양자화하고, 양자화된 상위코드벡터 잔차로부터 상위코드벡터인덱스와 양자화된 상위코드벡터를 산출하는 제5단계;
    상기 산출된 중간코드벡터 인덱스, 상기 산출된 하위코드벡터 인덱스 및 상기 산출된 상위코드벡터 인덱스를 결합하는 제6단계; 및
    새로운 입력 프레임이 존재하는 경우 상기 제2단계 내지 상기 제6단계를 반복하는 제7단계를 포함함을 특징으로 하는 음성 선스펙트럼 주파수 부호화 방법.
  8. M개의 선스펙트럼 주파수로 변환된 음성신호를 하나의 프레임이라 할 때, 상기 프레임 단위를 복수의 부벡터로 나누어 각각의 코드북 내에서의 인덱스열로 부호화된 데이터를 복호화하는 선스펙트럼 주파수 복호화 장치에 있어서,
    N개의 프레임으로 이루어진 학습 데이터를 사용하여 선스펙트럼 주파수별 평균값을 계산하는 평균값 계산부;
    상기 프레임 다위로 부호화된 인덱스열을 입력받아 각각 하위인덱스, 중간인 덱스, 상위인덱스로 나누는 인덱스분할부;
    상기 인덱스분할부로부터 입력받은 중간인덱스, 상기 평균값 계산부에서 계산된 평균값, 및 직전 프레임에 속한 양자화된 중간코드벡터로부터 생성된 중간부벡터 잔차를 중간코드북을 이용하여 양자화하고, 양자화된 중간코드벡터 잔차로부터 양자화된 중간코드벡터를 산출하는 중간코드벡터 복호화부;
    상기 중간코드벡터 복호화부에서 산출된 양자화된 중간코드벡터의 최상위 선스펙트럼 주파수에 의해 소정의 수의 하위코드북들 중 하나의 하위코드북을 선택하고, 상기 인덱스분할부로부터 입력받은 하위인덱스, 상기 평균값 계산부에서 계산된 평균값, 및 직전 프레임에 속한 양자화된 하위코드벡터로부터 생성된 하위부벡터 잔차를 상기 선택된 하위코드북을 이용하여 양자화하고, 양자화된 하위코드벡터 잔차로부터 양자화된 하위코드벡터를 산출하는 하위코드벡터 복화부; 및
    상기 중간코드벡터 복호화부에서 산출된 양자화된 중간코드벡터의 최상위 선 스펙트럼 주파수에 의해 소정의 수의 상위코드북들 중 하나의 상위코드북을 선택하고, 상기 인덱스분할부로부터 입력받은 상위인덱스, 상기 평균값 계산부에서 계산된 평균값, 및 직전 프레임에 속한 양자화된 상위코드벡터로부터 생성된 상위부벡터 잔차를 상기 선택된 상위코드북을 이용하여 양자화하고, 양자화된 상위코드벡터 잔차로부터 양자화된 상위코드벡터를 산출하는 상위코드벡터 복호화부를 포함함을 특징으로 하는 음성 선스펙트럼 주파수 복호화 장치.
  9. M개의 선스펙트럼 주파수로 변환된 음성신호를 하나의 프레임이라 할 때, 상기 프레임 단위를 복수의 부벡터로 나누어 각각의 코드북 내에서의 인덱스열로 부호화된 데이터를 복호화하는 선스펙트럼 주파수 복호화 방법에 있어서,
    N개의 프레임으로 이루어진 학습 데이터를 이용하여 선스펙트럼 주파수에 평균값을 구하는 제1단계;
    상기 프레임 단위로 부호화된 인덱스열을 각각 하위인덱스, 중간인덱스, 상위인덱스로 나누는 제2단계;
    상기 중간인덱스, 상기 평균값 계산부에서 계산된 평균값, 및 직전 프레임에 속한 양자화된 중간코드벡터로부터 생성된 중간부벡터 잔차를 중간코드북을 이용하여 양자화하고, 양자화된 중간코드벡터 잔차로부터 양자화된 중간코드벡터를 산출하는 제3단계;
    상기 산출된 양자화된 중간코드벡터의 최하위 선스펙트럼 주파수에 의해 소 정의 수의 하위코드북들 중 하나의 하위코드북을 선택하고, 상기 하위인덱스, 상기평균값 계산부에서 계산된 평균값, 및 직전 프레임에 속한 양자화된 하위코드벡터로부터 생성된 하위부벡터 잔차를 상기 선택된 하위코드북을 이용하여 양자화하고,양자화된 하위코드벡터 잔차로부터 양자화된 하위코드벡터를 산출하는 제4단계;
    상기 산출된 양자화된 중간코드벡터의 최상위 선스펙트럼 주파수에 의해 소 정의 수의 상위코드북들 중 하나의 상위코드북을 선택하고, 상기 상위인덱스, 상기 평균값 계산부에서 계산된 평균값, 및 직전 프레임에 속한 양자화된 상위코드벡터로부터 생성된 상위부벡터 잔차를 상기 선택된 상위코드북을 이용하여 양자화하고, 양자화된 상위코드벡터 잔차로부터 양자화된 상위코드벡터를 산출하는 제5단계: 및
    새로운 입력 프레임이 존재하는 경우 상기 제2단계 내지 상기 제5단계를 반복하는 제6단계를 포함함을 특징으로 하는 음성 선스펙트럼 주파수 복호화 방법
KR1019970013872A 1997-04-15 1997-04-15 음성선스펙트럼주파수의부호화/복호화장치및그방법 KR100446594B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970013872A KR100446594B1 (ko) 1997-04-15 1997-04-15 음성선스펙트럼주파수의부호화/복호화장치및그방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970013872A KR100446594B1 (ko) 1997-04-15 1997-04-15 음성선스펙트럼주파수의부호화/복호화장치및그방법

Publications (2)

Publication Number Publication Date
KR19980076955A KR19980076955A (ko) 1998-11-16
KR100446594B1 true KR100446594B1 (ko) 2005-06-02

Family

ID=37302730

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970013872A KR100446594B1 (ko) 1997-04-15 1997-04-15 음성선스펙트럼주파수의부호화/복호화장치및그방법

Country Status (1)

Country Link
KR (1) KR100446594B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11545162B2 (en) 2017-10-24 2023-01-03 Samsung Electronics Co., Ltd. Audio reconstruction method and device which use machine learning

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101393301B1 (ko) * 2005-11-15 2014-05-28 삼성전자주식회사 선형예측계수의 양자화 및 역양자화 방법 및 장치
KR101501349B1 (ko) * 2013-05-15 2015-03-11 세종대학교산학협력단 음악 장르 분류 장치 및 그 방법
CN112435674A (zh) * 2020-12-09 2021-03-02 北京百瑞互联技术有限公司 优化频谱数据的lc3算术编码搜索表的方法、装置、介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH045700A (ja) * 1990-04-23 1992-01-09 Mitsubishi Electric Corp 音声復号化装置及び音声符号化・復号化装置
JPH056199A (ja) * 1991-06-27 1993-01-14 Nec Corp 音声パラメータ符号化方式
JPH0675600A (ja) * 1992-08-27 1994-03-18 Fujitsu Ltd 分割ベクトル量子化方式および分割ベクトル逆量子化方式
JPH06324700A (ja) * 1993-05-12 1994-11-25 N T T Idou Tsuushinmou Kk Lsp量子化方法
US5487128A (en) * 1991-02-26 1996-01-23 Nec Corporation Speech parameter coding method and appparatus
JPH0863199A (ja) * 1994-08-24 1996-03-08 Matsushita Electric Ind Co Ltd ベクトル量子化装置
US5557705A (en) * 1991-12-03 1996-09-17 Nec Corporation Low bit rate speech signal transmitting system using an analyzer and synthesizer

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH045700A (ja) * 1990-04-23 1992-01-09 Mitsubishi Electric Corp 音声復号化装置及び音声符号化・復号化装置
US5487128A (en) * 1991-02-26 1996-01-23 Nec Corporation Speech parameter coding method and appparatus
JPH056199A (ja) * 1991-06-27 1993-01-14 Nec Corp 音声パラメータ符号化方式
US5557705A (en) * 1991-12-03 1996-09-17 Nec Corporation Low bit rate speech signal transmitting system using an analyzer and synthesizer
JPH0675600A (ja) * 1992-08-27 1994-03-18 Fujitsu Ltd 分割ベクトル量子化方式および分割ベクトル逆量子化方式
JPH06324700A (ja) * 1993-05-12 1994-11-25 N T T Idou Tsuushinmou Kk Lsp量子化方法
JPH0863199A (ja) * 1994-08-24 1996-03-08 Matsushita Electric Ind Co Ltd ベクトル量子化装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11545162B2 (en) 2017-10-24 2023-01-03 Samsung Electronics Co., Ltd. Audio reconstruction method and device which use machine learning

Also Published As

Publication number Publication date
KR19980076955A (ko) 1998-11-16

Similar Documents

Publication Publication Date Title
USRE49363E1 (en) Variable bit rate LPC filter quantizing and inverse quantizing device and method
US6269333B1 (en) Codebook population using centroid pairs
Ramaswamy et al. Compression of acoustic features for speech recognition in network environments
US7149683B2 (en) Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
CA2202825C (en) Speech coder
JP3114197B2 (ja) 音声パラメータ符号化方法
JPH08263099A (ja) 符号化装置
KR100322706B1 (ko) 선형예측부호화계수의부호화및복호화방법
JPH08272395A (ja) 音声符号化装置
JP3089769B2 (ja) 音声符号化装置
Kataoka et al. An 8-bit/s speech coder based on conjugate structure CELP
KR100446594B1 (ko) 음성선스펙트럼주파수의부호화/복호화장치및그방법
Kim et al. Linked split-vector quantizer of LPC parameters
Wang et al. Product code vector quantization of LPC parameters
US8630849B2 (en) Coefficient splitting structure for vector quantization bit allocation and dequantization
KR100389897B1 (ko) 분할된 lsf 벡터의 예측-연결 양자화 방법
IL114818A (en) Quantity weighted weighted quantization spectra of a pair of frequencies
Xydeas et al. A long history quantization approach to scalar and vector quantization of LSP coefficients
EP0483882A2 (en) Speech parameter encoding method capable of transmitting a spectrum parameter with a reduced number of bits
JP3024467B2 (ja) 音声符号化装置
KR100300963B1 (ko) 연결스칼라양자화기
EP0755047A2 (en) Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits
JPH08101700A (ja) ベクトル量子化装置
Merouane Efficient encoding of the MELP LSF parameters: Application of the switched split vector quantization
KR100322702B1 (ko) 스펙트럼피크패턴을이용한음성신호의양자화및복호화방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080731

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee