KR100218214B1 - 음성 부호화 장치 및 음성 부호화 복호화 장치 - Google Patents

음성 부호화 장치 및 음성 부호화 복호화 장치 Download PDF

Info

Publication number
KR100218214B1
KR100218214B1 KR1019970001026A KR19970001026A KR100218214B1 KR 100218214 B1 KR100218214 B1 KR 100218214B1 KR 1019970001026 A KR1019970001026 A KR 1019970001026A KR 19970001026 A KR19970001026 A KR 19970001026A KR 100218214 B1 KR100218214 B1 KR 100218214B1
Authority
KR
South Korea
Prior art keywords
sound source
vector
speech
generating
adaptive
Prior art date
Application number
KR1019970001026A
Other languages
English (en)
Other versions
KR970076487A (ko
Inventor
다다시 야마우라
히로히사 다사끼
신야 다까하시
Original Assignee
다니구찌 이찌로오, 기타오카 다카시
미쓰비시덴키 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 다니구찌 이찌로오, 기타오카 다카시, 미쓰비시덴키 가부시키가이샤 filed Critical 다니구찌 이찌로오, 기타오카 다카시
Publication of KR970076487A publication Critical patent/KR970076487A/ko
Application granted granted Critical
Publication of KR100218214B1 publication Critical patent/KR100218214B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation

Abstract

음성의 부호화시 합성 음성의 품질의 열화를 회피하고, 적은 연산량으로 품질이 우수한 합성 음성을 생성할 수 있는 음성 부호화 장치를 성취한다.
음성 부호화 장치는, 입력 음성으로부터 지연 파라미타에 대응한 벡터 길이의 목표 음성 벡터를 생성하는 목표 음성 생성 수단과, 과거에 생성한 음원 신호로부터 상기 지연 파라미타에 대응한 벡터 길이의 적응 음원 벡터를 생성하는 적응 음원 부호 장부와, 상기 적응 음원 벡터로부터 취득한 합성 음성 벡터의 상기 목표 음성 벡터에 대한 왜곡을 평가하여, 왜곡이 최소가 되는 적응 음원 벡터를 탐색하는 적응 음원 탐색 수단과, 상기 왜곡이 최소가 되는 적응 음원 벡터로부터 프레임 길이의 음원 신호를 생성하는 프레임 음원 생성 수단을 구비한다.

Description

음성 부호화 장치 및 음성 부호화 복호화 장치
본 발명은 음성 신호를 디지탈 신호로 압축 부호화하는 음성 부호화 장치 및 음성 부호화 복호화 장치에 관한 것이다.
제9도는 종래의 입력 음성을 스펙트럼 포락 정보와 음원 신호 정보로 분리하여, 프레임 단위로 음원 신호를 정보 부호화하는 음성 부호화 복호화 장치의 전체구성의 일예를 나타내는 것으로, 특개 소 64-40899호 공보에 나타낸 것과 동일한 것이다.
도면에서, 참조 부호 1은 부호화부, 2는 복호화부, 3은 다중화 수단, 4는 분리수단, 5는 입력 음성, 6은 전송로, 7은 출력 음성이다. 부호화부(1)은 다음의 참조 부호 8~15로 구성되어 있다. 8은 선형 예측 파라미타 분석 수단, 9는 선형 예측 파라미타 부호화 수단, 10은 적응 음원 부호 장부, 11은 적응 음원 탐색 수단, 12는 오차 신호 생성수단, 13은 구동 음원 부호 장부, 14는 구동 음원 탐색 수단, 15는 음원 신호 생성 수단이다. 또, 복호화부(2)는 다음의 참조 부호 16~22로 구성되어 있다. 16은 선형 예측 파라미타 복호화 수단, 17은 적응 음원 부호 장부, 18은 적응 음원 복호화 수단, 19는 구동 음원 부호 장부, 20은 구동 음원 복호화 수단, 21은 음원 신호 생성수단, 22는 합성 필터이다.
이하, 상기 종래의 입력 음성을 스펙트럼 포락 정보와 음원 신호 정보로 분리하여, 프레임 단위로 음원 신호 정보를 부호화하는 음성 복호화 장치의 동작에 대하여 설명한다.
먼저 부호화부(1)에 있어서 예를 들면 8㎑로 샘플링된 디지탈 음성 신호가 입력 음성(5)으로서 입력된다. 선형 예측 파라미타 분석 수단(8)은 입력 음성(5)을 분석하여 음성의 스펙트럼 포락 정보인 선형 예측 파라미타를 추출한다. 이어서 선형예측 파라미타 부호화 수단(9)이 추출한 상기 선형 예측 파라미타를 양자화하고, 이에 대응하는 부호를 다중화 수단(3)에 출력함과 동시에, 양자화한 선형 예측 파라미타를 적응 음원 탐색 수단(11), 오차 신호 생성 수단(12), 구동 음원 탐색 수단(14)으로 출력한다.
다음에, 음원 신호 정보의 부호화에 대하여 설명한다. 적응 음원 부호 장부(10)에는 음원 신호 생성 수단(15)으로부터 입력되는 과거에 생성된 음원 신호가 기억되어 있고, 적응 음원 탐색단(11)으로부터 입력되는 지연 파라미타 1에 대응한 프레임 길이의 적응 음원 벡터를 적응 음원 탐색수단(11)에 출력한다. 여기에서, 상기 적응 음원 벡터는 지연 파라미타 1에 대하여 1샘플 과거로부터 프레임 길이의 음원신호를 잘라낸 것이고, 1이 프레임 길이보다 짧은 경우는 1샘플의 음원 신호를 프레임 길이가 될 때까지 반복하여 생성한 것이다. 제10a도에 1≥프레임 길이인 경우, 제10b도에서는 1프레임 길이인 경우의 적응 음원 벡터의 예를 나타낸다.
적응 음원 탐색단(11)은 예를 들면 20≤1≤128의 범위인 지연 파라미타 1에 대하여, 상기 적응 음원 부호 장부(10)로부터 입력되는 적응 음원 벡터를 상기 선형 예측 파라미타 부호화 수단(9)으로부터 입력된 양자화된 선형 예측 파라미타를 이용하여 선형 예측 합성하여 합성 음성 벡터를 생성한다. 그리고, 입력 음성(5)으로부터 프레임 마다 절단한 입력 음성 벡터와 상기 합성 음성 벡터와의 청각 가중 왜곡을 구한다. 다음에, 상기 왜곡을 비교 평가하여, 상기 왜곡이 최소가 되는 지연 파라미타 L과 이에 대응하는 적응 음원 이득 β를 구하고, 상기 지연 파라미타 L과 적응 음원 이득 β의 부호를 다중화 수단(3)에 출력함과 동시에, 상기 지연 파라미타 L에 대응하는 적응 음원 벡터에 상기 적응 음원 이득 β를 곱한 적응 음원 신호를 생성하여, 오차 신호 생성 수단(12)과 음원 신호 생성 수단(15)에 출력한다.
오차 신호 생섕 수단(12)은 상기 적응 음원 탐색수단(11)으로부터 입력된 적응 음원 신호를 상기 선형 예측 파라미타 부호화 수단(9)으로부터 입력된 양자화한 선형 예측 파라미타를 이용하여 선형 예측 합성하여 합성 음성 벡터를 생성한다. 그리고, 입력 음성(5)으로부터 프레임 마다 절단한 입력 음성 벡터와 상기 합성 음성 벡터와의 차분인 오차 신호 벡터를 구하여, 구동 음원 탐색 수단(14)에 출력한다.
구동 음원 부호 장부(13)에는 예를 들면 랜덤 잡음으로부터 생성한 N개의 구동 음원 벡터가 기억되어 있고, 구동 음원 탐색 수단(14)에 의해 입력되는 구동 음원 부호 i에 대응한 구동 음원 벡터를 출력한다. 구동 음원 탐색 수단(14)은 N개의 구동 음원 벡터에 대하여 상기 구동 음원 부호 장부(13)로부터 입력되는 구동 음원 벡터를 상기 선형 예측 파라미타 부호화 수단(9)으로부터 입력된 양자화한 선형 예측 파라미타를 이용하여 선형 예측 합성하여 합성 음성 벡터를 생성한다. 그리고, 상기 오차 신호 생성 수단(12)으로부터 입력된 오차 신호 벡터와 상기 합성 음성 벡터와의 청각 가중 왜곡을 구한다. 다음에 상기 왜곡을 비교 평가하여, 상기 왜곡이 최소가 되는 구동 음원 부호 I와, 이에 대응하는 구동 음원 이득 γ을 구하고, 상기 구동 음원 부호 I와 구동 음원 이득 γ의 부호를 다중화 수단(3)에 출력함과 동시에, 상기 구동 음원 부호 I에 대응하는 구동 음원 벡터에 상기 구동 음원 이득 γ을 곱한 구동 음원 신호를 생성하여 음원 신호 생성 수단(15)에 출력한다.
음원 신호 생성 수단(15)은 상기 적응 음원 탐색 수단(11)으로부터 입력된 적응 음원 신호와 상기 구동 음원 탐색 수단(14)으로부터 입력된 구동 음원 신호를 가산하여 음원 신호를 생성하여 적응 음원 부호 장부(10)에 출력한다.
이상 부호화가 종료한 후, 다중화 수단(3)은 상기 양자화한 선형 예측 파라미타에 대응하는 부호, 지연 파라미타 L, 구동 음원 부호 I, 및 음원 이득 β, γ에 대응하는 부호를 전송로(6)에 송출한다.
다음에, 복호화부(2)의 동작에 대하여 설명한다.
먼저 다중화 수단(3)의 출력을 받은 분리 수단(4)은,
선형 예측 파라미타의 부호 → 선형 예측 파라미타 복호화 수단(16)
지연 파라미타 L, 음원 이득 γ의 부호 → 적응 음원 복호화 수단(18)
구동 음원 부호 I, 음원 이득 β의 부호 → 구동 음원 복호화 수단(20)
에 각각 출력된다.
선형 예측 파라미타 복호화 수단(16)은, 상기 선형 예측 파라미타의 부호에 대응하는 선형 예측 파라미타를 복호화하여, 합성 필터(22)에 출력한다. 적응 음원 복호화 수단(18)은, 상기 지연 파라미타 L에 대응한 적응 음원 벡터를 적응 음원 부호 장부(17)로부터 판독하고, 또한 상기 적응 음원 이득 β의 부호로부터 적응 음원 이득 β를 복호화하여, 상기 적응 음원 벡터에 상기 적응 음원 이득 β을 곱한 적응 음원 신호를 생성하여, 음원 신호 생성 수단(21)에 출력한다. 구동 음원 복호화 수단(20)은 상기 구동 음원 부호 I에 대응한 구동 음원 벡터를 구동 음원 부호 장부(19)로부터 판독하고, 또한 상기 구동 음원 이득 γ의 부호로부터 구동 음원 이득 γ을 복호화하고, 상기 구동 음원 벡터에 상기 구동 음원 이득 γ를 곱한 구동 음원신호를 생성하여, 음원 신호 생성 수단(21)에 출력한다.
음원 신호 생성 수단(21)은 상기 적응 음원 복호화 수단(18)으로부터 입력된 적응 음원 신호와 상기 구동 음원 복호화 수단(20)으로부터 입력된 구동 음원 신호를 가산하여 음원 신호를 생성하고, 적응 음원 부호 장부(17)와 합성 필터(22)에 출력한다. 합성 필터(22)는 상기 음원 신호 생성 수단(21)으로부터 입력된 음원 신호를 상기 선형 예측 파라미타 복호화 수단(16)으로부터 입력된 선형 예측 파라미타를 이용하여 선형 예측 합성하여, 출력 음성(7)을 출력한다.
또, 상기 종래의 음성 부호화 복호화 장치가 개량된 선행 기술로서, 보다 고품질인 출력 음성을 취득할 수 있는 음성 부호화 복호화 장치로서, P. Kroon and B. S. Atal 저 Pitch Predictors with high temporal resolution (ICASSP '90, pp 661-664, 1990)에 나타낸 것이 있다.
이 종래의 개량된 음성 부호화 복호화 장치는, 제9도에서 나타낸 종래의 음성 부호화 복호화 장치의 구성에서, 적응 음원 탐색 수단(11)에서의 탐색 대상의 지연 파라미타로서 정수치 외에 비정수 유리수를 취하도록 하여, 적응 음원 부호 장부(10, 17)은 상기 비정수 유리수의 지연 파라미타에 대응한 적응 음원 벡터를 과거에 생성한 음원 신호의 샘플 간을 보간 생성하여 출력하는 것이다. 제11도에서 지연 파라미타 1이 비정수 유리수인 경우의 적응 음원 벡터의 예를 나타낸다. 제11(a)도는 1≥프레임 길이인 경우, 제11(b)도는 1프레임 길이인 경우의 예이다.
이와 같이 구성함으로써, 입력 음성의 샘플링 주기보다 큰 정밀도로 지연 파라미타를 결정하여, 적응 음원 벡터를 생성할 수 있고, 특개소 64-40899호 공보에 개시되어 있는 장치에 비하여 보다 고품질인 출력 음성의 생성이 가능하다.
또, 종래의 음성 부호화 복호화 장치의 다른 선행 기술로서, 특개 평4-344699호 공보가 있다. 제12도는 이 종래의 음성 보호화 장치의 전체 구성의 일예를 나타내는 구성도이다.
제12도에서 제9도와 동일 부분에서는 동일 부호를 붙이고, 그 설명은 생략한다.
제12도에서 23, 24는 구동 음원 부호 장부로서, 제9도의 구동 음원 부호 장부와는 다른 것이다.
여기에서 상기 구성에 의한 부호화 복호화 장치의 동작에 대하여 설명한다.
먼저, 부호화부(1)에서 적응 음원 탐색 수단(11)은 예를 들면 20≤1≤128의 범위의 지연 파라미타 1에 대하여, 적응 음원 부호 장부(10)로부터 입력되는 적응 음원 벡터를 선형 예측 파라미타 부호화 수단(9)으로부터 입력되는 양자화한 선형 예측 파라미타를 이용하여 선형 예측 합성하여 합성 음성 벡터를 생성한다. 그리고, 입력 음성(5)으로부터 프레임 마다 절단된 입력 음성 벡터와 상기 합성 음성 벡터와의 청각 구중 왜곡을 구한다. 다음에 상기 왜곡을 비교 평가하여, 상기 왜곡이 최소가 되는 지연파라미타 L과 이에 대응하는 적응 음원 이득 β를 구하고, 상기 지연 파라미타 L과 적응 음원 이득 β의 부호를 다중화 수단(3)과 구동 음원 부호 장부(23)에 출력함과 동시에, 상기 지연 파라미타 L에 대응하는 적응 음원 벡터에 상기 적응 음원 이득 β를 곱한 적응 음원 신호를 생성하여, 오차 신호 생성 수단(12)과, 음원 신호 생성 수단(15)에 출력한다.
구동 음원 부호 (23)에는 예를 들면 랜덤 잡음으로부터 생성한 N개의 구동 음원 벡터가 기억되어 있고, 구동 음원 탐색 수단(14)에 의해 입력되는 구동 음원부호 i에 대응한 구동 음원 벡터를 상기 지연 파라미타 L에 대응한 주기 마다 반복하여 주기화하여 출력한다. 제13(a)도에서 주기화한 구동 음원 벡터의 예를 나타낸다. 지연 파라미타 L이 비정수 유리수인 경우는, 제13(b)도에서 나타낸 바와 같이 구동 음원 벡터의 샘플 사이를 보간 생성하여 주기화한다.
구동 음원 탐색단(14)은 N개의 구동 음원 벡터에 대하여, 상기 구동 음원 부호 장부(23)로부터 입력되는 주기화한 구동 음원 벡터를 선형 예측 파라미타 부호화 수단(9)로부터 입력되는 양자화한 선형 예측 파라미타를 이용하여 선형 예측 합성하여 합성 음성 벡터를 생성한다. 그리고, 오차 신호 생성 수단(12)으로부터 입력되는 오차 신호 벡터와 상기 합성 음성 벡터와의 청각 가중 왜곡을 구한다. 다음에, 상기 왜곡을 비교 평가하여, 상기 왜곡이 최소가 되는 구동 음원 부호 I와 이에 대응하는 구동 음원 이득 γ를 구하고, 상기 구동 음원 부호 I와 구동 음원 이득 γ의 부호를 다중화 수단(3)에 출력함과 동시에, 상기 구동 음원 부호 I에 대응하는 주기화한 구동 음원 벡터에 상기 음원 이득 γ를 곱한 구동 음원 신호를 생성하여, 음원 신호 생성 수단(15)에 출력한다.
부호화가 종료한 후, 다중화 수단(3)은 상기 양자화한 선형 예측 파라미타에 대응하는 부호, 지연 파라미타 L, 구동 음원 부호 I, 및 음원 이득 β, γ에 대응하는 부호를 전송로(6)에 송출한다.
다음에, 복호화부(2)의 동작에 대하여 설명한다.
먼저, 다중화 수단(3)의 출력을 받는 분리 수단(4)은,
선형예측 파라미타의 부호 → 선형 예측 파라미타 복호화 수단(16)
지연 파라미타 L, 음원 이득β의 부호 → 적응 음원 복호화 수단(18), 구동 음원 부호 장부(24)
구동 음원 부호 I, 음원 이득 γ의 부호 → 구동 음원 복호화 수단(20)에 각각 출력한다.
구동 음원 부호 장부(24)는 부호화측의 구동 음원 부호 장부(23)와 동일한 N개의 구동 음원 벡터가 기억되어 있고, 구동 음원 복호화 수단(20)에 의해 입력되는 구동 음원 부호 I에 대응한 구동 음원 벡터를 상기 지연 파라미타 L에 대응한 주기마다 반복하여 주기화하여, 구동 음원 복호화 수단(20)에 출력한다.
구동 음원 복호화 수단(20)은, 상기 구동 음원 이득 γ의 부호로부터 구동 음원 이득 γ을 복호화하고, 상기 구동 음원 부호 장부(24)로부터 입력된 주기화한 구동 음원 벡터에 상기 구동 음원 이득 γ을 곱한 구동 음원 신호를 생성하여, 음원 신호 생성 수단(21)에 출력한다.
음원 신호 생성 수단(21)은 적응 음원 복호화 수단(18)으로부터 입력되는 적응 음원 신호와 상기 구동 음원 복호화 수단(20)으로부터 입력된 구동 음원 신호를 가산하여 음원 신호를 생성하여, 적응 음원 부호 장부(17)와 합성 필터(22)에 출력한다. 합성 필터(22)는 상기 음원 신호 생성 수단(21)으로부터 입력된 음원 신호를 선형 예측 파라미타 복호화 수단(16)으로부터 입력되는 선형 예측 파라미타를 이용하여 선형 예측 합성하여 출력 음성(7)을 출력한다.
상기한 종래의 음성 부호화 복호화 장치에서는, 부호화에서의 음원 탐색시에, 지연 파라미타에 따라 적응 음원 벡터 또는 구동 음원 벡터를 주기화, 생성하여 프레임 길이의 음원 벡터로 하고, 이것을 선형 예측 합성하여 합성 음성 벡터를 생성하고, 프레임 길이 구간에서의 입력 음성 벡터와 합성 음성 벡터와의 왜곡을 구하고 있다. 그러나, 선형 예측 합성에 걸리는 연산량이 크기 때문에, 음원 탐색에는 다대한 연산량을 요한다고 하는 문제가 있었다.
본 발명은 이러한 과제를 해결하기 위해 이루어진 것으로, 그 목적은 음성의 부호화시에, 합성 음성의 품질의 열화를 회피하여, 적은 연산량으로 품질이 양호한 합성 음성을 생성할 수 있는 음성 부호화 장치 및 음성 부호화 복호화 장치를 얻는 데에 있다
상기 목적을 해결하기 위해서, 본 발명의 음성 부호화 장치는, 입력 음성으로부터 지연 파라미타에 대응한 벡터 길이의 목표 음성 벡터를 생성하는 목표 음성 생성 수단과, 과거에 생성한 음원 신호로부터 상기 지연 파라미타에 대응한 벡터 길이의 적응 음원 벡터를 생성하는 적응 음원 부호 장부와, 상기 적응 음원 벡터로부터 취득된 합성 음성 벡터의 상기 목표 음성 벡터에 대한 왜곡을 평가하여, 왜곡이 최소가 되는 적응 음원 벡터를 탐색하는 적응 음원 탐색 수단과, 상기 왜곡이 최소가 되는 적응 음원 벡터로부터 프레임 길이의 음원 신호를 생성하는 프레임 음원 생성 수단을 구비한다.
또한, 본 발명의 음성 부호화 장치는, 목표 음성 벡터와 왜곡이 최소가 되는 적응 음원 벡터로부터 제2 목표 음성 벡터를 생성하는 제2목표 음성 생성 수단과, 지연 파라미타에 대응한 벡터 길이의 구동 음원 벡터를 생성하는 구동 음원 부호 장부와 , 상기 구동 음원 벡터로부터 취득되는 제2합성 음성 벡터의 상기 제2목표 음성 벡터에 대한 왜곡을 평가하고, 왜곡이 최소가 되는 구동 음원 벡터를 탐색하는 구동 음원 탐색 수단과, 상기 왜곡이 최소가 되는 구동 음원 벡터로부터 제2프레임 길이의 음원 신호를 생성하는 제2프레임 음원 생성 수단을 구비한다.
또한, 본 발명의 음성 부호화 장치는, 입력 음성으로부터 지연 파라미타에 대응한 벡터 길이의 목표 음성 벡터를 생성하는 목표 음성 생성 수단과, 지연 파라미타에 대응한 벡터 길이의 구동 음원 벡터를 생성하는 구동 음원 부호 장부와, 상기 구동 음원 벡터로부터 취득되는 합성 음성 벡터의 상기 목표 음성 벡터에 대한 왜곡을 평가하여 평가가 최소가 되는 구동 음원 벡터를 탐색하는 구동 음원 탐색 수단과, 상기 왜곡이 최소가 되는 구동 음원 벡터로부터 프레임 길이의 음원 신호를 생성하는 프레임 음원 생성 수단을 구비한다.
또, 본 발명의 음성 부호화 장치에서는, 목표 음성 벡터 및 구동 음원 벡터의 벡터 길이가 입력 음성의 피치 주기에 대응하여 결정된다.
또, 본 발명의 음성 부호화 장치에서는, 지연 파라미타에 대응한 벡터 길이가 유리수를 취하고 있다.
또, 본 발명의 음성 부호화 장치에서는, 목표 음성 생성 수단이 프레임의 입력 음성을 지연 파라미타에 대응한 벡터 길이 마다 분할하여, 벡터 길이 마다의 입력 음성을 가중치 평균하여 목표 음성 벡터를 생성하고 있다.
또, 본 발명의 음성 부호화 장치에서는, 목표 음성 생성 수단이 지연 파라미타에 대응한 벡터 길이의 정수배 길이의 입력 음성을 벡터 길이 마다 분할하여 벡터 길이 마다의 입력 음성을 가중치 평균하여 목표 음성 벡터를 생성하고 있다.
또, 본 발명의 음성 부호화 장치에서는, 지연 파라미타에 대응한 벡터 길이의 정수배 길이를 프레임 길이 이상으로 하고 있다.
또, 본 발명의 음성 부호화 장치에서는, 목표 음성 생성 수단이 지연 파라미타에 대응한 벡터 길이 마다의 입력 음성에 관한 특징량에 따라서 입력 음성을 벡터 길이 마다 가중치 평균하여 목표 음성 벡터를 생성할 때의 가중치를 결정하고 있다.
또, 본 발명의 음성 부호화 장치에서는, 지연 파라미타에 대응한 벡터 길이 마다의 입력 음성에 관한 특징량은 적어도 입력 음성의 파워 정보를 포함하고 있다.
또, 본 발명의 음성 부호화 장치에서는, 지연 파라미타에 대응한 벡터 길이 마다의 입력 음성에 관한 특징량이 적어도 입력 음성의 상관 정보를 포함하고 있다.
또, 본 발명의 음성 부호화 장치에서는, 목표 음성 생성 수단이 지연 파라미타에 대응한 벡터 길이 마다의 입력 음성의 시간 관계에 따라서, 입력 음성을 벡터 길이 마다 가중치 평균하여 목표 음성 벡터를 생성할 때의 가중치를 결정하고 있다.
또, 본 발명의 음성 부호화 장치에서는, 목표 음성 생성 수단이 입력 음성을 지연 파라미타에 대응한 벡터 길이 마다 가중치 평균할 때, 벡터 길이 마다의 입력 음성의 시간 관계를 정수배 하고 있다.
또, 본 발명의 음성 부호화 장치에서는, 프레임 음원 생성 수단이 지연 벡터에 대응한 벡터 길이의 음원 벡터를 상기 벡터 길이 마다 반복하여 주기화하여 프레임 길이의 음원 신호를 생성하고 있다.
또, 본 발명의 음성 부호화 장치에서는, 프레임 음원 생성 수단이 지연 파라미타에 대응한 벡터 길이의 음원 벡터를 프레임 사이에서 보간하여 음원 신호를 생성하고 있다.
또, 본 발명의 음성 부호화 장치에서는, 적응 음원 탐색 수단이 합성 필터를 구비하고, 이 합성 필터의 임펄스 응답을 이용하여 적응 음원 벡터로부터 취득되는 합성 음성 벡터의 목표 음성 벡터에 대한 왜곡을 반복적으로 계산하고 있다.
또, 본 발명의 음성 부호화 장치에서는, 입력 음성을 업-샘플링하는 입력 음성 업-샘플링 수단을 구비하고, 목표 음성 생성 수단은 업-샘플링된 입력 음성으로 부터 목표 음성 벡터를 생성하고 있다.
또, 본 발명의 음성 부호화 장치에서는, 과거에 생성된 음원 신호를 업-샘플링하는 음원 신호 업-샘플링 수단을 구비하고, 적응 음원 부호 장부는 업-샘플링된 과거에 생성된 음원 신호로부터 적응 음원 벡터를 생성하고 있다.
또, 본 발명의 음성 부호화 장치에서는, 업-샘플링 수단이 지연 파라미타에 대응한 벡터 길이에 따른 범위만의 입력 음성 또는 음원 신호의 업-샘플링 배율을 변경하고 있다.
본 발명에 관한 음성 부호화 복호화 장치는, 부호화측에 입력 음성으로부터 지연 파라미타에 대응한 벡터 길이의 목표 음성 벡터를 생성하는 목표 음성 생성 수단과, 과거에 생성된 음원 신호로부터 상기 지연 파라미타에 대응한 벡터 길이의 적응 음원 벡터를 생성하는 적응 음원 부호 장부와, 상기 적응 음원 벡터로부터 취득되는 합성 음성 벡터의 상기 목표 음성 벡터에 대한 왜곡을 평가하여, 왜곡이 최소가 되는 적응 음원 벡터를 탐색하는 적응 음원 탐색 수단과, 상기 왜곡이 최소가 되는 적응 음원 벡터로부터 프레임 길이의 음원 신호를 생성하는 프레임 음원 생성 수단을 구비하는 한편, 복호화측에서 지연 파라미타에 대응한 벡터 길이의 적응 음원을 생성하는 적응 음원 부호 장부와, 적응 음원 벡터로부터 프레임 길이의 음원 신호를 생성하는 프레임 음원 생성 수단을 구비한다.
또, 본 발명에 관한 음성 부호화 복호화 장치는, 부호화측에 목표 음성 벡터와 적응 음원 벡터로부터 제2목표 음성 벡터를 생성하는 제2목표 음성 생성 수단과, 지연 파라미타에 대응한 벡터 길이의 구동 음원 벡터를 생성하는 구동 음원 부호 장부와, 상기 구동 음원 벡터로부터 취득되는 제2합성 음원 벡터의 상기 제2목표 음성 벡터에 대한 왜곡을 평가하여, 왜곡이 최소가 되는 구동 음원 벡터를 탐색하는 구동 음원 탐색 수단과, 상기 왜곡이 최소가 되는 구동 음원 벡터로부터 제2프레임 길이의 음원 신호를 생성하는 제2프레임 음원 생성 수단을 구비하는 한편, 복호화측에 지연 파라미터에 대응한 벡터 길이의 구동 음원 벡터를 생성하는 구동 음원 부호 장부와, 구동 음원 벡터로부터 제2프레임 길이의 음원 신호를 생성하는 제2프레임 음원 생성 수단을 구비한다.
또, 본 발명에 관한 음성 부호화 복호화 장치는 부호화측에 입력 음성으로부터 벡터 길이의 목표 음성 벡터를 생성하는 목표 음성 생성 수단과, 벡터 길이의 구동 음원 벡터를 생성하는 구동 음원 부호 장부와, 상기 구동 음원 벡터로부터 취득되는 합성 음원 벡터의 상기 목표 음성 벡터에 대한 왜곡을 평가하여, 왜곡이 최소가 되는 구동 음원 벡터를 탐색하는 구동 음원 탐색 수단과, 상기 왜곡이 최소가 되는 구동 음원 벡터로부터 프레임 길이의 음원 신호를 생성하는 프레임 음원 생성 수단을 구비하는 한편, 복호화측에 지연 파라미타에 대응한 벡터 길이의 구동 음원 벡터를 생성하는 구동 음원 부호 장부와, 구동 음원 벡터로부터 프레임 길이의 음원 신호를 생성하는 프레임 길이 생성 수단을 구비한다.
제1도는 본 발명 실시 형태 1인 음성 부호화 장치 및 음성 복호화 장치의 전체 구성을 도시하는 흐름도.
제2도는 본 발명 실시 형태 1에 있어서의 목표 음성 생성 수단의 동작의 일례를 도시하는 설명도.
제3도는 본 발명 실시 형태 5에 있어서의 목표 음성 생성 수단의 동작의 일례를 도시하는 설명도.
제4도는 본 발명 실시 형태 6에 있어서의 목표 음성 생성 수단의 동작의 일례를 도시하는 설명도.
제5도는 본 발명 실시 형태 7에 있어서의 목표 음성 생성 수단의 동작의 일례를 도시하는 설명도.
제6도는 본 발명 실시 형태 8에 있어서의 목표 음성 생성 수단의 동작의 일례를 도시하는 설명도.
제7도는 본 발명 실시 형태 9에 있어서의 목표 음성 생성 수단의 동작의 일례를 도시하는 설명도.
제8도는 본 발명 실시 형태 10에 있어서의 목표 음성 생성 수단의 동작의 일례를 도시하는 설명도.
제9도는 종의 음성 부호화, 복호화 장치의 일례에 대한 전체 구성을 도시하는 흐름도.
제10도는 종래의 음성 부호화, 복호화 장치에 있어서의 적응 음원 벡터의 일례를 도시하는 설명도.
제11도는 종래의 개량된 음성부호화, 복호화 장치에 있어서의 적응 음원 벡터의 일례를 도시하는 설명도.
제12도는 종래의 음성 부호화, 복호화 장치의 다른 일례에 대한 전체 구성을 도시하는 흐름도.
제13도는 종래의 음성 부호화, 복호화 장치에 있어서의 주기화한 구동 음원 벡터의 일례를 도시하는 설명도.
* 도면의 주요부분에 대한 부호의 설명
1 : 부호화부 2 : 복호화부
3 : 다중화 수단 4 : 분리수단
5 : 입력 음성 6 : 전송로
7 : 출력 음성 8 : 선형 예측 파라미타 분석 수단
9 : 선형 예측 파라미타 부호화 수단 10, 17 : 적응 음원 부호 장부
12 : 적응 음원 탐색 수단 12 : 오차 신호 생성 수단
13, 19 : 구동 음원 부호 장부 14 : 구동 음원 탐색 수단
15, 21 : 음원 신호 생성 수단 16 : 선형 예측 파라미타 복호화 수단
18 : 적응 음원 복호화 수단 20 : 구동 음원 복호화 수단
22 : 합성 필터 23, 24 : 구동 음원 부호 장부
25 : 피치 분석 수단 26 : 지연 파라미타 탐색 범위 결정 수단
27 : 입력 음성 업-샘플링 수단 28 : 목표 음성 생성 수단
29, 37 : 음원 신호 업-샘플링 수단 30, 38 : 적응 음원 부호 장부
31 : 적응 음원 탐색 수단 32, 40 : 프레임 음원 생성 수단
33 : 제2목표 음성 생성 수단 34, 41 : 구동 음원 부호 장부
35 : 구동 음원 탐색 수단 36, 43 : 제2프레임 음원 생성 수단
39 : 적응 음원 부호화 수단 42 : 구동 음원 부호화 수단
44 : 입력 음성 업-샘플링 수단 45 : 목표 음성 생성 수단
45, 51 : 구동 음원 부호 장부 47 : 구동 음원 탐색 수단
48 : 제2 목표음성 생성수단 49, 54 : 제2구동 음원 부호 장부
50 : 제2 구동 음원 탐색 수단 52 : 구동 음원 복호화 수단
53 : 프레임 음원 생성 수단 55 : 제2구동 음원 복호화 수단
56 : 제2프레임 음원 생성 수단
[실시 형태 1]
제1도는 본 발명의 실시 형태 1인 음성 부호화 장치 및 음성 복호화 장치의 전체 구성을 나타내는 블럭도이다.
제1도에서, 참조부호 1은 부호화부, 2는 복호화부, 3은 다중화 수단, 4는 분리수단, 5는 입력 음성, 6은 전송로, 7은 출력 음성이다 .
부호화부(1)는 다음 8, 9, 15, 및 25~36으로 구성되어 있다. 8은 선형 예측 파라미타 분석 수단, 9는 선형 예측 파라미타 부호화 수단, 15는 음원 신호 생성 수단, 25는 입력 음성의 피치 주기를 추출하는 피치 분석 수단, 26은 적응 음원 벡터를 탐색할 때의 지연 파라미타의 탐색 범위를 결정하는 지연 파라미타 탐색 범위 결정수단, 27은 입력 음성을 업-샘플링하는 입력 음성 업-샘플링 수단, 28은 지연 파라미타에 대응한 벡터 길이의 목표 음성 벡터를 생성하는 목표 음성 생성 수단, 29는 과거에 생성한 음원 신호를 업-샘플링하는 음원 신호 업-샘플링 수단, 30은 과거에 생성한 음원 신호로부터 지연 파라미타에 대응한 벡터 길이의 적응 음원 벡터를 출력하는 적응 음원 부호 장부, 31은 적응 음원 벡터로부터 취득되는 합성 음성 벡터의 목표 음성 벡터에 대한 왜곡을 평가하여, 왜곡이 최소가 되는 적응 음원 벡터를 탐색하는 적응 음원 탐색 수단, 32는 지연 파라미타에 대응한 벡터 길이의 적응 음원 신호로부터 프레임 길이의 적응 음원 신호를 생성하는 프레임 음원 생성 수단, 33은 구동 음원 벡터 탐색에서의 지연 파라미타에 대응한 벡터 길이의 목표 음성 벡터를 생성하는 제2목표 음성 생성 수단, 34는 지연 파라미타에 대응한 벡터 길이의 구동 음원 벡터를 출력하는 구동 음원 부호 장부, 35는 구동 음원 벡터로부터 취득되는 합성 음성 벡터의 제2목표 음성 벡터에 대한 왜곡을 평가하여 왜곡이 최소가 되는 구동 음원 벡터를 탐색하는 구동 음원 탐색 수단, 36은 지연 파라미타에 대응한 벡터 길이의 구동 음원 신호로부터 프레임 길이의 구동 음원 신호를 생성하는 제2프레임 음원 생성 수단이다.
또, 복호화부(2)는 다음 16, 21, 22, 및 37~43으로 구성되어 있다. 16은 선형 예측 파라미타 복호화 수단, 21은 음원 신호 생성 수단, 22은 합성 필터, 37은 과거에 생성한 음원 신호를 업-샘플링하는 음원 신호 업-샘플링 수단, 38은 지연 파라미타에 대응한 벡터 길이의 적응 음원 벡터를 출력하는 적응 음원 부호 장부, 39는 지연 파라미타에 대응한 벡터 길이의 적응 음원 신호를 복호화하는 적응 음원 복호화 수단, 40은 지연 파라미타에 대응한 벡터 길이의 적응 음원 신호로부터 프레임 길이의 적응 음원 신호를 생성하는 프레임 음원 생성 수단, 41은 지연 파라미타에 대응한 벡터 길이의 구동 음원 벡터를 출력하는 구동 음원 부호 장부, 42는 지연 파라미타에 대응한 벡터 길이의 구동 음원 신호를 복호화 하는 구동 음원 복호화 수단, 43은 지연 파라미타에 대응한 벡터 길이의 구동 음원 신호로부터 프레임 길이의 구동 음원 신호를 생성하는 제2 프레임 음원 생성 수단이다.
이하, 동작에 대해 설명한다.
먼저 부호화부(1)에서는, 예를 들면 8㎑로 샘플된 디지탈 음성 신호가 입력 음성(5)으로서 입력된다. 선형 예측 파라미타 분석 수단(8)은 상기 입력 음성(5)을 분석해서 음성의 스펙트럼 엔벨로프 정보인 선형 예측 파라미타를 추출한다. 이어서 선형 예측 파라미타 부호화 수단(9)이 추출된 상기 선형 예측 파라미타를 양자화 하고, 이에 대응하는 부호를 다중화 수단(3)에 출력함과 동시에 양자화된 선형 예측 파라미타를 적응 음원 탐색 수단(31), 제2목표 음성 생성 수단(33), 구동 음원 탐색 수단(35)에 출력한다.
피치 분석 수단(25)은 입력 음성(5)을 분석해서 피치 주기 P를 추출한다. 이어서 지연 파라미타 탐색 범위 결정 수단(26)은 상기 피치 주기 P로부터 적응 음원 벡터를 탐색할 때의 지연 파라미타 1의 탐색 범위 1min≤ 1 ≤ 1max를, 예를 들면 식(1)에 따라 결정하여, 입력 음성 업-샘플링 수단(27), 음원 신호 업-샘플링 수단(29), 적응 음원 탐색 수단(31)으로 출력한다. 여기서 ΔP는 예컨대 P/10으로 한다.
Figure kpo00002
입력 음성 업-샘플링 수단(27)은 지연 파라미타 탐색 범위 결정 수단(26)으로 부터 입력된 지연 파라미타의 탐색 범위에 따른 샘플링 레이트로 입력 음성(5)을, 예컨대 음원 신호를 부호화하는 단위인 프레임 구간으로 업-샘플링하여, 목표 음성 생성 수단(28)으로 출력한다. 여기서 업-샘플링 레이트는 예컨대 다음과 같이 결정 된다.
1min45의 경우 , 4배로 업-샘플링한다.
45 ≤ 1min65의 경우, 2배로 업-샘플링한다.
65 ≤1min의 경우, 업-샘플링하지 않는다.
목표 음성 생성 수단(28)은 상기 입력 음성 업-샘플링 수단(27)으로부터 입력된 업-샘플링된 프레임 길이의 입력 음성을 적응 음원 탐색 수단(31)으로부터 입력되는 지연 파라미타 1에 대응하여, 예를 들면 주기 1마다 분할하고, 이 분할된 지연 파라미타 1에 대응한 벡터 길이 마다의 입력 음성을 가산 평균함으로써 지연 파라미타 1에 대응한 벡터 길이의 목표 음성 벡터를 생성하여 적응 음원 탐색 수단(31)과 제2목표 음성 생성 수단(33)에 출력한다. 여기서 지연 파라미타 1은 정수값 외에 비정수인 유리수도 취하여 1의 존재 범위에 따라 예컨대 1int를 정수값 지연으로 한 경우에 다음 값을 취할 수 있는 것으로 한다.
1 45의 경우, 1int, 1int+ 1/4, 1int+ 1/2, 1int+3/4
45 ≤ 1 65의 경우, 1int, 1int+ 1/2
65 ≤ 1의 경우, 1int
제2도에 프레임 길이의 입력 음성으로부터 생성되는 지연 파라미타 1에 대응한 벡터 길이의 목표 음성 벡터의 예를 도시한다. 여기서 1≥프레임 길이의 경우는 상기 가산 평균을 행하지 않고 프레임 길이의 입력 음성을 목표 음성 벡터로 한다.
음원 신호 업-샘플링 수단(29)은 음원 신호 생성 수단(15)으로부터 입력되는 과거에 생성된 음원 신호를 상기 지연 파라미타 탐색 범위 결정 수단(26)으로부터 입력된 상기 지연 파라미타의 탐색 범위에 따른 적응 음원 탐색에 필요한 구간만을 상기 지연 파라미타의 탐색 범위에 따른 샘플링 레이트로 업-샘플링하여 적응 음원 부호 장부(30)에 출력한다. 여기서 업-샘플링 레이트는 예를 들면 다음과 같이 결정된다.
1 45의 구간, 4배로 업-샘플링한다.
45 ≤ 1 65의 구간, 2배로 업-샘플링한다.
65 ≤ 1의 구간, 업-샘플링하지 않는다.
적응 음원 부호 장부(30)는 상기 음원 신호 업-샘플링 수단(29)으로부터 입력된 업-샘플링한 음원 신호로부터 적응 음원 탐색 수단(31)에서 입력되는 지연 파라미타 1에 대응한 벡터 길이의 적응 음원 벡터를 적응 음원 탐색 수단(31)에 출력한다. 여기서 상기 적응 음원 벡터는 지연 파라미타 1에 대해 과거 1샘플의 음원 신호를 추출한 것으로 1 ≥1 프레임 길이의 경우는 1 샘플 과거로부터 프레임 길이의 음원 신호를 추출한 것으로 한다.
적응 음원 탐색 수단(31)은 합성 필터를 구비하며, 신형 예측 파라미타 부호화 수단(9)으로부터 입력되는 양자화된 선형 예측 파라미타를 이용하여 합성 필터의 임펄스 응답을 구한다. 이어서 1min≤ 1 ≤ 1max범위의 지연 파라미타 1에 대해 상기 적응 음원 부호 장부(30)로부터 입력되는 적응 음원 벡터를 상기 임펄스 응답을 이용하여 반복적으로 계산하여 합성하고, 합성 음성 벡터를 생성한다. 그리고, 상기 목표 음성 생성 수단(28)으로부터 입역된 목표 음성 벡터와 상기 합성 음성 벡터의 청각 가중 왜곡을 구한다. 이어서 상기 왜곡을 비교 평가하고 상기 왜곡이 최소가 되는 지연 파라미타 L과 이에 대응하는 적응 음원 이득 β를 구하며 상기 지연 파라미타 L과 적응 음원 이득 β의 부호를 다중화 수단(3)과 구동 음원 부호 장부(34)에 출력함과 동시에 상기 지연 파라미타 L에 대응하는 적응 음원 벡터에 상기 적응 음원 이득 β를 곱한 적응 음원 신호를 생성하고, 프레임 음원 생성 수단(32)과 제2목표 음성 생성 수단(33)으로 출력한다. 여기서, 상기 적응 음원 신호는 L 프레임 길이의 경우에는 샘플, L ≥ 프레임 길이의 경우에는 프레임 길이의 신호이다.
프레임 음원 생성 수단(32)은 상기 적응 음원 탐색 수단(31)으로부터 입력된 적응 음원 신호로부터 예를 들면 주기 L마다 반복 주기화해서 프레임 길이로 된 주기적인 적응 음원 신호를 생성하여 음원 신호 생성 수단(15)으로 출력한다.
제2목표 음성 생성 수단(33)은 상기 적응 음원 탐색 수단(31)으로부터 입력된 적응 음원 신호를 선형 예측 파라미타 부호화 수단(9)으로부터 입력되는 양자화된 선형 예측 파라미타를 이용하고 선형 예측 합성하여 합성 음성 벡터를 생성한다. 그리고, 목표 음성 생성 수단(28)으로부터 입력된 목표 음성 벡터와 상기 합성 음성 벡터의 차분을 구하고, 이를 제2목표 음성 벡터로서 구동 음원 탐색 수단(35)에 출력한다.
구동 음원 부호 장부(34)에는 예를 들면 랜덤 잡음에서 생성된 N개의 구동 음원 벡터가 기억되어 있으며, 구동 음원 탐색 수단(35)으로부터 입력되는 구동 음원 부호 i에 대응한 구동 음원 벡터를 상기 지연 파라미타 L에 대응한 벡터 길이로 추출하여 출력한다. 여기서 L ≥ 프레임 길이의 경우에는 프레임 길이의 구동 음원 벡터를 출력한다.
구동 음원 탐색 수단(35)은 N개의 구동 음원 벡터에 대해 상기 구동 음원 부호 장부(34)로부터 입력되는 추출된 구동 음원 벡터를 상기 선형 예측 파라미타 부호화 수단(9)으로부터 입력되는 양자화된 선형 예측 파라미타를 이용하고, 선형 예측 합성해서 합성 음성 벡터를 생성한다. 그리고, 상기 제2목표 음성 생성 수단(33)으로 부터 입력된 제2목표 음성 벡터와 상기 합성 음성 벡터의 청각 가중 왜곡을 구한다. 다음에 , 상기 왜곡을 비교 평가하고 상기 왜곡이 최소가 되는 구동 음원 부호 I와 이에 대응하는 구동 음원 이득 γ를 구하여 상기 구동 음원 부호 I와 구동 음원 이득 γ의 부호를 다중화 수단(3)으로 출력함과 동시에 상기 구동 음원 부호 I에 대응하는 구동 음원 벡터에 상기 구동 음원 이득 γ를 곱한 구동 음원 신호를 생성하여 제2프레임 음원 생성 수단(36)에 출력한다.
제2 프레임 음원 생성 수단(36)은 상기 구동 음원 탐색 수단(35)으로부터 입력된 구동 음원 신호로부터 예컨대 주기 L마다 반복 주기화해서 프레임 길이의 구동 음원 신호를 생성하고 음원 신호 생성 수단(15)으로 출력한다.
음성 신호 생성 수단(15)은 상기 프레임 음원 생성 수단(32)으로부터 입력된 프레임 길이의 적응 음원 신호와 상기 제2프레임 음원 생성 수단(36)으로부터 입력된 프레임 길이의 구동 음원 신호를 가산해서 음원 신호를 생성하고 음원 신호 업-샘플링 수단(29)에 출력한다.
이상의 부호화가 종료한 후 다중화 수단(3)은 상기 양자화된 선형 예측 파라미타에 대응하는 부호, 지연 파라미타 L, 구동 음원 신호 I, 및 음원 이득 β, γ에 대응하는 부호를 전송로(6)로 송출한다.
이상이 이 실시 형태 1의 음성 부호화 장치에서의 특징적인 동작이다.
이어서 복호화부(2)에 대해 설명한다.
먼저, 다중화 수단(3)의 출력을 받은 분리 수단(4)은
선형 예측 파라미타의 부호 → 선형 예측 파라미타 복호화 수단(16)
지연 파라미타 L → 적응 음원 복호화 수단(39), 구동 음원 부호 장부(41)
음원 이득 β의 부호 → 적응 음원 복호화 수단(39)
구동 음원 부호 I, 음원 이득 γ의 부호 → 구동 음원 복호화 수단(42)
로 각각 출력한다.
적응 음원 복호화 수단(39)은 먼저 상기 지연 파라미타 L을 음원 신호 업-샘플링 수단(37)과 적응 음원 부호 장부(38)로 출력한다. 음원 신호 업-샘플링 수단(37)은 음원 신호 생성 수단(21)으로부터 입력되는 과거에 생성된 음원 신호를 상기 적응 음원 복호화 수단(39)으로부터 입력된 상기 지연 파라미타 L의 값에 따른 적응 음원 벡터 생성에 필요한 구간만을 상기 지연 파라미타 L의 값에 따른 샘플링 레이트로 업-샘플링하여 적응 음원 부호 장부(38)에 출력한다. 여기서 업-샘플링 레이트는 부호화부에서의 음원 신호 업-샘플링 수단(29)과 마찬가지로 결정된다.
적응 음원 부호 장부(38)는 상기 음원 신호 업-샘플링 수단(37)으로부터 입력된 업-샘플링된 음원 신호로부터 적응 음원 복호화 수단(39)으로부터 입력되는 지연 파라미타 L에 대응한 벡터 길이의 적응 음원 벡터를 적응 음원 복호화 수단(39)에 출력한다. 여기서 상기 적응 음원 벡터는 지연 파라미타 L에 대해 과거 L 샘플의 음원 신호를 추출한 것으로 L ≥ 프레임 길이의 경우에는 L 샘플 과거로부터 프레임 길이의 음원 신호를 추출한 것으로 한다.
적응 음원 복호화 수단(39)은 상기 적응 음원 이득 β의 부호로부터 적응 음원 이득 β를 복호화하고, 상기 적응 음원 부호 장부(38)로부터 입력된 적응 음원 벡터에 상기 적응 음원 이득 β를 곱한 적응 음원 신호를 생성하여 프레임 음원 생성 수단(40)에 출력한다. 프레임 음원 생성 수단(40)은 상기 적응 음원 복호화 수단(39)으로부터 입력된 적응 음원 신호로부터 예컨대 주기 L 마다 반복 주기화하여 프레임 길이의 적응 음원 신호를 생성하고, 음원 신호 생성 수단(21)에 출력한다.
구동 음원 부호 장부(41)는 부호화측의 구동 음원 부호 장부(34)와 같은 N개의 구동 음원 벡터가 기억되어 있으며, 구동 음원 복호화 수단(42)으로부터 입력되는 구동 음원 부호 I 에 대응한 구동 음원 벡터를 상기 지연 파라미타 L 에 대응한 벡터 길이로 추출하여 구동 음원 복호화 수단(42)에 출력한다.
구동 음원 복호화 수단(42)은 상기 구동 음원 이득 γ의 부호로부터 구동 음원 이득 γ를 복호화하고, 구동 음원 부호 장부(41)로부터 입력되어 추출된 구동 음원 벡터에 상기 구동 음원 이득 γ를 곱한 구동 음원 신호를 생성하여 제2프레임 음원 생성 수단(43)에 출력한다. 제2프레임 음원 생성 수단(43)은 상기 구동 음원 복호화 수단(42)으로부터 입력된 구동 음원 신호로부터 예컨대 주기 L마다 반복주기화하여 프레임 길이의 구동 음원 신호를 생성하고 음원 신호 생성 수단(21)에 출력한다.
음원 신호 생성 수단(21)은 상기 프레임 음원 생성 수단(40)으로부터 입력된 프레임 길이의 적응 음원 신호와 상기 제2프레임 음원 생성 수단(43)으로부터 입력된 프레임 길이의 구동 음원 신호를 가산해서 음원 신호를 생성하고, 음원 신호 업-샘플링 수단(37)과 합성 필터(22)에 출력한다. 합성 필터(22)는 상기 음원 신호 생성 수단(21)으로부터 입력된 음원 신호를 선형 예측 파라미타 부호화 수단(16)으로 부터 입력되는 선형 예측 파라미타를 이용하여 선형 예측 합성하고 출력 음성(7)을 출력한다.
이상이 이 실시 형태 1의 음성 복호화 장치에서의 특징적인 동작이다.
이 실시 형태 1에 따르면 최적의 지연 파라미타를 결정하는 때 지연 파리미타 1이 프레임 길이보다 짧은 경우에는 입력 음성을 주기적으로 가산 평균해서 벡터길이 1의 목표 음성 벡터를 생성하고, 이에 대해 벡터 길이 1의 적응 음원 벡터를 선형 예측 합성하여 생성된 합성 음성 벡터의 왜곡을 평가하며, 또 최적의 구동 음원 부호를 결정할 때에도 벡터 길이 1의 구동 음원 벡터를 선형 예측 합성해서 생성된 합성 음성 벡터를 왜곡 평가에 이용함으로써 합성 음성의 품질을 열화를 방지하고, 적은 연산량으로 품질이 좋은 합성 음성을 생성할 수 있다.
[실시 형태 2]
상기 실시 형태 1에서는 프레임 음원 생성 수단(32, 40) 및 제2프레임 음원 생성수단(36, 43)에 있어서 지연 파라미타 L 에 대응한 벡터 길이의 적응 음원 신호 또는 구동 음원 신호를 주기 L마다 반복 주기화되고 프레임길이의 적응 음원 신호 또는 구동 음원 신호를 생성하고 있으나, 상기 지연 파라미타 L에 대응한 벡터 길이의 적응 음원 신호 또는 구동 음원 신호를 예를 들면 주기 L마다 파형 보간해서 프레임 간에 보간하고 프레임 길이의 적응 음원 신호 또는 구동 음원 신호를 생성해도 된다.
이 실시 형태 2에 따르면, 프레임 간의 음원 신호의 변화가 원활하게 되어 합성 음성의 재현성을 양호하게 하며 품질을 향상시킬 수 있다.
[실시 형태 3]
상기 실시 형태 1 및 2에서는 지연 파라미타 L에 대응한 벡터 길이의 적응 음원 신호와 구동 음원 신호로부터 프레임 음원 생성 수단 및 제2프레임 음원 생성 수단을 이용하여 프레임 길이의 적응 음원 신호와 프레임길이의 구동 음원 신호를 생성하고 이를 가산해서 프레임 길이의 음원 신호를 생성하고 있으나, 지연 파라미타 L에 대응한 벡터 길이의 적응 음원 신호와 구동 음원 신호를 가산하여 지연 파라미타 L에 대응한 벡터 길이의 음원 신호를 생성하고 이를 예를 들면 주기 L마다 반복 주기화해서 프레임 길이의 음원 신호를 생성해도 된다.
[실시 형태 4]
상기 실시 형태 1에서는 부호화부, 복호화부 모두 새로운 구성을 취하도록 했으나, 부호화부를 실시 형태 1의 부호화부로 하고 복호화부를 제12도에 도시된 종래의 복호화부로 해도 된다.
[실시 형태 5]
상기 실시 형태 1 에서는 목표 음성 생성 수단(28)에서 프레임 길이의 입력 음성으로부터 지연 파라미타 1에 대응한 벡터 길이의 목표 음성 벡터를 생성하고 있으나, 제3도에 도시한 바와 같이 지연 파라미타 1에 대응한 벡터 길이의 정수배 길이의 입력 음성으로부터 목표 음성 벡터를 생성해도 된다.
이 실시 형태 5에 따르면, 목표 음성 벡터를 생성할 때의 평균화 처리에서 벡터 길이가 다른 벡터를 다룰 필요가 없어서 간편하게 처리할 수 있다. 또, 프레임 길이를 넘은 입력 음성을 음성 부호화할 때의 평가에 이용함으로써 이 프레임의 합성 음성이 이 프레임 이후에 주어지는 영향도 가미해서 부호를 결정함으로써 합성 음성의 재현성을 양호하게 하며 품질을 향상시킬 수 있다.
[실시 형태 6]
상기 실시 형태 1에서는 목표 음성 생성 수단(28)에서 입력 음성으로부터 지연 파라미타 1에 대응한 벡터 길이의 목표 음성 벡터를 생성할 때에 단순 평균해서 하고 있으나, 제4도에 도시한 바와 같이 각 지연 파라미타 1에 대응한 벡터 길이의 입력 음성의 파워에 따른 가중치로 예를 들면 파워가 큰 만큼 가중치를 크게 해서 가중치 평균해도 된다.
이 실시 형태 6에 따르면, 목표 음성 벡터를 생성할 때의 평균화 처리에서 입력 음성의 파워가 큰 부분에 의해 가중치를 붙여 음성 부호화함으로써 주관적인 품질에 미치는 영향이 큰 합성 음성의 파워가 큰 부분의 재현성이 양호하게 되어 품질을 향상시킬 수 있다.
[실시 형태 7]
상기 실시 형태 1에서는 목표 음성 생성 수단(28)에서 입력 음성으로부터 지연 파라미타 1에 대응한 벡터 길이의 목표 음성 벡터를 생성할 때에 단순 평균해서 하고 있으나, 제5도에 도시한 바와 같이 각 지연 파라미타 1에 대응한 벡터 길이의 입력 음성 간의 상호 상관치에 따른 가중치로 예를 들면 다른 각 지연 파라미타 1에 대응한 벡터 길이의 입력 음성과의 상관이 낮은 경우에는 가중치를 작게 해서 가중치 평균해도 된다.
이 실시 형태 7에 따르면, 목표 음성 벡터를 생성할 때의 평균화 처리에서 입력 음성이 주기 1의 주기성을 갖도록 한 경우에 상관이 낮은 부분의 가중치를 작게 해서 음성 부호화함으로써 피치 주기가 변동하고 있는 입력 음성에 대해서도 1피치 주기에 대응한 왜곡이 작은 목표 음성 벡터를 생성할 수 있어서 합성 음성의 재현성을 양호하게 하여 품질을 향상시킬 수 있다.
[실시 형태 8]
상기 실시 형태 1에서는 목표 음성 생성 수단(28)에서 입력 음성으로부터 지연 파라미타 1에 대응한 벡터 길이의 목표 음성 벡터를 생성할 때에 단순 평균해서 하고 있으나, 제6도에 도시한 바와 같이 각 지연 파라미타 1에 대응한 벡터 길이의 입력 음성 간의 위치에 따른 가중치로 예를 들면 프레임 경계 근처의 입력 음성에 대해 가중치를 크게 해서 가중치 평균해도 된다.
이 실시 형태 8에 따르면, 목표 음성 벡터를 생성할 때의 평균화 처리에서 프레임 경계 근처의 입력 음성에 가중치를 크게 해서 목표 음성 벡터를 생성하고 부호화함으로써 프레임 경계 근처의 합성 음성의 재현성을 양호하게 할 수 있으며, 프레임 간의 합성 음성의 변화를 원활하게 할 수 있다. 이 효과는 실시 형태 2에서의 음원 신호를 프레임 간에 보간해서 생성할 경우 특히 현저하다.
[실시 형태 9]
상기 실시 형태 1에서는 목표 음성 생성 수단(28)에서 입력 음성으로부터 지연 파라미타 1에 대응한 벡터 길이의 목표 음성 벡터를 생성할 때에 입력 음성을 주기 1마다 가산 평균하고 있으나, 제7도에 도시한 바와 같이 입력 음성을 추출하는 위치를 예를 들면 각 지연 파라미타 1에 대응한 벡터 길이의 입력 음성 간의 상호 상관이 최대가 되도록 미세 조정해서 가산 평균해도 된다.
이 실시 형태 9에 따르면, 목표 음성 벡터를 생성할 때의 평균화 처리에서 지연 파라미타 1에 대응한 벡터 길이의 입력 음성 간의 상호 상관이 최대가 되도록 추출 위치를 미세 조정함으로써 피치 주기가 변동하고 있는 입력 음성에 대해서도 1피치 주기에 대응한 왜곡이 작은 목표 음성 벡턱를 생성할 수 있어서 합성 음성의 재현성을 양호하게 하며 품질을 향상시킬 수 있다.
[실시 형태 10]
제8도는 본 발명의 실시 형태 10인 음성 부호화 장치 및 음성 복호화 장치 전구성을 도시하는 블럭도이다. 이 도면에서 제1도와 같이 동일한 부분에는 동일 부호를 붙이고 설명을 생략한다.
제8도에서, 제1도와 비교하여 새로운 구성은 다음과 같다. 참조번호 44는 입력 음성을 업-샘플링하는 입력 음성 업-샘플링 수단이고, 참조번호 45는 피치 주기에 대응한 벡터 길이의 목표 음성 벡터를 생성하는 목표 음성 생성 수단이며, 참조번호 46, 51는 피치 주기에 대응한 벡터 길이의 구동 음원 벡터를 출력하는 구동 음원 부호 장부이고, 참조부호 47은 구동 음원 벡터로부터 얻어지는 합성 음성 벡터의 목표 음성 벡터에 대한 왜곡을 평가하고 왜곡이 최소가 되는 구동 음원 벡터를 탐색하는 구동 음원 탐색 수단이며, 참조번호 48은 제2구동 음원 벡터 탐색에서의 피치 주기에 대한 벡터 길이의 목표 음성 벡터를 생성하는 제2 목표 음성 생성 수단이고, 참조번호 49, 54는 피치 주기에 대한 벡터 길이의 제2구동 음원 벡터를 출력하는 제2구동 음원 부호 장부이며, 참조번호 50은 제2구동 음원 벡터로부터 얻어지는 합성 음성 벡터의 제2목표 음성 벡터에 대한 왜곡을 평가하고 왜곡이 최소가 되는 구동 음원 벡터를 탐색하는 제2구동 음원 탐색 수단이고, 참조번호 52는 피치 주기에 대응한 벡터 길이의 구동 음원 신호를 복호화하는 구동 음원 복호화 수단이며, 참조번호 53은 피치 주기에 대응한 벡터 길이의 구동 음원 신호로부터 프레임 길이의 구동 음원 신호를 생성하는 프레임 음원 생성 수단이고, 참조번호 55는 피치 주기에 대응한 벡터 길이의 제2의 구동 음원 신호를 복호화하는 제2의 구동 음원 복호화 수단이며, 참조번호 56은 피치 주기에 대응한 벡터 길이의 제2의 구동 음원 신호로부터 프레임 길이의 구동 음원 신호를 생성하는 제2의 프레임 음원 생성 수단이다.
이하에서 상기 새로운 구성을 중심으로 동작을 설명하기로 한다.
우선, 부호화부(1)에 있어서, 피치 분석 수단(25)은 입력 음성(5)을 분석하여 피치 주기 P를 추출하고, 다중화 수단(3), 입력 음성 업-샘플링(44), 목표 음성 생성 수단(45), 구동 음원 부호 장부(46), 제2구동 음원 부호 장부(49)에 출력한다. 여기서, 피치 주기 P는 정수값 이외에 , 비정수의 유리수도 되며, P의 존재 범위에 따라, 예를 들어, Pint를 정수치 피치 주기로 한 경우에 이하의 값을 취할 수 있도록 한다.
P 45 경우, Pint, Pint + 1/4, Pint+ 1/2, Pint+ 3/4
45≤P65 경우, Pint, Pint, + 1/2
65≤P 경우, Pint
입력 음성-업 샘플링 레이트 수단(44)은 피치 분석 수단(25)으로부터 입력된 피치 주기에 따른 샘플링 레이트로 입력 음성(5)을, 예를 들어, 음원신호를 부호화하는 단위인 프레임 구간으로 업-샘플링하여 목표 음성 생성 수단(45)으로 출력한다. 여기서, 업-샘플링 레이트는, 예를 들어 아래와 같이 결정한다.
P 45 경우, 4배로 업-샘플링한다.
45 ≤ P 65 경우, 2배로 업-샘플링한다.
65 ≤ P 경우, 업-샘플링하지 않는다.
목표 음성 생성수단(45)은 상기 입력 음성 업-샘플링 수단(44)으로부터 입력된 업-샘플링한 프레임 길이의 입력 음성을 피치 분석 수단(25)으로부터 입력되는 피치 주기 P에 대응하여, 예를 들어, 주기 P마다 가산 평균함으로써, 벡터 길이 P의 목표 음성 벡터를 생성하여, 구동 음성 탐색 수단(47)과 제2 목표 음성 생성 수단(48)으로 출력한다. P ≥ 프레임 길이의 경우는 상기 가산 평균을 행하지 않고, 프레임 길이의 입력 음성을 목표 음성 벡터로 한다.
구동 음원 부호 장부(46)에는, 예를 들어, 랜덤 잡음으로 생성된 N개의 구동음원 벡터가 기억되어 있으며, 구동 음원 탐색 수단(47)으로부터 입력되는 구동 음원 부호 i에 대응한 구동 음원 벡터를 상기 피치 분석 수단(25)으로부터 입력된 피치 주기 P에 대응한 벡터 길이로 잘라내어, 출력한다. 여기서 P 프레임 길이의 경우는, 프레임 길이의 구동 음원 벡터를 출력한다.
구동 음원 탐색 수단(47)은 N개의 구동 음원 벡터에 대해, 상기 구동 음원 부호 장부(46)로부터 입력되는 잘라 낸 구동 음원 벡터를 선형 예측 파라미타 부호화수단(9)으로부터 입력되는 양자화한 선형 예측 파라미타를 이용하여 선형 예측 합성하여 합성 음성 벡터를 생성한다. 그리고, 상기 목표 음성 생성 수단(45)으로부터 입력된 목표 음성 벡터와 상기 음성 벡터의 청구항각 가중치 왜곡을 구한다. 다음에, 상기 왜곡을 비교 평가하여 상기 왜곡이 최소화되는 구동 음원 부호 I와 그것에 대응하는 구동 음원 이득 γ를 구하고, 상기 구동 음원 부호 I와 구동 음원 이득 γ의 부호를 다중화 수단(3)에 출력함과 함께 상기 구동 음원 부호 I에 대응하는 구동 음원 벡터에 상기 구동 음원 이득 γ를 곱한 구원 신호를 생성하고, 제2목표 음성 생성 수단(48)에 출력한다.
제2목표 음성 생성 수단(48)은 상기 구동 음원 탐색 수단(47)으로부터 입력된 구동 음원 신호를 선형 예측 파라미터 부호화 수단(9)로부터 입력되는 양자화한 선형 예측 파라미터를 이용하여 선형 예측 합성하여 합성음성 벡터를 생성한다. 그리고, 상기 목표 음성 생성 수단(45)으로부터 입력되는 목표 음성 벡터와 상기 합성 음성 벡터의 차분을 구해 이것을 제2목표 음성 벡터로서 제2구동 음원 탐색 수단(50)에 출력한다.
제2구동 음원 부호 장부(49)에는, 예를 들어, 랜덤 잡음으로부터 생성된 N개의 구동 음원 벡터가 기억되어 있으며, 제2구동 음원 탐색 수단(50)으로부터 입력되는 구동 음원 신호 j 에 대응한 제2구동 음원 벡터를 상기 피치 분석 수단(25)으로부터 입력된 피치 주기 P에 대응한 벡터 길이로 잘라내어 출력한다. 여기서, P≥프레임 길이의 경우는 프레임 길이의 구동 음원 벡터를 출력한다.
제2구동 음원 탐색 수단(50)은 N개의 구동 음원 벡터에 대해 상기 제2구동 음원 부호 장부(49)로부터 입력되는 잘라낸 제2구동 음원 벡터를 상기 선형 예측 파라미타 부호화 수단(9)으로부터 입력되는 양자화한 선형 예측 파라미타를 이용하여 선형 예측 합성하여 합성 음성 벡터를 생성한다. 그리고, 상기 제2목표 음성 생성 수단(48)으로부터 입력된 제2목표 음성 벡터와 상기 합성 음성 벡터의 청각 가중 왜곡을 구한다. 다음에, 상기 왜곡을 비교 평가하여, 상기 왜곡이 최소로 되는 제2구동 음원 신호 J와 이것에 대응하는 제2구동 음원 이득 γ2을 구하여, 상기 제2구동 음원 신호 J와 제2구동 음원 이득 γ2의 부호를 다중화 수단(3)으로 출력한다.
이상 부호화가 종료한 후, 다중화 수단(3)은 상기 양자화한 선형 예측 파라미타에 대응하는 부호, 피치 주기 P, 구동 음원 부호 I, J, 및 음원 이득 γ, γ2에 대응하는 부호를 전송호(6)로 출력한다.
이상이 본 실시 형태 10의 음성 부호화 장치에 특징인 동작이다.
계속해서, 부호화부(2)에 대하여 설명하기로 한다.
우선, 다중화 수단(3)의 출력을 수신한 분리 수단(4)은,
선형 예측 파라미타의 부호 → 선형 예측 파라미타 복호화 수단(16)
피치 주기 P → 구동 음원 부호 장부(51), 제2구동 음원 부호 장부(54)
구동 음원 신호 I, 음원 이득 γ의 부호 → 구동 음원 복호화 수단(52)
제2구동 음원 신호 J, 음원 이득 γ2의 부호 → 제2 구동 음원 복호화 수단(55)으로 각각 출력한다.
구동 음원 부호 장부(51)는 부호화측의 구동 음원 부호 장부(46)와 동일한 N개의 구동 음원 벡터가 기억되어 있으며 구동 음원 탐색 수단(52)으로부터 입력되는 구동 음원 부호 I에 대응한 구동 음원 벡터를 상기 피치 주기 P에 대응한 벡터 길이로 잘라내어, 구동 음원 탐색 수단(52)으로 출력한다.
구동 음원 복호화 수단(52)은 상기 구동 음원 이득 γ의 부호로부터 구동 음원 이득 γ를 복호화하여, 상기 구동 음원 장부(51)로부터 입력된 잘라낸 구동 음원 벡터에 상기 구동 음원 이득 γ를 곱한 구동 음원 신호를 생성하여, 프레임 음원 생성 수단(53)으로 출력한다. 프레임 음원 생성 수단(53)은 상기 구동 음원 탐색 수단(52)으로부터 입력된 구동 음원 신호로부터, 예를 들어, 주기 P 마다 반복하여 주기화하여 프레임 길이의 구동 음원 신호를 생성하여, 음원 생성 수단(21)으로 출력한다.
제2구동 음원 부호 장부(54)는 부호화측의 제2구동 음원 부호 장부(49)와 동일한 N개의 구동 음원 벡터가 기억되어 있으며, 제2구동 음원 복호화 수단(55)으로부터 제2구동 음원 신호 J에 대응한 제2구동 음원 벡터를 상기 피치 주기 P에 대응한 벡터 길이로 잘라 내어, 제2구동 음원 복호화 수단(55)으로 출력한다.
제2구동 음원 복호화 수단(55)은 상기 제2구동 음원 이득 γ2의 부호로부터 구동 음원 이득 γ2를 복호화하여, 상기 제2구동 음원 부호 장부(54)으로부터 입력된 잘라낸 제2구동 음원 벡터에 상기 구동 음원 이득 γ2를 곱한 제2구동 음원 신호를 생성하여, 제2프레임 음원 생성 수단(56)으로 출력한다. 제2프레임 음원 생성 수단(56)은 상기 제2구동 음원 복호화 수단(55)으로부터 입력된 제2구동 음원 신호로부터, 예를 들어, 주기 P마다 반복하여 제2프레임 길이의 구동 음원 신호를 생성하여 음원 신호 생성 수단(21)으로 출력한다.
음원 신호 생성 수단(21)은 상기 프레임 음원 생성 수단(53)으로부터 입력된 프레임 길이의 구동 음원 신호와 상기 제2프레임 음원 생성 수단(56)으로부터 입력된 제2프레임 길이의 구동 음원 신호를 가산하여 음원 신호를 생성하여, 합성 필터(22)로 출력한다. 합성 필터(22)는 상기 음원 신호 생성 수단(21)으로부터 입력된 음원 신호를 선형 예측 파라미타 복호화 수단(16)으로부터 입력된 선형 예측 파라미타를 이용하여 선형 예측 합성하여, 출력 음성(7)을 출력한다.
이상이, 본 실시 형태 10의 음성 복호화 장치에 특징적인 동작이다.
본 실시 형태 10에 의하면, 입력 음성 피치 주기 P가 프레임 길이보다 짧은 경우는 입력 음성을 주기적으로 가산 평균하여 벡터 길이 P의 목표 음성 벡터를 생성하여, 이것에 대하여 벡터 길이 P의 구동 음원 벡터를 선형 예측 합성하여 생성한 합성 음성 벡터의 왜곡을 평가함으로써, 합성 음성의 품질의 열화를 회피하여 적은 계산량으로 품질이 양호한 합성 음성을 생성할 수 있다.
이상 상술한 바와 같이, 본 발명에 의하면, 음성 부호화 장치에 입력 음성으로부터 지연 파라미타에 대응한 벡터 길이의 목표 음성 벡터를 생성하는 목표 음성 생성 수단, 과거에 생성된 음원 신호로부터 상기 지연 파라미타에 대응한 벡터 길이의 적응 음원 벡터를 생성하는 적응 음원 부호 장부와, 상기 적응 음원 벡터로부터 얻어지는 합성 음성 벡터의 상기 목표 음성 벡터에 대한 왜곡을 평가하여, 왜곡이 최소로되는 적응 음원 벡터로부터 프레임 길이의 음원 신호를 생성하는 프레임 음원 생성 수단을 구비하고 있으므로, 합성 음성 품질의 열화를 회피하여 적은 계산량으로 품질이 양호한 합성 음성을 생성할 수 있다.
또한, 본 발명에 의하면, 목표 음성 벡터의 벡터 길이가 유리수를 취하도록 하였으므로 입력 음성으로부터 목표 음성 벡터를 생성할시에, 입력 음성의 샘플링 주기에 의하지 않아 정밀도가 양호한 목표 음성 벡터를 생성할 수 있으며, 합성 음성의 품질의 열화를 회피하여 적은 계산량으로 품질이 양호한 합성 음성을 생성할 수 있다.
또한, 본 발명에 의하면, 목표 음성 생성 수단은 지연 파라미타에 대응한 벡터 길이의 정수배 길이의 입력 음성을 벡터 길이 마다 분할하여, 상기 벡터 길이의 입력 음성을 가산 평균하여 목표 음성 벡터를 생성하는 것으로 한 것이므로, 목표 음성 벡터를 생성할때의 평균화 처리에 있어서, 벡터 길이가 다른 벡터를 취급할 필요가 없어, 간단하게 처리할 수 있으며, 합성 음성의 품질의 회피하여 적은 계산량으로 품질이 양호한 합성 음성을 생성할 수 있다.
또한, 본 발명에 의하면, 목표 음성 벡터를 생성하는 벡터 길이의 정수배 길이의 입력 음성을 프레임 길이 이상으로 한 것으로 하였으므로, 프레임길이를 넘는 입력 음성을 음성 부호화할때의 평가에 이용함으로써, 당해 프레임의 합성 음성이 당해 프레임이후에 제공되는 영향도 가미하여 부호를 결정하게 되어, 합성 음성의 재현성을 양호하게 하며 품질을 향상시킬 수 있다.
또한, 본 발명에 의하면, 벡터 길이마다 입력 음성에 관한 특징량은 적어도 입력 음성의 파워 정보를 포함하도록 한 것이므로 입력 음성의 파워가 큰 부분에 의해 가중치되어 음성 부호화함으로써, 주관 품질에 제공되는 영향이 커 합성음성의 파워가 큰 부분의 재현성이 양호하게 되어 품질을 향상시킬 수 있다.
또한, 본 발명에 의하면, 벡터 길이마다 입력 음성에 관한 특징량은 적어도 입력 음성의 상관 정보를 포함하도록 하였으므로, 입력 음성이 주기 1의 주기성을 갖도록 한 경우에 상관이 낮은 부분의 가중치를 적게하여 음성 부호화함으로써, 피치 주기가 변동하고 있는 입력 음성에 대해서도 1피치 주기에 대응한 왜곡이 적은 목표 음성 벡터를 생성하는 것이 가능하며, 합성 음성의 재현성을 양호하게 하고 품질을 향상시킬 수 있다.
또한, 본 발명에 의하면, 목표 음성 생성 수단은 벡터 길이마다의 입력 음성의 시간관계에 따라 입력 음성을 상기 벡터 길이마다 가산 평균하여 목표 음성 벡터를 생성할때의 가중치를 결정하도록 한 것이므로, 프레임 경계 근방의 입력 음성 가중치를 크게하여 목표 음성 벡터를 생성하고, 부호화함으로써, 프레임 경계 근방의 합성 음성의 재현성을 양호하게 할 수 있으며, 프레임간의 합성 음성의 변화를 평활 하게 할 수 있다
또한, 본 발명에 의하면, 목표 음성 생성 수단은 입력 음성을 벡터 길이마다 가산 평균할때, 상기 벡터 길이마다의 입력 음성의 시간관계를 미조정하도록 한 것이므로 벡터 길이 1의 입력 음성의 상호관계가 크게 되도록 잘라내어 위치를 미조정 함으로써, 피치 주기에 대응한 왜곡이 적은 목표 음성 벡터를 생성할 수 있어서, 합성음성의 재현성을 양호하게 하고 품질을 향상시킬 수 있다.
또한, 본 발명에 의하면, 프레임 음원 생성 수단은 벡터 길이의 음원 벡터를 프레임사이에 보간하여 음원 신호를 생성하도록 한 것이므로, 프레임간의 음원 신호의 변화가 평활하게 되고, 합성 음성의 재현성을 양호하게 하고, 품질을 향상시킬 수 있다.

Claims (4)

  1. 입력 음성을 스펙트럼 포락 정보(spectrum envelope information)와 음원 신호 정보(sound source signal information)로 분리하여, 프레임 단위로 음원 신호 정보를 부호화하는 음성 부호화 장치에 있어서, 상기 입력 음성으로부터 지연 파라미타에 대응한 벡터 길이의 목표 음성 벡터를 생성하는 목표 음성 생성 수단(target audio generation means)과, 과거에 생성한 음원 신호로부터 상기 지연 파라미타에 대응한 벡터 길이의 적응 음원 벡터를 생성하는 적응 음원 부호 장부(adaptive sound source code book)와, 상기 적응 음원 벡터로부터 취득되는 합성 음성 벡터의 상기 목표 음성 벡터에 대한 왜곡을 평가하여, 왜곡이 최소가 되는 적응 음원 벡터를 탐색하는 적응 음원 탐색 수단(adaptive sound source search means)과, 상기 왜곡이 최소가 되는 적응 음원 벡터로부터 프레임 길이의 음원 신호를 생성하는 프레임 음원 생성 수단(frame sound source generation means)을 구비한 것을 특징으로 하는 음성 부호화 장치.
  2. 입력 음성을 스펙트럼 포락 정보와 음원 신호 정보로 분리하여, 프레임 단위로 음원 신호 정보를 부호화하는 음성 부호화 장치에 있어서, 상기 입력 음성으로부터 지연 파라미타에 대응한 벡터 길이의 목표 음성 벡터를 생성하는 목표 음성 생성 수단과, 상기 지연 파라미타에 대응한 벡터 길이의 구동 음원 벡터를 생성하는 구동 음원 부호 장부와, 상기 구동 음원 벡터로부터 취득되는 합성 음성 벡터의 상기 목표 음성 벡터에 대한 왜곡을 평가하여, 왜곡이 최소가 되는 구동 음원 벡터를 탐색하는 구동 음원 탐색 수단과, 상기 왜곡이 최소가 되는 구동 음원 벡터로부터 프레임 길이의 음원 신호를 생성하는 프레임 음원 생성 수단을 포함하는 것을 특징으로 하는 음성 부호화 장치.
  3. 입력 음성을 스펙트럼 포락 정보와 음원 신호 정보로 분리하여, 프레임 단위로 음원 신호 정보를 부호화하고, 부호화된 음원 신호 정보를 복호화하여 출력 음성을 생성하는 음성 부호화 복호화 장치에 있어서, 부호화측에서는, 상기 입력 음성으로부터 지연 파라미타에 대응한 벡터 길이의 목표 음성 벡터를 생성하는 목표 음성 생성 수단과, 과거에 생성한 음원 신호로부터 상기 지연 파라미타에 대응한 벡터 길이의 적응 음원 벡터를 생성하는 적응 음원 부호 장부와, 상기 적응 음원 벡터로부터 취득되는 합성 음성 벡터의 상기 목표 음성 벡터에 대한 왜곡을 평가하여, 왜곡이 최소가 되는 적응 음원 벡터를 탐색하는 적응 음원 탐색 수단과, 상기 왜곡이 최소가 되는 적응 음원 벡터로부터 프레임 길이의 음원 신호를 생성하는 프레임 음원 생성 수단을 구비하는 한편, 복호화측에서는, 상기 지연 파라미타에 대응한 벡터 길이의 적응 음원 벡터를 생성하는 적응 음원 부호 장부와, 상기 적응 음원 벡터로부터 프레임 길이의 음원 신호를 생성하는 프레임 음원 생성 수단을 포함하는 것을 특징으로 하는 음성 부호화 복호화 장치.
  4. 입력 음성을 스펙트럼 포락 정보와 음원 신호 정보로 분리하여, 프레임 단위로 음원 신호 정보를 부호화하고, 부호화된 음원 신호 정보를 복호화하여 출력 음성을 생성하는 음성 부호화 복호화 장치에 있어서, 부호화측에서는, 상기 입력 음성으로부터 지연 파라미타에 대응한 벡터 길이의 목표 음성 벡터를 생성하는 목표 음성 생성 수단과, 상기 지연 파라미타에 대응한 벡터 길이의 구동 음원 벡터를 생성하는 구동 음원 부호 장부와, 상기 구동 음원 벡터로부터 취득되는 합성 음성 벡터의 상기 목표 음성 벡터에 대한 왜곡을 평가하여, 왜곡이 최소가 되는 구동 음원 벡터를 탐색하는 구동 음원 탐색 수단과, 상기 왜곡이 최소가 되는 구동 음원 벡터로부터 프레임 길이의 음원 신호를 생성하는 프레임 음원 생성 수단을 포함하는 한편, 복호화측에서는, 상기 지연 파라미타에 대응한 벡터 길이의 구동 음원 벡터를 생성하는 구동음원 부호 장부와, 상기 구동 음원 벡터로부터 프레임 길이의 음원 신호를 생성하는 프레임 음원 생성 수단을 포함하는 것을 특징으로 하는 음성 부호화 복호화 장치.
KR1019970001026A 1996-05-29 1997-01-15 음성 부호화 장치 및 음성 부호화 복호화 장치 KR100218214B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP96-135240 1996-05-29
JP13524096A JP3364825B2 (ja) 1996-05-29 1996-05-29 音声符号化装置および音声符号化復号化装置

Publications (2)

Publication Number Publication Date
KR970076487A KR970076487A (ko) 1997-12-12
KR100218214B1 true KR100218214B1 (ko) 1999-09-01

Family

ID=15147096

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970001026A KR100218214B1 (ko) 1996-05-29 1997-01-15 음성 부호화 장치 및 음성 부호화 복호화 장치

Country Status (8)

Country Link
US (1) US6052661A (ko)
EP (1) EP0810585B1 (ko)
JP (1) JP3364825B2 (ko)
KR (1) KR100218214B1 (ko)
CN (1) CN1151491C (ko)
CA (1) CA2194513C (ko)
DE (1) DE69720855D1 (ko)
TW (1) TW317631B (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19729494C2 (de) * 1997-07-10 1999-11-04 Grundig Ag Verfahren und Anordnung zur Codierung und/oder Decodierung von Sprachsignalen, insbesondere für digitale Diktiergeräte
EP1752968B1 (en) * 1997-10-22 2008-09-10 Matsushita Electric Industrial Co., Ltd. Method and apparatus for generating dispersed vectors
EP1596367A3 (en) 1997-12-24 2006-02-15 Mitsubishi Denki Kabushiki Kaisha Method and apparatus for speech decoding
JP3268750B2 (ja) * 1998-01-30 2002-03-25 株式会社東芝 音声合成方法及びシステム
US6249758B1 (en) * 1998-06-30 2001-06-19 Nortel Networks Limited Apparatus and method for coding speech signals by making use of voice/unvoiced characteristics of the speech signals
US6507814B1 (en) 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6449590B1 (en) 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
US6330533B2 (en) 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
FI111438B (fi) * 1999-07-09 2003-07-15 Nokia Corp Symbolijonon lähetysmenetelmä
JP4792613B2 (ja) * 1999-09-29 2011-10-12 ソニー株式会社 情報処理装置および方法、並びに記録媒体
JP3404024B2 (ja) 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
US8271275B2 (en) * 2005-05-31 2012-09-18 Panasonic Corporation Scalable encoding device, and scalable encoding method
US7996216B2 (en) * 2005-07-11 2011-08-09 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signal
WO2009039897A1 (en) * 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
ES2656022T3 (es) 2011-12-21 2018-02-22 Huawei Technologies Co., Ltd. Detección y codificación de altura tonal muy débil
WO2013185857A1 (en) * 2012-06-14 2013-12-19 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for scalable low-complexity coding/decoding
CN106448688B (zh) * 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4910781A (en) 1987-06-26 1990-03-20 At&T Bell Laboratories Code excited linear predictive vocoder using virtual searching
US5235670A (en) * 1990-10-03 1993-08-10 Interdigital Patents Corporation Multiple impulse excitation speech encoder and decoder
US5195168A (en) * 1991-03-15 1993-03-16 Codex Corporation Speech coder and method having spectral interpolation and fast codebook search
JP3275247B2 (ja) * 1991-05-22 2002-04-15 日本電信電話株式会社 音声符号化・復号化方法
US5396576A (en) * 1991-05-22 1995-03-07 Nippon Telegraph And Telephone Corporation Speech coding and decoding methods using adaptive and random code books
US5305421A (en) * 1991-08-28 1994-04-19 Itt Corporation Low bit rate speech coding system and compression
FI95085C (fi) * 1992-05-11 1995-12-11 Nokia Mobile Phones Ltd Menetelmä puhesignaalin digitaaliseksi koodaamiseksi sekä puhekooderi menetelmän suorittamiseksi
JPH07334194A (ja) * 1994-06-14 1995-12-22 Matsushita Electric Ind Co Ltd 音声符号化/復号化方法およびそれらの装置

Also Published As

Publication number Publication date
DE69720855D1 (de) 2003-05-22
JPH09319396A (ja) 1997-12-12
CA2194513A1 (en) 1997-11-30
CA2194513C (en) 2001-05-15
EP0810585B1 (en) 2003-04-16
EP0810585A2 (en) 1997-12-03
EP0810585A3 (en) 1998-11-11
JP3364825B2 (ja) 2003-01-08
US6052661A (en) 2000-04-18
KR970076487A (ko) 1997-12-12
TW317631B (en) 1997-10-11
CN1151491C (zh) 2004-05-26
CN1170189A (zh) 1998-01-14

Similar Documents

Publication Publication Date Title
KR100218214B1 (ko) 음성 부호화 장치 및 음성 부호화 복호화 장치
EP1202251B1 (en) Transcoder for prevention of tandem coding of speech
US5142584A (en) Speech coding/decoding method having an excitation signal
KR100979090B1 (ko) 피치 지연 윤곽부 조절을 사용하여 정보 신호를 코딩하기위한 방법 및 장치
KR100873836B1 (ko) Celp 트랜스코딩
JP2002268690A (ja) 音声符号化装置、音声符号化方法、音声復号化装置及び音声復号化方法
EP0501421B1 (en) Speech coding system
JP2002055699A (ja) 音声符号化装置および音声符号化方法
EP2187390B1 (en) Speech signal decoding
US5027405A (en) Communication system capable of improving a speech quality by a pair of pulse producing units
US7680669B2 (en) Sound encoding apparatus and method, and sound decoding apparatus and method
EP1363274B1 (en) Voice code sequence converting device
US4908863A (en) Multi-pulse coding system
EP1083548B1 (en) Speech signal decoding
JPH0990997A (ja) 音声符号化装置、音声復号化装置、音声符号化復号化方法および複合ディジタルフィルタ
EP0402947B1 (en) Arrangement and method for encoding speech signal using regular pulse excitation scheme
KR0156983B1 (ko) 음성 부호기
JPH04301900A (ja) 音声符号化装置
JPH09166999A (ja) 音声符号化装置及び音声符号化方法
JPH09185396A (ja) 音声符号化装置
JPH09114498A (ja) 音声符号化装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20060525

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee