KR100819623B1 - 음성 데이터의 처리 장치 및 처리 방법 - Google Patents

음성 데이터의 처리 장치 및 처리 방법 Download PDF

Info

Publication number
KR100819623B1
KR100819623B1 KR1020027004559A KR20027004559A KR100819623B1 KR 100819623 B1 KR100819623 B1 KR 100819623B1 KR 1020027004559 A KR1020027004559 A KR 1020027004559A KR 20027004559 A KR20027004559 A KR 20027004559A KR 100819623 B1 KR100819623 B1 KR 100819623B1
Authority
KR
South Korea
Prior art keywords
tap
class
prediction
code
voice
Prior art date
Application number
KR1020027004559A
Other languages
English (en)
Other versions
KR20020040846A (ko
Inventor
데쯔지로 곤도
쯔또무 와따나베
마사아끼 하또리
히로또 기무라
야스히로 후지모리
Original Assignee
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2000251969A external-priority patent/JP2002062899A/ja
Priority claimed from JP2000346675A external-priority patent/JP4517262B2/ja
Application filed by 소니 가부시끼 가이샤 filed Critical 소니 가부시끼 가이샤
Publication of KR20020040846A publication Critical patent/KR20020040846A/ko
Application granted granted Critical
Publication of KR100819623B1 publication Critical patent/KR100819623B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Abstract

본 발명은 소정의 코드로부터 생성되는 선형 예측 계수와 잔차 신호를 음성 합성 필터에 부여함으로써 얻어지는 합성음으로부터, 그 음질을 향상시킨 고음질의 음성의 예측값을 예측하기 위한 예측 탭을 추출하고, 그 예측 탭과 소정 탭 계수를 이용하여 소정의 예측 연산을 행함으로써, 고음질의 음성의 예측값을 구하는 음성 처리 장치로서, 상기 예측값을 구하고자 하는 상기 고음질의 음성을 주목 음성으로 하여 그 주목 음성을 예측하는데 사용하는 상기 예측 탭을, 합성음에서 추출하는 예측 탭 추출부(45)와, 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 이용하는 클래스 탭을 코드로부터 추출하는 클래스 탭 추출부(46)와, 클래스 탭에 기초하여 주목 음성의 클래스를 구하는 클래스 분류를 행하는 클래스 분류부(47)와, 학습을 행함으로써 구해진 클래스마다의 탭 계수 중에서 주목 음성의 클래스에 대응하는 탭 계수를 취득하는 탭 생성부와, 예측 탭과 상기 주목 음성의 클래스에 대응하는 탭 계수를 이용하여 주목 음성의 예측값을 구하는 예측부(49)를 포함한다.
음성 데이터, 선형 예측 계수, 잔차 신호, 음성 합성 필터, 휴대 전화기

Description

음성 데이터의 처리 장치 및 처리 방법{VOICE DATA PROCESSING DEVICE AND PROCESSING METHOD}
본 발명은 데이터 처리 장치 및 데이터 처리 방법, 학습 장치 및 학습 방법, 그리고 기록 매체에 관한 것으로서, 특히 예컨대 CELP(Code Excited Linear Prediction coding) 방식으로 부호화된 음성을 고음질의 음성으로 복호할 수 있도록 하는 데이터 처리 장치 및 데이터 처리 방법, 학습 장치 및 학습 방법, 그리고 기록 매체에 관한 것이다.
우선, 종래 사용되고 있는 휴대 전화기의 일례를 도 1 및 도 2를 참조하여 설명한다.
이 휴대 전화기에서는 음성을 CELP 방식에 의해 소정 코드로 부호화하여 송신하는 송신 처리와, 다른 휴대 전화기로부터 송신되어 오는 코드를 수신하여 음성으로 복호하는 수신 처리가 실행되도록 되어 있고, 도 1은 송신 처리를 행하는 송신부를, 도 2는 수신 처리를 행하는 수신부를 각각 나타내고 있다.
도 1에 도시한 송신부에서는 사용자가 발화한 음성이 마이크로폰(1)에 입력되고, 그래서 전기 신호로서의 음성 신호로 변환되고, A/D(Analog/Digital) 변환부(2)로 공급된다. A/D 변환기(2)는 마이크로폰(1)으로부터의 아날로그의 음 성 신호를, 예컨대 8㎑ 등의 샘플링 주파수로 샘플링함으로써, 디지털 음성 신호로 A/D 변환하고, 또한 소정 비트수로 양자화를 행하여 연산기(3)와 LPC(Linear Prediction Coefficient) 분석부(4)로 공급한다.
LPC 분석부(4)는 A/D 변환부(2)로부터의 음성 신호를, 예컨대 160 샘플링분 길이의 프레임마다 LPC 분석하여 P차의 선형 예측 계수(α12,…,αP)를 구한다. 그리고, LPC 분석부(4)는 이 P차의 선형 예측 계수(αP;P=1,2,…,P)를 요소로 하는 벡터를 음성의 특징 벡터로서 벡터 양자화부(5)로 공급한다.
벡터 양자화부(5)는 선형 예측 계수를 요소로 하는 코드 벡터와 코드를 대응시킨 코드북을 기억하고 있고, 이 코드북에 기초하여 LPC 분석기(4)로부터의 특징 벡터(α)를 벡터 양자화하고, 이 벡터 양자화의 결과 얻어지는 코드(이하, 적당히 A 코드(A_code)라 함)를 코드 결정부(15)로 공급한다.
그리고, 벡터 양자화부(5)는 A 코드에 대응하는 코드 벡터(α')를 구성하는 요소로 되어 있는 선형 예측 계수(α1',α2',…,αP')를 음성 합성 필터(6)로 공급한다.
음성 합성 필터(6)는 예컨대 IIR(Infinite Impulse Response)형 디지털 필터로서, 벡터 양자화부(5)로부터의 선형 예측 계수(αP';P=1,2,…,P)를 IIR 필터의 탭 계수로 함과 동시에 연산기(14)에서 공급되는 잔차 신호(e)를 입력 신호로 하여 음성 합성을 실행한다.
즉, LPC 분석부(4)에서 실행되는 LPC 분석은, 현재 시각(n)의 음성 신호의 샘플링 값(sn) 및 이에 인접하는 과거의 P개의 샘플값(sn-1,sn-2,…,sn-P )에
Figure 112002010575060-pct00001
Figure 112002010575060-pct00002
로 표시되는 선형 1차 결합이 성립된다고 가정하고, 현재 시각(n)의 샘플값(sn)의 예측치(선형 예측치)(sn')를 과거의 P개의 표본치(Sn-1,Sn-2,…,Sn-P )를 이용하여
Figure 112002010575060-pct00003
에 의해 선형 예측하였을 때에, 실제의 샘플값(sn)과 선형 예측치(sn') 사이의 자승 오차를 최소로 하는 선형 예측 계수(αP)를 구하는 것이다.
여기서, 수학식 1에 있어서 {en}(…,en-1,en,en+1,…)은 평균치가 0이고, 분산이 소정치(σ2)의 서로 무상관의 확률 변수이다.
수학식 1에서 샘플값(sn)은
Figure 112002010575060-pct00004
로 표시할 수 있고, 이것을 Z변환하면 다음 수학식 4가 성립된다.
Figure 112002010575060-pct00005
단, 수학식 4에 있어서 S와 E는 수학식 3에 있어서의 sn과 en의 Z변환을 각각 나타낸다.
여기서, 수학식 1 및 수학식 2로부터 en
Figure 112002010575060-pct00006
로 표시할 수 있고, 실제의 샘플값(sn)과 선형 예측치(sn') 사이의 잔차 신호라 불린다.
따라서, 수학식 4로부터, 선형 예측 계수(αP)를 IIR 필터의 탭 계수로 함과 동시에 잔차 신호(en)를 IIR 필터의 입력 신호로 함으로써 음성 신호(sn)를 구할 수 있다.
음성 합성 필터(6)는 상술한 바와 같이, 벡터 양자화부(5)로부터의 선형 예측 계수(αP')를 탭 계수로 함과 동시에 연산기(14)에서 공급되는 잔차 신호(e)를 입력 신호로 하여 수학식 4를 연산하여 음성 신호(합성음 신호)(ss)를 구한다.
그리고, 음성 합성 필터(6)에서는, LPC 분석부(4)에 의한 LPC 분석의 결과 얻어지는 선형 예측 계수(αP)가 아니라, 그 벡터 양자화의 결과 얻어지는 코드에 대응하는 코드 벡터로서의 선형 예측 계수(αP')가 사용되기 때문에, 음성 합성 필터(6)가 출력하는 합성음 신호는 A/D 변환부(2)가 출력하는 음성 신호와는 기본적으로 동일하지는 않다.
음성 합성 필터(6)가 출력하는 합성음 신호(ss)는 연산기(3)로 공급된다. 연산기(3)는 음성 합성 필터(6)로부터의 합성음 신호(ss)에서 A/D 변환부(2)가 출력하는 음성 신호(s)를 감산하고, 그 감산치를 자승 오차 연산부(7)로 공급한다. 자승 오차 연산부(7)는 연산기(3)로부터의 감산치의 자승합(제k 프레임의 샘플값에 대한 자승합)을 연산하고, 그 결과 얻어지는 자승 오차를 자승 오차 최소 판정부(8)로 공급한다.
자승 오차 최소 판정부(8)는, 자승 오차 연산부(7)가 출력하는 자승 오차에 대응시켜 러그를 표시하는 코드로서의 L 코드(L_code), 게인을 표시하는 코드로서의 G 코드(G_code) 및 부호어를 표시하는 코드로서의 I 코드(I_code)를 기억하고 있고, 자승 오차 연산부(7)가 출력하는 자승 오차에 대응하는 L 코드, G 코드 및 I 코드를 출력한다. L 코드는 적응 코드북 기억부(9)로, G 코드는 게인 복호기(10)로, I 코드는 여기(勵起) 코드북 기억부(11)로 각각 공급된다. 그리고, L 코드, G 코드 및 I 코드는 코드 결정부(15)로도 공급된다.
적응 코드북 기억부(9)는, 예컨대 7비트의 L 코드와 소정 지연 시간(러그)을 대응시킨 적응 북 코드를 기억하고 있고, 연산기(14)에서 공급되는 잔차 신호(e)를 자승 오차 최소 판정부(8)에서 공급되는 L 코드에 대응된 지연 시간만큼 지연시켜 연산기(12)로 출력한다.
여기서, 적응 코드북 기억부(9)는 잔차 신호(e)를 L 코드에 대응하는 시간만큼 지연시켜 출력하기 때문에, 그 출력 신호는 그 지연 시간을 주기로 하는 주기 신호에 가까운 신호가 된다. 이 신호는 선형 예측 계수를 사용한 음성 합성에 있어서 주로 유성음의 합성음을 생성하기 위한 구동 신호가 된다.
게인 복호기(10)는 G 코드와 소정 게인(β및 γ)을 대응된 테이블을 기억하고 있고, 자승 오차 최소 판정부(8)에서 공급되는 G 코드에 대응된 게인(β및 γ)을 출력한다. 게인(β와 γ)은 연산기(12와 13)로 각각 공급된다.
여기 코드북 기억부(11)는, 예컨대 9비트의 I 코드와 소정 여기 신호를 대응시킨 여기 코드북을 기억하고 있고, 자승 오차 최소 판정부(8)에서 공급되는 I 코드에 대응된 여기 신호를 연산기(13)로 출력한다.
여기서, 여기 코드북에 기억되어 있는 여기 신호는 예컨대 화이트 노이즈 등에 가까운 신호로서, 선형 예측 계수를 사용한 음성 합성에 있어서 주로 무성음의 합성음을 생성하기 위한 구동 신호가 된다.
연산기(12)는 적응 코드북 기억부(9)의 출력 신호와 게인 복호기(10)가 출력하는 게인(β)을 승산하고, 그 승산치(l)를 연산기(14)로 공급한다. 연산기(13)는 여기 코드북 기억부(11)의 출력 신호와 게인 복호기(10)이 출력하는 게인(γ)을 승산하고, 그 승산치(n)를 연산기(14)로 공급한다. 연산기(14)는 연산기(12)로부터의 승산치(l)와 연산기(13)로부터의 승산치(n)를 가산하고, 그 가산치를 잔차 신호(e)로서 음성 합성 필터(6)로 공급한다.
음성 합성 필터(6)에서는 이상과 같이 하여, 연산기(14)에서 공급되는 잔차 신호(e)를 입력 신호가, 벡터 양자화부(5)에서 공급되는 선형 예측 계수(αP')를 탭 계수로 하는 IIR 필터로 필터링되고, 그 결과 얻어지는 합성음 신호가 연산기(3)로 공급된다. 그리고, 연산기(3) 및 자승 오차 연산부(7)에 있어서 상술한 경우와 동일한 처리가 실행되고, 그 결과 얻어지는 자승 오차가 자승 오차 최소 판정부(8)로 공급된다.
자승 오차 최소 판정부(8)는 자승 오차 연산부(7)로부터의 자승 오차가 최소(극소)로 되었는지의 여부를 판정한다. 그리고, 자승 오차 최소 판정부(8)는 자승 오차가 최소로 되어 있지 않다고 판정한 경우, 상술한 바와 같이 그 자승 오차에 대응하는 L 코드, G 코드 및 L 코드를 출력하고, 이하 동일한 처리가 반복된다.
한편, 자승 오차 최소 판정부(8)는 자승 오차가 최소로 되었다고 판정한 경우, 확정 신호를 코드 결정부(15)로 출력한다. 코드 결정부(15)는, 벡터 양자화부(5)에서 공급되는 A 코드를 래치함과 동시에 자승 오차 최소 판정부(8)에서 공급되는 L 코드, G 코드 및 I 코드를 순차 래치하도록 되어 있고, 자승 오차 최소 판정부(8)에서 확정 신호를 수신하면, 이 때 래치하고 있는 A 코드, L 코드, G 코드 및 I 코드를 채널 엔코더(16)로 공급한다. 채널 엔코더(16)는 코드 결정부(15)로부터의 A 코드, L 코드, G 코드 및 I 코드를 다중화하여 코드 데이터로서 출력한다. 이 코드 데이터는 전송로를 통해 송신된다.
이하에서는, 설명을 간단히 하기 위해 A 코드, L 코드, G 코드 및 I 코드는 프레임마다 구해지는 것으로 한다. 단, 예컨대 1프레임을 4개의 서브 프레임으로 분할하고, L 코드, G 코드 및 I 코드는 서브 프레임마다 구하도록 하는 것 등이 가능하다.
여기서, 도 1(후술하는 도 2, 도 11 및 도 12에서도 마찬가지임)에서는 각 변수에 [k]가 부여되어 배열 변수로 되어 있다. 이 k는 프레임 수를 나타내는데, 명세서중에서 그 기술은 적당히 생략한다.
이상과 같이 하여, 다른 휴대 전화기의 송신부에서 송신되어 오는 코드 데이터는 도 2에 도시한 수신부의 채널 디코더(21)에 의해 수신된다. 채널 디코더(21)는 코드 데이터로부터 L 코드, G 코드, I 코드, A 코드를 분리하고, 각각을 적응 코드북 기억부(22), 게인 복호기(23), 여기 코드북 기억부(24), 필터 계수 복호기(25)로 공급한다.
적응 코드북 기억부(22), 게인 복호기(23), 여기 코드북 기억부(24), 연산기(26 내지 28)는, 도 1의 적응 코드북 기억부(9), 게인 복호기(10), 여기 코드북 기억부(11), 연산기(12 내지 14)와 각각 동일하게 구성되는 것으로서, 도 1에서 설명한 경우와 동일한 처리가 실행됨으로써, L 코드, G 코드 및 I 코드가 잔차 신호(e)로 복호된다. 이 잔차 신호(e)는 음성 합성 필터(29)에 대해 입력 신호로서 부여된다.
필터 계수 복호기(25)는 도 1의 벡터 양자화부(5)가 기억하고 있는 것과 동 일한 코드북을 기억하고 있고, A 코드를 선형 예측 계수(αP')로 복호하여 음성 합성 필터(29)로 공급한다.
음성 합성 필터(29)는 도 1의 음성 합성 필터(6)와 동일하게 구성되어 있고, 필터 계수 복호기(25)로부터의 선형 예측 계수(αP')를 탭 계수로 함과 동시에 연산기(28)에서 공급되는 잔차 신호(e)를 입력 신호로 하여 수학식 (4)를 연산하고, 그럼으로써 도 1의 자승 오차 최소 판정부(8)에서 자승 오차가 최소로 판정되었을 때의 합성음 신호를 생성한다. 이 합성음 신호는 D/A(Digital/Analog) 변환부(30)로 공급된다. D/A 변환부(30)는, 음성 합성 필터(29)로부터의 합성음 신호를 디지털 신호에서 아날로그 신호로 D/A 변환하고 스피커(31)로 공급하여 출력시킨다.
이상과 같이, 휴대 전화기의 송신부에서는 수신부의 음성 합성 필터(29)에 부여되는 필터 데이터로서의 잔차 신호와 선형 예측 계수가 코드화되어 송신되어 오기 때문에, 수신부에서는 그 코드가 잔차 신호와 선형 예측 계수에 복호된다. 이 복호된 잔차 신호나 선형 예측 계수(이하, 적당히 각각을 복호 잔차 신호 또는 복호 선형 예측 계수라 함)에는 양자화 오차 등의 오차가 포함되기 때문에, 음성을 LPC 분석하여 얻어지는 잔차 신호와 선형 예측 계수와는 일치하지 않는다. 따라서, 수신부의 음성 합성 필터(29)가 출력하는 합성음 신호는 왜곡을 갖는 음질이 열화된 것으로 된다.
본 발명은 상술한 바와 같은 실정을 감안하여 제안된 것으로서, 본 발명의 목적은 고음질의 합성음을 얻을 수 있는 음성 데이터의 처리 장치 및 데이터 처리 방법, 나아가 이들 데이터 처리 장치 및 방법을 사용한 학습 장치 및 학습 방법을 제공하는데 있다.
상술한 바와 같은 목적을 달성하기 위해 제안되는 본 발명에 관한 음성 처리 장치는, 예측치를 구하고자 하는 고음질의 음성을 주목 음성으로 하여 그 주목 음성을 예측하는데 이용하는 예측 탭을, 합성음으로부터 추출하는 예측 탭 추출부와, 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 이용하는 클래스 탭을 코드로부터 추출하는 클래스 탭 추출부와, 클래스 탭에 기초하여 주목 음성의 클래스를 구하는 클래스 분류를 행하는 클래스 분류부와, 학습을 행함으로써 구해진 클래스마다의 탭 계수 중에서 주목 음성의 클래스에 대응하는 탭 계수를 취득하는 취득부와, 예측 탭과 주목 음성의 클래스에 대응하는 탭 계수를 이용하여 주목 음성의 예측치를 구하는 예측부를 포함하고, 예측치를 구하고자 하는 고음질의 음성을 주목 음성으로 하여 그 주목 음성을 예측하는데 이용하는 예측 탭을 합성음으로부터 추출하고, 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 이용하는 클래스 탭을 코드로부터 추출하고, 클래스 탭에 기초하여 주목 음성의 클래스를 구하는 클래스 분류를 실행하고, 학습을 행함으로써 구해진 클래스마다의 탭 계수 중에서 주목 음성의 클래스에 대응하는 탭 계수를 취득하고, 예측 탭과 주목 음성의 클래스에 대응하는 탭 계수를 이용하여 주목 음성의 예측치를 구한다.
본 발명에 관한 학습 장치는, 예측치를 구하고자 하는 고음질의 음성을 주목 음성으로 하여 그 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 이 용하는 클래스 탭을 코드로부터 추출하는 클래스 탭 추출부와, 클래스 탭에 기초하여 주목 음성의 클래스를 구하는 클래스 분류를 행하는 클래스 분류부와, 탭 계수 및 합성음을 이용하여 예측 연산을 행함으로써 얻어지는 고음질 음성의 예측치의 예측 오차가 통계적으로 최소가 되도록 학습을 행하고, 클래스마다의 탭 계수를 구하는 학습 수단을 포함하고, 예측치를 구하고자 하는 고음질 음성을 주목 음성으로 하여 그 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 이용하는 클래스 탭을 코드로부터 추출하고, 클래스 탭에 기초하여 주목 음성의 클래스를 구하는 클래스 분류를 실행하고, 탭 계수 및 합성음을 이용하여 예측 연산을 행함으로써 얻어지는 고음질 음성의 예측치의 예측 오차가 통계적으로 최소가 되도록 학습을 행하고, 클래스마다의 탭 계수를 구한다.
또한, 본 발명에 관한 데이터 처리 장치는, 코드를 복호하여 복호 필터 데이터를 출력하는 코드 복호부와, 학습을 행함으로써 구해진 소정 탭 계수를 취득하는 취득부와, 탭 계수 및 복호 필터 데이터를 이용하여 소정의 예측 연산을 행함으로써 필터 데이터의 예측치를 구하여 음성 합성 필터로 공급하는 예측부를 포함하고, 코드를 복호하여 복호 필터 데이터를 출력하고, 학습을 행함으로써 구해진 소정 탭 계수를 취득하고, 탭 계수 및 복호 필터 데이터를 이용하여 소정의 예측 연산을 행함으로써 필터 데이터의 예측치를 구하여 음성 합성 필터로 공급한다.
그리고, 본 발명에 관한 학습 장치는, 필터 데이터에 대응하는 코드를 복호하여 복호 필터 데이터를 출력하는 코드 복호부와, 탭 계수 및 복호 필터 데이터를 이용하여 예측 연산을 행함으로써 얻어지는 필터 데이터의 예측치의 예측 오차가 통계적으로 최소가 되도록 학습을 행하여 탭 계수를 구하는 학습 수단을 포함하고, 필터 데이터에 대응하는 코드를 복호하여 복호 필터 데이터를 출력하는 코드 복호 스텝과, 탭 계수 및 복호 필터 데이터를 이용하여 예측 연산을 행함으로써 얻어지는 필터 데이터의 예측치의 예측 오차가 통계적으로 최소가 되도록 학습을 행한다.
본 발명에 관한 음성 처리 장치는, 예측치를 구하고자 하는 고음질의 음성을 주목 음성으로 하여 그 주목 음성을 예측하는데 이용하는 예측 탭을 합성음과 코드 또는 코드에서 얻어지는 정보로부터 추출하는 예측 탭 추출부와, 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 이용하는 클래스 탭을 합성음과 코드 또는 코드에서 얻어지는 정보로부터 추출하는 클래스 탭 추출부와, 클래스 탭에 기초해서 주목 음성의 클래스를 구하는 클래스 분류를 행하는 클래스 분류부와, 학습을 행함으로써 구해진 클래스마다의 탭 계수 중에서 주목 음성의 클래스에 대응하는 탭 계수를 취득하는 취득부와, 예측 탭과 주목 음성의 클래스에 대응하는 탭 계수를 이용하여 주목 음성의 예측치를 구하는 예측부를 포함하고, 예측치를 구하고자 하는 고음질의 음성을 주목 음성으로 하여 그 주목 음성을 예측하는데 이용하는 예측 탭을 합성음과 코드 또는 코드에서 얻어지는 정보로부터 추출하고, 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 이용하는 클래스 탭을 합성음과 코드 또는 코드에서 얻어지는 정보로부터 추출하고, 클래스 탭에 기초하여 주목 음성의 클래스를 구하는 클래스 분류를 실행하고, 학습을 행함으로써 구해진 클래스마다의 탭 계수 중에서 주목 음성의 클래스에 대응하는 탭 계수를 취득하고, 예측 탭과 주목 음성의 클래스에 대응하는 탭 계수를 이용하여 주목 음성의 예측치를 구한 다.
또한, 본 발명에 관한 학습 장치는, 예측치를 구하고자 하는 고음질의 음성을 주목 음성으로 하여 그 주목 음성을 예측하는데 이용하는 예측 탭을 합성음과 코드 또는 코드에서 얻어지는 정보로부터 추출하는 예측 탭 추출부와, 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 이용하는 클래스 탭을 합성음과 코드 또는 코드에서 얻어지는 정보로부터 추출하는 클래스 탭 추출부와, 클래스 탭에 기초하여 주목 음성의 클래스를 구하는 클래스 분류를 행하는 클래스 분류부와, 탭 계수 및 예측 탭을 이용하여 예측 연산을 행함으로써 얻어지는 고음질 음성의 예측치의 예측 오차가 통계적으로 최소가 되도록 학습을 행하여 클래스마다의 탭 계수를 구하는 학습수단을 포함하고, 예측치를 구하고자 하는 고음질의 음성을 주목 음성으로 하여 그 주목 음성을 예측하는데 이용하는 예측 탭을 합성음과 코드 또는 코드에서 얻어지는 정보로부터 추출하고, 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 이용하는 클래스 탭을 합성음과 코드 또는 코드에서 얻어지는 정보로부터 추출하고, 클래스 탭에 기초하여 주목 음성의 클래스를 구하는 클래스 분류를 실행하고, 탭 계수 및 예측 탭을 이용하여 예측 연산을 행함으로써 얻어지는 고음질 음성의 예측치의 예측 오차가 통계적으로 최소가 되도록 학습을 행하여 클래스마다의 탭 계수를 구한다.
본 발명의 또 다른 목적, 본 발명에 의해 얻어지는 구체적인 이점은 이하에 설명되는 실시예의 설명으로부터 한층 더 명확해질 것이다.
도 1은 종래의 휴대 전화기를 구성하는 송신부의 일례를 도시한 블록도.
도 2는 수신부의 일례를 도시한 블록도.
도 3은 본 발명을 적용한 음성 합성 장치를 도시한 블록도.
도 4는 음성 합성 장치를 구성하는 음성 합성 필터를 도시한 블록도.
도 5는 도 3에 도시한 음성 합성 장치의 처리를 설명하는 플로우차트.
도 6은 본 발명을 적용한 학습 장치를 도시한 블록도.
도 7은 본 발명에 학습 장치를 구성하는 예측 필터를 도시한 블록도.
도 8은 도 6에 도시한 학습 장치의 처리를 설명하는 플로우차트.
도 9는 본 발명을 적용한 전송 시스템을 도시한 블록도.
도 10은 본 발명이 적용된 휴대 전화기를 도시한 블록도.
도 11은 휴대 전화기를 구성하는 수신부를 도시한 블록도.
도 12는 본 발명을 적용한 학습 장치의 다른 예를 도시한 블록도.
도 13은 본 발명을 적용한 컴퓨터의 일구성예를 도시한 블록도.
도 14는 본 발명을 적용한 음성 합성 장치의 다른 예를 도시한 블록도.
도 15는 음성 합성 장치를 구성하는 음성 합성 필터를 도시한 블록도.
도 16은 도 14에 도시한 음성 합성 장치의 처리를 설명하는 플로우차트.
도 17은 본 발명을 적용한 학습 장치의 다른 예를 도시한 블록도.
도 18은 본 발명에 학습 장치를 구성하는 예측 필터를 도시한 블록도.
도 19는 도 17에 도시한 학습 장치의 처리를 설명하는 플로우차트.
도 20은 본 발명을 적용한 전송 시스템을 도시한 블록도.
도 21은 본 발명이 적용된 휴대 전화기를 도시한 블록도.
도 22는 휴대 전화기를 구성하는 수신부를 도시한 블록도.
도 23은 본 발명을 적용한 학습 장치의 다른 예를 도시한 블록도.
도 24는 본 발명을 적용한 음성 합성 장치의 또 다른 예를 도시한 블록도.
도 25는 음성 합성 장치를 구성하는 음성 합성 필터를 도시한 블록도.
도 26은 도 24에 도시한 음성 합성 장치의 처리를 설명하는 플로우차트.
도 27은 본 발명을 적용한 학습 장치의 또 다른 예를 도시한 블록도.
도 28은 본 발명에 학습 장치를 구성하는 예측 필터를 도시한 블록도.
도 29는 도 27에 도시한 학습 장치의 처리를 설명하는 플로우차트.
도 30은 본 발명을 적용한 전송 시스템을 도시한 블록도.
도 31은 본 발명이 적용된 휴대 전화기를 도시한 블록도.
도 32는 휴대 전화기를 구성하는 수신부를 도시한 블록도.
도 33은 본 발명을 적용한 학습 장치의 다른 예를 도시한 블록도.
도 34는 교사 데이터와 학생 데이터를 나타낸 도면.
이하, 본 발명의 실시형태를 도면을 참조하여 상세하게 설명한다.
본 발명을 적용한 음성 합성 장치는 도 3에 도시한 바와 같은 구성을 포함하고, 음성 합성 필터(44)에 부여하는 잔차 신호와 선형 예측 계수를 각각 벡터 양자화 등에 의해 코드화한 잔차 코드와 A 코드가 다중화된 코드 데이터가 공급되도록 이루어져 있고, 그 잔차 코드와 A 코드에서 각각 잔차 신호와 선형 예측 계수를 복 호하여 음성 합성 필터(44)에 부여함으로써 합성음이 생성되게 되어 있다. 이 음성 합성 장치에서는 음성 합성 필터(44)에서 생성된 합성음과 학습에 의해 구한 탭 계수를 사용한 예측 연산을 행함으로써 그 합성음의 음질을 향상시킨 고음질의 음성을 구해 출력한다.
본 발명을 적용한 도 3의 음성 합성 장치에서는 클래스 분류 적응 처리를 이용해서 합성음이 진정한 고음질의 음성(의 예측치)으로 복호된다.
클래스 분류 적응 처리는 클래스 분류 처리와 적응 처리로 이루어지고, 클래스 분류 처리에 의해 데이터를 그 성질에 기초하여 클래스로 나누고, 각 클래스마다 적응 처리를 실시하는 것으로서, 적응 처리는 다음과 같은 수법의 것이다.
즉, 적응 처리에서는 예컨대 합성음과 소정 탭 계수의 선형 결합에 의해 진정한 고음질 음성의 예측치가 구해진다.
구체적으로는, 예컨대 현재 진정한 고음질의 음성(의 샘플값)을 교사 데이터로 함과 동시에, 그 진정한 고음질의 음성을 CELP 방식에 의해 L 코드, G 코드, I 코드 및 A 코드로 부호화하고, 이들 코드를 상술한 도 2에 도시한 수신부에서 복호함으로써 얻어지는 합성음을 학생 데이터로 하여, 교사 데이터인 고음질 음성(y)의 예측치(E[y])를 여러 합성음(의 샘플값)(x1,x2,…)의 집합과 소정 탭 계수(w1 ,w2,…)의 선형 결합에 의해 규정되는 선형 1차 결합 모델에 의해 구하는 것을 생각할 수 있다. 이 경우, 예측치(E[y])는 다음 수학식 6으로 표시할 수 있다.
Figure 112002010575060-pct00007
수학식 6을 일반화하기 위해 탭 계수(wj)의 집합으로 된 행열(W), 학생 데이터(xij)의 집합으로 된 행열(X) 및 예측치(E[yj])의 집합으로 된 행열(Y')를
Figure 112002010575060-pct00008
Figure 112002010575060-pct00009
로 정의하면, 다음과 같은 관측(觀測) 방정식이 성립한다.
Figure 112002010575060-pct00010
여기서, 행열(X)의 성분(xij)은 i건(件)째의 학생 데이터의 집합(i건째의 교사 데이터(yi)의 예측에 이용하는 학생 데이터의 집합)중의 j번째 학생 데이터를 의미하고, 행열(W)의 성분(wj)은 학생 데이터의 집합중의 j번째 학생 데이터와의 곱이 연산되는 탭 계수를 나타낸다. 또한, yi는 i건째의 교사 데이터를 나타내고, 따라서 E[yi]는 i건째의 교사 데이터의 예측치를 나타낸다. 그리고, 수학식 6의 좌변에 서의 y는 행열(Y)의 성분(yi)의 sufix(i)를 생략한 것이고, 수학식 6의 우변에서의 x1,x2,…도 행열(X)의 성분(xij)의 sufix(i)를 생략한 것이다.
이 관측 방정식에 최소 자승법을 적용하여 진정한 고음질의 음성(y)에 가까운 예측치(E[y])를 구하는 것을 생각할 수 있다. 이 경우, 교사 데이터가 되는 진정한 고음질 음성(y)의 집합으로 된 행열(Y) 및 고음질 음성(y)에 대한 예측치(E[y])의 잔차(e)의 집합으로 된 행열(E)을
Figure 112002010575060-pct00011
로 정의하면, 수학식 7에서 다음과 같은 잔차 방정식이 성립한다.
Figure 112002010575060-pct00012
이 경우, 진정한 고음질의 음성(y)에 가까운 예측치(E[y])를 구하기 위한 탭 계수(wj)는 자승 오차
Figure 112002010575060-pct00013
를 최소로 함으로써 구할 수 있다.
상술한 자승 오차를 탭 계수(wj)로 미분한 것이 0이 될 경우, 즉 다음 수학식 9를 만족하는 탭 계수(wj)가 진정한 고음질의 음성(y)에 가까운 예측치(E[y])를 구하기 위한 최적치라 할 수 있게 된다.
Figure 112002010575060-pct00014
여기서, 우선 수학식 8을 탭 계수(wj)로 미분함으로써 다음 수학식 10이 성립한다.
Figure 112002010575060-pct00015
수학식 9 및 수학식 10으로부터 수학식 11을 얻을 수 있다.
Figure 112002010575060-pct00016
그리고, 수학식 8의 잔차 방정식에 있어서의 학생 데이터(xij), 탭 계수(wj), 교사 데이터(yi) 및 잔차(ei)의 관계를 고려하면, 수학식 11에서 다음과 같은 정규 방정식을 얻을 수 있다.
Figure 112002010575060-pct00017
Figure 112002010575060-pct00018
Figure 112002010575060-pct00019
그리고, 수학식 12에 나타낸 정규 방정식은 행열(공분산 행열)(A) 및 벡터(v)를
Figure 112002010575060-pct00020
Figure 112002010575060-pct00021
로 정의함과 함께, 벡터(W)를 수 1로 나타낸 바와 같이 정의하면,
Figure 112002010575060-pct00022
로 나타낼 수 있다.
수학식 12에 있어서의 각 정규 방정식은 학생 데이터(xij) 및 교사 데이터(yi)의 세트를 어느 정도의 수만큼 준비함으로써 구해야 할 텝 계수(wj)의 수(J)와 동일한 수만큼 세울 수 있고, 따라서 수학식 13을 벡터(W)에 대해 풂으로써(단, 수학식 13을 풀기 위해서는 수학식 13에서의 행열(A)이 정칙(正則)일 필요 가 있다) 최적의 탭 계수(여기서는 자승 오차를 최소로 하는 탭 계수)(wj)를 구할 수 있다. 그리고, 수학식 13을 풀 때에는 예컨대 Gauss-Jourdan 소거법 등을 이용할 수 있다.
이상과 같이 하여, 최적의 탭 계수(wj)를 구해 두고, 추가로 이 탭 계수(wj)를 사용하여 수학식 6에 의해 진정한 고음질의 음성(y)에 가까운 예측치(E[y])를 구하는 것이 적응 처리이다.
그리고, 교사 데이터로서 높은 샘플링 주파수로 샘플링한 음성 신호 또는 다비트를 할당한 음성 신호를 이용함과 동시에, 학생 데이터로서 그 교사 데이터로서의 음성 신호를 압축하거나 저비트로 다시 양자화한 음성 신호를 CELP 방식에 의해 부호화하고, 이 부호화 결과를 복호하여 얻어지는 합성음을 사용한 경우, 탭 계수로서는 높은 샘플링 주파수로 샘플링한 음성 신호 또는 다비트를 할당한 음성 신호를 생성하는데 예측 오차가 통계적으로 최소가 되는 고음질의 음성을 얻을 수 있게 된다. 이 경우, 보다 고음질의 합성음을 얻을 수 있게 된다.
도 3의 음성 합성 장치에서는 이상과 같은 클래스 분류 적응 처리에 의해 A 코드와 잔차 코드로 된 코드 데이터를 고음질의 음성으로 복호하도록 되어 있다.
즉, 디멀티플렉서(DEMUX)(41)에는 코드 데이터가 공급되도록 이루어져 있고, 디멀티플렉서(41)는 이곳으로 공급되는 코드 데이터로부터 프레임마다의 A 코드와 잔차 코드를 분리한다. 그리고, 디멀티플렉서는 A 코드를 필터 계수 복호기(42) 및 탭 생성부(46)로 공급하고, 잔차 코드를 잔차 코드북 기억부(43) 및 탭 생성부(46)로 공급한다.
여기서, 도 3에 있어서의 코드 데이터에 포함되는 A 코드와 잔차 코드는, 음성을 LPC 분석하여 얻어지는 선형 예측 계수와 잔차 신호를 소정 코드북을 이용하여 각각 벡터 양자화함으로써 얻어지는 코드로 되어 있다.
필터 계수 복호기(42)는 디멀티플렉서(41)에서 공급되는 프레임마다의 A 코드를, 이 A 코드를 얻을 때에 사용된 것과 동일한 코드북에 기초하여 선형 예측 계수로 복호하여 음성 합성 필터(44)로 공급한다.
잔차 코드북 기억부(43)는 디멀티플렉서(41)에서 공급되는 프레임마다의 잔차 코드를, 그 잔차 코드를 얻을 때에 사용된 것과 동일한 코드북에 기초해서 잔차 신호로 복호하여 음성 합성 필터(44)로 공급한다.
음성 합성 필터(44)는 예컨대 도 1의 음성 합성 필터(29)와 마찬가지로 IIR형 디지털 필터로서, 필터 계수 복호기(42)로부터의 선형 예측 계수를 IIR 필터의 탭 계수로 함과 동시에 잔차 코드북 기억부(43)로부터의 잔차 신호를 입력 신호로 하여 이 입력 신호의 필터링을 행함으로써 합성음을 생성하여 탭 생성부(45)로 공급한다.
탭 생성부(45)는 음성 합성 필터(44)에서 공급되는 합성음의 샘플값으로부터 후술하는 예측부(49)에 있어서의 예측 연산에 사용되는 예측 탭으로 되는 것을 추출한다. 즉, 탭 생성부(45)는 예컨대 고음질 음성의 예측값을 구하고자 하는 프레임인 주목 프레임의 합성음의 샘플값 모두를 예측 탭으로 한다. 그리고, 탭 생성부(45)는 예측 탭을 예측부(49)로 공급한다.
탭 생성부(46)는 디멀티플렉서(41)에서 공급되는 프레임 또는 서브 프레임마다의 A 코드 및 잔차 코드로부터 클래스 탭으로 되는 것을 추출한다. 즉, 탭 생성부(46)는 예컨대 주목 프레임의 A 코드 및 잔차 코드 모두를 클래스 탭으로 한다. 탭 생성부(46)는 클래스 탭을 클래스 분류부(47)로 공급한다.
여기서, 예측 탭이나 클래스 탭의 구성 패턴은 상술한 패턴의 것으로 한정되는 것은 아니다.
그리고, 탭 생성부(46)에서는 A 코드나 잔차 코드 외에 필터 계수 복호기(42)가 출력하는 선형 예측 계수나, 잔차 코드북 기억부(43)가 출력하는 잔차 신호, 나아가 음성 합성 필터(44)가 출력하는 합성음 등 중에서도 클래스 탭을 추출하도록 할 수 있다.
클래스 분류부(47)는 탭 생성부(46)로부터의 클래스 탭에 기초하여 주목하고 있는 주목 프레임의 음성(의 샘플값)을 클래스 분류하고, 그 결과 얻어지는 클래스에 대응하는 클래스 코드를 계수 메모리(48)로 출력한다.
여기서, 클래스 분류부(47)에는 예컨대 클래스 탭으로서의 주목 프레임의 A 코드 및 잔차 코드를 구성하는 비트의 계열 그 자체를 클래스 코드로서 출력시킬 수 있다.
계수 메모리(48)는 후술하는 도 6의 학습 장치에 있어서 학습 처리가 실행됨으로써 얻어지는 클래스마다의 탭 계수를 기억하고 있고, 클래스 분류부(47)가 출력하는 클래스 코드에 대응하는 어드레스에 기억되어 있는 탭 계수를 예측부(49)로 출력한다.
여기서, 각 프레임에 대해 N 샘플의 고음질 음성이 구해진다고 하면, 주목 프레임에 대해 N 샘플의 음성을 수학식 6의 예측 연산에 의해 구하기 위해서는 N세트의 탭 계수가 필요하다. 따라서, 이 경우 계수 메모리(48)에는 1개의 클래스 코드에 대응하는 어드레스에 대해 N세트의 탭 계수가 기억되어 있다.
예측부(49)는 탭 생성부(45)가 출력하는 예측 탭과 계수 메모리(48)가 출력하는 탭 계수를 취득하고, 이 예측 탭과 탭 계수를 이용하여 수학식 6에 나타낸 선형 예측 연산(곱의 합 연산)을 실행하고, 주목 프레임의 고음질 음성의 예측값을 구하여 D/A 변환부(50)로 출력한다.
여기서, 계수 메모리(48)는, 상술한 바와 같이 주목 프레임의 음성의 N 샘플 각각을 구하기 위한 N세트의 탭 계수를 출력하는데, 예측부(49)는 각 샘플값을 예측 탭과 그 샘플값에 대응하는 탭 계수의 세트를 이용하여 수학식 6의 곱의 합 연산을 행한다.
D/A 변환부(50)는 예측부(49)로부터의 음성(의 예측값)을 디지털 신호에서 아날로그 신호로 D/A 변환하고, 스피커(51)로 공급하여 출력시킨다.
이어서, 도 4는 도 3의 음성 합성 필터(44)의 구성예를 도시하고 있다.
도 4에 있어서, 음성 합성 필터(44)는 P차의 선형 예측 계수를 이용하는 것으로 되어 있으며, 따라서 1개의 가산기(61), P개의 지연 회로(D;621∼62P) 및 P개의 승산기(631∼63P)로 구성되어 있다.
승산기(631∼63P)에는 각각 필터 계수 복호기(42)에서 공급되는 P차의 선형 예측 계수(α12,…,αP)가 세팅되고, 이에 따라 음성 합성 필터(44)에서는 수학식 4에 따라 연산이 실행되어 합성음이 생성된다.
즉, 잔차 코드북 기억부(43)가 출력하는 잔차 신호(e)는 가산기(61)를 통해 지연 회로(621)로 공급되고, 지연 회로(62P)는 이곳으로의 입력 신호를 잔차 신호의 1샘플분마다 지연시켜 후단의 지연 회로(62P+1)로 출력함과 동시에 승산기(63P)로 출력한다. 승산기(63P)는 지연 회로(62P)의 출력과 이곳에 세팅된 선형 예측 계수(αP)를 승산하고, 그 승산값을 가산기(61)로 출력한다.
가산기(61)는 승산기(631∼63P)의 출력 모두와 잔차 신호(e)를 가산하고, 그 가산 결과를 지연 회로(621)로 공급하는 것 외에 음성 합성 결과(합성음)로서 출력한다.
이어서, 도 5의 플로우차트를 참조하여 도 3의 음성 합성 장치의 음성 합성 처리에 대해 설명한다.
디멀티플렉서(41)는 이곳으로 공급되는 코드 데이터로부터 프레임마다의 A 코드와 잔차 코드를 차례로 분리하고, 각각을 필터 계수 복호기(42)와 잔차 코드북 기억부(43)로 공급한다. 그리고, 디멀티플렉서(41)는 A 코드 및 잔차 코드를 탭 생성부(46)로 공급한다.
필터 계수 복호기(42)는 디멀티플렉서(41)에서 공급되는 프레임마다의 A 코드를 선형 예측 계수로 차례로 복호하여 음성 합성 필터(44)로 공급한다. 또한, 잔차 코드북 기억부(43)는 디멀티플렉서(41)에서 공급되는 프레임마다의 잔차 코드를 잔차 신호로 차례로 복호하여 음성 합성 필터(44)로 공급한다.
음성 합성 필터(44)에서는 이곳으로 공급되는 잔차 신호 및 선형 예측 계수를 사용하여 상술한 수학식 4의 연산이 실행됨으로써, 주목 프레임의 합성음이 생성된다. 이 합성음은 탭 생성부(45)로 공급된다.
탭 생성부(45)는 이곳으로 공급되는 합성음의 프레임을, 차례로 주목 프레임으로 하고, 단계 S1에서 음성 합성 필터(44)에서 공급되는 합성음의 샘플값으로부터 예측 탭을 생성하여 예측부(49)로 출력한다. 그리고, 단계 S1에서는 탭 생성부(46)가 디멀티플렉서(41)에서 공급되는 A 코드 및 잔차 코드로부터 클래스 탭을 생성하여 클래스 분류부(47)로 출력한다.
단계 S2로 진행하여, 클래스 분류부(47)는 탭 생성부(46)에서 공급되는 클래스 탭에 기초하여 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 계수 메모리(48)로 공급하여 단계 S3으로 진행한다.
단계 S3에서 계수 메모리(48)는 클래스 분류부(47)에서 공급되는 클래스 코드에 대응하는 어드레스로부터 탭 계수를 판독하여 예측부(49)로 공급한다.
단계 S4로 진행하여 예측부(49)는 계수 메모리(48)가 출력하는 탭 계수를 취득하고, 이 탭 계수와 탭 생성부(45)로부터의 예측 탭을 이용하여 수학식 6에 나타낸 곱의 합 연산을 행하여 주목 프레임의 고음질 음성의 예측값을 얻는다. 이 고음질의 음성은 예측부(49)에서 D/A 변환부(50)를 통해 스피커(51)로 공급되어 출력된다.
예측부(49)에 있어서 주목 프레임의 고음질 음성이 얻어진 후에는, 단계 S5로 진행하여 아직 주목 프레임으로서 처리해야 할 프레임이 있는지의 여부가 판정된다. 단계 S5에서 아직 주목 프레임으로서 처리해야 할 프레임이 있다고 판정된 경우, 단계 S1으로 되돌아가서 다음에 주목 프레임으로 해야 할 프레임을 새로 주목 프레임으로 하여 이하 동일한 처리를 반복한다. 또한, 단계 S5에서 주목 프레임으로서 처리해야 할 프레임이 없다고 판정된 경우, 음성 합성 처리를 종료한다.
이어서, 도 3의 계수 메모리(48)에 기억시키는 탭 계수의 학습 처리를 행하는 학습 장치의 일례를 도 6을 참조하여 설명한다.
도 6에 도시한 학습 장치에는 학습용 디지털 음성 신호가 소정 프레임 단위로 공급되도록 이루어져 있고, 이 학습용 디지털 음성 신호는 LPC 분석부(71) 및 예측 필터(74)로 공급된다. 그리고, 학습용 디지털 음성 신호는 교사 데이터로서 정규 방정식 가산 회로(81)로도 공급된다.
LPC 분석부(71)는 이곳으로 공급되는 음성 신호의 프레임을 차례로 주목 프레임으로 하고, 그 주목 프레임의 음성 신호를 LPC 분석함으로써 P차의 선형 예측 계수를 구하여 예측 필터(74) 및 벡터 양자화부(72)로 공급한다.
벡터 양자화부(72)는 선형 예측 계수를 요소로 하는 코드 벡터와 코드를 대응시킨 코드북을 기억하고 있으며, 이 코드북에 기초하여 LPC 분석부(71)로부터의 주목 프레임의 선형 예측 계수로 구성되는 특징 벡터를 벡터 양자화하고, 이 벡터 양자화의 결과 얻어지는 A 코드를 필터 계수 복호기(73) 및 탭 생성부(79)로 공급한다.
필터 계수 복호기(73)는 벡터 양자화부(72)가 기억하고 있는 것과 동일한 코드북을 기억하고 있으며, 이 코드북에 기초하여 벡터 양자화부(72)로부터의 A 코드를 선형 예측 계수로 복호하여 음성 합성 필터(77)로 공급한다. 여기서, 도 3의 필터 계수 복호기(42)는 도 6의 필터 계수 복호기(73)와 동일하게 구성되어 있다.
예측 필터(74)는 이곳으로 공급되는 주목 프레임의 음성 신호와 LPC 분석부(71)로부터의 선형 예측 계수를 이용하여, 예컨대 상술한 수학식 1에 따라 연산함으로써 주목 프레임의 잔차 신호를 구하여 벡터 양자화부(75)로 공급한다.
즉, 수학식 1에 있어서의 sn과 en의 Z 변환을 S와 E로 각각 나타내면, 수학식 1은 다음 수학식 14와 같이 나타낼 수 있다.
Figure 112002010575060-pct00023
수학식 14에서 잔차 신호(e)를 구하는 예측 필터(74)는 FIR(Finite Impulse Response)형 디지털 필터로 구성할 수 있다.
즉, 도 7은 예측 필터(74)의 구성예를 도시하고 있다.
예측 필터(74)에는 LPC 분석부(71)에서 P차의 선형 예측 계수가 공급되도록 이루어져 있으며, 따라서 예측 필터(74)는 P개의 지연 회로(D;911∼91P), P개의 승산기(921∼92P) 및 1개의 가산기(93)로 구성되어 있다.
승산기(921∼92P)에는 각각 LPC 분석부(71)에서 공급되는 P차의 선형 예측 계 수(α12,…,αP)가 세팅된다.
한편, 주목 프레임의 음성 신호(s)는 지연 회로(911)와 가산기(93)로 공급된다. 지연회로(91P)는 이곳으로의 입력 신호를 잔차 신호의 1샘플분만큼 지연시켜 후단의 지연 회로(91n+1)로 출력함과 동시에 승산기(92P)로 출력한다. 승산기(92P )는 지연 회로(91P)의 출력과 이곳에 세팅된 선형 예측 계수(αP)를 승산하고, 그 승산값을 가산기(93)로 출력한다.
가산기(93)는 승산기(921∼92P)의 출력 모두와 음성 신호(s)를 가산하고, 그 가산 결과를 잔차 신호(e)로서 출력한다.
도 6으로 되돌아가서, 벡터 양자화부(75)는 잔차 신호의 샘플값을 요소로 하는 코드 벡터와 코드를 대응시킨 코드북을 기억하고 있으며, 이 코드북에 기초하여 예측 필터(74)로부터의 주목 프레임의 잔차 신호의 샘플값으로 구성되는 잔차 벡터를 벡터 양자화하고, 이 벡터 양자화의 결과 얻어지는 잔차 코드를 잔차 코드북 기억부(76) 및 탭 생성부(79)로 공급한다.
잔차 코드북 기억부(76)는 벡터 양자화부(75)가 기억하고 있는 것과 동일한 코드북을 기억하고 있으며, 이 코드북에 기초하여 벡터 양자화부(75)로부터의 잔차 코드를 잔차 신호로 복호하여 음성 합성 필터(77)로 공급한다. 여기서, 도 3 의 잔차 코드북 기억부(43)는 도 6의 잔차 코드북 기억부(76)와 동일하게 구성되어 있다.
음성 합성 필터(77)는 도 3의 음성 합성 필터(44)와 동일하게 구성되는 IIR 필터로서, 필터 계수 복호기(73)로부터의 선형 예측 계수를 IIR 필터의 탭 계수로 함과 동시에 잔차 코드북 기억부(75)로부터의 잔차 신호를 입력 신호로 하여 이 입력 신호의 필터링을 행함으로써 합성음을 생성하여 탭 생성부(78)로 공급한다.
탭 생성부(78)는 도 3의 탭 생성부(45)에 있어서의 경우와 마찬가지로, 음성 합성 필터(77)에서 공급되는 선형 예측 계수로 예측 탭을 구성하여 정규 방정식 가산 회로(81)로 공급한다. 탭 생성부(79)는 도 3의 탭 생성부(46)에 있어서의 경우와 마찬가지로 벡터 양자화부(72 와 75)에서 각각 공급되는 A 코드와 잔차 코드로 클래스 탭을 구성하여 클래스 분류부(80)로 공급한다.
클래스 분류부(80)는 도 3의 클래스 분류부(47)에 있어서의 경우와 마찬가지로, 이곳으로 공급되는 클래스 탭에 기초하여 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 정규 방정식 가산 회로(81)로 공급한다.
정규 방정식 가산 회로(81)는 교사 데이터로서의 주목 프레임의 고음질 음성인 학습용 음성과, 탭 생성부(78)로부터의 학생 데이터로서의 예측 탭을 구성하는 음성 합성 필터(77)의 합성음 출력을 대상으로 한 합산을 행한다.
즉, 정규 방정식 가산 회로(81)는 클래스 분류부(80)에서 공급되는 클래스 코드에 대응하는 클래스마다 예측 탭(학생 데이터)을 사용하여, 수학식 13의 행열 A에 있어서의 각 컴포넌트로 이루어져 있는 학생 데이터끼리의 승산(xinxim)과 서메이션(Σ)에 상당하는 연산을 행한다.
그리고, 정규 방정식 가산 회로(81)는 역시 클래스 분류부(80)에서 공급되는 클래스 코드에 대응하는 클래스마다 학생 데이터, 즉 예측 탭을 구성하는 음성 합성 필터(77)에서 출력되는 합성음의 샘플값 및 교사 데이터, 즉 주목 프레임의 고음질 음성의 샘플값을 사용하여, 수학식 13의 벡터(v)에 있어서의 각 컴포넌트로 이루어져 있는 학생 데이터와 교사 데이터의 승산(xinyi)과 서메이션(Σ)에 상당하는 연산을 행한다.
정규 방정식 가산 회로(81)는 이상의 합산을 이곳으로 공급되는 학습용 음성의 프레임 모두를 주목 프레임으로 하여 실행하고, 이에 따라 각 클래스에 대해 수학식 13에 나타낸 정규 방정식을 세운다.
탭 계수 결정 회로(82)는 정규 방정식 가산 회로(81)에 있어서 클래스마다 생성된 정규 방정식을 풂으로써, 클래스마다 탭 계수를 구하여 계수 메모리(83)의 각 클래스에 대응하는 어드레스로 공급한다.
그리고, 학습용 음성 신호로서 준비한 음성 신호에 따라서는 정규 방정식 가산 회로(81)에 있어서 탭 계수를 구하는데 필요한 수의 정규 방정식을 얻을 수 없는 클래스가 발생하는 경우가 있을 수 있는데, 탭 계수 결정 회로(82)는 이와 같은 클래스에 대해서는 예컨대 디폴트의 탭 계수를 출력한다.
계수 메모리(83)는 탭 계수 결정 회로(82)에서 공급되는 클래스마다의 탭 계수를 그 클래스에 대응하는 어드레스에 기억한다.
이어서, 도 8의 어드레스 차트를 참조하여 도 6의 학습 장치의 학습 처리에 대해 설명한다.
학습 장치에는 학습용 음성 신호가 공급되고, 이 학습용 음성 신호는 LPC 분석부(71) 및 예측 필터(74)로 공급됨과 동시에 교사 데이터로서 정규 방정식 가산 회로(81)로 공급된다. 그리고, 단계 S11에서 학습용 음성 신호로부터 학생 데이터가 생성된다.
즉, LPC 분석부(71)는 학습용 음성 신호의 프레임을 차례로 주목 프레임으로 하고, 이 주목 프레임의 음성 신호를 LPC 분석함으로써 P차의 선형 예측 계수를 구하여 벡터 양자화부(72)로 공급한다. 벡터 양자화부(72)는 LPC 분석부(71)로부터의 주목 프레임의 선형 예측 계수로 구성되는 특징 벡터를 벡터 양자화하고, 이 벡터 양자화의 결과 얻어지는 A 코드를 필터 계수 복호기(73) 및 탭 계수 생성부(79)로 공급한다. 필터 계수 복호기(73)는 벡터 양자화부(72)로부터의 A 코드를 선형 예측 계수로 복호하고, 그 선형 예측 계수를 음성 합성 필터(77)로 공급한다.
한편, LPC 분석부(71)에서 주목 프레임의 선형 예측 계수를 수신한 예측 필터(74)는, 그 선형 예측 계수와 주목 프레임의 학습용 음성 신호를 이용하여 수학식 (1)에 따라 연산함으로써 주목 프레임의 잔차 신호를 구하여 벡터 양자화부(75)로 공급한다. 벡터 양자화부(75)는 예측 필터(74)로부터의 주목 프레임의 잔차 신호의 샘플값으로 구성되는 잔차 벡터를 벡터 양자화하고, 이 벡터 양자화의 결과 얻어지는 잔차 코드를 잔차 코드북 기억부(76) 및 탭 생성부(79)로 공급한다. 잔차 코드북 기억부(76)는 벡터 양자화부(72)로부터의 잔차 코드를 잔차 신호로 복호하여 음성 합성 필터(77)로 공급한다.
이상과 같이 하여, 음성 합성 필터(77)는 선형 예측 계수와 잔차 신호를 수신하면, 그 선형 예측 계수와 잔차 신호를 이용하여 음성 합성을 실행하고, 그 결과 얻어지는 합성음을 학생 데이터로 하여 탭 생성부(78)로 출력한다.
그리고, 단계 S12로 진행하여 탭 생성부(78)가 음성 합성 필터(77)에서 공급되는 합성음으로부터 예측 탭을 생성함과 동시에, 탭 생성부(79)가 벡터 양자화부(72)로부터의 A 코드와 벡터 양자화부(75)로부터의 잔차 코드로부터 클래스 탭을 생성한다. 예측 탭은 정규 방정식 가산 회로(81)로 공급되고, 클래스 탭은 클래스 분류부(80)로 공급된다.
그 후, 단계 S13에서 클래스 분류부(80)가 탭 생성부(79)로부터의 클래스 탭에 기초하여 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 정규 방정식 가산 회로(81)로 공급한다.
단계 S14로 진행하여, 정규 방정식 가산 회로(81)는, 클래스 분류부(80)에서 공급되는 클래스에 대해 이곳으로 공급되는 교사 데이터로서의 주목 프레임의 고음질 음성의 샘플값 및 탭 생성부(78)로부터의 학생 데이터로서의 예측 탭(을 구성하는 합성음의 샘플값)을 대상으로 한 수학식 13의 행열 A와 벡터 v의 상술한 바와 같은 합산을 행하여 단계 S15로 진행한다.
단계 S15에서는 아직 주목 프레임으로서 처리해야 할 프레임의 학습용 음성 신호가 있는지의 여부가 판정된다. 단계 S15에서 아직 주목 프레임으로서 처리해야 할 프레임의 학습용 음성 신호가 있다고 판정된 경우, 단계 S11로 되돌아가서 다음 프레임을 새로이 주목 프레임으로 하여 이하 동일한 처리가 반복된다.
단계 S15에서 주목 프레임으로서 처리해야 할 프레임의 학습용 음성 신호가 없다고 판정된 경우, 즉 정규 방정식 가산 회로(81)에서 각 클래스에 대해 정규 방정식이 얻어진 경우에는 단계 S16으로 진행하고, 탭 계수 결정 회로(82)는 각 클래스마다 생성된 정규 방정식을 풂으로써 각 클래스마다 탭 계수를 구하고, 계수 메모리(83)의 각 클래스에 대응하는 어드레스로 공급하여 기억시키고 처리를 종료한다.
이상과 같이 하여, 계수 메모리(83)에 기억된 각 클래스마다의 탭 계수가 도 3의 계수 메모리(48)에 기억되어 있다.
따라서, 도 3의 계수 메모리(48)에 기억된 탭 계수는, 선형 예측 연산을 행함으로써 얻어지는 고음질 음성의 예측값의 예측 오차, 여기에서는 자승 오차가 통계적으로 최소가 되도록 학습을 행함으로써 구해진 것이기 때문에, 도 3의 예측부(49)가 출력하는 음성은 음성 합성 필터(44)에서 생성된 합성음의 변형이 저감(해소)된 고음질의 것으로 된다.
그리고, 도 3의 음성 합성 장치에 있어서 상술한 바와 같이 예컨대 탭 생성부(46)에 선형 예측 계수나 잔차 신호 등 중에서도 클래스 탭을 추출시키도록 하는 경우에는, 도 6의 탭 생성부(79)에도 필터 계수 복호기(73)가 출력하는 선형 예측 계수나 잔차 코드북 기억부(76)가 출력하는 잔차 신호 중에서 동일한 클래스 탭을 추출시키도록 할 필요가 있다. 단, 선형 예측 계수 등에서도 클래스 탭을 추출하는 경우에는, 탭 수가 많아지는 점에서 클래스 분류는 예컨대 클래스 탭을 벡터 양자화 등에 의해 압축함으로써 행하는 것이 바람직하다. 그리고, 잔차 코드 및 A 코드만으로부터 클래스 분류를 행하는 경우에는, 잔차 코드와 A 코드의 비트열의 나열을 그대로 클래스 코드로 할 수 있는 점에서 클래스 분류 처리에 필요한 부담을 경감시킬 수 있다.
이어서, 본 발명을 적용한 전송 시스템의 일례를 도 9를 참조하여 설명한다. 여기서, 시스템이란 복수의 장치가 논리적으로 집합한 것을 말하며, 각 구성의 장치가 동일 케이스 내에 있는지의 여부와는 관계없다.
도 9에 도시한 전송 시스템에서는 휴대 전화기(1011, 1012)가 기지국(1021, 1022) 각각과의 사이에서 무선에 의한 송수신을 행함과 동시에 기지국(1021, 1022 ) 각각이 교환국(103)과의 사이에서 송수신을 행함으로써, 최종적으로는 휴대 전화기(1011, 1012) 간에 기지국(1021, 1022) 및 교환국(103)을 통해 음성의 송수신을 행할 수 있도록 되어 있다. 그리고, 기지국(1021, 1022)은 동일한 기지국이어도 되고 다른 기지국이어도 된다.
여기서, 이하 특별히 구별할 필요가 없는 한, 휴대 전화기(1011, 1012)를 휴대 전화기(101)라 기술한다.
도 10은 도 9에 도시한 휴대 전화기(101)의 구성예를 도시하고 있다.
안테나(111)는 기지국(1021, 1022)으로부터의 전파를 수신하고, 그 수신 신호를 변복조부(112)로 공급함과 동시에 변복조부(112)로부터의 신호를 전파에 의해 기지국(1021 또는 1022)으로 송신한다. 변복조부(112)는 안테나(111)로부터의 신호 를 복조하고, 그 결과 얻어지는 도 1에서 설명한 바와 같은 코드 데이터를 수신부(114)로 공급한다. 또한, 변복조부(112)는 송신부(113)에서 공급되는 도 1에서 설명한 바와 같은 코드 데이터를 변조하고, 그 결과 얻어지는 변조 신호를 안테나(111)로 공급한다. 송신부(113)는 도 1에 도시한 송신부와 동일하게 구성되고, 이곳에 입력되는 사용자의 음성을 코드 데이터로 부호화하여 변복조부(112)로 공급한다. 수신부(114)는 변복조부(112)로부터의 코드 데이터를 수신하고, 이 코드 데이터로부터 도 3의 음성 합성 장치에 있어서의 경우와 동일한 고음질의 음성을 복호하여 출력한다.
즉, 도 11은 도 10의 수신부(114)의 구성예를 도시하고 있다. 그리고, 도면에서, 도 2의 경우와 대응하는 부분에 대해서는 동일한 부호를 붙이고 그 설명을 생략한다.
탭 생성부(121)에는 음성 합성 필터(29)가 출력하는 합성음이 공급되도록 이루어져 있고, 탭 생성부(121)는 그 합성음으로부터 예측 탭으로 하는 것(샘플값)을 추출하여 예측부(125)로 공급한다.
탭 생성부(122)에는 채널 디코더(21)가 출력하는 프레임 또는 서브 프레임마다의 L 코드, G 코드, I 코드 및 A 코드가 공급되도록 이루어져 있다. 그리고, 탭 생성부(122)에는 연산기(28)에서 잔차 신호가 공급됨과 동시에, 필터 계수 복호기(25)로부터 선형 예측 계수가 공급되도록 이루어져 있다. 탭 생성부(122)는 이곳으로 공급되는 L 코드, G 코드, I 코드 및 A 코드, 나아가 잔차 신호 및 선형 예측 계수로부터 클래스 탭으로 하는 것을 추출하여 클래스 분류부(123)로 공급한 다.
클래스 분류부(123)는 탭 생성부(122)에서 공급되는 클래스 탭에 기초하여 클래스 분류를 실행하고, 이 클래스 분류 결과로서의 클래스 코드를 계수 메모리(124)로 공급한다.
여기서, L 코드, G 코드, I 코드 및 A 코드, 그리고 잔차 신호 및 선형 예측 계수로 클래스 탭을 구성하고, 이 클래스 탭에 기초하여 클래스 분류를 실행하면, 그 클래스 분류의 결과 얻어지는 클래스 수가 팽대한 수로 되는 경우가 있다. 따라서, 클래스 분류부(123)에서는 예컨대 L 코드, G 코드, I 코드 및 A 코드, 그리고 잔차 신호 및 선형 예측 계수를 요소로 하는 벡터를 벡터 양자화하여 얻어지는 코드를 클래스 분류 결과로서 출력하도록 할 수 있다.
계수 메모리(124)는, 후술하는 도 12의 학습 장치에 있어서 학습 처리가 실행됨으로써 얻어지는 클래스마다의 탭 계수를 기억하고 있고, 클래스 분류부(123)가 출력하는 클래스 코드에 대응하는 어드레스에 기억되어 있는 탭 계수를 예측부(125)로 공급한다.
예측부(125)는 도 3의 예측부(49)와 마찬가지로, 탭 생성부(121)가 출력하는 예측 탭과 계수 메모리(124)가 출력하는 탭 계수를 취득하고, 이 예측 탭과 탭 계수를 이용하여 수학식 6에 나타낸 선형 예측 연산을 행한다. 이에 따라, 예측부(125)는 주목 프레임의 고음질 음성(의 예측값)을 구하여 D/A 변환부(30)로 공급한다.
이상과 같이 구성되는 수신부(114)에서는 기본적으로는 도 5에 나타낸 플로 우차트에 따른 처리와 동일한 처리가 실행됨으로써, 고음질의 합성음이 음성의 복호 결과로서 출력된다.
즉, 채널 디코더(21)는 이곳으로 공급되는 코드 데이터에서 L 코드, G 코드, I 코드, A 코드를 분리하고, 각각을 적응 코드북 기억부(22), 게인 복호기(23), 여기 코드북 기억부(24), 필터 계수 복호기(25)로 공급한다. 그리고, L 코드, G 코드, I 코드 및 A 코드는 탭 생성부(122)에도 공급된다.
적응 코드북 기억부(22), 게인 복호기(23), 여기 코드북 기억부(24), 연산기(26∼28)에서는, 도 1의 적응 코드 기억부(9), 게인 복호기(10), 여기 코드북 기억부(11), 연산기(12∼14)에 있어서의 경우와 동일한 처리가 실행되고, 이에 따라 L 코드, G 코드 및 I 코드가 잔차 신호(e)로 복호된다. 이 잔차 신호는 음성 합성 필터 (29) 및 탭 생성부(122)로 공급된다.
필터 계수 복호기(25)는 도 1에서 설명한 바와 같이, 이곳으로 공급되는 A 코드를 복호 선형 예측 계수로 복호하여 음성 합성 필터(29) 및 탭 생성부(122)로 공급한다. 음성 합성 필터(29)는 연산기(28)로부터의 잔차 신호와 필터 계수 복호기(25)로부터의 선형 예측 계수를 이용하여 음성 신호를 실행하고, 그 결과 얻어지는 합성음을 탭 생성부(121)로 공급한다.
탭 생성부(121)는 음성 합성 필터(29)가 출력하는 합성음의 프레임을 주목 프레임으로 하고, 단계 S1에서 그 주목 프레임의 합성음으로부터 예측 탭을 생성하여 예측부(125)로 공급한다. 그리고, 단계 S1에서는 탭 생성부(122)는 이곳으로 공급되는 L 코드, G 코드, I 코드 및 A 코드, 그리고 잔차 신호 및 선형 예측 계수 로부터 클래스 탭을 생성하여 클래스 분류부(123)로 공급한다.
단계 S2로 진행하여, 클래스 분류부(123)는 탭 생성부(122)에서 공급되는 클래스 탭에 기초하여 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 계수 메모리(124)로 공급하여 단계 S3으로 진행한다.
단계 S3에서는, 계수 메모리(124)는 클래스 분류부(123)에서 공급되는 클래스 코드에 대응하는 어드레스로부터 탭 계수를 판독하여 예측부(125)로 공급한다.
단계 S4로 진행하여, 예측부(125)는 계수 메모리(124)가 출력하는 잔차 신호에 대한 탭 계수를 취득하고, 이 탭 계수와 탭 생성부(121)로부터의 예측 탭을 이용하여 수학식 (6)에 나타낸 곱의 합 연산을 행하고, 주목 프레임의 고음질 음성의 예측값을 얻는다.
이상과 같이 하여 얻어진 고음질의 음성은 예측부(125)에서 D/A 변환부(30)를 통해 스피커(31)로 공급되고, 이에 따라 스피커(31)에서는 고음질의 음성이 출력된다.
단계 S4의 처리후에는, 단계 S5로 진행하여, 아직 주목 프레임으로서 처리해야 할 프레임이 있는지의 여부가 판정되고, 있다고 판정된 경우, 단계 S1으로 되돌아가서 다음에 주목 프레임으로 해야 할 프레임을 새로 주목 프레임으로 하여 이하 동일한 처리를 반복한다. 또한, 단계 S5에서 주목 프레임으로서 처리해야 할 프레임이 없다고 판정된 경우에는 처리를 종료한다.
이어서, 도 11의 계수 메모리(124)에 기억시키는 탭 계수의 학습 처리를 행하는 학습 장치의 일례를 도 12에 도시한다.
도 12에 도시한 학습 장치에 있어서, 마이크로폰(201) 내지 코드 결정부(215)는 도 1의 마이크로폰(1) 내지 코드 결정부(15)와 각각 동일하게 구성된다. 그리고, 마이크로폰(1)에는 학습용 음성 신호가 입력되도록 이루어져 있고, 따라서 마이크로폰(201) 내지 코드 결정부(215)에서는 그 학습용 음성 신호에 대해 도 1에서의 경우와 동일한 처리가 실행된다.
탭 생성부(131)에는 자승 오차 최소 판정부(208)에서 자승 오차가 최소로 되었다고 판정되었을 때의 음성 합성 필터(206)가 출력하는 합성음이 공급된다. 또한, 탭 생성부(132)에는 코드 결정부(152)가 자승 오차 최소 판정부(208)에서 확정 신호를 수신하였을 때에 출력하는 L 코드, G 코드, I 코드 및 A 코드가 공급된다. 그리고, 탭 생성부(132)에는 벡터 양자화부(205)가 출력하는 LPC 분석부(204)에서 얻어진 선형 예측 계수의 벡터 양자화 결과로서의 A 코드에 대응하는 코드 벡터(센트로이드 벡터)의 요소로 되어 있는 선형 예측 계수와, 자승 오차 최소 판정부(208)에서 자승 오차가 최소로 되었다고 판정되었을 때의 연산기(214)가 출력하는 잔차 신호도 공급된다. 또한, 정규 방정식 가산 회로(134)에는 A/D 변환부(202)가 출력하는 음성이 교사 데이터로서 공급된다.
탭 생성부(131)는 음성 합성 필터(206)가 출력하는 합성음으로 도 1의 탭 생성부(121)와 동일한 예측 탭을 구성하고, 학생 데이터로서 정규 방정식 가산 회로(134)로 공급한다.
탭 생성부(132)는 코드 결정부(215)에서 공급되는 L 코드, G 코드, I 코드 및 A 코드, 그리고 벡터 양자화부(205)에서 공급되는 선형 예측 계수 및 연산기(214)에서 공급되는 잔차 신호로 도 11의 탭 생성부(122)와 동일한 클래스 탭을 구성하여 클래스 분류부(133)로 공급한다.
클래스 분류부(133)는 탭 생성부(132)로부터의 클래스 탭에 기초하여 도 11의 클래스 분류부(223)에서의 경우와 동일한 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 정규 방정식 가산 회로(134)로 공급한다.
정규 방정식 가산 회로(134)는, A/D 변환부(202)로부터의 음성을 교사 데이터로서 수신함과 동시에 탭 생성부(131)로부터의 예측 탭을 학생 데이터로서 수신하고, 이 교사 데이터 및 학생 데이터를 대상으로 하여 클래스 분류부(133)로부터의 클래스 코드마다 도 6의 정규 방정식 가산 회로(81)에서의 경우와 동일한 합산을 행함으로써, 각 클래스에 대해 수학식 (13)에 나타낸 정규 방정식을 세운다.
탭 계수 결정 회로(135)는 정규 방정식 가산 회로(134)에 있어서 클래스마다 생성된 정규 방정식을 풂으로써 클래스마다 탭 계수를 구하여 계수 메모리(136)의 각 클래스에 대응하는 어드레스로 공급한다.
그리고, 학습용 음성 신호로서 준비하는 음성 신호에 따라서는, 정규 방정식 가산 회로(134)에 있어서, 탭 계수를 구하는데 필요한 수의 정규 방정식을 얻을 수 없는 클래스가 발생하는 경우가 있을 수 있는데, 탭 계수 결정 회로(135)는 이와 같은 클래스에 대해서는 예컨대 디폴트의 탭 계수를 출력한다.
계수 메모리(136)는 탭 계수 결정 회로(135)에서 공급되는 클래스마다의 선형 예측 계수와 잔차 신호에 대한 탭 계수를 기억한다.
이상과 같이 구성되는 학습 장치에서는 기본적으로는 도 8에 나타낸 플로우 차트에 따른 처리와 동일한 처리가 실행됨으로써 고음질의 합성음을 얻기 위한 탭 계수를 구할 수 있다.
학습 장치에는 학습용 음성 신호가 공급되고, 단계 S11에서는 그 학습용 음성 신호로부터 교사 데이터와 학생 데이터가 생성된다.
즉, 학습용 음성 신호는 마이크로폰(201)에 입력되고, 마이크로폰(201) 내지 코드 결정부(215)는 도 1의 마이크로폰(1) 내지 코드 결정부(15)에서의 경우와 각각 동일한 처리를 실행한다.
그 결과, A/D 변환부(202)에서 얻어지는 디지털 신호의 음성은 교사 데이터로서 정규 방정식 가산 회로(134)로 공급된다. 또한, 자승 오차 최소 판정부(208)에 있어서 자승 오차가 최소로 되었다고 판정되었을 때에 음성 합성 필터(206)가 출력하는 합성음은 학생 데이터로서 탭 생성부(131)로 공급된다.
그리고, 벡터 양자화부(205)가 출력하는 선형 예측 계수, 자승 오차 최소 판정부(208)에 있어서 자승 오차가 최소로 되었다고 판정되었을 때에 코드 결정부(215)가 출력하는 L 코드, G 코드, I 코드 및 A 코드, 그리고 연산기(214)가 출력하는 잔차 신호는 탭 생성부(132)로 공급된다.
그 후, 단계 S12로 진행하여, 탭 생성부(131)는 음성 합성 필터(206)에서 학생 데이터로서 공급되는 합성음의 프레임을 주목 프레임으로 하여 그 주목 프레임의 합성음에서 예측 탭을 생성하여 정규 방정식 가산회로(134)로 공급한다. 그리고, 단계 S12에서는 탭 생성부(132)가 이곳으로 공급되는 L 코드, G 코드, I 코드, A 코드, 선형 예측 계수 및 잔차 신호에서 클래스 탭을 생성하여 클래스 분류부(133)로 공급한다.
단계 S12의 처리후에는 단계 S13으로 진행하여, 클래스 분류부(133)가 탭 생성부(132)로부터의 클래스 탭에 기초하여 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 정규 방정식 가산 회로(134)로 공급한다.
단계 S214로 진행하여, 정규 방정식 가산 회로(134)는, A/D 변환부(202)로부터의 교사 데이터로서의 주목 프레임의 고음질 음성인 학습용 음성 및 탭 생성부(132)로부터의 학생 데이터로서의 예측 탭을 대상으로 하여 수학식 (13)의 행렬 A와 벡터 v의, 상술한 바와 같은 합산을, 클래스 분류부(133)로부터의 클래스 코드마다 실행하여 단계 S15로 진행한다.
단계 S15에서는, 아직 주목 프레임으로서 처리해야 할 프레임이 있는지의 여부가 판정된다. 단계 S15에서 아직 주목 프레임으로서 처리해야 할 프레임이 있다고 판정된 경우에는 단계 S11로 되돌아가고, 다음의 프레임을 새로 주목 프레임으로 하여 이하 동일한 처리가 반복된다.
단계 S15에서, 주목 프레임으로서 처리해야 할 프레임이 없다고 판정된 경우, 즉 정규 방정식 가산 회로(134)에 있어서 각 클래스에 대해 정규 방정식이 얻어진 경우에는 단계 S16으로 진행하고, 탭 계수 결정 회로(135)는 각 클래스마다 생성된 정규 방정식을 풂으로써 각 클래스마다 탭 계수를 구하고, 계수 메모리(136)의 각 클래스에 대응하는 어드레스로 공급하여 기억시켜 처리를 종료한다.
이상과 같이 하여, 계수 메모리(136)에 기억된 각 클래스마다의 탭 계수가 도 11의 계수 메모리(124)에 기억되어 있다.
따라서, 도 11의 계수 메모리(124)에 기억된 탭 계수는, 선형 예측 연산을 행함으로써 얻어지는 고음질 음성의 예측값의 예측 오차(자승 오차)가 통계적으로 최소가 되도록 학습을 행함으로써 구해진 것이기 때문에, 도 11의 예측부(125)가 출력하는 음성은 고음질의 것으로 된다.
이어서, 상술한 일련의 처리는 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 행하는 경우에는 그 소프트웨어를 구성하는 프로그램이 범용 컴퓨터 등에 인스톨된다.
여기서, 도 13은 상술한 일련의 처리를 행하는 프로그램이 인스톨되는 컴퓨터의 일실시형태의 구성예를 도시하고 있다.
프로그램은 컴퓨터에 내장되어 있는 기록 매체로서의 하드 디스크(305)나 ROM(303)에 미리 기록해 둘 수 있다.
또는, 프로그램은 플로피 디스크, CD-ROM(Compact Disc Read Only Memory)이나 MO(Magneto Optical) 디스크, DVD(Digital Versatile Disc), 자기 디스크, 반도체 메모리 등의 리무버블 기록 매체(311)에 일시적 또는 영속적으로 격납해 둘 수 있다. 이와 같은 리무버블 기록 매체(311)는 소위 패키지 소프트웨어로서 제공할 수 있다.
그리고, 프로그램은 상술한 바와 같은 리무버블 기록 매체(311)로부터 컴퓨터에 인스톨하는 것 외에 다운로드 사이트에서 디지털 위성방송용 인공위성을 통해 컴퓨터에 무선으로 전송하거나 LAN(Local Area Network) 인터넷이라는 네트워크를 통해 컴퓨터에 유선으로 전송하고, 컴퓨터에서는 이와 같이 하여 전송되어 오는 프로그램을 통신부(308)에서 수신하여 내장하는 하드 디스크(305)에 인스톨할 수 있다.
컴퓨터는 CPU(302;Central Processing Unit)를 내장하고 있다. CPU(302)는 버스(301)를 통해 입출력 인터페이스(310)가 접속되어 있고, CPU(302)는 입출력 인터페이스(310)를 통해 사용자에 의해 키보드나 마우스, 마이크로폰 등으로 구성되는 입력부(307)가 조작됨으로써 지령이 입력되면, 이에 따라 ROM(303;Read Only Memory)에 격납되어 있는 프로그램이 실행된다. 또는 CPU(302)는 하드 디스크(305)에 격납되어 있는 프로그램, 위성 또는 네트워크를 통해 전송되고, 통신부(308)에서 수신되어 하드 디스크(305)에 인스톨된 프로그램 또는 드라이브(309)에 장착된 리무버블 기록 매체(311)에서 판독되어 하드 디스크(305)에 인스톨된 프로그램을 RAM(304;Random Access Memory)에 로딩하여 실행한다. 이에 따라, CPU(32)는 상술한 플로우차트에 따른 처리 또는 상술한 블록도의 구성에 의해 실행되는 처리를 행한다. 그리고, CPU(302)는 그 처리 결과를, 필요에 따라 예컨대 입출력 인터페이스(310)를 통해 LCD(Liquid Crystal Display)나 스피커 등으로 구성되는 출력부(306)를 통해 출력, 또는 통신부(308)를 통해 송신, 나아가 하드 디스크(305)에 기록시킨다.
여기서, 컴퓨터에 각종 처리를 실행시키기 위한 프로그램을 기술하는 처리 단계는 반드시 플로우차트로서 기재된 순서를 따라 시계열로 처리할 필요는 없으며, 병렬적 또는 개별적으로 실행되는 처리, 예컨대 병렬 처리 또는 오브젝트에 의 한 처리도 포함하는 것이다.
또한, 프로그램은 1개의 컴퓨터에 의해 처리되는 것일 수도 있고, 복수의 컴퓨터에 의해 분산 처리되는 것일 수도 있다. 그리고, 프로그램은 원격지의 컴퓨터로 전송되어 실행되는 것일 수도 있다.
그리고, 본 발명에 있어서, 학습용 음성 신호로서 어떠한 것을 이용하는가에 대해서는 특별히 언급하지 않았으나, 학습용 음성 신호로서는 사람이 발화한 음성 외에, 예컨대 곡(음악) 등을 채택할 수 있다. 그리고, 상술한 바와 같은 학습 처리에 의하면, 학습용 음성 신호로서 사람의 발화를 사용한 경우에는 이와 같은 사람의 발화의 음성의 음질을 향상시키는 탭 계수가 얻어지고, 곡을 사용한 경우에는 곡의 음질을 향상시키는 탭 계수가 얻어지게 된다.
또한, 도 11에 도시한 예에서는, 계수 메모리(124)에는 탭 계수를 미리 기억시켜 두도록 하였으나, 계수 메모리(124)에 기억시키는 탭 계수는 휴대 전화기(101)에 있어서 도 9의 기지국(102) 또는 교환국(103)이나 도시하지 않은 WWW(World Wide Web) 서버 등으로부터 다운로드하도록 할 수 있다. 즉, 상술한 바와 같이, 탭 계수는 사람의 발화용(發話用)이나 곡용(曲用) 등과 같이 임의의 종류의 음성 신호에 적합한 것을 학습에 의해 얻을 수 있다. 학습에 이용하는 교사 데이터 및 학생 데이터에 따라서는 합성음의 음질에 차이가 생기는 탭 계수를 얻을 수 있다. 따라서, 이와 같은 각종 탭 계수를 기지국(102) 등에 기억시켜 두고, 사용자에게는 자신이 원하는 탭 계수를 다운로드시키도록 할 수 있다. 그리고, 이와 같은 탭 계수의 다운로드 서비스는 무료로 받을 수도 있고 유료로 받을 수도 있다. 그리고, 탭 계수의 다운로드 서비스를 유료로 받은 경우에는 탭 계수의 다운로드에 대한 대가로서의 대금을 예컨대 휴대 전화기(101)의 통화료 등과 함께 청구토록 할 수 있다.
계수 메모리(124)는 휴대 전화기(101)에 대해 착탈 가능한 메모리 카드 등으로 구성할 수 있다. 이 경우, 상술한 바와 같은 각종 탭 계수의 각각을 기억시킨, 상이한 메모리 카드를 제공하도록 하면, 사용자는 경우에 따라 원하는 탭 계수가 기억된 메모리 카드를 휴대 전화기(101)에 장착하여 사용할 수 있게 된다.
본 발명은 예컨대 VSELP(Vector Sum Excited Linear Prediction), PSI-CELP(Pitch Synchronous Innovation CELP), CS-ACELP(Conjugate Structure Algebraic CELP) 등의 CELP 방식에 의한 부호화의 결과 얻어지는 코드로부터 합성음을 생성하는 경우에 널리 적용할 수 있다.
또한, 본 발명은 CELP 방식에 의한 부호화의 결과 얻어지는 코드로부터 합성음을 생성하는 경우로 한정되지 않고, 어느 코드로부터 잔차 신호와 선형 예측 계수를 얻어 합성음을 생성하는 경우에 널리 적용할 수 있다.
상술한 설명에서는 탭 계수를 사용한 선형 1차 예측 연산에 의해 잔차 신호나 선형 예측 계수의 예측값을 구하도록 하였으나, 이 예측값은 그 외 2차 이상의 고차의 예측 연산에 의해 구할 수도 있다.
또한, 예컨대 도 11에 도시한 수신부 및 도 12에 도시한 학습 장치에서는, 클래스 탭을 L 코드, G 코드, I 코드 및 A 코드 외에 A 코드에서 얻어진 선형 예측 계수나 L 코드, G 코드 및 I 코드에서 얻어진 잔차 신호에 기초하여 생성하도록 하 였으나, 클래스 탭은 그 외에 예컨대 L 코드, G 코드, I 코드 및 A 코드에서만 생성될 수도 있다. 클래스 탭은 4종류의 L 코드, G 코드, I 코드 및 A 코드 중 어느 하나만(또는 복수), 즉 예컨대 I 코드에서만 생성할 수도 있다. 예컨대, 클래스 탭을 I 코드로만 구성하는 경우에는 I 코드 그 자체를 클래스 탭으로 할 수 있다. 여기서, VSELP 방식에서는 I 코드에는 9비트가 할당되어 있고, 따라서 I 코드를 그대로 클래스 코드로 하는 경우, 클래스 수는 512(=29)가 된다. 그리고, VSELP 방식에서는 9비트의 I 코드의 각 비트는 1 또는 -1이라는 2종류의 부호 극성을 갖기 때문에, 이와 같은 I 코드를 클래스 코드로 하는 경우에는 예컨대 -1이 되어 있는 비트를 0으로 간주하도록 하면 된다.
CELP방식에서는 코드 데이터에, 리스트 보간 비트나 프레임 에너지가 포함되는 경우가 있는데, 이 경우 클래스 탭은 소프트 보간 비트나 프레임 에너지를 이용하여 구성할 수 있다.
일본 공개특허공보 평8-202399호에는 합성음을 고역강조 필터를 통과시킴으로써 그 음질을 개선하는 방법이 개시되어 있는데, 본 발명은 탭 계수가 학습에 의해 얻어지는 점 및 이용하는 탭 계수가 코드에 의한 클래스 분류 결과에 따라 결정되는 점 등에 있어서 일본 공개특허공보 평8-202339호에 기재된 발명과 다르다.
이어서, 본 발명의 다른 실시형태를 도면을 참조하여 상세하게 설명한다.
본 발명을 적용한 음성 합성 장치는 도 14에 도시한 바와 같은 구성을 구비하고, 음성 합성 필터(147)에 부여하는 잔차 신호와 선형 예측 계수를 각각 코드화한 잔차 코드와 A 코드가 다중화된 코드 데이터가 공급되도록 이루어져 있고, 그 잔차 코드와 A 코드에서 각각 잔차 신호와 선형 예측 계수를 구하여 음성 합성 필터(147)에 부여함으로써 합성음이 생성된다.
단, 잔차 코드를 잔차 신호와 잔차 코드를 대응시킨 코드북에 기초하여 잔차 신호로 복호한 경우에는 상술한 바와 같이 그 복호 잔차 신호는 오차를 포함하는 것으로 되어 합성음의 음질이 열화된다. 마찬가지로 A 코드를 선형 예측 계수와 A 코드를 대응시킨 코드북에 기초하여 선형 예측 계수로 복호한 경우에도 그 복호 선형 예측 계수는 오차를 포함하는 것으로 되어 합성음의 음질이 열화된다.
따라서, 도 14의 음성 합성 장치에서는 학습에 의해 구한 탭 계수를 사용한 예측 연산을 행함으로써, 진정한 잔차 신호와 선형 예측 계수의 예측값을 구하고, 이들을 사용함으로써 고음질의 합성음을 생성한다.
즉, 도 14의 음성 합성 장치에서는 예컨대 클래스 분류 적응 처리를 이용해서 복호 선형 예측 계수가 진정한 선형 예측 계수의 예측값으로 복호된다.
클래스 분류 적응 처리는 클래스 분류 처리와 적응 처리로 이루어지고, 클래스 분류 처리에 의해 데이터를 그 성질에 기초해서 클래스 분류하여 각 클래스마다 적응 처리를 실시하는 것으로서, 적응 처리는 전술한 것과 동일한 수법으로 행해지므로, 여기서는 상술한 설명을 참조하여 상세한 설명은 생략한다.
도 14의 음성 합성 장치에서는, 이상과 같은 클래스 분류 적응 처리에 의해 복호 선형 예측 계수를 진정한 선형 예측 계수(의 예측값)로 복호하는 것 이외에, 복호 잔차 신호도 진정한 잔차 신호(의 예측값)로 복호하도록 되어 있다.
즉, 디멀티플렉서(141;DEMUX)에는 코드 데이터가 공급되도록 이루어져 있고, 디멀티플렉서(141)는 이곳으로 공급되는 코드 데이터에서 프레임마다의 A 코드와 잔차 코드를 분리하고, 각각을 필터 계수 복호기(142A)와 잔차 코드북 기억부(142E)로 공급한다.
여기서, 도 14에서의 코드 데이터에 포함되는 A 코드와 잔차 코드는, 음성을 소정 프레임마다 LPC 분석하여 얻어지는 선형 예측 계수와 잔차 신호를 소정의 코드북을 이용하여 각각 벡터 양자화함으로써 얻어지는 코드로 이루어져 있다.
필터 계수 복호기(142A)는 디멀티플렉서(141)에서 공급되는 프레임마다의 A 코드를, 이 A 코드를 얻을 때에 사용된 것과 동일한 코드북에 기초해서 선형 예측 계수로 복호하여 음성 합성 필터(143A)로 공급한다.
잔차 코드북 기억부(142E)는 디멀티플렉서(141)에서 공급되는 프레임마다의 잔차 코드를 얻을 때에 사용된 것과 동일한 코드북을 기억하고 있으며, 디멀티플렉서로부터의 잔차 코드를 그 코드북에 기초해서 복호 잔차 신호로 복호하여 탭 생성부(143E)로 공급한다.
탭 생성부(143A)는 필터 계수 복호기(142A)에서 공급되는 프레임마다의 복호 선형 예측부로부터, 후술하는 클래스 분류부(144A)에서의 클래스 분류에 사용되는 클래스 탭으로 되는 것과, 마찬가지로 후술하는 예측부(146)에서의 예측 연산에 사용되는 예측 탭으로 되는 것을 각각 추출한다. 즉, 탭 생성부(143A)는 예컨대 현재 처리하고자 하는 프레임의 복호 선형 예측 계수 모두를 선형 예측 계수에 대한 클래스 탭 및 예측 탭으로 한다. 탭 생성부(143E)는 선형 예측 계수에 대한 클래스 탭을 클래스 분류부(144A)로, 예측 탭을 예측부(146A)로 각각 공급한다.
탭 생성부(143E)는 잔차 코드북 기억부(142E)에서 공급되는 프레임마다의 복호 잔차 신호로부터 클래스 탭으로 되는 것과 예측 탭으로 되는 것을 각각 추출한다. 즉, 탭 생성부(143E)는 예컨대 현재 처리하고자 하는 프레임의 복호 잔차 신호의 샘플값 모두를 잔차 신호에 대한 클래스 탭 및 예측 탭으로 한다. 탭 생성부(143E)는 잔차 신호에 대한 클래스 탭을 클래스 분류부(144E)로, 예측 탭을 예측부(146E)로 각각 공급한다.
여기서, 예측 탭이나 클래스 탭의 구성 패턴은 상술한 패턴의 것으로 한정되는 것은 아니다.
그리고, 탭 생성부(143A)에서는 복호 선형 예측 계수와 복호 잔차 신호의 양쪽 중에서 선형 예측 계수의 클래스 탭이나 예측 탭을 추출하도록 할 수 있다. 그리고, 탭 생성부(143A)에서는 A 코드나 잔차코드로부터도 선형 예측 계수에 대한 클래스 탭이나 예측 탭을 추출하도록 할 수 있다. 또한 후단의 예측부(146A, 146E)가 이미 출력한 신호나 음성 합성 필터(147)가 이미 출력한 합성음 신호로부터도 선형 예측 계수에 대한 클래스 탭이나 예측 탭을 추출하도록 할 수도 있다. 탭 생성부(143E)에서도 동일한 방법으로 하여 잔차 신호에 대한 클래스 탭이나 예측 탭을 추출할 수 있다.
클래스 분류부(144A)는 탭 생성부(143A)로부터의 선형 예측 계수에 대한 클래스 탭에 기초하여 주목하고 있는 주목 프레임인 진정한 선형 예측 계수의 예측값을 구하고자 하는 프레임의 선형 예측 계수를 클래스 분류하고, 그 결과 얻어지는 클래스에 대응하는 클래스 코드를 계수 메모리(145A)로 출력한다.
여기서, 클래스 분류를 행하는 방법으로서는 예컨대 ADRC(Adaptive Dynamic Range Coding) 등을 채택할 수 있다.
ADRC를 이용하는 방법에서는, 클래스 탭을 구성하는 선형 예측 계수가 ADRC 처리되고, 그 결과 얻어지는 ADRC 코드에 따라 주목 프레임의 선형 예측 계수의 클래스가 결정된다.
K비트 ADRC에서는 예컨대 클래스 탭을 구성하는 복호 선형 예측 계수의 최대값(MAX)과 최소값(MIN)이 검출되고, DR=MAX-MIN을 집합의 국소적인 다이내믹 레인지로 하고, 이 다이내믹 레인지(DR)에 기초하여 클래스 탭을 구성하는 복호 선형 예측 계수가 K비트에 다시 양자화된다. 즉, 클래스 탭을 구성하는 복호 선형 예측 계수 중에서 최소값(MIN)이 감산되고, 이 감산값이 DR/2K로 제산(양자화)된다. 그리고, 이상과 같이 하여 얻어지는 클래스 탭을 구성하는 K비트의 각 복호 선형 예측 계수를 소정의 순번으로 나열한 비트 열이 ADRC 코드로서 출력된다. 따라서, 클래스 탭이 예컨대 1비트 ADRC 처리된 경우에는 이 클래스 탭을 구성하는 각 복호 선형 예측 계수는 최소값(MIN)이 감산된 후에 최대값(MAX)과 최소값(MIN)의 평균치로 제산되고, 이에 따라 각 복호 선형 예측 계수가 1비트로 된다(2치화된다). 그리고, 그 1비트의 신호 선형 예측 계수를 소정 순번으로 나열한 비트열이 ADRC 코드로서 출력된다.
클래스 분류부(144A)에는 예컨대 클래스 탭을 구성하는 복호 선형 예측 계수의 값의 계열을 그대로 클래스 코드로서 출력시킬 수도 있는데, 이 경우 클래스 탭이 P차의 복호 선형 예측 계수로 구성되고, 각 복호 선형 예측 계수에 K비트가 할 당되어 있다고 하면, 클래스 분류부(144A)가 출력하는 클래스 코드의 경우의 수는 (2N)K와 같이 되어 복호 선형 예측 계수의 비트수(K)에 지수적으로 비례한 방대한 수로 된다.
따라서, 클래스 분류부(144A)에서는 클래스 탭의 정보량을 상술한 ADRC 처리나 혹은 벡터 양자화 등에 의해 압축하고 나서 클래스 분류를 행하는 것이 바람직하다.
클래스 분류부(144E)도 탭 생성부(143E)에서 공급되는 클래스 탭에 기초해서 클래스 분류부(144A)에서의 경우와 마찬가지로 하여 주목 프레임의 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 계수 메모리(145E)로 출력한다.
계수 메모리(145A)는 후술하는 도 17의 학습 장치에 있어서 학습 처리가 실행됨으로써 얻어지는 클래스마다의 선형 예측 계수에 대한 탭 계수를 기억하고 있고, 클래스 분류부(144A)가 출력하는 클래스 코드에 대응하는 어드레스에 기억되어 있는 탭 계수를 예측부(146A)로 출력한다.
계수 메모리(145E)는 후술하는 도 17의 학습 장치에 있어서 학습 처리가 실행됨으로써 얻어지는 클래스마다의 잔차 신호에 대한 탭 계수를 기억하고 있고, 클래스 분류부(144E)가 출력하는 클래스 코드에 대응하는 어드레스에 기억되어 있는 탭 계수를 예측부(146E)로 출력한다.
여기서, 각 프레임에 대해 P차의 선형 예측 계수가 구해진다고 하면, 주목 프레임에 대해 P차의 선형 예측 계수를 상술한 수학식 6의 예측 연산에 의해 구하 기 위해서는 P세트의 탭 계수가 필요하다. 따라서, 계수 메모리(145A)에는 1개의 클래스 코드에 대응하는 어드레스에 대해 P세트의 탭 계수가 기억되어 있다. 동일한 이유에서 계수 메모리(145E)에는 각 프레임에서의 잔차 신호의 샘플점과 동일한 수의 세트의 탭 계수가 기억되어 있다.
예측부(146A)는 탭 생성부(143A)가 출력하는 예측 탭과 계수 메모리(145A)가 출력하는 탭 계수를 취득하고, 이 예측 탭과 탭 계수를 이용하여 수학식 6에 나타낸 선형 예측 연산(곱의 합 연산)을 실행하고, 주목 프레임의 P차의 선형 예측 계수(의 예측값)를 구하여 음성 합성 필터(147)로 출력한다.
예측부(146E)는 탭 생성부(143E)가 출력하는 예측 탭과 계수 메모리(145A)가 출력하는 탭 계수를 취득하고, 이 예측 탭과 탭 계수를 이용하여 수학식 (6)에 나타낸 선형 예측 연산을 행하고, 주목 프레임의 잔차 신호의 예측값을 구하여 음성 합성 필터(147)로 출력한다.
여기서, 계수 메모리(145A)는 주목 프레임을 구성하는 P차의 선형 예측 계수의 예측값 각각을 구하기 위한 P세트의 탭 계수를 출력하는데, 예측부(146A)는 각 차수의 선형 예측 계수를 예측 탭과 그 차수에 대응하는 탭 계수의 세트를 사용하여 수학식 6의 곱의 합 연산을 행한다. 예측부(146E)도 마찬가지이다.
음성 합성 필터(147)는 예컨대 상술한 도 1의 음성 합성 필터(29)와 마찬가지로 IIR형 디지털 필터로서, 예측부(146A)로부터의 선형 예측 계수를 IIR 필터의 탭 계수로 함과 동시에, 예측부(146E)로부터의 잔차 신호를 입력 신호로 하여 그 입력 신호의 필터링을 행함으로써 합성음 신호를 생성하여 D/A 변환부(148)로 공급 한다. D/A 변환부(148)는 음성 합성 필터(147)로부터의 합성음 신호를 디지털 신호에서 아날로그 신호로 D/A 변환하여 스피커(147)로 공급하여 출력시킨다.
그리고, 도 14에서는 탭 생성부(143A, 143E)에서 각각 클래스 탭을 생성하고, 클래스 분류부(144A, 144E)에서 각각 그 클래스 탭에 기초하는 클래스 분류를 실행하고, 그리고 계수 메모리(145A, 145E)로부터 각각 그 클래스 분류 결과로서의 클래스 코드에 대응하는 선형 예측 계수와 잔차 신호 각각에 대한 탭 계수를 취득하도록 하였으나, 선형 예측 계수와 잔차 신호 각각에 대한 탭 계수는 예컨대 다음과 같이 하여 취득할 수도 있다.
즉, 탭 생성부(143A, 143E), 클래스 분류부(144A, 144E), 계수 메모리(145A, 145E)를 각각 일체적으로 구성한다. 여기서 일체적으로 구성한 탭 생성부, 클래스 분류부, 계수 메모리를 각각 탭 생성부(143), 클래스 분류부(144), 계수 메모리(145)라 하면, 탭 생성부(143)에는 복호 선형 예측 계수와 복호 잔차 신호로 클래스 탭을 구성하고, 클래스 분류부(144)에는 그 클래스 탭에 기초하여 클래스 분류를 실행하게 하여 1개의 클래스 코드를 출력시킨다. 또한, 계수 메모리(145)에는 각 클래스에 대응하는 어드레스에 선형 예측 계수에 대한 탭 계수와 잔차 신호에 대한 탭 계수의 세트를 기억시켜 두고, 클래스 분류부(144)가 출력하는 클래스 코드에 대응하는 어드레스에 기억되어 있는 선형 예측 계수와 잔차 신호 각각에 대한 탭 계수의 세트를 출력시킨다. 그리고, 예측부(146A, 146E)에서는 이와 같이 하여 계수 메모리(145)에서 세트로 출력되는 선형 예측 계수에 대한 탭 계수와 잔차 신호에 대한 탭 계수에 기초하여 각각 처리하도록 할 수 있다.
그리고, 탭 생성부(143A, 143E), 클래스 분류부(144A, 144E), 계수 메모리(145A, 145E)를 각각 별도로 구성하는 경우에는 선형 예측 계수에 대한 클래스수와 잔차 신호에 대한 클래스 수가 동일해진다고는 단정지을 수 없지만, 일체적으로 구성하는 경우에는 선형 예측 계수와 잔차 신호에 대한 클래스 수가 동일해진다.
이어서, 도 14에 도시한 음성 합성 장치를 구성하는 음성 합성 필터(147)의 구체적인 구성을 도 15에 도시한다.
음성 합성 필터(147)는 도 15에 도시한 바와 같이 P차의 선형 예측 계수를 이용하는 것으로 되어 있고, 따라서 1개의 가산기(151), P개의 지연 회로(D;1521∼152P) 및 P개의 승산기(1531∼153P)로 구성되어 있다.
승산기(1531∼153P)에는 각각 예측부(146A)에서 공급되는 P차의 선형 예측 계수(α12, …,αP)가 세팅되고, 이에 따라 음성 합성 필터(17)에서는 수학식 (4)에 따라 연산이 실행되어 음성 합성 신호가 생성된다.
즉, 예측부(146E)가 출력하는 잔차 신호(e)는 가산기(151)를 통해 지연 회로(1521)로 공급되고, 지연 회로(152P)는 이곳으로의 입력 신호를 잔차 신호의 1샘플분만큼 지연시켜 후단의 지연 회로(152P+1)로 출력함과 동시에, 승산기(153P)로 출력한다. 승산기(153P)는 지연 회로(152P)의 출력과, 이곳에 세팅된 선형 예측 계수(αP)를 승산하여 그 승산값을 가산기(151)로 출력한다.
가산기(151)는 승산기(1531∼153P)의 출력 모두와 잔차 신호(e)를 가산하고, 그 가산 결과를 지연 회로(1521)로 공급하는 것 외에 음성 합성 결과(합성음 신호)로서 출력한다.
이어서, 도 16의 플로우차트를 참조하여 도 14의 음성 합성 장치의 음성 합성 처리에 대해 설명한다.
디멀티플렉서(141)는 이곳으로 공급되는 코드 데이터로부터 프레임마다의 A코드와 잔차 코드를 순차적으로 분리하고, 각각을 필터 계수 복호기(142A)와 잔차 코드북 기억부(142E)로 공급한다.
필터 계수 복호기(142A)는 디멀티플렉서(141)에서 공급되는 프레임마다의 A코드를 복호 선형 예측 계수로 순차적으로 복호하여 탭 생성부(143A)로 공급하고, 또한 잔차 코드북 기억부(142E)는 디멀티플렉서(141)에서 공급되는 프레임마다의 잔차 코드를 복호 잔차 신호로 순차적으로 복호하여 탭 생성부(143E)로 공급한다.
탭 생성부(143A)는 이곳으로 공급되는 복호 선형 예측 계수의 프레임을 차례로 주목 프레임으로 하고, 단계 S101에서 필터 계수 복호기(142A)에서 공급되는 복호 선형 예측 계수로부터 클래스 탭과 예측 탭을 생성한다. 또한, 단계 S101에서는 탭 생성부(143E)는 잔차 코드북 기억부(142E)에서 공급되는 복호 잔차 신호로부터 클래스 탭과 예측 탭을 생성한다. 탭 생성부(143A)가 생성한 클래스 탭은 클래스 분류부(144A)로, 예측 탭은 예측부(146A)로 각각 공급되고, 탭 생성부(143E)가 생성한 클래스 탭은 클래스 분류부(144E)로, 예측 탭은 예측부(146E)로 각각 공급 된다.
단계 S102로 진행하여, 클래스 분류부(144A, 144E)는 탭 생성부(143A, 143E)에서 공급되는 클래스 탭에 기초하여 각각 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 계수 메모리(145A, 145E)로 각각 공급하여 단계 S103으로 진행한다.
단계 S103에서는 계수 메모리(145A, 145E)는 클래스 분류부(144A, 144E)에서 공급되는 클래스 코드에 대응하는 어드레스로부터 탭 계수를 각각 판독하여 예측부(146A, 146E)로 각각 공급한다.
단계 S104로 진행하여, 예측부(146A)는 계수 메모리(145A)가 출력하는 탭 계수를 취득하고, 이 탭 계수와 탭 생성부(143A)로부터의 예측 탭을 이용하여 수학식 6에 나타낸 곱의 합 연산을 행하여 주목 프레임의 진정한 선형 예측 계수의 예측값을 얻는다. 또한, 단계 S104에서는 예측부(146E)는 계수 메모리(145E)가 출력하는 탭 계수를 취득하고, 이 탭 계수와 탭 생성부(143E)로부터의 예측 탭을 사용하여 수학식 6에 나타낸 곱의 합 연산을 행하여 주목 프레임의 진정한 잔차 신호(의 예측값)를 얻는다.
이상과 같이 하여 얻어진 잔차 신호 및 선형 예측 계수는 음성 합성 필터(147)로 공급되고, 음성 합성 필터(147)에서는 그 잔차 신호 및 선형 예측 계수를 사용하여 수학식 4의 연산이 실행됨으로써, 주목 프레임의 합성음 신호가 생성된다. 이 합성음 신호는 음성 합성 필터(147)에서 D/A 변환부(148)를 통해 스피커(149)로 공급되고, 이에 따라 스피커(149)에서는 그 합성음 신호에 대응하는 합 성음이 출력된다.
예측부(146A, 146E)에 있어서, 선형 예측 계수와 잔차 신호가 각각 얻어진 후에는 단계 S105로 진행하여 아직 주목 프레임으로서 처리해야 할 프레임의 복호 선형 예측 계수 및 복호 잔차 신호가 있는지의 여부가 판정된다. 단계 S105에서 아직 주목 프레임으로서 처리해야 할 프레임의 복호 선형 예측 계수 및 복호 잔차 신호가 있다고 판정된 경우에는 단계 S101로 되돌아가고, 다음에 주목 프레임으로 해야 할 프레임을 새로 주목 프레임으로 하여 이하 동일한 처리를 반복한다. 또한, 단계 S105에서 주목 프레임으로 처리해야 할 프레임의 복호 선형 예측 계수 및 복호 잔차 신호가 없다고 판정된 경우에는 음성 합성 처리를 종료한다.
도 14에 도시한 계수 메모리(145A, 145E)에 기억시키는 탭 계수의 학습 처리를 행하는 학습 장치는 도 17에 도시한 바와 같은 구성을 구비하고 있다.
도 17에 도시한 학습 장치에는 학습용 디지털 음성 신호가 프레임 단위로 공급되도록 되어 있고, 이 학습용 디지털 음성 신호는 LPC 분석부(161A) 및 예측 필터(161E)로 공급된다.
LPC 분석부(161A)는 이곳으로 공급되는 음성 신호의 프레임을 차례로 주목 프레임으로 하여 그 주목 프레임의 음성 신호를 LPC 분석함으로써 P차의 선형 예측 계수를 구한다. 이 선형 예측 계수는 예측 필터(161E) 및 벡터 양자화부(162A)로 공급됨과 동시에 선형 예측 계수에 대한 탭 계수를 구하기 위한 교사 데이터로서 정규 방정식 가산 회로(166A)로 공급된다.
예측 필터(161E)는 이곳으로 공급되는 주목 프레임의 음성 신호와 선형 예측 계수를 사용하여, 예컨대 수학식 1에 따라 연산함으로써 주목 프레임의 잔차 신호를 구하여 벡터 양자화부(162E)로 공급함과 동시에 잔차 신호에 대한 탭 계수를 구하기 위한 교사 데이터로서 정규 방정식 가산 회로(166E)로 공급한다.
즉, 상술한 수학식 1에 있어서의 sn과 en의 Z 변환을 S와 E로 각각 나타내면 수학식 1은 다음 수학식 15와 같이 나타낼 수 있다.
Figure 112002010575060-pct00024
수학식 15로부터 잔차 신호(e)는 음성 신호(s)와 선형 예측 계수(αP)의 곱의 합 연산으로 구할 수 있고, 따라서 잔차 신호(e)를 구하는 예측 필터(161E)는 FIR(Finite Impulse Response)형 디지털 필터로 구성할 수 있다.
즉, 도 18은 예측 필터(161E)의 구성예를 도시한다.
예측 필터(161E)에는 LPC 분석부(161A)에서 P차의 선형 예측 계수가 공급되도록 이루어져 있고, 따라서 예측 필터(161E)는 P개의 지연 회로(D;1711∼171P), P개의 승산기(1721∼172P) 및 1개의 가산기(173)로 구성되어 있다.
승산기(1721∼172P)에는 각각 LPC 분석부(161A)에서 공급되는 P차의 선형 예측 계수 중 α12,…,αP 가 세팅된다.
한편, 주목 프레임의 음성 신호(e)는 지연 회로(1711)와 가산기(173)로 공급 된다. 지연회로(171P)는 이곳으로의 입력 신호를 잔차 신호의 1샘플분만큼 지연시켜 후단의 지연 회로(171P+1)로 출력함과 동시에 승산기(172P)로 출력한다. 승산기(172P)는 지연 회로(171P)의 출력과 이곳에 세팅된 선형 예측 계수(αP )를 승산하여 그 승산값을 가산기(173)로 출력한다.
가산기(173)는 승산기(1721∼172P)의 출력 모두와 음성 신호(s)를 가산하고, 그 가산 결과를 잔차 신호(e)로서 출력한다.
도 17로 되돌아가서, 벡터 양자화부(162A)는 선형 예측 계수를 요소로 하는 코드 벡터와 코드를 대응시킨 코드북을 기억하고 있고, 이 코드북에 기초하여 LPC 분석부(161A)로부터의 주목 프레임의 선형 예측 계수로 구성되는 특징 벡터를 벡터 양자화하고, 이 벡터 양자화의 결과 얻어지는 A코드를 필터 계수 복호기(163A)로 공급한다. 벡터 양자화부(162) 신호의 샘플값을 요소로 하는 코드 벡터와 코드를 대응시킨 코드북을 기억하고 있고, 이 코드북에 기초하여 예측 필터(161E)로부터의 주목 프레임의 잔차 신호의 샘플값으로 구성되는 잔차 벡터를 벡터 양자화하고, 이 벡터 양자화의 결과 얻어지는 잔차 코드를 잔차 코드북 기억부(163E)로 공급한다.
필터 계수 복호기(163A)는 벡터 양자화부(162A)가 기억하고 있는 것과 동일한 코드북을 기억하고 있고, 이 코드북에 기초해서 벡터 양자화부(162A)로부터의 A코드를 복호 선형 예측 계수로 복호하여 선형 예측 계수에 대한 탭 계수를 구하기 위한 학생 데이터로서 탭 생성부(164A)로 공급한다. 여기서, 도 14의 필터 계수 복호기(142A)는 도 17의 필터 계수 복호기(163A)와 동일하게 구성되어 있다.
잔차 코드북 기억부(163E)는 벡터 양자화부(162E)가 기억하고 있는 것과 동일한 코드북을 기억하고 있고, 이 코드북에 기초해서 벡터 양자화부(162E)로부터의 잔차 코드를 복호 잔차 신호로 복호하여 잔차 신호에 대한 탭 계수를 구하기 위한 학생 데이터로서 탭 생성부(164E)로 공급한다. 여기서, 도 14의 잔차 코드북 기억부(142E)는 도 17의 잔차 코드북 기억부(142E)와 동일하게 구성되어 있다.
탭 생성부(164A)는 도 14의 탭 생성부(143A)에서의 경우와 마찬가지로, 필터 계수 복호기(163A)에서 공급되는 복호 선형 예측 계수로 예측 탭과 클래스 탭을 구성하고, 클래스 탭을 클래스 분류부(165A)로 공급함과 동시에 예측 탭을 정규 방정식 가산 회로(166A)로 공급한다. 탭 생성부(164E)는 도 14의 탭 생성부(143E)에서의 경우와 마찬가지로, 잔차 코드북 기억부(163E)에서 공급되는 복호 잔차 신호로 예측 탭과 클래스 탭을 구성하여 클래스 탭을 클래스 분류부(165E)로 공급함과 동시에 예측 탭을 정규 방정식 가산 회로(166E)로 공급한다.
클래스 분류부(165A, 165E)는 도 3의 클래스 분류부(144A, 144E)에서의 경우와 각각 마찬가지로, 이곳으로 공급되는 클래스 탭에 기초하여 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 정규 방정식 가산 회로(166A, 166E)로 각각 공급한다.
정규 방정식 가산 회로(166A)는, LPC 분석부(161A)로부터의 교사 데이터로서의 주목 프레임의 선형 예측 계수와 탭 생성부(164A)로부터의 학생 데이터로서의 예측 탭을 구성하는 복호 선형 예측 계수를 대상으로 한 합산을 행한다. 정규 방정식 가산 회로(166E)는, 예측 필터(161E)로부터의 교사 데이터로서의 주목 프레임 의 잔차 신호와 탭 생성부(164E)로부터의 학생 데이터로서의 예측 탭을 구성하는 복호 잔차 신호를 대상으로 한 합산을 행한다.
즉, 정규 방정식 가산 회로(166A)는 클래스 분류부(165A)에서 공급되는 클래스 코드에 대응하는 클래스마다 예측 탭인 학생 데이터를 사용하고, 상술한 수학식 (13)의 행렬 A에 있어서의 각 컴포넌트로 이루어져 있는 학생 데이터끼리의 승산(xinxim)과 서메이션(Σ)에 상당하는 연산을 행한다.
또한, 정규 방정식 가산 회로(166A)는 역시 클래스 분류부(165A)에서 공급되는 클래스 코드에 대응하는 클래스마다 학생 데이터, 예측 탭을 구성하는 복호 선형 예측 계수 및 교사 데이터, 즉 주목 프레임의 선형 예측 계수를 사용하여 수학식 (13)의 벡터 v에 있어서의 각 콤포넌트로 이루어져 있는 학생 데이터와 교사 데이터의 승산(xinyi)과 서메이션(Σ)에 상당하는 연산을 행한다.
정규 방정식 가산 회로(166A)는 이상과 같은 합산을, LPC 분석부(161A)에서 공급되는 선형 예측 계수의 프레임 모두를 주목 프레임으로 하여 실행하고, 이에 따라 각 클래스에 대해 선형 예측 계수에 관한 수학식 (13)에 나타낸 정규 방정식을 세운다.
정규 방정식 가산 회로(166E)도 동일한 합산을 예측 필터(161E)에서 공급되는 잔차 신호의 프레임 모두를 주목 프레임으로 하여 실행하고, 이에 따라 각 클래스에 대해 잔차 신호에 관한 수학식 (13)에 나타낸 정규 방정식을 세운다.
탭 계수 결정 회로(167A, 167E)는 정규 방정식 가산 회로(166A, 166E)에 있 어서 클래스마다 생성된 정규 방정식 각각을 풀이함으로써, 클래스마다 선형 예측 계수와 잔차 신호에 대한 탭 계수를 각각 구하여 계수 메모리(168A, 168E)의 각 클래스에 대응하는 어드레스로 각각 공급한다.
그리고, 학습용 음성 신호로서 준비한 음성 신호에 따라서는 정규 방정식 가산 회로(166A, 166E)에 있어서 탭 계수를 구하는데 필요한 수의 정규 방정식을 얻을 수 없는 클래스가 발생하는 경우가 있을 수 있는데, 탭 계수 결정 회로(167A, 167E)는 이와 같은 클래스에 대해서는 예컨대 디폴트의 탭 계수를 출력한다.
계수 메모리(168A, 168E)는 탭 계수 결정 회로(167A, 167E)에서 각각 공급되는 클래스마다의 선형 예측 계수와 잔차 신호에 대한 탭 계수를 각각 기억한다.
이어서, 도 19에 나타낸 플로우차트를 참조하여, 도 17의 학습 장치의 학습 처리에 대해 설명한다.
학습 장치에는 학습용 음성 신호가 공급되고, 단계 S111에서는 그 학습용 음성 신호로부터 교사 데이터와 학생 데이터가 생성된다.
즉, LPC 분석부(161A)는 학습용 음성 신호의 프레임을 차례로 주목 프레임으로 하여 그 주목 프레임의 음성 신호를 LPC 분석함으로써 P차의 선형 예측 계수를 구하여 교사 데이터로서 정규 방정식 가산 회로(166A)로 공급한다. 또한, 이 선형 예측 계수는 예측 필터(161E) 및 벡터 양자화부(162A)에도 공급되고, 벡터 양자화부(162A)는 LPC 분석부(161A)로부터의 주목 프레임의 선형 예측 계수로 구성되는 특징 벡터를 벡터 양자화하고, 이 벡터 양자화의 결과 얻어지는 A코드를 필터 계수 복호기(163A)로 공급한다. 필터 계수 복호기(163A)는 벡터 양자화부(162A)로부터 의 A코드를 복호 선형 예측 계수로 복호하고, 이 복호 선형 예측 계수를 학생 데이터로서 탭 생성부(164A)로 공급한다.
한편, 주목 프레임의 선형 예측 계수를 LPC 분석부(161A)로부터 수신한 예측 필터(161E)는, 그 선형 예측 계수와 주목 프레임의 학습용 음성 신호를 이용하여 상술한 수학식 1에 따라 연산함으로써, 주목 프레임의 잔차 신호를 구하여 교사 데이터로서 정규 방정식 가산 회로(166E)로 공급한다. 이 잔차 신호는 벡터 양자화(162E)에도 공급되고, 벡터 양자화부(162E)는 예측 필터(161E)로부터의 주목 프레임의 잔차 신호의 샘플값으로 구성되는 잔차 벡터를 벡터 양자화하고, 이 벡터 양자화의 결과 얻어지는 잔차 코드를 잔차 코드북 기억부(163E)로 공급한다. 잔차 코드북 기억부(163E)는 벡터 양자화부(162E)로부터의 잔차 코드를 복호 잔차 신호로 복호하고, 이 복호 잔차 신호를 학생 데이터로 하여 탭 생성부(164E)로 공급한다.
그리고, 단계 S112로 진행하여 탭 생성부(164A)가 필터 계수 복호기(163A)에서 공급되는 복호 선형 예측 계수로 선형 예측 계수에 대한 예측 탭과 클래스 탭을 구성함과 동시에, 탭 생성부(164E)가 잔차 코드북 기억부(163E)에서 공급되는 복호 잔차 신호로 잔차 신호에 대한 예측 탭과 클래스 탭을 구성한다. 선형 예측 계수에 대한 클래스 탭은 클래스 분류부(165A)로 공급되고, 예측 탭은 정규 방정식 가산 회로(166A)로 공급된다. 또한, 잔차 신호에 대한 클래스 탭은 클래스 분류부(165E)로 공급되고, 예측 탭은 정규 방정식 가산 회로(166E)로 공급된다.
그 후, 단계 S113에서, 클래스 분류부(165A)가 선형 예측 계수에 대한 클래 스 탭에 기초하여 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 정규 방정식 가산 회로(166A)로 공급함과 동시에, 클래스 분류부(165E)가 잔차 신호에 대한 클래스 탭에 기초하여 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 정규 방정식 가산 회로(166E)로 공급한다.
단계 S114로 진행하여, 정규 방정식 가산 회로(166A)는 LPC 분석부(161A)로부터의 교사 데이터로서의 주목 프레임의 선형 예측 계수 및 탭 생성부(164A)로부터의 학생 데이터로서의 예측 탭을 구성하는 복호 선형 예측 계수를 대상으로 하여 수학식 13의 행렬 A와 벡터 v의 상술한 바와 같은 합산을 행한다. 또한, 단계 S114에서는, 정규 방정식 가산 회로(166E)가 예측 필터(161E)로부터의 교사 데이터로서의 주목 프레임의 잔차 신호 및 탭 생성부(164E)로부터의 학생 데이터로서의 예측 탭을 구성하는 복호 잔차 신호를 대상으로 해서 수학식 13의 행렬 A와 벡터 v의 상술한 바와 같은 합산을 행하여 단계 S115로 진행한다.
단계 S115에서는, 아직 주목 프레임으로서 처리해야 할 프레임의 학습용 음성 신호가 있는지의 여부가 판정된다. 단계 S115에서 아직 주목 프레임으로서 처리해야 할 프레임의 학습용 음성 신호가 있다고 판정된 경우, 단계 S111로 복귀하고, 다음 프레임을 새로 주목 프레임으로 하여 이하 동일한 처리가 반복된다.
단계 S105에서, 주목 프레임으로서 처리해야 할 프레임의 학습용 음성 신호가 없다고 판정된 경우, 즉 정규 방정식 가산 회로(166A, 166E)에 있어서, 각 클래스에 대해 정규 방정식이 얻어진 경우에는 단계 S116으로 진행하고, 탭 계수 결정 회로(167A)는 각 클래스마다 생성된 정규 방정식을 풀이함으로써 각 클래스마다 선 형 예측 계수에 대한 탭 계수를 구하여 계수 메모리(168A)의 각 클래스에 대응하는 어드레스로 공급하여 기억시킨다. 또한, 탭 계수 결정 회로(167E)도 각 클래스마다 생성된 정규 방정식을 풂으로써 각 클래스마다 잔차 신호에 대한 탭 계수를 구하고, 계수 메모리(168E)의 각 클래스에 대응하는 어드레스로 공급하여 기억시켜 처리를 종료한다.
이상과 같이 하여, 계수 메모리(168A)에 기억된 각 클래스마다의 선형 예측 계수에 대한 탭 계수가 도 14의 계수 메모리(145A)에 기억되어 있음과 동시에, 계수 메모리(168E)에 기억된 각 클래스마다의 잔차 신호에 대한 탭 계수가 도 14의 계수 메모리(145E)에 기억되어 있다.
따라서, 도 14의 계수 메모리(145A)에 기억된 탭 계수는 선형 예측 연산을 함으로써 얻어지는 진정한 선형 예측 계수의 예측값의 예측 오차(여기에서는 자승 오차)가 통계적으로 최소가 되도록 학습을 행함으로써 구해진 것이고, 또한 계수 메모리(145E)에 기억된 탭 계수도 선형 예측 연산을 함으로써 얻어지는 진정한 잔차 신호의 예측값의 예측 오차(자승 오차)가 통계적으로 최소가 되도록 학습을 행함으로써 구해진 것이기 때문에, 도 14의 예측부(146A, 146E)가 출력하는 선형 예측 계수와 잔차 신호는 각각 진정한 선형 예측 계수와 잔차 신호와 거의 일치하게 되고, 그 결과 이들의 선형 예측 계수와 잔차 신호에 의해 생성되는 합성음은 변형이 적은 고음질의 것이 된다.
그리고, 도 14에 도시한 음성 합성 장치에 있어서 상술한 바와 같이 예컨대 탭 생성부(143A)에 복호 선형 예측 계수와 복호 잔차 신호의 양측으로부터 선형 예 측 계수의 클래스 탭이나 예측 탭을 추출시키도록 하는 경우에는, 도 17의 탭 생성부(164A)에도 복호 선형 예측 계수와 복호 잔차 신호의 양측으로부터 선형 예측 계수의 클래스 탭이나 예측 탭을 추출시키도록 할 필요가 있다. 탭 생성부(164E)에 대해서도 동일하다.
또한, 도 14에 도시한 3개의 음성 합성 장치에 있어서, 상술한 바와 같이 탭 생성부(143A, 143E), 클래스 분류부(144A, 144E), 계수 메모리(145A, 145E)를 각각 일체적으로 구성하는 경우에는, 도 17에 도시한 학습 장치에서도 탭 생성부(164A, 164E), 클래스 분류부(165A, 165E), 정규 방정식 가산 회로(166A, 166E), 탭 계수 결정 회로(167A, 167E), 계수 메모리(168A, 168E)를 각각 일체적으로 구성할 필요가 있다. 이 경우, 정규 방정식 가산 회로(166A, 166E)를 일체적으로 구성한 정규 방정식 가산 회로에서는, LPC 분석부(161A)가 출력하는 선형 예측 계수와 예측 필터(161E)가 출력하는 잔차 신호의 양측을 한번에 교사 데이터로 함과 동시에, 필터 계수 복호기(163A)가 출력하는 복호 선형 예측 계수와 잔차 코드북 기억부(163E)가 출력하는 복호 잔차 신호의 양측을 한번에 학생 데이터로 하여 정규 방정식이 세워지고, 탭 계수 결정 회로(167A, 167E)를 일체적으로 구성한 탭 계수 결정 회로에서는 그 정규 방정식을 풂으로써 클래스마다의 선형 예측 계수와 잔차 신호 각각에 대한 탭 계수가 한번에 구해진다.
이어서, 본 발명을 적용한 전송 시스템의 일례를 도 20을 참조하여 설명한다.
여기서, 시스템이란 복수의 장치가 논리적으로 집합된 것을 말하며, 각 구성 의 장치가 동일한 케이스 속에 있는지의 여부와는 관계 없다.
이 전송 시스템에서는 휴대 전화기(1811, 1812)가 기지국(1821, 1822 ) 각각과의 사이에서 무선에 의한 통신을 행함과 동시에 기지국(1821, 1822) 각각이 교환국(83)과의 사이에서 통신을 행함으로써, 최종적으로는 휴대 전화기 (1811, 1812) 사이에서 기지국(1821, 1822) 및 교환국(183)을 통해 음성의 송수신을 행할 수 있도록 되어 있다. 그리고, 기지국(1821, 1822)은 동일한 기지국이어도 되고 다른 기지국이어도 된다.
여기서, 이하 특히 구별할 필요가 없는 한, 휴대 전화기(1811, 1812)를 휴대 전화기(181)로 기술한다.
도 21은 도 20에 도시한 휴대 전화기(181)의 구성예를 도시한다.
안테나(191)는 기지국(1821,1822)으로부터의 전파를 수신하고, 그 수신 신호를 변복조부(192)로 공급함과 동시에 변복조부(192)로부터의 신호를 전파에 의해 기지국(1821 또는 1822)으로 송신한다. 변복조부(192)는 안테나(191)로부터의 신호를 복조하고, 그 결과 얻어지는 전술한 도 1에서 설명한 바와 같은 코드 데이터를 수신부(194)로 공급한다. 변복조부(192)는 송신부(193)에서 공급되는 도 1에서 설명한 바와 같은 코드 데이터를 변조하고, 그 결과 얻어지는 변조 신호를 안테나(191)로 공급한다. 송신부(193)는 도 1에 도시한 송신부와 동일하게 구성되고, 이곳에 입력되는 사용자의 음성을 코드 데이터로 부호화하여 변복조부(192)로 공급한다. 수신부(194)는 변복조부(192)로부터의 코드 데이터를 수신하고, 이 코드 데이터로부터 도 14의 음성 합성 장치에 있어서의 경우와 동일한 고음질의 음성을 부호로서 출력한다.
즉, 도 21에 도시한 수신부(194)는 도 22에 도시한 바와 같은 구성을 구비한다. 그리고, 도면에서 도 2의 경우와 대응하는 부분에 대해서는 동일한 부호를 붙이고 그 설명을 생략한다.
탭 생성부(101)에는 채널 디코더(21)가 출력하는 프레임 또는 서브 프레임마다의 L 코드, G 코드, I 코드 및 A 코드가 공급되도록 이루어져 있고, 탭 생성부(101)는 그 L 코드, G 코드, I 코드 및 A 코드로부터 클래스 탭으로 하는 것을 추출하여 클래스 분류부(104)로 공급한다. 여기서, 탭 생성부(101)가 생성하는 레코드 등으로 구성되는 클래스 탭을 이하, 적당히 제1 클래스 탭이라고 한다.
탭 생성부(102)에는 연산기(28)가 출력하는 프레임 또는 서브 프레임마다의 잔차 신호(e)가 공급되도록 이루어져 있고, 탭 생성부(102)는 그 잔차 신호로부터 클래스 탭으로 하는 것(샘플점)을 추출하여 클래스 분류부(104)로 공급한다. 또한, 탭 생성부(102)는 연산기(28)로부터의 잔차 신호에서 예측 탭으로 하는 것을 추출하여 예측부(106)로 공급한다. 여기서, 탭 생성부(102)가 생성하는 잔차 신호로 구성되는 클래스 탭을 이하, 적당히 제2 클래스 탭이라고 한다.
탭 생성부(103)에는 필터 계수 복호기(25)를 출력하는 프레임마다의 선형 예측 계수(αp)가 공급되도록 이루어져 있고, 탭 생성부(103)는 그 선형 예측 계수로 부터 클래스 탭으로 하는 것을 추출하여 클래스 분류기(104)로 공급한다. 그리고, 탭 생성부(103)는 필터 계수 복호기(25)로부터의 선형 예측 계수에서 예측 탭으로 하는 것을 추출하여 예측부(107)로 공급한다. 여기서, 탭 생성부(103)가 생성하는 선형 예측 계수로 구성되는 클래스 탭을 이하, 적당히 제3 클래스 탭이라고 한다.
클래스 분류부(104)는 탭 생성부(101∼103) 각각으로부터 공급되는 제1 내지 제3 클래스 탭을 모아서 최종적인 클래스 탭으로 하고, 그 최종적인 클래스 탭에 기초하여 클래스 분류를 실행하고, 그 클래스 분류 결과로서의 클래스 코드를 계수 메모리(105)로 공급한다.
계수 메모리(105)는, 후술하는 도 23의 학습 장치에 있어서 학습 처리가 실행됨으로써 얻어지는 클래스마다의 선형 예측 계수에 대한 탭 계수와 잔차 신호에 대한 탭 계수를 기억하고 있고, 클래스 분류부(104)가 출력하는 클래스 코드에 대응하는 어드레스에 기억되어 있는 탭 계수를 예측부(106, 107)로 공급한다. 그리고, 계수 메모리(105)로부터 예측부(106)에 대해서는 잔차 신호에 대한 탭 계수(We)가 공급되고, 계수 메모리(105)로부터 예측부(107)에 대해서는 선형 예측 계수에 대한 탭 계수(Wa)가 공급된다.
예측부(106)는 도 14의 예측부(146E)와 마찬가지로, 탭 생성부(102)가 출력하는 예측 탭과 계수 메모리(105)가 출력하는 잔차 신호에 대한 탭 계수를 취득하고, 이 예측 탭과 탭 계수를 사용하여 수학식 (6)에 나타낸 선형 예측 연산을 행한다. 이에 따라, 예측부(106)는 주목 프레임의 잔차 신호의 예측값(em)을 구하여 음성 합성 필터(29)로 입력 신호로서 공급한다.
예측부(107)는 도 14의 예측부(146A)와 마찬가지로, 탭 생성부(103)가 출력하는 예측 탭과 계수 메모리(105)가 출력하는 선형 예측 계수에 대한 탭 계수를 취득하고, 이 예측 탭과 탭 계수를 사용하여 수학식 (6)에 나타낸 선형 예측 연산을 행한다. 이에 따라, 예측부(107)는 주목 프레임의 선형 예측 계수의 예측값(mαp)을 구하여 음성 합성 필터(29)로 공급한다.
이상과 같이 구성되는 수신부(194)에서는, 기본적으로는 도 16에 나타낸 플로우차트에 따른 처리와 동일한 처리가 실행됨으로써, 고음질의 합성음이 음성의 복호 결과로서 출력된다.
즉, 채널 디코더(21)는 이곳으로 공급되는 코드 데이터에서 L 코드, G 코드, I 코드, A 코드를 분리하고, 각각을 적응 코드북 기억부(22), 게인 복호기(23), 여기 코드북 기억부(24), 필터 계수 복호기(25)로 공급한다. 그리고, L 코드, G 코드, I 코드 및 A 코드는 탭 생성부(101)에도 공급된다.
적응 코드북 기억부(22), 게인 복호기(23), 여기 코드북 기억부(24), 연산기(26∼28)에서는, 상술한 도 1의 적응 코드 기억부(9), 게인 복호기(10), 여기 코드북 기억부(11), 연산기(12∼14)에 있어서의 경우와 동일한 처리가 실행되고, 이에 따라 L 코드, G 코드 및 I 코드가 잔차 신호(e)로 복호된다. 이 복호 잔차 신호는 연산기(28)에서 탭 생성부(102)로 공급된다.
필터 계수 복호기(25)는 도 1에서 설명한 바와 같이, 이곳으로 공급되는 A 코드를 복호 선형 예측 계수로 복호하여 탭 생성부(103)로 공급한다.
탭 생성부(101)는 이곳으로 공급되는 L 코드, G 코드, I 코드 및 A 코드의 프레임을 차례로 주목 프레임으로 하고, 단계 S101(도 16 참조)에서 채널 디코더(21)로부터의 L 코드, G 코드, I 코드 및 A 코드로부터 제1 클래스 탭을 생성하여 클래스 분류부(104)로 공급한다. 단계 S101에서는 탭 생성부(102)가 연산기(28)로부터의 복호 잔차 신호에서 제2 클래스 탭을 생성하고, 클래스 분류부(104)로 공급함과 동시에 탭 생성부(103)가 필터 계수 복호기(25)로부터의 선형 예측 계수에서 제3 클래스 탭을 생성하여 클래스 분류부(104)로 공급한다. 또한, 단계 S101에서는 탭 생성부(102)가 연산기(28)로부터의 잔차 신호에서 예측 탭으로 하는 것을 추출하여 예측부(106)로 공급함과 동시에 탭 생성부(103)가 필터 계수 복호기(25)로부터의 선형 예측 계수에서 예측 탭을 생성하여 예측부(107)로 공급한다.
단계 S102로 진행하여, 클래스 분류부(104)는 탭 생성부(101∼103) 각각에서 공급되는 제1 내지 제3 클래스 탭을 모은 최종적인 클래스 탭에 기초하여 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 계수 메모리(105)로 공급하여 단계 S103으로 진행한다.
단계 S103에서는 계수 메모리(105)는 클래스 분류부(104)에서 공급되는 클래스 코드에 대응하는 어드레스로부터 잔차 신호와 신형 예측 계수 각각에 대한 탭 계수를 판독하여 잔차 신호에 대한 탭 계수를 예측부(106)로 공급함과 동시에 선형 예측 계수에 대한 탭 계수를 예측부(107)로 공급한다.
단계 S104로 진행하여, 예측부(106)는 계수 메모리(105)가 출력하는 잔차 신 호에 대한 탭 계수를 취득하고, 이 탭 계수와 탭 생성부(102)로부터의 예측 탭을 사용하여 수학식 6에 나타낸 곱의 합 연산을 행하여 주목 프레임의 진정한 잔차 신호의 예측값을 얻는다. 또한, 단계 S104에서 예측부(107)는 계수 메모리(105)가 출력하는 선형 예측 계수에 대한 탭 계수를 취득하고, 이 탭 계수와 탭 생성부(103)로부터의 예측 탭을 사용하여 수학식 6에 나타낸 곱의 합 연산을 하여 주목 프레임의 진정한 선형 예측 계수의 예측값을 얻는다.
이상과 같이 하여 얻어진 잔차 신호 및 선형 예측 계수는 음성 합성 필터(29)로 공급되고, 음성 합성 필터(29)에서는 그 잔차 신호 및 선형 예측 계수를 사용하여 수학식 4의 연산이 실행됨으로써 주목 프레임의 합성음 신호가 생성된다. 이 합성음 신호는 음성 합성 필터(29)에서 D/A 변환부(30)를 통해 스피커(31)로 공급되고, 이에 따라 스피커(31)에서는 그 합성음 신호에 대응하는 합성음이 출력된다.
예측부(106, 107)에 있어서, 잔차 신호와 선형 예측 계수가 각각 얻어진 후에는 단계 S105로 진행하여, 아직 주목 프레임으로서 처리해야 할 프레임의 L 코드, G 코드, I 코드 및 A 코드가 있는지의 여부가 판정된다. 단계 S105에서 아직 주목 프레임으로서 처리해야 할 프레임의 L 코드, G 코드, I 코드 및 A 코드가 있는 것으로 판정된 경우에는 단계 S101로 되돌아가고, 다음에 프레임으로 해야 할 프레임을 새로 주목 프레임으로 하여 이하 동일한 처리를 반복한다. 또한, 단계 S105에서 주목 프레임으로서 처리해야 할 프레임의 L 코드, G 코드, I 코드 및 A 코드가 없는 것으로 판정된 경우 처리를 종료한다.
이어서, 도 22에 도시한 계수 메모리(105)에 기억시키는 탭 계수의 학습 처리를 행하는 학습 장치의 일례를 도 23을 참조하여 설명한다. 그리고, 이하의 설명에서는 도 12에 나타낸 학습 장치와 공통되는 부분에는 공통되는 부호를 붙인다.
마이크로폰(201) 내지 코드 결정부(215)는 도 1의 마이크로폰(1) 내지 코드 결정부(15)와 각각 동일하게 구성된다. 그리고, 마이크로폰(201)에는 학습용 음성 신호가 입력되도록 이루어져 있고, 따라서 마이크로폰(201) 내지 코드 결정부(215)에서는 그 학습용 음성 신호에 대해 도 1에서의 경우와 동일한 처리가 실행된다.
예측 필터(111E)에는 A/D 변환부(202)가 출력하는, 디지털 신호로 된 학습용 음성 신호와 LPC 분석부(204)가 출력하는 선형 예측 계수가 공급된다. 또한, 탭 생성부(112A)에는 벡터 양자화부(205)가 출력하는 선형 예측 계수, 즉 벡터 양자화에 사용되는 코드북의 코드 벡터(센트로이드 벡터)를 구성하는 선형 예측 계수가 공급되고, 탭 생성부(112E)에는 연산기(214)가 출력하는 잔차 신호, 즉 음성 합성 필터(206)로 공급되는 것와 동일한 잔차 신호가 공급된다. 또한, 정규 방정식 가산 회로(114A)에는 LPC 분석부(204)가 출력하는 선형 예측 계수가 공급되고, 탭 생성부(117)에는 코드 결정부(215)가 출력하는 L 코드, G 코드, I 코드 및 A 코드가 공급된다.
예측 필터(111E)는 A/D 변환부(202)에서 공급되는 학습용 음성 신호의 프레임을 차례로 주목 프레임으로 하여 그 주목 프레임의 음성 신호와 LPC 분석부(204)에서 공급되는 선형 예측 계수를 사용하여 예컨대 수학식 (1)에 따라 연산함으로써 주목 프레임의 잔차 신호를 구한다. 이 잔차 신호는 교사 데이터로서 정규 방정식 가산 회로(114E)로 공급된다.
탭 생성부(112A)는 벡터 양자화부(205)에서 공급되는 선형 예측 계수로부터, 도 11의 탭 생성부(103)에서의 경우와 동일한 예측 탭과 제3 클래스 탭을 구성하여 제3 클래스 탭을 클래스 분류부(113A 및 113E)로 공급함과 동시에 예측 탭을 정규 방정식 가산 회로(114A)로 공급한다.
탭 생성부(112E)는 연산기(214)에서 공급되는 잔차 신호로부터, 도 22의 탭 생성부(102)에서의 경우와 동일한 예측 탭과 제2 클래스 탭을 구성하여 제2 클래스 탭을 클래스 분류부(113A, 113E)로 공급함과 동시에, 예측 탭을 정규 방정식 가산 회로(114A)로 공급한다.
클래스 분류부(113A, 113E)에는 탭 생성부(112A, 112E)로부터 각각 제3과 제2 클래스 탭이 공급되는 것 이외에, 탭 생성부(117)로부터 제1 클래스 탭도 공급된다. 그리고, 클래스 분류부(113A, 113E)는 도 22의 클래스 분류부(104)에서의 경우와 마찬가지로, 이곳으로 공급되는 제1 내지 제3 클래스 탭을 모아서 최종적인 클래스 탭으로 하고, 그 최종적인 클래스 탭에 기초하여 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 정규 방정식 가산 회로(114A, 114E)로 각각 공급한다.
정규 방정식 가산 회로(114A)는, LPC 분석부(204)로부터의 주목 프레임의 선형 예측 계수를 교사 데이터로서 수신함과 동시에 탭 생성부(112A)로부터의 예측 탭을 학생 데이터로서 수신하고, 이 교사 데이터 및 학생 데이터를 대상으로 하여 클래스 분류부(113A)로부터의 클래스 코드마다 도 17의 정규 방정식 가산 회로(166A)에서의 경우와 동일한 합산을 행함으로써 각 클래스에 대해 선형 예측 계수에 관한 수학식 13에 나타낸 정규 방정식을 세운다. 정규 방정식 가산 회로(114E)는, 예측 필터(111E)로부터의 주목 프레임의 잔차 신호를 교사 데이터로서 수신함과 동시에 탭 생성부(112E)로부터의 예측 탭을 학생 데이터로서 수신하고, 이 교사 데이터 및 학생 데이터를 대상으로 하여 클래스 분류부(113E)로부터의 클래스 코드마다 도 17의 정규 방정식 가산 회로(166E)에서의 경우와 동일한 합산을 행함으로써 각 클래스에 대해 잔차 신호에 관한 수학식 13에 나타낸 정규 방정식을 세운다.
탭 계수 결정 회로(115A, 115E)는 정규 방정식 가산 회로(114A, 114E)에 있어서 클래스마다 생성된 정규 방정식 각각을 풀이함으로써 클래스마다 선형 예측 계수와 잔차 신호에 대한 탭 계수를 각각 구하고, 계수 메모리 (116A, 116E)의 각 클래스에 대응하는 어드레스로 각각 공급한다.
그리고, 학습용 음성 신호로서 준비한 음성 신호에 따라서는 정규 방정식 가산 회로(114A, 114E)에 있어서 탭 계수를 구하는데 필요한 수의 정규 방정식이 얻을 수 없는 클래스가 발생하는 경우가 있을 수 있는데, 탭 계수 결정 회로(115A, 115E)는 이와 같은 클래스에 대해서는 예컨대 디폴트의 탭 계수를 출력한다.
계수 메모리(116A, 116E)는 탭 계수 결정 회로(115A, 115E)에서 각각 공급되는 클래스마다의 선형 예측 계수와 잔차 신호에 대한 탭 계수를 각각 기억한다.
탭 생성부(117)는 코드 결정부(215)에서 공급된 L 코드, G 코드, I 코드 및 A 코드로부터 도 22의 탭 생성부(101)에서의 경우와 동일한 제1 클래스 탭을 생성 하여 클래스 분류부(113A, 113E)로 공급한다.
이상과 같이 구성되는 학습 장치에서는, 기본적으로는 도 19에 나타낸 플로우차트에 따른 처리와 동일한 처리가 실행됨으로써 고음질의 합성음을 얻기 위한 탭 계수가 구해진다.
학습 장치에는 학습용 음성 신호가 공급되고, 단계 S111에서 그 학습용 음성 신호로부터 교사 데이터와 학생 데이터가 생성된다.
즉, 학습용 음성 신호는 마이크로폰(201)에 입력되고, 마이크로폰(201) 내지 코드 결정부(215)는 도 1의 마이크로폰(1) 내지 코드 결정부(15)에서의 경우와 각각 동일한 처리를 행한다.
그 결과, LPC 분석부(204)에서 얻어지는 선형 예측 계수는 교사 데이터로서 정규 방정식 가산 회로(114E)로 공급된다. 또한, 이 선형 예측 계수는 예측 필터(111E)에도 공급된다. 그리고, 연산기(214)에서 얻어지는 잔차 신호는 학생 데이터로서 탭 생성부(112E)로 공급된다.
A/D 변환부(202)가 출력하는 디지털 음성 신호는 예측 필터(111E)로 공급되고, 벡터 양자화부(205)가 출력하는 선형 예측 계수는 학생 데이터로서 탭 학생부(112A)로 공급된다. 그리고, 그 코드 결정부(215)가 출력하는 L 코드, G 코드, I 코드 및 A 코드는 탭 생성부(117)로 공급된다.
예측 필터(111E)는 A/D 변환부(202)에서 공급되는 학습용 음성 신호의 프레임을 차례로 주목 프레임으로 하여 그 주목 프레임의 음성 신호와 LPC 분석부(204)에서 공급되는 선형 예측 계수를 사용하여 수학식 1에 따라 연산함으로써 주목 프 레임의 잔차 신호를 구한다. 이 예측 필터(111E)에서 얻어지는 잔차 신호는 교사 데이터로서 정규 방정식 가산 회로(114E)로 공급된다.
이상과 같이 하여, 교사 데이터와 학생 데이터가 얻어진 후에는 단계 S112 로 진행하고, 탭 생성부(112A)가 벡터 양자화부(205)에서 공급되는 선형 예측 계수로부터 선형 예측 계수에 대한 예측 탭과 제3 클래스 탭을 생성함과 동시에, 탭 생성부(112E)가 연산기(214)에서 공급되는 잔차 신호로부터 잔차 신호에 대한 예측 탭과 제2 클래스 탭을 생성한다. 그리고, 단계 S112에서는 탭 생성부(117)가 코드 결정부(215)에서 공급되는 L 코드, G 코드, I 코드 및 A 코드에서 제1 클래스 탭을 생성한다.
선형 예측 계수에 대한 예측 탭은 정규 방정식 가산 회로(114A)로 공급되고, 잔차 신호에 대한 예측 탭은 정규 방정식 가산 회로(114E)로 공급된다. 또한, 제1 내지 제3 클래스 탭은 클래스 분류 회로(113A, 113E)로 공급된다.
그 후, 단계 S113 에 있어서, 클래스 분류부(113A, 113E)가 제1 내지 제3 클래스 탭에 기초하여 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 정규 방정식 가산 회로(114A, 114E)로 각각 공급한다.
단계 S114로 진행하여, 정규 방정식 가산 회로(114A)는, LPC 분석부(204)로부터의 교사 데이터로서의 주목 데이터의 선형 예측 계수를 및 탭 생성부(112A)로부터의 학생 데이터로서의 예측 탭을 대상으로 하여 수학식 13의 행렬 A와 벡터 v의, 상술한 바와 같은 합산을 클래스 분류부(113a)로부터의 클래스 코드마다 실행한다. 그리고, 단계 S114에서는 정규 방정식 가산 회로(114E)가 예측 필터(111E) 로부터의 교사 데이터로서의 주목 프레임의 잔차 신호 및 탭 생성부(112E)로부터의 학생 데이터로서의 예측 탭을 대상으로 하여 수학식 13의 행렬 A와 벡터 v의, 상술한 바와 같은 합산을 클래스 분류부(113E)로부터의 클래스 코드마다 실행하고 단계 S115로 진행한다.
단계 S115에서는, 아직 주목 프레임으로서 처리해야 할 프레임의 학습용 음성 신호가 있는지의 여부가 판정된다. 단계 S115에서, 아직 주목 프레임으로서 처리해야 할 프레임의 학습용 음성 신호가 있다고 판정된 경우에는 단계 S111로 되돌아가고, 다음 프레임을 새로이 주목 프레임으로 하여 다음과 같은 처리가 반복된다.
단계 S115에서, 주목 프레임으로서 처리해야 할 프레임의 학습용 음성 신호가 없다고 판정된 경우, 즉 정규 방정식 가산 회로(114A, 114E) 각각에 있어서 각 클래스에 대해 정규 방정식이 얻어진 경우에는 단계 S116으로 진행하고, 탭 계수 결정 회로(115A)는 각 클래스마다 생성된 정규 방정식을 풂으로써 각 클래스마다 선형 예측 계수에 대한 탭 계수를 구하고, 계수 메모리(116A)의 각 클래스에 대응하는 어드레스로 공급하여 기억시킨다. 그리고, 탭 계수 결정 회로(115E)도 각 클래스마다 생성된 정규 방정식을 풀이함으로써 각 클래스마다 잔차 신호에 대한 탭 계수를 구하고, 계수 메모리 (116E)의 각 클래스에 대응하는 어드레스로 공급하여 기억시켜 처리를 종료한다.
이상과 같이 하여, 계수 메모리(116A)에 기억된 각 클래스마다의 선형 예측 계수에 대한 탭 계수와 계수 메모리(116E)에 기억된 각 클래스마다의 잔차 신호에 대한 탭 계수가 도 22의 계수 메모리(105)에 기억되어 있다.
따라서, 도 22의 계수 메모리(105)에 기억된 탭 계수는, 선형 예측 연산을 행함으로써 얻어지는 진정한 선형 예측 계수나 잔차 신호의 예측값의 예측 오차(자승 오차)가 통계적으로 최소가 되도록 학습을 행함으로써 구해진 것이기 때문에, 도 22의 예측부(106, 107)가 출력하는 잔차 신호와 선형 예측 계수는 각각 진정한 잔차 신호와 선형 예측 계수와 거의 일치하게 되고, 그 결과 이들 잔차 신호와 선형 예측 계수에 의해 생성되는 합성음은 변형이 적은 고음질의 것이 된다.
상술한 일련의 처리는 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 행하는 경우에는 그 소프트웨어를 구성하는 프로그램이 범용 컴퓨터 등에 인스톨된다.
상술한 일련의 처리를 행하는 프로그램이 인스톨되는 컴퓨터는 상술한 도 13에 도시한 바와 같이 구성되고, 도 13에 도시한 컴퓨터와 동일한 동작이 실행되므로 그 상세한 설명은 생략한다.
이어서, 본 발명의 또 다른 실시 형태를 도면을 참조하여 상세히 설명한다.
이 음성 합성 장치에는 음성 합성 필터(244)에 부여하는 잔차 신호와 선형 예측 계수를 각각 벡터 양자화 등에 의해 코드화한 잔차 코드와 A 코드가 다중화된 코드 데이터가 공급되도록 이루어져 있고, 그 잔차 코드와 A 코드로부터 각각 잔차 신호와 선형 예측 계수를 복호하여 음성 합성 필터(244)에 부여함으로써 합성음이 생성되도록 이루어져 있다. 그리고, 이 음성 합성 장치에서는 음성 합성 필터(244)에서 생성된 합성음과 학습에 의해 구한 탭 계수를 사용한 예측 연산을 행함으로써, 그 합성음의 음질을 향상시킨 고음질의 음성(합성음)을 구하여 출력하도록 이루어져 있다.
즉, 도 24에 도시한 음성 합성 장치에서는 예컨대 클래스 분류 적응 처리를 이용하여 합성음이 진정한 고음질 음성의 예측값으로 복호된다.
클래스 분류 적응 처리는 클래스 분류 처리와 적응 처리로 이루어지고, 클래스 분류 처리에 의해 데이터를 그 성질에 기초해서 클래스 분류하여 각 클래스마다 적응 처리를 행하는 것으로서, 적응 처리는 전술한 것과 동일한 수법으로 행해지므로, 여기서는 상술한 설명을 참조하여 상세한 설명은 생략한다.
도 24에 도시한 음성 합성 장치에서는 이상과 같은 클래스 분류 적응 처리에 의해 복호 선형 예측 계수를 진정한 선형 예측 계수(의 예측값)로 복호하는 것 이외에, 복호 잔차 신호도 진정한 잔차 신호(의 예측값)로 복호하도록 되어 있다.
즉, 디멀티플렉서(241;DEMUX)에는 코드 데이터가 공급되도록 이루어져 있고, 디멀티플렉서(241)는 이곳으로 공급되는 코드 데이터에서 프레임마다의 A 코드와 잔차 코드를 분리한다. 그리고, 디멀티플렉서는 A 코드를 필터 계수 복호기(242) 및 탭 생성부(245, 246)로 공급하고, 잔차 코드를 잔차 코드북 기억부(243) 및 탭 생성부(245, 246)로 공급한다.
여기서, 도 24에서의 코드 데이터에 포함되는 A 코드와 잔차 코드는, 음성을 LPC 분석하여 얻어지는 선형 예측 계수와 잔차 신호를 소정의 코드북을 이용하여 각각 벡터 양자화함으로써 얻어지는 코드로 이루어져 있다.
필터 계수 복호기(242)는 디멀티플렉서(241)에서 공급되는 프레임마다의 A 코드를, 이 A 코드를 얻을 때에 사용된 것과 동일한 코드북에 기초해서 선형 예측 계수로 복호하여 음성 합성 필터(244)로 공급한다.
잔차 코드북 기억부(243)는 디멀티플렉서(241)에서 공급되는 프레임마다의 잔차 코드를, 이 잔차 코드를 얻을 때에 사용된 것과 동일한 코드북에 기초해서 잔차 신호로 복호하여 음성 합성 필터(244)로 공급한다.
음성 합성 필터(244)는, 예컨대 상술한 도 2의 음성 합성 필터(29)와 마찬가지로 IIR형 디지털 필터로서, 필터 계수 복호기(242)로부터의 선형 예측 계수를 IIR 필터의 탭 계수로 함과 동시에 잔차 코드북 기억부(243)로부터의 잔차 신호를 입력 신호로 하여 그 입력 신호의 필터링을 행함으로써, 합성음을 생성하여 탭 생성부(245, 246)로 공급한다.
탭 생성부(245)는 음성 합성 필터(244)에서 공급되는 합성음의 샘플값 및 디멀티플렉서(241)에서 공급되는 잔차 코드 및 A 코드로부터, 후술하는 예측부(249)에 있어서의 예측 연산에 사용되는 예측 탭이 되는 것을 추출한다. 즉, 탭 생성부(245)는 예컨대 고음질 음성의 예측값을 구하고자 하는 프레임인 주목 프레임의 합성음의 샘플값, 잔차 코드 및 A 코드 모두를 예측 탭으로 한다. 그리고, 탭 생성부(245)는 예측 탭을 예측부(249)로 공급한다.
탭 생성부(246)는, 음성 합성 필터(244)에서 공급되는 합성음의 샘플값 및 디멀티플렉서(241)에서 공급되는 프레임 또는 서브 프레임마다의 A 코드 및 잔차 코드로부터 클래스 탭이 되는 것을 추출한다. 즉, 탭 생성부(246)는, 예컨대 탭 생성부(246)와 마찬가지로 주목 프레임의 합성음의 샘플값 및 A 코드 및 잔차 코드 모두를 클래스 탭으로 한다. 그리고, 탭 생성부(246)는 클래스 탭을 클래스 분류부(247)로 공급한다.
여기서, 예측 탭이나 클래스 탭의 구성 패턴은 상술한 패턴의 것으로 한정되는 것은 아니다. 또한, 상술한 바와 같은 경우에는 동일한 클래스 탭 및 예측 탭을 구성하도록 하였으나, 클래스 탭과 예측 탭은 상이한 구성으로 할 수 있다.
또한, 탭 생성부(245, 246)에서는 도 24에 점선으로 나타내는 바와 같이, 필터 계수 복호기(242)가 출력하는 A 코드에서 얻어지는 선형 예측 계수나, 잔차 코드북 기억부(243)가 출력하는 잔차 코드에서 얻어지는 잔차 신호 등으로부터도 클래스 탭이나 예측 탭을 추출하도록 할 수 있다.
클래스 분류부(247)는 탭 생성부(246)로부터의 클래스 탭에 기초하여 주목하고 있는 주목 프레임의 음성의 샘플값에 대해 클래스 분류를 실행하고, 그 결과 얻어지는 클래스에 대응하는 클래스 코드를 계수 메모리(248)로 출력한다.
여기서, 클래스 분류부(247)에는 예컨대 클래스 탭으로서의 주목 프레임의 합성음의 샘플값 및 A 코드 및 잔차 코드를 구성하는 비트의 계열 자체를 클래스 코드로서 출력시킬 수 있다.
계수 메모리(248)는, 후술하는 도 27의 학습 장치에 있어서 학습 처리가 실행됨으로써 얻어지는 클래스마다의 탭 계수를 기억하고 있고, 클래스 분류부(247)가 출력하는 클래스 코드에 대응하는 어드레스에 기억되어 있는 탭 계수를 예측부(249)로 출력한다.
여기서, 각 프레임에 대해 N샘플의 고음질의 음성을 구할 수 있다고 하면, 주목 프레임에 대해 N샘플의 음성을 수학식 6의 예측 연산에 의해 구하기 위해서는 N세트의 탭 계수가 필요하다. 따라서, 이 경우 계수 메모리(248)에는 하나의 클래스 코드에 대응하는 어드레스에 대해 N세트의 탭 계수가 기억되어 있다.
예측부(249)는 탭 생성부(245)가 출력하는 예측 탭과 계수 메모리(248)가 출력하는 탭 계수를 취득하고, 이 예측 탭과 탭 계수를 사용하여 상술한 수학식 6에 나타낸 선형 예측 연산(곱의 합 연산)을 실행하여 주목 프레임의 고음질 음성의 예측값을 구하여 D/A 변환부(250)로 출력한다.
여기서, 계수 메모리(248)는 상술한 바와 같이 주목 프레임의 음성의 N샘플 각각을 구하기 위한 N세트의 탭 계수를 출력하는데, 예측부(249)는 각 샘플값에 대해 예측 탭과, 그 샘플값에 대응하는 탭 계수의 세트를 사용하여 수학식 6의 곱의 합 연산을 행한다.
D/A 변환부(250)는 예측부(249)로부터의 음성의 예측값을 디지털 신호에서 아날로그 신호로 D/A 변환하고, 스피커(51)에 공급하여 출력시킨다.
이어서, 도 24에 도시한 음성 합성 필터(244)의 구체적인 구성을 도 25에 도시한다. 도 25에 도시한 음성 합성 필터(244)는 P차의 선형 예측 계수를 이용하는 것으로 되어 있고, 따라서 1개의 가산기(261), P개의 지연 회로(D;2621∼262P) 및 P개의 승산기(2631∼263P)로 구성되어 있다.
승산기(2631∼263P)에는 각각 필터 계수 복호기(242)에서 공급되는 P차의 선형 예측 계수(α12,…,αP)가 세팅되고, 이에 따라 음성 합성 필터(244)에서는 식 4에 따라 연산이 실행되어 합성음이 생성된다.
즉, 잔차 코드북 기억부(243)가 출력하는 잔차 신호(e)는 가산기(261)를 통해 지연 회로(2621)로 공급되고, 지연 회로(262P)는 이곳으로의 입력 신호를 잔차 신호의 1샘플분만큼 지연시켜 후단의 지연 회로(262P+1)로 출력함과 동시에 승산기(263P)로 출력한다. 승산기(263P)는 지연 회로(262P)의 출력과 이곳에 세팅된 선형 예측 계수 αP를 승산하여 그 승산값을 가산기(261)로 출력한다.
가산기(261)는 승산기(2631∼263P)의 출력 모두와 잔차 신호(e)를 가산하고, 그 가산 결과를 지연 회로(2621)로 공급하는 것 외에 음성 합성 결과(합성음)로서 출력한다.
이어서, 도 26의 플로우차트를 참조하여 도 24의 음성 합성 장치의 음성 합성 처리에 대해 설명한다.
디멀티플렉서(241)는 이곳으로 공급되는 코드 데이터에서 프레임마다의 A 코드와 잔차 코드를 차례로 분리하고, 각각을 필터 계수 복호기(242)와 잔차 코드북 기억부(243)로 공급한다. 그리고, 디멀티플렉서(241)는 A 코드 및 잔차 코드를 탭 생성부(245, 246)에도 공급한다.
필터 계수 복호기(242)는 디멀티플렉서(241)에서 공급되는 프레임마다의 A 코드를 선형 예측 계수로 차례로 복호하여 음성 합성 필터(244)로 공급한다. 또한, 전차 코드북 기억부(243)는 디멀티플렉서(241)에서 공급되는 프레임마다의 잔 차 코드를 잔차 신호로 차례로 복호하여 음성 합성 필터(244)로 공급한다.
음성 합성 필터(244)에서는 이곳으로 공급되는 잔차 신호 및 선형 예측 계수를 사용하여 수학식 4의 연산이 실행됨으로써 주목 프레임의 합성음이 생성된다. 이 합성음은 탭 생성부(245, 246)로 공급된다.
탭 생성부(245)는 이곳으로 공급되는 합성음의 프레임을 차례로 주목 프레임으로 하고, 단계 S201에서, 음성 합성 필터(244)에서 공급되는 합성음의 샘플값 및 디멀티플렉서(241)에서 공급되는 A 코드 및 잔차 코드로부터 예측 탭을 생성하여 예측부(249)로 출력한다. 그리고, 단계 S201에서는, 탭 생성부(246)가 음성 합성 필터(244)에서 공급되는 합성음 및 디멀티플렉서(241)에서 공급되는 A 코드 및 잔차 코드로부터 클래스 탭을 생성하여 클래스 분류부(247)로 출력한다.
그리고, 단계 S202로 진행하여, 클래스 분류부(247)는 탭 생성부(246)에서 공급되는 클래스 탭에 기초하여 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 계수 메모리(248)로 공급하여 단계 S203으로 진행한다.
단계 S203에서 계수 메모리(248)는 클래스 분류부(247)에서 공급되는 클래스 코드에 대응하는 어드레스로부터 탭 계수를 판독하여 예측부(249)로 공급한다.
그리고, 단계 S204로 진행하여, 예측부(249)는 계수 메모리(248)가 출력하는 탭 계수를 취득하고, 이 탭 계수와 탭 생성부(245)로부터의 예측 탭을 사용하여 수학식 6에 나타낸 곱의 합 연산을 행하여 주목 프레임의 고음질 음성의 예측값을 얻는다. 이 고음질의 음성은 예측부(249)에서 D/A 변환부(250)를 통해 스피커(251)로 공급되어 출력된다.
예측부(249)에 있어서 주목 프레임의 고음질 음성이 얻어진 후에는 단계 S205로 진행하여, 아직 주목 프레임으로서 처리해야 할 프레임이 있는지의 여부가 판정된다. 단계 S205에서 아직 주목 프레임으로서 처리해야 할 프레임이 있다고 판정된 경우에는 단계 S201로 되돌아가고, 다음에 주목 프레임으로 해야 할 프레임을 새로이 주목 프레임으로 하여 이하 동일한 처리를 반복한다. 또한 단계 S205에서 주목 프레임으로서 처리해야 할 프레임이 없다고 판정된 경우에는 음성 합성 처리를 종료한다.
이어서, 도 27은 도 24에 도시한 계수 메모리(248)에 기억시키는 탭 계수의 학습 처리를 행하는 학습 장치의 일례를 도시한 블록도이다.
도 27에 도시한 학습 장치에는 학습용 고음질의 디지털 음성 신호가 소정 프레임 단위로 공급되도록 이루어져 있고, 이 학습용 디지털 음성 신호는 LPC 분석부(271) 및 예측 필터(274)로 공급된다. 또한, 학습용 디지털 음성 신호는 교사 데이터로서 정규 방정식 가산 회로(281)에도 공급된다.
LPC 분석부(271)는 이곳으로 공급되는 음성 신호의 프레임을 차례로 주목 프레임으로 하고, 이 주목 프레임의 음성 신호를 LPC 분석함으로써 P차의 선형 예측 계수를 구하여 벡터 양자화부(272) 및 예측 필터(274)로 공급한다.
벡터 양자화부(272)는 선형 예측 계수를 요소로 하는 코드 벡터와 코드를 대응시킨 코드북을 기억하고 있고, 이 코드북에 기초하여 LPC 분석부(271)로부터의 주목 프레임의 선형 예측 계수로 구성되는 특징 벡터를 벡터 양자화하며, 이 벡터 양자화의 결과 얻어지는 A 코드를 필터 계수 복호기(273) 및 탭 생성부(278, 279) 로 공급한다.
필터 계수 복호기(273)는 벡터 양자화부(272)가 기억하고 있는 것과 동일한 코드북을 기억하고 있고, 이 코드북에 기초해서 벡터 양자화부(272)로부터의 A 코드를 선형 예측 계수로 복호하여 음성 합성 필터(277)로 공급한다. 여기서, 도 24의 필터 계수 복호기(242)와, 도 27의 필터 계수 복호기(273)는 동일한 구성으로 되어 있다.
예측 필터(274)는 이곳으로 공급되는 주목 프레임의 음성 신호와 LPC 분석부로(271)부터의 선형 예측 계수를 사용하여, 예컨대 상술한 수학식 1에 따라 연산함으로써, 주목 프레임의 잔차 신호를 구하여 벡터 양자화부(275)로 공급한다.
즉, 수학식 1에 있어서의 sn과 en의 Z변환을 S와 E로 각각 나타내면, 수학식 1은 다음 수학식 16과 같이 나타낼 수 있다.
Figure 112002010575060-pct00025
수학식 14로부터 잔차 신호(e)를 구하는 예측 필터(274)는 FIR(Finite Impulse Response)형 디지털 필터로 구성할 수 있다.
즉, 도 28은 예측 필터(274)의 구성예를 도시한다.
예측 필터(274)에는 LPC 분석부(271)에서 P차의 선형 예측 계수가 공급되도록 이루어져 있으며, 따라서 예측 필터(274)는 P개의 지연 회로(D;2911∼291P), P개의 승산기(2921∼292P) 및 1개의 가산기(293)로 구성되어 있다.
승산기(2921∼292P)에는 각각 LPC 분석부(271)에서 공급되는 P차의 선형 예측 계수(α12,…αP)가 세팅된다.
한편, 주목 프레임의 음성 신호(s)는 지연 회로(2911)와 가산기(293)로 공급된다. 지연 회로(291P)는 이곳으로부터의 입력 신호를 잔차 신호의 1샘플분만큼 지연시켜 후단의 지연 회로(291P+1)로 출력함과 동시에 승산기(292P)로 출력한다. 승산기(292P)는 지연 회로(291P)의 출력과 이곳에 세팅된 선형 예측 계수(αP)를 승산하고, 그 승산값을 가산기(293)로 출력한다.
가산기(293)는 승산기(2921∼292P)의 출력 모두와 음성 신호(s)를 가산하고, 그 가산 결과를 잔차 신호(e)로서 출력한다.
도 27로 되돌아가서, 벡터 양자화부(275)는 잔차 신호의 샘플값을 요소로 하는 코드 벡터와 코드를 대응시킨 코드북을 기억하고 있고, 이 코드북에 기초하여 예측 필터(274)로부터의 주목 프레임의 잔차 신호의 샘플값으로 구성되는 잔차 벡터를 벡터 양자화하고, 이 벡터 양자화의 결과 얻어지는 잔차 코드를 잔차 코드북 기억부(276) 및 탭 생성부(278, 279)로 공급한다.
잔차 코드북 기억부(276)는 벡터 양자화부(275)가 기억하고 있는 것과 동일한 코드북을 기억하고 있고, 이 코드북에 기초하여 벡터 양자화부(275)로부터의 잔차 코드를 잔차 신호로 복호하여 음성 합성 필터(277)로 공급한다. 여기서, 도 24의 잔차 코드북 기억부(243)와, 도 27의 잔차 코드북 기억부(276)의 기억 내용은 동일하게 되어 있다.
음성 합성 필터(277)는 도 24의 음성 합성 필터(244)와 동일하게 구성되는 IIR 필터로서, 필터 계수 복호기(273)로부터의 선형 예측 계수를 IIR 필터의 탭 계수로 함과 동시에 잔차 코드북 기억부(276)로부터의 잔차 신호를 입력 신호로 하여 그 입력 신호의 필터링을 행함으로써 합성음을 생성해서 탭 생성부(278, 279)로 공급한다.
탭 생성부(278)는 도 24의 탭 생성부(245)에서의 경우와 마찬가지로, 음성 합성 필터(277)에서 공급되는 합성음, 벡터 양자부(272)에서 공급되는 A 코드 및 벡터 양자화부(275)에서 공급되는 잔차 코드로 예측 탭을 구성하여 정규 방정식 가산 회로(281)로 공급한다. 탭 생성부(279)는 도 24의 탭 생성부(246)에서의 경우와 마찬가지로, 음성 신호 필터(277)에서 공급되는 합성음, 벡터 양자화부(272)에서 공급되는 A 코드 및 벡터 양자화부(275)에서 공급되는 잔차 코드로 클래스 탭을 구성하여 클래스 분류부(280)로 공급한다.
클래스 분류부(280)는 도 24의 클래스 분류부(247)에서의 경우와 마찬가지로, 이곳으로 공급되는 클래스 탭에 기초하여 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 정규 방정식 가산 회로(281)로 공급한다.
정규 방정식 가산 회로(281)는 교사 데이터로서의 주목 프레임의 고음질 음성인 학습용 음성과, 탭 생성부(78)로부터의 학생 데이터로서의 예측 탭을 대상으로 한 합산을 행한다.
즉, 정규 방정식 가산 회로(281)는 클래스 분류부(280)에서 공급되는 클래스 코드에 대응하는 클래스마다 예측 탭(학생 데이터)을 사용하고, 상술한 수학식 13의 행렬 A에 있어서의 각 콤포넌트로 이루어져 있는 학생 데이터끼리의 승산(xinxim)과 서메이션(Σ)에 상당하는 연산을 행한다.
또한, 정규 방정식 가산 회로(281)는 역시 클래스 분류부(280)에서 공급되는 클래스 코드에 대응하는 클래스마다 학생 데이터 및 교사 데이터를 사용하고, 수학식 13의 벡터(v)에 있어서의 각 콤포넌트로 이루어져 있는 학생 데이터와 교사 데이터의 승산(xinyi)과 서메이션(Σ)에 상당하는 연산을 행한다.
정규 방정식 가산 회로(281)는 이상의 합산을 이곳으로 공급되는 학습용 음성의 프레임 모두를 주목 프레임으로 하여 실행하고, 이에 따라 각 클래스에 대해 수학식 13에 나타낸 정규 방정식을 세운다.
탭 계수 결정 회로(281)는 정규 방정식 가산 회로(281)에 있어서 클래스마다 생성된 정규 방정식을 풂으로써 클래스마다 탭 계수를 구하여 계수 메모리(283)의 각 클래스에 대응하는 어드레스로 공급한다.
그리고, 학습용 음성 신호로서 준비한 음성 신호에 따라서는 정규 방정식 가산 회로(281)에 있어서 탭 계수를 구하는데 필요한 수의 정규 방정식을 얻을 수 없는 클래스가 발생하는 경우가 있을 수 있는데, 탭 계수 결정 회로(281)는 이와 같은 클래스에 대해서는 예컨대 디폴트의 탭 계수를 출력한다.
계수 메모리(283)는 탭 계수 결정 회로(281)에서 공급되는 클래스마다의 탭 계수를 그 클래스에 대응하는 어드레스에 기억한다.
다음에, 도 29의 플로우차트를 참조하여 도 27의 학습 장치의 학습 처리에 대해 설명한다.
학습 장치에는 학습용 음성 신호가 공급되고, 이 학습용 음성 신호는 LPC 분석부(271) 및 예측 필터(274)로 공급됨과 동시에 교사 데이터로서 정규 방정식 가산 회로(281)로 공급된다. 그리고, 단계 S211에서 학습용 음성 신호로부터 학생 데이터가 생성된다.
즉, LPC 분석부(271)는 학습용 음성 신호의 프레임을 차례로 주목 프레임으로 하고, 이 주목 프레임의 음성 신호를 LPC 분석함으로써 P차의 선형 예측 계수를 구하여 벡터 양자화부(272)로 공급한다. 벡터 양자화부(272)는 LPC 분석부(271)로부터의 주목 프레임의 선형 예측 계수로 구성되는 특징 벡터를 벡터 양자화하고, 그 벡터 양자화의 결과 얻어지는 A 코드를 학생 데이터로 하여 필터 계수 복호기(273) 및 탭 생성부(278, 279)로 공급한다. 필터 계수 복호기(273)는 벡터 양자화부(272)로부터의 A 코드를 선형 예측 계수로 복호하고, 그 선형 예측 계수를 음성 합성 필터(277)로 공급한다.
한편, LPC 분석부(271)로부터 주목 프레임의 선형 예측 계수를 수신한 예측 필터(274)는, 그 선형 예측 계수와 주목 프레임의 학습용 음성 신호를 이용하여 상술한 수학식 1에 따라 연산함으로써, 주목 프레임의 잔차 신호를 구하여 벡터 양자화부(275)로 공급한다. 벡터 양자화부(275)는 예측 필터(274)로부터의 주목 프레임의 잔차 신호의 샘플값으로 구성되는 잔차 벡터를 벡터 양자화하고, 그 벡터 양자화의 결과 얻어지는 잔차 코드를 학생 데이터로 하여 잔차 코드북 기억부(276) 및 탭 생성부(278,279)로 공급한다. 잔차 코드북 기억부(276)는 벡터 양자화부(275)로부터의 잔차 코드를 잔차 신호로 복호하여 음성 합성 필터(277)로 공급한다.
이상과 같이 하여, 음성 합성 필터(277)는 선형 예측 계수와 잔차 신호를 수신하면 그 선형 예측 계수와 잔차 신호를 사용하여 음성 합성을 실행하고, 그 결과 얻어지는 합성음을 학생 데이터로 하여 탭 생성부(278, 279)로 출력한다.
그리고, 단계 S212로 진행하여 탭 생성부(278)가 음성 합성 필터(277)에서 공급되는 합성음, 벡터 양자화부(272)에서 공급되는 A 코드 및 벡터 양자화부(275)에서 공급되는 잔차 코드로부터 예측 탭과 클래스 탭을 각각 생성한다. 예측 탭은 정규 방정식 가산 회로(281)로 공급되고, 클래스 탭은 클래스 분류부(280)로 공급된다.
그 후, 단계 S213에서 클래스 분류부(280)가 탭 생성부(279)로부터의 클래스 탭에 기초하여 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 정규 방정식 가산 회로(281)로 공급한다.
단계 S214로 진행하여, 정규 방정식 가산 회로(281)는 클래스 분류부(280)에서 공급되는 클래스에 대해, 이곳으로 공급되는 교사 데이터로서의 주목 프레임의 고음질 음성의 샘플값 및 탭 생성부(278)로부터의 학생 데이터로서의 예측 탭을 대상으로 한, 수학식 13의 행렬 A와 벡터 v의, 상기 기술한 바와 같은 합산을 행하고 단계 S215로 진행한다.
단계 S215에서는, 아직 주목 프레임으로서 처리해야 할 프레임의 학습용 음 성 신호가 있는지의 여부가 판정된다. 단계 S215에서 아직 주목 프레임으로서 처리해야 할 프레임의 학습용 음성 신호가 있다고 판정된 경우에는 단계 S211로 되돌아가고, 다음 프레임을 새로 주목 프레임으로 하여 이하 동일한 처리가 반복된다.
또한, 단계 S215에서 주목 프레임으로서 처리해야 할 프레임의 학습용 음성 신호가 없다고 판정된 경우, 즉 정규 방정식 가산 회로(281)에 있어서 각 클래스에 대해 정규 방정식이 얻어진 경우에는 단계 S216으로 진행하고, 탭 계수 결정 회로(281)는 각 클래스마다 생성된 정규 방정식을 풂으로써 각 클래스마다 탭 계수를 구하고, 계수 메모리(283)의 각 클래스에 대응하는 어드레스로 공급하여 기억시키고 처리를 종료한다.
이상과 같이 하여, 계수 메모리(283)에 기억된 각 클래스마다의 탭 계수가 도 24의 계수 메모리(248)에 기억되어 있다.
따라서, 도 3의 계수 메모리(248)에 기억된 탭 계수는, 선형 예측 연산을 행함으로써 얻어지는 고음질 음성의 예측값의 예측 오차(여기에서는 자승 오차)가 통계적으로 최소가 되도록 학습을 행함으로써 구해진 것이기 때문에, 도 24의 예측부(249)가 출력하는 음성은 음성 합성 필터(244)에서 생성된 합성음의 변형이 저감(해소)된 고음질의 것이 된다.
그리고, 도 24의 음성 합성 장치에 있어서 상술한 바와 같이 예컨대 탭 생성부(246)에 선형 예측 계수나 잔차 신호 등으로부터도 클래스 탭을 추출시키도록 하는 경우에는, 도 27의 탭 생성부(278)에도 도면 중 점선으로 나타낸 바와 같이 필터 계수 복호기(273)가 출력하는 선형 예측 계수나 잔차 코드북 기억부(276)가 출 력하는 잔차 신호 중에서 동일한 클래스 탭을 추출시키도록 할 필요가 있다. 도 24의 탭 생성부(245)와 도 27의 탭 생성부(278)에서 생성되는 예측 탭에 대해서도 동일하다.
상술한 바와 같은 경우에는, 설명을 간단히 하기 위해 클래스 탭을 구성하는 비트의 계열을 그대로 클래스 코드로 하는 클래스 분류를 실행하도록 하였으나, 이 경우 클래스 수가 방대해지는 경우가 있다. 그래서, 클래스 분류에서는 예컨대 클래스 탭을 벡터 양자화 등에 의해 압축하고, 그 압축 결과 얻어지는 비트의 계열을 클래스 코드로 하도록 할 수 있다.
이어서, 본 발명을 적용한 전송 시스템의 일례를 도 30을 참조하여 설명한다. 여기서, 시스템이란 복수의 장치가 논리적으로 집합된 것을 말하며, 각 구성의 장치가 동일한 케이스체내에 있는지의 여부와는 관계없다.
이 전송 시스템에서는 휴대 전화기(4011, 4012)가 기지국(4021, 4022 ) 각각과의 사이에서 무선에 의한 송수신을 행함과 동시에 기지국(4021, 4022) 각각이 교환국(403)과의 사이에서 송수신을 행함으로써, 최종적으로는 휴대 전화기(4011∼4012) 사이에서 기지국(4021, 4022) 및 교환국(403)을 통해 음성의 송수신을 행할 수 있도록 되어 있다. 그리고, 기지국(4021, 4022)은 동일한 기지국이어도 되고 다른 기지국이어도 된다.
여기서, 이하 특히 구별할 필요가 없는 한, 휴대 전화기(4011, 4012)를 휴대 전화기(401)라 기술한다.
도 30에 도시한 휴대 전화기(401)의 구체적인 구성을 도 31에 도시한다.
안테나(411)는 기지국(4021, 4022)으로부터의 전파를 수신하고, 그 수신 신호를 변복조부(412)로 공급함과 동시에 변복조부(412)로부터의 신호를 전파에 의해 기지국(4021, 4022)으로 송신한다. 변복조부(412)는 안테나(411)로부터의 신호를 복조하고, 그 결과 얻어지는 도 1에서 설명한 바와 같은 코드 데이터를 수신부(414)로 공급한다. 또한, 변복조부(412)는 송신부(413)에서 공급되는 도 1에서 설명한 바와 같은 코드 데이터를 변조하고, 그 결과 얻어지는 변조 신호를 안테나(411)로 공급한다. 송신부(413)는 도 1에 나타낸 송신부와 동일하게 구성되고, 이곳에 입력되는 유저의 음성을 코드 데이터로 부호화하여 변복조부(412)로 공급한다. 수신부(414)는 변복조부(412)로부터의 코드 데이터를 수신하고, 이 코드 데이터로부터 도 24의 음성 합성 장치에서의 경우와 동일한 고음질의 음성을 복호하여 출력한다.
즉, 도 31에 도시한 휴대전화기(401)의 수신부(114)의 구체적인 구성예를 도 32에 도시한다. 그리고, 도면에서 상술한 도 2의 경우와 대응하는 부분에 대해서는 동일한 부호를 붙이고 그 설명을 생략한다.
탭 생성부(221, 222)에는 음성 합성 필터(29)가 출력하는 프레임마다의 합성음과, 채널 디코더(21)가 출력하는 프레임 또는 서브 프레임마다의 L 코드, G 코드 및 A 코드가 공급되도록 이루어져 있다. 탭 생성부(221, 222)는 이곳으로 공급되 는 합성음, L 코드, G 코드, I 코드 및 A 코드로부터 예측 탭으로 하는 것과 클래스 탭으로 하는 것을 각각 추출한다. 예측 탭은 예측부(225)로 공급되고, 클래스 탭은 클래스 분류부(223)로 공급된다.
클래스 분류부(223)는 탭 생성부(122)에서 공급되는 클래스 탭에 기초하여 클래스 분류를 실행하고, 이 클래스 분류 결과로서의 클래스 코드를 계수 메모리(224)로 공급한다.
계수 메모리(224)는 후술하는 도 33의 학습 장치에 있어서 학습 처리가 실행됨으로써 얻어지는 클래스마다의 탭 계수를 기억하고 있고, 클래스 분류부(223)가 출력하는 클래스 코드에 대응하는 어드레스에 기억되어 있는 탭 계수를 예측부(225)로 공급한다.
예측부(225)는 도 24의 예측부(249)와 마찬가지로, 탭 생성부(221)가 출력하는 예측 탭과 계수 메모리(224)가 출력하는 탭 계수를 취득하고, 이 예측 탭과 탭 계수를 사용하여 상술한 수학식 6에 나타낸 선형 예측 연산을 행한다. 이에 따라, 예측부(225)는 주목 프레임의 고음질 음성의 예측값을 구하여 D/A 변환부(30)로 공급한다.
이상과 같이 구성되는 수신부(414)에서는 기본적으로는 도 26에 나타낸 플로우차트에 따른 처리와 동일한 처리가 실행됨으로써, 고음질의 합성음이 음성의 복호 결과로서 출력된다.
즉, 채널 디코더(21)는 이곳으로 공급되는 코드 데이터에서 L 코드, G 코드, I 코드, A 코드를 분리하고, 각각을 적응 코드북 기억부(22), 게인 복호기(23), 여 지 코드북 기억부(24), 필터 계수 복호기(25)로 공급한다. 그리고, L 코드, G 코드, I 코드 및 A 코드는 탭 생성부(221, 222)에도 공급된다.
적응 코드북 기억부(22), 게인 복호기(23), 여기 코드북 기억부(24), 연산기(26∼28)에서는 도 1의 적응 코드북 기억부(9), 게인 복호기(10), 여기 코드북 기억부(11), 연산기(12∼14)에서의 경우와 동일한 처리가 실행되고, 이에 따라 L 코드, G 코드 및 I 코드가 잔차 신호(e)로 복호된다. 이 잔차 신호는 음성 신호 필터(29)로 공급된다.
또한, 필터 계수 복호기(25)는 도 1에서 설명한 바와 같이, 이곳으로 공급되는 A 코드를 선형 예측 계수로 복호하여 음성 합성 필터(29)로 공급한다. 음성 합성 필터(29)는 연산기(28)로부터의 잔차 신호와 필터 계수 복호기(25)로부터의 선형 예측 계수를 사용하여 음성 합성을 실행하고, 그 결과 얻어지는 합성음을 탭 생성부(221, 222)로 공급한다.
탭 생성부(221)는 음성 합성 필터(29)가 출력하는 합성음의 프레임을 주목 프레임을 하고, 단계 S201에서 그 주목 프레임의 합성음과 L 코드, G 코드, I 코드 및 A 코드로부터 예측 탭을 생성하여 예측부(225)로 공급한다. 또한, 단계 S201에서는 탭 생성부(222)는 역시 주목 프레임의 합성음과 L 코드, G 코드, I 코드 및 A 코드로부터 클래스 탭을 생성하여 클래스 분류부(223)로 공급한다.
그리고, 단계 S202로 진행하여 클래스 분류부(223)는 탭 생성부(222)에서 공급되는 클래스 탭에 기초하여 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 계수 메모리(224)로 공급하여 단계 S203으로 진행한다.
단계 S203에서는, 계수 메모리(224)는 클래스 분류부(223)에서 공급되는 클래스 코드에 대응하는 어드레스로부터 탭 계수를 판독하여 예측부(225)로 공급한다.
단계 S204로 진행하여, 예측부(225)는 계수 메모리(224)가 출력하는 탭 계수를 취득하고, 이 탭 계수와 탭 생성부(221)로부터의 예측 탭을 사용하여 수학식 (6)에 나타낸 곱의 합 연산을 행하여 주목 프레임의 고음질 음성의 예측값을 얻는다.
이상과 같이 하여 얻어진 고음질의 음성은 예측부(225)에서 D/A 변환부(30)를 통해 스피커(31)로 공급되고, 이에 따라 스피커(31)에서는 고음질의 음성이 출력된다.
단계 S204의 처리후에는 단계 S205로 진행하여, 아직 주목 프레임으로서 처리해야 할 프레임이 있는지의 여부가 판정되고, 있다고 판정된 경우에는 단계 S201로 되돌아가고, 다음에 주목 프레임으로 할 프레임을 새로 주목 프레임으로 하여 이하 동일한 처리를 반복한다. 또한, 단계 S205에서 주목 프레임으로 처리해야 할 프레임이 없다고 판정된 경우, 처리를 종료한다.
이어서, 도 32의 계수 메모리(224)에 기억시키는 탭 계수의 학습 처리를 행하는 학습 장치의 일례를 도 33을 참조하여 설명한다.
마이크로폰(501) 내지 코드 결정부(515)는 도 1의 마이크로폰(1) 내지 코드 결정부(515)와 각각 동일하게 구성된다. 마이크로폰(501)에는 학습용 음성 신호가 입력되도록 이루어져 있고, 따라서 마이크로폰(501) 내지 코드 결정부(515)에서는 그 학습용 음성 신호에 대해 도 1의 경우와 동일한 처리가 실행된다.
그리고, 탭 생성부(431, 432)에는 자승 오차 최소 판정부(508)에 있어서 자승 오차가 최소로 되었다고 판정되었을 때의 음성 합성 필터(506)가 출력하는 합성음이 공급된다. 또한, 탭 생성부(431, 432)에는 코드 결정부(515)가 자승 오차 최소 판정부(508)로부터 확정 신호를 수신하였을 때에 출력하는 L 코드, G 코드, I 코드 및 A 코드도 공급된다. 또한, 정규 방정식 가산 회로(434)에는 A/D 변환부(202)가 출력하는 음성이 교사 데이터로서 공급된다.
탭 생성부(431)는 음성 합성 필터(506)가 출력하는 합성음과 코드 결정부(515)가 출력하는 L 코드, G 코드, I 코드 및 A 코드로 도 32의 탭 생성부(221)와 동일한 예측 탭을 구성하고, 학생 데이터로서 정규 방정식 가산 회로(234)로 공급한다.
탭 생성부(232)도 음성 합성 필터(506)가 출력하는 합성음과 코드 결정부(515)가 출력하는 L 코드, G 코드, I 코드 및 A 코드로 도 32의 탭 생성부(222)와 동일한 클래스 탭을 구성하고, 클래스 분류부(433)로 공급한다.
클래스 분류부(433)는 탭 생성부로부터의 클래스 탭에 기초하여 도 32의 클래스 분류부(223)에서의 경우와 동일한 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 정규 방정식 가산 회로(434)로 공급한다.
정규 방정식 가산 회로(434)는, A/D 변환부(502)로부터의 음성을 교사 데이터로서 수신함과 동시에, 탭 생성부(131)로부터의 예측 탭을 학생 데이터로서 수신하고, 이 교사 데이터 및 학생 데이터를 대상으로 하여 클래스 분류부(433)로부터 의 클래스 코드마다 도 27의 정규 방정식 가산 회로(281)에서의 경우와 동일한 합산을 행함으로써 각 클래스에 대해 수학식 13에 나타낸 정규 방정식을 세운다.
탭 계수 결정 회로(435)는 정규 방정식 가산 회로(434)에 있어서 클래스마다 생성된 정규 방정식을 풀이함으로써 클래스마다 탭 계수를 구하고, 계수 메모리(436)의 각 클래스에 대응하는 어드레스로 공급한다.
그리고, 학습용 음성 신호로서 준비하는 음성 신호에 따라서는 정규 방정식 가산 회로(434)에 있어서, 탭 계수를 구하는데 필요한 수의 정규 방정식을 얻을 수 없는 클래스가 발생하는 경우가 있을 수 있는데, 탭 계수 결정 회로(435)는 이와 같은 클래스에 대해서는 예컨대 디폴트의 탭 계수를 출력한다.
계수 메모리(436)는 탭 계수 결정 회로(435)에서 공급되는 클래스마다의 선형 예측 계수와 잔차 신호에 대한 탭 계수를 기억한다.
이상과 같이 구성되는 학습 장치에서는 기본적으로는 도 29에 나타낸 플로우차트에 따른 처리와 동일한 처리가 실행됨으로써, 고음질의 합성음을 얻기 위한 탭 계수를 구할 수 있다.
즉, 학습 장치에는 학습용 음성 신호가 공급되고, 단계 S211에서는 그 학습용 음성 신호로부터 교사 데이터와 학생 데이터가 생성된다.
즉, 학습용 음성 신호는 마이크로폰(501)에 입력되고, 마이크로폰(501) 내지 코드 결정부(515)는 도 1의 마이크로폰(1) 내지 코드 결정부(15)에서의 경우와 각각 동일한 처리를 실행한다.
그 결과, A/D 변환부(502)에서 얻어지는 디지털 신호의 음성은 교사 데이터 로서 정규 방정식 가산 회로(434)로 공급된다. 또한, 자승 오차 최소 판정부(508)에 있어서 자승 오차가 최소로 되었다고 판정되었을 때에 음성 합성 필터(506)가 출력하는 합성음은 학생 데이터로서 탭 생성부(431, 432)로 공급된다. 또한, 자승 오차 최소 판정부(208)에 있어서 자승 오차가 최소로 되었다고 판정되었을 때에 코드 결정부(515)가 출력하는 L 코드, G 코드, I 코드 및 A 코드도 학생 데이터로서 탭 생성부(431, 432)로 공급된다.
그 후, 단계 S212로 진행하여 탭 생성부(431)는 음성 합성 필터(506)에서 학생 데이터로서 공급되는 합성음의 프레임을 주목 프레임으로 하여 그 주목 프레임의 합성음과 L 코드, G 코드, I 코드 및 A 코드로부터 예측 탭을 생성하여 정규 방정식 가산회로(434)로 공급된다. 또한, 단계 S212에서는 탭 생성부(432)가 역시 주목 프레임의 합성음과 L 코드, G 코드, I 코드 및 A 코드로부터 클래스 탭을 생성하여 클래스 분류부(433)로 공급한다.
단계 S212의 처리후에는 단계 S213으로 진행하여 클래스 분류부(433)가 탭 생성부(432)로부터의 클래스 탭에 기초하여 클래스 분류를 실행하고, 그 결과 얻어지는 클래스 코드를 정규 방정식 가산 회로(434)로 공급한다.
단계 S214로 진행하여, 정규 방정식 가산 회로(434)는, A/D 변환부(502)로부터의 교사 데이터로서의 주목 프레임의 고음질 음성인 학습용 음성 및 탭 생성부(432)로부터의 학생 데이터로서의 예측 탭을 대상으로 하여 수학식 13의 행렬 A와 벡터 v의, 상술한 바와 같은 합산을 클래스 분류부(433)로부터의 클래스 코드마다 실행하여 단계 S215로 진행한다.
단계 S215에서는, 아직 주목 프레임으로서 처리해야 할 프레임이 있는지의 여부가 판정된다. 단계 S215에서 아직 주목 프레임으로서 처리해야 할 프레임이 있다고 판정된 경우에는 단계 S211로 되돌아가고, 다음 프레임을 새로 주목 프레임으로 하여 이하 동일한 처리가 반복된다.
또한, 단계 S215에서 주목 프레임으로서 처리해야 할 프레임이 없다고 판정된 경우, 즉 정규 방정식 가산 회로(434)에 있어서 각 클래스에 대해 정규 방정식이 얻어진 경우에는 단계 S216으로 진행하고, 탭 계수 결정 회로(435)는 각 클래스마다 생성된 정규 방정식을 풀이함으로써 각 클래스마다 탭 계수를 구하고, 계수 메모리(436)의 각 클래스에 대응하는 어드레스로 공급하여 기억시켜 처리를 종료한다.
이상과 같이 하여, 계수 메모리(436)에 기억된 각 클래스마다의 탭 계수가 도 32의 계수 메모리(224)에 기억되어 있다.
따라서, 도 32의 계수 메모리(224)에 기억된 탭 계수는, 선형 예측 연산을 행함으로써 얻어지는 고음질 음성 예측값의 예측 오차(자승 오차)가 통계적으로 최소가 되도록 학습을 행함으로써 구해진 것이기 때문에, 도 32의 예측부(225)가 출력하는 음성은 고음질의 것으로 된다.
도 32 및 도 33에 나타내는 예에서는 클래스 탭을 음성 합성 필터(506)가 출력하는 합성음과 L 코드, G 코드, I 코드 및 A 코드로부터 생성하도록 하였으나, 클래스 탭은 L 코드, G 코드, I 코드 또는 A 코드 중의 1 이상과 음성 합성 필터(506)가 출력하는 합성음으로부터 생성할 수 있다. 또한, 클래스 탭은 도 32 에 있어서 점선으로 나타내는 바와 같이, A 코드에서 얻어지는 선형 예측 계수(αp)나 G 코드에서 얻어지는 게인(β,γ) 그 외의 L 코드, G 코드, I 코드 또는 A 코드에서 얻어지는 정보, 예컨대 잔차 신호(e)나 잔차 신호(e)를 얻기 위한 l, n, 나아가 l/β, n/γ등도 사용하여 구성할 수 있다. 또한, 클래스 탭은 음성 합성 필터(506)가 출력하는 합성음과 L 코드, G 코드, I 코드 또는 A 코드에서 얻어지는 상술한 바와 같은 정보로부터 생성할 수도 있다. 또한, CELP 방식에서는 코드 데이터에 리스트 보간 비트나 프레임 에너지가 포함되는 경우가 있는데, 이 경우 클래스 탭은 소프트 보간 비트나 프레임 에너지를 사용하여 구성할 수 있다. 예측 탭에 대해서도 동일하다.
여기서, 도 34에 도 33의 학습 장치에 있어서 교사 데이터로서 사용되는 음성 데이터(s)와 학생 데이터로서 사용되는 합성음의 데이터(ss), 잔차 신호(e), 잔차 신호를 구하는데 사용되는 n 및 l을 나타낸다.
이어서, 상술한 일련의 처리는 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 행하는 경우에는 그 소프트웨어를 구성하는 프로그램이 범용 컴퓨터 등에 인스톨된다.
상술한 일련의 처리를 행하는 프로그램이 인스톨되는 컴퓨터는 상술한 도 13에 도시한 바와 같이 구성되고, 도 13에 도시한 컴퓨터와 동일한 동작이 실행되므로 그 상세한 설명은 생략한다.
본 발명에서, 컴퓨터에 각종 처리를 실행시키기 위한 프로그램을 기술하는 처리 단계는 반드시 플로우차트로서 기재된 순서를 따라 시계열로 처리할 필요는 없으며, 병렬적 또는 개별적으로 실행되는 처리(예컨대 병렬 처리 또는 오브젝트에 의한 처리)도 포함하는 것이다.
또한, 프로그램은 1개의 컴퓨터에 의해 처리되는 것일 수도 있고, 복수의 컴퓨터에 의해 분산 처리되는 것일 수도 있다. 그리고, 프로그램은 원격지의 컴퓨터로 전송되어 실행되는 것일 수도 있다.
그리고, 본 예에서도 학습용 음성 신호로서 어떠한 것을 이용하는가에 대해서는 특별히 언급하지 않았으나, 학습용 음성 신호로서는 사람이 발화한 음성 외에, 예컨대 곡(음악) 등을 채택할 수 있다. 상술한 바와 같은 학습 처리에 의하면, 학습용 음성 신호로서 사람의 발화를 사용한 경우에는 이와 같은 사람의 발화의 음성의 음질을 향상시키는 탭 계수가 얻어지고, 곡을 사용한 경우에는 곡의 음질을 향상시키는 탭 계수가 얻어지게 된다.
또한, 본 발명은 예컨대 VSELP(Vector Sum Excited Linear Prediction), PSI-CELP(Pitch Synchronous Innovation CELP), CS-ACELP(Conjugate Structure Algebraic CELP) 등의 CELP 방식에 의한 부호화의 결과 얻어지는 코드로부터 합성음을 생성하는 경우에 널리 적용할 수 있다.
또한, 본 발명은 CELP 방식에 의한 부호화의 결과 얻어지는 코드로부터 합성음을 생성하는 경우로 한정되지 않고, 어느 코드로부터 잔차 신호와 선형 예측 계수를 얻어 합성음을 생성하는 경우에 널리 적용할 수 있다.
그리고, 상술한 설명에서는, 탭 계수를 사용한 선형 1차 예측 연산에 의해 잔차 신호나 선형 예측 계수의 예측값을 구하도록 하였으나, 이 예측값은 그 외 2차 이상의 고차의 예측 연산에 의해 구할 수도 있다.
또한, 상술한 설명에서는, 클래스 탭을 벡터 양자화하는 것 등에 의해 클래스 분류를 실행하도록 하였으나, 클래스 분류는 그 외 예컨대 ADRC 처리를 이용하여 행하는 것 등도 가능하다.
ADRC 를 이용하는 클래스 분류에서는 클래스 탭을 구성하는 요소, 즉 합성음의 샘플값이나 L 코드, G 코드, I 코드, A 코드 등이 ADRCC 처리되고, 그 결과 얻어지는 ADRC 코드에 따라 클래스가 결정된다.
여기서, K비트 ADRC에서는 예컨대 클래스 탭을 구성하는 요소의 최대값(MAX)과 최소값(MIN)이 검출되고, DR=MAX-MIN을 집합의 국소적인 다이내믹 레인지로 하고, 이 다이내믹 레인지(DR)에 기초하여 클래스 탭을 구성하는 요소가 K비트에 다시 양자화된다. 즉, 클래스 탭을 구성하는 각 요소로부터 최소값(MIN)이 감산되고, 이 감산값이 DR/2K로 양자화된다. 그리고, 이상과 같이 하여 얻어지는 클래스 탭을 구성하는 각 요소의 K비트의 값을 소정의 순번으로 나열한 비트 열이 ADRC 코드로서 출력된다.
상술한 바와 같이 본 발명은, 예측값을 구하고자 하는 고음질의 음성을 주목 음성으로 하여 그 주목 음성을 예측하는데 이용하는 예측 탭이 합성음과 코드 또는 코드에서 얻어지는 정보로부터 추출됨과 동시에, 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 이용하는 클래스 탭이 합성음과 코드 또는 코드에서 얻 어지는 정보로부터 추출되고, 클래스 탭에 기초하여 주목 음성의 클래스를 구하는 클래스 분류가 실행되고, 예측 탭과 주목 음성의 클래스에 대응하는 탭 계수를 사용하여 주목 음성의 예측값을 구함으로써 고음질의 합성음을 생성할 수 있게 된다.

Claims (53)

  1. 소정의 코드로부터 생성되는 선형 예측 계수와 잔차 신호를 음성 합성 필터에 부여함으로써 얻어지는 합성음으로부터, 그 음질을 향상시킨 고음질 음성의 예측치를 예측하기 위한 예측 탭을 추출하고, 상기 예측 탭과 소정 탭 계수를 이용하여 소정의 예측 연산을 행함으로써 상기 고음질의 음성의 예측치를 구하는 음성 처리 장치에 있어서,
    상기 예측치를 구하고자 하는 상기 고음질의 음성을 주목 음성으로 하여 그 주목 음성을 예측하는데 이용하는 상기 예측 탭을 상기 합성음으로부터 추출하는 예측 탭 추출 수단과,
    상기 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 이용하는 클래스 탭을 상기 코드로부터 추출하는 클래스 탭 추출 수단과,
    상기 클래스 탭에 기초하여 상기 주목 음성의 클래스를 구하는 클래스 분류를 행하는 클래스 분류 수단과,
    학습을 행함으로써 구해진 상기 클래스마다의 상기 탭 계수 중에서 상기 주목 음성의 클래스에 대응하는 상기 탭 계수를 취득하는 취득 수단과,
    상기 예측 탭과 상기 주목 음성의 클래스에 대응하는 상기 탭 계수를 이용하여 상기 주목 음성의 예측치를 구하는 예측 수단
    을 포함하는 것을 특징으로 하는 음성 처리 장치.
  2. 제1항에 있어서, 상기 예측 수단은 상기 예측 탭 및 탭 계수를 이용하여 선형 1차 예측 연산을 행함으로써 상기 주목 음성의 예측치를 구하는 것을 특징으로 하는 음성 처리 장치.
  3. 제1항에 있어서, 상기 취득 수단은 클래스마다의 상기 탭 계수를 기억하고 있는 기억 수단으로부터 상기 주목 음성에 대응하는 클래스의 상기 탭 계수를 취득하는 것을 특징으로 하는 음성 처리 장치.
  4. 제1항에 있어서, 상기 클래스 탭 추출 수단은 상기 클래스 탭을 상기 코드와 그 코드를 복호함으로써 얻어지는 상기 선형 예측 계수 또는 잔차 신호 중에서 추출하는 것을 특징으로 하는 음성 처리 장치.
  5. 제1항에 있어서, 상기 탭 계수는 상기 예측 탭 및 탭 계수를 이용하여 소정의 예측 연산을 행함으로써 얻어지는 상기 고음질 음성의 예측치의 예측 오차가 통계적으로 최소가 되도록, 학습을 행함으로써 얻어진 것임을 특징으로 하는 음성 처리 장치.
  6. 제1항에 있어서, 상기 음성 합성 필터를 더 구비하는 것을 특징으로 하는 음성 처리 장치.
  7. 제1항에 있어서, 상기 코드는 음성을 CELP(Code Excited Linear Prediction coding) 방식에 의해 부호화함으로써 얻어진 것임을 특징으로 하는 음성 처리 장치.
  8. 소정의 코드로부터 생성되는 선형 예측 계수와 잔차 신호를 음성 합성 필터에 부여함으로써 얻어지는 합성음으로부터 그 음질을 향상시킨 고음질 음성의 예측치를 예측하기 위한 예측 탭을 추출하고, 상기 예측 탭과 소정 탭 계수를 이용하여 소정의 예측 연산을 행함으로써 상기 고음질 음성의 예측치를 구하는 음성 처리 방법에 있어서,
    상기 예측치를 구하고자 하는 상기 고음질의 음성을 주목 음성으로 하여 그 주목 음성을 예측하는데 이용하는 상기 예측 탭을 상기 합성음으로부터 추출하는 예측 탭 추출 스텝과,
    상기 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 이용하는 클래스 탭을 상기 코드로부터 추출하는 클래스 탭 추출 스텝과,
    상기 클래스 탭에 기초하여 상기 주목 음성의 클래스를 구하는 클래스 분류를 행하는 클래스 분류 스텝과,
    학습을 행함으로써 구해진, 상기 클래스마다의 상기 탭 계수 중에서 상기 주목 음성의 클래스에 대응하는 상기 탭 계수를 취득하는 취득 스텝과,
    상기 예측 탭과, 상기 주목 음성의 클래스에 대응하는 상기 탭 계수를 이용하여 상기 주목 음성의 예측치를 구하는 예측 스텝
    을 포함하는 것을 특징으로 하는 음성 처리 방법.
  9. 소정의 코드로부터 생성되는 선형 예측 계수와 잔차 신호를 음성 합성 필터에 부여함으로써 얻어지는 합성음으로부터 그 음질을 향상시킨 고음질 음성의 예측치를 예측하기 위한 예측 탭을 추출하고, 상기 예측 탭과 소정 탭 계수를 이용하여 소정의 예측 연산을 행함으로써 상기 고음질 음성의 예측치를 구하는 음성 처리를 컴퓨터에 실행시키는 프로그램이 기록되어 있는 기록 매체에 있어서,
    상기 예측치를 구하고자 하는 상기 고음질의 음성을 주목 음성으로 하여 상기 주목 음성을 예측하는데 이용하는 상기 예측 탭을 상기 합성음으로부터 추출하는 예측 탭 추출 스텝과,
    상기 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 이용하는 클래스 탭을 상기 코드로부터 추출하는 클래스 탭 추출 스텝과,
    상기 클래스 탭에 기초하여 상기 주목 음성의 클래스를 구하는 클래스 분류를 행하는 클래스 분류 스텝과,
    학습을 행함으로써 구해진, 상기 클래스마다의 상기 탭 계수 중에서 상기 주목 음성의 클래스에 대응하는 상기 탭 계수를 취득하는 취득 스텝과,
    상기 예측 탭과 상기 주목 음성의 클래스에 대응하는 상기 탭 계수를 이용하여 상기 주목 음성의 예측치를 구하는 예측 스텝
    을 포함하는 프로그램이 기록되어 있는 것을 특징으로 하는 기록 매체.
  10. 소정의 코드로부터 생성되는 선형 예측 계수와 잔차 신호를 음성 합성 필터에 부여함으로써 얻어지는 합성음으로부터 그 음질을 향상시킨 고음질 음성의 예측치를 소정의 예측 연산에 의해 구하는데 이용하는 소정 탭 계수를 학습하는 학습 장치에 있어서,
    상기 예측치를 구하고자 하는 상기 고음질의 음성을 주목 음성으로 하여 상기 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 이용하는 클래스 탭을 상기 코드로부터 추출하는 클래스 탭 추출 수단과,
    상기 클래스 탭에 기초하여 상기 주목 음성의 클래스를 구하는 클래스 분류를 행하는 클래스 분류 수단과,
    상기 탭 계수 및 합성음을 이용하여 예측 연산을 행함으로써 얻어지는 상기 고음질 음성의 예측치의 예측 오차가 통계적으로 최소가 되도록, 학습을 행하여 상기 클래스마다의 탭 계수를 구하는 학습 수단
    을 포함하는 것을 특징으로 하는 학습 장치.
  11. 제10항에 있어서, 상기 학습 수단은 상기 탭 계수 및 합성음을 이용하여 선형 1차 예측 연산을 행함으로써 얻어지는 상기 고음질 음성의 예측치의 예측 오차가 통계적으로 최소가 되도록 학습을 행하는 것을 특징으로 하는 학습 장치.
  12. 제10항에 있어서, 상기 클래스 탭 추출 수단은 상기 클래스 탭을 상기 코드와, 상기 코드를 복호함으로써 얻어지는 상기 선형 예측 계수 또는 잔차 신호 중에 서 추출하는 것을 특징으로 하는 학습 장치.
  13. 제10항에 있어서, 상기 코드는 음성을 CELP(Code Excited Linear Prediction coding) 방식에 의해 부호화함으로써 얻어진 것임을 특징으로 하는 학습 장치.
  14. 소정의 코드로부터 생성되는 선형 예측 계수와 잔차 신호를 음성 합성 필터에 부여함으로써 얻어지는 합성음으로부터 그 음질을 향상시킨 고음질 음성의 예측치를 소정의 예측 연산에 의해 구하는데 이용하는 소정 탭 계수를 학습하는 학습 방법에 있어서,
    상기 예측치를 구하고자 하는 상기 고음질의 음성을 주목 음성으로 하여, 상기 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 이용하는 클래스 탭을 상기 코드로부터 추출하는 클래스 탭 추출 스텝과,
    상기 클래스 탭에 기초하여 상기 주목 음성의 클래스를 구하는 클래스 분류를 행하는 클래스 분류 스텝과,
    상기 탭 계수 및 합성음을 이용하여 예측 연산을 행함으로써 얻어지는 상기 고음질 음성의 예측치의 예측 오차가 통계적으로 최소가 되도록, 학습을 행하여 상기 클래스마다의 탭 계수를 구하는 학습 스텝
    을 포함하는 것을 특징으로 하는 학습 방법.
  15. 소정의 코드로부터 생성되는 선형 예측 계수와 잔차 신호를 음성 합성 필터 에 부여함으로써 얻어지는 합성음으로부터 그 음질을 향상시킨 고음질 음성의 예측치를 소정의 예측 연산에 의해 구하는데 이용하는 소정 탭 계수를 학습하는 학습 처리를 컴퓨터에 실행시키는 프로그램이 기록되어 있는 기록 매체에 있어서,
    상기 예측치를 구하고자 하는 상기 고음질의 음성을 주목 음성으로 하여, 상기 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 이용하는 클래스 탭을 상기 코드로부터 추출하는 클래스 탭 추출 스텝과,
    상기 클래스 탭에 기초하여 상기 주목 음성의 클래스를 구하는 클래스 분류를 행하는 클래스 분류 스텝과,
    상기 탭 계수 및 합성음을 이용하여 예측 연산을 행함으로써 얻어지는 상기 고음질의 음성의 예측치의 예측 오차가 통계적으로 최소가 되도록, 학습을 행하여 상기 클래스마다의 탭 계수를 구하는 학습 스텝
    을 포함하는 프로그램이 기록되어 있는 것을 특징으로 하는 기록 매체.
  16. 선형 예측 계수와 소정 입력 신호에 기초하여 음성 합성을 행하는 음성 합성 필터에 부여하는 필터 데이터를 소정의 코드로부터 생성하는 데이터 처리 장치에 있어서,
    상기 코드를 복호하여 복호 필터 데이터를 출력하는 코드 복호 수단과,
    학습을 행함으로써 구해진 소정 탭 계수를 취득하는 취득 수단과,
    상기 탭 계수 및 복호 필터 데이터를 이용하여 소정의 예측 연산을 행함으로써, 상기 필터 데이터의 예측치를 구하여 상기 음성 합성 필터로 공급하는 예측 수단
    을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  17. 제16항에 있어서, 상기 예측 수단은 상기 탭 계수 및 복호 필터 데이터를 이용하여 선형 1차 예측 연산을 행함으로써 상기 필터 데이터의 예측치를 구하는 것을 특징으로 하는 데이터 처리 장치.
  18. 제16항에 있어서, 상기 취득 수단은 상기 탭 계수를 기억하고 있는 기억 수단으로부터 상기 탭 계수를 취득하는 것을 특징으로 하는 데이터 처리 장치.
  19. 제16항에 있어서, 상기 예측치를 구하고자 하는 상기 필터 데이터를 주목 필터 데이터로 하여, 상기 주목 필터 데이터를 예측하는데 상기 탭 계수와 함께 이용하는 예측 탭을 상기 복호 필터 데이터에서 추출하는 예측 탭 추출 수단을 더 포함하고,
    상기 예측 수단은 상기 예측 탭 및 탭 계수를 이용하여 예측 연산을 행하는 것을 특징으로 하는 데이터 처리 장치.
  20. 제19항에 있어서, 상기 장치는, 상기 주목 필터 데이터를 여러 클래스 중 어느 하나로 클래스 분류하는데 이용하는 클래스 탭을, 상기 복호 필터 데이터에서 추출하는 클래스 탭 추출 수단과, 상기 클래스 탭에 기초하여 상기 주목 필터 데이터의 클래스를 구하는 클래스 분류를 행하는 클래스 분류 수단을 더 포함하고,
    상기 예측 수단은 상기 예측 탭과 상기 주목 필터 데이터의 클래스에 대응하는 상기 탭 계수를 이용하여 예측 연산을 행하는 것을 특징으로 하는 데이터 처리 장치.
  21. 제19항에 있어서, 상기 장치는, 상기 주목 필터 데이터를 여러 클래스 중 어느 하나로 클래스 분류하는데 이용하는 클래스 탭을 상기 코드로부터 추출하는 클래스 탭 추출 수단과, 상기 클래스 탭에 기초하여 상기 주목 필터 데이터의 클래스를 구하는 클래스 분류를 행하는 클래스 분류 수단을 더 포함하고,
    상기 예측 수단은 상기 예측 탭과, 상기 주목 필터 데이터의 클래스에 대응하는 상기 탭 계수를 이용하여 예측 연산을 행하는 것을 특징으로 하는 데이터 처리 장치.
  22. 제21항에 있어서, 상기 클래스 탭 추출 수단은 상기 클래스 탭을 상기 코드와 상기 복호 필터 데이터의 양측에서 추출하는 것을 특징으로 하는 데이터 처리 장치.
  23. 제16항에 있어서, 상기 탭 계수는 상기 탭 계수 및 복호 필터 데이터를 이용하여 소정의 예측 연산을 행함으로써 얻어지는 상기 필터 데이터의 예측치의 예측 오차가 통계적으로 최소가 되도록, 학습을 행함으로써 얻어진 것임을 특징으로 하는 데이터 처리 장치.
  24. 제16항에 있어서, 상기 필터 데이터는 상기 입력 신호와 선형 예측 계수 중 적어도 한쪽 또는 양쪽인 것을 특징으로 하는 데이터 처리 장치.
  25. 제16항에 있어서, 상기 음성 합성 필터를 더 구비하는 것을 특징으로 하는 데이터 처리 장치.
  26. 제16항에 있어서, 상기 코드는 음성을 CELP(Code Excited Linear Prediction coding) 방식에 의해 부호화함으로써 얻어진 것을 특징으로 하는 데이터 처리 장치.
  27. 선형 예측 계수와 소정 입력 신호에 기초하여 음성 합성을 행하는 음성 합성 필터에 부여하는 필터 데이터를 소정의 코드로부터 생성하는 데이터 처리 방법에 있어서,
    상기 코드를 복호하여 복호 필터 데이터를 출력하는 코드 복호 스텝과,
    학습을 행함으로써 구해진 소정 탭 계수를 취득하는 취득 스텝과,
    상기 탭 계수 및 복호 필터 데이터를 이용하여 소정의 예측 연산을 행함으로써, 상기 필터 데이터의 예측값을 구하여, 상기 음성 합성 필터로 공급하는 예측 스텝
    을 포함하는 것을 특징으로 하는 데이터 처리 방법.
  28. 선형 예측 계수와 소정 입력 신호에 기초하여 음성 합성을 행하는 음성 합성 필터에 부여하는 필터 데이터를 소정의 코드로부터 생성하는 데이터 처리를 컴퓨터에 실행시키는 프로그램이 기록되어 있는 기록 매체에 있어서,
    상기 코드를 복호하여 복호 필터 데이터를 출력하는 코드 복호 스텝과,
    학습을 행함으로써 구해진 소정 탭 계수를 취득하는 취득 스텝과,
    상기 탭 계수 및 복호 필터 데이터를 이용하여 소정의 예측 연산을 행함으로써, 상기 필터 데이터의 예측값을 구하여 상기 음성 합성 필터로 공급하는 예측 스텝
    을 포함하는 프로그램이 기록되어 있는 것을 특징으로 하는 기록 매체.
  29. 선형 예측 계수와 소정 입력 신호에 기초하여 음성 합성을 행하는 음성 합성 필터에 부여하는 필터 데이터에 대응하는 코드로부터 상기 필터 데이터의 예측값을 예측 연산에 의해 구하는데 이용하는 소정의 탭 계수를 학습하는 학습 장치에 있어서,
    상기 필터 데이터에 대응하는 코드를 복호하여 복호 필터 데이터를 추출하는 코드 복호 수단과,
    상기 탭 계수 및 복호 필터 데이터를 이용하여 예측 연산을 행함으로써 얻어지는 상기 필터 데이터의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습을 행하여 상기 탭 계수를 구하는 학습 수단
    을 포함하는 것을 특징으로 하는 학습 장치.
  30. 제29항에 있어서, 상기 학습 수단은 상기 탭 계수 및 복호 필터 데이터를 이용하여 선형 1차 예측 연산을 행함으로써 얻어지는 상기 필터 데이터의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습을 행하는 것을 특징으로 하는 학습 장치.
  31. 제29항에 있어서, 상기 장치는 상기 예측값을 구하고자 하는 상기 필터 데이터를 주목 필터 데이터로 하여, 상기 주목 필터 데이터를 예측하는데 상기 탭 계수와 함께 사용하는 예측 탭을 상기 복호 필터 데이터로부터 추출하는 예측 탭 추출 수단을 더 포함하고,
    상기 학습 수단은 상기 예측 탭 및 탭 계수를 이용하여 예측 연산을 행함으로써 얻어지는 상기 필터 데이터의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습을 행하는 것을 특징으로 하는 학습 장치.
  32. 제31항에 있어서, 상기 장치는 상기 주목 필터 데이터를 여러 클래스 중 어느 하나로 클래스 분류하는데 사용하는 클래스 탭을 상기 복호 필터 데이터에서 추출하는 클래스 탭 추출 수단과, 상기 클래스 탭에 기초하여 상기 주목 필터 데이터의 클래스를 구하는 클래스 분류를 실행하는 클래스 분류 수단을 더 포함하고,
    상기 학습 수단은 상기 예측 탭과 상기 주목 필터 데이터의 클래스에 대응하 는 상기 탭 계수를 이용하여 예측 연산을 행함으로서 얻어지는 상기 필터 데이터의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습을 행하는 것을 특징으로 하는 학습 장치.
  33. 제31항에 있어서, 상기 장치는 상기 주목 필터 데이터를 여러 클래스 중 어느 하나로 클래스 분류하는데 사용하는 클래스 탭을 상기 코드에서 추출하는 클래스 탭 추출 수단과, 상기 클래스 탭에 기초하여 상기 주목 필터 데이터의 클래스를 구하는 클래스 분류를 실행하는 클래스 분류 수단을 더 포함하고,
    상기 학습 수단은 상기 예측 탭과 상기 주목 필터 데이터의 클래스에 대응하는 상기 탭 계수를 이용하여 예측 연산을 행함으로써 얻어지는 상기 필터 데이터의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습을 행하는 것을 특징으로 하는 학습 장치.
  34. 제33항에 있어서, 상기 클래스 탭 추출 수단은 상기 클래스 탭을 상기 코드와 상기 복호 필터 데이터의 양측에서 추출하는 것을 특징으로 하는 학습 장치.
  35. 제29항에 있어서, 상기 필터 데이터는 상기 입력 신호와 선형 예측 계수 중 적어도 한쪽 또는 양쪽인 것을 특징으로 하는 학습 장치.
  36. 제29항에 있어서, 상기 코드는 음성을 CELP(Code Excited Linear Prediction coding) 방식에 의해 부호화함으로써 얻어진 것임을 특징으로 하는 학습 장치.
  37. 선형 예측 계수와 소정의 입력 신호에 기초하여 음성 합성을 행하는 음성 합성 필터에 부여하는 필터 데이터에 대응하는 코드로부터 상기 필터 데이터의 예측값을 예측 연산에 의해 구하는데 이용하는 소정의 탭 계수를 학습하는 학습 방법에 있어서,
    필터 데이터에 대응하는 코드를 복호하여 복호 필터 데이터를 출력하는 코드 복호 스텝과,
    상기 탭 계수 및 복호 필터 데이터를 이용하여 예측 연산을 행함으로써 얻어지는 상기 필터 데이터의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습을 실행하여 상기 탭 계수를 구하는 학습 스텝
    을 포함하는 것을 특징으로 하는 학습 방법.
  38. 선형 예측 계수와 소정의 입력 신호에 기초하여 음성 합성을 행하는 음성 합성 필터에 부여하는 필터 데이터에 대응하는 코드로부터 상기 필터 데이터의 예측값을 예측 연산에 의해 구하는데 사용하는 소정의 탭 계수를 학습하는 학습 처리를 컴퓨터에 실행시키는 프로그램이 기록되어 있는 기록 매체에 있어서,
    필터 데이터에 대응하는 코드를 복호하여 복호 필터 데이터를 출력하는 코드 복호 스텝과,
    상기 탭 계수 및 복호 필터 데이터를 이용하여 예측 연산을 행함으로써 얻어 지는 상기 필터 데이터의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습을 행하여 상기 탭 계수를 구하는 학습 스텝
    을 포함하는 프로그램이 기록되어 있는 것을 특징으로 하는 기록 매체.
  39. 소정의 코드로부터 생성되는 선형 예측 계수와 잔차 신호를 음성 합성 필터에 부여함으로써 얻어지는 합성음으로부터 그 음질을 향상시킨 고음질 음성의 예측값을 구하는 음성 처리 장치에 있어서,
    상기 예측값을 구하고자 하는 상기 고음질의 음성을 주목 음성으로 하여, 상기 주목 음성을 예측하는데 사용하는 예측 탭을, 상기 합성음과 상기 코드 또는 상기 코드로부터 얻어지는 정보로부터 추출하는 예측 탭 추출 수단과,
    상기 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 이용하는 클래스 탭을, 상기 합성음과 상기 코드 또는 상기 코드에서 얻어지는 정보로부터 추출하는 클래스 탭 추출 수단과,
    상기 클래스 탭에 기초하여 상기 주목 음성의 클래스를 구하는 클래스 분류를 행하는 클래스 분류 수단과,
    학습을 행함으로써 구해진 상기 클래스마다의 상기 탭 계수 중에서 상기 주목 음성의 클래스에 대응하는 상기 탭 계수를 취득하는 취득 수단과,
    상기 예측 탭과 상기 주목 음성의 클래스에 대응하는 상기 탭 계수를 이용하여 상기 주목 음성의 예측값을 구하는 예측 수단
    을 포함하는 것을 특징으로 하는 음성 처리 장치.
  40. 제39항에 있어서, 상기 예측 수단은 상기 예측 탭 및 탭 계수를 이용하여 선형 1차 예측 연산을 행함으로써, 상기 주목 음성의 예측값을 구하는 것을 특징으로 하는 음성 처리 장치.
  41. 제39항에 있어서, 상기 취득 수단은 클래스마다의 상기 탭 계수를 기억하고 있는 기억 수단으로부터 상기 주목 음성에 대응하는 클래스의 상기 탭 계수를 취득하는 것을 특징으로 하는 음성 처리 장치.
  42. 제39항에 있어서, 상기 예측 탭 추출 수단 또는 클래스 탭 추출 수단은, 상기 예측 탭 또는 클래스 탭을 상기 합성음, 상기 코드, 및 상기 코드에서 얻어지는 정보로부터 추출하는 것을 특징으로 하는 음성 처리 장치.
  43. 제39항에 있어서, 상기 탭 계수는 상기 예측 탭 및 탭 계수를 이용하여 소정의 예측 연산을 행함으로써 얻어지는 상기 고음질 음성의 예측값의 예측 오차가 통계적으로 최소가 되도록, 학습을 행함으로써 얻어진 것임을 특징으로 하는 음성 처리 장치.
  44. 제39항에 있어서, 상기 장치는 음성 합성 필터를 더 구비하는 것을 특징으로 하는 음성 처리 장치.
  45. 제39항에 있어서, 상기 코드는 음성을 CELP(Code Excited Linear Prediction coding) 방식에 의해 부호화함으로써 얻어진 것임을 특징으로 하는 음성 처리 장치.
  46. 소정의 코드로부터 생성되는 선형 예측 계수와 잔차 신호를 음성 합성 필터에 부여함으로써 얻어지는 합성음으로부터 그 음질을 향상시킨 고음질의 음성의 예측값을 구하는 음성 처리 방법에 있어서,
    상기 예측값을 구하고자 하는 상기 고음질의 음성을 주목 음성으로 하여, 상기 주목 음성을 예측하는데 사용하는 예측 탭을 상기 합성음과 상기 코드 또는 상기 코드에서 얻어지는 정보로부터 추출하는 예측 탭 추출 스텝과,
    상기 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 이용하는 클래스 탭을 상기 코드 합성음과 상기 코드 또는 상기 코드에서 얻어지는 정보로부터 추출하는 클래스 탭 추출 스텝과,
    상기 클래스 탭에 기초하여 상기 주목 음성의 클래스를 구하는 클래스 분류를 행하는 클래스 분류 스텝과,
    학습을 행함으로써 구해진, 상기 클래스마다의 상기 탭 계수 중에서 상기 주목 음성의 클래스에 대응하는 상기 탭 계수를 취득하는 취득 스텝과,
    상기 예측 탭과 상기 주목 음성의 클래스에 대응하는 상기 탭 계수를 이용하여 상기 주목 음성의 예측값을 구하는 예측 스텝
    을 포함하는 것을 특징으로 하는 음성 처리 방법.
  47. 소정의 코드로부터 생성되는 선형 예측 계수와 잔차 신호를 음성 합성 필터에 부여함으로써 얻어지는 합성음으로부터, 그 음질을 향상시킨 고음질의 음성의 예측값을 구하는 음성 처리를 컴퓨터에 실행시키는 프로그램이 기록되어 있는 기록 매체에 있어서,
    상기 예측값을 구하고자 하는 상기 고음질의 음성을 주목 음성으로 하여, 상기 주목 음성을 예측하는데 사용하는 상기 예측 탭을 상기 합성음과 상기 코드 또는 상기 코드에서 얻어지는 정보로부터 추출하는 예측 탭 추출 스텝과,
    상기 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 사용하는 클래스 탭을 상기 합성음과 상기 코드 또는 상기 코드에서 얻어지는 정보로부터 추출하는 클래스 탭 추출 스텝과,
    상기 클래스 탭에 기초하여 상기 주목 음성의 클래스를 구하는 클래스 분류를 행하는 클래스 분류 스텝과,
    학습을 행함으로써 구해진, 상기 클래스마다의 상기 탭 계수 중에서 상기 주목 음성의 클래스에 대응하는 상기 탭 계수를 취득하는 취득 스텝과,
    상기 예측 탭과 상기 주목 음성의 클래스에 대응하는 상기 탭 계수를 이용하여 상기 주목 음성의 예측값을 구하는 예측 스텝
    을 포함하는 프로그램이 기록되어 있는 것을 특징으로 하는 기록 매체.
  48. 소정의 코드로부터 생성되는 선형 예측 계수와 잔차 신호를 음성 합성 필터에 부여함으로써 얻어지는 합성음으로부터 그 음질을 향상시킨 고음질 음성의 예측값을 소정의 예측 연산에 의해 구하는데 사용하는 소정 탭 계수를 학습하는 학습 장치에 있어서,
    상기 예측값을 구하고자 하는 상기 고음질의 음성을 주목 음성으로 하여, 상기 주목 음성을 예측하는데 사용하는 예측 탭을 상기 합성음과 상기 코드 또는 상기 코드에서 얻어지는 정보로부터 추출하는 예측 탭 추출 수단과,
    상기 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 사용하는 클래스 탭을 상기 합성음과 상기 코드 또는 상기 코드에서 얻어지는 정보로부터 추출하는 클래스 탭 추출 수단과,
    상기 클래스 탭에 기초하여 상기 주목 음성의 클래스를 구하는 클래스 분류를 실행하는 클래스 분류 수단과,
    상기 탭 계수 및 예측 탭을 이용하여 예측 연산을 행함으로써 얻어지는 상기 고음질 음성의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습을 행하여 상기 클래스마다의 탭 계수를 구하는 학습 수단
    을 포함하는 것을 특징으로 하는 학습 장치.
  49. 제48항에 있어서, 상기 학습 수단은 상기 탭 계수 및 예측 탭을 이용하여 선형 1차 예측 연산을 행함으로써 얻어지는 상기 고음질의 음성의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습을 행하는 것을 특징으로 하는 학습 장치.
  50. 제48항에 있어서, 상기 예측 탭 추출 수단 또는 클래스 탭 추출 수단은, 상기 예측 탭 또는 클래스 탭을 상기 합성음과 상기 코드 및 상기 코드에서 얻어지는 정보로부터 추출하는 것을 특징으로 하는 학습 장치.
  51. 제48항에 있어서, 상기 코드는 음성을 CELP(Code Excited Linear Prediction coding) 방식에 의해 부호화함으로써 얻어진 것임을 특징으로 하는 학습 장치.
  52. 소정의 코드로부터 생성되는 선형 예측 계수와 잔차 신호를 음성 합성 필터에 부여함으로써 얻어지는 합성음으로부터 그 음질을 향상시킨 고음질 음성의 예측값을 소정의 예측 연산에 의해 구하는데 사용하는 소정 탭 계수를 학습하는 학습 방법에 있어서,
    상기 예측값을 구하고자 하는 상기 고음질의 음성을 주목 음성으로 하여, 상기 주목 음성을 예측하는데 사용하는 예측 탭을 상기 합성음과 상기 코드 또는 상기 코드에서 얻어지는 정보로부터 추출하는 예측 탭 추출 수단과,
    상기 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 사용하는 클래스 탭을 상기 합성음과 상기 코드 또는 상기 코드에서 얻어지는 정보로부터 추출하는 클래스 탭 추출 스텝과,
    상기 클래스 탭에 기초하여 상기 주목 음성의 클래스를 구하는 클래스 분류를 행하는 클래스 분류 스텝과,
    상기 탭 계수 및 예측 탭을 이용하여 예측 연산을 행함으로써 얻어지는 상기 고음질 음성의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습을 행하여 상기 클래스마다의 탭 계수를 구하는 학습 스텝
    을 포함하는 것을 특징으로 하는 학습 방법.
  53. 소정의 코드로부터 생성되는 선형 예측 계수와 잔차 신호를 음성 합성 필터에 부여함으로써 얻어지는 합성음으로부터 그 음질을 향상시킨 고음질 음성의 예측값을 소정의 예측 연산에 의해 구하는데 사용하는 소정 탭 계수를 학습하는 학습 처리를 컴퓨터에 실행시키는 프로그램이 기록되어 있는 기록 매체에 있어서,
    상기 예측값을 구하고자 하는 상기 고음질의 음성을 주목 음성으로 하여, 상기 주목 음성을 예측하는데 사용하는 예측 탭을 상기 합성음과 상기 코드 또는 상기 코드에서 얻어지는 정보로부터 추출하는 예측 탭 추출 수단과,
    상기 주목 음성을 여러 클래스 중 어느 하나로 클래스 분류하는데 사용하는 클래스 탭을 상기 합성음과 상기 코드 또는 상기 코드에서 얻어지는 정보로부터 추출하는 클래스 탭 추출 스텝과,
    상기 클래스 탭에 기초하여 상기 주목 음성의 클래스를 구하는 클래스 분류를 실행하는 클래스 분류 스텝과,
    상기 탭 계수 및 예측 탭을 이용하여 예측 연산을 행함으로써 얻어지는 상기 고음질 음성의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습을 행하여 상기 클래스마다의 탭 계수를 구하는 학습 스텝
    을 포함하는 프로그램이 기록되어 있는 것을 특징을 하는 기록 매체.
KR1020027004559A 2000-08-09 2001-08-03 음성 데이터의 처리 장치 및 처리 방법 KR100819623B1 (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JPJP-P-2000-00241062 2000-08-09
JP2000241062 2000-08-09
JP2000251969A JP2002062899A (ja) 2000-08-23 2000-08-23 データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体
JPJP-P-2000-00251969 2000-08-23
JPJP-P-2000-00346675 2000-11-14
JP2000346675A JP4517262B2 (ja) 2000-11-14 2000-11-14 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体

Publications (2)

Publication Number Publication Date
KR20020040846A KR20020040846A (ko) 2002-05-30
KR100819623B1 true KR100819623B1 (ko) 2008-04-04

Family

ID=27344301

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027004559A KR100819623B1 (ko) 2000-08-09 2001-08-03 음성 데이터의 처리 장치 및 처리 방법

Country Status (7)

Country Link
US (1) US7912711B2 (ko)
EP (3) EP1944760B1 (ko)
KR (1) KR100819623B1 (ko)
DE (3) DE60134861D1 (ko)
NO (3) NO326880B1 (ko)
TW (1) TW564398B (ko)
WO (1) WO2002013183A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4857468B2 (ja) 2001-01-25 2012-01-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP4857467B2 (ja) 2001-01-25 2012-01-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP4711099B2 (ja) 2001-06-26 2011-06-29 ソニー株式会社 送信装置および送信方法、送受信装置および送受信方法、並びにプログラムおよび記録媒体
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
US8504090B2 (en) * 2010-03-29 2013-08-06 Motorola Solutions, Inc. Enhanced public safety communication system
US9363068B2 (en) 2010-08-03 2016-06-07 Intel Corporation Vector processor having instruction set with sliding window non-linear convolutional function
RU2012102842A (ru) 2012-01-27 2013-08-10 ЭлЭсАй Корпорейшн Инкрементное обнаружение преамбулы
CN103975564A (zh) 2011-10-27 2014-08-06 Lsi公司 具有拥有由用户定义的用于数字预失真(dpd)以及其它非线性应用的非线性函数的指令集的处理器
EP2704142B1 (en) * 2012-08-27 2015-09-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal
US9923595B2 (en) 2013-04-17 2018-03-20 Intel Corporation Digital predistortion for dual-band power amplifiers

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0683400A (ja) * 1992-06-04 1994-03-25 American Teleph & Telegr Co <Att> 音声メッセージ処理方法
JPH075586A (ja) * 1993-06-14 1995-01-10 Fuji Photo Film Co Ltd ネガクリップ
JPH10242867A (ja) * 1997-02-25 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法
US5995923A (en) 1997-06-26 1999-11-30 Nortel Networks Corporation Method and apparatus for improving the voice quality of tandemed vocoders
US6260009B1 (en) 1999-02-12 2001-07-10 Qualcomm Incorporated CELP-based to CELP-based vocoder packet translation
WO2001086820A1 (en) * 2000-05-09 2001-11-15 Sony Corporation Data processing device and data processing method, and recorded medium
WO2002059877A1 (fr) * 2001-01-25 2002-08-01 Sony Corporation Appareil de traitement de donnees
WO2002059876A1 (fr) * 2001-01-25 2002-08-01 Sony Corporation Appareil de traitement de donnees
JP2008000004A (ja) * 2006-06-20 2008-01-10 Shimano Inc 釣り用グローブ

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6011360B2 (ja) 1981-12-15 1985-03-25 ケイディディ株式会社 音声符号化方式
JP2797348B2 (ja) 1988-11-28 1998-09-17 松下電器産業株式会社 音声符号化・復号化装置
US5293448A (en) * 1989-10-02 1994-03-08 Nippon Telegraph And Telephone Corporation Speech analysis-synthesis method and apparatus therefor
US5261027A (en) * 1989-06-28 1993-11-09 Fujitsu Limited Code excited linear prediction speech coding system
CA2031965A1 (en) 1990-01-02 1991-07-03 Paul A. Rosenstrach Sound synthesizer
JP2736157B2 (ja) 1990-07-17 1998-04-02 シャープ株式会社 符号化装置
JPH05158495A (ja) 1991-05-07 1993-06-25 Fujitsu Ltd 音声符号化伝送装置
DE69233794D1 (de) * 1991-06-11 2010-09-23 Qualcomm Inc Vocoder mit veränderlicher Bitrate
JP3076086B2 (ja) * 1991-06-28 2000-08-14 シャープ株式会社 音声合成装置用ポストフィルタ
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
US5491771A (en) * 1993-03-26 1996-02-13 Hughes Aircraft Company Real-time implementation of a 8Kbps CELP coder on a DSP pair
US5717823A (en) * 1994-04-14 1998-02-10 Lucent Technologies Inc. Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
JPH08202399A (ja) 1995-01-27 1996-08-09 Kyocera Corp 復号音声の後処理方法
SE504010C2 (sv) * 1995-02-08 1996-10-14 Ericsson Telefon Ab L M Förfarande och anordning för prediktiv kodning av tal- och datasignaler
JP3235703B2 (ja) * 1995-03-10 2001-12-04 日本電信電話株式会社 ディジタルフィルタのフィルタ係数決定方法
EP0732687B2 (en) * 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
JP2993396B2 (ja) * 1995-05-12 1999-12-20 三菱電機株式会社 音声加工フィルタ及び音声合成装置
FR2734389B1 (fr) * 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
GB9512284D0 (en) * 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
JPH0990997A (ja) * 1995-09-26 1997-04-04 Mitsubishi Electric Corp 音声符号化装置、音声復号化装置、音声符号化復号化方法および複合ディジタルフィルタ
JP3248668B2 (ja) * 1996-03-25 2002-01-21 日本電信電話株式会社 ディジタルフィルタおよび音響符号化/復号化装置
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
JP3946812B2 (ja) * 1997-05-12 2007-07-18 ソニー株式会社 オーディオ信号変換装置及びオーディオ信号変換方法
JP4132154B2 (ja) * 1997-10-23 2008-08-13 ソニー株式会社 音声合成方法及び装置、並びに帯域幅拡張方法及び装置
US6014618A (en) * 1998-08-06 2000-01-11 Dsp Software Engineering, Inc. LPAS speech coder using vector quantized, multi-codebook, multi-tap pitch predictor and optimized ternary source excitation codebook derivation
JP2000066700A (ja) * 1998-08-17 2000-03-03 Oki Electric Ind Co Ltd 音声信号符号器、音声信号復号器
US6539355B1 (en) 1998-10-15 2003-03-25 Sony Corporation Signal band expanding method and apparatus and signal synthesis method and apparatus
JP4099879B2 (ja) 1998-10-26 2008-06-11 ソニー株式会社 帯域幅拡張方法及び装置
US6434519B1 (en) * 1999-07-19 2002-08-13 Qualcomm Incorporated Method and apparatus for identifying frequency bands to compute linear phase shifts between frame prototypes in a speech coder
JP4752088B2 (ja) 2000-05-09 2011-08-17 ソニー株式会社 データ処理装置およびデータ処理方法、並びに記録媒体
JP4517448B2 (ja) 2000-05-09 2010-08-04 ソニー株式会社 データ処理装置およびデータ処理方法、並びに記録媒体
US7283961B2 (en) * 2000-08-09 2007-10-16 Sony Corporation High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
JP3876781B2 (ja) * 2002-07-16 2007-02-07 ソニー株式会社 受信装置および受信方法、記録媒体、並びにプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0683400A (ja) * 1992-06-04 1994-03-25 American Teleph & Telegr Co <Att> 音声メッセージ処理方法
JPH075586A (ja) * 1993-06-14 1995-01-10 Fuji Photo Film Co Ltd ネガクリップ
JPH10242867A (ja) * 1997-02-25 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法
US5995923A (en) 1997-06-26 1999-11-30 Nortel Networks Corporation Method and apparatus for improving the voice quality of tandemed vocoders
US6260009B1 (en) 1999-02-12 2001-07-10 Qualcomm Incorporated CELP-based to CELP-based vocoder packet translation
WO2001086820A1 (en) * 2000-05-09 2001-11-15 Sony Corporation Data processing device and data processing method, and recorded medium
WO2002059877A1 (fr) * 2001-01-25 2002-08-01 Sony Corporation Appareil de traitement de donnees
WO2002059876A1 (fr) * 2001-01-25 2002-08-01 Sony Corporation Appareil de traitement de donnees
JP2008000004A (ja) * 2006-06-20 2008-01-10 Shimano Inc 釣り用グローブ

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
특2000-0047608

Also Published As

Publication number Publication date
WO2002013183A1 (fr) 2002-02-14
US20080027720A1 (en) 2008-01-31
EP1308927B1 (en) 2008-07-16
NO326880B1 (no) 2009-03-09
EP1944759B1 (en) 2010-10-20
EP1944760A3 (en) 2008-07-30
DE60143327D1 (de) 2010-12-02
EP1944759A3 (en) 2008-07-30
EP1944759A2 (en) 2008-07-16
DE60134861D1 (de) 2008-08-28
TW564398B (en) 2003-12-01
EP1308927A4 (en) 2005-09-28
EP1308927B9 (en) 2009-02-25
KR20020040846A (ko) 2002-05-30
NO20021631L (no) 2002-06-07
EP1944760B1 (en) 2009-09-23
EP1308927A1 (en) 2003-05-07
NO20082403L (no) 2002-06-07
NO20021631D0 (no) 2002-04-05
DE60140020D1 (de) 2009-11-05
US7912711B2 (en) 2011-03-22
NO20082401L (no) 2002-06-07
EP1944760A2 (en) 2008-07-16

Similar Documents

Publication Publication Date Title
CN100583242C (zh) 声音译码方法和声音译码装置
CN101176148B (zh) 编码装置、解码装置和其方法
EP0802524B1 (en) Speech coder
CN101421780B (zh) 用于编码和解码时变信号的方法和设备
CN101006495A (zh) 语音编码装置、语音解码装置、通信装置以及语音编码方法
EP1353323A1 (en) Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound
US7912711B2 (en) Method and apparatus for speech data
US6768978B2 (en) Speech coding/decoding method and apparatus
JP4857468B2 (ja) データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
KR100875783B1 (ko) 데이터 처리 장치
JP3916934B2 (ja) 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置
JP2004348120A (ja) 音声符号化装置、音声復号化装置及びこれらの方法
US7283961B2 (en) High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
JP4736266B2 (ja) 音声処理装置および音声処理方法、学習装置および学習方法、並びにプログラムおよび記録媒体
JP4517262B2 (ja) 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体
JPH0844398A (ja) 音声符号化装置
JP2002062899A (ja) データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体
KR19980036961A (ko) 음성 부호화 및 복호화 장치와 그 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120319

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee