KR100875784B1 - 데이터 처리 장치 - Google Patents

데이터 처리 장치 Download PDF

Info

Publication number
KR100875784B1
KR100875784B1 KR1020027012612A KR20027012612A KR100875784B1 KR 100875784 B1 KR100875784 B1 KR 100875784B1 KR 1020027012612 A KR1020027012612 A KR 1020027012612A KR 20027012612 A KR20027012612 A KR 20027012612A KR 100875784 B1 KR100875784 B1 KR 100875784B1
Authority
KR
South Korea
Prior art keywords
data
tap
prediction
class
predetermined
Prior art date
Application number
KR1020027012612A
Other languages
English (en)
Other versions
KR20020088088A (ko
Inventor
데쯔지로 곤도
히로또 기무라
쯔또무 와따나베
마사아끼 핫또리
Original Assignee
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 가부시끼 가이샤 filed Critical 소니 가부시끼 가이샤
Publication of KR20020088088A publication Critical patent/KR20020088088A/ko
Application granted granted Critical
Publication of KR100875784B1 publication Critical patent/KR100875784B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 고음질의 합성음 등을 얻을 수 있는 데이터 처리 장치에 관한 것이다. 탭 생성부(121)는 CELP 방식으로 부호화된 음성의 부호화 데이터를 복호한 합성음 데이터 중 주목하고 있는 주목 데이터의 서브 프레임에서의 40 샘플의 합성음 데이터와, 주목 서브 프레임으로부터 그 주목 서브 프레임에 배치되어 있는 L 코드가 나타내는 러그만큼 과거의 위치를 시점으로 하는 40 샘플의 합성음 데이터로부터 예측 탭을 생성한다. 그리고, 예측부(125)는 그 예측 탭과 계수 메모리(124)에 기억된 탭 계수를 이용하여, 소정의 예측 연산을 행함으로써, 고음질의 음성 데이터를 복호한다. 본 발명은 음성을 송수신하는 휴대 전화기에 적용할 수 있다.
Figure R1020027012612
음성, 휴대 전화기, 고음질, 부호화, 복호화, 탭

Description

데이터 처리 장치{DATA PROCESSING DEVICE}
본 발명은 데이터 처리 장치에 관한 것으로, 특히 예를 들면, CELP(Code Excited Liner Prediction coding) 방식으로 부호화된 음성을, 고음질의 음성으로 복호할 수 있도록 하는 데이터 처리 장치에 관한 것이다.
도 1 및 도 2는 종래의 휴대 전화기의 일례의 구성을 도시하고 있다.
이 휴대 전화기에서는, 음성을 CELP 방식에 의해 소정의 코드로 부호화하여 송신하는 송신 처리와, 다른 휴대 전화기로부터 송신되어 오는 코드를 수신하여 음성으로 복호하는 수신 처리가 행해지도록 되어 있으며, 도 1은 송신 처리를 행하는 송신부를 나타내고, 도 2는 수신 처리를 행하는 수신부를 각각 나타내고 있다.
도 1에 도시한 송신부에서는, 사용자가 발성한 음성이 마이크(마이크로폰)(1)에 입력되고, 전기 신호로서의 음성 신호로 변환되어, A/D(Analog/Digital) 변환부(2)에 공급된다. A/D 변환부(2)는 마이크(1)로부터의 아날로그 음성 신호를, 예를 들면 8㎑ 등의 샘플링 주파수로 샘플링함으로써, 디지털 음성 신호로 A/D 변환하고, 소정의 비트 수로 양자화를 행하여 연산기(3)와 LPC(Liner Prediction Coefficient) 분석부(4)에 공급한다.
LPC 분석부(4)는 A/D 변환부(2)로부터의 음성 신호를, 예를 들면 160 샘플분 의 길이를 1프레임으로 하고, 그 1프레임을 40 샘플별로 서브 프레임으로 분할하고 서브 프레임마다 LPC 분석하고, P차의 선형 예측 계수 α1, α2, …, αp를 구한다. 그리고, LPC 분석부(4)는 이 P차의 선형 예측 계수 αp(p=1, 2, …, P)를 요소로 하는 벡터를, 음성의 특징 벡터로서 벡터 양자화부(5)에 공급한다.
벡터 양자화부(5)는 선형 예측 계수를 요소로 하는 코드 벡터와 코드를 대응시킨 코드북을 기억하고 있으며, 그 코드북에 기초하여 LPC 분석부(4)로부터의 특징 벡터 α를 벡터 양자화하고, 그 벡터 양자화의 결과로 얻어지는 코드(이하, 적절하게, A 코드(A_code)라고 함)를 코드 결정부(15)에 공급한다.
또한, 벡터 양자화부(5)는 A 코드에 대응하는 코드 벡터 α'를 구성하는 요소로 되어 있는 선형 예측 계수 α1', α2', …, αp'를 음성 합성 필터(6)에 공급한다.
음성 합성 필터(6)는 예를 들면, IIR(Infinite Impulse Response)형 디지털 필터로, 벡터 양자화부(5)로부터의 선형 예측 계수 αp'(p=1, 2, …, P)를 IIR 필터의 탭 계수로 함과 함께, 연산기(14)로부터 공급되는 잔차 신호 e를 입력 신호로 하여, 음성 합성을 행한다.
즉, LPC 분석부(4)에서 행해지는 LPC 분석은, 현재 시각 n의 음성 신호(의 샘플값) sn 및 이에 인접하는 과거의 P개의 샘플값 sn-1, sn-2, …, sn-p 에,
Figure 112002031072773-pct00001
으로 표현되는 선형 1차 결합이 성립한다고 가정하고, 현재 시각 n의 샘플값 sn의 예측값(선형 예측값) sn'를 과거의 P개의 표본값 sn-1, sn-2, …, sn-p 를 이용하여,
Figure 112002031072773-pct00002
에 의해 선형 예측했을 때에, 실제 샘플값 sn과 선형 예측값 sn' 사이의 제곱 오차를 최소로 하는 선형 예측 계수 αp를 구하는 것이다.
여기서, 수학식 1에서, {en}(…, en-1, en, en+1, …)는 평균값이 0이고 분산이 소정치 σ2인 상호 상관없는 확률 변수이다.
수학식 1로부터, 샘플값 sn
Figure 112002031072773-pct00003
로 표현할 수 있으며, 이것을 Z 변환하면 다음 식이 성립한다.
Figure 112002031072773-pct00004
단, 수학식 4에서, S와 E는 수학식 3에서의 sn과 en의 Z 변환을 각각 나타낸 다.
여기서, 수학식 1 및 수학식 2로부터, en
Figure 112002031072773-pct00005
으로 표현할 수 있으며, 실제의 샘플값 sn과 선형 예측값 sn' 사이의 잔차 신호라고 한다.
따라서, 수학식 4로부터, 선형 예측 계수 αp를 IIR 필터의 탭 계수로 함과 함께, 잔차 신호 en을 IIR 필터의 입력 신호로 함으로써, 음성 신호 sn을 구할 수 있다.
그래서, 음성 합성 필터(6)는 상술한 바와 같이 벡터 양자화부(5)로부터의 선형 예측 계수 αp'를 탭 계수로 함과 함께, 연산기(14)로부터 공급되는 잔차 신호 e를 입력 신호로 하여 수학식 4를 연산하여 음성 신호(합성음 데이터) ss를 구한다.
또, 음성 합성 필터(6)에서는 LPC 분석부(4)에 의한 LPC 분석의 결과로 얻어지는 선형 예측 계수 αp가 아닌, 그 벡터 양자화의 결과로 얻어지는 코드에 대응하는 코드 벡터로서의 선형 예측 계수 αp'가 이용되므로, 음성 합성 필터(6)가 출력하는 합성음 신호는 A/D 변환부(2)가 출력하는 음성 신호와는 기본적으로 동일하지 않게 된다.
음성 합성 필터(6)가 출력하는 합성음 데이터 ss는 연산기(3)에 공급된다. 연산기(3)는 음성 합성 필터(6)로부터의 합성음 데이터 ss에서, A/D 변환부(2)가 출력하는 음성 신호 s를 감산하고(합성음 데이터 ss의 각 샘플에서, 그 샘플에 대응하는 음성 데이터 s의 샘플을 감산하고), 그 감산값을 제곱 오차 연산부(7)에 공급한다. 제곱 오차 연산부(7)는 연산기(3)로부터의 감산값의 제곱 합(제 k 서브 프레임의 각 샘플값의 감산값에 대한 제곱 합)을 연산하고, 그 결과 얻어지는 제곱 오차를 제곱 오차 최소 판정부(8)에 공급한다.
제곱 오차 최소 판정부(8)는 제곱 오차 연산부(7)가 출력하는 제곱 오차에 대응하여, 장기(長期) 예측 러그를 나타내는 코드로서의 L 코드(L_code)를, 게인을 나타내는 코드로서 G 코드(G_code)를, 및 부호어(여기(勵起) 코드북)를 나타내는 코드로서 I 코드(I_code)를 기억하고 있으며, 제곱 오차 연산부(7)가 출력하는 제곱 오차에 대응하는 L 코드, G 코드 및 I 코드를 출력한다. L 코드는 적응 코드북 기억부(9)에 공급되고, G 코드는 게인 복호기(10)에 공급되고, I 코드는 여기 코드북 기억부(11)에 공급된다. 또한, L 코드, G 코드 및 I 코드는 코드 결정부(15)에도 공급된다.
적응 코드북 기억부(9)는, 예를 들면 7비트의 L 코드와, 소정의 지연 시간(러그)에 대응한 적응 코드북을 기억하고 있으며, 연산기(14)로부터 공급되는 잔차 신호 e를 제곱 오차 최소 판정부(8)로부터 공급되는 L 코드에 대응된 지연 시간(장기 예측 러그)만큼 지연하여, 연산기(12)로 출력한다.
여기서, 적응 코드북 기억부(9)는 잔차 신호 e를 L 코드에 대응하는 시간만 큼 지연하여 출력함으로써, 그 출력 신호는 그 지연 시간을 주기로 하는 주기 신호에 가까운 신호가 된다. 이 신호는 선형 예측 계수를 이용한 음성 합성에 있어서, 주로 유성음의 합성음을 생성하기 위한 구동 신호가 된다. 따라서, L 코드는 개념적으로는 음성의 피치 주기를 의미한다. 또, CELP의 규격에 따르면, L 코드는 20 내지 146 범위의 정수 값을 취한다.
게인 복호기(10)는 G 코드와, 소정의 게인 β 및 γ를 대응시킨 테이블을 기억하고 있으며, 제곱 오차 최소 판정부(8)로부터 공급되는 G 코드에 대응된 게인 β 및 γ를 출력한다. 게인 β 및 γ는 연산기(12, 13)에 각각 공급된다. 여기서, 게인 β는 장기 필터 상태 출력 게인이라고 하며, 또한 게인 γ는 여기 코드북 게인이라고 한다.
여기 코드북 기억부(11)는, 예를 들면 9비트의 I 코드와, 소정의 여기 신호에 대응한 여기 코드북을 기억하고 있으며, 제곱 오차 최소 판정부(8)로부터 공급되는 I 코드에 대응된 여기 신호를 연산기(13)로 출력한다.
여기서, 여기 코드북에 기억되어 있는 여기 신호는, 예를 들면 백색 잡음 등에 가까운 신호이고, 선형 예측 계수를 이용한 음성 합성에 있어서, 주로, 무성음의 합성음을 생성하기 위한 구동 신호가 된다.
연산기(12)는 적응 코드북 기억부(9)의 출력 신호와, 게인 복호기(10)가 출력하는 게인 β를 승산하고, 그 승산값 l을 연산기(14)에 공급한다. 연산기(13)는 여기 코드북 기억부(11)의 출력 신호와, 게인 복호기(10)가 출력하는 게인 γ를 승산하고, 그 승산값 n을 연산기(14)에 공급한다. 연산기(14)는 연산기(12)로부터의 승산값 l과 연산기(13)로부터의 승산값 n을 가산하고, 그 가산값을 잔차 신호 e로 하여, 음성 합성 필터(6)와 적응 코드북 기억부(9)에 공급한다.
음성 합성 필터(6)에서는, 이상과 같이 하여 연산기(14)로부터 공급되는 잔차 신호 e가, 벡터 양자화부(5)로부터 공급되는 선형 예측 계수 αp'를 탭 계수로 하는 IIR 필터로 필터링되고, 그 결과 얻어지는 합성음 데이터가 연산기(3)에 공급된다. 그리고, 연산기(3) 및 제곱 오차 연산부(7)에서, 상술한 경우와 마찬가지의 처리가 행해지고, 그 결과 얻어지는 제곱 오차가 제곱 오차 최소 판정부(8)에 공급된다.
제곱 오차 최소 판정부(8)는 제곱 오차 연산부(7)로부터의 제곱 오차가 최소(극소)로 되는지를 판정한다. 그리고, 제곱 오차 최소 판정부(8)는 제곱 오차가 최소로 되어 있지 않다고 판정한 경우, 상술된 바와 같이 그 제곱 오차에 대응하는 L 코드, G 코드 및 I 코드를 출력하고, 이하 마찬가지의 처리가 반복된다.
한편, 제곱 오차 최소 판정부(8)는 제곱 오차가 최소가 되었다고 판정한 경우, 확정 신호를 코드 결정부(15)로 출력한다. 코드 결정부(15)는 벡터 양자화부(5)로부터 공급되는 A 코드를 래치함과 함께, 제곱 오차 최소 판정부(8)로부터 공급되는 L 코드, G 코드 및 I 코드를 순차적으로 래치하며, 제곱 오차 최소 판정부(8)로부터 확정 신호를 수신하면, 그 때 래치하고 있는 A 코드, L 코드, G 코드 및 I 코드를 채널 인코더(16)에 공급한다. 채널 인코더(16)는 코드 결정부(15)로부터의 A 코드, L 코드, G 코드 및 I 코드를 다중화하고, 코드 데이터 로서 출력한다. 이 코드 데이터는 전송로를 통해 송신된다.
이상으로부터, 코드 데이터는 복호에 이용되는 정보인 A 코드, L 코드, G 코드 및 I 코드를 서브 프레임 단위마다 갖는 부호화 데이터로 된다.
여기서는 A 코드, L 코드, G 코드 및 I 코드는 서브 프레임별로 구해지는 것으로 하고 있지만, 예를 들면 A 코드에 대해서는 프레임별로 구하는 경우가 있고, 이 경우 그 프레임을 구성하는 4개의 서브 프레임의 복호에는 동일한 A 코드가 이용된다. 단, 이 경우라도, 그 1프레임을 구성하는 4개의 서브 프레임 각각이, 동일한 A 코드를 갖고 있다고 볼 수 있으며, 그와 같이 생각함으로써, 코드 데이터는 복호에 이용되는 정보인 A 코드, L 코드, G 코드 및 I 코드를 서브 프레임 단위마다 갖는 부호화 데이터로 된다고 볼 수 있다.
여기서, 도 1(후술하는 도 2, 도 5, 도 9, 도 11, 도 16, 도 18 및 도 21에서도 동일)에서는, 각 변수에 [k]가 붙어, 배열 변수로 된다. 이 k는 서브 프레임 수를 나타내지만, 명세서 상에서는 그 기술은 적절하게 생략한다.
다음으로, 이상과 같이 하여, 다른 휴대 전화기의 송신부로부터 송신되어 오는 코드 데이터는 도 2에 도시한 수신부의 채널 디코더(21)로 수신된다. 채널 디코더(21)는 코드 데이터로부터, L 코드, G 코드, I 코드, A 코드를 분리하고, 각각을 적응 코드북 기억부(22), 게인 복호기(23), 여기 코드북 기억부(24), 필터 계수 복호기(25)에 공급한다.
적응 코드북 기억부(22), 게인 복호기(23), 여기 코드북 기억부(24), 연산기(26) 내지 연산기(28)는 도 1의 적응 코드북 기억부(9), 게인 복호기(10), 여기 코드북 기억부(11), 연산기(12) 내지 연산기(14)와 각각 마찬가지로 구성되기 때문에, 도 1에서 설명한 경우와 마찬가지의 처리가 행해짐으로써, L 코드, G 코드 및 I 코드가 잔차 신호 e로 복호된다. 이 잔차 신호 e는 음성 합성 필터(29)에 입력 신호로서 인가된다.
필터 계수 복호기(25)는 도 1의 벡터 양자화(5)가 기억하고 있는 것과 동일한 코드북을 기억하고 있으며, A 코드를 선형 예측 계수 αp'로 복호하여 음성 합성 필터(29)에 공급한다.
음성 합성 필터(29)는 도 1의 음성 합성 필터(6)와 마찬가지로 구성되어 있으며, 필터 계수 복호기(25)로부터의 선형 예측 계수 αp'를 탭 계수로 함과 함께, 연산기(28)로부터 공급되는 잔차 신호 e를 입력 신호로 하여, 수학식 4를 연산하고, 이에 의해 도 1의 제곱 오차 최소 판정부(8)에서 제곱 오차가 최소라고 판정되었을 때의 합성음 데이터를 생성한다. 이 합성음 데이터는 D/A(Digital/Analog) 변환부(30)에 공급된다. D/A 변환부(30)는 음성 합성 필터(29)로부터의 합성음 데이터를 디지털 신호로부터 아날로그 신호로 D/A 변환하고, 스피커(31)에 공급하여 출력시킨다.
또, 코드 데이터에 있어서, A 코드가 서브 프레임 단위가 아닌, 프레임 단위로 배치되어 있는 경우, 도 2의 수신부에서는 프레임을 구성하는 4개의 서브 프레임 전체 복호에, 그 프레임에 배치된 A 코드에 대응하는 선형 예측 계수를 이용할 수 있는 것 외에, 각 서브 프레임에 대하여, 인접하는 프레임의 A 코드에 대응하는 선형 예측 계수를 이용하여 보간을 행하고, 그 보간 결과로 얻어지는 선형 예측 계수를 각 서브 프레임의 복호에 이용할 수 있다.
이상과 같이, 휴대 전화기의 송신부로부터는 수신부의 음성 합성 필터(29)에 인가되는 입력 신호로서의 잔차 신호와 선형 예측 계수가 코드화되어 송신되어 오기 때문에, 수신부에서는 그 코드가 잔차 신호와 선형 예측 계수로 복호된다. 그러나, 이 복호된 잔차 신호나 선형 예측 계수(이하, 적절하게, 각각을 복호 잔차 신호 또는 복호 선형 예측 계수라고 함)에는, 양자화 오차 등의 오차가 포함되므로, 음성을 LPC 분석하여 얻어지는 잔차 신호와 선형 예측 계수에는 일치하지 않는다.
이 때문에, 수신부의 음성 합성 필터(29)가 출력하는 합성음 데이터는, 왜곡 등을 갖는 음질이 열화한 것이 된다.
〈발명의 개시〉
본 발명은 이러한 상황을 감안하여 이루어진 것으로, 고음질의 합성음 등을 얻을 수 있도록 하는 것이다.
본 발명의 제1 데이터 처리 장치는, 소정의 데이터 중 주목하고 있는 주목 데이터에 대하여, 주기 정보에 따라 소정의 데이터를 추출함으로써, 소정의 처리에 이용하는 탭을 생성하는 탭 생성 수단과, 탭을 이용하여 주목 데이터에 대하여 소정의 처리를 행하는 처리 수단을 포함하는 것을 특징으로 한다.
본 발명의 제1 데이터 처리 방법은, 소정의 데이터 중 주목하고 있는 주목 데이터에 대하여, 주기 정보에 따라 소정의 데이터를 추출함으로써, 소정의 처리에 이용하는 탭을 생성하는 탭 생성 단계와, 탭을 이용하여 주목 데이터에 대하여 소정의 처리를 행하는 처리 단계를 포함하는 것을 특징으로 한다.
본 발명의 제1 프로그램은, 소정의 데이터 중 주목하고 있는 주목 데이터에 대하여, 주기 정보에 따라 소정의 데이터를 추출함으로써, 소정의 처리에 이용하는 탭을 생성하는 탭 생성 단계와, 탭을 이용하여 주목 데이터에 대하여 소정의 처리를 행하는 처리 단계를 포함하는 것을 특징으로 한다.
본 발명의 제1 기록 매체는, 소정의 데이터 중 주목하고 있는 주목 데이터에 대하여, 주기 정보에 따라 소정의 데이터를 추출함으로써, 소정의 처리에 이용하는 탭을 생성하는 탭 생성 단계와, 탭을 이용하여 주목 데이터에 대하여 소정의 처리를 행하는 처리 단계를 포함하는 프로그램이 기록되어 있는 것을 특징으로 한다.
본 발명의 제2 데이터 처리 장치는, 학습의 교사가 되는 교사 데이터로부터 소정의 데이터와 주기 정보를, 학습의 학생이 되는 학생 데이터로서 생성하는 학생 데이터 생성 수단과, 학생 데이터로서의 소정의 데이터 중 주목하고 있는 주목 데이터에 대하여, 주기 정보에 따라 소정의 데이터를 추출함으로써, 교사 데이터를 예측하는 데 이용하는 예측 탭을 생성하는 예측 탭 생성 수단과, 예측 탭과 탭 계수를 이용하여, 소정의 예측 연산을 행함으로써 얻어지는 교사 데이터의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습을 행하여 탭 계수를 구하는 학습 수단을 포함하는 것을 특징으로 한다.
본 발명의 제2 데이터 처리 방법은, 학습의 교사가 되는 교사 데이터로부터 소정의 데이터와 주기 정보를, 학습의 학생이 되는 학생 데이터로서 생성하는 학생 데이터 생성 단계와, 학생 데이터로서의 소정의 데이터 중 주목하고 있는 주목 데이터에 대하여, 주기 정보에 따라 소정의 데이터를 추출함으로써, 교사 데이터를 예측하는 데 이용하는 예측 탭을 생성하는 예측 탭 생성 단계와, 예측 탭과 탭 계수를 이용하여, 소정의 예측 연산을 행함으로써 얻어지는 교사 데이터의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습을 행하여 탭 계수를 구하는 학습 단계를 포함하는 것을 특징으로 하다.
본 발명의 제2 프로그램은, 학습의 교사가 되는 교사 데이터로부터 소정의 데이터와 주기 정보를, 학습의 학생이 되는 학생 데이터로서 생성하는 학생 데이터 생성 단계와, 학생 데이터로서의 소정의 데이터 중 주목하고 있는 주목 데이터에 대하여, 주기 정보에 따라 소정의 데이터를 추출함으로써, 교사 데이터를 예측하는 데 이용하는 예측 탭을 생성하는 예측 탭 생성 단계와, 예측 탭과 탭 계수를 이용하여, 소정의 예측 연산을 행함으로써 얻어지는 교사 데이터의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습을 행하여 탭 계수를 구하는 학습 단계를 포함하는 것을 특징으로 한다.
본 발명의 제2 기록 매체는, 학습의 교사가 되는 교사 데이터로부터 소정의 데이터와 주기 정보를, 학습의 학생이 되는 학생 데이터로서 생성하는 학생 데이터 생성 단계와, 학생 데이터로서의 소정의 데이터 중 주목하고 있는 주목 데이터에 대하여, 주기 정보에 따라 소정의 데이터를 추출함으로써, 교사 데이터를 예측하는 데 이용하는 예측 탭을 생성하는 예측 탭 생성 단계와, 예측 탭과 탭 계수를 이용하여, 소정의 예측 연산을 행함으로써 얻어지는 교사 데이터의 예측값의 예측 오차 가 통계적으로 최소가 되도록 학습을 행하여 탭 계수를 구하는 학습 단계를 포함하는 프로그램이 기록되어 있는 것을 특징으로 한다.
본 발명의 제1 데이터 처리 장치 및 데이터 처리 방법과, 프로그램 및 기록 매체에 있어서는, 소정의 데이터 중 주목하고 있는 주목 데이터에 대하여, 주기 정보에 따라 소정의 데이터를 추출함으로써, 소정의 처리에 이용하는 탭이 생성되고, 그 탭을 이용하여 주목 데이터에 대하여 소정의 처리가 행해진다.
본 발명의 제2 데이터 처리 장치 및 데이터 처리 방법과, 프로그램 및 기록 매체에 있어서는, 학습의 교사가 되는 교사 데이터로부터 소정의 데이터와 주기 정보가, 학습의 학생이 되는 학생 데이터로서 생성된다. 그리고, 학생 데이터로서의 소정의 데이터 중 주목하고 있는 주목 데이터에 대하여, 주기 정보에 따라 소정의 데이터를 추출함으로써, 교사 데이터를 예측하는 데 이용하는 예측 탭이 생성되고, 예측 탭과 탭 계수를 이용하여 소정의 예측 연산을 행함으로써 얻어지는 교사 데이터의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습이 행해져 탭 계수가 구해진다.
도 1은 종래의 휴대 전화기의 송신부의 일례의 구성을 도시하는 블록도.
도 2는 종래의 휴대 전화기의 수신부의 일례의 구성을 도시하는 블록도.
도 3은 본 발명을 적용한 전송 시스템의 일 실시예의 구성예를 나타내는 도면.
도 4는 휴대 전화기(1011, 1012)의 구성예를 도시하는 블록도.
도 5는 수신부(114)의 제1 구성예를 도시하는 블록도.
도 6은 도 5의 수신부(114)의 처리를 설명하는 흐름도.
도 7은 예측 탭과 클래스 탭의 생성 방법을 설명하는 도면.
도 8은 예측 탭과 클래스 탭의 생성 방법을 설명하는 도면.
도 9는 본 발명을 적용한 학습 장치의 제1 실시예의 구성예를 도시하는 블록도.
도 10은 도 9의 학습 장치의 처리를 설명하는 흐름도.
도 11은 수신부(114)의 제2 구성예를 도시하는 블록도.
도 12A∼도 12C는 합성음 데이터의 파형의 추이를 도시하는 도면.
도 13은 탭 생성부(301, 302)의 구성예를 도시하는 블록도.
도 14는 탭 생성부(301, 302)의 처리를 설명하는 흐름도.
도 15는 탭 생성부(301, 302)의 다른 구성예를 도시하는 블록도.
도 16은 본 발명을 적용한 학습 장치의 제2 실시예의 구성예를 도시하는 블록도.
도 17은 탭 생성부(321, 322)의 구성예를 도시하는 블록도.
도 18은 수신부(114)의 제3 구성예를 도시하는 블록도.
도 19는 도 18의 수신부(114)의 처리를 설명하는 흐름도.
도 20은 탭 생성부(341, 342)의 구성예를 도시하는 블록도.
도 21은 본 발명을 적용한 학습 장치의 제3 실시예의 구성예를 도시하는 블록도.
도 22는 도 21의 학습 장치의 처리를 설명하는 흐름도.
도 23은 본 발명을 적용한 컴퓨터의 일 실시예의 구성예를 도시하는 블록도.
〈발명을 실시하기 위한 최량의 형태〉
도 3은 본 발명을 적용한 전송 시스템(시스템은 복수의 장치가 논리적으로 집합된 것을 의미하며, 각 구성의 장치가 동일 케이스 내에 있는지의 여부는 불문함)의 일 실시예의 구성을 도시하고 있다.
이 전송 시스템에서는 휴대 전화기(1011, 1012)가 각각의 기지국(1021, 1022)과의 사이에서, 무선에 의한 송수신을 행함과 함께, 각각의 기지국(1021, 1022)이 교환국(103)과의 사이에서 송수신을 행함으로써, 최종적으로는 휴대 전화기(1011, 1012) 사이에서, 기지국(1021, 1022) 및 교환국(103)을 통해 음성의 송수신을 행할 수 있게 된다. 또, 기지국(1021, 1022)은 동일한 기지국이어도 되고, 다른 기지국이어도 된다.
여기서, 이하 특별히 구별할 필요가 없는 한, 휴대 전화기(1011, 1012)를 휴대 전화기(101)라고 기술한다.
다음으로, 도 4는 도 3의 휴대 전화기(101)의 구성예를 도시하고 있다.
이 휴대 전화기(101)에서는 CELP 방식에 의해 음성의 송수신이 행해지게 되 어 있다.
즉, 안테나(111)는 기지국(1021) 또는 기지국(1022)으로부터의 전파를 수신하고, 그 수신 신호를 변복조부(112)에 공급함과 함께, 변복조부(112)로부터의 신호를 전파로, 기지국(1021) 또는 기지국(1022)으로 송신한다. 변복조부(112)는 안테나(111)로부터의 신호를 복조하고, 그 결과 얻어지는, 도 1에서 설명한 바와 같은 코드 데이터를 수신부(114)에 공급한다. 또한, 변복조부(112)는 송신부(113)로부터 공급되는, 도 1에서 설명한 바와 같은 코드 데이터를 변조하고, 그 결과 얻어지는 변조 신호를 안테나(111)에 공급한다. 송신부(113)는 도 1에 도시한 송신부와 마찬가지로 구성되고, 입력되는 사용자의 음성을 CELP 방식에 의해 코드 데이터로 부호화하여 변복조부(112)에 공급한다. 수신부(114)는 변복조부(112)로부터의 코드 데이터를 수신하여 CELP 방식에 의해 복호하고, 또한 고음질의 음성을 복호하여 출력한다.
즉, 수신부(114)에서는, 예를 들면 클래스 분류 적응 처리를 이용하여, CELP 방식으로 복호된 합성음이, 또한 순수 고음질의 음성(의 예측값)으로 복호된다.
여기서, 클래스 분류 적응 처리는 클래스 분류 처리와 적응 처리로 이루어지며, 클래스 분류 처리에 의해, 데이터를 그 성질에 기초하여 클래스 분류하고, 각 클래스별로 적응 처리를 실시하는 것이며, 적응 처리는 다음과 같은 방법이다.
즉, 적응 처리로는, 예를 들면 합성음과 소정의 탭 계수의 선형 결합에 의해 고음질의 음성의 예측값이 구해진다.
구체적으로는, 예를 들면 지금 고음질의 음성(의 샘플값)을 교사 데이터로 함과 함께, 그 고음질의 음성을 CELP 방식에 의해, L 코드, G 코드, I 코드 및 A 코드로 부호화하고, 이들 코드를 도 2에 도시한 수신부에서 복호함으로써 얻어지는 합성음을 학생 데이터로 하여, 교사 데이터인 고음질의 음성 y의 예측값 E[y]를 몇 개의 합성음(의 샘플값) x1, x2, …의 집합과 소정의 탭 계수 w1, w2 , …의 선형 결합에 의해 규정되는 선형 1차 결합 모델에 의해 구하는 것을 생각한다. 이 경우, 예측값 E[y]는 다음 식으로 표현할 수 있다.
Figure 112002031072773-pct00006
수학식 6을 일반화하기 위해서, 탭 계수 Wj의 집합인 행렬 W, 학생 데이터 xij의 집합인 행렬 X 및 예측값 E[yj]의 집합인 행렬 Y'를
Figure 112002031072773-pct00007
로 정의하면, 다음과 같은 관측 방정식이 성립한다.
Figure 112002031072773-pct00008
여기서, 행렬 X의 성분 xij는 i건째의 학생 데이터의 집합(i건째의 교사 데이터 yi의 예측에 이용하는 학생 데이터의 집합) 중 j번째의 학생 데이터를 의미하고, 행렬 W의 성분 wj는 학생 데이터의 집합 중 j번째의 학생 데이터와의 곱이 연산되는 탭 계수를 의미한다. 또한, yi는 i건째의 교사 데이터를 나타내고, 따라서 E[yi]는 i건째의 교사 데이터의 예측값을 나타낸다. 또, 수학식 6의 좌변에서의 y는 행렬 Y의 성분 yi의 첨자 i를 생략한 것이며, 또한 수학식 6의 우변에서의 x1, x2, …도, 행렬 X의 성분 xij의 첨자 i를 생략한 것이다.
그리고, 이 관측 방정식에 최소 제곱법을 적용하여, 순수 고음질의 음성 y에 가까운 예측값 E[y]를 구하는 것을 생각한다. 이 경우, 교사 데이터가 되는 순수 고음질의 음성 y의 집합인 행렬 Y 및 고음질의 음성 y에 대한 예측값 E[y]의 잔차 e의 집합인 행렬 E를
Figure 112002031072773-pct00009
로 정의하면, 수학식 8로부터, 다음과 같은 잔차 방정식이 성립한다.
Figure 112002031072773-pct00010
이 경우, 순수 고음질의 음성 y에 가까운 예측값 E[y]를 구하기 위한 탭 계수 wj는 제곱 오차
Figure 112002031072773-pct00011
를 최소로 함으로써 구할 수 있다.
따라서, 상술한 제곱 오차를 탭 계수 wj로 미분한 것이 0이 되는 경우, 즉 다음 식을 만족하는 탭 계수 wj가, 순수 고음질의 음성 y에 가까운 예측값 E[y]를 구하기 위한 최적치가 된다.
Figure 112002031072773-pct00012
여기서, 우선, 수학식 10을 탭 계수 wj로 미분함으로써, 다음 식이 성립한다.
Figure 112002031072773-pct00013
수학식 12 및 수학식 13으로부터, 수학식 14가 얻어진다.
Figure 112002031072773-pct00014
또한, 수학식 10의 잔차 방정식에서의 학생 데이터 xij, 탭 계수 wj, 교사 데이터 yi 및 오차 ei의 관계를 고려하면, 수학식 14로부터, 다음과 같은 정규 방정식을 얻을 수 있다.
Figure 112002031072773-pct00015
또, 수학식 15로 표현한 정규 방정식은 행렬(공분산 행렬) A 및 벡터 v를
Figure 112002031072773-pct00016
로 정의함과 함께, 벡터 W를 수학식 1로 표현한 바와 같이 정의하면,
Figure 112002031072773-pct00017
로 표현할 수 있다.
수학식 15에서의 각 정규 방정식은, 학생 데이터 xij 및 교사 데이터 yi의 세트를 어느 정도의 수만큼 준비함으로써, 구해야 하는 탭 계수 wj의 수 J와 동일한 수만큼 세울 수 있고, 따라서 수학식 17을 벡터 W에 대하여 푸는 것으로(단, 수학식 17을 풀기 위해서는 수학식 17에서의 행렬 A가 정칙일 필요가 있음), 최적의 탭 계수(여기서는 제곱 오차를 최소로 하는 탭 계수) wj를 구할 수 있다. 또, 수학식 17을 푸는데 있어서는, 예를 들면 소거법(Gauss-Jordan 소거법) 등을 이용할 수 있다.
이상과 같이 하여, 최적의 탭 계수 wj를 구해 두고, 또한 그 탭 계수 wj를 이용하여, 수학식 6에 의해, 순수 고음질의 음성 y에 가까운 예측값 E[y]를 구하는 것이 적응 처리이다.
또, 예를 들면, 교사 데이터로서, 높은 샘플링 주파수로 샘플링한 음성 신호, 또는 다비트를 할당한 음성 신호를 이용함과 함께, 학생 데이터로서, 그 교사 데이터로서의 음성 신호를 씨닝하거나, 저비트로 재양자화한 음성 신호를 CELP 방식에 의해 부호화하고, 그 부호화 결과를 복호하여 얻어지는 합성음을 이용한 경우, 탭 계수로서는 높은 샘플링 주파수로 샘플링한 음성 신호, 또는 다비트를 할당한 음성 신호를 생성하는 데, 예측 오차가 통계적으로 최소가 되는 고음질의 음성이 얻어지게 된다. 따라서, 이 경우, 보다 고음질의 합성음을 얻을 수 있다.
도 4의 수신부(114)에서는, 이상과 같은 클래스 분류 적응 처리에 의해, 코드 데이터를 복호하여 얻어지는 합성음을 또한, 고음질의 음성으로 복호하게 된다.
즉, 도 5는 도 4의 수신부(114)의 제1 구성예를 도시하고 있다. 도 5에서, 도 2에 대응하는 부분에 대해서는 동일한 부호를 붙이며, 이하에서 그 설명은 적절하게 생략한다.
탭 생성부(121, 122)에는 음성 합성 필터(29)가 출력하는 서브 프레임별 합성음 데이터와, 채널 디코더(21)가 출력하는 서브 프레임별 L 코드, G 코드, I 코 드, A 코드 중 L 코드가 공급된다. 탭 생성부(121, 122)는 공급되는 합성음 데이터로부터, 고음질의 음성의 예측값을 예측하는 데 이용하는 예측 탭으로 하는 것과, 클래스 분류에 이용하는 클래스 탭으로 하는 것을 L 코드에 기초하여 각각 추출한다. 예측 탭은 예측부(125)에 공급되고, 클래스 탭은 클래스 분류부(123)에 공급된다.
클래스 분류부(123)는 탭 생성부(122)로부터 공급되는 클래스 탭에 기초하여 클래스 분류를 행하고, 그 클래스 분류 결과로서의 클래스 코드를 계수 메모리(124)에 공급한다.
여기서, 클래스 분류부(123)에서의 클래스 분류 방법으로서는, 예를 들면 K비트 ADRC(Adaptive Dynamic Range Coding) 처리를 이용한 방법 등이 있다.
여기서, K비트 ADRC 처리에 있어서는, 예를 들면 클래스 탭을 구성하는 데이터의 최대치 MAX와 최소치 MIN이 검출되고, DR=MAX-MIN을 집합이 국소적인 다이내믹 범위로 하고, 이 다이내믹 범위 DR에 기초하여, 클래스 탭을 구성하는 각 데이터가 K비트로 재양자화된다. 즉, 클래스 탭을 구성하는 각 데이터로부터 최소치 MIN이 감산되고, 그 감산값이 DR/2K로 제산(양자화)된다. 그리고, 이상과 같이 하여 얻어지는, 클래스 탭을 구성하는 각 데이터의 K비트의 값을 소정의 순서로 배열한 비트 열이, ADRC 코드로서 출력된다.
이러한 K비트 ADRC 처리를 클래스 분류에 이용하는 경우에는, 예를 들면 그 K비트 ADRC 처리의 결과로 얻어지는 ADRC 코드를 클래스 코드로 할 수 있다.
또, 클래스 분류는 그 외에, 예를 들면, 클래스 탭을, 그것을 구성하는 각 데이터를 요소로 하는 벡터라고 보고, 그 벡터로서의 클래스 탭을 벡터 양자화하는 것 등에 의해 행할 수도 있다.
계수 메모리(124)는, 후술하는 도 9의 학습 장치에서 학습 처리가 행해짐으로써 얻어지는, 클래스별 탭 계수를 기억하고 있으며, 클래스 분류부(123)가 출력하는 클래스 코드에 대응하는 어드레스에 기억되어 있는 탭 계수를 예측부(125)에 공급한다.
예측부(125)는 탭 생성부(121)가 출력하는 예측 탭과 계수 메모리(124)가 출력하는 탭 계수를 취득하고, 그 예측 탭과 탭 계수를 이용하여 수학식 6으로 표현한 선형 예측 연산을 행한다. 이에 의해, 예측부(125)는 주목하고 있는 주목 서브 프레임에 대하여, 고음질의 음성(의 예측값)을 구하여, D/A 변환부(30)에 공급한다.
다음으로, 도 6의 흐름도를 참조하여, 도 5의 수신부(114)의 처리에 대하여 설명한다.
채널 디코더(21)는 공급되는 코드 데이터로부터, L 코드, G 코드, I 코드, A 코드를 분리하고, 각각을 적응 코드북 기억부(22), 게인 복호기(23), 여기 코드북 기억부(24), 필터 계수 복호기(25)에 공급한다. 또한, L 코드는 탭 생성부(121, 122)에도 공급된다.
그리고, 적응 코드북 기억부(22), 게인 복호기(23), 여기 코드북 기억부(24), 연산기(26) 내지 연산기(28)는, 도 2에서의 경우와 마찬가지의 처리를 행하고, 이에 의해 L 코드, G 코드 및 I 코드가 잔차 신호 e로 복호된다. 이 잔차 신호는 음성 합성 필터(29)에 공급된다.
또한, 필터 계수 복호기(25)는 도 2에서 설명한 바와 같이, 공급되는 A 코드를 선형 예측 계수로 복호하여, 음성 합성 필터(29)에 공급한다. 음성 합성 필터(29)는 연산기(28)로부터의 잔차 신호와, 필터 계수 복호기(25)로부터의 선형 예측 계수를 이용하여 음성 합성을 행하고, 그 결과 얻어지는 합성음을 탭 생성부(121, 122)에 공급한다.
탭 생성부(121)는 음성 합성 필터(29)가 순차적으로 출력하는 합성음의 서브 프레임을 순차적으로 주목 서브 프레임으로 하고, 단계 S1에서 그 주목 서브 프레임의 합성음 데이터를 추출함과 함께, 그 주목 서브 프레임으로부터 보아 시간적으로 과거 방향 또는 미래 방향의 합성음 데이터를, 공급되는 L 코드에 기초하여 추출함으로써, 예측 탭을 생성하여, 예측부(125)에 공급한다. 또한, 단계 S1에서는 탭 생성부(122)는 예를 들면, 역시 주목 서브 프레임의 합성음 데이터를 추출함과 함께, 그 주목 서브 프레임으로부터 보아 시간적으로 과거 방향 또는 미래 방향의 합성음 데이터를, 공급되는 L 코드에 기초하여 추출함으로써, 클래스 탭을 생성하여, 클래스 분류부(123)에 공급한다.
그리고, 단계 S2로 진행하여, 클래스 분류부(123)는 탭 생성부(122)로부터 공급되는 클래스 탭에 기초하여 클래스 분류를 행하고, 그 결과 얻어지는 클래스 코드를 계수 메모리(124)에 공급하고, 단계 S3으로 진행한다.
단계 S3에서는, 계수 메모리(124)는 클래스 분류부(123)로부터 공급되는 클 래스 코드에 대응하는 어드레스로부터 탭 계수를 판독하여, 예측부(125)에 공급한다.
그리고, 단계 S4로 진행하여, 예측부(125)는 계수 메모리(124)가 출력하는 탭 계수를 취득하고, 그 탭 계수와, 탭 생성부(121)로부터의 예측 탭을 이용하여 수학식 6으로 표현한 곱의 합 연산을 행하여, 주목 서브 프레임의 고음질의 음성 데이터(의 예측값)를 얻는다.
또, 단계 S1 내지 S4의 처리는, 주목 서브 프레임의 합성음 데이터의 샘플값 각각을 주목 데이터로서 행해진다. 즉, 서브 프레임의 합성음 데이터는 상술한 바와 같이, 40 샘플로 구성되므로, 그 40 샘플의 합성음 데이터 각각에 대하여, 단계 S1 내지 S4의 처리가 행해진다.
이상과 같이 하여 얻어진 고음질의 음성 데이터는, 예측부(125)로부터 D/A 변환부(30)를 통해 스피커(31)에 공급되고, 이에 의해, 스피커(31)로부터는 고음질의 음성이 출력된다.
단계 S4의 처리 후에는 단계 S5로 진행하여, 아직 주목 서브 프레임으로서 처리해야 할 서브 프레임이 있는지가 판정되고, 있다고 판정된 경우, 단계 S1로 되돌아가, 다음으로 주목 서브 프레임으로 해야 할 서브 프레임을 새롭게 주목 서브 프레임으로 하고, 이하 마찬가지의 처리를 반복한다. 또한, 단계 S5에서, 주목 서브 프레임으로서 처리해야 할 서브 프레임이 없다고 판정된 경우, 처리를 종료한다.
다음으로, 도 7 및 도 8을 참조하여, 도 5의 탭 생성부(121)에서의 예측 탭 의 생성 방법에 대하여 설명한다.
탭 생성부(121)는, 예를 들면 도 7에 도시한 바와 같이 주목 서브 프레임에서의 40 샘플의 합성음 데이터를 추출함과 함께, 주목 서브 프레임으로부터, 그 주목 서브 프레임에 배치되어 있는 L 코드가 나타내는 러그만큼 과거의 위치를 시점으로 하는 40 샘플의 합성음 데이터(이하, 적절하게, 러그 대응의 과거 데이터라고 함)를 추출하여, 주목 데이터에 대한 예측 탭으로 한다.
또는 탭 생성부(121)는, 예를 들면 도 8에 도시한 바와 같이 주목 서브 프레임의 40 샘플의 합성음 데이터를 추출함과 함께, L 코드가 나타내는 러그만큼 과거의 위치가 주목 서브 프레임 내의 합성음 데이터(예를 들면, 주목 데이터 등)의 위치가 되는 L 코드가 배치된, 주목 서브 프레임으로부터 보아 미래 방향의 서브 프레임에 배치된 40 샘플의 합성음 데이터(이하, 적절하게, 러그 대응의 미래 데이터라고 함)를 추출하여, 주목 데이터에 대한 예측 탭으로 한다.
또한, 탭 생성부(121)는 예를 들면, 주목 서브 프레임의 합성음 데이터, 러그 대응의 과거 데이터 및 러그 대응의 미래 데이터를 추출하여, 주목 데이터에 대한 예측 탭으로 한다.
여기서, 주목 데이터를 클래스 분류 적응 처리에 의해 예측하는 데 있어서, 주목 서브 프레임의 합성음 데이터 외에, 주목 서브 프레임 이외의 서브 프레임의 합성음 데이터를 예측 탭으로 이용함으로써, 보다 고음질의 음성을 얻을 수 있다고 생각된다. 그리고, 이 경우, 예측 탭은 예를 들면, 단순히 주목 서브 프레임의 합성음 데이터 외에, 주목 서브 프레임의 직전과 직후의 서브 프레임의 합성음 데이 터로 구성하는 것이 상정된다.
그러나, 이와 같이 예측 탭을 단순히 주목 서브 프레임의 합성음 데이터 및 주목 서브 프레임의 직전과 직후의 서브 프레임의 합성음 데이터로 구성하는 경우에는, 예측 탭의 구성의 방법에, 합성음 데이터의 파형 특성이 거의 고려되어 있지 않기 때문에, 그 만큼, 고음질화에 영향이 생긴다고 생각된다.
그래서, 탭 생성부(121)는, 상술된 바와 같이 예측 탭으로 하는 합성음 데이터를 L 코드에 기초하여 추출하게 된다.
즉, 서브 프레임에 배치되어 있는 L 코드가 나타내는 러그(장기 예측 러그)는 주목 데이터 부분의 합성음의 파형이, 과거의 어느 시점에서의 합성음의 파형과 유사한지를 나타내므로, 주목 데이터 부분의 파형과, 러그 대응의 과거 데이터나 러그 대응의 미래 데이터 부분의 파형은 큰 상관성을 갖는다.
따라서, 예측 탭을, 주목 서브 프레임의 합성음 데이터와, 그 합성음 데이터에 대하여 큰 상관을 갖는 러그 대응의 과거 데이터 또는 러그 대응의 미래 데이터 중 하나 또는 양쪽으로 구성함으로써, 보다 고음질의 음성을 얻을 수 있다.
여기서, 도 5의 탭 생성부(122)에서도, 예를 들면, 탭 생성부(121)에서의 경우와 마찬가지로 하여, 주목 서브 프레임의 합성음 데이터와, 러그 대응의 과거 데이터 또는 러그 대응의 미래 데이터 중 하나 또는 양쪽으로부터 클래스 탭을 생성할 수 있으며, 도 5의 실시예에서는 그와 같이 되어 있다.
또, 예측 탭이나 클래스 탭의 구성 패턴은, 상술한 패턴으로 한정되는 것은 아니다. 즉, 예측 탭이나 클래스 탭에는, 주목 서브 프레임의 모든 합성음 데이터 를 포함시키는 것 외에, 1 샘플 걸러 합성음 데이터만을 포함시키도록 하거나, 주목 서브 프레임에 배치되어 있는 L 코드가 나타내는 러그만큼 과거의 위치의 서브 프레임으로부터, 그 서브 프레임에 배치되어 있는 L 코드가 나타내는 러그만큼 과거의 위치의 서브 프레임의 합성음 데이터 등을 포함시키도록 하는 것 등이 가능하다.
또한, 상술한 경우에는 클래스 탭과 예측 탭을 동일 구성으로 하도록 했지만, 클래스 탭과 예측 탭은 다른 구성으로 할 수 있다.
또한, 상술한 경우에는 L 코드가 나타내는 러그만큼 과거의 위치가 주목 서브 프레임 내의 합성음 데이터(예를 들면, 주목 데이터 등)의 위치가 되는 L 코드가 배치된, 주목 서브 프레임으로부터 보아 미래 방향의 서브 프레임에 배치된 40 샘플의 합성음 데이터를 러그 대응의 미래 데이터로서 예측 탭에 포함시키도록 했지만, 러그 대응의 미래 데이터로서는 그 외에, 예를 들면, 다음과 같은 합성음 데이터를 이용하도록 할 수도 있다.
즉, CELP 방식에서 부호화 데이터에 포함되는 L 코드는, 상술한 바와 같이 그 L 코드가 배치되어 있는 서브 프레임의 합성음 데이터의 파형과 유사한 과거의 합성음 데이터의 위치를 나타내지만, 부호화 데이터에는 그와 같은 과거의 유사 파형의 위치를 나타내는 L 코드 외에, 미래의 유사 파형의 위치를 나타내는 L 코드(이하, 적절하게, 미래 L 코드라고 함)를 포함시키도록 할 수 있다. 이 경우, 주목 데이터에 대한 러드 개응의 미래 데이터로서는 주목 서브 프레임에 배치되어 있는 미래 L 코드가 나타내는 러그만큼 미래의 위치에 있는 합성음 데이터를 시점으로 하는 1 이상의 샘플을 이용할 수 있다.
다음으로, 도 9는 도 5의 계수 메모리(124)에 기억시키는 탭 계수의 학습 처리를 행하는 학습 장치의 일 실시예의 구성예를 도시하고 있다.
마이크(201) 내지 코드 결정부(215)는 도 1의 마이크(1) 내지 코드 결정부(15)와 각각 마찬가지로 구성된다. 마이크(1)에는 학습용 음성 신호가 입력되며, 따라서 마이크(201) 내지 코드 결정부(215)에서는 그 학습용 음성 신호에 대하여, 도 1에서의 경우와 마찬가지의 처리가 행해진다.
단, 코드 결정부(215)는 L 코드, G 코드, I 코드 및 A 코드 중, 본 실시예에서 예측 탭이나 클래스 탭을 구성하는 합성음 데이터를 추출하는 데 이용되는 L 코드만을 출력하게 된다.
그리고, 탭 생성부(131, 132)에는 제곱 오차 최소 판정부(208)에서 제곱 오차가 최소가 되었다고 판정되었을 때의 음성 합성 필터(206)가 출력하는 합성음 데이터가 공급된다. 또한, 탭 생성부(131, 132)에는 코드 결정부(215)가 제곱 오차 최소 판정부(208)로부터 확정 신호를 수신했을 때에 출력하는 L 코드도 공급된다. 또한, 정규 방정식 가산 회로(134)에는 A/D 변환부(202)가 출력하는 음성 데이터가 교사 데이터로서 공급된다.
탭 생성부(131)는 음성 합성 필터(206)가 출력하는 합성음 데이터로부터, 코드 결정부(215)가 출력하는 L 코드에 기초하여, 도 5의 탭 생성부(121)에서의 경우와 동일한 예측 탭을 생성하여, 학생 데이터로서, 정규 방정식 가산 회로(134)에 공급한다.
탭 생성부(132)도, 음성 합성 필터(206)가 출력하는 합성음 데이터로부터, 코드 결정부(215)가 출력하는 L 코드에 기초하여, 도 5의 탭 생성부(122)에서의 경우와 동일한 클래스 탭을 생성하여, 클래스 분류부(133)에 공급한다.
클래스 분류부(133)는 탭 생성부(132)로부터의 클래스 탭에 기초하여, 도 5의 클래스 분류부(123)에서의 경우와 마찬가지의 클래스 분류를 행하고, 그 결과 얻어지는 클래스 코드를 정규 방정식 가산 회로(134)에 공급한다.
정규 방정식 가산 회로(134)는 A/D 변환부(202)로부터의 음성 데이터를 교사 데이터로서 수신함과 함께, 탭 생성부(131)로부터의 예측 탭을 학생 데이터로서 수신하고, 그 교사 데이터 및 학생 데이터를 대상으로 하여, 클래스 분류부(133)로부터의 클래스 코드별로 어셈블(assemble)을 행한다.
즉, 정규 방정식 가산 회로(134)는 클래스 분류부(133)로부터 공급되는 클래스 코드에 대응하는 클래스별로 예측 탭(학생 데이터)을 이용하여, 수학식 17의 행렬 A에서의 각 성분으로 되어 있는, 학생 데이터끼리의 승산(XinXim)과, 서메이션(Σ)에 상당하는 연산을 행한다.
또한, 정규 방정식 가산 회로(134)는 역시, 클래스 분류부(133)로부터 공급되는 클래스 코드에 대응하는 클래스별로 학생 데이터 및 교사 데이터를 이용하여, 수학식 17의 벡터 v에서의 각 컴포넌트로 되어 있는, 학생 데이터와 교사 데이터의 승산(xinyi)과, 서메이션(Σ)에 상당하는 연산을 행한다.
정규 방정식 가산 회로(134)는 이상의 어셈블을, 공급되는 학습용 음성 데이 터의 서브 프레임 전부를 주목 서브 프레임으로 하고, 또한 그 주목 서브 프레임의 음성 데이터 전부를 주목 데이터로서 행하고, 이에 의해, 각 클래스에 대하여, 수학식 17로 표현한 정규 방정식을 세운다.
탭 계수 결정 회로(135)는 정규 방정식 가산 회로(134)에서 클래스별로 생성된 정규 방정식을 푸는 것에 의해, 클래스별로 탭 계수를 구하여, 계수 메모리(136)의 각 클래스에 대응하는 어드레스에 공급한다.
또, 학습용 음성 신호로서 준비한 음성 신호에 따라서는 정규 방정식 가산 회로(134)에서, 탭 계수를 구하는 데 필요한 수의 정규 방정식이 얻어지지 않는 클래스가 생기는 경우가 있을 수 있지만, 탭 계수 결정 회로(135)는 그와 같은 클래스에 대해서는, 예를 들면 디폴트의 탭 계수를 출력한다.
계수 메모리(136)는 탭 계수 결정 회로(135)로부터 공급되는 클래스별 탭 계수를 그 클래스에 대응하는 어드레스에 기억한다.
다음으로, 도 10의 흐름도를 참조하여, 도 9의 학습 장치로 행해지는, 고음질의 음성을 복호하기 위한 탭 계수를 구하는 학습 처리에 대하여 설명한다.
학습 장치에는 학습용 음성 신호가 공급되고, 단계 S11에서는 그 학습용 음성 신호로부터 교사 데이터와 학생 데이터가 생성된다.
즉, 학습용 음성 신호는 마이크(201)에 입력되고, 마이크(201) 내지 코드 결정부(215)는 도 1의 마이크(1) 내지 코드 결정부(15)에서의 경우와 각각 마찬가지의 처리를 행한다.
그 결과, A/D 변환부(202)에서 얻어지는 디지털 신호의 음성 데이터는, 교사 데이터로서 정규 방정식 가산 회로(134)에 공급된다. 또한, 제곱 오차 최소 판정부(208)에서 제곱 오차가 최소가 되었다고 판정되었을 때에, 음성 합성 필터(206)가 출력하는 합성음 데이터는 학생 데이터로서 탭 생성부(131, 132)에 공급된다. 또한, 제곱 오차 최소 판정부(208)에서 제곱 오차가 최소가 되었다고 판정되었을 때에, 코드 결정부(215)가 출력하는 L 코드도, 학생 데이터로서 탭 생성부(131, 132)에 공급된다.
그 후, 단계 S12로 진행하여, 탭 생성부(131)는 음성 합성 필터(206)로부터 학생 데이터로서 공급되는 합성음의 서브 프레임을 주목 서브 프레임으로 하고, 또한 그 주목 서브 프레임의 합성음 데이터를 순차적으로 주목 데이터로 하고, 각 주목 데이터에 대하여, 음성 합성 필터(206)로부터의 합성음 데이터를 이용하여, 코드 결정부(215)로부터의 L 코드에 기초하여, 도 5의 탭 생성부(121)에서의 경우와 마찬가지로 하여 예측 탭을 생성하여, 정규 방정식 가산 회로(134)에 공급한다. 또한, 단계 S12에서는 탭 생성부(132)가, 역시 합성음 데이터를 이용하여, L 코드에 기초하여, 도 5의 탭 생성부(122)에서의 경우와 마찬가지로 하여 클래스 탭을 생성하여, 클래스 분류부(133)에 공급한다.
단계 S12의 처리 후에는 단계 S13으로 진행하여, 클래스 분류부(133)는 탭 생성부(132)로부터의 클래스 탭에 기초하여 클래스 분류를 행하고, 그 결과 얻어지는 클래스 코드를 정규 방정식 가산 회로(134)에 공급한다.
그리고, 단계 S14로 진행하여, 정규 방정식 가산 회로(134)는 A/D 변환기(202)로부터의 교사 데이터로서의 고음질의 음성 데이터인 학습용 음성 데이 터 중 주목 데이터에 대응하는 것 및 탭 생성부(132)로부터의 학생 데이터로서의 예측 탭을 대상으로 하여, 수학식 17의 행렬 A와 벡터 v의, 상술한 바와 같은 어셈블을 클래스 분류부(133)로부터의 주목 데이터에 대한 클래스 코드마다 행하고, 단계 S15로 진행한다.
단계 S15에서는, 아직 주목 서브 프레임으로서 처리해야 할 서브 프레임이 있는지가 판정된다. 단계 S15에서, 아직 주목 서브 프레임으로서 처리해야 할 서브 프레임이 있다고 판정된 경우, 단계 S11로 되돌아가 다음의 서브 프레임을 새롭게 주목 서브 프레임으로 하고, 이하 마찬가지의 처리가 반복된다.
또한, 단계 S15에서, 주목 서브 프레임으로서 처리해야 할 서브 프레임이 없다고 판정된 경우, 단계 S16으로 진행하여, 탭 계수 결정 회로(135)는 정규 방정식 가산 회로(134)에서 각 클래스별로 생성된 정규 방정식을 푸는 것에 의해, 각 클래스별로 탭 계수를 구한 후, 계수 메모리(136)의 각 클래스에 대응하는 어드레스에 공급하고 기억시켜, 처리를 종료한다.
이상과 같이 하여, 계수 메모리(136)에 기억된 각 클래스별 탭 계수가 도 5의 계수 메모리(124)에 기억된다.
이상과 같이, 도 5의 계수 메모리(124)에 기억된 탭 계수는, 선형 예측 연산을 행함으로써 얻어지는 고음질의 음성 예측값의 예측 오차(제곱 오차)가 통계적으로 최소가 되도록 학습을 행함으로써 구해진 것이므로, 도 5의 예측부(125)가 출력하는 음성은 고음질이 된다.
또, 예를 들면, 도 5 및 도 9의 실시예에서는 예측 탭이나 클래스 탭을 음성 합성 필터(206)가 출력하는 합성음 데이터로 구성하도록 하였지만, 예측 탭이나 클래스 탭은 도 5 및 도 9에서 점선으로 도시한 바와 같이 I 코드나, L 코드, G 코드, A 코드로부터 얻어지는 선형 예측 계수 αp, G 코드로부터 얻어지는 게인 β, γ, 그 밖의 L 코드, G 코드, I 코드, 또는 A 코드로부터 얻어지는 정보(예를 들면, 잔차 신호 e나, 잔차 신호 e를 얻기 위한 l, n, 또한, l/β, n/γ 등) 중 1 이상을 포함하여 구성할 수 있다. 또한, CELP 방식에서는 부호화 데이터로서의 코드 데이터에, 리스트 보간 비트나 프레임 에너지 등이 포함되는 경우가 있는데, 이 경우, 예측 탭이나 클래스 탭은 소프트 보간 비트나 프레임 에너지 등을 포함시켜 구성할 수도 있다.
다음으로, 도 11은 도 4의 수신부(114)의 제2 구성예를 도시하고 있다. 도 11에서, 도 5에 대응하는 부분에 대해서는 동일한 부호를 붙이며, 이하에서 그 설명은 적절하게 생략한다. 즉, 도 11의 수신부(114)는 탭 생성부(121, 122) 대신에, 탭 생성부(301, 302)가 각각 설치되어 있는 것 외에는, 도 5와 마찬가지로 구성되어 있다.
도 5의 실시예에서는, 탭 생성부(121)나 탭 생성부(122)에서(도 9의 탭 생성부(131, 132)에서도 동일), 예측 탭이나 클래스 탭이 주목 서브 프레임에서의 40 샘플의 합성음 데이터 외, 러그 대응의 과거 데이터 또는 러그 대응의 미래 데이터 중 하나 또는 양쪽으로 구성되지만, 러그 대응의 과거 데이터만, 러그 대응의 미래 데이터만, 또는 그 양쪽 중 어느 하나를 예측 탭이나 클래스 탭에 포함시키는지를, 특별히 제어하도록 되어 있지 않기 때문에, 어느 하나를 포함시키는지를 사전에 결정해 두고, 고정해 둘 필요가 있다.
그러나, 주목 서브 프레임을 포함하는 프레임(이하, 적절하게, 주목 프레임이라고 함) 등이, 예를 들면 발성을 개시할 때에 상당하는 경우에는, 도 12A에 도시한 바와 같이 주목 프레임보다 과거의 프레임 등은 무음 상태(잡음만이 존재하는 것과 같은 상태)로 되어 있다고 생각된다. 마찬가지로, 주목 프레임이 예를 들면, 발성의 종료에 상당하는 경우에는, 도 12B에 도시한 바와 같이 주목 프레임보다 미래의 프레임 등은 무음 상태로 되어 있다고 생각된다. 그리고, 이러한 무음 부분에 대해서는 예측 탭이나 클래스 탭에 포함시켜도, 음질 향상에 거의 기여하지 않고, 오히려 최악의 경우에는 음질 향상을 방해할 우려가 있다.
한편, 주목 프레임이 발성의 개시나 종료 등 이외의 정상적인 발성이 행해지고 있는 상태에 상당하는 경우에는, 도 12C에 도시한 바와 같이 주목 프레임으로부터 과거 방향 및 미래 방향 모두, 정상적인 음성에 상당하는 합성음 데이터가 존재한다고 생각된다. 그리고, 이러한 경우에는, 러그 대응의 과거 데이터와 러그 대응의 미래 데이터 중 어느 한쪽뿐만 아니라, 그 양쪽을 예측 탭이나 클래스 탭에 포함시킴으로써, 음질 향상을 더욱 도모할 수 있다고 생각된다.
그래서, 도 11의 탭 생성부(301, 302)는 합성음 데이터의 파형의 추이가 예를 들면, 도 12A 내지 도 12C에 도시한 것 중 어느 것인지를 판정하고, 그 판정 결과에 기초하여, 예측 탭과 클래스 탭을 각각 생성하게 된다.
도 13은 도 11의 탭 생성부(301)의 구성예를 도시하고 있다.
합성음 메모리(311)에는 음성 합성 필터(29)(도 11)가 출력하는 합성음 데이터가 순차적으로 공급되며, 합성음 메모리(311)는 그 합성음 데이터를 순차적으로 기억한다. 또, 합성음 메모리(311)는 주목 데이터로 되는 합성음 데이터에 대하여 예측 탭으로 될 가능성이 있는 합성음 데이터 중, 가장 과거의 샘플로부터 가장 미래의 샘플까지 사이의 합성음 데이터를 기억할 수 있는 기억 용량을 적어도 갖고 있다. 또한, 합성음 메모리(311)는 그 기억 용량분만큼 합성음 데이터를 기억하게 되면, 다음에 공급되는 합성음 데이터를 가장 오래된 기억 값에 덮어쓰기하는 형태로 기억하게 된다.
L 코드 메모리(312)에는 채널 디코더(21)(도 11)가 출력하는 서브 프레임 단위의 L 코드가 순차적으로 공급되며, L 코드 메모리(312)는 그 L 코드를 순차적으로 기억한다. 또, L 코드 메모리(312)는 주목 데이터로 되는 합성음 데이터에 대하여 예측 탭으로 될 가능성이 있는 합성음 데이터 중, 가장 과거의 샘플이 배치되는 서브 프레임으로부터 가장 미래의 샘플이 배치되는 서브 프레임까지 사이의 L 코드를 기억할 수 있는 기억 용량을 적어도 갖고 있으며, 또한 그 기억 용량분만큼 L 코드를 기억하게 되면, 다음으로 공급되는 L 코드를 가장 오래된 기억값에 덮어쓰기하는 형태로 기억하게 된다.
프레임 파워 계산부(313)는 합성음 메모리(311)에 기억된 합성음 데이터를 이용하여, 소정의 프레임 단위로, 그 프레임에서의 합성음 데이터의 파워를 구하여, 버퍼(314)에 공급한다. 또, 프레임 파워 계산부(313)에서 파워를 구하는 단위인 프레임은, CELP 방식에서의 프레임이나 서브 프레임에 일치해도 되고, 일치하지 않아도 된다. 따라서, 프레임 파워 계산부(313)에서 파워를 구하는 단위인 프레임은, CELP 방식에서의 프레임을 구성하는 160 샘플이나, 서브 프레임을 구성하는 40 샘플 이외의 값인, 예를 들면 128 샘플 등으로 구성할 수 있다. 단, 본 실시예에서는 설명을 간단히 하기 위해서, 프레임 파워 계산부(313)에서 파워를 구하는 단위인 프레임은, CELP 방식에서의 프레임과 일치하는 것으로 한다.
버퍼(314)는 프레임 파워 계산부(313)로부터 순차적으로 공급되는 합성음 데이터의 파워를 순차적으로 기억한다. 또, 버퍼(314)는, 적어도 주목 프레임 및 그 직전과 직후의 프레임의, 합계 3 프레임분의 합성음 데이터의 파워를 기억할 수 있게 되어 있으며, 또한, 그 기억 용량분만큼 파워를 기억하면, 다음에 프레임 파워 계산부(313)로부터 공급되는 파워를 가장 오래된 기억값에 덮어쓰기하는 형태로 기억하게 된다.
상태 판정부(315)는 버퍼(314)에 기억된 파워에 기초하여, 주목 데이터 부근의 합성음 데이터의 파형의 추이를 판정한다. 즉, 상태 판정부(315)는 주목 데이터 부근의 합성음 데이터의 파형의 추이가, 도 12A에 도시한 바와 같이 주목 프레임의 직전의 프레임이 무음 상태(이하, 적절하게, 상승 상태라고 함), 도 12B에 도시한 바와 같이 주목 프레임의 직후의 프레임이 무음 상태(이하, 적절하게, 하강 상태라고 함), 또는 도 12C에 도시한 바와 같이 주목 프레임의 직전부터 직후에 걸쳐 정상으로 되어 있는 상태(이하, 적절하게, 정상 상태라고 함) 중의 어느 상태로 되어 있는지를 판정한다. 그리고, 상태 판정부(315)는 그 판정 결과를 데이터 추출부(316)에 공급한다.
데이터 추출부(316)는 합성음 메모리(311)로부터 주목 서브 프레임의 합성음 데이터를 판독함으로써 추출한다. 또한, 데이터 추출부(316)는 상태 판정부(315)로부터의 파형의 추이의 판정 결과에 기초하여, L 코드 메모리(312)를 참조하여, 합성음 메모리(311)로부터 러그 대응의 과거 데이터 또는 러그 대응의 미래 데이터 중 하나 또는 양쪽을 판독함으로써 추출한다. 그리고, 데이터 추출부(316)는 합성음 메모리(311)로부터 판독한 주목 서브 프레임의 합성음 데이터와, 러그 대응의 과거 데이터 또는 러그 대응의 미래 데이터 중 하나 또는 양쪽을 예측 탭으로서 출력한다.
다음으로, 도 14의 흐름도를 참조하여, 도 13의 탭 생성부(301)의 처리에 대하여 설명한다.
합성음 메모리(311)에는 음성 합성 필터(29)(도 11)가 출력하는 합성음 데이터가 순차적으로 공급되고, 합성음 메모리(311)는 그 합성음 데이터를 순차적으로 기억한다. 또한, L 코드 메모리(312)에는 채널 디코더(21)(도 11)가 출력하는 서브 프레임 단위의 L 코드가 순차적으로 공급되고, L 코드 메모리(312)는 그 L 코드를 순차적으로 기억한다.
한편, 프레임 파워 계산부(313)는 합성음 메모리(311)에 기억된 합성음 데이터를 프레임 단위로 순차적으로 판독하고, 각 프레임에서의 합성음 데이터의 파워를 구하여, 버퍼(314)에 기억시킨다.
그리고, 상태 판정부(315)는 단계 S21에서, 버퍼(314)로부터 주목 프레임의 파워 Pn, 그 직전의 프레임의 파워 Pn-1 및 그 직후의 프레임의 파워 Pn+1을 판독하여, 주목 프레임의 파워 Pn과 직전의 프레임의 파워 Pn-1의 차분치 Pn-P n-1을 계산함과 함께, 직후의 프레임의 파워 Pn+1과 주목 프레임의 파워 Pn의 차분치 Pn+1-P n을 계산하고, 단계 S22로 진행한다.
단계 S22에서는, 상태 판정부(315)는 차분치 Pn-Pn-1의 절대치 및 차분치 Pn+1-Pn의 절대치가 모두, 소정의 임계치 ε보다 큰지(이상인지) 판정한다.
단계 S22에서, 차분치 Pn-Pn-1의 절대치, 또는 차분치 Pn+1-Pn의 절대치 중 적어도 한쪽이 소정의 임계치 ε보다 크지 않다고 판정된 경우, 상태 판정부(315)는 주목 데이터 부근의 합성음 데이터의 파형의 추이가, 도 12C에 도시한 바와 같이 주목 프레임의 직전부터 직후에 걸쳐 정상으로 되어 있는 정상 상태로 되어 있다고 판정하고, 그 취지를 나타내는 「정상 상태」 메시지를 데이터 추출부(316)에 공급하고, 단계 S23으로 진행한다.
단계 S23에서는, 데이터 추출부(316)는 상태 판정부(315)로부터 「정상 상태」 메시지를 수신하면, 합성음 메모리(311)로부터 주목 서브 프레임의 합성음 데이터를 판독함과 함께, L 코드 메모리(312)를 참조하여, 러그 대응의 과거 데이터 및 러그 대응의 미래 데이터로서의 합성음 데이터를 판독한다. 그리고, 데이터 추출부(316)는 이들 합성음 데이터를 예측 탭으로서 출력하고, 처리를 종료한다.
또한, 단계 S22에서, 차분치 Pn-Pn-1의 절대치 및 차분치 Pn+1-Pn 의 절대치가 모두, 소정의 임계치 ε보다 크다고 판정된 경우, 단계 S24로 진행하여, 상태 판정부(315)는 차분치 Pn-Pn-1과, 차분치 Pn+1-Pn이 모두 플러스인지를 판정한다. 단계 S24에서, 차분치 Pn-Pn-1과, 차분치 Pn+1-Pn이 모두 플러스라고 판정된 경우, 상태 판정부(315)는 주목 데이터 부근의 합성음 데이터의 파형의 추이를, 도 12A에 도시한 바와 같이 주목 프레임의 직전의 프레임이 무음 상태인 상승 상태로 되어 있다고 판정하고, 그 취지를 나타내는 「상승 상태」 메시지를 데이터 추출부(316)에 공급하고, 단계 S25로 진행한다.
단계 S25에서는, 데이터 추출부(316)는 상태 판정부(315)로부터 「상승 상태」 메시지를 수신하면, 합성음 메모리(311)로부터 주목 서브 프레임의 합성음 데이터를 판독함과 함께, L 코드 메모리(312)를 참조하여, 러그 대응의 미래 데이터로서의 합성음 데이터를 판독한다. 그리고, 데이터 추출부(316)는 이들 합성음 데이터를 예측 탭으로서 출력하고, 처리를 종료한다.
한편, 단계 S24에서, 차분치 Pn-Pn-1과, 차분치 Pn+1-Pn 중의 적어도 한쪽이 플러스가 아니라고 판정된 경우, 단계 S26으로 진행하여, 상태 판정부(315)는 차분치 Pn-Pn-1과, 차분치 Pn+1-Pn이 모두 마이너스인지를 판정한다. 단계 S26에서, 차분치 Pn-Pn-1과, 차분치 Pn+1-Pn 중 적어도 한쪽이 마이너스가 아니라고 판정된 경우, 상태 판정부(315)는 주목 데이터 부근의 합성음 데이터의 파형의 추이가 정상 상태로 되어 있다고 판정하고, 그 취지를 나타내는 「정상 상태」 메시지를 데이터 추출부(316)에 공급하고, 단계 S23으로 진행한다.
단계 S23에서는, 데이터 추출부(316)는 상술한 바와 같이 합성음 메모리(311)로부터, 주목 서브 프레임의 합성음 데이터와, 러그 대응의 과거 데이터 및 러그 대응의 미래 데이터를 판독하여, 예측 탭으로서 출력하고, 처리를 종료한다.
또한, 단계 S26에서, 차분치 Pn-Pn-1과, 차분치 Pn+1-Pn이 모두 마이너스라고 판정된 경우, 상태 판정부(315)는 주목 데이터 부근의 합성음 데이터의 파형의 추이가, 도 12B에 도시한 바와 같이 주목 프레임의 직후의 프레임이 무음 상태인 하강 상태로 되어 있다고 판정하고, 그 취지를 나타내는 「하강 상태」 메시지를 데이터 추출부(316)에 공급하고, 단계 S27로 진행한다.
단계 S27에서는, 데이터 추출부(316)는 상태 판정부(315)로부터 「하강 상태」 메시지를 수신하면, 합성음 메모리(311)로부터, 주목 서브 프레임의 합성음 데이터를 판독함과 함께, L 코드 메모리(312)를 참조하여, 러그 대응의 과거 데이터로서의 합성음 데이터를 판독한다. 그리고, 데이터 추출부(316)는 이들 합성음 데이터를 예측 탭으로서 출력하고, 처리를 종료한다.
또, 도 11의 탭 생성부(302)도, 도 13에 도시한 탭 생성부(301)와 마찬가지로 구성할 수 있으며, 이 경우 도 14에서 설명한 바와 같이 하여 클래스 탭을 구성시킬 수 있다. 단, 도 13에서, 합성음 메모리(311), L 코드 메모리(312), 프레임 파워 계산부(313), 버퍼(314) 및 상태 판정부(315)는, 탭 생성부(301, 302)로 겸용 할 수 있다.
또한, 상술한 경우에는 주목 프레임과, 그 직전 또는 직후의 프레임 각각에 있어서의 파워를 비교하여, 주목 데이터 부근의 합성음 데이터의 파형의 추이를 판정하도록 했지만, 주목 데이터 부근의 합성음 데이터의 파형의 추이의 판정은, 그 외에 예를 들면, 주목 프레임과 보다 과거 또는 미래에 이르는 프레임 각각에 있어서의 파워를 비교하여 행할 수도 있다.
또한, 상술한 경우에는 주목 데이터 부근의 합성음 데이터의 파형의 추이를 「정상 상태」, 「상승 상태」 또는「하강 상태」의 세 가지 상태 중의 어느 하나의 상태로 판정하도록 했지만, 4 이상의 상태 중 어느 하나의 상태로 판정할 수도 있다. 즉, 예를 들면, 도 14에서는 단계 S22에서, 차분치 Pn-Pn-1의 절대치 및 차분치 Pn+1-Pn의 절대치를 모두, 하나의 임계치 ε와 비교하고, 그 대소 관계를 판정하고 있지만, 차분치 Pn-Pn-1의 절대치나, 차분치 Pn+1-Pn의 절대치를 복수의 임계치와 비교하도록 함으로써, 주목 데이터 부근의 합성음 데이터의 파형의 추이를 4 이상의 상태 중 어느 하나 상태로 판정할 수 있다.
그리고, 이와 같이 주목 데이터 부근의 합성음 데이터의 파형의 추이를 4 이상의 상태 중 어느 하나의 상태로 판정하는 경우에는, 예측 탭은 주목 서브 프레임의 합성음 데이터와, 러그 대응의 과거 데이터 또는 러그 대응의 미래 데이터 외에, 예를 들면, 그 러그 대응의 과거 데이터 또는 러그 대응의 미래 데이터를 주목 데이터로 했을 때에, 러그 대응의 과거 데이터 또는 러그 대응의 미래 데이터가 되 는 합성음 데이터를 포함해서 구성하는 것 등이 가능하다.
그런데, 탭 생성부(301)에서, 이상과 같이 예측 탭을 생성하는 경우에는 그 예측 탭을 구성하는 합성음 데이터의 샘플 수는 변화한다. 이것은 탭 생성부(302)에서 생성되는 클래스 탭에 대해서도 마찬가지이다.
예측 탭에 대해서는 그것을 구성하는 데이터의 수(탭 수)가 변화해도, 그 예측 탭과 동일한 수의 탭 계수를 후술하는 도 16의 학습 장치에서 학습하고, 계수 메모리(124)에 기억시켜 두면 되므로, 문제는 없다.
한편, 클래스 탭에 대해서는 그것을 구성하는 탭 수가 변화하면, 각 탭 수의 클래스 탭마다 얻어지는 전체 클래스 수가 변화하므로, 처리가 복잡하게 될 우려가 있다. 따라서, 클래스 탭의 탭 수가 변화해도, 그 클래스 탭에 의해 얻어지는 클래스 수가 변화하지 않는 클래스 분류를 행하는 것이 바람직하다.
이와 같이 클래스 탭의 탭 수가 변화해도, 그 클래스 탭에 의해 얻어지는 클래스 수가 변화하지 않는 클래스 분류를 행하는 방법으로서는, 클래스 분류에서, 예를 들면 클래스 탭의 구성을 고려하는 방법이 있다.
즉, 본 실시예에서는 클래스 탭이 주목 서브 프레임의 합성음 데이터 외에, 러그 대응의 과거 데이터 또는 러그 대응의 미래 데이터 중 하나 또는 양쪽을 포함해서 구성됨으로써, 클래스 탭의 탭 수가 증감한다. 예를 들면, 지금 클래스 탭이 주목 서브 프레임의 합성음 데이터와, 러그 대응의 과거 데이터 또는 러그 대응의 미래 데이터 중 하나로 구성되는 경우에, 그 탭 수를 S개라고 하고, 클래스 탭이 주목 서브 프레임의 합성음 데이터와, 러그 대응의 과거 데이터 및 러그 대응의 미 래 데이터의 양쪽으로 구성되는 경우에, 그 탭 수를 L(>S)개라고 한다. 그리고, 탭 수가 S개인 경우에는 n비트의 클래스 코드가 얻어지고, 탭 수가 L개인 경우에는 n+m비트의 클래스 코드가 얻어지는 것으로 한다.
이 경우, 클래스 코드로서, n+m+2 비트를 이용함과 함께, 그 n+m+2 비트 중, 예를 들면 상위 비트의 2비트를, 클래스 탭이 러그 대응의 과거 데이터를 포함하는 경우, 러그 대응의 미래 데이터를 포함하는 경우, 및 그 양쪽을 포함하는 경우의 세 가지 경우로, 각각 예를 들면, "00", "01", "10"으로 설정함으로써, 탭 수가 S개와 L개의 어느 경우라도, 전체 클래스 수가 2n+m+2 클래스인 클래스 분류가 가능하게 된다.
즉, 클래스 탭이 러그 대응의 과거 데이터와 러그 대응의 미래 데이터의 양쪽을 포함하며 그 탭 수가 L개인 경우에는, n+m비트의 클래스 코드가 얻어지는 클래스 분류를 행하고, 그 n+m비트의 클래스 코드에, 그 상위 2비트로서 클래스 탭이 러그 대응의 과거 데이터와 러그 대응의 미래 데이터의 양쪽을 포함하는 것을 나타내는 "10"을 부가한 n+m+2 비트를 최종적인 클래스 코드로 하면 된다.
또한, 클래스 탭이 러그 대응의 과거 데이터를 포함하며 그 탭 수가 S개인 경우에는, n비트의 클래스 코드가 얻어지는 클래스 분류를 행하고, 그 n비트의 클래스 코드에, 그 상위 비트로서 m비트의 "0"을 부가하여 n+m비트로 하고, 또한 그 n+m 비트에, 상위 비트로서 클래스 탭이 러그 대응의 과거 데이터를 포함하는 것을 나타내는 "00"을 부가한 n+m+2 비트를 최종적인 클래스 코드로 하면 된다.
또한, 클래스 탭이 러그 대응의 미래 데이터를 포함하며 그 탭 수가 S개인 경우에는, n비트의 클래스 코드가 얻어지는 클래스 분류를 행하고, 그 n비트의 클래스 코드에, 그 상위 비트로서 m비트의 "0"을 부가하여 n+m 비트로 하고, 또한 그 n+m 비트에, 상위 비트로서 클래스 탭이 러그 대응의 미래 데이터를 포함하는 것을 나타내는 "01"을 부가한 n+m+2 비트를 최종적인 클래스 코드로 하면 된다.
다음으로, 도 13의 탭 생성부(301)에서는 프레임 파워 계산부(313)에서, 합성음 데이터로부터, 그 프레임 단위의 파워를 계산하도록 했지만, CELP 방식에 의해, 음성을 부호화한 부호화 데이터(코드 데이터)에는 상술한 바와 같이 프레임 에너지가 포함되는 경우가 있으며, 이 경우에는 그 프레임 에너지를 그 프레임에 있어서의 합성음의 파워로서 채용할 수 있다.
도 15는 프레임 에너지를 그 프레임에 있어서의 합성음의 파워로서 채용하는 경우의, 도 11의 탭 생성부(301)의 구성예를 도시하고 있다. 도 15에서, 도 13에 대응하는 부분에 대해서는 동일한 부호를 붙이고 있다. 즉, 도 15의 탭 생성부(301)는 프레임 파워 계산부(313)가 설치되어 있지 않는 것 외에는, 도 13에서의 경우와 마찬가지로 구성되어 있다.
단, 버퍼(314)에는 수신부(114)(도 11)에 공급되는 부호화 데이터(코드 데이터)에 포함되는 프레임별 프레임 에너지가 공급되게 되며, 버퍼(314)는 이 프레임 에너지를 기억하게 된다. 그리고, 상태 판정부(315)는 이 프레임 에너지를 상술한 합성음 데이터로부터 구해지는 프레임 단위의 파워와 마찬가지로 이용하여, 주목 데이터 부근의 합성음 데이터의 파형의 추이를 판정한다.
여기서, 부호화 데이터에 포함되는 프레임별 프레임 에너지는 채널 인코더(21)에서 부호화 데이터로부터 분리되고, 탭 생성부(301)에 공급된다.
또, 탭 생성부(302)도, 도 15에 도시한 바와 같이 구성할 수 있다.
다음으로, 도 16은 수신부(114)가 도 11에 도시한 바와 같이 구성되는 경우에, 그 계수 메모리(124)에 기억되는 탭 계수를 학습하는 학습 장치의 일 실시예의 구성예를 도시하고 있다. 도 16에서, 도 9에 대응하는 부분에 대해서는 동일한 부호를 붙이며, 이하에서 그 설명은 적절하게 생략한다. 즉, 도 16의 학습 장치는 탭 생성부(131, 132) 대신에, 탭 생성부(321, 322)가 각각 설치되어 있는 것 외에는, 도 9에서의 경우와 마찬가지로 구성된다.
탭 생성부(321, 322)는 도 11의 탭 생성부(301, 302)에서의 경우와 각각 마찬가지로 하여, 예측 탭과 클래스 탭을 구성한다.
따라서, 이 경우, 보다 고음질의 음성을 복호할 수 있는 탭 계수를 얻을 수 있다.
또, 학습 장치에서, 예측 탭이나 클래스 탭의 생성에 있어서, 주목 데이터 부근의 합성음 데이터의 파형의 추이의 판정을, 도 15에서 설명한 바와 같이 프레임별 프레임 에너지를 이용하여 행하는 경우에는, 그 프레임 에너지는 LPC 분석부(204)에서의 LPC 분석의 과정에서 얻어지는 자기 상관 계수를 이용하여 계산할 수 있다.
그래서, 도 17은 자기 상관 계수로부터 프레임 에너지를 구하는 경우의 도 16의 탭 생성부(321)의 구성예를 도시하고 있다. 도 17에서, 도 13의 탭 생성부(301)에 대응하는 부분에 대해서는 동일한 부호를 붙이며, 이하에서 그 설명은 적절하게 생략한다. 즉, 도 17의 탭 생성부(321)는 프레임 파워 계산부(313) 대신에 프레임 에너지 계산부(331)가 설치되어 있는 것 외에는, 도 13의 탭 생성부(301)와 마찬가지로 구성되어 있다.
프레임 에너지 계산부(331)에는 도 16의 LPC 분석부(204)가 LPC 분석을 하는 과정에서 구해지는 음성의 자기 상관 계수가 공급되며, 프레임 에너지 계산부(331)는 그 자기 상관 계수로부터 부호화 데이터(코드 데이터)에 포함되는 프레임 에너지를 계산하여, 버퍼(314)에 공급한다.
따라서, 도 17의 실시예에서는 상태 판정부(315)는, 이 프레임 에너지를 상술한 합성음 데이터로부터 구해지는 프레임 단위의 파워와 마찬가지로 이용하여, 주목 데이터 부근의 합성음 데이터의 파형의 추이를 판정한다.
또, 도 16의 클래스 탭을 생성하는 탭 생성부(322)도, 도 17에 도시한 바와 같이 구성할 수 있다.
다음으로, 도 18은 도 4의 수신부(114)의 제3 구성예를 도시하고 있다. 도 18에서, 도 5 또는 도 11에 대응하는 부분에 대해서는 동일한 부호를 붙이고 있으며, 그 설명은 적절하게 생략한다.
도 5나 도 11의 수신부(114)는 음성 합성 필터(29)가 출력하는 합성음 데이터에 대하여, 클래스 분류 적응 처리를 실시함으로써, 고음질의 음성을 복호하도록 되어 있었지만, 도 18의 수신부(114)는 음성 합성 필터(29)에 입력되는 잔차 신호(복호 잔차 신호)와 선형 예측 계수(복호 선형 예측 계수)에 대하여, 클래스 분류 적응 처리를 실시함으로써, 고음질의 음성을 복호하도록 되어 있다.
즉, 적응 코드북 기억부(22), 게인 복호기(23), 여기 코드북 기억부(24) 및 연산기(26) 내지 연산기(28)에서, L 코드, G 코드 및 I 코드로부터 복호되는 잔차 신호인 복호 잔차 신호나, 필터 계수 복호기(25)에서, A 코드로부터 복호되는 선형 예측 계수인 복호 선형 예측 계수는 상술한 바와 같이 오차를 포함하는 것으로 되어 있으며, 그대로 음성 합성 필터(29)에 입력하였다면, 음성 합성 필터(29)로부터 출력되는 합성음 데이터의 음질이 열화한다.
그래서, 도 18의 수신부(114)에서는 학습에 의해 구한 탭 계수를 이용한 예측 연산을 행함으로써, 실제의 잔차 신호와 선형 예측 계수의 예측값을 구하고, 이들을 음성 합성 필터(29)에 공급함으로써, 고음질의 합성음을 생성하게 된다.
즉, 도 18의 수신부(114)에서는, 예를 들면 클래스 분류 적응 처리를 이용하여, 복호 잔차 신호가 실제의 잔차 신호(의 예측값)로 복호됨과 함께, 복호 선형 예측 계수가 실제의 선형 예측 계수(의 예측값)로 복호되고, 그 잔차 신호와 선형 예측 계수를 음성 합성 필터(29)에 공급함으로써, 고음질의 합성음 데이터가 구해진다.
이를 위해, 연산기(28)가 출력하는 복호 잔차 신호는 탭 생성부(341, 342)에 공급된다. 또한, 탭 생성부(341, 342)에는 채널 디코더(21)가 출력하는 L 코드도 공급되도록 되어 있다.
그리고, 탭 생성부(341)는 도 5의 탭 생성부(121)나 도 11의 탭 생성부(301)와 마찬가지로 하여, 공급되는 복호 잔차 신호로부터, 예측 탭으로 하는 샘플을 L 코드에 기초하여 추출하여, 예측부(345)에 공급한다.
탭 생성부(342)도, 도 5의 탭 생성부(122)나 도 11의 탭 생성부(302)와 마찬가지로 하여, 공급되는 복호 잔차 신호로부터, 클래스 탭으로 하는 샘플을 L 코드에 기초하여 추출하여, 클래스 분류부(343)에 공급한다.
클래스 분류부(343)는 탭 생성부(342)로부터 공급되는 클래스 탭에 기초하여 클래스 분류를 행하고, 그 클래스 분류 결과로서의 클래스 코드를 계수 메모리(344)에 공급한다.
계수 메모리(344)는 후술하는 도 21의 학습 장치에서 학습 처리가 행해짐으로써 얻어지는, 클래스별 잔차 신호에 대한 탭 계수 w(e)를 기억하고 있으며, 클래스 분류부(343)가 출력하는 클래스 코드에 대응하는 어드레스에 기억되어 있는 탭 계수를 예측부(345)에 공급한다.
예측부(345)는 탭 생성부(341)가 출력하는 예측 탭과 계수 메모리(344)가 출력하는 잔차 신호에 대한 탭 계수를 취득하고, 그 예측 탭과 탭 계수를 이용하여, 수학식 6으로 표현한 선형 예측 연산을 행한다. 이에 따라, 예측부(345)는 주목 서브 프레임의 잔차 신호(의 예측값) em을 구하고, 음성 합성 필터(29)에 입력 신호로서 공급한다.
탭 생성부(351, 352)에는 필터 계수 복호기(25)가 출력하는 서브 프레임별 복호 선형 예측 계수 αp'가 공급되며, 탭 생성부(351, 352)는 그 복호 선형 예측 계수로부터, 예상 탭과 클래스 탭으로 하는 것을 각각 추출한다. 여기서, 탭 생성 부(351, 352)는 예를 들면, 주목 서브 프레임의 선형 예측 계수 전부를, 각각 예측 탭과 클래스 탭으로 한다. 예측 탭은 탭 생성부(351)로부터 예측부(355)에 공급되고, 클래스 탭은 탭 생성부(352)로부터 클래스 분류부(353)에 공급된다.
클래스 분류부(353)는 탭 생성부(352)로부터 공급되는 클래스 탭에 기초하여 클래스 분류를 행하고, 그 클래스 분류 결과로서의 클래스 코드를 계수 메모리(354)에 공급한다.
계수 메모리(354)는 후술하는 도 21의 학습 장치에서 학습 처리가 행해짐으로써 얻어지는, 클래스별 선형 예측 계수에 대한 탭 계수 w(a)를 기억하고 있으며, 클래스 분류부(353)가 출력하는 클래스 코드에 대응하는 어드레스에 기억되어 있는 탭 계수를 예측부(355)에 공급한다.
예측부(355)는 탭 생성부(351)가 출력하는 예측 탭과, 계수 메모리(354)가 출력하는 선형 예측 계수에 대한 탭 계수를 취득하고, 그 예측 탭과 탭 계수를 이용하여, 수학식 6으로 표현한 선형 예측 연산을 행한다. 이에 의해, 예측부(355)는 주목 서브 프레임의 선형 예측 계수(의 예측값) mαp를 구하여, 음성 합성 필터(29)에 공급한다.
다음으로, 도 19의 흐름도를 참조하여, 도 18의 수신부(114)의 처리에 대하여 설명한다.
채널 디코더(21)는 공급되는 코드 데이터로부터 L 코드, G 코드, I 코드, A 코드를 분리하고, 각각을 적응 코드북 기억부(22), 게인 복호기(23), 여기 코드북 기억부(24), 필터 계수 복호기(25)에 공급한다. 또한, L 코드는 탭 생성부(341, 342)에도 공급된다.
그리고, 적응 코드북 기억부(22), 게인 복호기(23), 여기 코드북 기억부(24), 연산기(26) 내지 연산기(28)에서는, 도 1의 적응 코드북 기억부(9), 게인 복호기(10), 여기 코드북 기억부(11), 연산기(12) 내지 연산기(14)에서와 마찬가지의 처리가 행해지고, 이에 의해 L 코드, G 코드 및 I 코드가 잔차 신호 e로 복호된다. 이 복호 잔차 신호는 연산기(28)로부터 탭 생성부(341, 342)에 공급된다.
또한, 필터 계수 복호기(25)는 도 2에서 설명한 바와 같이, 공급되는 A 코드를 복호 선형 예측 계수로 복호하여, 탭 생성부(351, 352)에 공급한다.
그리고, 단계 S31에서, 예측 탭과 클래스 탭이 생성된다.
즉, 탭 생성부(341)는 공급되는 복호 잔차 신호의 서브 프레임을 순차적으로 주목 서브 프레임으로 하고, 또한 그 주목 서브 프레임의 복호 잔차 신호의 샘플값을 순차적으로 주목 데이터로 하여, 주목 서브 프레임에서의 복호 잔차 신호를 추출함과 함께, 채널 디코더(21)가 출력하는 주목 서브 프레임에 배치된 L 코드 등에 기초하여, 주목 서브 프레임 이외의 복호 잔차 신호를 추출하여, 즉 주목 서브 프레임에 배치되어 있는 L 코드가 나타내는 러그만큼 과거의 위치를 시점으로 하는 40 샘플의 복호 잔차 신호(이것도, 이하, 적절하게, 러그 대응의 과거 데이터라고 함), 또는 L 코드가 나타내는 러그만큼 과거의 위치가 주목 데이터의 위치가 되는 L 코드가 배치된, 주목 서브 프레임으로부터 보아 미래 방향의 서브 프레임에 배치 된 40 샘플의 복호 잔차 신호(이것도, 이하, 적절하게, 러그 대응의 미래 데이터라고 함)를 추출하여, 예측 탭을 생성한다. 탭 생성부(342)도, 탭 생성부(341)와 마찬가지로 하여, 클래스 탭을 생성한다.
또한, 단계 S31에서는, 탭 생성부(351, 352)가 필터 계수 복호기(35)가 출력하는 주목 서브 프레임의 복호 선형 예측 계수를, 각각 예측 탭과 클래스 탭으로서 추출한다.
그리고, 탭 생성부(341)에서 얻어진 예측 탭은 예측부(345)에 공급되고, 탭 생성부(342)에서 얻어진 클래스 탭은 클래스 분류부(343)에 공급되고, 탭 생성부(351)에서 얻어진 예측 탭은 예측부(355)에 공급되고, 탭 생성부(352)에서 얻어진 클래스 탭은 클래스 분류부(353)에 공급된다.
그리고, 단계 S32로 진행하여, 클래스 분류부(343)는 탭 생성부(342)로부터 공급되는 클래스 탭에 기초하여 클래스 분류를 행하고, 그 결과 얻어지는 클래스 코드를 계수 메모리(344)에 공급함과 함께, 클래스 분류부(353)는 탭 생성부(352)로부터 공급되는 클래스 탭에 기초하여 클래스 분류를 행하고, 그 결과 얻어지는 클래스 코드를 계수 메모리(354)에 공급하고, 단계 S33으로 진행한다.
단계 S33에서는, 계수 메모리(344)는 클래스 분류부(343)로부터 공급되는 클래스 코드에 대응하는 어드레스로부터 잔차 신호에 대한 탭 계수를 판독하여, 예측부(345)에 공급함과 함께, 계수 메모리(354)는 클래스 분류부(343)로부터 공급되는 클래스 코드에 대응하는 어드레스로부터 선형 예측 계수에 대한 탭 계수를 판독하여, 예측부(355)에 공급한다.
그리고, 단계 S34로 진행하여, 예측부(345)는 계수 메모리(344)가 출력하는 잔차 신호에 대한 탭 계수를 취득하고, 그 탭 계수와 탭 생성부(341)로부터의 예측 탭을 이용하여, 수학식 6으로 표현한 곱의 합 연산을 행하고, 주목 서브 프레임의 실제의 잔차 신호(의 예측값)를 얻는다. 또한, 단계 S34에서는, 예측부(355)는 계수 메모리(344)가 출력하는 선형 예측 계수에 대한 탭 계수를 취득하고, 그 탭 계수와 탭 생성부(351)로부터의 예측 탭을 이용하여, 수학식 6으로 표현한 곱의 합 연산을 행하고, 주목 서브 프레임의 실제의 선형 예측 계수(의 예측값)를 얻는다.
이상과 같이 하여 얻어진 잔차 신호 및 선형 예측 계수는, 음성 합성 필터(29)에 공급되고, 음성 합성 필터(29)에서는 그 잔차 신호 및 선형 예측 계수를 이용하여, 수학식 4의 연산이 행해짐으로써, 주목 서브 프레임의 주목 데이터에 대응하는 합성음 데이터가 생성된다. 이 합성음 데이터는 음성 합성 필터(29)로부터, D/A 변환부(30)를 통해 스피커(31)에 공급되고, 이에 의해, 스피커(31)로부터는 그 합성음 데이터에 대응하는 합성음이 출력된다.
예측부(345, 355)는, 잔차 신호와 선형 예측 계수가 각각 얻어진 후에는 단계 S35로 진행하여, 아직 주목 서브 프레임으로서 처리해야 할 서브 프레임의 L 코드, G 코드, I 코드 및 A 코드가 있는지를 판정한다. 단계 S35에서, 아직 주목 서브 프레임으로서 처리해야 할 프레임의 L 코드, G 코드, I 코드 및 A 코드가 있다고 판정된 경우, 단계 S31로 되돌아가, 다음으로 주목 서브 프레임으로 해야 할 서브 프레임을 새롭게 주목 서브 프레임으로 하고, 이하 마찬가지의 처리를 반복한다. 또한, 단계 S35에서, 주목 서브 프레임으로서 처리해야 할 프레임의 L 코드, G 코드, I 코드 및 A 코드가 없다고 판정된 경우, 처리를 종료한다.
다음으로, 도 18의 탭 생성부(341)에서는(클래스 탭을 생성하는 탭 생성부(342)에 대해서도 동일), 예측 탭이 주목 서브 프레임의 복호 잔차 신호와, 러그 대응의 과거 데이터 또는 러그 대응의 미래 데이터 중 하나 또는 양쪽으로 구성되지만, 그 구성은 고정으로 할 수도 있지만, 잔차 신호의 파형의 추이에 기초하여 가변으로 할 수도 있다.
도 20은 잔차 신호의 파형의 추이에 기초하여, 예측 탭의 구성을 가변으로 하는 경우의 탭 생성부(341)의 구성예를 도시하고 있다. 도 20에서, 도 13에 대응하는 부분에 대해서는 동일한 부호를 붙이며, 이하에서는 그 설명은 적절하게 생략한다. 즉, 도 20의 탭 생성부(341)는 합성음 메모리(311)와 프레임 파워 계산부(313) 대신에, 잔차 신호 메모리(361)와 프레임 파워 계산부(363)가 설치되어 있는 것 외에는, 도 13의 탭 생성부(301)와 마찬가지로 구성되어 있다.
잔차 신호 메모리(361)에는 연산기(28)(도 18)가 출력하는 복호 잔차 신호가 순차적으로 공급되며, 잔차 신호 메모리(361)는 그 복호 잔차 신호를 순차적으로 기억한다. 또, 잔차 신호 메모리(361)는 주목 데이터에 대하여 예측 탭으로 될 가능성이 있는 복호 잔차 신호 중, 가장 과거의 샘플로부터 가장 미래의 샘플까지 사이의 복호 잔차 신호를 기억할 수 있는 기억 용량을 적어도 갖고 있다. 또한, 잔차 신호 메모리(361)는 그 기억 용량분만큼, 복호 잔차 신호를 기억하게 되면, 다음에 공급되는 복호 잔차 신호의 샘플값을 가장 오래된 기억값에 덮어쓰기하는 형태로 기억하게 된다.
프레임 파워 계산부(363)는 잔차 신호 메모리(361)에 기억된 잔차 신호를 이용하여, 소정의 프레임 단위로, 그 프레임에서의 잔차 신호의 파워를 구하여, 버퍼(314)에 공급한다. 또, 프레임 파워 계산부(363)에서 파워를 구하는 단위인 프레임은 도 13의 프레임 파워 계산부(313)에서의 경우와 마찬가지로, CELP 방식에서의 프레임이나 서브 프레임에 일치해도 되고, 일치하지 않아도 된다.
도 20의 탭 생성부(341)에서는 합성음 데이터의 파워가 아니라, 복호 잔차 신호의 파워가 구해지고, 그 파워에 기초하여 잔차 신호의 파형의 추이가, 예를 들면, 도 12에서 설명한 바와 같이 상승 상태, 하강 상태, 정상 상태 중 어느 것인지가 판정된다. 그리고, 그 판정 결과에 기초하여, 주목 서브 프레임의 복호 잔차 신호 외, 러그 대응의 과거 데이터 또는 러그 대응의 미래 데이터 중 하나 또는 양쪽이 추출되고, 예측 탭이 생성된다.
또, 도 18의 탭 생성부(312)도, 도 20에 도시한 탭 생성부(341)와 마찬가지로 구성할 수 있다.
또한, 도 18의 실시예에서는 복호 잔차 신호에 대해서만 L 코드에 기초하여, 예측 탭이나 클래스 탭을 생성하였지만, 복호 선형 예측 계수에 대해서도 L 코드에 기초하여, 주목 서브 프레임 이외의 복호 선형 예측 계수를 추출하고, 예측 탭이나 클래스 탭을 생성할 수 있다. 이 경우, 도 18에서 점선으로 도시한 바와 같이 채널 디코더(21)가 출력하는 L 코드를 탭 생성부(351)나 탭 생성부(352)에 공급하면 된다.
또한, 상술한 경우에는 예측 탭이나 클래스 탭을 합성음 데이터로부터 생성 할 때에는 합성음 데이터의 파워를 구하고, 그 파워에 기초하여 합성음 데이터의 파형의 추이를 판정하고, 또한 복호 잔차 신호로부터 생성할 때에는 복호 잔차 신호의 파워를 구하고, 그 파워에 기초하여 합성음 데이터의 파형의 추이를 판정하였지만, 합성음 데이터의 파형의 추이는 잔차 신호의 파워에 기초하여 판정할 수 있고, 마찬가지로, 잔차 신호의 파형의 추이는 합성음 데이터의 파워에 기초하여 판정할 수 있다.
다음으로, 도 21은 도 18의 계수 메모리(344, 354)에 기억시키는 탭 계수의 학습 처리를 행하는 학습 장치의 일 실시예의 구성예를 도시하고 있다. 도 21에서, 도 16에 대응하는 부분에 대해서는 동일한 부호를 붙이며, 이하에서는 그 설명은 적절하게 생략한다.
예측 필터(370)에는 A/D 변환부(202)가 출력하는 디지털 신호로 된 학습용 음성 신호와, LPC 분석부(204)가 출력하는 선형 예측 계수가 공급된다. 또한, 탭 생성부(371, 372)에는 연산기(214)가 출력하는 복호 잔차 신호(음성 합성 필터(206)에 공급되는 것과 동일한 잔차 신호) 및 코드 결정부(215)가 출력하는 L 코드가 공급되고, 탭 생성부(381, 382)에는 벡터 양자화부(205)가 출력하는 복호 선형 예측 계수(벡터 양자화에 이용되는 코드북의 코드 벡터(센트로이드 벡터)를 구성하는 선형 예측 계수)가 공급된다. 또한, 정규 방정식 가산 회로(384)에는 LPC 분석부(204)가 출력하는 선형 예측 계수가 공급된다.
예측 필터(370)는 A/D 변환부(202)로부터 공급되는 학습용 음성 신호의 서브 프레임을 순차적으로 주목 서브 프레임으로서, 그 주목 서브 프레임의 음성 신호 와, LPC 분석부(204)로부터 공급되는 선형 예측 계수를 이용하여, 예를 들면 수학식 1에 따른 연산을 행함으로써, 주목 프레임의 잔차 신호를 구한다. 이 잔차 신호는 교사 데이터로서 정규 방정식 가산 회로(374)에 공급된다.
탭 생성부(371)는 연산기(214)로부터 공급되는 복호 잔차 신호를 이용하여, 코드 결정부(215)가 출력하는 L 코드에 기초하여, 도 18의 탭 생성부(341)에서의 경우와 동일한 예측 탭을 생성하여, 정규 방정식 가산 회로(374)에 공급한다. 탭 생성부(372)도, 연산기(214)로부터 공급되는 복호 잔차 신호를 이용하여, 코드 결정부(215)가 출력하는 L 코드에 기초하여, 도 18의 탭 생성부(342)에서의 경우와 동일한 클래스 탭을 생성하여, 클래스 분류부(373)에 공급한다.
클래스 분류부(373)는 탭 생성부(371)로부터 공급되는 클래스 탭에 기초하여, 도 18의 클래스 분류부(343)에서의 경우와 마찬가지로 클래스 분류를 행하고, 그 결과 얻어지는 클래스 코드를 정규 방정식 가산 회로(374)에 공급한다.
정규 방정식 가산 회로(374)는 예측 필터(370)로부터의 주목 서브 프레임의 잔차 신호를 교사 데이터로서 수신함과 함께, 탭 생성부(371)로부터의 예측 탭을 학생 데이터로서 수신하고, 그 교사 데이터 및 학생 데이터를 대상으로, 클래스 분류부(373)로부터의 클래스 코드별로 도 9나 도 16의 정규 방정식 가산 회로(134)에서의 경우와 마찬가지의 어셈블을 행함으로써, 각 클래스에 대하여, 잔차 신호에 관한 수학식 17로 표현한 정규 방정식을 세운다.
탭 계수 결정 회로(375)는 정규 방정식 가산 회로(374)에서 클래스별로 생성된 정규 방정식 각각을 푸는 것에 의해, 클래스별로 잔차 신호에 대한 탭 계수를 각각 구하여, 계수 메모리(376)의 각 클래스에 대응하는 어드레스에 각각 공급한다.
계수 메모리(376)는 탭 계수 결정 회로(375)로부터 공급되는 클래스별 잔차 신호에 대한 탭 계수를 기억한다.
탭 생성부(381)는 벡터 양자화부(205)로부터 공급되는 코드 벡터의 요소로 되어 있는 선형 예측 계수, 즉 복호 선형 예측 계수를 이용하여, 도 18의 탭 생성부(351)의 경우와 동일한 예측 탭을 생성하여, 정규 방정식 가산 회로(384)에 공급한다. 탭 생성부(382)도, 벡터 양자화부(205)로부터 공급되는 복호 선형 예측 계수를 이용하여, 도 18의 탭 생성부(352)의 경우와 동일한 클래스 탭을 생성하여, 클래스 분류부(383)에 공급한다.
또, 도 18의 실시예에서 복호 선형 예측 계수에 관하여 L 코드에 기초하여, 주목 서브 프레임 이외의 복호 선형 예측 계수를 추출하여, 예측 탭이나 클래스 탭을 생성하는 경우에는 도 21의 탭 생성부(381)나 탭 생성부(382)에서도, 마찬가지로 하여, 예측 탭이나 클래스 탭을 생성할 필요가 있으며, 이 경우, 탭 생성부(381)나 탭 생성부(382)에는 도 21에서 점선으로 도시한 바와 같이 코드 결정부(215)가 출력하는 L 코드가 공급된다.
클래스 분류부(383)는 도 18의 클래스 분류부(353)의 경우와 마찬가지로, 탭 생성부(382)로부터의 클래스 탭에 기초하여 클래스 분류를 행하고, 그 결과 얻어지는 클래스 코드를 정규 방정식 가산 회로(384)에 공급한다.
정규 방정식 가산 회로(384)는 LPC 분석부(204)로부터의 주목 서브 프레임의 선형 예측 계수를 교사 데이터로서 수신함과 함께, 탭 생성부(381)로부터의 예측 탭을 학생 데이터로서 수신하고, 그 교사 데이터 및 학생 데이터를 대상으로 하여, 클래스 분류부(383)로부터의 클래스 코드별로 도 9나 도 16의 정규 방정식 가산 회로(14)의 경우와 마찬가지의 어셈블을 행함으로써, 각 클래스에 대하여, 선형 예측 계수에 관한 수학식 17로 표현한 정규 방정식을 세운다.
탭 계수 결정 회로(385)는 정규 방정식 가산 회로(384)에서 클래스별로 생성된 정규 방정식을 푸는 것에 의해, 클래스별로 선형 예측 계수에 대한 탭 계수를 각각 구하여, 계수 메모리(386)의 각 클래스에 대응하는 어드레스에 공급한다.
계수 메모리(386)는 탭 계수 결정 회로(385)로부터 공급되는 클래스별 선형 예측 계수에 대한 탭 계수를 기억한다.
또, 학습용 음성 신호로서 준비하는 음성 신호에 따라서는, 정규 방정식 가산 회로(374, 384)에서, 탭 계수를 구하는 데 필요한 수의 정규 방정식이 얻어지지 않는 클래스가 생기는 경우가 있을 수 있지만, 탭 계수 결정 회로(375, 385)는 그와 같은 클래스에 대해서는 예를 들면, 디폴트의 탭 계수를 출력한다.
다음으로, 도 22의 흐름도를 참조하여, 도 21의 학습 장치가 행하는 잔차 신호와 선형 예측 계수 각각에 대한 탭 계수를 구하는 학습 처리에 대하여 설명한다.
학습 장치에는 학습용 음성 신호가 공급되고, 단계 S41에서, 그 학습용 음성 신호로부터, 교사 데이터와 학생 데이터가 생성된다.
즉, 학습용 음성 신호는 마이크(201)에 입력되고, 마이크(201) 내지 코드 결정부(215)는 도 1의 마이크(1) 내지 코드 결정부(15)의 경우와 각각 마찬가지의 처 리를 행한다.
그 결과, LPC 분석부(204)에서 얻어지는 선형 예측 계수는 교사 데이터로서 정규 방정식 가산 회로(384)에 공급된다. 또한, 이 선형 예측 계수는 예측 필터(370)에도 공급된다. 또한, 연산기(214)로 얻어지는 복호 잔차 신호는 학생 데이터로서 탭 생성부(371, 372)에 공급된다.
또한, A/D 변환부(202)가 출력하는 디지털의 음성 신호는 예측 필터(370)에 공급되고, 벡터 양자화부(205)가 출력하는 복호 선형 예측 계수는 학생 데이터로서 탭 생성부(381, 382)에 공급된다. 또한, 코드 결정부(215)는 제곱 오차 최소 판정부(208)로부터 확정 신호를 수신했을 때의, 제곱 오차 최소 판정부(208)로부터의 L 코드를 탭 생성부(371, 372)에 공급한다.
그리고, 예측 필터(370)는 A/D 변환부(202)로부터 공급되는 학습용 음성 신호의 서브 프레임을 순차적으로 주목 서브 프레임으로 하고, 그 주목 서브 프레임의 음성 신호와 LPC 분석부(204)로부터 공급되는 선형 예측 계수(주목 서브 프레임의 음성 신호로부터 구해진 선형 예측 계수)를 이용하여, 수학식 1에 따른 연산을 행함으로써, 주목 서브 프레임의 잔차 신호를 구한다. 이 예측 필터(370)로 얻어지는 잔차 신호는 교사 데이터로서 정규 방정식 가산 회로(374)에 공급된다.
이상과 같이 하여, 교사 데이터와 학생 데이터가 얻어진 후에는 단계 S42로 진행하여, 탭 생성부(371, 372)는 연산기(214)로부터 공급되는 복호 잔차 신호를 이용하여, 코드 결정부(215)로부터의 L 코드에 기초하여, 잔차 신호에 대한 예측 탭과 클래스 탭을 각각 생성한다. 즉, 탭 생성부(371, 372)는 연산기(214)로부터 의 주목 서브 프레임의 복호 잔차 신호와, 러그 대응의 과거 데이터 또는 러그 대응의 미래 데이터로부터 잔차 신호에 대한 예측 탭과 클래스 탭을 각각 생성한다.
또한, 단계 S42에서, 탭 생성부(381, 382)는 벡터 양자화부(205)로부터 공급되는 주목 서브 프레임의 선형 예측 계수로부터 선형 예측 계수에 대한 예측 탭과 클래스 탭을 생성한다.
그리고, 잔차 신호에 대한 예측 탭은 탭 생성부(371)로부터 정규 방정식 가산 회로(374)에 공급되고, 잔차 신호에 대한 클래스 탭은 탭 생성부(372)로부터 클래스 분류부(373)에 공급된다. 또한, 선형 예측 계수에 대한 예측 탭은 탭 생성부(381)로부터 정규 방정식 가산 회로(384)에 공급되고, 선형 예측 계수에 대한 클래스 탭은 탭 생성부(382)로부터 클래스 분류 회로(383)에 공급된다.
그 후, 단계 S43에서, 클래스 분류부(373, 383)는 공급되는 클래스 탭에 기초하여 클래스 분류를 행하고, 그 결과 얻어지는 클래스 코드를 정규 방정식 가산 회로(384, 374)에 각각 공급한다.
그리고, 단계 S44로 진행하여, 정규 방정식 가산 회로(374)는 예측 필터(370)로부터의 교사 데이터로서의 주목 서브 프레임의 잔차 신호 및 탭 생성부(371)로부터의 학생 데이터로서의 예측 탭을 대상으로 하여, 수학식 17의 행렬 A와 벡터 v의, 상술한 바와 같은 어셈블을 클래스 분류부(373)로부터의 클래스 코드마다 행한다. 또한, 단계 S44에서는, 정규 방정식 가산 회로(384)는 LPC 분석부(204)로부터의 교사 데이터로서의 주목 서브 프레임의 선형 예측 계수 및 탭 생성부(381)로부터의 학생 데이터로서의 예측 탭을 대상으로 하여, 수학식 17의 행렬 A와 벡터 v의, 상술한 바와 같은 어셈블을 클래스 분류부(383)로부터의 클래스 코드마다 행하고, 단계 S45로 진행한다.
단계 S45에서는, 아직 주목 서브 프레임으로서 처리해야 할 프레임의 학습용 음성 신호가 있는지가 판정된다. 단계 S45에서, 아직 주목 서브 프레임으로서 처리해야 할 서브 프레임의 학습용 음성 신호가 있다고 판정된 경우, 단계 S41로 되돌아가 다음의 서브 프레임을 새롭게 주목 서브 프레임으로 하고, 이하 마찬가지의 처리가 반복된다.
또한, 단계 S45에서, 주목 서브 프레임으로서 처리해야 할 서브 프레임의 학습용 음성 신호가 없다고 판정된 경우, 단계 S46으로 진행하여, 탭 계수 결정 회로(375)는 각 클래스별로 생성된 정규 방정식을 푸는 것에 의해, 각 클래스별로 잔차 신호에 대한 탭 계수를 구하여, 계수 메모리(376)의 각 클래스에 대응하는 어드레스에 공급하여 기억시킨다. 또한, 탭 계수 결정 회로(385)도, 각 클래스별로 생성된 정규 방정식을 푸는 것에 의해, 각 클래스별로 선형 예측 계수에 대한 탭 계수를 구하여, 계수 메모리(386)의 각 클래스에 대응하는 어드레스에 공급하여 기억시키고, 처리를 종료한다.
이상과 같이 하여, 계수 메모리(376)에 기억된 각 클래스별 잔차 신호에 대한 탭 계수가 도 18의 계수 메모리(344)에 기억되고, 계수 메모리(386)에 기억된 각 클래스별 선형 예측 계수에 대한 탭 계수가 도 18의 계수 메모리(354)에 기억된다.
따라서, 도 18의 계수 메모리(344, 354)에 기억된 탭 계수는, 각각 선형 예 측 연산을 행함으로써 얻어지는 실제의 잔차 신호와 선형 예측 계수의 예측값의 예측 오차(제곱 오차)가 통계적으로 최소가 되도록 학습을 행함으로써 구해지므로, 도 18의 예측부(345, 355)가 출력하는 잔차 신호와 선형 예측 계수는 각각 실제의 잔차 신호와 선형 예측 계수에 거의 일치하게 되고, 그 결과 이들 잔차 신호와 선형 예측 계수에 의해 생성되는 합성음은 왜곡이 적은, 고음질의 것이 된다.
다음으로, 상술한 일련의 처리는 하드웨어에 의해 행할 수도 있고, 소프트웨어에 의해 행할 수도 있다. 일련의 처리를 소프트웨어에 의해 행하는 경우에는 그 소프트웨어를 구성하는 프로그램이 범용의 컴퓨터 등에 인스톨된다.
도 23은 상술한 일련의 처리를 실행하는 프로그램이 인스톨되는 컴퓨터의 일 실시예의 구성예를 도시하고 있다.
프로그램은 컴퓨터에 내장되어 있는 기록 매체로서의 하드디스크(405)나 ROM(403)에 사전에 기록해 둘 수 있다.
또한, 프로그램은 플로피 디스크, CD-ROM(Compact Disc Read Only Memory), MO(Magneto optical) 디스크, DVD(Digital Versatile Disc), 자기 디스크, 반도체 메모리 등의 리무버블 기록 매체(411)에, 일시적 또는 영속적으로 저장(기록)해 둘 수 있다. 이러한 리무버블 기록 매체(411)는, 소위 패키지 소프트웨어로서 제공할 수 있다.
또, 프로그램은 상술한 바와 같은 리무버블 기록 매체(411)로부터 컴퓨터에 인스톨하는 것 외에, 다운로드 사이트로부터 디지털 위성 방송용 인공위성을 통해 컴퓨터에 무선으로 전송하거나, LAN(Local Area Network), 인터넷 등의 네트워크를 통해 컴퓨터에 유선으로 전송하고, 컴퓨터에서는 그와 같이 하여 전송되어 오는 프로그램을 통신부(408)에서 수신하고, 내장 하드디스크(405)에 인스톨할 수 있다.
컴퓨터는 CPU(Central Processing Unit)(402)를 내장하고 있다. CPU(402)에는 버스(401)를 통해 입출력 인터페이스(410)가 접속되어 있으며, CPU(402)는, 입출력 인터페이스(410)를 통해 사용자에 의해, 키보드나, 마우스, 마이크 등으로 구성되는 입력부(407)가 조작됨으로써 명령이 입력되면, 그에 따라, ROM(Read Only Memory)(403)에 저장되어 있는 프로그램을 실행한다. 또한, CPU(402)는 하드디스크(405)에 저장되어 있는 프로그램, 위성 또는 네트워크로부터 전송되고, 통신부(408)에서 수신되어 하드디스크(405)에 인스톨된 프로그램, 또는 드라이브(409)에 장착된 리무버블 기록 매체(411)로부터 판독되어 하드디스크(405)에 인스톨된 프로그램을 RAM(Random Access Memory)(404)에 로드하여 실행한다. 이에 의해, CPU(402)는 상술한 흐름도에 따른 처리, 또는 상술한 블록도의 구성에 의해 행해지는 처리를 행한다. 그리고, CPU(402)는 그 처리 결과를, 필요에 따라, 예를 들면 입출력 인터페이스(410)를 통해 LCD(Liquid Crystal Display)나 스피커 등으로 구성되는 출력부(406)로부터 출력하거나, 또는 통신부(408)로부터 송신하거나, 나아가서는 하드디스크(405)에 기록시킨다.
여기서, 본 명세서에서, 컴퓨터에 각종 처리를 행하게 하기 위한 프로그램을 기술하는 처리 단계는, 반드시 흐름도로서 기재된 순서를 따라 시계열로 처리할 필요는 없고, 병렬적 또는 개별적으로 실행되는 처리(예를 들면, 병렬 처리 또는 오브젝트에 의한 처리)도 포함하는 것이다.
또한, 프로그램은 하나의 컴퓨터에 의해 처리되는 것이어도 되고, 복수의 컴퓨터에 의해 분산 처리되는 것이어도 된다. 또한, 프로그램은 먼 곳의 컴퓨터에 전송되어 실행되는 것이어도 된다.
또, 본 실시예에서는 학습용 음성 신호로서, 어떠한 것을 이용할지에 대해서는 특별히 언급하지 않았지만, 학습용 음성 신호로서는 사람이 발성한 음성 외에, 예를 들면, 곡(음악) 등을 채용할 수 있다. 그리고, 상술한 바와 같은 학습 처리에 따르면, 학습용 음성 신호로서, 사람의 발성을 이용한 경우에는 그와 같은 사람의 발성의 음성의 음질을 향상시키기 위한 탭 계수가 얻어지고, 곡을 이용한 경우에는 곡의 음질을 향상시키기 위한 탭 계수가 얻어지게 된다.
또한, 계수 메모리(124) 등에는 탭 계수를 사전에 기억시켜 두도록 했지만, 계수 메모리(124) 등에 기억시키는 탭 계수는 휴대 전화기(101)에서, 도 3의 기지국(102)(또는 교환국(103))이나, 도시하지 않는 WWW(World Wide Web) 서버 등으로부터 다운로드하도록 할 수 있다. 즉, 상술한 바와 같이 탭 계수는 사람의 발성용이나 곡용 등과 같이 임의의 종류의 음성 신호에 적합한 것을 학습에 의해 얻을 수 있다. 또한, 학습에 이용하는 교사 데이터 및 학생 데이터에 따라서는 합성음의 음질에 차가 생기는 탭 계수를 얻을 수 있다. 따라서, 그와 같은 각종 탭 계수를 기지국(102) 등에 기억시켜 두고, 사용자에게는 자신이 소망하는 탭 계수를 다운로드시키도록 할 수 있다. 그리고, 이러한 탭 계수의 다운로드 서비스는 무료로 행할 수도 있고, 유료로 행할 수도 있다. 또한, 탭 계수의 다운로드 서비스를 유료로 행하는 경우에는 탭 계수의 다운로드에 대한 대가로서의 대금은, 예를 들면 휴 대 전화기(101)의 통화료 등과 함께 청구하도록 할 수 있다.
또한, 계수 메모리(124) 등은 휴대 전화기(101)에 착탈 가능한 메모리 카드 등으로 구성할 수 있다. 이 경우, 상술한 바와 같은 각종 탭 계수 각각을 기억시킨, 다른 메모리 카드를 제공하면, 사용자는 경우에 따라, 소망의 탭 계수가 기억된 메모리 카드를 휴대 전화기(101)에 장착하여 사용할 수 있다.
또한, 본 발명은 예를 들면, VSELP(Vector Sum Excited Liner Prediction), PSI-CELP(Pitch Synchronous Innovation CELP), CS-ACELP(Conjugate Structure Algebraic CELP) 등의 CELP 방식에 의한 부호화의 결과로 얻어지는 코드로부터 합성음을 생성하는 경우에, 넓게 적용 가능하다.
또한, 본 발명은 CELP 방식에 의한 부호화의 결과로 얻어지는 코드로부터 합성음을 생성하는 경우에 한하지 않고, 임의의 코드로부터 잔차 신호와 선형 예측 계수를 얻어 합성음을 생성하는 경우에, 넓게 적용 가능하다.
또한, 본 발명은 음성에 한하지 않고, 예를 들면 화상 등에도 적용 가능하다. 즉, 본 발명은 L 코드와 같은, 주기를 나타내는 주기 정보를 이용하여 처리되는 데이터에, 넓게 적용 가능하다.
또한, 본 실시예에서는 탭 계수를 이용한 선형 1차 예측 연산에 의해, 고음질의 음성이나, 잔차 신호, 선형 예측 계수의 예측값을 구하였지만, 이 예측값은, 그 외의 2차 이상의 고차의 예측 연산에 의해 구할 수도 있다.
또한, 본 실시예에서는 계수 메모리(124) 등에, 탭 계수 자체를 기억시켰지만, 계수 메모리(124) 등에는, 기타, 예를 들면 무단계의 조정이 가능한(아날로그 적인 변화가 가능한) 탭 계수의 바탕(근본)이 되는 정보로서의 계수종을 기억시켜 두고, 사용자의 조작에 따라 그 계수 종으로부터, 사용자가 소망하는 음질의 음성이 얻어지는 탭 계수를 생성할 수 있다.
본 발명의 제1 데이터 처리 장치 및 데이터 처리 방법과, 프로그램 및 기록 매체에 따르면, 소정의 데이터 중 주목하고 있는 주목 데이터에 대하여, 주기 정보에 따라 소정의 데이터를 추출함으로써, 소정의 처리에 이용하는 탭이 생성되고, 그 탭을 이용하여 주목 데이터에 대하여 소정의 처리가 행해진다. 따라서, 예를 들면, 품질이 양호한 데이터의 복호 등이 가능하게 된다.
본 발명의 제2 데이터 처리 장치 및 데이터 처리 방법과, 프로그램 및 기록 매체에 따르면, 학습의 교사가 되는 교사 데이터로부터, 소정의 데이터와 주기 정보가 학습의 학생이 되는 학생 데이터로서 생성된다. 그리고, 학생 데이터로서의 소정의 데이터 중 주목하고 있는 주목 데이터에 대하여, 주기 정보에 따라 소정의 데이터를 추출함으로써, 교사 데이터를 예측하는 데 이용하는 예측 탭이 생성되고, 예측 탭과 탭 계수를 이용하여 소정의 예측 연산을 행함으로써 얻어지는 교사 데이터의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습이 행해져, 탭 계수가 구해진다. 따라서, 예를 들면, 품질이 양호한 데이터를 얻기 위한 탭 계수를 얻을 수 있다.

Claims (33)

  1. 소정의 데이터와, 주기를 나타내는 주기 정보를 처리하는 데이터 처리 장치로서,
    상기 소정의 데이터 중 주목하고 있는 주목 데이터에 대하여, 상기 주기 정보에 따라 상기 소정의 데이터를 추출함으로써, 예측 탭 또는 클래스 탭을 생성하는 탭 생성 수단과,
    상기 예측 탭 또는 클래스 탭을 이용하여 상기 주목 데이터에 대하여 예측 처리 또는 클래스 분류 처리를 행하는 처리 수단
    을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  2. 제1항에 있어서,
    학습을 행함으로써 구해진 탭 계수를 취득하는 탭 계수 취득 수단을 더 포함하고,
    상기 탭 생성 수단은 상기 탭 계수와의 소정의 예측 연산을 행하는 예측 탭을 생성하고,
    상기 처리 수단은 상기 예측 탭과 탭 계수를 이용하여 소정의 예측 연산을 행함으로써, 상기 학습에서 교사로서 이용되는 교사 데이터에 대응하는 예측값을 구하는 것을 특징으로 하는 데이터 처리 장치.
  3. 제2항에 있어서,
    상기 처리 수단은 상기 예측 탭과 탭 계수를 이용하여 선형 1차 예측 연산을 행함으로써 상기 예측값을 구하는 것을 특징으로 하는 데이터 처리 장치.
  4. 제1항에 있어서,
    상기 탭 생성 수단은 상기 주목 데이터를 클래스 분류하는 클래스 분류를 행하는 데 이용하는 클래스 탭을 생성하고,
    상기 처리 수단은 상기 클래스 탭에 기초하여 상기 주목 데이터에 대하여 클래스 분류를 행하는 것을 특징으로 하는 데이터 처리 장치.
  5. 제1항에 있어서,
    상기 탭 생성 수단은 학습을 행함으로써 구해진 탭 계수와의 소정의 예측 연산을 행하는 예측 탭을 생성함과 함께, 상기 주목 데이터를 클래스 분류하는 클래스 분류를 행하는 데 이용되는 클래스 탭을 생성하고,
    상기 처리 수단은 상기 클래스 탭에 기초하여, 상기 주목 데이터에 대하여 클래스 분류를 행하고, 그 클래스 분류 결과로 얻어지는 클래스에 대응하는 상기 탭 계수와 상기 예측 탭을 이용하여 소정의 예측 연산을 행함으로써, 상기 학습에 있어서 교사로서 이용되는 교사 데이터에 대응하는 예측값을 구하는 것을 특징으로 하는 데이터 처리 장치.
  6. 제1항에 있어서,
    상기 소정의 데이터와 주기 정보는 음성을 부호화한 부호화 데이터로부터 얻어지는 것을 특징으로 하는 데이터 처리 장치.
  7. 제6항에 있어서,
    상기 부호화 데이터는 음성을 CELP(Code Excited Liner Prediction coding) 방식에 의해 부호화하는 것을 특징으로 하는 데이터 처리 장치.
  8. 제7항에 있어서,
    상기 주기 정보는 CELP 방식으로 규정되어 있는 장기 예측 러그인 것을 특징으로 하는 데이터 처리 장치.
  9. 제6항에 있어서,
    상기 소정의 데이터는 상기 부호화 데이터를 복호한 복호 음성 데이터인 것을 특징으로 하는 데이터 처리 장치.
  10. 제6항에 있어서,
    상기 소정의 데이터는 상기 부호화 데이터를 음성 데이터로 복호하는 데 이용되는 잔차 신호인 것을 특징으로 하는 데이터 처리 장치.
  11. 제1항에 있어서,
    상기 소정의 데이터는 시계열의 데이터이고,
    상기 탭 생성 수단은 상기 주목 데이터로부터 상기 주기 정보에 대응하는 시간만큼 떨어진 위치의 상기 소정의 데이터를 추출함으로써, 상기 탭을 생성하는 것을 특징으로 하는 데이터 처리 장치.
  12. 제11항에 있어서,
    상기 탭 생성 수단은 상기 주목 데이터로부터 상기 주기 정보에 대응하는 시간만큼 과거 방향 또는 미래 방향으로 떨어진 위치의 상기 소정의 데이터 중 하나 또는 양쪽을 추출함으로써, 상기 탭을 생성하는 것을 특징으로 하는 데이터 처리 장치.
  13. 제12항에 있어서,
    상기 소정의 데이터의 파형의 추이를 판정하는 판정 수단을 더 포함하고,
    상기 탭 생성 수단은 상기 판정 수단에 의한 판정 결과에 기초하여, 상기 주기 정보에 대응하는 시간만큼 과거 방향 또는 미래 방향으로 떨어진 위치의 상기 소정의 데이터 중 하나 또는 양쪽을 추출하는 것을 특징으로 하는 데이터 처리 장치.
  14. 제13항에 있어서,
    상기 판정 수단은 상기 소정의 데이터의 파워에 기초하여 그 파형의 추이를 판정하는 것을 특징으로 하는 데이터 처리 장치.
  15. 소정의 데이터와, 주기를 나타내는 주기 정보를 처리하는 데이터 처리 방법으로서,
    상기 소정의 데이터 중 주목하고 있는 주목 데이터에 대하여, 상기 주기 정보에 따라 상기 소정의 데이터를 추출함으로써, 예측 탭 또는 클래스 탭을 생성하는 탭 생성 단계와,
    상기 예측 탭 또는 클래스 탭을 이용하여 상기 주목 데이터에 대하여 예측 처리 또는 클래스 분류 처리를 행하는 처리 단계
    를 포함하는 것을 특징으로 하는 데이터 처리 방법.
  16. 삭제
  17. 소정의 데이터와, 주기를 나타내는 주기 정보를 컴퓨터에 처리시키는 프로그램이 기록되어 있는 기록 매체로서,
    상기 소정의 데이터 중 주목하고 있는 주목 데이터에 대하여, 상기 주기 정보에 따라 상기 소정의 데이터를 추출함으로써, 예측 탭 또는 클래스 탭을 생성하는 탭 생성 단계와,
    상기 예측 탭 또는 클래스 탭을 이용하여 상기 주목 데이터에 대하여 예측 처리 또는 클래스 분류 처리를 행하는 처리 단계
    를 포함하는 프로그램이 기록되어 있는 것을 특징으로 하는 기록 매체.
  18. 소정의 데이터와, 주기를 나타내는 주기 정보를 처리하는 데 이용되는 소정의 탭 계수를 학습하는 데이터 처리 장치로서,
    학습의 교사가 되는 교사 데이터로부터, 상기 소정의 데이터와 주기 정보를 학습의 학생이 되는 학생 데이터로서 생성하는 학생 데이터 생성 수단과,
    상기 학생 데이터로서의 소정의 데이터 중 주목하고 있는 주목 데이터에 대하여, 상기 주기 정보에 따라 상기 소정의 데이터를 추출함으로써, 상기 교사 데이터를 예측하는 데 이용하는 예측 탭을 생성하는 예측 탭 생성 수단과,
    상기 예측 탭과 탭 계수를 이용하여, 소정의 예측 연산을 행함으로써 얻어지는 상기 교사 데이터의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습을 행하여, 상기 탭 계수를 구하는 학습 수단
    을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  19. 제18항에 있어서,
    상기 학습 수단은 상기 예측 탭과 탭 계수를 이용하여, 선형 1차 예측 연산을 행함으로써 얻어지는 상기 교사 데이터의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습을 행하는 것을 특징으로 하는 데이터 처리 장치.
  20. 제18항에 있어서,
    상기 학생 데이터로서의 소정의 데이터로부터 상기 주목 데이터를 클래스 분류하는 클래스 분류를 행하는 데 이용하는 클래스 탭을 생성하는 클래스 탭 생성 수단과,
    상기 클래스 탭에 기초하여 상기 주목 데이터에 대하여, 클래스 분류를 행하는 클래스 분류 수단을 더 포함하고,
    상기 학습 수단은 상기 클래스 분류 수단에 의한 클래스 분류의 결과로 얻어지는 클래스별로 상기 탭 계수를 구하는 것을 특징으로 하는 데이터 처리 장치.
  21. 제20항에 있어서,
    상기 클래스 탭 생성 수단은 상기 주목 데이터에 대하여, 상기 주기 정보에 따라 상기 소정의 데이터를 추출함으로써, 상기 클래스 탭을 생성하는 것을 특징으로 하는 데이터 처리 장치.
  22. 제18항에 있어서,
    상기 교사 데이터는 음성 데이터이고,
    상기 소정의 데이터와 주기 정보는 상기 교사 데이터로서의 음성 데이터를 부호화한 부호화 데이터로부터 얻어지는 것을 특징으로 하는 데이터 처리 장치.
  23. 제22항에 있어서,
    상기 부호화 데이터는 음성 데이터를 CELP(Code Excited Liner Prediction coding) 방식에 의해 부호화하는 것을 특징으로 하는 데이터 처리 장치.
  24. 제23항에 있어서,
    상기 주기 정보는 CELP 방식으로 규정되어 있는 장기 예측 러그인 것을 특징으로 하는 데이터 처리 장치.
  25. 제22항에 있어서,
    상기 소정의 데이터는 상기 부호화 데이터를 복호한 복호 음성 데이터인 것을 특징으로 하는 데이터 처리 장치.
  26. 제22항에 있어서,
    상기 소정의 데이터는 상기 부호화 데이터를 음성 데이터로 복호하는 데 이 용되는 잔차 신호인 것을 특징으로 하는 데이터 처리 장치.
  27. 제18항에 있어서,
    상기 소정의 데이터는 시계열의 데이터이고,
    상기 예측 탭 생성 수단은 상기 주목 데이터로부터 상기 주기 정보에 대응하는 시간만큼 떨어진 위치의 상기 소정의 데이터를 추출함으로써, 상기 예측 탭을 생성하는 것을 특징으로 하는 데이터 처리 장치.
  28. 제27항에 있어서,
    상기 예측 탭 생성 수단은 상기 주목 데이터로부터 상기 주기 정보에 대응하는 시간만큼 과거 방향 또는 미래 방향으로 떨어진 위치의 상기 소정의 데이터 중 하나 또는 양쪽을 추출함으로써, 상기 예측 탭을 생성하는 것을 특징으로 하는 데이터 처리 장치.
  29. 제28항에 있어서,
    상기 소정의 데이터의 파형의 추이를 판정하는 판정 수단을 더 포함하고,
    상기 예측 탭 생성 수단은 상기 판정 수단에 의한 판정 결과에 기초하여, 상기 주기 정보에 대응하는 시간만큼 과거 방향 또는 미래 방향으로 떨어진 위치의 상기 소정의 데이터 중 하나 또는 양쪽을 추출하는 것을 특징으로 하는 데이터 처리 장치.
  30. 제29항에 있어서,
    상기 판정 수단은 상기 소정의 데이터의 파워에 기초하여 그 파형의 추이를 판정하는 것을 특징으로 하는 데이터 처리 장치.
  31. 소정의 데이터와, 주기를 나타내는 주기 정보를 처리하는 데 이용되는 소정의 탭 계수를 학습하는 데이터 처리 방법으로서,
    학습의 교사가 되는 교사 데이터로부터 상기 소정의 데이터와 주기 정보를 학습의 학생이 되는 학생 데이터로서 생성하는 학생 데이터 생성 단계와,
    상기 학생 데이터로서의 소정의 데이터 중 주목하고 있는 주목 데이터에 대하여, 상기 주기 정보에 따라 상기 소정의 데이터를 추출함으로써, 상기 교사 데이터를 예측하는 데 이용하는 예측 탭을 생성하는 예측 탭 생성 단계와,
    상기 예측 탭과 탭 계수를 이용하여 소정의 예측 연산을 행함으로써 얻어지는 상기 교사 데이터의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습을 행하여, 상기 탭 계수를 구하는 학습 단계
    를 포함하는 것을 특징으로 하는 데이터 처리 방법.
  32. 삭제
  33. 소정의 데이터와, 주기를 나타내는 주기 정보를 처리하는 데 이용되는 소정의 탭 계수를 학습하는 데이터 처리를 컴퓨터에 행하게 하는 프로그램이 기록되어 있는 기록 매체로서,
    학습의 교사가 되는 교사 데이터로부터, 상기 소정의 데이터와 주기 정보를 학습의 학생이 되는 학생 데이터로서 생성하는 학생 데이터 생성 단계와,
    상기 학생 데이터로서의 소정의 데이터 중 주목하고 있는 주목 데이터에 대하여 상기 주기 정보에 따라 상기 소정의 데이터를 추출함으로써, 상기 교사 데이터를 예측하는 데 이용하는 예측 탭을 생성하는 예측 탭 생성 단계와,
    상기 예측 탭과 탭 계수를 이용하여 소정의 예측 연산을 행함으로써 얻어지는 상기 교사 데이터의 예측값의 예측 오차가 통계적으로 최소가 되도록 학습을 행하여, 상기 탭 계수를 구하는 학습 단계
    를 포함하는 프로그램이 기록되어 있는 것을 특징으로 하는 기록 매체.
KR1020027012612A 2001-01-25 2002-01-24 데이터 처리 장치 KR100875784B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001016870A JP4857468B2 (ja) 2001-01-25 2001-01-25 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JPJP-P-2001-00016870 2001-01-25
PCT/JP2002/000491 WO2002059877A1 (fr) 2001-01-25 2002-01-24 Appareil de traitement de donnees

Publications (2)

Publication Number Publication Date
KR20020088088A KR20020088088A (ko) 2002-11-25
KR100875784B1 true KR100875784B1 (ko) 2008-12-26

Family

ID=18883165

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027012612A KR100875784B1 (ko) 2001-01-25 2002-01-24 데이터 처리 장치

Country Status (7)

Country Link
US (1) US7269559B2 (ko)
EP (1) EP1355297B1 (ko)
JP (1) JP4857468B2 (ko)
KR (1) KR100875784B1 (ko)
CN (1) CN1216367C (ko)
DE (1) DE60222627T2 (ko)
WO (1) WO2002059877A1 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002013183A1 (fr) * 2000-08-09 2002-02-14 Sony Corporation Procede et dispositif de traitement de donnees vocales
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7599835B2 (en) * 2002-03-08 2009-10-06 Nippon Telegraph And Telephone Corporation Digital signal encoding method, decoding method, encoding device, decoding device, digital signal encoding program, and decoding program
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
JP4676140B2 (ja) 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
WO2008114075A1 (en) * 2007-03-16 2008-09-25 Nokia Corporation An encoder
JP5084360B2 (ja) * 2007-06-13 2012-11-28 三菱電機株式会社 音声符号化装置及び音声復号装置
CN101604526B (zh) * 2009-07-07 2011-11-16 武汉大学 基于权重的音频关注度计算系统和方法
US9308618B2 (en) * 2012-04-26 2016-04-12 Applied Materials, Inc. Linear prediction for filtering of data during in-situ monitoring of polishing

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5305332A (en) 1990-05-28 1994-04-19 Nec Corporation Speech decoder for high quality reproduced speech through interpolation

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6111800A (ja) * 1984-06-27 1986-01-20 日本電気株式会社 残差励振型ボコ−ダ
US4776014A (en) * 1986-09-02 1988-10-04 General Electric Company Method for pitch-aligned high-frequency regeneration in RELP vocoders
JPS63214032A (ja) 1987-03-02 1988-09-06 Fujitsu Ltd 符号化伝送装置
JPH01205199A (ja) 1988-02-12 1989-08-17 Nec Corp 音声符号化方式
US5359696A (en) * 1988-06-28 1994-10-25 Motorola Inc. Digital speech coder having improved sub-sample resolution long-term predictor
DE69033510T3 (de) 1989-09-01 2007-06-06 Motorola, Inc., Schaumburg Numerischer sprachcodierer mit verbesserter langzeitvorhersage durch subabtastauflösung
US4980916A (en) * 1989-10-26 1990-12-25 General Electric Company Method for improving speech quality in code excited linear predictive speech coding
JP3077944B2 (ja) 1990-11-28 2000-08-21 シャープ株式会社 信号再生装置
JP3077943B2 (ja) * 1990-11-29 2000-08-21 シャープ株式会社 信号符号化装置
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
JP2800599B2 (ja) 1992-10-15 1998-09-21 日本電気株式会社 基本周期符号化装置
CA2102080C (en) 1992-12-14 1998-07-28 Willem Bastiaan Kleijn Time shifting for generalized analysis-by-synthesis coding
AU668817B2 (en) * 1993-03-26 1996-05-16 Blackberry Limited Vector quantizer method and apparatus
US5450449A (en) * 1994-03-14 1995-09-12 At&T Ipm Corp. Linear prediction coefficient generation during frame erasure or packet loss
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
FR2734389B1 (fr) * 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
US5692101A (en) * 1995-11-20 1997-11-25 Motorola, Inc. Speech coding method and apparatus using mean squared error modifier for selected speech coder parameters using VSELP techniques
US5708757A (en) * 1996-04-22 1998-01-13 France Telecom Method of determining parameters of a pitch synthesis filter in a speech coder, and speech coder implementing such method
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JP3435310B2 (ja) 1997-06-12 2003-08-11 株式会社東芝 音声符号化方法および装置
JP3095133B2 (ja) * 1997-02-25 2000-10-03 日本電信電話株式会社 音響信号符号化方法
JP3263347B2 (ja) * 1997-09-20 2002-03-04 松下電送システム株式会社 音声符号化装置及び音声符号化におけるピッチ予測方法
US6119082A (en) * 1998-07-13 2000-09-12 Lockheed Martin Corporation Speech coding system and method including harmonic generator having an adaptive phase off-setter
US6067511A (en) * 1998-07-13 2000-05-23 Lockheed Martin Corp. LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US6014618A (en) * 1998-08-06 2000-01-11 Dsp Software Engineering, Inc. LPAS speech coder using vector quantized, multi-codebook, multi-tap pitch predictor and optimized ternary source excitation codebook derivation
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
WO2002013183A1 (fr) 2000-08-09 2002-02-14 Sony Corporation Procede et dispositif de traitement de donnees vocales

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5305332A (en) 1990-05-28 1994-04-19 Nec Corporation Speech decoder for high quality reproduced speech through interpolation

Also Published As

Publication number Publication date
EP1355297A1 (en) 2003-10-22
EP1355297B1 (en) 2007-09-26
CN1459093A (zh) 2003-11-26
JP4857468B2 (ja) 2012-01-18
EP1355297A4 (en) 2005-09-07
WO2002059877A1 (fr) 2002-08-01
DE60222627D1 (de) 2007-11-08
DE60222627T2 (de) 2008-07-17
CN1216367C (zh) 2005-08-24
JP2002222000A (ja) 2002-08-09
US7269559B2 (en) 2007-09-11
KR20020088088A (ko) 2002-11-25
US20030163317A1 (en) 2003-08-28

Similar Documents

Publication Publication Date Title
JP4187556B2 (ja) スピーチ信号を高速符号化するための信号選択されたパルス振幅を備えた代数学的符号帳
CN101496098B (zh) 用于以与音频信号相关联的帧修改窗口的系统及方法
CN100362568C (zh) 用于预测量化有声语音的方法和设备
KR100875784B1 (ko) 데이터 처리 장치
JP4464484B2 (ja) 雑音信号符号化装置および音声信号符号化装置
EP1041541B1 (en) Celp voice encoder
EP1617416A2 (en) Method and apparatus for subsampling phase spectrum information
JP3266178B2 (ja) 音声符号化装置
KR100895745B1 (ko) 송신 장치 및 송신 방법, 수신 장치 및 수신 방법, 및송수신 장치
KR100819623B1 (ko) 음성 데이터의 처리 장치 및 처리 방법
KR100875783B1 (ko) 데이터 처리 장치
US7089180B2 (en) Method and device for coding speech in analysis-by-synthesis speech coders
JP3353852B2 (ja) 音声の符号化方法
JP3199142B2 (ja) 音声の励振信号符号化方法および装置
JP3417362B2 (ja) 音声信号復号方法及び音声信号符号化復号方法
JP4287840B2 (ja) 符号化装置
JP3490325B2 (ja) 音声信号符号化方法、復号方法およびその符号化器、復号器
JP3299099B2 (ja) 音声符号化装置
JP3153075B2 (ja) 音声符号化装置
Sun et al. Speech compression
JP2002169595A (ja) 固定音源符号帳及び音声符号化/復号化装置
JP4517262B2 (ja) 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体
JP4736266B2 (ja) 音声処理装置および音声処理方法、学習装置および学習方法、並びにプログラムおよび記録媒体
JP2002062899A (ja) データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体
JPH04323699A (ja) 音声符号化装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20111213

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20121207

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee