JPS6239759B2 - - Google Patents

Info

Publication number
JPS6239759B2
JPS6239759B2 JP56188060A JP18806081A JPS6239759B2 JP S6239759 B2 JPS6239759 B2 JP S6239759B2 JP 56188060 A JP56188060 A JP 56188060A JP 18806081 A JP18806081 A JP 18806081A JP S6239759 B2 JPS6239759 B2 JP S6239759B2
Authority
JP
Japan
Prior art keywords
envelope information
spectral envelope
audio signal
input
input audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56188060A
Other languages
English (en)
Other versions
JPS5888799A (ja
Inventor
Hiroya Fujisaki
Herumansukii Hineku
Yasuo Sato
Tadayasu Sugita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP56188060A priority Critical patent/JPS5888799A/ja
Publication of JPS5888799A publication Critical patent/JPS5888799A/ja
Publication of JPS6239759B2 publication Critical patent/JPS6239759B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Devices For Checking Fares Or Tickets At Control Points (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【発明の詳細な説明】 (1) 発明の技術分野 本発明は、音声分析処理方式、特に入力音声信
号をフーリエ変換してパワー・スペクトルを抽出
し、該パワー・スペクトルを用いて自己相関係数
を算出した上で線形予測係数を抽出し、該線形予
測係数を用いて入力音声信号のスペクトル包絡情
報を抽出する構成を有する音声分析処理方式にお
いて、上記フーリエ変換した後の周波数領域上に
おいて例えば圧縮あるいは伸長に対応する変換を
行なつた上で自己相関係数を更に引続き線形予測
係数を算出すると共に、該線形予測係数を用いて
得られた変形スペクトル包絡情報自体および該変
形スペクトル包絡情報をそのまま用いて抽出され
た特微量を例えば認識処理のために利用し得るよ
うにした音声分析処理方式に関するものである。
(2) 技術の背景と問題点 従来から、音声合成や音声認識などに用いるパ
ラメータの抽出に当つて、線形予測係数を抽出す
ることが行なわれている。そして上記音声合成や
音声認識に当つては、上記線形予測係数から入力
音声信号のスペクトル包絡情報を、例えば予測係
数自体を時間関数とみなしてフーリエ変換を行な
いそのスペクトルの逆スペクトルを算出すること
により、抽出したり、あるいは更に該スペクトル
包絡情報を用いてホルマント周波数などを求めた
りするようにされる。
しかし、スペクトル包絡情報を抽出する上記従
来公知の方式の場合には、得られた上記スペクト
ル包絡情報などが入力音声のピツチ周波数などに
影響されるなどの問題を含んでいる。
(3) 発明の目的と構成 本発明は上記の点を解決することを目的として
おり、本発明の音声分析処理方式は、入力音声信
号をフーリエ変換して周波数領域に変換して当該
入力音声信号のパワー・スペクトルを抽出し、該
パワー・スペクトルを用いて自己相関係数を算出
して線形予測係数を抽出し、該線形予測係数を用
いて上記入力音声信号のスペクトル包絡情報を抽
出する構成を有する音声分析処理方式において、
上記入力音声信号をフーリエ変換した後であつて
上記自己相関係数を算出する前の段階の周波数領
域において入力信号に対して入力信号の圧縮ある
いは伸長をほどこす変換処理部を挿置してなり、
該変換処理部を介在せしめて得られた変形パワ
ー・スペクトルを用いて上記入力音声信号のスペ
クトル包絡情報に対応する入力音声信号の変形ス
ペクトル包絡情報を算出し、該変形スペクトル包
絡情報自体および該変形スペクトル包絡情報から
得られた特微量を抽出することを特徴としてい
る。以下図面を参照しつつ説明する。
(4) 発明の実施例 第1図は従来公知のスペクトル包絡情報抽出の
ための構成例、第2図は本発明者らが先に行なつ
た発明によるスペクトル包絡情報抽出のための構
成例、第3図および第4図は本発明の前提問題を
説明する説明図、第5図は本発明の一実施例構
成、第6図ないし第9図は本発明による抽出結果
を説明する説明図を示す。
第1図において、1はフーリエ変換処理部であ
つて離散的な入力音声信号S(n)をフーリエ変
換するもの、2は2乗値抽出部であつて入力音声
のパワー・スペクトルP(ω)を抽出するもの、
3はフーリエ逆変換処理部であつてパワー・スペ
クトルP(ω)に対してフーリエ逆変換をほどこ
して自己相関係数R(n)を算出するもの、4は
線形予測係数算出部であつて自己相関係数R
(n)にもとづいて線形予測係数a(n)を算出
するもの、5はフーリエ変換処理部であつて線形
予測係数a(n)を時間関数とみなしてフーリエ
変換を行なうもの、6は2乗値抽出部、7は逆数
処理部を表わしている。なお、上記フーリエ変換
処理部5と2乗値抽出部6と逆数処理部7とは、
上記線形予測係数a(n)から入力音声信号のス
ペクトル包絡情報P(ω)を抽出するものと考え
てよい。なお、上記線形予測係数算出部4は、例
えば(i)コロナ社昭和58年発行、鈴木久喜訳「音声
のデイジタル信号処理(下)」第165頁ないし第
167頁や、(ii)IE3Proceeding Vol63,No.41975
“Linear Prediction:a Tutorial Review”(J.
Makhoul)P566,(37)式または(38a)式ない
し(38c)式に示される如く従来から知られてい
るものである。
第1図図示の従来公知の構成を用いた場合、次
の如き問題を包含している。即ち、 (A) 今入力音声のピツチ周波数が、(i)62.5ないし
500Hzの周波数範囲内にある多数の音声信号群
A、(ii)83.3ないし250Hzの周波数範囲内にある
多数の音声信号群B、(iii)62.5ないし125Hzの周
波数範囲内にある多数の音声信号群C、(iv)250
ないし500Hzの周波数範囲内にある多数の音声
信号群Dについて、対数スペクトル包絡情報を
抽出し、夫々群毎に入力音声の真の対数スペク
トル包絡情報からの偏差の2乗平均をとつてプ
ロツトすると、第3図図示横軸γ=1.0におけ
る値k1,k2,k3として示されるように、各音声
信号群A,B,C,Dに応じて本来同じ値であ
るのが好ましいのに図示の如く偏差が異なる値
をもつている。なお上記γの値については後述
するがγ=1.0の場合が従来のそれに該当して
いる。このことは、入力音声のピツチ周波数の
存在によつて抽出したスペクトル包絡情報に誤
差が生じること、またピツチ周波数の変動に応
じて抽出スペクトル包絡情報が変動することを
示している。
(B) また一定のホルマント周波数F1(500Hz)に
対応してF1/F0比が0.80ないし8.00となる範囲
のピツチ周波数F0をもつ多数の音声信号毎
に、抽出されたホルマント周波数が真のホルマ
ント周波数F1に対してどの程度の相対誤差を
もつかをプロツトすると、第4図図示の如く、
相対誤差がF1/F0比4.00以上のピツチ周波数
F0をもつ音声信号においても、本来エラー
「0.00」の線上にプロツトされるべきであるの
に±2.50%程度の値をとるものとなつている。
上述の如く、第1図図示の従来公知の方式を用
いた場合、入力音声信号のピツチ周波数に応じ
て、得られるスペクトル包絡情報や得られるホル
マント周波数に比較的大きい相対誤差を含んだも
のとなつている。
この点を解決すべく、本発明者らは先に第2図
に示す如く構成を用いてスペクトル包絡情報を抽
出することを発明して特許出願を行なつた。図中
の符号1ないし7およびS(n),P(ω),^P
(ω)は第1図に対応し、8は第2図においても
うけられる変換処理部、9は逆変換処理部を表わ
している。
第2図図示において2乗値抽出部2によつて入
力音声のパワー・スペクトルP(ω)が得られる
が、該パワー・スペクトルP(ω)に対して例え
ば P′(ω)=〔P(ω)〕〓 ……(1) なる変換を与える変換処理部8を挿置するように
する。該変換処理部8における係数γの値に対応
して、0<γ<1の場合にはパワー・スペクトル
P(ω)を振幅軸に関して圧縮し、1<γの場合
には伸長し、―1<γ<0の場合には圧縮して逆
数をとり、γ<―1の場合には伸長して逆数をと
つているものと考えてよい。
第2図図示の場合、入力音声信号S(n)をフ
ーリエ変換して絶対値をとつたパワー・スペクト
ルP(ω)に対して第(1)式に示す如き変換を行な
つた上で、変形自己相関係数R′(n)、変形予測
係数a′(n)、変形スペクトル包絡情報^P′(ω)
を得てその上で、上記第(1)式の変換の逆変換を逆
変換処理部9において行なうようにする。即ち、
入力音声信号S(n)をフーリエ変換した後であ
つてフーリエ逆変換処理部3によつて逆変換する
までの間の周波数領域において、第(1)式に示す如
き変換を行ない、スペクトル包絡情報^P(ω)を
抽出するに当つて、逆変換 ^P(ω)=〔^P′(ω)〕-〓 を行なうようにしている。なお、計算量は大とな
るが、第2図図示のフーリエ変換処理部1の直後
に変換処理部8を挿置してもよい。
第3図は、上述の如く各音声信号群A,B,
C,D毎に、第2図図示の構成を用いて、上記係
数γを変化させて前述のスペクトル包絡情報の偏
差をとつてプロツトした結果を示している。図示
の場合においては、γ=0.5近傍において、各群
A,B,C,D毎の偏差が略零近傍に集中してお
り、入力音声のピツチ周波数の変動による影響が
吸収されていることが判る。即ち第6図Aは第4
図に対応する同じグラフであり、第6図Bは第2
図図示の構成によつて得られたスペクトル包絡情
報P(ω)を用いて第6図Aと同じものをとつた
グラフを示している。第6図AとBとを対比する
と明らかな如く、F1/F0比が4.00以上の場合にお
いて安定し、入力音声のピツチ周波数が異なるこ
とによる影響が大きく抑えられている。
上記から判る如く、変換処理部8や逆変換処理
部9を用いる方式は、第1図図示の構成を用いる
場合にくらべて十分大きいメリツトをもつてい
る。本発明者らは、上記変換処理部8による変換
態様について、より好ましい関数形を探索し、一
実施例として次の如き関数形を見出した。即ち、 で与えられる変換を行なうことが好ましいことを
見出した。なお、第(2)式におけるGはパワー・ス
ペクトルP(ω)を正規化するためのものと考え
てよく、μは正の値をもつ任意の係数であり、ま
たlogのカツコ内の値1は対数値が負の値をとら
ないようにするためのものと考えてよい。
上記第(2)式の如き変換を行なうようにすると、
スペクトル包絡情報^P(ω)を得るには、第2図
から明らから如く、逆変換処理部9において第(2)
式の変換に対応する逆変換を行なうことが必要と
なる。そして、第2図図示の構成においては、ス
ペクトル包絡情報^P(ω)を正しく得ているから
こそ、例えばホルマント周波数などを図示しない
後段部において正しく得ることが可能となつてい
る。
しかし、例えば音声認識のために第2図図示の
如き構成を用いて入力音声の特微量を抽出しよう
とする場合には、辞書メモリなどに格納している
標準特微量と入力音声から得られた特微量との照
合が得られれば足りるものである。このために、
第2図図示の構成における逆変換処理部9を省略
したものを用いることができる。換言すれば変形
スペクトル包絡情報^P′(ω)をスペクトル包絡
情報P(ω)とみなして利用してゆくことができ
る。
第5図は本発明の一実施例構成を示している。
図中の符号1ないし7は第1図に対応し、10は
変換処理部であつて第2図に示す変換処理部8に
対応されるもので第(2)式による変換を行なうもの
を示している。
第5図図示の構成の動作は、第2図図示の場合
における変形スペクトル包絡情報^P′(ω)を得
る場合と実質的に同じであり、変換処理部10の
動作が第(2)式に対応するものとなつているだけで
ある。そして出力される情報は、第(2)式の変換に
対応した形の変形スペクトル包絡情報^P″(ω)
である。
本発明の場合には、上記変形スペクトル包絡情
報^P′(ω)や^P″(ω)を、あたかもスペクトル
包絡情報P(ω)自体であるかの如くみなし、上
記変形スペクトル包絡情報自体あるいはそれから
抽出された特微量を利用してゆくようにする。
第5図図示の構成によつて得られた変形スペク
トル包絡情報を用いてホルマント周波数を抽出
し、第6図Aや第6図Bのグラフに対比せしめた
ものが第6図Cに示されている(なお係数μは値
10にとつている)。第6図Cから判る如く、入
力音声のピツチ周波数の変動による影響が吸収さ
れていることが判る。このために、認識処理に当
つての認識率の向上が期待される。なお、第6図
Bのグラフにくらべて第6図Cのグラフにおいて
より良い安定を示している大きい原因の1つは、
第(1)式による変換を行なつた場合と第(2)式による
変換を行なつた場合との差異に起因している。し
かし、第5図図示の如く、変換処理部10に対応
する逆変換処理部を省略した形であつても、ホル
マント周波数などを抽出することができ、十分に
認識処理に利用できることが確められた。
第7図ないし第9図は、夫々、第3図に関連し
て説明した群Aについて、第5図図示の構成にも
とづいて変形スペクトル包絡情報^P″(ω)を得
てホルマント周波数F1を抽出し、その際におけ
る係数μの値を変化させた場合のグラフを示して
いる。係数μの値が値10の近傍をとる場合にお
いて、特にホルマント周波数のバラツキが小さい
ものとなつている。
(5) 発明の効果 以上説明した如く、本発明によれば、入力音声
信号のピツチ周波数の違いによる影響をなくする
ことができ、第2図図示構成などにおける逆変換
処理部9の如き一般に必要と考えられていた所の
逆変換処理部を省略することが可能となる。
【図面の簡単な説明】
第1図は従来公知のスペクトル包絡情報抽出の
ための構成例、第2図は本発明者らが先に行なつ
た発明によるスペクトル包絡情報抽出のための構
成例、第3図および第4図は本発明の前提問題を
説明する説明図、第5図は本発明の一実施例構
成、第6図ないし第9図は本発明による抽出結果
を説明する説明図を示す。 図中、1はフーリエ変換処理部、2は2乗値抽
出部、3はフーリエ逆変換処理部、4は線形予測
係数算出部、5はフーリエ変換処理部、6は2乗
値抽出部、7は逆数処理部、8,10は変換処理
部、9は逆変換処理部、S(n)は入力音声信
号、P(ω)はパワー・スペクトル、^P(ω)は
スペクトル包絡情報、P′(ω)′,P″(ω)は変
形パワー・スペクトル、R′(n),R″(n)は変
形自己相関係数、a′(n),a″(n)は変形予測
係数、^P′(ω),^P″(ω)は変形スペクトル包
絡情報を表わす。

Claims (1)

    【特許請求の範囲】
  1. 1 入力音声信号をフーリエ変換し周波数領域に
    変換して当該入力音声信号のパワー・スペクトル
    を抽出し、該パワー・スペクトルを用いて自己相
    関係数を算出して線形予測係数を抽出し、該線形
    予測係数を用いて上記入力音声信号のスペクトル
    包絡情報を抽出する構成を有する音声分析処理方
    式において、上記入力音声信号をフーリエ変換し
    た後であつて上記自己相関係数を算出する前の段
    階の周波数領域において入力信号に対して入力信
    号の圧縮あるいは伸張をほどこす変換処理部を挿
    置してなり、該変換処理部を介在せしめて得られ
    た変形パワー・スペクトルを用いて上記入力音声
    信号のスペクトル包絡情報に対応する入力音声信
    号の変形スペクトル包絡情報を算出し、該変形ス
    ペクトル包絡情報自体および該変形スペクトル包
    絡情報から得られた特徴量を抽出することを特徴
    とする音声分析処理方式。
JP56188060A 1981-11-24 1981-11-24 音声分析処理方式 Granted JPS5888799A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56188060A JPS5888799A (ja) 1981-11-24 1981-11-24 音声分析処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56188060A JPS5888799A (ja) 1981-11-24 1981-11-24 音声分析処理方式

Publications (2)

Publication Number Publication Date
JPS5888799A JPS5888799A (ja) 1983-05-26
JPS6239759B2 true JPS6239759B2 (ja) 1987-08-25

Family

ID=16216987

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56188060A Granted JPS5888799A (ja) 1981-11-24 1981-11-24 音声分析処理方式

Country Status (1)

Country Link
JP (1) JPS5888799A (ja)

Also Published As

Publication number Publication date
JPS5888799A (ja) 1983-05-26

Similar Documents

Publication Publication Date Title
US8412526B2 (en) Restoration of high-order Mel frequency cepstral coefficients
JP4624552B2 (ja) 狭帯域言語信号からの広帯域言語合成
US9123350B2 (en) Method and system for extracting audio features from an encoded bitstream for audio classification
JP3364904B2 (ja) 自動音声認識方法及び装置
KR100708121B1 (ko) 음성 신호의 대역 확장 방법 및 장치
US4922539A (en) Method of encoding speech signals involving the extraction of speech formant candidates in real time
US20040199381A1 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
JPS6366600A (ja) 話者の音声を前処理して次の処理のための正規化された信号を得る方法および装置
JPS6239759B2 (ja)
JP3354252B2 (ja) 音声認識装置
JPS6239760B2 (ja)
JPH0573093A (ja) 信号特徴点の抽出方法
US5692103A (en) Method of speech recognition with learning
JP2940835B2 (ja) ピッチ周波数差分特徴量抽出法
JP2019132948A (ja) 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
JPS6238720B2 (ja)
WO1998022935A2 (en) Formant extraction using peak-picking and smoothing techniques
JPS6238719B2 (ja)
JP2539351B2 (ja) 音声合成方法
JP2898637B2 (ja) 音声信号分析方法
JPS599917B2 (ja) 音声分析処理方式
JP2002507775A (ja) 音声信号処理方法および音声信号処理装置
JP2583854B2 (ja) 有声無声判定方法
JPS6113600B2 (ja)
JPH0636157B2 (ja) 帯域分割型ボコ−ダ