JPS6265091A - 連続音声認識方式 - Google Patents

連続音声認識方式

Info

Publication number
JPS6265091A
JPS6265091A JP60206040A JP20604085A JPS6265091A JP S6265091 A JPS6265091 A JP S6265091A JP 60206040 A JP60206040 A JP 60206040A JP 20604085 A JP20604085 A JP 20604085A JP S6265091 A JPS6265091 A JP S6265091A
Authority
JP
Japan
Prior art keywords
syllable
standard pattern
input speech
matching
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60206040A
Other languages
English (en)
Inventor
管村 昇
良平 中津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP60206040A priority Critical patent/JPS6265091A/ja
Publication of JPS6265091A publication Critical patent/JPS6265091A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 「発明の属する分野」 この発明は、あらかじめ蓄積したCV音節(単音節)標
準パタン系列と、連続的に発声した未知入力音声とのD
Pマツチングを連続的に行い、各CV音節標邸パタンに
対応する入力音声区間長とマツチング距離値とをフレー
ムごとに出力し、この結果とセグメンテーションの結果
とを組み合わせてこれら間に所定の関係があるものから
CV 音節ラテイスを生成する連続音声認識方式に関す
るものである。
「従来の技術」 従来連続音声を認識する方式としては、王に二つの方式
が用いられている。その一つは音声の種々の特徴を用い
て連続音声中の音素(/p/。
/l/、/に/など)を認識する方式で、池の一つはD
Pマツチング(あらかじめ蓄積している標準パタンと入
力音声パタンとの時間伸縮マツチング)を基本にする方
式である。連続音声中の音素の認識を行う方式は、調音
結合のため音素の特徴が一定ではないため、決定的な認
識方式が存在せず、高い認識率が安定して得られないと
いう欠点がある。一方DPマッチングによる方式は、太
きく分けて入力音声をCV音節(ta、pa、kaなど
)などの単位にセグメンテーション(音声区間の切り出
し)を行ってから、標準パタンとのDPマツチングを行
う方式と、セグメンテーションを行わず連続的にDPマ
ツチングを行う方式とがある。
前者の方式では、高精度なCV音節単位のセグメンテー
ションが不可欠であり、セグメンテーション法の良否が
認識率に決定的な影響を及ぼす。一方後者の方式では、
DPマツチングのための演算lが標準パタン数に正比例
して増加するとともに。
マツチング結果からCV行節ラティスに変換する方法が
繁雑であるという欠点があった。
「問題点を解決するための手段」 この発明は、これらの欠点を解決するために、演算計な
大幅に低減できる擬音素標準パタン(音声の短時間スペ
クトルの形状を数百個のパタンで表現したもの。音素よ
りも小さな単位と考えることができ、これらのパタンを
擬音素と呼ぶ。)を用いた連続DPマツチング法を用い
ると共に、認識された結果とセグメンテーションとを柔
軟に組み合わせることによって、セグメンテーションの
誤りが認識結果に決定的な影響を与えることをさけるよ
うにしたもので、その目的は入力された連続音声から各
セグメント区間において複数のCV音節候補を含むCV
音節ラティスを作成することにある。
「実施例」 第1因はこの発明の基本的な構成を示す。音声入力端子
lからの入力された音声は、スペクトルパラメータ抽出
部2に入力され、その音声から短時間(例えば8m5e
c、この時間を分析フレーム周期と呼ぶ)のスペクトル
の特徴が抽出される。スペクトルパラメータ抽出部、又
はスイッチS1により擬音素標準パタン作成部3とスペ
クトル距離計算部4及び動的尺度計算部5とに切替接続
される。
擬音素標準パタン作成部3は抽出されたスペクトルパラ
メータより擬音素標準パタンを作成する。
その作成された擬音素標準パクンは擬音素標檗パタン蓄
漬部6に記憶される。スペクトル距離計算部4は抽出さ
れたスペクトルパラメータと擬音素標桑パタンとの距離
を計算する。スペクトル距離計算部4はスイッチS2に
より最小スペクトル距離選択部7とDPマツチング部8
とに切替え接続される。最小スペクトル距離選択部7は
計算されたスペクトルパラメータについて距離が最小の
擬音素振1 パタンを選択する。七の選択されたCV音
節標準パタンなどの擬音素糸列はCV音節標準パタン蓄
漬部9に蓄積される。DPマツチング部8ではスペクト
ル距離計算部4で計算されたスペクトル距離値と蓄漬部
9のCV音節標孕パタンとを用いて、入力音声とCV音
節標準パタンとのDPマツチングを時間的に連続して行
い、入力音声の分析フレームごとに各CV音節標準パタ
ンに対するマツチング距離値と、そのC■音節標準パタ
ンに対応する入力音声区間長とを出力する。一方動的尺
度計算部5で分析されたスペクトルパラメータから、ス
ペクトルの時間的な動きを表現する動的尺度が計算され
、この動的尺度の局所的最大値とDPマツチング部8の
出力結果との組み合わせでCV音節ラティスがCV音節
ラティス生成部10で生成され、その生成されたCV音
節ラティスは出力端子11から出力される。
この発明の連続音声認識方式は、使用に際してつぎの三
つの段階に分けられる。
(1)  擬音素標準パタンの作成と蓄積(2)CV音
節標準パタン(擬音素標準パタンの系列で表現)の作成
と蓄積 (3)未知連続音声認識 まず(1)の段階では、スイッチS1がa側(擬音素標
準パタン作成部3側)に接続される。利用者が発声した
音声入力(この場合の音声は、必ずしも認識対象語でな
くてよい)は、入力端子lからスペクトルパラメータ抽
出部2に供給され、短時間スペクトル分析され、フレー
ム周期(例えば8m5ec)ごとに、スペクトルパラメ
ータのセット(P; )(’ ” t t・・・・・・
n)が抽出される。この抽出されたパラメータは、相関
係数やLPCケプストラムなどであり、nはパラメータ
の個数を表している。
つぎにフレーム周期ごとに抽出された多くのスペクトル
パラメータのセットを用いて、擬音素標準パタン作成部
3で擬音素標準パタンを作成する。
擬汁素は物理的な尺度を用いたクラスタリング手法によ
って作成した音声の短時間のスペクトルの特徴を表わす
もので、その作成法には、例えば管材、古井、箱出の出
願による特願昭55−139094号明細書記載の方法
を用いることができる。その作成された擬音素標準パタ
ンは、擬音素標準パタン蓄積部6に記憶される。
(2)では、まずスイッチS、をb側(スペクトル距離
計算部4及び動的尺度計算部5側)に、スイッチS2を
C側(最小スペクトル距離選択部7)に接続し、各認識
対象CV音節、単語ごとに、利用者の音声を擬音素標準
パタンを用いた系列として表わして蓄積する。すなわち
、その各入力音声をスペクトル分析したスペクトルパラ
メータと、(1)で作成した各擬音素標準パクンとのス
ペクトル距離計算をスペクトル距離計算部4でフレーム
周期ごとに行い、その計算結果より最小スペクトル距離
パタン選択部7で、最小のスペクトル距離を有する擬音
素標準パタンを選択する。このような操作を認識対象単
語パタンのそれぞれについて行い、擬音素標準パタンの
番号系列で表現する。すなわち、各Cy g節標準パタ
ンは、擬音素標準パタンを示す番号の系列で表現される
。その結果はc′v音節標準パタン蓄@部9に記憶され
る。
(3)では、スイッチS1をb側に、スイッチS2をd
側(DPマツチング部8側)に接続し、未知入力連続音
声の認識を行う。入力端子lからの入力音声を、スペク
トルパラメータ抽出部2でスペクトル分析し、その分析
結果のスペクトルパラメータについてフレーム周期ごと
にスペクトル距離計算部4で、擬音素標準パタン蓄積部
6から読みだした各擬計素標準パタンとのスペクトル距
離を計算する。この計算結果とCV音節標準パタン蓄噴
部9に蓄積した認識対象単語の擬音素標準パタン系列と
を用いて、音声の時間伸縮を吸収するスペクトルマツチ
ングをDPマツチング部8で行い、入力音声の各分析フ
レーム周期ごとに各CV音節標桑パタンに対するマツチ
ング距離値とそのCV音節標準パタンに対応する入力音
声区間長とを抽出する。この手順を第2図を用いて以下
に説明する。
囚 最小積分値の計算 dijを入力音声の第iフレームとcV音節標準パタン
の第jフレームとの距離値とし、G(’11.J、l)
を(i、J)における積分値とする。G(i、j)は、 ここでG (i’、 jend )は、入力音声の第1
1フレームにおけるCV音節[1パタンに対する最小積
分値である。ここでjendは、c■音節標桑パタンの
終端フレームを意味している。al−35はDPパスに
対応する重み係数であり、バスが対称の場合にはal=
2.a2=l、a8=2.a4=2pa、=xであり、
非対称の場合は2.=l、a2=1 r aB”l +
 84 =0.51 ”S=0.5である。
(6)最適積分路の長さの計算 (C)  入力音声の第i“フレームにおけるCV音節
漂準パタンnに対するDPマツチング距離値の計算 5(n)=G (i’、 jend )/C(i’、 
jend )(3)I 最適漬分路によってCV音節標
鴎、パタンと対応づけられる入力音声区間長の計算 ここでL(11,jend)が入力音声の第i“フレー
ムにおけるCV音節標賭パタンに対する入力音声区間長
になっている。
この手順において、(1)式におけるスペクトル距fi
1m (d17 )の計算は、従来の方法では入力音声
のフレーム周期ごとに、各CV 8節標準パタンの各フ
レームに対して実行する必要があったが、この発明によ
ればCV音節標♀バクンは擬音素標準パタンを示す番号
の系列で表現されてあり、このCV音節標準パタンと入
力音声とのDPマツチングは、スペクトル距離計算部4
で既に計算した擬音素標夢パタンとの距離計算値のみを
参照して行うことができるので、DPマツチングにおけ
るスペクトル距離計算殴を大幅に減少゛fることかでき
る。
動的尺度計算部5では、セグメンテーションに関する情
報を得るため、スペクトルパラメータ抽出部2で得られ
たLPCケプストラムパラメータを用いてつぎのような
尺度を計算する。
いまLPGパラメータの時系列をCk(i)で表わす。
kはパラメータの次数で、1はフレーム番号を表わすと
する。このLPGパラメータの時系列を、各次数ごとに
回帰直線 4(i) = aki −1−b          
(5)で近似し、誤差 が最小になるようにak、bkを決定する。ここでWi
はフレームの値に対する重み係数である。このとき次式
で定義される尺度を計算する。
この尺度はスペクトルの緩やかな動きの度合いを表現し
ており、スペクトルが急激に変化する部分でピーク値を
もつ。nの値を適度に設定すればCV音節境界付近でピ
ーク値を持つようにできる。ここでpはLPCケプスト
ラムの個数である。
CV音dISラティス生成部10では、DPマツチング
部8及び動的尺度計算部5で得られた結果を組み合わせ
てCV4節ラティスを作成する。その方法を第3図を用
いて以下に説明する。
この図においてSで示された位置が動的尺度値の局所的
最大値から決定されるセグメンテーション位置とする。
さらに各CV音節標桑パタンに対するDPマツチング距
離値5(n)の時間経過から各CVv節標準パタンに対
してDPマツチング値の局所的最小値を示す位置をそれ
ぞれ求め、この時点をそれぞれ終点としたCV音節漂i
11^パタンに対応する入力音声区間長cva、CVb
、CVo、CVdを(3)式及び(4)式の計算結果か
ら求めて表示したものであり、隣接セグメンテーション
位置の間隔をLl、入力音声区間長CVの始めから次の
セグメンテーション位置までの間隔をL2、入力音声区
間CVの長さをL3とする。このとき各CV f節標岱
パタンに対して、例えばL2/L、>01とL2/L、
>02を満たす関係があるパタンのみを、各セグメント
区間における認識結果とする。
このような方法で生成された07行節ラティスの例を第
4図に示す。単語「音声」(σN’S E”・1)を発
声入力した場合でこの図において横軸はセグメンテーシ
ョンの不漉かさ、縦軸はCV旨節の認識の不確かさ?表
現しており、双方に複数の候補を設定することで認識結
果を表現する形式となっている。上述したアルゴリズム
かられかるように、各CV標標準パラン対してセグメン
ト区間内の−部の区間、あるいは隣り合うセグメント区
間にまたがって認識された場合も、もれなく c v 
音節ラテイスの中に表現できる。従ってセグメンテーシ
ョンと連続DPPマツチング結果を組み合わせてCV4
節ラティスな作成することにより、セグメンテーション
を行−ってからDPPマツチング行う方法に比べ、セグ
メンテーションの誤りに起因する誤認識の割合を小さく
することができる。
以上の各段階のうち、(1)におけるN音素標準パタン
の決定および(3)におけるセグメンテーション位置の
決定は、DPマツチング実実行−使用する同一のパラメ
ータを用いた単純な計算によって極めて容易に行うこと
ができる。
「′砲門の効果」 以上説明したように、この発明の特徴は■擬汗素標準パ
タンを用いて連続的なりPマツチングと、セグメンテー
ションとを並行して行い、これらの結果を組み合:)っ
せることにより最終的な認識結果を得ること、■セグメ
ンテーションのパラメータとして動的尺度を用いること
にある。その結果、以下のような効果が得られる。まず
DPPマツチング必要なスペクトル距離計算が人力音声
の各フレームに対して、擬音素標準パタンとの計算だけ
でよく、計算像を従来の方法に比べて大幅に減少できる
利点がある。擬音素標準パタンの数をn、CV廿節標準
パタン数をm、各CV音節標桑パタンの平均フレーム数
を1とすると、従来のパラメータ蓄積方式とこの発明の
方式とのスペクトル距離計算回数はIn−ノ二〇の関係
になり、例えばn=256 、m=500.7=50と
すれば、約百分の−で済む。さらに認識対象CV音節標
準パタンは、擬音素標零パタンの番号の系列で表現され
ているため、C■音節標準パタン用の記憶容量は従来の
分析パラメータ七のものを蓄積しておく方式に比べ数十
分の位置で済む。またセグメンテーションとDPPマツ
チングを並行して行い、両者の結果を組合わせ最終的な
認識結果を得ることにより、セグメンテーションを行−
ってかうDPPマツチング行う方法に比べ、セグメンテ
ーション精度に対する要求を緩和させることができる。
動的尺度をセグメンテーションのパラメータとして用い
て、動的尺度の局所的極大値を検出する全自動的なセグ
メンテーションを採用することにより、従来のような種
々のパラメータを組み合わせた複雑な判定演算を回避す
ることができる。
【図面の簡単な説明】
第1図はこの発明による連続音声認識方式の基本的な構
成を示すブロック図、第2囚は第1図におけるDPマツ
チング部の説明に用い、入力音声とCV漂準パタンと、
マツチングパス、最適積分路、入力音声区間長との関係
例を示す図、第3図は第1図におけるC V M if
+5ラティス生成部の説明に用い、セグメンテーション
位置と入力音声区間長と、DPマツチング距離呟の局所
的最小値の位置との関係例を示す図、第4図はCV音節
ラティスの例を示す図である。 に音声入力端子、2ニスベクトルパラメ一タ抽出部、3
:擬音素標桑パクン作成部、4ニスベクトル距離計算部
、5:動的尺度計算部、6:擬音素標桑パタン蓄積部、
7:最小スペクトルパタン選択部、8:DPマツチング
部、9:CV音節標準パタン蓄積部、io:cV音節ラ
うィス生成部、11:cV音節ラティス出力部。

Claims (2)

    【特許請求の範囲】
  1. (1)物理的な尺度を用いたクラスタリング手法によつ
    て作成した音声の短時間のスペクトルの特徴を表す擬音
    素の標準パタンと、擬音素の系列として表現されたCV
    音節(単音節)標準パタンとをあらかじめ蓄積しておき
    、 未知入力音声をスペクトル分析し、これと上記擬音素の
    標準パタンとのスペクトル距離を計算し、 そのスペクトル距離計算の結果を用いてCV音節標準パ
    タンと上記未知入力音声とのDPマッチングを、時間的
    に連続して行うことにより、入力音声の分析フレーム周
    期ごとに各CV音節標準パタンに対するマッチング距離
    とそのCV音節標準パタンに対応する入力音声区間長と
    を計算し、 このDPマッチング距離値が局所的最小値を有する時点
    とこの時点を終点としたCV音節標準パタンに対応する
    入力音声区間長とを各CV音節標準パタンに対して求め
    、 上記未知入力音声に対するセグメンテーションを行い、 そのセグメンテーションの結果と、局所的最小値を有す
    る時点とこの時点を終点としたCV音節標準パタンに対
    応した入力音声区間長との予め決められた関係をもつた
    ものからCV音節ラテイスを生成することを特徴とする
    連続音声認識方式。
  2. (2)上記セグメンテーションは未知入力音声のスペク
    トル分析されたパラメータからスペクトルの大局的な動
    きを表現する尺度を計算し、この局所的極大値をセグメ
    ンテーション位置とするものであることを特徴とする特
    許請求の範囲第1項記載の連続音声認識方式。
JP60206040A 1985-09-17 1985-09-17 連続音声認識方式 Pending JPS6265091A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60206040A JPS6265091A (ja) 1985-09-17 1985-09-17 連続音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60206040A JPS6265091A (ja) 1985-09-17 1985-09-17 連続音声認識方式

Publications (1)

Publication Number Publication Date
JPS6265091A true JPS6265091A (ja) 1987-03-24

Family

ID=16516896

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60206040A Pending JPS6265091A (ja) 1985-09-17 1985-09-17 連続音声認識方式

Country Status (1)

Country Link
JP (1) JPS6265091A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04121455U (ja) * 1991-04-16 1992-10-29 東京濾器株式会社 スローアウエーエアクリ−ナ

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59219799A (ja) * 1983-05-28 1984-12-11 株式会社東芝 音声認識装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59219799A (ja) * 1983-05-28 1984-12-11 株式会社東芝 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04121455U (ja) * 1991-04-16 1992-10-29 東京濾器株式会社 スローアウエーエアクリ−ナ

Similar Documents

Publication Publication Date Title
JP4354653B2 (ja) ピッチ追跡方法および装置
JPS63285598A (ja) 音素接続形パラメ−タ規則合成方式
CN104272382A (zh) 基于模板的个性化歌唱合成的方法和系统
JP4225128B2 (ja) 規則音声合成装置及び規則音声合成方法
JPS6265091A (ja) 連続音声認識方式
JP5375612B2 (ja) 周波数軸伸縮係数推定装置とシステム方法並びにプログラム
JP2009058548A (ja) 音声検索装置
US20090043568A1 (en) Accent information extracting apparatus and method thereof
Bhatia et al. Speaker accent recognition by MFCC Using KNearest neighbour algorithm: a different approach
JP5054632B2 (ja) 音声合成装置及び音声合成プログラム
Percybrooks et al. Voice conversion with linear prediction residual estimaton
JPH0449720B2 (ja)
Zhou et al. Multisegment multiple VQ codebooks-based speaker independent isolated-word recognition using unbiased mel cepstrum
JPS62173499A (ja) 連続音声認識装置
JP4603290B2 (ja) 音声合成装置および音声合成プログラム
JPH0199095A (ja) パターン作成装置
JPH0552516B2 (ja)
Gu et al. A voice conversion method mapping segmented frames with linear multivariate regression
WO2002097796A1 (en) Providing shorter uniform frame lengths in dynamic time warping for voice conversion
JPS6155700A (ja) ピッチ抽出処理方式
JPH02203396A (ja) 音声の特徴抽出装置
JPH04253100A (ja) 音声合成装置の音源データ生成方法
JPH11282485A (ja) 音声入力装置
Bae et al. Speech Quality Improvement in TTS System Using ABS/OLA Sinusoidal Model
JPH08248985A (ja) 音声認識装置及び方法