JPS62220998A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS62220998A
JPS62220998A JP61064512A JP6451286A JPS62220998A JP S62220998 A JPS62220998 A JP S62220998A JP 61064512 A JP61064512 A JP 61064512A JP 6451286 A JP6451286 A JP 6451286A JP S62220998 A JPS62220998 A JP S62220998A
Authority
JP
Japan
Prior art keywords
phoneme
standard pattern
continuous
speech recognition
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61064512A
Other languages
English (en)
Other versions
JPH0556517B2 (ja
Inventor
隆一 岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Agency of Industrial Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency of Industrial Science and Technology filed Critical Agency of Industrial Science and Technology
Priority to JP61064512A priority Critical patent/JPS62220998A/ja
Priority to US07/027,447 priority patent/US4975962A/en
Priority to GB8706368A priority patent/GB2188181B/en
Publication of JPS62220998A publication Critical patent/JPS62220998A/ja
Publication of JPH0556517B2 publication Critical patent/JPH0556517B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、人が発声した音声を自動的に認識し、その認
識結果を例えば活字によって表わす等の用途に供される
音声認識装置、殊にその認識単位が単語より小さな音素
等である音声認識装置に関する。
[従来の技術] 従来のこの種の装置における音声認識の方式としては、
単語を認識単位として標準パターンを作成し、それをダ
イナミックプログラミング(動的計画法、以下、DPと
略称する)等を用いて、入力パターンと整合をとること
により音声認識をする方法が広く用いられてぎた。
[発明が解決しようとする問題点] この従来型のパターン整合方式では、標準パターンとし
て採用する単位が単語程度の大きなものであり、かつ単
語の種類が百程度以下の少数である場合には、高い識別
率を与えてきた。しかし、音素や音素片などのように認
識単位が単語より小さなもの(この場合、単語より短い
区間で標準パターンが作成される)に対しては、このパ
ターン整合方式は有効性を十分発揮しなかった。この原
因は、標準パターンのパターンの長さが短いので、その
前後の音素環境によって種々に変形を受ける音素の標準
パターンの作成が困難であり、かつ入力パターンとの整
合も正しく行わないためであった。
しかし、認識すべき単語の種類が実際には子種類以上の
多数であり、かつ連続音声でもある音声認識系の構成の
ためには単語より小さな音素や音素片を認識単位として
用いなければならないことは明白である。
本発明は、以上の問題点に鑑み、パターン整合方式の枠
組の中で、単語より小さな音素または音素片を認識単位
とすることを可能にする音声認識装置を提供することを
目的とする。
[問題点を解決するための手段] 本目的を達成するため、本発明は音声入力を電気信号に
変換する音声入力部と、音声入力部の出力波形を分析す
る分析部と、標準パターンをあらかじめ記憶する標準パ
ターン記憶部と、分析部で分析された入カバターンと標
準パターンとの距離を計算し、計算結果に応じて入力音
声の音素名や単語名を含む語文を識別する音声認識部と
、音声認識部の識別結果を外部に出力する出力部とから
成る音声認識装置において、標準パターン記憶部が少な
くとも、音素または音素片を表わす特徴パラメータ系列
の複数個のつながりによって作成された標準パターンを
記憶しており、音声認識部が、標準パターンと入力パタ
ーンとの整合を連続ダイナミックプログラミングによる
整合方式によって実行し、各標準パターンについての整
合値と音素または音素片の記号列で表わされた整合履歴
を表わすパラメータとを各入力フレーム毎に有する連続
DP値を出力する連続DP部と、整合履歴を表わすパラ
メータと連続DP値を用いて、時刻を同じくしている同
一音素または音素片記号によるその時刻の同定回数を累
積し、各時刻における各音素または音素片カテゴリーの
累積値を最大とするものから、その時刻の識別候補を定
める部分整合演算部とを具備したことを特徴とする。
[実施例] 以下、図面を参照して本発明の実施例を詳細に説明する
第1図は本発明実施例の音声認識装置の概略構成を示す
本図において、マイクロフォン等の音声入力部1によっ
て入力された音声波形Aはアナログデジタル変換器、F
FT(高速フェーリエ変換器)やバンドパスフィルタ等
から成る分析部2により分析されて、スペクトル等の特
徴パラメータ(以下、入カバターンと称する)Bとなる
。一方、パターンマツチングアルゴリズム連続DPを行
う連続DP部3で用いる標準パターンとして、単語より
小さいが音素よりは大きい/vCv/や/CVC/ (
但しC:子音、V:母音)程度の識別単位の標準パター
ンCが予め記憶部4に登録・記憶されており、この標準
パターンCと入カバターンBとを連続02部3によって
マツチングする。
連続DP部3によるマツチングの結果りは部分整合演算
部5において集計・判定され、その判定結果Eが外部の
プリンタ等の出力部6へと出力される。
本実施例の音声認識系は上述のごとく連続DPと深く関
係してるので、まず連続DPについて説明する。
連続DPの適用において入力音声の分析部2からの出力
Bは、 (f(t、x)H1≦t<co、1≦X≦L)    
 −(1)なる式で表現される。ここで、t=1.2.
・・・とじ、tの間隔は分析フレーム間隔(分析の行わ
れる間隔)であり、例えば8〜10m5ecである。ま
た、Xはスペクトル等のパラメータ次数である。すなわ
ち、Xは例えば既析部2がバンドパス・フィルタである
とすると、各バンドの番号を表わし、Lは既述の所から
通常10乃至20である。この時、上述のf(t、x)
はt時刻のバンド番号Xのパワー乃至大きさを示してい
ることになる。
次に、記憶部4に登録・記録され連続DPに用いられる
標準パターンを (Z(r 、x) : l≦τ≦T、 l≦X≦L )
   ・(2)とする。このとき、連続DI’の式は、
標準パターンCと入力パターンBのフレーム間距離をL d(t、T)−一 Σ 1f(t、x) −Z(τ、x
)  I  −(3)LメIll と定めるとき、累積路ffi[tf’(t、τ)を与え
る次の式として表現される。
ここで、p(t、τ)の初期条件としては、P(−1,
r)−P(o、r)−00,(1≦τ≦T)で与えられ
る。連続[)Pの出力値D(t)は、o (t)−2旦
」−・・・(5) 3・T として定められ、この0 (1)が最適整合値を意味し
ている。
連続音声の認識において、連続DPのみを用いる場合に
は、通常上式(5)のD (t)の時間的な局所的最低
値を見出し、その時刻とその最低値を与える認識単位名
を出力としてきた。この際、従来では標準パターンを作
成した認識単位の大きさは単語程度の大ぎさのものが用
いられてきた。しかし、先にも述べたように、大語食・
不特定話者・連続音声認識系を構成するには認識の基本
単位を単語より小さくする必要があるが、単語より小さ
な単位の標準パターンを用いる場合に、従来のDPによ
る音声認識方法では高い識別率を与えない。この理由も
先に述べたごとく、識別の基本単位が小さくなると、そ
れを表わす標準パターンの長さが短くなり、前後にある
音韻のパターンによって大きく変化するので、標準パタ
ーンが定まらなくなり、かつマツチングも精度よく行わ
れないためである。そのため、従来では、音素のような
小さな単位の認識を行うのに、パターンマツチング的手
法を用いることの有効性が疑われてきた。
こうした状況において、本発明を成立させる前提として
、本発明者は以下のような特別の知見を得ることに努力
した。
即ち、大きな識別単位の標準パターンは小さなト別単位
の標準パターンより調音による音韻の変1動をよく表わ
すことができる。これは大きな識別単位の標準パターン
の利点をであるが、大きな識別単位をとるほど識別の判
定は単位的に荒くなる。これは、大きな識別単位をパタ
ーンマツチングの単位にとる場合、部分的に正しく整合
していると思われる部分だけを取り出すということが行
われないためである。したがフて、まず連続DPを用い
て、その連続OPによる整合は比較的大きな識別単位で
行ない、その結果の集計と判定はより小さな識別単位で
行なうことができれば、大きなマツチング単位をもつこ
との長所を生かし、その弱点(小さな識別単位を出力と
しないこと)を補う理想的なマツチング方式のものにな
るはずである。
以上の知見に基づき、発明者は以下にのべる新しい音声
認識方式である「連続DPを用いた部分整合方式」を発
明した。本発明に係る「連続DPを用いた部分整合方式
」の概念説明図を第2図に示す。
第2図においての■は連続DPのための標準パターンの
一例であり、本発明の方式では音素(または音素片)の
カテゴリーを有するパターンが複数個連結したもので構
成される。第2図では標準パターンとして3個の音素片
A、B、Cで構成されるものが示しである。この例のよ
うに3つの音素片から連続DPの標準パターン (Z(r 、x) : l≦τ≦T、 l≦X≦L)が
構成されているときは、2(τ、X)はとなる。ここで
、 (zt(r、x): 1≦τ≦τ1,1≦X≦L)  
、 i g l、x、3・・・ (7) 番すそれぞれ音素片のパターンである。
ただし、式(6)の標準パターンは個別に作成された音
素または音素片の標準パターンというものを連結して作
成するのではない、連続DPにかかる標準パターンは、
1)単語等の中で音素や音素片の微視的カテゴリーのも
のが連結して巨視的カテゴリーのパターンとなっている
ものを、巨視的単位のサンプルとして切り出し、2)そ
れについて音素または音素片のカテゴリーでその区切り
点(τ1.τ2.τ3等)を指定し、3)これらの巨視
的単位のサンプルを平均化操作する。ことで作成する。
これにより、音素または音素片の標準パターンは式(6
)の巨視的標準パターンの中に存在する形で表現される
ことになる。
次に、連続DPによる上述の標準パターンを入カバター
ンとのマツチング時において、入力パターンの各フレー
ム時刻がいかなる音素(または音素片)に対応させられ
ているかを示す整合履歴のパラメータを考えるとする。
この整合履歴パラメータによって大きな単位の連続DP
のための標準パターンであっても、その整合の様子をよ
り小さな単位によって調べることが可能となる。この整
合履歴を表わすパラメータは以下の式で定められる。
いま、σ (1,τ)を音素(または音素片)カテゴリ
ーの番号として、 Q(t、 τ)−k    (Z(T 、X) :1≦
X≦L) e Skのとき ・・・(8) と定める。ここで、2(τ、X)は連続DPで用いる標
準パターン(巨視的カテゴリー)の部分とし、Skはに
番目の音素(または音素片)のパターン(微視的なカテ
ゴリー)とする。そのとき、連続DPによる整合履歴を
表わすパラメータ(これは第2図で■の音素ラベルの部
分を示すものとなる。)E(t、r、 a)は、連続D
Pの上式(4)の(a) 〜(g)に対応して、 E(t、l、1)=k    (Z(1,x):1≦X
≦L) ε5のとき・・・(a) E(t、l、α) −0(2≦α≦N)・・・(9) として定まる。ここで、 とし、α十mはE(t、τ、α)のαにおいてm個数字
記号をシフトさせることを意味し、■は同じくαについ
て右側から数字記号を付加することを意味することとす
る。
さて、連続DPのための標パターンの総数がMであると
すると、連続DP部3の連14 D Pの出力は(D+
(t):i−1,2,・・・瀾        −、、
(+Qとなり、また整合履歴のパラメータも (E、+(t、τ、α):1≦τ≦T1,1≦α≦N。
i=1.2.・・・、M)            ・
・−(12)となる。そのとき、第2図の■で示され各
音素(または音素片)カテゴリーが示す尤度(認識する
ためのもっともらしさ)をG(t、α、k)  とする
と(kは音素(または音素片)のカテゴリ一番号)、こ
のG(t、α、k)は、 として定める。ここで、 であり、 である。
上式(13)は各フレームでの整合履歴の結果を音素片
カテゴリー別に累積してゆくことを意味している。そし
て、尤度G(t、α、k)はそのカテゴリーごとの累積
の個数で定義されている。時刻tにおける尤度は、t+
N−1時刻までの履歴の生成を待ち、tからt+N−t
 までの履歴パラメータで定められる。このとき、Nは
遅延の程度を表わすが、これは連続DPの最大の標準パ
ターン長に依存するので通常80程度となる。
以上により、部分整合演算部5において入力音声の時刻
し−11におけるフレーム特徴を音素(または音素片)
カテゴリーで認識するとしたときは、第1位の候補は、 k+”(t−N+1)=Arg(wax   G(t、
N、k)  l・(15)で与えられ、第2位の候補は
、 1.211 (t−N+1)−八rg(max   G
(t、N、k)  l”  (16)k岬kF で与えられ、第j番目の候補は、 k、” (L−N+1)−^rg(max  G(t、
N、k)  )−(17)k4ki、に:、−に7−。
で与えられる。
通常は、部分整合演算部5からに1責t−N+1)を認
識の結果とした第1図の出力部6へ出力することになる
[発明の効果] 以上説明したように、本発明によれば、■ 連続DPに
かける標準パターンを比較的大きな識別単位にとること
によって、音素または音素片の変動を十分表わすことに
し、 ■ そのもとで連続DPパターンマツチングを行ない、 ■ そのパターンマツチングの結果の集計・判定に当っ
ては、大きな識別単位のマツチングにおいて、正しく整
合していると考えられる部分だけをとり出し、 ■ その結果として小さな識別単位(音素や音素片のカ
テゴリー)を出力とすることを可能ならしめることがで
きる。
従って、本発明によれば、従来のパターンマツチング方
式で極めて困難とされていた単語より小さな単位を基本
的認識単位とすることが可能となり、大語食の連続音声
認識システムの設計に大きな道を開くことができる。
【図面の簡単な説明】
第1図は本発明実施例の音声認識装置の構成を示すブロ
ック図、 第2図は本発明に係る連続DPを用いた部分整合方式の
概念説明図である。 1・・・音声入力部、 2・・・分析部、 3・・・連結DP部、 4・・・標準パターン記憶部、 5・・・部分整合演算部、 6・・・出力部。 実方転44’jI末1呪(たすプロ・ツク図第1図

Claims (1)

  1. 【特許請求の範囲】 1)a)音声入力を電気信号に変換する音声入力部と、
    該音声入力部の出力波形を分析する分析部と、標準パタ
    ーンをあらかじめ記憶する標準パターン記憶部と、前記
    分析部で分析された入力パターンと前記標準パターンと
    の距離を計算し、該計算結果に応じて前記入力音声の音
    素名や単語名を含む語彙を識別する音声認識部と、該音
    声認識部の識別結果を外部に出力する出力部とから成る
    音声認識装置において、 b)前記標準パターン記憶部が少なくとも、音素または
    音素片を表わす特徴パラメータ系列が複数個のつながり
    によって作成された標準パターンを記憶しており、 c)前記音声認識部が、 c−1)前記標準パターンと前記入力パターンとの整合
    を連続ダイナミックプログラミングによる整合方式によ
    って実行し、 各前記標準パターンについての整合値と音素または音素
    片の記号列で表わされた整合履歴を表わすパラメータと
    を各入力フレーム毎に有する連続DP値を出力する連続
    DP部と、 c−2)前記整合履歴を表わすパラメータと前記連続D
    P値を用いて、時刻を同じくしている同一音素または音
    素片記号を累積し、 各前記時刻における各音素または音素片カテゴリーの累
    積値を最大とするものから、その時刻の識別候補を定め
    る部分整合演算部とを具備したことを特徴とする音声認
    識装置。
JP61064512A 1986-03-22 1986-03-22 音声認識装置 Granted JPS62220998A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP61064512A JPS62220998A (ja) 1986-03-22 1986-03-22 音声認識装置
US07/027,447 US4975962A (en) 1986-03-22 1987-03-18 Phoneme labelling of frame by accumulating evidence obtained from spotting results of microscopic units
GB8706368A GB2188181B (en) 1986-03-22 1987-03-18 Phonemic recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61064512A JPS62220998A (ja) 1986-03-22 1986-03-22 音声認識装置

Publications (2)

Publication Number Publication Date
JPS62220998A true JPS62220998A (ja) 1987-09-29
JPH0556517B2 JPH0556517B2 (ja) 1993-08-19

Family

ID=13260330

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61064512A Granted JPS62220998A (ja) 1986-03-22 1986-03-22 音声認識装置

Country Status (3)

Country Link
US (1) US4975962A (ja)
JP (1) JPS62220998A (ja)
GB (1) GB2188181B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010044240A (ja) * 2008-08-13 2010-02-25 Kddi Corp 音声認識装置およびプログラム

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01102599A (ja) * 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
JPH04194999A (ja) * 1990-11-27 1992-07-14 Sharp Corp 学習を用いた動的計画法
JP2980420B2 (ja) * 1991-07-26 1999-11-22 富士通株式会社 動的計画法照合装置
US5475798A (en) * 1992-01-06 1995-12-12 Handlos, L.L.C. Speech-to-text translator
US5682464A (en) * 1992-06-29 1997-10-28 Kurzweil Applied Intelligence, Inc. Word model candidate preselection for speech recognition using precomputed matrix of thresholded distance values
US5386492A (en) * 1992-06-29 1995-01-31 Kurzweil Applied Intelligence, Inc. Speech recognition system utilizing vocabulary model preselection
JP3004883B2 (ja) * 1994-10-18 2000-01-31 ケイディディ株式会社 終話検出方法及び装置並びに連続音声認識方法及び装置
JP2980026B2 (ja) * 1996-05-30 1999-11-22 日本電気株式会社 音声認識装置
DE50204114D1 (de) * 2001-10-11 2005-10-06 Siemens Ag Verfahren zur erzeugung von sprachbausteine beschreibenden referenzsegmenten und verfahren zur modellierung von spracheinheiten eines gesprochenen testmusters
US7143033B2 (en) * 2002-04-03 2006-11-28 The United States Of America As Represented By The Secretary Of The Navy Automatic multi-language phonetic transcribing system
US8615221B1 (en) 2012-12-06 2013-12-24 Google Inc. System and method for selection of notification techniques in an electronic device
US9037455B1 (en) * 2014-01-08 2015-05-19 Google Inc. Limiting notification interruptions

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4059725A (en) * 1975-03-12 1977-11-22 Nippon Electric Company, Ltd. Automatic continuous speech recognition system employing dynamic programming
JPS5782896A (en) * 1980-11-12 1982-05-24 Hitachi Ltd Continuous voice recognition system
US4489434A (en) * 1981-10-05 1984-12-18 Exxon Corporation Speech recognition method and apparatus
US4454586A (en) * 1981-11-19 1984-06-12 At&T Bell Laboratories Method and apparatus for generating speech pattern templates
JPS58145998A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声過渡点検出方法
JPS5945583A (ja) * 1982-09-06 1984-03-14 Nec Corp パタンマッチング装置
US4567606A (en) * 1982-11-03 1986-01-28 International Telephone And Telegraph Corporation Data processing apparatus and method for use in speech recognition
US4723290A (en) * 1983-05-16 1988-02-02 Kabushiki Kaisha Toshiba Speech recognition apparatus
FR2554623B1 (fr) * 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010044240A (ja) * 2008-08-13 2010-02-25 Kddi Corp 音声認識装置およびプログラム

Also Published As

Publication number Publication date
GB2188181A (en) 1987-09-23
GB8706368D0 (en) 1987-04-23
GB2188181B (en) 1989-11-15
JPH0556517B2 (ja) 1993-08-19
US4975962A (en) 1990-12-04

Similar Documents

Publication Publication Date Title
JPS62220998A (ja) 音声認識装置
JPS6147440B2 (ja)
JPS58102299A (ja) 部分単位音声パタン発生装置
JPS5972496A (ja) 単音識別装置
JPS63220298A (ja) 音声認識における単語候補削減装置
JPS61219099A (ja) 音声認識装置
JPS58108590A (ja) 音声認識装置
JPH1097270A (ja) 音声認識装置
JP2721341B2 (ja) 音声認識方法
JP2615649B2 (ja) 単語音声認識装置
JPS6346499A (ja) 大語▲い▼単語音声認識方式
JP2707552B2 (ja) 単語音声認識装置
JPH0558556B2 (ja)
JPH0469959B2 (ja)
JPS62217297A (ja) 単語音声認識装置
JPS6180298A (ja) 音声認識装置
JPH0573087A (ja) 音声認識方法
Shi et al. Discriminative HMM stream model for Mandarin digit string speech recognition
JPH06266389A (ja) 音素ラベリング装置
JPS62218997A (ja) 単語音声認識装置
JPH08123472A (ja) 音声認識装置及び該装置の構文制御グラフの生成方法
Datta et al. Automatic speech recognition in intelligence communication
JPS62255999A (ja) 単語音声認識装置
JPS62116999A (ja) 音節単位音声認識装置
JPH02183300A (ja) 音声認識装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term