JPS62119597A - 単語音声認識装置 - Google Patents

単語音声認識装置

Info

Publication number
JPS62119597A
JPS62119597A JP60260293A JP26029385A JPS62119597A JP S62119597 A JPS62119597 A JP S62119597A JP 60260293 A JP60260293 A JP 60260293A JP 26029385 A JP26029385 A JP 26029385A JP S62119597 A JPS62119597 A JP S62119597A
Authority
JP
Japan
Prior art keywords
matching
unit
word
section
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60260293A
Other languages
English (en)
Other versions
JP2520391B2 (ja
Inventor
教幸 藤本
佐藤 泰雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP60260293A priority Critical patent/JP2520391B2/ja
Publication of JPS62119597A publication Critical patent/JPS62119597A/ja
Application granted granted Critical
Publication of JP2520391B2 publication Critical patent/JP2520391B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概  要〕 種々の入力部1末装置のうち音声をそのまま入力するい
わゆる音声入力装置を実現するだめの技術が音声認識技
術である。認識装置を実現するにあたって音節や単語等
の単位で区切って発声した音声を認識する場合には比l
1lt的容易に実現でき、特に特定話者の単語認識装置
は種々の分野で実用化されている。この種の単語音声認
識装置において、単語の標準パターンと入力音声の特徴
パターンを照合する場合に同一発声者の同一単語であっ
ても音素によっては音響的特徴が時間的に変化するため
に一般に継続時間長の伸縮を補正してマツチングを取る
ようにしている。
この伸縮方法には非線形及び線形方式があり、非線形方
式は一般に動的計画法(グイナミノクプログラミングD
P)が用いている。DP法は標準パターンと人カバター
ンとの誤差が最小になるように時間軸伸縮用の変換関数
を最適化アルゴリズムに従って選択しているので認識性
能を上げることができるが処理量が多くなり時間がかか
るという問題がある。一方、線形時間伸縮マツチング法
は最適化アルゴリズムが含まれていないので、処理量か
少なく処理時間を減少させることができるが、認識性能
が低下するという問題がある。
このような単語音声認識装置において、本発明は最初は
照合の処理量の少ない線形時間伸縮マツチング法を用い
て仮の認識結果を出力し、使用者が認識結果が誤ってい
ると気がついた場合に、次候補の要求を行う時間を利用
して照合の処理量は多いけれども認識性能の高いDP法
を用いて第2位以下の候補を訂正し、次候補の要求に備
えることを特徴とするfl’<語音声認識装置を提供す
るものである。このようにして認識装置の実行性能を向
上させる効果がある。
〔産業上の利用分野〕
本発明は音声入力装置を実現するための基本となる音声
認識装置に係り、特に音節やjl’p語等の単位で区切
って発声した音声を中訂)ごとに認^FiliLでいく
特定話者をり・1象とする中詰音声認識装置の構成に関
する。
このような単RF、音声認識装置において本発明は最初
は照合の処理量の少ない節用な線形時間伸縮マツチング
法で仮の認識結果を出力し、その後、照合の処理量は多
いけれども認識性能の良いDP法で認識結果を出力して
いく単語音声認識装置の構成に関する。
(従来の技術〕 集積化技術の進歩に伴い、マンマシンインターフェース
として利用する種々の入力端末装置のうち音声をそのま
ま入力する音声入力装置が実用化されてきた。音声入力
装置を用いれば情報とするべき入力データの入力速度を
早くでき、入力装置の操作に熟練していない人でも音声
で入力データを入力できるという特徴がある。この音声
入力装置を実現するための基本となるのが、音声認識技
術である。音声認識技術において人間が自然に発生した
文音声は音響的特性がアクセントや抑揚などによって複
雑に変形するので、認識するのが非常に難しく、従って
音節や単語などの単位で文音声を区切って発声させ、個
々の音節や単語を認識していく、いわゆる離散型単語認
識装置がまず実用化されている。そして語驚数は通常数
百語以下であるが、認識する語党数がこのように少なく
ても工場の製品検査等には有効に利用できる。このよう
な離散単語認識装置においζは屯語毎に区切りを検出し
て順番に単語を認識していく単語認識装置において、特
定の人の音声を分析して得られる標準パターンを用いる
とその発声者の音声入力に対しては高い認識率が得られ
る。そごで、標準パターンを構成する場合には特定の発
声者に対して発声者毎に作り変える学習機能を用いて認
識するようにした特定話者用音声認識装置は全単語の学
習を数回行うことにより99%以上の認識率を得ること
ができる。
前記標準パターンと装置に入力している入力音声の特徴
パターンを比較照合するマツチング部が認識装置内に必
ず存在する。ここで、入力音声パターンは入力された源
音声を一定なフレーム周期毎に特徴を抽出してできる時
系列である。一方、標準パターンは単語辞書として辞書
部に格納されているもので予め前記学習によって同様に
源音声から一定フレーム周期毎に特徴を抽出したものの
時系列である。入力音声を入力して単語辞書の各パター
ンを比較照合することにより現入力音声は−6−’ 特定な単語であると決定することになる。
従来この種のマツチング方式には線形と非線のマツチン
グと非線形とがある。すなわち単語の77チングにおい
ては入力音声のパターンと標準パターンとを比較する場
合に同一話者が発生した音声における同一単語であって
も時間軸上の伸縮があるため、時間軸の正規化を行う必
要がある。一般にこの時間軸上の伸縮は非線形的な伸縮
である。
線形マツチングは一定の伸縮率で時間軸上の対応をとっ
てしまうので処理方式は簡単となるが認識率は低下する
という問題がある。一方、非線形マツチングを非線形の
伸縮を調整して行う場合には時間軸の正規化を行うため
の変換関数を入カバターンと標準パターンとの誤差が最
小になるように関数が選択される。このような最適化を
行う場合に入カバターンと標準パターンの各時系列デー
タのあらゆる組み合わせに対して誤差が最小値となるよ
うに変換関数を選択するので膨大な計算量が必要となる
。従ってこの計算量を減少する方法として一般的には動
的計画法(ダイナミックプログラミング)すなわらDP
マツチングを用いるごとによって計算量を大幅に減らし
ているが、このDPマツチング法を用いても線形マツチ
ング方式に比べるとかなり計算量が大きくなり認識する
までの時間は線形マツチングに比べると長いことになる
さらにこの種の従来のr1′!重合点認識装置において
は音響分析後、処理量の少ない線形時間伸縮マツチング
法を用いて照合を行った場合に認識結果が出力されてか
ら使用打が認識結果にり・1して誤っていると気がつい
た場合、次1吠袖TJ3j求を行うには通常1秒程度の
時間がかかり、この時間は装置が完全に遊んでいる状態
となっていた。さらにこの従来法では線形照合のめで行
っているので1位の出力が誤り更に2位の出力が誤って
いる場合には次候補要求キーを再度押していかなければ
ならないという欠点を有し、処理速度が遅いという欠点
を有していた。
〔発明が解決しようとする問題点〕
本発明は、このような従来の欠点を除去し、認識結果が
出力されてから操作者が認識結果に対して誤っていると
気がつき次候補要求を行うまでの1秒程度の時間を有効
に利用し、この時間内に照合の処理は多いけれども認識
性能のよいDP方式を用いて認識処理のやりなおしを行
うようにしている。すなわち本発明は処理速度および認
識性能を向上させる単語音声認識装置を提供するもので
ある。
c問題点を解決するための手段〕 本発明は音声信号を入力し音声の特徴を抽出し且つ区間
検出を実行する音響分析部と、予め前記音響分析部を介
して分析された単語標準パターンを格納する辞書部と、 前記音響分析部を介して出力される前記音声信号の特徴
パターンと前記辞書部の単語標準パターンとを照合する
照合する処理量の少ない第1の照合部と、 前記音声信号の特徴パターンと前記辞書部からの単語標
準パターンとを照合する照合の処理量の多い第2の照合
部と、 前記音響分析部の出力を前記辞書部、+’+ii記第1
の照合部または前記第2の照合部に転送することを選択
的に行う選択手段と、 前記音響分析部、辞書部、第1及び第2の照合部、及び
前記選択手段をit ’il処理部を介して制御する制
御手段と、 最初は前記第1の照合部で仮の認識結果を出力し、その
後、前記第2の照合部で認識結果を出力する手段とを有
することを特徴とする認識装置を提供することによって
達成される。
〔作   用〕
音響分析後、まず最初は照合の処理量の少ない線形時間
伸縮マツチング法を用いて仮の認識結果を出力し、認識
結果が出力されてから操作者が認識結果に対して誤って
いると気がつき、次候補要求を行う1秒程度の時間を有
効に利用し、線形照合に続いて即座にDP照合を行うよ
うにして第2・ −10− 値以下の候補を訂正していくようにしている。
〔実  施  例〕
次に本発明を図面を参照して説明する。
第1図の音声認識装置は入力された音声人力1を音響的
に分析し、音声入力中に含まれる単語の言語的特徴を抽
出し、予め特定話者に関して音声に含まれる単語の言語
的特徴に関する標準パターンを辞書7に記憶しておき、
現在入力された音声入力の特徴パターンと比較しその類
似性に基づいて認識判定を行う。
マイクより入力される音声人力1は前処理部2に入力さ
れると高域部分が強調される。あるいは以後の処理がデ
ィジタル処理されるものである場合には前処理部2にお
いてアナログ音声入力はディジタル信号にA/D変換器
を介して変換される。
高域強調された音声入力はバラメーク計算部3において
音響的に分析され特に音声の周波数スペクトル包絡が計
算される。周波数スペクトル包絡特性は第2図に示すよ
うな帯域フィルタ群と各帯域フィルタに接続される整流
平滑回路を用いて分析される。すなわら帯域フィルタ群
BPFは音声周波数帯域を12個程度の小帯域に分割す
る。12個の帯域フィルタの各出力を整流し、かつ平滑
することによって各帯域成分におりる信号のパワーの量
が直流電圧値として出力されることになる。n(囚の帯
域フィルタの整流出力はn /R,元ヘクトルへl。
A2・・Anとなりこれによって音声の周波数スペクト
ル包絡の特徴を表すごとになる。パラメータ計算部3の
出力は区間検出部4に入力され、そこで各単語の開始と
紡わりがパワーの闇値を用いて検出される。■1[JI
:1人力される音声入力のパワーを計算し、計算された
パワーが闇値を越えればfl’l1語の始まりであり、
その閾(n’iをトからドに下がればその単語の終1ニ
アyとする。ごのようにして各fl″L語が区切られる
ことになり、fli語fσに順々に認識処理を実施する
ことができることになる。区間検出部4の出力ば切換部
6に入力され、パラメータ計算部3及び区間検出部4に
よって求められた各単語の特徴パターン、ずなわぢ特に
スペクトラル包絡に関する特徴パターンは辞書部7、線
形照合部9或いはDP照合部8に選択的に転送される。
辞書部7に格納するべき標準パターンは特定話者に関す
る言語的内容が既知の単語について予め前記前処理部2
、パラメーター計算部3及び区間検出部4を介して音響
分析し、得られたパターンである。単語標準パターンは
認識単語のそれぞれについて全継続時間にわたって分析
してできる特徴パラメーターの時系列で表されている。
例えば、単語への継続時間長をTAとすればTA内にお
いてm ?+nへの標準パターンは帯域フィルタ出力を
時間標本化して時系列データとして記録されるのが普通
である。すなわち第3図に示すように、継続時間長、す
なわちフレームを横軸にとり、縦軸に各帯域のチャネル
数に対応してできる行列の各要素はパラメーター計算部
の出力、すなわち各チャネルのスペクトラル包絡値であ
る。その行列を複数の単語数分だけ用意して辞書を構成
している。
このように構成された標準パターンと、現時点でマイク
より入力される音声人力1の特徴パターンとの類似性を
線形照合部9、又はr)P照合部8によって選択的に照
合するところに本発明の特徴がある。
辞書部7に格納された標準パターンと前処理部にパラメ
ーター計算部3、区間検出部4を介して入力されている
音声入力の特徴パターンとの類似性を比較する場合に入
力される音声の音素によってはその音響的特徴が時間的
に変化するものがある。しかも同じ話者の同じ単語であ
っても、単語の時間的な継続時間には伸縮があるのでこ
の継続時間長の伸縮を補正して標準パターンと音声入力
の特徴パターンがもっとも近い状態において比較する必
要がある。これが継続時間長の補正であり、時間軸の正
規化である。この時間軸の正規化に対して標準パターン
と音声入力の特徴パターンとの比較照合方法がいろいろ
と異なってくる。今、認識しようとする音声入力を辞書
部7に記憶されている標準パターンの分析に用いたのと
同じ帯域フィルタBPFを用いてパラメーター計算部3
及び区間検出部4で分析し、その出力を時間標本化しA て得られるパターンをX=Xl、X2.  ・・・・x
 +nとする。ずなわち入カバターンXはm個の時系列
パターンより構成されでいるものとする。一方標準パタ
ーンに対しても同様で、標準パターンYをyl、y?・
・・ynという時系列パターンから構成されているもの
とする。なお、各時系列パターンは第3図に示す行列の
列に対応するものであるから帯域フィルタの各出力を要
素として持つベクトルで表現されているものである。
今、入カバターンXと標準パターンYとをマツチングさ
せる場合に入カバターンXの長さはmに対して標準パタ
ーンYの長さがねであるから、各時系列パターンを1対
1に対応させて比較することができない。一般に同一話
者が発声した音声であっても時間軸上の伸縮があるため
に時間軸の正規化を行って比較する必要がある。しかも
この時間軸、にの伸縮は一般的には非線形な伸縮であり
、非線形の伸縮に合わせて行う非線形マツチング方式を
採用するか、強制的に一定の伸縮率で時間軸−1−の対
応をとってしまう線形マツチングがある。
線形照合部9は一定の伸#i?を率で時間軸]−の対応
をとるマツチング方式で処理方法はri−1いが認識率
が低下する照合方法である。一方、非線形の伸縮を調整
して時間軸の対応をとる非線形伸縮マツチングであるが
この計算を行うために動的計画法すなわちDPマツチン
グが利用され、I) P照合部8はこれに基づく処理部
である。例えば入カバクーンXの時系列パターンがxl
からXoまでの811111あり、それに対する標準パ
ターンYがy)からynまでの5つしか11、)系列パ
ターンがない場合に線形マツチング及び非線形マツチン
グはそれぞれ第4図及び第5図に示すように各標本点の
間の対応が決められる。
第4図(al 、 (blに示ずように、線形マツチン
グはパターンXと標準パターンYの各標本の添字をそれ
ぞれ横軸と縦軸にとった場合に時系列のパターン対応関
係を示す曲線が直線になるように時間的な正規化を行う
ものである。第4図(blにおいてはxlとx2は標準
パターンのylと比較され、xlはy2.X4とx5は
y3.X6はy41x7とxaはynと比較することに
よってこの対応関係の経路は直線となり、従って線形マ
ツチングになるように間引きが行われている。このよう
に線形マツチングを行うのが線形照合部9である。
第5図(a+、 (blに示す非線形マツチングにおい
ては対応関係がfb)図に示すように非線形になってい
る。すなわちXl、X2.X3はylと対応しx4はy
2.X5とx6はy3に対応し、xlはya、xaはy
nに対応するようになっている。
この場合曲線Uは非線形経路となる。そして、この経路
の選択には最適な経路が選択されるように最適アルゴリ
ズムが使われる。゛この最適化アルゴリズムは一般に最
小2乗法の概念が用いられ、入カバターンXと標準パタ
ーンYとの誤差が最小となるように単調増加関数Uが選
択される。最小2乗法に基づく場合に入力の時系列パタ
ーンXと標準の時系列パターンYとの間の全ての相関を
計算することになるので、最適な変換関数Uを求めるこ
とは非常に時間がかかる。そのため計算量を大幅に減ら
ずために一般的に動的計画法(ダイナミソクプログラミ
ングn D P法)が用いられている。
このDP法は標準パターンと入カバターンのあらゆるす
べての時系列パターンとを組み合わ−Uてベクトル距離
を求めるのでシ11なくヘクI・ルlff1 Ifll
lを変換関数Uの初期値から近傍の時系列パターンに関
するベクトル距離のみをNli化的に順次最適化を行っ
t変換関数Uを求めていくものである。このように入カ
バターンと標準パターンとの誤差を最小にするような変
換関数Uを選択するDP方式は最適化アルゴリズムが含
まれているので前記線形マツチング方式に比べて計算量
は大き(なるが、時間伸縮に関して最適化させるので認
識性能が非常に良いことになる。従って本発明では前記
線形時間伸縮マツチング法と前記DPマツチング方式を
切替部6の制御によって選択して処理および認識性能に
関して最適になるようにしている。
線形照合部9またはDP照合部8によって得られた認識
結果は制御部10を介してポス1−計算機5に転送され
適当な処理が行われる。なお、第1図の単語音声認識装
置において各部の制御は制御部10を介してホスト計算
機5からの制御命令に従って制御される。
このような単語音声認識装置において、本発明はまず最
初の照合に対しては処理量の少ない、線形時間伸縮マツ
チング法で仮の認識結果を出力し、その結果に対して操
作者が誤っていると気がつき、次候補要求を行う通常1
秒程度の時間を有効に利用している。すなわち、本発明
は、動作上の遊びをなくすために、線形照合の後に即、
DP照合を行うようにしているところに特徴がある。D
P法を線形照合に続けて実行することにより認識処理の
やりなおしに対して第2位以下の候補の認識性能を向上
させることができる。すなわち本発明は、次候補要求機
能を持つ単語音声認識装置であって、第1図のブロック
図に示すように制御部10に次候補要求キー11が接続
されており、この次候補要求機能を持つ単語音声認識装
置の実行性能を向上させている。
次に本発明の次候補要求機能を持つ単語音声認識装置の
動作のフローを第6図に示しこれを用いて動作順序を説
明する。装置が開始状態に入るとマイクより音声人力1
が入力され前処理部2およびパラメーターai算部3を
介して各周波数帯域のパワーが計算される。時系列パタ
ーンは計算されたパワーを標本化することによって得ら
れるが、この場合区間検出部4では、パワー計算部3で
計算されたパワーが区間検出用闇値P T IIを越え
るかどうかの判定を行うことによって音節の始まりを検
出している。ずなわらパワーがPT IIを越えている
ならば音節の始まりで、蚤、ると1′11定し標本を実
行し、パワーが区間検出用闇値P T IIを下がるか
どうかを検11目−ることに、1、と)中語の終わりを
検出している。
このように区間)仝出用閾値P T IIを用いて入力
される音声入力の特徴パターンが求まると、そのパター
ンは辞書部7に予め格納された標準パターンと比較照合
される。この場合、本発明ではまず認識性能は低いが照
合の処理量が少ない簡単な線形照合を実行する。線形照
合であるから認識性能に問題があり、照合の結果、認識
結果が誤る確率は高くなる。従って認識結果が出力され
てから操作者がその認識結果に対して誤っていると気が
ついた場合には、前記次候補要求キー11を押すことに
よって再度照合することになる。この場合、操作者が次
候補要求を行うまでには認識結果が出力されてから通常
1秒程度の時間がかかる。本発明はこの1秒程度の時間
を有効に利用して線形照合の終了後、1位の単語を表示
した後、即座にDP照合を行うようにしている。DP照
合の結果に基づいて2位以下の単語の順位を決定してい
る。
即ち操作者が次候補要求を行うまでの時間を有効に利用
して照合の処理量は多いけれども認識性能の高いDP方
式を動作させておき、認識処理のやりなおしに対する第
2位以下の候補を訂正し、次候補要求に備えている。D
P照合を実施している間に線形照合の結果の第1位候補
を、操作者が見て誤っていると気がついた場合には次候
補要求キーが押されることになる。この次候補要求キー
が押される時刻には第2位以下の候補に対してはDP照
合のマツチング動作をかなり実行しているこ一21= とになるので次候補要求キーが押されてからDP照合に
より訂正された2位の認識結果を出力するのはたとえD
P法の処理量が多くても認識結果は即座に出力されるこ
とになる。しかもこの2位の候補に対する認識結果の正
解度は確率的に高いことになる。すなわち第6図のフロ
ーチャートにおいてキー操作がおされた場合には次候補
単語をDP照合に従って表示しこれを繰り返すことにな
る。
認識結果が合致している場合には次候補要求キーは押さ
れないので認識結果に基づきホス1ル計算機5はその後
の処理を行うことにする。処理が終了すれば終わりとな
るが、終了していなければスタート状態に戻ることにな
る。本発明の特徴である線形照合の後にDP照合を行う
ことによって次候補要求機能を持つ単語音声認識装置に
おいては応答時間を変えずに、認識性能に対する実行性
能が向上することを更に第7図を用いて詳細に説明する
第7図は従来の装置と本発明の装置とで比較して装置の
動作と時間の関係を示し”(いる。
第7図の上部は従来の認識装置の動作の順序を時間方向
に対して示したものである。一方、下の図は本発明の装
置の動作と時間との関係を示す図である。上側の図と下
側の図は時間的に同期しているものである。装置が動作
を開始すると従来の装置も本発明の装置も区間検出及び
パラメーター計算の処理を行い、その後線形照合に入る
。そして線形照合の結果、1位の候?iliに対する認
識結果を出力する。ここまでは本発明の装置は従来の装
置と同じである。その後、従来の装置においては使用者
が線形照合の結果、認識結果に対して誤りに気付き、次
候補要求キーを押すことになるが、線形照合の結果が出
力されてから、次候補要求キーを押すまでの間は1秒程
度のかなり長い時間にわたって装置が遊んでしまうとい
う状態がある。
しかし本発明では第7図の下に示すように線形照合の結
果が1位出力として表示されると次の候補にり・jして
既にDP照合を行うようにしている。従って従来の装置
が遊んでいる間、本発明の装置ではDP照合を行ってい
ることになる。すなわち線形照合の結果、認識に誤りが
あって次の候補の要求をキーを用いて使用者が要求する
時刻りにおいては従来では装置は遊んでいたが本発明で
はD P照合をかなり行っていることになる。DP照合
は線形照合に比べて処理量が多く時間がかかるので2位
候補に対する出力ば下に示ずように時間的に遅れる場合
も考えられるが正解の確率は非常に高い。一方、従来方
法し12位候補に対しても線形照合を行うため、出力す
る時間は早いが2位出力に対しても誤っているU1r率
がiTl+ < 、次候補要求キーを再度押さなりれば
ならないという欠点がある。
本発明では、このように、線形照合の後に、DP照合を
続けて実行することにより第2位以下の候補に対して高
精度な認識結果を出力できるようにしている。当然のこ
とながら次候補要求で出力する候補は仮の認識処理で1
位となった単語以外から選ぶようにしている。
また、DP照合の処理時間が長<、次候補要求キーを押
下してもなかなか2位候補が得られないような場合には
、DP照合の対象となる単語を、線形照合で距離の近か
った単語にのみ絞ることにより、解決することができる
。例えば、認識対象の単語が100個であった場合に、
DP照合は、線形照合の結果の、2位から50位までに
絞ることができる(このようにしても、認識性能は、は
とんど低下しないことが実験により確かめられている)
〔発明の効果〕
本発明はこのように最初は照合の処理量の少ない簡単な
線形時間伸縮マツチング法で仮の認識結果を出力し、そ
の後照合の処理量は多いが認識性能の良いDP法で認識
結果を出力することにより、第2位以下の候補に対して
認識性能を向上させ、しかも装置の遊びをなくしている
ので処理速度が早く実行性能を向上させることができる
という効果がある。
【図面の簡単な説明】
第1図は本発明の単語音声認識装置の構成図、第2図は
本発明の単語音声認識装置のバラメー−25= 夕計算部の構成図、 第3図は本発明の単語音声認識装置の辞書部に格納され
る標準パターン、 第4図は本発明のtli語音声認識装置の線形伸縮マツ
チング法の実施例図、 第5図は本発明のll’−nFi ’t’、’l’声認
識装置の非認識装置マツチング法(DP法)の実施例図
、第6図は本発明の単語音声認識装置の動作を示すフロ
ーチャー1・′、 第7図は本発明の単語音声認識装置の動作と時間の関係
を従来装置と比較している動作図である。 ■・・・音声入力部、 2・・・前処理部、 3・・・パラメータ計算部、 4・・・区間検出部、 5・・・ホスト計W機、 6・・・切替部、 7・・・辞書部、 8・・・DP照合部、 9・・・線形照合部、 11・・・次候補要求キー。 =27− 10H 第2図 7μm ム 第3図 第4図 (Q) 第4図 (b) (CI) 第5囚 第6図

Claims (1)

  1. 【特許請求の範囲】 1)音声信号を入力し音声の特徴を抽出し且つ区間検出
    を実行する音響分析部と、 予め前記音響分析部を介して分析された単語標準パター
    ンを格納する辞書部と、 前記音響分析部を介して出力される前記音声信号の特徴
    パターンと前記辞書部の単語標準パターンとを照合する
    照合する処理量の少ない第1の照合部と、 前記音声信号の特徴パターンと前記辞書部からの単語標
    準パターンとを照合する照合の処理量の多い第2の照合
    部と、 前記音響分析部の出力を前記辞書部、前記第1の照合部
    または前記第2の照合部に転送することを選択的に行う
    選択手段と、 前記音響分析部、辞書部、第1及び第2の照合部、及び
    前記選択手段を計算処理部を介して制御する制御手段と
    、 最初は前記第1の照合部で仮の認識結果を出力し、その
    後、前記第2の照合部で認識結果を出力する手段とを有
    することを特徴とする単語音声認識装置。 2)前記第1の照合部は線形マッチングを行うことを特
    徴とする特許請求の範囲第1項記載の単語音声認識装置
    。 3)前記第2の照合部は非線形マッチングを行うことを
    特徴とする特許請求の範囲第1項記載の単語音声認識装
    置。
JP60260293A 1985-11-20 1985-11-20 単語音声認識装置 Expired - Lifetime JP2520391B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60260293A JP2520391B2 (ja) 1985-11-20 1985-11-20 単語音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60260293A JP2520391B2 (ja) 1985-11-20 1985-11-20 単語音声認識装置

Publications (2)

Publication Number Publication Date
JPS62119597A true JPS62119597A (ja) 1987-05-30
JP2520391B2 JP2520391B2 (ja) 1996-07-31

Family

ID=17346031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60260293A Expired - Lifetime JP2520391B2 (ja) 1985-11-20 1985-11-20 単語音声認識装置

Country Status (1)

Country Link
JP (1) JP2520391B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58176698A (ja) * 1982-04-09 1983-10-17 株式会社日立製作所 パターンマッチング装置
JPS60152200U (ja) * 1984-03-21 1985-10-09 カシオ計算機株式会社 音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58176698A (ja) * 1982-04-09 1983-10-17 株式会社日立製作所 パターンマッチング装置
JPS60152200U (ja) * 1984-03-21 1985-10-09 カシオ計算機株式会社 音声認識装置

Also Published As

Publication number Publication date
JP2520391B2 (ja) 1996-07-31

Similar Documents

Publication Publication Date Title
JPH03177899A (ja) 音声認識処理装置
JPS62119597A (ja) 単語音声認識装置
JP2003163951A (ja) 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
KR19980076309A (ko) 음성인식 방법 및 그 장치
JPS6129518B2 (ja)
JP2002229592A (ja) 音声認識装置
JP2520392B2 (ja) 単語音声認識装置
JPS62119598A (ja) 単語音声認識装置
JPS62119599A (ja) 単語音声認識装置
JPS6211731B2 (ja)
JP3352144B2 (ja) 音声認識装置
Itoh et al. Automatic labeling and digesting for lecture speech utilizing repeated speech by shift CDP
JP2710045B2 (ja) 音声認識方法
JPH06324699A (ja) 連続音声認識装置
JPS62119594A (ja) 単語音声認識装置
JP2000200093A (ja) 音声認識装置及びそれに用いる音声認識方法並びにその制御プログラムを記録した記録媒体
JPS62114082A (ja) パタ−ン認識学習方式
JPS59212900A (ja) 音声認識装置
JPH02173699A (ja) 音声認識装置
JPH037960B2 (ja)
JPH103295A (ja) 音声認識装置
JPH01193800A (ja) 連続音声認識装置
JPS59211098A (ja) 音声認識装置
JPS5946696A (ja) 音声認識方式
JPH09160592A (ja) 音声認識方法及び音声認識装置