JPS63291100A - 音声認識の方法 - Google Patents

音声認識の方法

Info

Publication number
JPS63291100A
JPS63291100A JP12749387A JP12749387A JPS63291100A JP S63291100 A JPS63291100 A JP S63291100A JP 12749387 A JP12749387 A JP 12749387A JP 12749387 A JP12749387 A JP 12749387A JP S63291100 A JPS63291100 A JP S63291100A
Authority
JP
Japan
Prior art keywords
network
dictionary
vector
speech
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP12749387A
Other languages
English (en)
Inventor
中村 尚五
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP12749387A priority Critical patent/JPS63291100A/ja
Publication of JPS63291100A publication Critical patent/JPS63291100A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、人力される音声信号を識別して対応する出力
を得るための音声認識の方法に関する。
音声認識は以前から研究が行われており、現在ではごく
制限された状態での単語音声認識装置のようなスタンド
アローンタイプのものや、音声認1Ls1等が利用でき
るようになっている。
もし、確実な音声認識が可能であれば、キーボードのよ
うな入力装置を介して人力していた内容、例えばコンピ
ュータ等のプログラム入力やワードプロセッサの入力、
機器・装置等に対する運転操作の口頭指示、また電話回
線を利用した種々のサービスその他の極めて多くの用途
に適用可能となり、有利であることは明らかである。
〔従来技術〕
従来の音声認識において、最も多く使用されているスペ
クトルパターンマツチング法は、スペクトル分析を適当
な時間間隔、例えば10m5毎に行い、時間−スペクト
ルパターンを構成し、このパターンを標準的なパターン
と比較することにより認識を行っていた。このようなス
ペクトルパターンマツチング法には、一般に音声の時間
スペクトルパターンが、時間方向の変動と周波数方向の
変動を含むため、標準パターンの作成およびそれとの照
合が難しい欠点がある。音声認識すべき人力者を特定し
ての、いわゆる特定話者による音声認識では、入力音声
の時間スペクトルパターンを時間方向に非線型に伸縮す
ることによって標準パターンとのマツチングを調べる方
法が最も有力である。しかし、この方法も、不特定話者
とか単音節の認識には適しているとはいえない。さらに
、認識のための演算量が多くなることも無視できない問
題である。
C発明の解決しようとする問題点〕 本発明においては、従来技術の欠点を解消した有利な音
声認識方法を提供することを課題とする。
音声認識の分野では、標準となる時間スペクトルパター
ンあるいはそれに準するものを「辞書」と呼ぶことが多
い。このような辞書の変更・修正が容易で、話者が変更
された場合のような入力音声の変動にも容易に対応でき
る簡潔な認識アルゴリズムが望ましい。そのためには、
簡潔なアルゴリズムで、学習しながら辞書に相当する部
分を自動的に修正変更することが可能な認識システムを
利用すると都合がよい。そこで、本発明にかかる方法に
おいては、音声の時間スペクトルパターンのローカルピ
ークパワーを適当な特徴ヘクトル、すなわち一つの状態
と考え、その時間的変化を追従することによって自動的
に修正変更の可能なネットワークを構成し、音声のスペ
クトルパワーがネットワークのどの部分を通過したかを
判別することにより、音声認識を実施する方法を開示す
るものである。
〔発明の構成〕
本発明にかかる音声認識の方法は、特許請求の範囲に記
載するように、音声信号の時間スペクトルパターンのあ
る時刻におけるローカルビークパワーを特徴ヘクトルと
して一つの状態で表し、その時間変化を追従することに
より、自動的に修正変更の可能なネットワークを構成し
、このネットワークに前記特徴ヘクトルとして表された
信号を印加し、この場合の音声スペクトルパワーのロー
カルピークが前記ネットワークのどの部分を通過したか
を判別することによって、音声認識を行うことを特徴と
するものである。
〔発明によって得られる効果〕
本発明にかかる音声認識方法によれば、比較的簡単な構
成でかつ少ない演算処理により、正確な音声認識が可能
となる。演算処理装置やメモリの記憶容量を低減するこ
とが可能となり、小型かつ低廉な装置により従来よりも
確実な音声認識を行うことができる。したがって、前述
する各種音声入力の用途にも有利に対応することができ
る音声認識装置を得ることが可能となる。
〔実施例の説明〕
本発明にかかる音声認識方法を添付図を参照しつつ説明
する。まず、時間スペクトルパターンにおけるローカル
ビークパワーの時間的な軌跡を得るために、ピークパワ
ーの状態をベクトル化することを考える。第1図は、そ
のために必要とされるハードウェアの基本構成を示すブ
ロック図である。図において、マイク1に入力された音
声を音声入力前処理部2において前処理した後、時間ス
ペクトルパターンをN次元ベクトル空間に移すために、
Nチャンネルのバンドパスフィルタバンク3によって分
析する。おのおののフィルタの出力を整流・平滑および
特徴検出部4により処理してその出力を一定時間ごとに
取り出す。この場合の出力を、横方向にフィルタ番号(
周波数)の低い方から高い順に並べ、縦方向に時間経過
Or )を表すと、第1表のようになる。
第1表 ここに示した第1表の数値を、時間間隔10 msとし
て図示すると第2図のようになる。横軸はフィルタ番号
、すなわちチャンネル数に対応した周波数軸であり、縦
軸は整流・平滑されたスペクトル成分の大きさを表した
ものである。
このようにして得られた出力を、第1図に示したアミカ
ケ表示された回路要素としての、音声認識処理部5、辞
書拡張・修正処理部6、辞書ネットワーク構造7におい
て以下に記述するような動作により音声認識を行うもの
である。ここで音声認識された出力は、人力された音声
を確実に表すものとなっている。したがって、代表的に
表示された認識結果処理系8において所望の利用を行う
ことができる。
第1表または第2図のように示されたスペクトルパター
ンのグラフからも明らかなように、音声のスペクトルパ
ターンには、一般的にピークが存在する。生のスペクト
ルパターンから声帯振動によるスペクトルの影響を除去
したスペクトルパターンを構成し、ピーク値の10%程
度のレベルにバイアスを設定し、このバイアス値を中心
にピーク値のプラス・マイナス数%に属するチャンネル
を“O゛°、そのレベルよりも高いスペクトル値を示す
チャンネルを1“、そしてそれ以外のチャンネルを“−
1′″とする。その結果、時間スペクトルパターンから
3値(1,0、−1)係数のN次元空間への写像が行わ
れる。さらに、音声スペクトルの時間的・空間的変動を
吸収するために、隣接したフレーム間のベクトルが距離
的に近いとき(ハミング距離などで)、代表的なものへ
の置き換えを行う。このようにして構成されたベクトル
は、その要素が10、−1からなっている。
連続した同一ベクトルのフレームを一つのベクトルで表
せば、時間スペクトルパターンは圧縮された幾つかのベ
クトルの列として表すことができる。このようなベクト
ルの列は、個々の音声に対応したものとして第3図に示
すようにネットワークの形で辞書化できる。図において
、中に数字を書き込んだ丸印は、一つのベクトルを表し
、丸印の中の数値は、■、0、−1のパターンを簡潔に
表すために数値化したものである。音声スペクトルのピ
ークの移動は緩やかなものであるから、ベクトル列の長
さはそれほど大きくならない。したがってこの方法によ
る辞書容量は極めて少ないものとなる。
かかる方法において、同一の音声入力があった場合、常
に同じベクトル列が対応するとは限らない。ベクトル列
の要素が全て異なることはほとんど起こり得ないが、部
分的には異なることが生起する。そのような場合には、
第3図に細線で示したように、異なるベクトルを付加す
る。したがって、辞書パターンは枝分れ構造となる。ま
た、図において、数値を書き込んだ丸印は一つのベクト
ルに対応し、状態の一種として描かれ、ベクトル間の遷
移を示すために線分(枝とよぶ)が用いられ、ネットワ
ークを構成している。このネットワークを図において上
から下まで情報が通過したとき、その通過径路を判別す
ることによって、その入力がこのベクトル列に対応した
音声の辞書が構成されるものである。
ある音声が何度か認識された場合、それに対応したネッ
トワークのある状態が長い間使用されない事態が生じた
場合には、その状態を削除する。
このようにすると、ネットワークの一部があたかも生体
の神経系のように増殖または消失しながら働く辞書を形
成することになる。
ここで述べたネットワークの働きは、メモリ上に構成す
ることが出来る。第3図に対応するある語の音声辞書の
例を第2表に示す。
この表において、最も左側の欄は、信号スペクトルの時
間経過に対応し、そこの数値はベクトル列の順番を、し
たがってメモリのアドレスを表している。左から2番目
の欄の24 、25 、24・・・等は各ベクトルのそ
の時々の状態を数値で表したちのである。次の3番目、
4番目・・等の欄は、あるベクトル状態から枝分かれし
て次にどのような状態に進かの飛び先アドレス(分岐先
のポインタ)を示している。したがって、第3図のアド
レス1の状態24からスタートする。この場合の飛び先
アドレスは2のみであるから、アドレス2の状態25に
なる。この場合のアドレスは、12と3であるから、ア
ドレス3の状態24と、アドレス12の状態1とに枝分
かれする。アドレス12の場合の飛び先アドレスは14
および13であるから、ベクトル状態9または17に移
行する。このように順次処理を重ね、アドレス1】の状
態Oに対応する第3図の最下部に到達した際に、いかな
る径路を通過したかを判別すれば、被処理「語」に相当
する音声が認識されることになる。この出力を第1図の
認識結果処理系に加えることにより、所望の利用を行う
ことができる。
このような処理にあたっては、入力された音声スペクト
ルを、辞書を構成したときと同様の方法でベクトル列に
変換する。次いで、辞書として登録されているヘクトル
列の一番目と二番目に対してベクトル要素毎の積の和、
つまり内積をとる。
二番目の辞書ベクトルとの内積が一番目の辞書ベクトル
との内積より大きくなった場合、今度は二番目と三番目
とで同様な操作を行う。このようにして、次々とベクト
ル列を進み、最後の辞書ベクトルまで到達した場合、人
力音声はその辞書の内容に近いと判断し、認識単語の候
補とする。この方法で得られた候補単語の中から最終的
に認識するためには、総合の内積値や辞書ベクトル列の
特定のベクトルに停留していた時間長、さらに無音区間
を表すような零ベクトルの存在等の条件を認識判定に利
用する。
特に、総合の内積値の大きいもので、その音声固有の特
定ベクトル、すなわち、状態に停留していた時間長の関
係が類似のものが認識単語として選び出される。
このような手段により、高精度の音声認識が行われ、所
期の目的が達成される。
【図面の簡単な説明】
第1図は、本発明の音声認識方法を実施するに適した装
置の基本構成を示すブロック図である。 第2図は、スペクトルパターンを示すグラフである。 第3図は、辞書パターンを示すネットワークである。 図中、主な参照符号の対応は以下の通り。 1:マイク    2:音声入力前処理部3:フィルタ
ハンク4:整流・平滑特徴検出部5:音声認識処理部6
:辞書拡張・修正処理部7:辞書ネットワーク構造 8:認識結果処理系

Claims (1)

    【特許請求の範囲】
  1. 音声信号の時間スペクトルパターンのある時刻における
    ローカルピークパワーを特徴ベクトルとして一つの状態
    で表し、その時間変化を追従することにより、自動的に
    修正変更の可能なネットワークを構成し、このネットワ
    ークに前記特徴ベクトルとして表された信号を印加し、
    この場合の音声スペクトルパワーのローカルピークが前
    記ネットワークのどの部分を通過したかを判別すること
    によって、音声認識を行うことを特徴とする音声認識の
    方法。
JP12749387A 1987-05-25 1987-05-25 音声認識の方法 Pending JPS63291100A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12749387A JPS63291100A (ja) 1987-05-25 1987-05-25 音声認識の方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12749387A JPS63291100A (ja) 1987-05-25 1987-05-25 音声認識の方法

Publications (1)

Publication Number Publication Date
JPS63291100A true JPS63291100A (ja) 1988-11-28

Family

ID=14961326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12749387A Pending JPS63291100A (ja) 1987-05-25 1987-05-25 音声認識の方法

Country Status (1)

Country Link
JP (1) JPS63291100A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57130099A (en) * 1981-02-06 1982-08-12 Fujitsu Ltd Voice recognition system
JPS61102698A (ja) * 1984-10-25 1986-05-21 日本電気株式会社 標準パタ−ン適応方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57130099A (en) * 1981-02-06 1982-08-12 Fujitsu Ltd Voice recognition system
JPS61102698A (ja) * 1984-10-25 1986-05-21 日本電気株式会社 標準パタ−ン適応方式

Similar Documents

Publication Publication Date Title
JPH0361959B2 (ja)
JPS6184694A (ja) 認識用辞書学習方法
JPS634200B2 (ja)
JPS63220298A (ja) 音声認識における単語候補削減装置
US4426551A (en) Speech recognition method and device
US4513436A (en) Speech recognition system
JPS63291100A (ja) 音声認識の方法
JPS6075898A (ja) 単語音声認識装置
JPH0436400B2 (ja)
JPH0228160B2 (ja)
JPS6247100A (ja) 音声認識装置
JPS63300298A (ja) 音声認識装置
JPS625298A (ja) 音声認識装置
JPS60198598A (ja) 音声認識方式
JPS62111295A (ja) 音声認識装置
JPH0449954B2 (ja)
JPS5886598A (ja) 音声認識装置
JPS6312000A (ja) 音声認識装置
JPS6383800A (ja) 音声認識装置
JPH03239299A (ja) 摩擦子音識別方式
JPS61275799A (ja) 音声認識装置
JPS6061800A (ja) 音声認識方式
JPS5888797A (ja) 音声認識装置
JPS6170595A (ja) 音声認識方式
JPH0387900A (ja) 音声認識装置