JPS62113197A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS62113197A
JPS62113197A JP60254193A JP25419385A JPS62113197A JP S62113197 A JPS62113197 A JP S62113197A JP 60254193 A JP60254193 A JP 60254193A JP 25419385 A JP25419385 A JP 25419385A JP S62113197 A JPS62113197 A JP S62113197A
Authority
JP
Japan
Prior art keywords
feature data
pattern
distance
matching
data block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60254193A
Other languages
English (en)
Inventor
納田 重利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP60254193A priority Critical patent/JPS62113197A/ja
Publication of JPS62113197A publication Critical patent/JPS62113197A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、例えば特定話者の音声を単語単位で認識す
るのに通用される音声認識装置に関する。
〔発明の(既要〕
この発明は、音声認識装置のパターンマツチング判定器
において入力パターンと標準パターンとの間のマツチン
グ距離を求め、このマツチング距離を規格化することに
よりパタrンの長さく構成フレーム数)に依存しない類
似度を得、この類似度に音声の音韻的特徴に応した重み
定数を加算して得られた結果を判定用距離として用い、
マツチング判定を行うことにより、認識率の同上を図る
ものである。
〔従来の技術〕
本願出願人により、先に提纂されている音声認識装置(
特願昭60−150697号)は、音声入力部としての
マイクロホン、前処理回路、音響分析器、特徴データ抽
出器、登録パターンメモリ及びパターンマツチング判定
器等により構成されている。
マイクロホンから人力される音声信号が前処理回路にお
いて、音声認識に必要とされる帯域に制限され、A/D
変換器によりディジタル音声信号とされる。このディジ
タル音声信号が音響分析器に供給される。
音響分析器において、音声信号が周波数スペクトルに変
換され、例えば対数軸上で一定間隔となるように周波数
スペクトルのレベルが正規化され、離散的な周波数スペ
クトルデータが発生される。
この周波数スペクトルデータ列が単位時間(フレーム周
期)毎に1つのフレームデータとして出力される。即ち
、フレーム周期毎の1フレームのデータがNチャンネル
の周波数スペクトルデータとされ、N次元ベクトルによ
り表現されるパラメータとして切り出され、特徴データ
抽出器に供給される。
特徴データ抽出器において、隣り合うフレームデータの
距離が計算される。対応するチャンネルのスペクトルデ
ータの差の絶対値が夫々求められ、その総和がフレーム
間距離とされる。
更に、夫々のフレーム間距離の総和が求められ、音声信
号の始端フレームから終端フレームまでのN次元ヘクト
ルの軌跡長が求められる。そしてこの軌跡長に略々比例
した分割数でもって軌跡長が分割され、その分割点に対
応したフレームデータのみが特徴データとして抽出され
る。即ち、話者の音声の発声速度変動に影響されること
がないように時間軸が正規化され、強い独自の特徴を示
すフレームデータが音声の語長に応じた数だけ抽出され
て出力される。
この特徴データが登録時においては、登録パターンメモ
リに登録特徴データブo ツク(標準パターン)として
記憶される。゛認識時においては、入力音声信号が前述
した処理を経て、特徴データとされ、パターンマツチン
グ判定器に供給されて、入力特徴データブロック(入力
パターン)とされる。
パターンマツチング判定器において、入力特徴データブ
ロックのフレーム数と略々等しいフレーム数の登録特徴
データブロックのみが比較の対象とされ、入力特徴デー
タブロックと登録特徴データブロックの間において、パ
ターンマツチングが行われる。
パターンマツチング判定器において、入力特徴データブ
ロックと比較の対象とされる登録特徴データブロックの
間のマツチング距離が算出される。
例えば、特徴データ抽出器において1個のフレームデー
タが抽出され、0〜N−1)フレームにより入力特徴デ
ータブロックが構成される。比較の対象とされる登録特
徴データブロックを構成するフレームデータと入力特徴
データブロックを構成するフレームデータとの間で、ス
イングサーチが行われながら対応するフレーム間の距離
が計算される。
例えば、対応させるフレーム幅、即ち、サーチ幅が1と
された場合には、入力特徴データブロックのi番目のフ
レーム(0≦i≦l−1)に登録特徴データブロックの
(i−1)フレーム、iフレーム及び(i+1)フレー
ムが対応され、夫々の間のフレーム間距離が算出される
それと共に、サーチ幅に略々比例し、かつ入力特徴デー
タブロックを構成するフレーム数■に略々反比例する重
み係数が算出され、スイングサーチにより得られたフレ
ーム間距離にこの重み係数が乗ぜられ、最小となるもの
が入力特徴データブロックのi番目のフレームに関する
フレーム間距離として選択される。最小として選択され
たフレーム間距離の(t−1−1)までの総和がマッチ
ング距離として算出される。他の比較の対象とされる登
録特徴データブロックに関しても、同様にマツチング距
離が求められ、マツチング距離が最小で十分に距離が近
いものと判断される登録特徴データブロックに対応する
単語が認識結果とされる。
〔発明が解決しようとする問題点〕
従来の音声認識装置においては、入力特徴データブロッ
クに対して入力特徴データブロックを構成するフレーム
数と略々等しい登録特徴データブロックが比較の対象と
され、その夫々の特徴データブロック間において、マツ
チング距離が算出され、このマツチング距離が判定用距
離として用いられる。
しかし、このマツチング距離は、個々の特徴データブロ
ックに含まれる少々の時間軸変動分や音声発声時の調子
の違い等による誤差のため、統計的に第5図に示すよう
に、特徴データブロックの構成フレーム数に依存し、特
徴データブロックのフレーム数が少ない場合には、小さ
な値として算出され、特I’llデータブロックのフレ
ーム数が多い場合には、大きな値として算出されるもの
である。
このため、登録外の音声や必要外の音が入力された場合
において、これらの人力音声をリジェクトする場合には
、一定の闇値で判断することができず、第5図に示す傾
向を考慮して、入力特徴データブロックの構成フレーム
数に応じてリジェクト値を可変とせねばならず容易に行
えなかった。
また、音声に含まれる音韻的特徴、例えば音声区間(単
語区間)中に含まれる無声子音の数等のデータによって
適当な重みをマツチング距離に加算する場合においても
、第5図に示す傾向を考慮して、入力特徴データブロッ
クの構成フレーム数に応じた重み量を計算して加算せね
ばならなく容易に行えなかった。
従って、この発明の目的は、マツチング距離を特徴デー
タブロックの構成フレーム数に依存しないように規格化
することにより、重み付け及びリジェクト判定を容易に
行うことができ、認識率の向上された音声認識装置を提
供することにある。
〔問題点を解決するための手段〕
この発明は、入力音声信号をスペクトル変換等音声認識
に必要な前処理を行う音響分析手段5と、音響分析手段
5の出力データが供給され、適応な分割数によって時間
軸の正規化処理を行うと共に音声区間全体としての特徴
を検出して特徴データを抽出する特徴パターン抽出手段
6と、特徴データが標準パターンとして記憶されるメモ
リ8と、 特徴パターン抽出手段6からの入力パターンとメモリ8
から読み出された標準パターンとが供給され、入力パタ
ーンと標準パターンとの間のマツチング距離Dtを求め
て0式により規格化処理して規格化類似度Dsを得、上
記規格化類似度Dsに重み付け処理を0式により行って
得られた判定用距離りに基づいてマツチング判定するパ
ターンマツチング判定手段9と、 からなることを特徴とする音声認識装置である。
規格化類似度Ds、マツチング距#Dt。
判定用語RD D s =C−D t/ (L−K)  ・・・■但し
、C:適当な定数、に:適当な補正定数(L−に≧1)
、L:パターン長 〔作用〕 パターンマツチング判定器9のパターンマツチング距離
計算回路11において、入力特徴データブロックと比較
の対象とされる登録特徴データブロックとのマツチング
距離が求められ、マツチング距離データが規格化類似度
計算回路12に供給されて規格化されることにより、特
徴データブロックの構成フレーム数に略々依存しない類
似度とされ、類似度データが重み付け計算回路13に供
給される。重み付け計算回路、13において、入力特徴
データブロックと登録特徴データブロックのパラメータ
データとの差異に応じた重み定数が発生され、この重み
定数が規格化類似度に加算され、判定用距離が算出され
、求められた判定用距離に基づいてマツチング判定がな
される。
〔実施例〕
以下、この発明の一実施例を図面を参照して説明する。
第1図は、この発明の一実施例を示すもので、第1図に
おいて、lが音声入力部としてのマイクロホンを示して
いる。
マイクロホン1からのアナログ音声信号がフィルタ2に
供給される。フィルタ2は、例えばカットオフ周波数7
.5 K+12のローパスフィルタであり、音声信号が
フィルタ2において、音声認識に必要とされる7、 5
 KH2以下の帯域に制限され、この音声信号がアンプ
3を介してA/D変換器4に供給される。
A/D変換器4は、例えば、サンプリング周波数12.
5KH2の8ビツトA/D変換器であり、音声信号がA
/D変換器4において、アナログ−ディジタル変換され
て、8ビツトのディジタル信号とされ、音響分析器5に
供給される。
音響分析器5は、音声信号を周波数スペクトルに変換し
て、例えば、Nチャンネルのスペクトルデータ列を発生
するものである。音響分析器5において、音声信号が演
算処理により周波数スペクトルに変換され、例えば対数
軸上で一定間隔となるN個の周波数を代表値とするスペ
クトルデータ列が得られる。従って、音声信号がNチャ
ンネルの離散的な周波数スペクトルの大きさによって表
現される。そして、単位時間(フレーム周期)毎にNチ
ャンネルのスペクトルデータ列が一つのフレームデータ
として出力される。即ち、フレーム周期毎に音声信号が
N次元ベクトルにより表現されるパラメータとして切り
出され、特徴パターン抽出器6に供給される。
特徴パターン抽出器6において、音響分析器5からの時
系列フレームデータが時間軸の正規化処理により圧縮さ
れる。隣り合うフレームデータの距離が、例えば対応す
るチャンネルのスペクトルデータの差の絶対値の総和に
より算出される。
更に、夫々の隣り合うフレーム間距離の総和が求められ
、音声信号の始端フレームから終端フレームまでのN次
元ベクトルの軌跡長が求められる。
そしてこの軌跡長に略々比例した分割数でもって軌跡長
が分割され、その分割点に対応したフレームデータのみ
が抽出される。即ち、話者の音声の発声速度変動に影響
されることがないように時間軸が正規化され、強い独自
の特徴を示すフレームデータが音声の語長に応じた数だ
け抽出される。
また、それと共に、音声信号区間全体としての特徴、即
ち音韻的特徴等が検出され、パラメータデータが発生さ
れる。例えば、語頭に無声子音が存在するかどうか、単
語に含まれる無声子音の数、単語の全てが有声母音であ
るかどうか等を示すデータ及び時間軸の正規化処理によ
り抽出されたフレーム数を示すデータが発生される。
特徴パターン抽出器6における処理により抽出されたフ
レームデータと音声信号区間全体としての特徴を示すパ
ラメータデータとが登録時においては、特徴データとし
てのモード切替回路7を介して登録パターンメモリ8に
供給され、登録特徴データブロック(標準パターン)と
して記憶される。また、認識時においては、人力音声信
号が前述した処理を経て特徴データとされ、モード切替
回路7を介してパターンマツチング判定器9に供給され
、入力特徴データブロック(入力パターン)とされる。
パターンマツチング判定器9において、パラメータデー
タに基づいて入力特徴データブロックのフレーム数と略
々等しいフレーム数の登録特徴データブロックのみが比
較の対象とされ、入力特徴データブロックと登録特徴デ
ータブロックとの間において、パターンマツチングが行
われる。
第2図は、パターンマツチング判定器9の一例を示し、
−第2図に示すように、パターンマツチング距離計算回
路11.規格化類似度計算回路12゜重み付け計算回路
13及びリジェクト判定器14によりパターンマツチン
グ判定器9が樽成される。
パターンマツチング距離計算回路11に特徴パターン抽
出器6から、例えば、時間軸の正規化処理により抽出さ
れた1個のフレームデータがOフレーム−(1−1)フ
レームまで供給されると共に、パラメータデータが供給
され、入力特徴データブロックとされる。それと共に、
登録パターンメモリ8から比較の対象とされる入力特徴
データブロックの構成フレーム数(I)に略々等しい登
録特徴データブロックがパターンマツチング距離計算回
路11に供給される。
パターンマツチング距離計算回路11において、入力特
徴データブロックのi番目のフレームに登録特徴データ
ブロックのi番目のフレーム及びi番目のフレームに近
接した複数のフレームが対応され、その夫々の間のフレ
ーム間距離の計算がなされる。
例えば、対応させるフレーム幅、即ち、サーチ幅が1と
された場合には、第3図に示すように、入力特徴データ
ブロックのi番目のフレーム(0≦i≦1−1)に登録
特徴データブロックの(i−1)フレーム、iフレーム
及び(i中1)フレームが対応され、夫々の間のフレー
ム間距離が算出される。計算処理により得られた3個の
フレーム間距離のうちで最小となるフレーム間距離が入
力特徴データブロックのiフレームに関するフレーム間
距離として選択される。
入力特徴データブロックを構成する各フレームに関して
同様に登録特徴データブロック側の3個のフレームが対
応され、フレーム間距離が算出され、最小となるものが
選択される。得られたフレーム間距離が順次、累算処理
されることにより累積距離が求められる。
第4図は、サーチ幅を1とした場合の累積距離が算出さ
れろ過縁の一例を示すものである。第4図における縦軸
が登録特徴データブロックのフレーム番号を示し、横軸
が入力特徴データブロックのフレーム番号を示している
。第4図中の細線上となる点がサーチ幅に対応するフレ
ーム番号を表し、第4図中の実線上の点が累積距離計算
に採用されたフレーム番号を示している。
第4図に示すように、最小となるフレーム間距離が累算
処理され、入力特徴データブロックの終端フレーム(1
−1)までに関して累算処理がなされて得られる累積距
離がマツチング距離とされ、マツチング距離データが規
格化類似度計算回路12に供給される。また、それと共
に、入力特徴データブロック及び登録特徴データブロッ
クのパラメータデータが規格化類似度計算回路12に供
給される。
規格化類似度計算回路12において、パラメータデータ
に基づいて特徴データブロックの構成フレーム数に依存
しないようにマツチング距離の規格化がなされる。マツ
チング距離をDtとし、入力特徴データブロックの構成
フレーム数若しくは、登録特徴データブロックの構成フ
レーム数若しくは、両者の平均フレーム数等のパターン
の長さを示す値をLとする場合には、規格化類似度Ds
がDs=C−Dt/ (L−K) C:適当な定数、に:適当な補正定数 但し、(L−K<1)の時(L−fK=1)とする。
で求められる。即ち、マツチング距離が構成フレーム数
り及び適当な補正定数K(例えば、最も短い語長の場合
における構成フレーム数より小さくなるように選定され
る。)の項(L−K)により除算され、適当な定数Cが
乗ぜられることにより、構成フレーム数に略々依存しな
い類似度に規格化される。
得られた類似度データが重み付け計算回路13に供給さ
れると共に、入力特徴データブロック及び登録特徴デー
タブロックのパラメータデータが重み付け計算回路13
に供給される。
重み付け計算回路13において、入力特徴データブロッ
クのパラメータデータと、登録特徴データブロックのパ
ラメータデータとの比較がなされ、差異に応じた重み定
数が発生される。例えば、音声区間の全体的な特徴、即
ち、音韻的特徴がP個のパラメータにより表現されてい
る場合には、夫々のパラメータ間の差が求められ、差に
対応した重み定数がP個発生され、得られた重み定数の
夫々が規格化類似度Dsに加算される。即ち、判定用語
l1IIDが D=Ds十ΣW。
により算出される。この判定用距離データがリジェクト
判定器14に供給される。
一個の比較の対象とされる登録特徴データブロフクに関
する判定用距離が算出されると、制御信号が重み付け計
算回路13からパターンマツチング距離計算回路11に
供給され、同様に人力特徴データブロックのフレーム数
に略々等しい他の登録特徴データブロックとの間におい
ても判定用距離が算出されて判定用距離データがリジェ
クト判定器14に供給される。
リジェクト判定器14において、判定用距離データの比
較がなされ、最小となるものが選択され、更に適当な値
に設定された闇値でもってリジェクトすべきかどうかが
判断される。最小となる判定用距離が闇値以下の場合に
は、入力特徴データブロックと比較の対象とされた登録
特徴データブロックが十分に類催していると判断され、
登録特徴データブロックに対応する単語が認識結果とさ
れる。また、最小となる判定用距離が闇値以上の場合に
は、登録外の音声や必要外の音(ノイズ等)が入力され
たと判断され、入力特徴データブロックがリジェクトさ
れて、無効入力と判断される。
尚、この発明は、ハードワイヤードの構成に限らず、マ
イクロコンピュータ又はマイクロプログラム方式を用い
てソフトウェアにより処理を行うようにしても良い。
〔発明の効果〕
この発明に依れば、パターンマツチング判定器において
、入力特徴データブロックと比較の対象とされる登録特
徴データブロックとのマツチング距離が求められ、マツ
チング距離が入力特徴データブロックのフレーム数に依
存しない規格化類似度とされる。この規格化類似度に、
入力特徴データブロックと登録特徴データブロックとの
音韻的特徴の差異に応じた重み定数が加算されて判定用
距離が求められ、この判定用距離に基づいてマツチング
判定がなされる。
従って、この発明に依れば、従来、判定用距離が特徴デ
ータブロックのフレーム数に依存していたため、フレー
ム数の少ない特徴データブロックの方が優性となる傾向
にあったものが改善される。
また、マツチング距離が規格化されて、フレーム数に依
存しない形とされているため、容易に重み付けが行える
と共に、マツチング判定においても容易にリジェクトの
判定が行え、認識率を向上させることができると共にパ
ターンマツチングに関する処理の高速化が実現できる。
【図面の簡単な説明】
第1図はこの発明の一実施例の全体の構成を示すブロッ
ク図、第2図はこの発明の一実施例におけるパターンマ
ツチング判定器のブロック図、第3図及び第4図はこの
発明の一実施例のパターンマツチング判定器の動作説明
に用いる路線図、第5図は従来の音声認識装置のパター
ンマツチング判定器の説明に用いる路線図である。 図面における主要な符号の説明 1:マイクロホン、  5:音響分析器。 6:特徴パターン抽出器、  8:登録パターンメ−T
−17,9:パターンマツチング判定器。 11:パターンマツチング距離計算回路。 12:規格化類似度計算回路、  13:重み付け計算
回路、  14:リジェクト判定器。

Claims (1)

  1. 【特許請求の範囲】 入力音声信号をスペクトル変換等音声認識に必要な前処
    理を行う音響分析手段と、 上記音響分析手段の出力データが供給され、適応な分割
    数によって時間軸の正規化処理を行うと共に音声区間全
    体としての特徴を検出して特徴データを抽出する特徴パ
    ターン抽出手段と、 上記特徴データが標準パターンとして記憶されるメモリ
    と、 上記特徴パターン抽出手段からの入力パターンと上記メ
    モリから読み出された上記標準パターンとが供給され、
    上記入力パターンと上記標準パターンとの間のマッチン
    グ距離Dtを求めて(1)式により規格化処理して規格
    化類似度Dsを得、上記規格化類似度Dsに重み付け処
    理を(2)式により行って得られた判定用距離Dに基づ
    いてマッチング判定するパターンマッチング判定手段と
    、 からなることを特徴とする音声認識装置。 規格化類似度Ds、マッチング距離Dt、 判定用距離D Ds=C・Dt/(L−K)・・・(1) 但し、C:適当な定数、K:適当な補正定数(L−K≧
    1)、L:パターン長 D=Ds+Σ^P_i_=_1W_i・・・(2)但し
    、W_i:重み定数、P:パラメータの数
JP60254193A 1985-11-13 1985-11-13 音声認識装置 Pending JPS62113197A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60254193A JPS62113197A (ja) 1985-11-13 1985-11-13 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60254193A JPS62113197A (ja) 1985-11-13 1985-11-13 音声認識装置

Publications (1)

Publication Number Publication Date
JPS62113197A true JPS62113197A (ja) 1987-05-25

Family

ID=17261534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60254193A Pending JPS62113197A (ja) 1985-11-13 1985-11-13 音声認識装置

Country Status (1)

Country Link
JP (1) JPS62113197A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5561722A (en) * 1992-03-04 1996-10-01 Sony Corporation Pattern matching method and pattern recognition apparatus
JP2005292346A (ja) * 2004-03-31 2005-10-20 Nec Corp 音声認識用棄却辞書生成システム、音声認識用棄却語彙生成方法及び音声認識用棄却語彙生成プログラム
JP2007279742A (ja) * 2006-04-06 2007-10-25 Toshiba Corp 話者認証確認方法及び装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5561722A (en) * 1992-03-04 1996-10-01 Sony Corporation Pattern matching method and pattern recognition apparatus
JP2005292346A (ja) * 2004-03-31 2005-10-20 Nec Corp 音声認識用棄却辞書生成システム、音声認識用棄却語彙生成方法及び音声認識用棄却語彙生成プログラム
JP2007279742A (ja) * 2006-04-06 2007-10-25 Toshiba Corp 話者認証確認方法及び装置

Similar Documents

Publication Publication Date Title
JPH01296299A (ja) 音声認識装置
JPS6128998B2 (ja)
US5159637A (en) Speech word recognizing apparatus using information indicative of the relative significance of speech features
JPS62113197A (ja) 音声認識装置
JPS625298A (ja) 音声認識装置
JPH0426479B2 (ja)
JP2658104B2 (ja) 音声認識装置
JPH0424717B2 (ja)
JP2989231B2 (ja) 音声認識装置
JPH0556520B2 (ja)
JP2606211B2 (ja) 音源正規化方法
JPH0731506B2 (ja) 音声認識方法
JPH0228160B2 (ja)
JPH02254500A (ja) 発声速度推定装置
JPS6227798A (ja) 音声認識装置
JPH0221598B2 (ja)
JPS62211698A (ja) 音声区間検出方法
JPS59124392A (ja) 音声認識方式
JPS59211098A (ja) 音声認識装置
JPS625299A (ja) 音声認識装置
JPS6295598A (ja) 音声認識装置
JPS6210697A (ja) 音声認識装置
JPS6225798A (ja) 音声認識装置
JPS63223696A (ja) 音声パタ−ン作成方式
JPH06324696A (ja) 音声認識装置及び方法