JPS62266600A - 単語音声認識装置 - Google Patents

単語音声認識装置

Info

Publication number
JPS62266600A
JPS62266600A JP61109559A JP10955986A JPS62266600A JP S62266600 A JPS62266600 A JP S62266600A JP 61109559 A JP61109559 A JP 61109559A JP 10955986 A JP10955986 A JP 10955986A JP S62266600 A JPS62266600 A JP S62266600A
Authority
JP
Japan
Prior art keywords
word
pattern
speech
input
route
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61109559A
Other languages
English (en)
Other versions
JPH0337199B2 (ja
Inventor
教幸 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP61109559A priority Critical patent/JPS62266600A/ja
Publication of JPS62266600A publication Critical patent/JPS62266600A/ja
Publication of JPH0337199B2 publication Critical patent/JPH0337199B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概 要〕 未知入力単語音声パターンを各単語標準パターンと照合
する単語音声認識装置において、入力単語音声パターン
と単語標準パターンのパターン長比に対応して経路制限
の変更を行って照合を行う様にする。これにより伸縮比
の範囲を狭めることなく、不自然な時間対応付けを無く
して認識率を向上させることが出来る。
〔産業上の利用分野〕
本発明は、未知入力単語音声パターンを予め登録されて
いる各単語標準パターンと照合して入力単語音声の認識
を行う単語音声認識装置、特に、照合時に不自然な時間
対応付けが行われるのを無くして認識率を向上させる様
に改良した単語音声認識装置に関する。
〔従来の技術〕
未知入力単語音声を認識する場合、認識率が良好である
ことから、未知入力単語音声から作成された入力単語音
声パターンを、予め登録されている各単語標準パターン
として照合して入力単語音声の認識を行う単語音声認識
方式が、多く用いられている。
第5図は、従来の単語標準パターンと照合する単語音声
認識方式の基本構成をブロック図で示したものである。
第5図の単語音声認識方式において、音声分析部210
は、入力単語音声を分析し、入力単語音声の特徴を表す
パラメタの抽出や区間検出を行って入力単語音声パター
ンを作成して単語認識部220に入力する。
一方、単語標準パターン部230には、認識対象となる
単語群の各単語を分析して作成された標準パターンが予
め登録されている。
単語認識部220は、入力単語音声パターンを単語標準
パターン部230の各単語の標準パターンと照合して単
語認識を行う。
この単語認識は、公知のDP法(Dynamic pr
o−gramming matching )によって
行われ、入力単語、音声パターンと距離の最も小さい単
語標準パターンの単語を認識単語とする。
第6図は、単語認識部220において行われるDPマツ
チング方式を示したものである。
第6図において、横軸は入力単語音声パターンで、その
数字は、入力単語音声パターンを形成する各ベクトルの
番号である。縦軸は単語標準パターンで、その数字は、
単語標準パターンを形成する各ベクトルの番号である。
実線は、入力単語音声パターンが単語標準パターンとマ
ツチングしたときの時間伸縮関数(DPババスである。
所で、実際に発声される単語音声の時間長は、話者によ
って変化し、又、同一話者でも発声するたびに時間長は
変化してしまう。ゆっくり発声されたり早口で発声され
たりするので、入力単語音声パターンは、単語標準パタ
ーンの持つ時間長に対し、伸び縮みしたものとなる。そ
こで、照合時は、入力単語音声パターンの時間方向の伸
び縮みを正規化(時間正規化)して、単語標準パターン
との照合が行われる。
この時間正規化処理時における入力単語音声パターンの
伸縮比として許される範囲は、DP法の手法によって種
々の値に設定されるが、例えば、1/2〜2倍、1/3
〜3倍等の範囲に設定されることが多い。伸縮比を1/
2〜2倍に設定すると、正規の時間長の1/2から2倍
の速さで発声された単語音声を同じ単語標準パターンを
用いて認識することが出来る。この様に、伸縮比の幅を
大きくすることにより、同じ単語標準パターンを用いて
種々の時間長を持った人力単語音声を認識することが可
能となるので、認識範囲を広げることが出来る。
伸縮比の幅を1/2〜2や1/3〜3の様に大きくする
と、前述の様に認識範囲が広くなるという利点があるが
、反面、次の様な不都合が生じる。
即ち、1つの単語を発声する場合、単語の前半を早口で
発声し、後半をゆっくり発声することは、自然な発声で
は通常起り得ないことである。然しなから、従来のDP
法では、前半を2〜3倍に伸ばし、後半を1/2〜1/
3に縮めてパターンマツチングすることが許される為、
この様な状態でマツチングが行われた場合には誤認識が
生じることになる。
第6図は、入力単語音声が最初は早く発声され(フレー
ム1〜2)、次いで極めてゆっくり発声され(フレーム
3〜4)、その後は(フレーム5〜10)平均して早く
発声されたという不自然な状態でマツチングが行われた
結果、誤認識が生じた場合を示したものである。
〔発明が解決しようとする問題点〕
従来の単語音声認識方式は、照合時の入力単語音声パタ
ーンの伸縮比の幅を大きくとっていた為、種々の時間長
くパターン長)を持った入力単語音声を認識することが
可能となって広い認識範囲が得られるという利点がある
反面、不自然な時間対応付けが許される結果、誤認識が
生じて認識率が低下するという問題があった。
本発明は、単語全体として許される伸縮比の範囲を狭め
ることなく、不自然な時間対応付けによる照合が行われ
ることを阻止してL’lll率を向上させる様にした単
語音声認識装置を提供することを目的とする。
〔問題点を解決する為の手段〕
1つの単語を発声する場合、単語を形成する各音節の一
部の発声時間が長くなったり短くなったりして変化する
ことは、自然の発声では通常起り得ないことである。即
ち、単語が自然な状態で発声された場合、普通の早さの
ときは、単語中の各音節も普通の早さでそれぞれ発声さ
れ、単語が早口で発声されたときは、その各音節も早口
でそれぞれ発声され、単語がゆっくり発声されたときは
、その各音節もそれぞれゆっくりと発声される。
従って、単語が自然な状態でゆっくり発声された場合の
マツチング時のDPパスは、その傾斜が平均して小さい
値のものに経路制限した方が良く、単語が自然の状態で
早口で発声された場合のマツチング時のDPパスは、そ
の傾斜が平均して大きい値のものに経路制限した方が良
いことになる。
本発明は、この知見に基づき、単語音声の自然の発声速
度に対応して経路制限を適宜変更することにより単語全
体として許される伸縮比の範囲を狭めることなく、不自
然な時間対応付けによる照合が行われることを阻止して
認識率を向上させる様にしたものである。
以下、従来の単語音声認識方式における前述の問題点を
解決する為に本発明が講した手段を、第1図を参照して
説明する。
第1図は、本発明の基本構成をブロック図で示したもの
である。
第1図において、110はパターン長比演算手段で、入
力単語音声から作成された入力単語音声パターンと各単
語標準パターンのパターン長の大小を表すパターン長比
を算出する。ここで、パターン長比は、入力単語音声パ
ターンのパターン長と単語標準パターンのパターン長の
大小を決め量で、例えば、両パターン長の差や両パター
ン長の比率で表される。又、各パターンのパターン長は
、各パターンのフレーム数や時間長等で表される。
120は制限経路距離演算手段で、パターン長比の大き
さに対応して照合時の経路制限の変更を行って、入力単
語音声パターンと各単語標準パターン間の距離を算出す
る。
〔作 用〕
入力単語音声から作成された人力単語音声パターンが入
力されると、パターン長比演算手段110は、入力単語
音声パターンと単語標準パターンのパターン長比を算出
する。この演算は、各単語標準パターンについてそれぞ
れ行われる。
制限照合距離演算手段120は、パターン長比演算手段
110より入力されたパターン長比の大きさに対応して
照合時の経路制限の変更を行って、人力単語音声パター
ンと単語標準パターン間の距離を計算する。
照合時の経路制限の変更は、例えば比率で表したパター
ン長比、即ち人力単語音声パターン長を単語標準パター
ン長で割った値が1の近傍より大きいとき(ゆっくり発
声された場合)は、1より大きい傾斜を持゛った経路を
含まない経路制限に変更され、パターン長比が1の近傍
より小さいとき(早口で発声された場合)は、■より小
さい傾斜を持った経路を含まない経路制限に変更される
以上の様に、入力単語の自然の発声速度に対応して経路
制限の変更を行って照合することにより、単語全体とし
て許される伸縮比の範囲を狭めることなく、不自然な時
間対応付けによる照合が行われない様にすることが可能
になり、認識率を向上させることが出来る。
〔実施例〕
本発明の実施例を、第2図〜第4図を参照して説明する
第2図は本発明の一実施例の構成のブロック説明図、第
3図は同実施例の経路制限の説明図、第4図は同実施例
のDPマツチング方式の説明図である。
(A)実施例の構成 第2図において、パターン長比演算手段110及び制限
経路距離演算手段120については、第1図で説明した
通りである。
130はマイクロホンで、話者(図示せず)の発声した
単語音声が入力される。
140は音声分析部で、入力された単語音声を分析し、
入力単語音声の特徴を表すパラメタの抽出や区間検出を
行って、入力単語音声パターン又単語標準パターンを作
成する。
150は切替え回路で、単語標準パターンの登録動作と
入力単語音声パターンの認識動作に対応した切替えを行
う。
160は単語標準パターン辞書で、音声分析部で作成さ
れた各単語標準パターンが登録される。
制限経路距離演算手段120において、121はベクト
ル間距離計算部で、音声分析部140より入力された入
力単語音声パターンの各ベクトルと単語標準パターン辞
書160中の各単語標準パターンの各ベクトルとのベク
トル間距離を算出する。
122は第1のDP計算部で、第1の経路制限に基づい
て入力単語音声パターンと各単語標準パターン間の距離
を算出する。
123は第2のDP計算部で、第2の経路制限に基づい
て入力単語音声パターンと各単語標準パターン間の距離
を算出する。
124は第3のDP計算部で、第3の経路制限に基づい
て入力単語音声パターンと各単語標準パターン間の距離
を算出する。
なお、前記第1〜第3の各経路制限の具体的な内容につ
いては、次の「(B)実施例の動作」の項で説明する。
125は経路選択部で、パターン長比計算手段110よ
り入力されたパターン長比に基づいて、第1〜第3の各
DP計算部122〜124の1つを選択して、その算出
結果を出力する。
170は単語認識部で、経路選択部125より人力され
た入力単語音声パターンと各単語標準パターン間の制限
された経路についての各距離の中の最小値を検出し、そ
の単語標準パターンに対応する単語を認識単語とする。
(B)実施例の動作 実施例の動作を、第2図〜第4図を参照し、入力単語音
声認識時の各動作に分けて説明する。
(B−1)登録動作 話者の発声した単語音声に対する認識処理が行われる前
に、認識対象となる各単語の単語標準パターンの登録が
行われる。
単語標準パターンを単語標準パターン辞書160に登録
する場合は、切替え回路150を単語標準パターン辞書
160側に接続し、マイクロホン130より登録用の単
語音声を音声分析部140に入力する。
音声分析部140は、入力された単語音声を分析し、登
録用の単語音声の特徴を表すパラメタの抽出や区間検出
を行って、単語標準パターンを作成して単語標準パター
ン辞書160に登録する。
各単語標準パターンは、各単語標準パターンの特徴を表
すベクトルの時系列で表現される。
(B−2)人力単語音声パターン作成動作入力された単
語音声の認識を行う場合は、切替え回路150をベクト
ル間距離計算部121側に接続する。
マイクロホン130より認識対象となる未知の単語音声
が人力されると、前述の単語標準パターンの登録の場合
と同様にして、音声分析部140は、この入力単語音声
の特徴を表すパラメタの抽出や区間検出を行って入力単
語音声パターンを作成し、ベクトル間距離計算部121
に入力する。
作成された各入力単語音声パターンは、単語標準パター
ンと同様に、入力単語音声パターンの特徴を表すベクト
ルの時系列で表現される。
(B−3)パターン長比算出動作 パターン長比演算手段110は、入力単語音声パターン
と単語標準パターンのパターン長比を算出する。
パターン長比は、例えば入力単語音声パターン長と単語
標準パターン長の差や両者の比率で表されるが、この実
施例では両者の比率、即ち、人力単語音声パターン長を
単語標準パターン長で割った値をパターン長比として用
いることにする。
(B−4)制限照合距離算出動作 ベクトル間距離計算部121は、音声分析部140より
入力された入力単語音声パターンの各ベクトルと単語標
準パターン辞書160中の各単語標準パターンの各ベク
トルとのベクトル間距離を算出する。
第1〜第3の各DP計算部122〜124は、ベクトル
間距離計算部121で算出された各ヘクトル間距離を参
照し、第3図に示す第1〜第3の経路制限に基づいて、
入力単語音声パターンと各単語標準パターン間の距離を
公知のDP法により算出する。
第3図において、D P + 〜DP、は、従来の各経
路制限を示したもので、i〜(i−2)は人力単語音声
パターンの各ベクトル番号であり、j〜(j−3)は単
語標準パターンの各ベクトル番号であり、p、〜p、は
、DP計算を行う際の各パスである。
DPaI””DPa4は第1の各経路制限で、図示の様
に、対応する従来の各経路制限から傾斜が1より大きく
なるパスを除くことにより、1より大きい傾斜を持った
パスを含まない構成になっている。
DPb、〜DPb、は第2の各経路制限で、図示の様に
、DPb、を除き対応する従来の各経路制限と同じ構成
になっている。DPb、は、対応する従来の経路制限D
P、から傾斜が1より小さいパス及び2より大きいパス
を除いた構成になっている。
DPC,%DPC,は、第3の各経路制限を示したもの
で、図示の様に、対応する従来の各経路制限から傾斜が
1より小さくなるパスを除くことにより、1より小さい
傾斜を持ったパスを含まない構成になっている。D P
 c aは、更に傾斜1のパスも除かれている。
第1の経路制限(DPa、 〜DPa4)は、パターン
長比が1の近傍より大きい場合、例えば、パターン長比
〉1.2の場合に選択される。これは、単語が自然な形
で普通よりもゆっくり発声された場合に当る。
第2の経路制限(DPb、〜DPb4)は、パターン長
比が1の近傍である場合、例えば、0.8≦パターン長
比≦1.2の場合に選択される。これは、単語が自然な
形で普通の早さで発声された場合に当る。
第3の経路制限(DPc+〜DPC4)は、パターン長
比が1の近傍より小さい場合、例えば、パターン長比〈
0.8の場合に選択される。これは、単語が自然な形で
普通よりも早口で発声された場合に当る。これらのパタ
ーン長比は、最良の認識結果が得られる様、実験的に求
められる。
なお、第1〜第3の経路制限は、同じグループ(DPa
k−DPck)の中から選択される。例えば第1の経路
制限としてD P a +が選定された場合は、第2の
経路制限はDPb、に選定され、第3の経路制限はDP
c、に選定される。
第1〜第3の各DP計算部122〜124における各D
P計算は平行して行われ、1つの単語標準パターンにつ
いての第1〜第3の経路制限による入力単語パターン間
の距離が算出されると、経路選択部125は、パターン
長比演算手段110より入力されたその単語標準パター
ンに関するパターン長比に基づいて、第1〜第3の各D
P計算部122〜124の1つを選択する。例えば、パ
ターン長比が0.8よりも小さい場合は、第3の経路制
限によってDP計算を行った第3のDP計算部の算出距
離を選択して単語認識部170に入力する。
以上の経路制限によるDP計算処理が単語標準パターン
辞書にある各単語標準パターンについて行われて、単語
認識部170にそれぞれ入力される。
(B−5)単語認識動作 単語認識部170は、経路選択部125より入力された
入力単語音声パターンと各単語標準パターン間の制限さ
れた経路についての各距離の中の最小値を検出し、その
単語標準パターンに対応する単語を認識単語とする。
第4図は、本発明のDPマツチング方式を示したもので
、同図(alは、第6図をそのまま再掲したものであり
、同図(b)は、同図(alの従来のケースを本発明の
DPマ・ノチング方式によってマツチングさせた場合の
例を示したものである。
入力単語音声パターンのパターン長が10フレームであ
り、マツチング時の単語標準パターンのパターン長が1
3フレームであるので、フレーム長は0.77 (=1
0/13)である。従って、第3の経路制限によってD
P計算を行う第3のDP計算部124の演算結果が選択
される。
この結果、第4図(810代りに同図(blに示す自然
な時間対応付けをもったDPパスによるマツチングが行
われて、正しい認識結果を得ることが出来る。
以上、本発明の一実施例について説明したが、本発明の
各構成は、この実施例の各構成に限定されるものではな
い。
例えば、経路制限の態様は第3図の態様に限定されるも
のでなく、それ以外の各種の経路制限を用いることが出
来、それに対応してDP計算部の数も変更される。
又、DP計算部(122〜124)は、第2図に示す様
に並列に設ける代りに1個のDP計算部により直列形式
で行わせてもよい。然しなから、第2図に示す様に複数
のDP計算部により各経路制限によるDP計算を並列に
行うことにより、DP計算処理を高速化することが出来
る。
〔発明の効果〕
以上説明した様に、本発明によれば、入力単語の自然の
発声速度に対応して照合時の経路制限の変更を行う様に
したので、単語全体として許される伸縮比の範囲を狭め
ることなく、不自然な時間対応付けによる照合が行われ
るのを阻止することが可能となり、認識率を向上させる
ことが出来る。
【図面の簡単な説明】
第1図・・・本発明の基本構成の説明図、第2図・・・
本発明の一実施例の構成の説明図、第3図・・・同実膳
例の経路制限の説明図、第4図・・・同実施例のDPマ
ツチング方式の説明図、 第5図・・・従来の単語認識方式の説明図、第6図・・
・従来の単語音声認識方式のDPマツチング方式の説明
図。 第1図及び゛第2図において、 110・・・パターン長比演算手段、120・・・制限
経路距離演算手段、130・・・マイクロホン、140
・・・音声分析部、150・・・切替え回路、160・
・・単語標準パターン辞書、170・・・単語認識手段

Claims (2)

    【特許請求の範囲】
  1. (1)未知入力単語音声パターンを各単語標準パターン
    と照合して入力単語音声の認識を行う単語音声認識装置
    において、 (a)入力単語音声から作成された入力単語音声パター
    ンと各単語標準パターンの各パターン長の大小を表すパ
    ターン長比を算出するパターン長比演算手段(110)
    と、 (b)パターン長比の大きさに対応して照合時の経路制
    限の変更を行って、入力単語音声パターンと各単語標準
    パターン間の距離を算出する制限経路距離演算手段(1
    20)、 を備えたことを特徴とする単語音声認識装置。
  2. (2)制限経路距離演算手段(120)が、入力単語音
    声パターンのパターン長が単語標準パターンのパターン
    長より所定量大きい場合は、1よりも大きい傾斜を持っ
    た経路を含まない経路制限に変更し、入力単語音声パタ
    ーンのパターン長が単語標準パターンのパターン長より
    所定量小さい場合は、1よりも小さい傾斜を持った経路
    を含まない経路制限に変更するものであることを特徴と
    する特許請求の範囲第1項記載の単語音声認識装置。
JP61109559A 1986-05-15 1986-05-15 単語音声認識装置 Granted JPS62266600A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61109559A JPS62266600A (ja) 1986-05-15 1986-05-15 単語音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61109559A JPS62266600A (ja) 1986-05-15 1986-05-15 単語音声認識装置

Publications (2)

Publication Number Publication Date
JPS62266600A true JPS62266600A (ja) 1987-11-19
JPH0337199B2 JPH0337199B2 (ja) 1991-06-04

Family

ID=14513303

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61109559A Granted JPS62266600A (ja) 1986-05-15 1986-05-15 単語音声認識装置

Country Status (1)

Country Link
JP (1) JPS62266600A (ja)

Also Published As

Publication number Publication date
JPH0337199B2 (ja) 1991-06-04

Similar Documents

Publication Publication Date Title
Kohler et al. Language identification using shifted delta cepstra
JPS6024597A (ja) 音声登録方式
JPS62232691A (ja) 音声認識装置
JPH029359B2 (ja)
JPH0346839B2 (ja)
JPS62266600A (ja) 単語音声認識装置
JPS62217297A (ja) 単語音声認識装置
Thienpondt et al. Speaker Embeddings With Weakly Supervised Voice Activity Detection For Efficient Speaker Diarization
JPH0469959B2 (ja)
JPS6312000A (ja) 音声認識装置
JPS62111292A (ja) 音声認識装置
JPS59143200A (ja) 連続音声認識装置
JP2000122693A (ja) 話者認識方法および話者認識装置
JPH0247758B2 (ja)
JPS6147994A (ja) 音声認識方式
JPH0552516B2 (ja)
JPS60208800A (ja) 単語音声認識装置
JPS62121499A (ja) 音声認識装置
JPH0573037B2 (ja)
JPS60147797A (ja) 音声認識装置
JPS6033599A (ja) 音声認識装置
JPS59195299A (ja) 特定話者音声認識装置
JPS61235899A (ja) 音声認識装置
Sudirman et al. NN with DTW-FF Coefficients and Pitch Feature for Speaker Recognition Rubita Sudirman1, Sh-Hussain Salleh1, Shaharuddin Salleh2
JPS616694A (ja) 音声登録方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees