JPS63201699A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS63201699A
JPS63201699A JP62033261A JP3326187A JPS63201699A JP S63201699 A JPS63201699 A JP S63201699A JP 62033261 A JP62033261 A JP 62033261A JP 3326187 A JP3326187 A JP 3326187A JP S63201699 A JPS63201699 A JP S63201699A
Authority
JP
Japan
Prior art keywords
pair
speech
recognition device
storage section
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62033261A
Other languages
English (en)
Inventor
天野 明雄
畑岡 信夫
矢島 俊一
市川 熹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP62033261A priority Critical patent/JPS63201699A/ja
Publication of JPS63201699A publication Critical patent/JPS63201699A/ja
Priority to US07/409,991 priority patent/US4998280A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声タイプライタ等音声認識装置の音韻認識方
式に係り、特に類似音声の識別に好適で、か・つ誤認識
を起こしたときにも原因究明が容易で、性能改善を系統
的に行なうのに好適な音声認識装置に関する。
[従来の技術〕 従来の音声認識装置では、アイ・イー・イー・イー、1
〜ランザクジヨン オン アコーステイクス スピーチ
 アンド シグナルプロセシングニー ニス ニス ピ
ー 23 1 (1975年)第67頁から第72頁(
I E E E e Trans、 onASSP−2
3,恥1 0975)pp67−72)において論じら
れているように、認識対象となる音声の全てのカテゴリ
ーについて予じめ標準パターンを用意しておき、入カバ
ターンをこの各標準パターンと照合し最も類似度の高い
ものを認識結果とする方式をとっていた。また、このよ
うな方式において、照合で一分な類似度が得られない場
合の対処として、特開昭55−36824号に?ii!
載のように、音声の部分的な特徴を保持したパターンを
部分標準パターンとして記憶しておき、入カバターンの
特定の部分と−1−記部分in準パターンとを照合し、
この照合結果に基づいて最終的な認識結果を求めるよう
な方式がとられていた。
〔発明が解決しようとする問題点〕
上記従来技術では、認識の基準となる情報が標準パター
ンという形で保持されている。認識の動作は標準パター
ンとの照合が基本となるが、音声の特徴が暗黙的に標準
パターンの中に取り込まれているために、*識動作の途
中経過についてもその正否を人間が判断することができ
なかった。すなわち、誤112識を生じた場合、その原
因は主に標準パターンが不良という形で判定すること1
ノかできなかった。これにより、認識装置の性能改iキ
が試行錯誤的になり、知識が積み上がらず、性能向上が
望めないという問題と、認識系の内部状況をモニタ表示
できず、系統的性能改善を行なえないという問題があっ
た6 本発明の目的はn「記従来技術の問題点を解決し。
認識装置の性能改善のプロセスを系統的に行なうことが
でき知識の蓄積が可能で、また、誤認識を生じた時にそ
の原因を認識装置自体が説明する機能を持った音声認識
方式を提供することにある。
〔問題点を解決するための手段〕
上記目的は、音素特有の特徴が特徴パターンの時系列の
中に存在するか否かを調べる処理の名称と手順を各音素
特有の特徴毎に保持する手段と、認識対象の音声の全カ
テゴリーの2つの組合せ毎にその2つを識別するために
行なう前記処理の名称および処理結果の解釈の仕方を記
述したテーブルとを設け、本テーブルの記述に従って対
判定によって認識処理を行なうことにより達成される。
〔作用〕
本発明では、候補選択部で選択されたn個の認識候補に
ついて全ての2つの組合せn02個を求め、この全ての
2つの組合せについて対判定を行ない各候補対毎にいず
れか識別結果として適切かを判定する。この対判定は前
記テーブルの記述にJ&づいて行なうようにする 以上の構成により性能改善のプロセスが系統的に行なえ
ることを以下に説明する。
誤認識が生じたときに原因を究明するには上記nCz個
の対判定のうち判定を誤ったものを求める必要があるが
、これはnCz個の対判定結果が保持されているのでこ
れを参照すればよい。
次に判定を誤った対については前記テーブルを参照する
ことにより、どの音素特有の特徴の存在を調査する処理
において誤りが生じたかがわかる。
したがって、認識系の内部状況をモニタ表示できる。
認識性能の改善では、判定を誤った音素特有の特徴の存
在を調査する処理が上記のごとくにわかるのでこの処理
を改良すればよい。また、前記テーブルには処理結果の
解釈の仕方の記述もあるのでこれを参照することにより
、どのような改善を施せばよいかもわかり、したがって
系統的な改善の実施が容易になる。
また、本発明では、認識対象となる音声のカテゴリーの
全ての2つの組合せ毎に独立にその2つの識別するため
の手順を保持しており、特定の対について改善を行なっ
たとき、関与するのはその対に含まれる2つのカテゴリ
ーのみであり、他のカテゴリーには関与しないので一部
の改善が他部へ悪影響を及ぼすことがない。
〔実施例〕
以下1本発明の一実施例を第1図により説明する。
入力部1から入力された入力音声9は特徴抽出部2にお
いて所定時間毎に音声の特徴を表わす特徴パターンに変
換され特徴パターンの時系列】Oとして出力される。候
補選択部3では特徴パターンの時系列10を入力とし、
この入力の中に存在すると考えられる音声のカテゴリー
の上位候補n個(例えばn=5)が出力される。候補選
択部3で選択されたn個の候補は対生成部4へ送られ、
ここで対判定を行なう対象となる対n02個(n=5の
とき、ncz=10)を生成し対判定部5へ送る。対判
定部5では対生成部4から送られたnCz個の対のそれ
ぞれについて対判定を行なうが、ここでは1つの対につ
いての動作のみを説明する。いま与えられた音声のカテ
ゴリーがa、bの2つであったとすると、対判定部5で
はaとbを識別するだめの手掛りとなる音素特有の特徴
(例えば、破裂性9摩擦性、バスバ等)が入力された特
徴パターンの時系列中に存在するか否かを調査する処理
を行なう。
この処理に関しては、各音素特有の特徴のそれぞれにつ
いて、その名称と処理の手順を与しめ第】の格納部6に
格納しておく、また各カテゴリーの対毎にその対の識別
のために行なう前記処理の名称と、その処理結果の解釈
のしかたを第2の格納部7の中に格納しておく。
a、bの対が与えられると、まず、第2の格納部7の内
容を参照し、a、bの対の識別のためには特徴パターン
の時系列に対して何という名称の処理を施せばよいのか
を、調べる。ここで求められた名称の処理の手順は第1
の格納部6に格納されているので、これを参照して処理
を実行する。処理結果に基づいて入力音声がaであるか
、bであるかの判定を下さねばならないが、この判定は
第2の格納部7に予じめ格納されている処理結果の解釈
の仕方に基づいて行なう。以上によりa、bの対に関す
る対判定が完了するが、残りの全ての対に関しても同様
の手順で対判定を行なう。かくして、nC2個の対判定
結果が対判定部5から得られ、この結果が結果集計部8
で集計され、この集計に基づいてn個の候補の順位付け
が行なわれ、最終結果として出力される。順位付けは例
えば各候補毎に、対判定でその候補と判定された回数を
求め、これの多い順にするといった方法をとればよい。
次に、第1,2の格納部に格納されている情報を用いて
対判定を行なう手順を詳細に説明する。
まず、第1の格納部について第2図を用いて説明する。
第1の格納部には各音素特有の特徴毎に、その特徴を検
出するための処理の名称と、その手順とが格納される。
ここでは、音素特有の特徴として第2図(a)に示す8
種類を考える。各特徴毎にその検出処理がどのような内
容であるかは第2図(a)の処理の欄に示した。第1の
格納部には処理の名称と手順とが格納されるが、具体的
には第2図(b)に示すようなテーブルの形式で処理の
名称と処理の手順が格納されている場所へのポインタの
対応関係を保持し、処理の手順はそれぞれ個別に保持す
る。第2図(b)の中で矢印(→)はポインタを表わす
が、具体的には上記処理が格納されている格納部中の番
地を表す数字が保持され、この番地に従って処理内容が
参照される。処理の手順の具体例を第2図(a)中のC
MPCTについて説明する。CMPCTという名称の処
理は、特徴パターン時系列の中の各時点での特徴バトー
ナ(ここでは特徴パターンとして  □周波数スペクl
−ルを考える)について、特定の周波数帯域にエネルギ
が集中していること(これをコンパクト性と呼ぶ)を検
出する処理である。第3図(a)に示すのは、本処理の
フローを示すフローチャートである。
各時点の特徴パターン(スペク1−ル)について、まず
その最小2乗直線を求める。スペクトルおよび最小2乗
直線の例を第3図(b)に示す。次にスペクトルから最
小2乗直線を差しひく、ただし、負の値になる場合には
強制的に0とする。差し引いた後の例を第3図(Q)に
示す1次にこの差し引いた後のパターンに対してピーク
を検出する。
第3図(c)の例では2つのピーク31.32があるが
その大きい方の31が選択される0次にこのピークのま
わりのエネルギを集計するが具体的には第3図(Q)の
31のピークの下の斜線部の面積を求める。この値がコ
ンパクト性の値とされ。
次にこの値に対して予しめ設定した閾値を用いて閾値判
定を行ないこの結果によりコンパクト性の有無の結果と
する。
次に第2の格納部について説明する。第2の格納部には
認識対象となる音声のカテゴリーの全ての2つの組合せ
毎に、その2つを識別するためには特徴パターン時系列
に対して何としい名称の処理を施せばよいか、また、そ
の結果をどう解釈すればよいかが保持される。ここでは
、認識対象として単音節を考え、全ての単音節の2つの
組合せ毎に保持するものとする。また、ここでは候補選
択部にて後続母音が同一の単音節のみが選択されるもの
とし、対判定は後続母音が同一の単音節の間でのみ行な
うものとする。
第4図に第2の格納部に格納されている内容の一部を模
式的に示す0図に示すように格音節の対毎にその対を識
別するのに行なう処理の名称が記述され、させにその右
の欄にこれに対応づけて処理結果に応じて、いずれの音
節と判定すべきかの記述がある0例えば第4図の3段目
の/ k a /・/+a/の識別にはcMpc:とい
う名称の処理を実行し、特徴パターン系列上にコンパク
ト(スペクトルの特定帯域にエネルギが集中しているこ
と)な特徴が現われているか否かを調べればよい/ka
/、検出されなかった場合には/+a/と判定し、また
、結果が中間的だった場合にはどちらとも判定しない(
両者の可能性を残す)ようにすればよいことがわかる。
以上、本実施例の説明では、特徴抽出部2.候補選択部
3.対生成部4、対判定部5、結果集計部8について具
体的実施方法を省略したが、二二で簡単に説明しておく
特徴抽出部としては、フィルタバンク分析、線形予測分
析(LPG)等が考えられるが、本実施例ではフィルタ
パンク分析を用いることとし、第5図にその具体的実施
例を示す、入力音声xllは中心周波数と帯域幅の違う
複数個のBPF群21と22に入力される0本実施例で
は周波数分解能を上げるために2段のBPF構成として
いる。
BPF21,22は2次のバターワース型フィルタとな
っており、加算器2個、乗算器4個と遅延器2個から構
成されている。BPF結果の波形は絶対値変換器(AB
S)23にて整流され、LPF24.サンプリング器2
5.さらにLPF26にて高域周波数成分をカットされ
ながら出力値バタンXiが求められる。LPFはBPF
同様に周波数分解能をあげるために2段構成となってお
り、LPF24,26はBPF同様の処理規模のバター
ワース型となっている。尚、LPFの構成については特
願昭55−135981 rディジタル低域通過濾波回
路」に詳細に説明されている。
候補選択部としては、いくつかの方法が考えられるが、
本実施例では従来から用いられているテンプレートマツ
チングを用いることとし、テンプレートマツチングで得
られた上位候補(距離値の小さい方からn個の候補)を
出力することとする。
テンプレートマツチングの具体的実現には文献「音声認
識に適用した最小予測誤差原理(Minis+umPr
ediction Re5idual Pr1ncip
le Applied t。
5peech Recognition)J by F
、ItaKura et al、IEHETrans 
on Acoustics、5peech and S
ignalProcessing、vol、As5P−
23、p、p 、 57〜72tFeb、’ 75に記
載の方法を用いればよい。ただし、本文献では躍層尺度
として尤度比を用いているが、本実施例では距離尺度を
特徴パターン(スペクトル)間のニーグリッド距離とす
ればよい。
対生成部4は候補選択部3から得られたn個の候補につ
いて考え得る全ての2つの組合せncz個を生成する。
これは単純な組合せ演算でありソフトウェアで簡単に実
現できる。第6図にその具体的フローを示す。図では候
補として挙げられたn個の音声のカテゴリーをC1t 
Cz *・・・Cnと表わしている0本フローに従って
、音声のカテゴリーの対が(Cxt Cz) t  (
Cxt Cs)  v ・−1c1゜Cn)+ (Ca
、Cs) ・・・(Cn−1+Cn)という順で計nC
2個生成される。
次に対判定部5の具体的構成を第7図で説明する。対判
定部は第1.第2の格納部に格納された情報に基づいて
対判定の制御を行なう、まず、入力として音声カテゴリ
ーの対(Cd、 cm)  が与えられると対判定ルー
ル解続部51にて第2の格納部に格納されている対(C
1,(、J)に関する情報を解索する。第2の格納部は
既に第4図で説明したようなテーブル形式となっている
ので本検索は簡単なテーブル引きで実現できる。ここで
読み出、・される情報は(ci、 CJ)の対判定のた
めに行なう処理の名称と、その処理結果の解釈の仕方の
2種である。まず、処理の名称は音素特徴検出処理起動
部52に送られ、ここでこの名称に一致する処理の手順
を第1の格納部から参照しこの処理を起動する。一方、
処理結果の解釈の仕方は結果帛釈部53に送られる。結
果解釈部53では音素特徴検出処理起動部から得られた
処理結果を前記解釈の仕方に基づいて解釈し、対判定の
結果として下す、処理結果の解釈の仕方は既に第4図で
説明したように3つの欄からなる表形式になっており、
したがって音素特有の特徴を検出する各処理を3値の出
力(明らかに特徴が存在、明らかに特徴が存在しない、
中間の状態)として、この出力に従って表を引くことに
より解釈は実行できる。
最後に結果集計部8であるが、ここでは第8図に示すよ
うな集計表を用意し、この各枡(あるいは欄)に対判定
結果を記入していく0本図は候補の数が5個で/ka/
、 /l a/e /j a/l/ p a / p 
/ g a /であった場合を示している。
第1列、第5行の枡には音声カテゴリー(C1゜CJ)
の対の対判定結果を記入するが、Ctと判定されたとき
にOをCa と判定されたときに×を記入し、各Ci 
@にQ、Xの数を横方向に集計しこれを右の欄に記入す
る。対判定部では2つの音声カテゴリーC1,CJのう
ちどちらとも言えないという中間的な結果が出る場合も
ある。このような場合、結果集計でどう扱゛うかにはい
くつか考え方があるが、本実施例では候補選択部で得ら
れる順位に基づいて強制的に0あるいは×の判定を下す
ようにしている。このようにして対判定結果の集計が完
了し0の数の多い順に候補に順位づけをし出力する0図
の例では、音1/ka/が正解となる。
本実施例を用いて男性3名の発声した計2360音節の
認識実験を行なった結果を第9図(a)に示す。本実験
では第1の格納部には前記第2図(a)に示した8種類
の処理を準備し、第2の格納部には第6図(b)に示す
14対の音節対に関してのみ、情報をal!備した6本
実験では候補選択部3に標準パターンとのテンプレート
マツチングを用いており、従って、候補選択部3により
候補について贋に準位付けがなされる。fjs2の格納
部7に情報のない音節対に関しては対判定処理を行なわ
ず。
候補選択部3で得られた順位に基づいて判定し、第2の
格納部7に情報の存在する対についてのみ対判定を行な
う。
第9図(a)の第2番目の欄は候補選択部3から得られ
た順位をそのまま認識結果とした場合の結果であり、第
3番目の欄がさらに対判定を適用して得られた正解数で
ある。したがって、この2つの数字の差が本発明の効果
を表わすが、14対というわずかの情報の利用のみでも
、相当の効果のあることがわかる。
〔発明の効果〕
本発明によれば認識対象となる音声のカテゴリーの対価
にきめ細かい処理が行なえるので、類似音声の識別性能
を向上することができる。
さらに処理の手順が全て明示的な形で保持されるので、
エラーが生じた時にも原因か所の特定が容易になり性能
改善のプロセスも系統化されまた知識の積上が可能とな
る。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
第1の格納部の構成を説明する図、第3図は音素特有の
特徴を検出する処理フローを説明する図、第4図は第2
の格納部の構成を説明する図、第5図は本実施例におけ
る特徴抽出部2の実現方法を示す図、第6図は対生成部
4の実現方法を示す図、第7図は対判定部5の具体的構
成を示す図、第8図は結果集計部8の処理を説明するた
めの図、第9図は本実施例を用いて行なった認識実験の
結果を示す図である。 】・・・入力部、2・・・特徴抽出部、3・・・候補選
択部。 4・・・対生成部、5・・・対判定部、6・・・第1の
格納部。 7・・・第2の格納部、8・・・結果集計部、51・・
・対判定ルール解続部、52・・・音素特徴検出処理起
動部、■ Z 図 (久) 第 3 図 (入り 百4図 ■ 5 口 邂 ′=4 ト− Z 7  回 L−−−−−−−一〜−J

Claims (1)

  1. 【特許請求の範囲】 1、音声を入力する手段と、入力音声から所定時間毎に
    特徴パターンを抽出し特徴パターンの時系列として求め
    る特徴抽出手段と、認識対象となる音声の全カテゴリー
    の中からその一部または全部を候補として選択する候補
    選択手段と、該候補選択手段により選択されたn個の候
    補から全ての2つの組合せnC_2通りを生成する手段
    とを有し、該全ての候補の組合せ毎に前記特徴パターン
    時系列から得られる情報を用いて対判定を行ない、該対
    判定の結果を集計して前記n個の候補の順位づけを行な
    うような音声認識装置であつて、特徴パターン時系列か
    ら音素特有の特徴を検出する処理の手順を各音素特有の
    特徴毎に格納する第1の格納部と、認識対象の音声の全
    カテゴリーの2つの組合せ毎にその2つを識別するため
    に行なう前記処理の名称および処理結果の解釈の仕方を
    格納する第2の格納部とを有し、前記対判定は該第1、
    第2の格納、部に格納された情報に基づいて行なうこと
    を特徴とした音声認識装置。 2、特許請求の範囲第1項記載の音声認識装置において
    、上記第1の格納部に格納された音素特有の特徴を検出
    する処理の手順は、各音素特有の特徴毎にその処理手順
    の中に可変なパラメータを持つことを特徴とする音声認
    識装置。 3、特許請求第2項記載の音声認識装置において、上記
    第2の格納部には、認識対象の音声の全カテゴリーの2
    つの組合せ毎にその2つを識別するために行なう処理の
    名称と処理結果の解釈の仕方に加え、前記処理を行なう
    際に設定すべき前記可変なパラメータの特定の値を格納
    することを特徴とする音声認識装置。
JP62033261A 1986-12-12 1987-02-18 音声認識装置 Pending JPS63201699A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP62033261A JPS63201699A (ja) 1987-02-18 1987-02-18 音声認識装置
US07/409,991 US4998280A (en) 1986-12-12 1989-09-19 Speech recognition apparatus capable of discriminating between similar acoustic features of speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62033261A JPS63201699A (ja) 1987-02-18 1987-02-18 音声認識装置

Publications (1)

Publication Number Publication Date
JPS63201699A true JPS63201699A (ja) 1988-08-19

Family

ID=12381575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62033261A Pending JPS63201699A (ja) 1986-12-12 1987-02-18 音声認識装置

Country Status (1)

Country Link
JP (1) JPS63201699A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57128400A (en) * 1981-02-02 1982-08-09 Nippon Electric Co Word voice recognition apparatus
JPS58159600A (ja) * 1982-03-05 1983-09-21 富士通株式会社 単音節音声認識方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57128400A (en) * 1981-02-02 1982-08-09 Nippon Electric Co Word voice recognition apparatus
JPS58159600A (ja) * 1982-03-05 1983-09-21 富士通株式会社 単音節音声認識方式

Similar Documents

Publication Publication Date Title
CN114153942B (zh) 一种基于动态注意力机制的事件时序关系抽取方法
JPH0272397A (ja) 音声認識装置
Amano et al. On the use of neural networks and fuzzy logic in speech recognition
JPS59121100A (ja) 連続音声認識装置
EP0430615A2 (en) Speech recognition system
JPS63201699A (ja) 音声認識装置
US4998280A (en) Speech recognition apparatus capable of discriminating between similar acoustic features of speech
Ranjan et al. Context encoded multi-modal attention network for detecting audio spoofing
JP2002278579A (ja) 音声データ検索装置
US20070179785A1 (en) Method for automatic real-time identification of languages in an audio signal and device for carrying out said method
JPH03223799A (ja) 分離しているワード、特に非常に大きい語いの認識方法と装置
JP2707577B2 (ja) ホルマント抽出装置
JPS62134698A (ja) 多数単語の音声入力方式
JPS5915993A (ja) 音声認識装置
JPH01276285A (ja) 単語照合方式
Bronakowski et al. Application of Poincare Map-Based Description of Vowel Pronunciation Variability for Emotion Assessment in Speech Signal
JPH04166900A (ja) 音声認識装置
JPH0194396A (ja) 音声認識方式
JPS58130394A (ja) 音声認識装置
JPS63103393A (ja) 単語認識装置
JPH0554678B2 (ja)
JPS60115996A (ja) 音声認識装置
JPH0225899A (ja) 音声認識装置
JPS63161498A (ja) 音声情報入力装置
JPS6346499A (ja) 大語▲い▼単語音声認識方式