JPS62275300A - 連続音声認識方法 - Google Patents

連続音声認識方法

Info

Publication number
JPS62275300A
JPS62275300A JP61110889A JP11088986A JPS62275300A JP S62275300 A JPS62275300 A JP S62275300A JP 61110889 A JP61110889 A JP 61110889A JP 11088986 A JP11088986 A JP 11088986A JP S62275300 A JPS62275300 A JP S62275300A
Authority
JP
Japan
Prior art keywords
word
category
section
information
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61110889A
Other languages
English (en)
Inventor
広田 敦子
三木 敬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP61110889A priority Critical patent/JPS62275300A/ja
Publication of JPS62275300A publication Critical patent/JPS62275300A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 3、発明の詳細な説明 (産業上の利用分野) 本発明は音声認識方法、特に連続音声認識方法に関する
(従来の技術) 従来、連続音声の認識は第2図のブロック図で示すよう
な認識装置を用いて行っていた。先ず、入力端子10に
入力された連続発声音声入力に対して前処理部2Qにお
いて周波数分析、対数変換等の処理を行って対数ス啄り
トル情報及び全域・tワー情報(これら2つの情報を入
力パタンとする)を得た後、これらの画情報を音声区間
検出部30に送り、そこで音声区間を検出し、続いて検
出された音声区間の入力パタン及び対数ス被りトル情報
を認識部40に送り、この認識部40において主として
この音声区間及び対数スペクトル情報に基づいて認識処
理を行ってその結果を出力端子50に出力させている。
連続音声を認識する方法としては、従来提案されている
方法として例えば文献I(日本音響学会音声研究会資料
資料番号378−20  (1978年6月24日))
に開示されている連続動的計画(以下、DPという)マ
ツチングを用いて行う方法、或いは、例えば文献11(
日本音響学会音声研究会委員会資料番号S 75−28
 (1975年11月22日))に開示されている2段
DPマツチングを用いて行う方法がある。
この2段DPマツチング手法は連続音声の認識時に適用
される方法であり、単語単位の標準的なス啄りトル情報
(標準・ンタンと称する)を用いている。
以下、この発明の説明に先立ちこの2段DPマツチング
手法の基本的なアルゴリズムにつき簡単に説明する。
先ず、初めに部分マツチングを行う。始端をtとし、終
端をmとした部分・々タンC(A、m)を予め容易され
た標準パタンBnとの間でDPマツチングを実行し、t
 (mなる全ての(t、m)に対して部分類似度A (
t、・)及び部分判定結果Q (t、・)をそれぞれ計
算し、テーブルに記憶しておく。°これら部分類似度を
次式(1)に示し及び部分判定結果の計算式を次式(2
)で示す。
△ S(t、m)=   [5(C(t、m)、Bn)) 
  (1G(j、、m)=argTnax[5(C(t
、m)、B”)]  (2)ココア、argrTlax
〔〕ノ記号ハ〔〕内ノ汲犬を与える変数nを与えること
を意味する。
次に、全体マツチングを行う。この場合、部分類似度の
テーブルを基にして、以下に与える第(3)式に従って
最大値問題を計算し、最適な分割数変数に=小と、分割
位装置変数t(X)=少(X)(X=1.。
△ 2、・・・、K)  を求める。
この最大化はDPマツチングによって実行できる。
最後に判定処理を行う。部分判定の結果のテーブルを参
照して、認識結果を次に示す第(4)式により求める。
n(x)=介1(X−1> 、A(X))     (
4)但し、(X=11’2 、・・・、小)以上説明し
だアルゴリズムでは、部分マツチング処理で5(C(t
、m)、Bn)を計算するだめの第1段目のDPマツチ
ングを実行し、また全体マツチング処理で第(3)式の
最大化を計算するために第2段目のDPマツチングが実
行されるので、このアルゴリズムに基づく認識法を2段
DPマツチング法と称している。
(発明が解決しようとする問題点) しかしながら、連続発声された音声・2タンを解析して
いくと、連続発声中の単語においては、前後に発声した
単語に影響され、音声パタンの抽出すべき部分の形がく
ずれたり、音素の湧き出したり、脱落等の影響で抽出が
困難な単語が多く存在する。これらの単語に対して、従
来の2段DPマツチング手法を用いると、単語単位の標
準パタンを用いているために、同一カテゴリであっても
単語間距離が大きくなることが度々起る。従って、この
結果を用いて第2段目のDPマツチングを行っても認識
確度は上らないという問題点があった。
さらにまた、連続的な時間軸上でDPマツチングを行う
と、総当り法となり、計算量が膨大となり、従って、装
置化を行ったときにマツチング部等が非常に大規模な装
置となり、経済性の点においても著しく比現実的かつ非
効率的なものとなる。
他方、計算量が比較的小さいものとしてワードスポツテ
ィング法を用いた認識も、例えば文献■(電子通信学会
論文誌、Vol、 J 69− A A 21986,
2P P261−270)で知られている。
本発明は、文献■のワードスポツティング的な手法を前
段として用い、階層的な手法で認識処理を簡素化しよう
とするものである。
そして、ワードスポツティング段階における検証として
・々ワーティノプ個数による検証を採用し、認識率を高
めようとするものである。
(問題点を解決するための手段) 本発明は、ワードスポツティング手法を用い、カテゴリ
名及びその位置決めを行い、ワードスボッティング手法
により抽出されたカテゴリに対してノ2ワーディノプ検
証部にて・ぐワーディップの個数(有無を含む)情報に
より検証し、安定に抽出することが困難で標準・ぞタン
との単語の同定が行えない部分・ぐターンに対して2段
DPマツチング手法を用いてカテゴリ及びその位置決め
を行い、さらに、パワーディップ情報をワードスポツテ
ィング結果に用いて検証再決定することによシ、精度よ
く行うようにしたものである。
(作用) このように構成すれば、連続発声した音声の抽出の難易
度に対応した階層的な認識処理を行えるから、認識精度
が向上し、かつ、認識処理に要する演算量が低減する。
(実施例) 以下、図面を参照して本発明の連続音声認識方法の実施
例につき説明する。
第1図は本発明の実施例を示したブロック図であり連続
数字音声を対象としだものである。第1図においてlO
θは入力端子、200は前処理部、300は音声区間検
出部、40θはワードスポツティング部、500はパワ
ーディップ検出部、600はパワーディップ個数辞書、
700は/やワーディノプ検証部、800はDPマツチ
ング部、900は統合処理部、1θ00は出力端子であ
る。
このような構成において入力端子100から入力される
入力音声信号は前処理部200に入力される。
前処理部200では、まず複数の周波数帯域に対応した
量子化信号として周波数分析された後、対数変換により
、対数ス被りトル情報及び全域・ぐワー情報を得る。(
以下、この2つの情報を入力パタンとする)。
音声区間検出部300へは、対数スペクトル情報及び全
域・マワー情報が送られ、連続音声の始端フレーム及び
終端フレーム情報は前処理部200であらかじめ求めて
いる対数スペクトル情報と同時に、ワードスポツティン
グ部400及U”ワーディソプ検出部500へ送られる
ワードスポツティング部4θ0では、あらかじめ算出し
ておいた認識対象となるカテゴリの標準ス硬りトル情報
(以下この情報を標準・やタンとする)と前処理部20
0で既に求められている入力/Fメタンを照合すること
により、ワードスポッティングを行う。ワードスポツテ
ィングは前記文献■によってもよいが、音韻認識による
線形シフトマツチングによっている。
第3図を参照して説明すると、音声区間の入力パタンに
対し、音韻系列を識別し、その音韻識別結果をスムーノ
ングし、音韻・・母ワーディノプ個数辞書のラベル部の
音韻系列と照合して、単語のカテゴリ名とカテゴリ位置
とを決定する。
なお、第3図のカテゴリは、−通りのみ示しているが、
音韻のシフトマツチングを行なっているので入力パタン
によっては幾通りか決定される。
前述した方法により、ワードスポツティング部400に
て検出された単語のカテコ゛り名及びその位置(区間)
すなわちワードスポツティング結果はノ’?ワーディノ
プ検証部700へ送られる。
同時にパワーディップ検出部5θ0では、ワードスポツ
ティング部と同様に音声区間検出部300から送られた
情報である連続音声の始端、終端フレーム情報及び対数
ス4クトル情報をもって、・eワーディ7プの検出を行
う。
iEワーディノプ検出は、特開60−254099「音
声認識方法」に開示されるAワーディノプ検出方法を用
いている。そして、検出された・ぐワーディノプは、パ
ワーディップ検証部700へ送られる。
さて、iEワーディソプ検証部700では、ワードスポ
ツティング部400から送られたスポツティング結果及
び・2ワ一デイノプ検出部から送られた・ぐワーディノ
プ情報をもって音韻・・ぐワーディノプ個数辞書600
内に格納されているパワーディップ情報との照合をおこ
なう。
第3図に示すように、音韻・・モワーディノプ個数辞書
にはカテゴリ毎のノクワーディノプの有無の情報及びノ
4ワーディノプの有るカテゴリについてはその個数の情
報が格納されている。またディップの有無はフラグの1
又はOで示され、フラグが1は有、0は無である。なお
、第3図のノ2ワーパタンの例ばr12:34(イチニ
サンヨン)」と発声した時に得られたものである。
/4’ワーディップ検証部500では、このようなワー
ドスポツティング結果の持つパワーディップ情報がパワ
ーディップ個数辞書と一致しているかどうかの確認をし
、一致したものをワードスポツティング結果として再決
定して、統合処理部900へ送る。一方DPマツチング
部800では、ワードスポツティング部400では検出
されなかった区間の始まるフレームから終るフレームま
でを音声の始端及び終端フレームと仮定し、すなわち残
りの部分・ぐターンに対して、文献■に開示される公知
の技術である2段DPマツチング手法を用いて行う。
そして、ワードスポッティング部400にてワードスポ
ツティングを行った結果単語として検出されたカテゴリ
とその区間の始端、後端の値及びDPマンチング部80
0にて前述した2段DP手法を行った結果単語として検
出されたカテがすとその区間の始端、終端の値は、各々
統合処理部900へ送られる。
統合処理部900では、入力音声の始端から終端に至る
までのツリーサーチによる累積評価の結果、その評価値
が最も犬となるカテゴリの組合せについて、終端より接
続関係をパンクトレースすることにより、その最適接続
関係をとなるカテゴリの並びを認識結果として出力端子
1000へ送る。
(発明の効果) ・ 以上説明したように、本発明によれば任意の連続音声を
認識する際に、音声の抽出の難易度に対応した認識処理
、すなわち語中の変化を受けている部分と受けていない
部分を分け、一段目の確実な結果のみを2段目に使用す
ることにより認識精度を上げることが期待できる。更に
従来のような総当り的な演算ではなく、階層的な手法に
より演算量を軽減することが可能であり、認識処理を簡
素化することが可能である。
換言すれば、これらの認識処理に加え、各カテゴリのパ
ワーディップの有無と、パワーディップが有る場合は個
数の情報をマツチング距離に換算して取り込むことによ
って、ノPワーディップを持つカテゴリ、例えば「二」
、「ヨン」、「ゴ」間のマツチング時の誤認識を減少さ
せることが可能であり、したがって単語間の識別を、よ
シ精度良く行うことが出来、認識性能を向上するのに効
果がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
従来技術の説明図、第3図は第1図での動作の説明図で
ある。 100・・・入力端子、200・・・前処理部、300
・・・音声区間検出部、4θ0・・ワードス2ノティン
グ部、500・・・ノ?ワーディノプ検出部、600・
・辞書、700・・・Aワーディノプ検証部、8θO・
・DPマツチング部、900・・総合処理部、1000
・・・出力端子。 手続補正書輸発) 1.事件の表示 昭和61年  特 許 願第110889号2、発明の
名称 連続音声認識方法 3、補正をする者 事件との関係        特許用 願 人住 所(
〒105)  東京都港区虎ノ門1丁目7番12号名称
(029)   沖電気工業株式会社代表者    胡
継漫橋本南海男 4、代理人 住 所(〒105)  東京都港区虎ノ門1丁目7番1
2号5、補正の対象 6補正の内容 (1)明細書第5戸第15行目に「音素の湧き出した」
とあるのを 「音素が湧き出した」と補正する。 (2)同書第7頁第12行目から第13行目に「行える
から、」とあるのを 「行えるので、Jと補正する。

Claims (1)

  1. 【特許請求の範囲】 比較的計算量が少ない方法によって、音声区間の入力パ
    タンの部分パタン対応で単語のカテゴリ名とそのカテゴ
    リ位置とを、決定するワードスポッティング処理と、 当該ワードスポッティング処理で決定されたカテゴリに
    対応する前記部分パターンのパワーディップの個数を求
    め、予め用意されたパワーディップ辞書から読み出した
    個数とを比較し、両方の個数が一致することを条件にし
    て前記ワードスポット処理の結果から単語のカテゴリ名
    とカテゴリ位置とを再決定する検証処理と、 検証処理で決定されたものの残りに対応した入力パタン
    の部分パターンに対し、動的計画法によって単語のカテ
    ゴリ名とカテゴリ位置とを決定する処理と、 を備えていることを特徴とした連続音声認識方法。
JP61110889A 1986-05-16 1986-05-16 連続音声認識方法 Pending JPS62275300A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61110889A JPS62275300A (ja) 1986-05-16 1986-05-16 連続音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61110889A JPS62275300A (ja) 1986-05-16 1986-05-16 連続音声認識方法

Publications (1)

Publication Number Publication Date
JPS62275300A true JPS62275300A (ja) 1987-11-30

Family

ID=14547256

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61110889A Pending JPS62275300A (ja) 1986-05-16 1986-05-16 連続音声認識方法

Country Status (1)

Country Link
JP (1) JPS62275300A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01502610A (ja) * 1986-06-02 1989-09-07 モトローラ・インコーポレーテッド 連続音声認識システム
JPH01502611A (ja) * 1986-06-02 1989-09-07 モトローラ・インコーポレーテッド 連続音声認識システム
JPH01321498A (ja) * 1988-06-23 1989-12-27 Matsushita Electric Ind Co Ltd 音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01502610A (ja) * 1986-06-02 1989-09-07 モトローラ・インコーポレーテッド 連続音声認識システム
JPH01502611A (ja) * 1986-06-02 1989-09-07 モトローラ・インコーポレーテッド 連続音声認識システム
JPH01321498A (ja) * 1988-06-23 1989-12-27 Matsushita Electric Ind Co Ltd 音声認識装置

Similar Documents

Publication Publication Date Title
White et al. Speech recognition experiments with linear predication, bandpass filtering, and dynamic programming
JPH0352640B2 (ja)
RU98100221A (ru) Система для верификации говорящего
JPS62217295A (ja) 音声認識方式
Pandit et al. Feature selection for a DTW-based speaker verification system
JPS62232691A (ja) 音声認識装置
Rabiner et al. Some performance benchmarks for isolated work speech recognition systems
JPS62275300A (ja) 連続音声認識方法
US5765124A (en) Time-varying feature space preprocessing procedure for telephone based speech recognition
JP2757356B2 (ja) 単語音声認識方法および装置
JPH067346B2 (ja) 音声認識装置
JPS63213899A (ja) 話者照合方式
JPS63798B2 (ja)
JPS6312000A (ja) 音声認識装置
JPS6336678B2 (ja)
JPS6346496A (ja) 音声認識装置
JP2000515991A (ja) パターン認識
JPS62217297A (ja) 単語音声認識装置
Yalabik et al. An efficient algorithm for recognizing isolated Turkish words
Youssif et al. Development of automatic speaker identification system
JPH0316038B2 (ja)
JPS62143100A (ja) 音声パタ−ンマツチング方式
Asani An Enhanced Speech Recognition Algorithm Using Levinson-Durbin, DTW and Maximum Likelihood Classification
JPS5977500A (ja) 単語音声認識方式
JPS6346499A (ja) 大語▲い▼単語音声認識方式