JPS63253997A

JPS63253997A - 音声認識装置

Info

Publication number: JPS63253997A
Application number: JP62087099A
Authority: JP
Inventors: 達郎松本; 晋太木村
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1987-04-10
Filing date: 1987-04-10
Publication date: 1988-10-20
Anticipated expiration: 2010-03-06
Also published as: JPH0719159B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概要〕この発明は、入力文字列候補に対して音素変形ルールを
適用して生成される多数の音韻仮説と、音声の音韻候補
とをマツチングする手数を削減するため、前回検証して
認識した認識結果と発声時間長とに基づいて適用する音
素変形ルールを選択し、生成される音韻仮説数を削減し
て音声認識を行うことにより、処理量を削減して高速に
音声認識を行うようにしている。

〔産業上の利用分野〕

本発明は、前回検証した認識結果と発声時間長とに基づ
いて適用する音素変形ルールを選択して生成される音韻
仮説数を削減し、高速に音声認識を行うよう構成した音
声認識装置に関するものである。

〔従来の技術〕

第４図構成を用いて従来のトップダウン音声認識におけ
る処理を説明する。

第４図において、仮説生成部２１は、図示外の言語処理
部あるいは言語辞書から通知された文字列候補に対して
、音素変形ルール２２を適用し、考えられる全ての音韻
仮説を生成する。一方、音声分析部４は、入力された音
声と、音韻辞書２５とのマツチングを行い、音声に対す
る距離付きの音韻候補列を生成する。これら音韻仮説お
よび音韻候補列の通知を受けた仮説検証部２６は、両者
のマツチングを行っていずれかのパスが所定閾値以下の
距離であれば、文字列候補を音声認識結果として出力し
ていた。

尚、音素変形ルール（日本語に適用するルール）として
は、例えば下記のものがある。

ｉ　無声子音に挟まれた母音“ｉ′または“Ｕ“は無声
化する可能性がある。

ｉｉ　　語中の“Ｇ”は鼻濁音化する可能性がある。

ｉｉｉ　　鼻子音に隣接する母音は鼻音化する可能性が
ある。

１ｖ　　母音“ｉ”が後続する子音は口蓋化する。

また、この音素変形ルールを、例えば“ＡＳＨｒＴＡＧ
Ａ”　（あしたが、明日が）という文字列候補を仮説生
成部２′１に入力すると、第５図に示すように、上記ル
ールｉ、１）、および１ｖが適用されて図示のような音
韻仮説ネットワークを用いて示す音韻仮説群が生成され
る。

〔発明が解決しようとする問題点〕

従来の第４図構成は、起こり得る全ての音素変形を考慮
して音韻仮説（例えば第５図音韻仮説ネットワークを用
いて示す音韻仮説）を生成していたため、ある音声速度
では、起こり得ないものまでも含めて多数の音韻仮説を
生成して無駄に処理量を多くしてしまい、高速に音声認
識を行えないという問題点があった。これは、人間の発
声が、ゆっくりとていねいに発声された場合と、速くあ
いまいに発声された場合とでは、適用される音素変形ル
ールが異なるにもかかわらず、全ての音韻仮説を生成し
て音声認識を行っていたたためと考えられる。

〔問題点を解決するための手段〕

本発明は、前記問題点を解決するため、前回の入力音声
の認識結果および発声時間長に基づいて発声速度を計算
する発声速度計算部７と、この発声速度計算部７によっ
て計算された発声速度に基づいて、音素変形ルール２の
うち適用するものを選択制御するルール制御部３とを設
け、このルール制御部３によって選択された音素変形ル
ールを上記仮説生成部１に通知して入力された文字列候
補に対する音韻仮説を生成し、音声認識を行うようにし
ている。

第Ｆ図は本発明の原理構成図を示す０図中仮説生成部１
は、図示外の言語処理部あるいは単語辞書から通知され
た文字列候補を受は取り、ルール制御部３を介して得ら
れた音素変形ルールを適用して音韻仮説を生成するもの
である。

音素変形ルール２は、文字列候補に対する音韻仮説を生
成するためのルールである０例えば無声子音に挟まれた
母音“ｉ”または“Ｕ”は、無声化する可能性があると
いうルールである。

ルール制御部３は、発声速度計算部７から通知された発
声速度情報に基づいて、仮説生成部ｌに与える音素変形
ルールを選択制御するものである。

音声分析部４は、入力された音声と、音韻辞書５とのマ
ツチングを行い、距離付きの音韻候補列を生成するもの
である。

音韻辞書５は、各音韻毎にスペクトルパターンを格納し
たものである。

仮説検証部６は、音韻仮説と、音韻候補列とのマツチン
グを行っていずれかのバスが所定闇値以下の距離であれ
ば、文字列候補を音声認識結果として出力するものであ
る。

発声速度計算部７は、前回の発声の認識結果と、発声時
間長とを用いて計算した発声速度情報をルール制御部３
に通知するものである。

バッファ８は、前回の発声の認識結果と、発声時間長と
を記憶するものである。

〔作用〕

次に動作を説明する。

第１図において、仮説生成部ｌは、入力された音声に対
応して図示外の音声処理部などから通知された文字列候
補に対して、ルール制御部３を介して読み出された音素
変形ルールを適用し、音韻仮説を生成する。一方、音声
分析部４は、入力された音声と、音韻辞書５とのマツチ
ングを行い、距離付きの音韻候補列を生成する。仮説検
証部６は、音韻候補列と音韻仮説とのマツチングを行い
、その結果、いずれかのパスが所定の闇値以下の距離で
あれば、当該文字列候補を音声認識結果として出力する
。この際、発声速度計算部７は、バッファ８に記憶され
ている前回の認識結果および音声の発声時間長に基づい
て発声速度例えば５モ一ラ／秒をルール制御部３に通知
し、この発声速度の時に適用される音素変形ルール２の
みを仮説生成部１に通知するようにする。これにより、
仮説生成部１は、前回の認識結果および発声時間長によ
って選択された音素変形ルールのみを用いてマツチング
を行い、音韻仮説を生成する。

以上のように、入力された前回の音声の認識結果と、発
声時間長とに基づいて計算された発声速度をルール制御
部３に通知し、これに適合する音素変形ルールのみを用
いて文字列候補に対して音韻仮説を生成し、音声認識を
行うことにより、生成される音韻仮説数を削減して高速
に音声認識を行うことが可能となる。

〔実施例〕

次に、第２図および第３図を用いて本発明の１実施例の
構成および動作を詳細に説明する。

第２図において、仮説生成部工は、通知された文字列候
補（ローマ字列）に対し、音素変形ルールを適用し、音
韻仮説を生成するものである。

音素変形ルール２は、文字列候補に対し、音韻仮説を生
成するためのルールであって、下式の形式で表されるも
のである。

“発声速度：変形対象−変形結果／変形対象の環境”・
・・・・・・・・・・・・・・・・・（１）ここで、発
声速度は当該ルールが使用可能な最小の発声速度例えば
５モーラ（５音節）７秒を示し、変形対象は音素変形の
対象となる音素を示し、変形結果は音素が変形した後の
音韻を示し、変形対象の環境は変形対象の位置とその音
素環境を示す、具体例を第３図に示す、この第３図臭体
例は、“発声速度が５モ一ラ／秒以上の場合には、音素
Ｉの前に無声化の音素があると、■あるいは無声化した
■になる”というルールを表している。詳述すると、第
１番目の“５′が発声速度であって、第２番目以陣に示
すルールが５モ一ラ／秒以上の時に適用される旨を表し
ている。第２番目の“Ｉ”は変形対象を表している。第
３番目の１　（１゜１−１　　”は、変形結果が１■“
あるいは＠ｌ−１（無声化したＩを意味する）となるこ
とを表している。第４番目の“Ｅ−ｗｏｅ］−”は、変
形対象“−〇の前に無声音を示す音素があるという環境
（条件）を表している０以上のように、音声の発声速度
に対応して適用される音素変形ルールの区別を設けるこ
とにより、生成される音韻仮説数を削減することが可能
となる。

ルール制御部３は、発声速度計算部７から通知された発
声速度例えば５モ一ラ／秒に基づいて、音素変形ルール
２に付加された発声速度を考慮し、仮説生成部１に渡す
音素変形ルールを制限するものである。

音韻ラティス生成部４−１は、音韻辞書５に格納されて
いる各音素毎のスペクトルパターンと、入力音声とのマ
ツチングを行い、距離を計算して音韻ラティスを生成す
るものである。

仮説検証部６は、音韻仮説と、生成された音韻ラティス
とのマツチングを行い、音韻仮説ネットワークのいずれ
かのパスが、所定の閾値以下の距離であれば、文字列候
補を認識結果として出力するものである。

発声速度計算部７は、前回発声した認識結果から文字列
のモーラ数を計算、例えば“ＡＳＨＩＴＡＧＡ’″　（
あしたが、明日が）に対しては４”を計算し、これを発
声時間長で割算した発声速度（モー９７秒）を計算する
ものである。

単語辞書９は、認識すべき単語をローマ字表記（日本語
の場合）で格納するものである。

次に、第２図本発明の１実施例の構成の動作を説明する
。

第２図において、発声速度計算部７は、バッファ８に記
憶されている前回の発声時間長および認識結果に基づい
て発声速度例えば５モ一ラ／秒を計算してルール制御部
３に通知する。この発声速度の通知を受けたルール制御
部３は、音素変形ルール２例えば第３図音素変形ルール
の先頭に記述されている発声速度を読み出し、適用でき
るもののみを抽出し、仮説生成部１に通知する。この音
素変形ルールの通知を受けた仮説生成部１は、音声入力
に伴って通知された文字列候補に対して、当該音素変形
ルールを適用して例えば第５図音韻仮説ネットワークを
用いて表される音韻仮説群を生成する。仮説検証部６は
、音声分析部４から通知された音韻ラティスが、この音
韻仮説ネットワークのいずれかのバスと所定の闇値以下
の距離で一致するものがあるか否かのマツチングを行う
。

このマツチングの結果、所定闇値以下の距離のパスがあ
れば、文字列候補を音声ｍＱ候補として出力する。最終
的に、複数個の文字列が認識候補として出力されるが、
仮説検証部６で計算される各文字列候補毎の音韻ラティ
スとの距離が最も小さいものが認識結果とされる。

以上のように、発声速度計算部７およびルールＷＩｊＢ
部３を用いて、前回の認識結果および発声時間長に基づ
いて計算した発声速度によって適用される音素変形ルー
ルのみを抽出し、この音素変形ルールを仮説生成部１に
通知して音韻仮説ネットワークを生成し、音韻ラティス
とのマツチングを行って音声認識を行うことにより、音
韻仮説数を削減して高速に音声認識を行うことが可能と
なる。

〔発明の効果〕

以上説明したように、本発明によれば、前回検証して認
識した認識結果と発声時間長とに基づいて適用する音素
変形ルールを選択し、生成される音韻仮説数を削減して
音声認識を行う構成を採用しているため、音韻仮説数を
制限し、処理量を削減することができる。これにより、
高速に音声認識を行うことが可能となる。

【図面の簡単な説明】

第１図は本発明の原理構成図、第２図は本発明の１実施
例構成図、第３図は音素変形ルール例、第４図は従来装
置の構成図、第５図は音曲仮説ネットワーク例を示す。図中、１は仮説生成部、２は音素変形ルール、３はルー
ル制御部、４は音声分析部、５は音韻辞書、６は仮説検
証部、７は発声速度計算部、８はバッファを表す。

Claims

【特許請求の範囲】入力文字列候補に対して音素変形ルール（２）を適用し
、音韻仮説を生成する仮説生成部（１）と、入力音声と
音韻辞書（５）とのマッチングを行い、音韻候補列を生
成する音声分析部（４）と、上記生成された音韻仮説と
、上記音韻候補列とのマッチングを行い、音韻仮説の検
証を行う仮説検証部（６）とを設け、音声認識を行う音
声認識装置において、前回の入力音声の認識結果および発声時間長に基づいて
発声速度を計算する発声速度計算部（７）と、この発声
速度計算部（７）によって計算された発声速度に基づい
て、音素変形ルール（２）のうち適用するものを選択制
御するルール制御（３）とを備え、このルール制御部（
３）によって選択された音素変形ルールを上記仮説生成
部（１）に通知して入力された文字列候補に対する音韻
仮説を生成し、音声認識を行うよう構成したことを特徴
とする音声認識装置。