JPS6221199A

JPS6221199A - 音声認識装置

Info

Publication number: JPS6221199A
Application number: JP60161499A
Authority: JP
Inventors: 博史金澤; 洋一竹林
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1985-07-22
Filing date: 1985-07-22
Publication date: 1987-01-29

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は音声認識辞書の学習に用いる入力音声情報を効
果的に得ることのできる音声認識装置に関する。

〔発明の技術的背景とその問題点〕

近時、音声認識技術の目覚ましい発展に伴い、例えば音
声ワードプロセッサ等の不特定話者用の音声認識装置が
開発されている。しかし連続音声に対する認識処理にあ
っては未だに認識率が低く、実用化の上で問題となって
いる。

ところでその認識率の向上を図るには、予め多数の音声
パターンを収集して認識辞書の学習を行い、その充実化
を図れば良いことが知られている。

然し乍ら音声の認識処理は、その情報が多大であること
から、例えばＬＰＧ分析、フィルタ分析、高速フーリエ
変換による分析等を行って入力音声の音韻情報等の特徴
を抽出し、この音声特徴を認識辞書と照合して行われる
。またその音節や音素を認識処理の基本単位とする場合
もある。

この為、文字認識処理の如く収集パターンを視。

覚的に識別して認識辞書の学習に供することは苔だ困難
であり、従って音声認識用の辞書を効率良く学習してそ
の充実化を図ることが困難であった。

〔発明の目的〕

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、認識辞書の学習に好適な音声式
カバターンを効果的に抽出してその認識辞書の充実化を
図り、認識率の向上を図ることのできる実用性の高い音
声認識装置を提供することにある。

〔発明の概要〕

本発明は、入力音声のＡ／Ｄ変換結果、または前記分析
結果から入力音声を再合成して出力し、この再合成出力
した音声に対する正誤判定指示情報に従って上記入力音
声の分析結果を音声認識辞書の学習に用いるか否かを制
御するようにしたことを特徴とするものである。

特に再合成出力した音声が誤りであると指示されたとき
、分析結果に対する音声区間の検切位置を変更して入力
音声を繰返し再合成して、その分析結果を正確に抽出し
、これを認識辞書の学習に用いるようにしたものである
。

〔発明の効果〕

かくして本発明によれば、入力音声のＡ／Ｄ変換結果、
またはその分析結果に従って入力音声を再合成して出力
するので、該入力音声に対するＡ／Ｄ変換処理や分析処
理が正しく行われているか否かを容易に判定することが
可能となる。この結果、上記再合成出力された音声に対
する正誤の情報を入力すれば、正しく分析処理された音
声情報だけを有効に用いて認識辞書を効果的に学習する
ことが可能となる。

また誤りと判定された再合成出力に対して人力音声の分
析結果に対する音韻区間のセグメンテーションを変更制
御するようにすれば、そのセグメンテーションの効果的
な学習ができることのみならず、入力音声の正確な分析
結果に従ってその認識辞書を学習することが可能となる
。

故に、認識辞書の学習に有効な音声式カバターンだけを
正確に収集してその認識辞書を効果的に学習することが
可能となる等の実用上多大なる効果が奏せられる。

〔発明の実施例〕

以下、図面を参照して本発明の一実施例につき説明する
。

第１図は実施例装置の要部概略構成図である。

マイクロフォン等からなる音声人力部１を介して人力さ
れた音声はＡ／Ｄ変換器２にて所定の周期でサンプリン
グされてディジタル信号に変換される。そしてこのディ
ジタル信号化された入力音声は、前処理部３に転送され
て特徴抽出の為の分析処理に供せられると共に、記憶部
５に転送されてディジタル記憶される。

上記前処理部３は、例えばＬＰＧ分析、フィルタ分析、
高速フーリエ変換による分析、ケプストラム分析等を行
って入力音声の特徴ベクトル（音声特徴パラメータの時
系列等）を抽出するものである。この前処理部３にて、
例えば１６チヤンネルのフィルタバンクの出力を時間軸
方向に３２点りサンプルしてなる（３２Ｘ　１Ｂ−５１
２＞次元の特徴パラメータが、入力音声の特徴ベクトル
として求められる。このようにして求められた特徴ベク
トルは記憶部５に順次記憶される。

このようにして記憶部５に記憶された入力音声の特徴ベ
クトルが認識部６に転送され、認識辞書７と照合されて
音声認識される。この音声認識は、例えば複合類似度を
計算する等して行われる。

ここで本装置が特徴とするところは、制御部８による制
御の下で、前記音声入力部ｌから入力された音声のＡ／
Ｄ変換されたディジタル信号が記憶部４に格納されたと
き、或いは前記記憶部５に入力音声の分析結果である特
徴ベクトルが格納されたときに音声出力部９が駆動され
る点にある。

即ち、制御部８の指令によって前記記憶部４に格納され
た入力音声のＡ／Ｄ変換結果が音声出力部９に読出され
ると、音声出力部９はこのＡ／Ｄ変換結果を逆にＤ／Ａ
変換し、これをフィルタリングする等して音声を再合成
し、その合成音声を出力している。また制御部８の指令
によって前記記憶部５に格納された入力音声の特徴ベク
トルが音声区間検出部ＩＯに読出されると、この音声区
間検出・部ｌＯによってその特徴ベクトルがセグメンテ
ーションされる。つまり、音声の特徴パラメータの時系
列が、例えば音素単位に検切されて音声出力部９に与え
られる。音声出力部９は、このようにしてセグメンテー
ションされた情報に従って、例えば音声の規則合成法に
従って入力音声を再合成して出力している。

このようにして前記Ａ／Ｄ変換結果、またはその分析結
果に従って入力音声が再合成されてその音声入力者に呈
示される。

この再合成されて出力された音声に対して、その正誤の
情報が前記音声入力部１を介して音声入力、或いはキー
ボードを介して指示入力される。

正誤判定部１１は、この再合成出力した音声に対する正
誤情報を判定し、正しい場合には学習部１２を駆動して
前記記憶部５に格納された入力音声の特徴ベクトルに従
う前記認識辞書７の学習を行わせている。

また前記Ａ／Ｄ変換結果から再合成された音声に対して
誤りが指示された場合には、例えば音声の再人力を促し
ている。また、前記分析結果から再合成された音声に対
して誤りが指示された場合には、音声区間検出部ＩＯに
おけるセグメンテーションに誤りがあることが予想され
ることから、正誤判定部１１は前記音声区間検出部ｌＯ
に対して音声特徴ベクトルのセグメンテーションのやり
直しを指示している。この結果、音声出力部９は、セグ
メンテーションがやり直しされた特徴ベクトルに従って
再度音声の再合成を行い、これを出力することになる。

このようにして人力音声のＡ／Ｄ変換結果、または分析
結果に従ってその音声が再合成されて音声入力者に呈示
され、その入力過程において誤りがないことが確認され
た後、記憶部５に格納された入力音声の分析結果を用い
た認識辞書７の学習が行われることになる。

従って認識辞書７は、誤入力された音声や、分析処理で
誤りを生じた音声の特徴ベクトルを除いて学習されるこ
とになり、ここにその学習効果を高めて認識辞書７の充
実化を効果的に図ることが可能となる。

次に本装置の具体的な作用例につき説明する。

第２図は単音節音声パターンを認識する音声認識装置に
おける認識辞書学習用パターンに対する処理の流れを示
すものである。この場合には、入力すべき単音節を、例
えば単音節の組合せからなる単語としての発声入力が促
される。

しかして単語が発声入力されると、その入力音声パター
ンがＡ／Ｄ変換されて記憶部４に取込まれ（ステップａ
）、またその入力音声パターンの分析が行われる（ステ
ップｂ）。この入力音声パターンの分析は、各フレーム
毎に１６チヤンネルのフィルタバンク出力を求め、その
特徴パラメータと音声パワーを抽出して行われる。

そしてその分析結果の記憶部５への格納が行われる（ス
テップＣ）。

この処理は、１フレームの単語音声入力が終了するまで
（ステップｄ）、繰返して行われる。

しかる後、その特徴ベクトルに従って入力音声パターン
のセグメンテーションが行われ、音声区間の一部、或い
は全部が抽出された前記音声出力部９による音声の再合
成か行われる　（ステップｅ）。このようにして再合成
出力した音声に対して、正しいとの確認情報を得て（ス
テップｆ）、前記分析結果に基く認識辞書７の学習が行
われる。

尚、再合成出力された音声に対して誤りの情報が指示さ
れた場合には、前記単語の発声入力が再度指示されて上
述した処理が繰返される。

例えば「確認」なる入力音声を「力・り・シ・ン」と誤
入力した場合、音声出力部９は「確信」なる再合成音声
を得、これを、例えば「今、入力された単語は「確信」ですか」なる音声を出
力して、その確認を促すことになる。

これに対して、例えば「はい」なる入力音声が得られる
と、前記正誤判定部１１は前記入力音声パターン（分析
結果）を用いた前記認識辞書７の学習を指示することに
なる。

またこの場合には１、例えば「いいえ」なる誤人力の指
示が発声入力されることから、正誤判定部１１は音声出
力部９を駆動して、例えば「もう一度、発声して下さい
」なるメツセージを音声出力して、その単語の再入力を促
すことになる。

この場合、「はい」　「いいえ」等は比較的簡単に、且
つ明確に音声認識することができるから、その音声認識
結果をそのまま正誤の情報として利用しても不具合を招
来することがない。

このようにして入力された単語に対する確認を行うので
、従来分析された特徴ベクトルでしか判断できなかった
入力音声パターンを効果的に確認してその認識辞書の学
習に用いることが可能となる。

従って正確な音声パターンだけを用いて認識辞書の学習
を行うことができ、認識辞書の充実化を効果的に図って
、その認識率の向上を図ることが可能となる。

一方、連続単語音声パターンの認識を行う場合には、例
えば第３図に示すように認識辞書の学習に用いる人力音
声パターンを抽出するようにすれば良い。

尚、この場合にあっても、先の例と同様に入力音声パタ
ーンのＡ／Ｄ変換結果の記憶と、その分析結果の記憶が
行われる。

しかしてこの場合には、入力音声パターンを音節単位に
セグメンテーションしくステップｈ）、そのセグメンテ
ーション結果に従って先の例と同様に人力音声の確認を
促す音声が合成出力される（ステップｉ）。そしてその
音声出力に対する正誤の情報を判定しくステップｊ、ｋ
）、分析結果に対するセグメンテーションのやり直し等
が指示される。

具体的には、「音声」なる入力音声パターンに対して、
これを「音節」と誤入力すると、先ず前述した単語音声
の確認処理と同様に、例えば「今、入力した単語は「音
節」ですか」なる確認音声が出力される。これに対して
「いいえ」なる情報が入力されると、前記分析結果に対
するセグメンテーションが行われ、「第１音節はｒオ」ですか」「第２音節は「ン」ですか」「第３音節は「セ」ですか」［第４音節は「ツ」ですか」と云うように、各音節毎にその確認が促される。

ここで「いいえ」なる情報が入力されると、そのセグメ
ンテーションに誤りがあるとして、セグメンテーション
のやり直しが行われ、同様にして各音節に対する確認が
行われることになる。

この場合、音声の調音結合に起因するセグメンテーショ
ンの誤りも修正されることになる。そしてセグメンテー
ションのやり直し結果に従って、各音節の同様な確認処
理が行われることになる。

このような処理が繰返し行われても、「いいえ」なる指
示が与えられる場合には、ここで音声の誤入力であると
判定され、単語音声の再入力が促されるか、或いは辞書
作成における学習パターンとして受付けない等の処理が
促される。

また本装置は、上述したように対話的に処理を行う他に
、収集したデータを用いて一括して学習を行う場合にも
有効である。

第４図はこのようなバッチ処理の実施例を示すものであ
る。

具体的には大量のデータを１データづつ前述したように
前処理、分析、分析結果の記憶を行う。

そしてその分析結果に基いてセグメンテーションし、こ
れを音声出力する。この出力音声について、操作者はそ
の正誤の判定を行う。

ここで誤入力と判定された場合には、その人力データは
リジェクトされ、次のデータに対して同様な処理が実行
され。また誤入力でない、つまり正しいと判定された場
合には、再度セグメンテーションが行われ、音声出力さ
れる。その結果により、学習パターンとして正しいと判
定されると、そのデータは前記学習部に贈られて辞書作
成の為の学習に用いられる。

このような処理が繰返し実行される。

このように本装置によれば、認識処理の前処理段階で、
その入力音声に対する誤入力および誤動作を防ぐことが
できる。そして正しい入力音声だけを用いて認識辞書を
学習し、またその入力音声を高精度に認識することが可
能となる。

しかも認識辞書の作成、学習に際して従来より大きな負
担となっていた音声区間の切出しくセグメンテーション
）の容易化を図ることが可能となり、セグメンテーショ
ンの精度を高めることができる。

尚、本発明は上述した実施例に限定されるものではない
。例えば入力音声パターンを表す特徴ベクトルの種類や
、その特徴ベクトルを用いた認識処理法は従来より提唱
されている種々の方式を適宜採用することが可能である
。また電話回線を用いて、その遠隔操作を行うようにし
ても良い。要するに本発明はその要旨を逸脱しない範囲
で種々変形して実施することができる。

【図面の簡単な説明】

第１図は本発明の一実施例装置の要部概略構成図、第２
図乃至第４図はそれぞれ実施例装置における認識辞書学
習用の音声式カバターン抽出処理の流れを示す図である
。 ■・・・音声人力部、２・・・Ａ／Ｄ変換器、３・・・
前処理部、４．５・・・記憶部、６・・・認識部、７・
・・認識辞書、８・・・制御部、９・・・音声出力部、
ＩＯ・・・音声区間検出部、１１・・・正誤判定部、１
２・・・学習部。出願人代理人　弁理士　鈴江武彦第ｔｆｆｌ

Claims

【特許請求の範囲】

（１）入力音声をＡ／Ｄ変換したのち分析して該入力音
声の特徴パラメータの時系列を求める手段と、この音声
分析結果を音声認識辞書と照合して上記入力音声を認識
する音声認識部と、前記入力音声のＡ／Ｄ変換結果、ま
たは前記分析結果から入力音声を再合成して出力する手
段と、この再合成した音声に対する正誤判定指示情報に
従って前記分析結果を用いた前記音声認識辞書の学習を
制御する手段とを具備したことを特徴とする音声認識装
置。
（２）入力音声を再合成する手段は、再合成された音声
が誤りであると指示されたとき、分析結果に対する音声
区間の検切位置を変更して入力音声を繰返し再合成する
か、或いは入力音声をリジェクトし、学習に用いないよ
うにするような処理を促すものである特許請求の範囲第
１項記載の音声認識装置。