JPS6221199A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6221199A
JPS6221199A JP60161499A JP16149985A JPS6221199A JP S6221199 A JPS6221199 A JP S6221199A JP 60161499 A JP60161499 A JP 60161499A JP 16149985 A JP16149985 A JP 16149985A JP S6221199 A JPS6221199 A JP S6221199A
Authority
JP
Japan
Prior art keywords
speech
input
voice
recognition
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60161499A
Other languages
English (en)
Inventor
博史 金澤
洋一 竹林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP60161499A priority Critical patent/JPS6221199A/ja
Publication of JPS6221199A publication Critical patent/JPS6221199A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は音声認識辞書の学習に用いる入力音声情報を効
果的に得ることのできる音声認識装置に関する。
〔発明の技術的背景とその問題点〕
近時、音声認識技術の目覚ましい発展に伴い、例えば音
声ワードプロセッサ等の不特定話者用の音声認識装置が
開発されている。しかし連続音声に対する認識処理にあ
っては未だに認識率が低く、実用化の上で問題となって
いる。
ところでその認識率の向上を図るには、予め多数の音声
パターンを収集して認識辞書の学習を行い、その充実化
を図れば良いことが知られている。
然し乍ら音声の認識処理は、その情報が多大であること
から、例えばLPG分析、フィルタ分析、高速フーリエ
変換による分析等を行って入力音声の音韻情報等の特徴
を抽出し、この音声特徴を認識辞書と照合して行われる
。またその音節や音素を認識処理の基本単位とする場合
もある。
この為、文字認識処理の如く収集パターンを視。
覚的に識別して認識辞書の学習に供することは苔だ困難
であり、従って音声認識用の辞書を効率良く学習してそ
の充実化を図ることが困難であった。
〔発明の目的〕
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、認識辞書の学習に好適な音声式
カバターンを効果的に抽出してその認識辞書の充実化を
図り、認識率の向上を図ることのできる実用性の高い音
声認識装置を提供することにある。
〔発明の概要〕
本発明は、入力音声のA/D変換結果、または前記分析
結果から入力音声を再合成して出力し、この再合成出力
した音声に対する正誤判定指示情報に従って上記入力音
声の分析結果を音声認識辞書の学習に用いるか否かを制
御するようにしたことを特徴とするものである。
特に再合成出力した音声が誤りであると指示されたとき
、分析結果に対する音声区間の検切位置を変更して入力
音声を繰返し再合成して、その分析結果を正確に抽出し
、これを認識辞書の学習に用いるようにしたものである
〔発明の効果〕
かくして本発明によれば、入力音声のA/D変換結果、
またはその分析結果に従って入力音声を再合成して出力
するので、該入力音声に対するA/D変換処理や分析処
理が正しく行われているか否かを容易に判定することが
可能となる。この結果、上記再合成出力された音声に対
する正誤の情報を入力すれば、正しく分析処理された音
声情報だけを有効に用いて認識辞書を効果的に学習する
ことが可能となる。
また誤りと判定された再合成出力に対して人力音声の分
析結果に対する音韻区間のセグメンテーションを変更制
御するようにすれば、そのセグメンテーションの効果的
な学習ができることのみならず、入力音声の正確な分析
結果に従ってその認識辞書を学習することが可能となる
故に、認識辞書の学習に有効な音声式カバターンだけを
正確に収集してその認識辞書を効果的に学習することが
可能となる等の実用上多大なる効果が奏せられる。
〔発明の実施例〕
以下、図面を参照して本発明の一実施例につき説明する
第1図は実施例装置の要部概略構成図である。
マイクロフォン等からなる音声人力部1を介して人力さ
れた音声はA/D変換器2にて所定の周期でサンプリン
グされてディジタル信号に変換される。そしてこのディ
ジタル信号化された入力音声は、前処理部3に転送され
て特徴抽出の為の分析処理に供せられると共に、記憶部
5に転送されてディジタル記憶される。
上記前処理部3は、例えばLPG分析、フィルタ分析、
高速フーリエ変換による分析、ケプストラム分析等を行
って入力音声の特徴ベクトル(音声特徴パラメータの時
系列等)を抽出するものである。この前処理部3にて、
例えば16チヤンネルのフィルタバンクの出力を時間軸
方向に32点りサンプルしてなる(32X 1B−51
2>次元の特徴パラメータが、入力音声の特徴ベクトル
として求められる。このようにして求められた特徴ベク
トルは記憶部5に順次記憶される。
このようにして記憶部5に記憶された入力音声の特徴ベ
クトルが認識部6に転送され、認識辞書7と照合されて
音声認識される。この音声認識は、例えば複合類似度を
計算する等して行われる。
ここで本装置が特徴とするところは、制御部8による制
御の下で、前記音声入力部lから入力された音声のA/
D変換されたディジタル信号が記憶部4に格納されたと
き、或いは前記記憶部5に入力音声の分析結果である特
徴ベクトルが格納されたときに音声出力部9が駆動され
る点にある。
即ち、制御部8の指令によって前記記憶部4に格納され
た入力音声のA/D変換結果が音声出力部9に読出され
ると、音声出力部9はこのA/D変換結果を逆にD/A
変換し、これをフィルタリングする等して音声を再合成
し、その合成音声を出力している。また制御部8の指令
によって前記記憶部5に格納された入力音声の特徴ベク
トルが音声区間検出部IOに読出されると、この音声区
間検出・部lOによってその特徴ベクトルがセグメンテ
ーションされる。つまり、音声の特徴パラメータの時系
列が、例えば音素単位に検切されて音声出力部9に与え
られる。音声出力部9は、このようにしてセグメンテー
ションされた情報に従って、例えば音声の規則合成法に
従って入力音声を再合成して出力している。
このようにして前記A/D変換結果、またはその分析結
果に従って入力音声が再合成されてその音声入力者に呈
示される。
この再合成されて出力された音声に対して、その正誤の
情報が前記音声入力部1を介して音声入力、或いはキー
ボードを介して指示入力される。
正誤判定部11は、この再合成出力した音声に対する正
誤情報を判定し、正しい場合には学習部12を駆動して
前記記憶部5に格納された入力音声の特徴ベクトルに従
う前記認識辞書7の学習を行わせている。
また前記A/D変換結果から再合成された音声に対して
誤りが指示された場合には、例えば音声の再人力を促し
ている。また、前記分析結果から再合成された音声に対
して誤りが指示された場合には、音声区間検出部IOに
おけるセグメンテーションに誤りがあることが予想され
ることから、正誤判定部11は前記音声区間検出部lO
に対して音声特徴ベクトルのセグメンテーションのやり
直しを指示している。この結果、音声出力部9は、セグ
メンテーションがやり直しされた特徴ベクトルに従って
再度音声の再合成を行い、これを出力することになる。
このようにして人力音声のA/D変換結果、または分析
結果に従ってその音声が再合成されて音声入力者に呈示
され、その入力過程において誤りがないことが確認され
た後、記憶部5に格納された入力音声の分析結果を用い
た認識辞書7の学習が行われることになる。
従って認識辞書7は、誤入力された音声や、分析処理で
誤りを生じた音声の特徴ベクトルを除いて学習されるこ
とになり、ここにその学習効果を高めて認識辞書7の充
実化を効果的に図ることが可能となる。
次に本装置の具体的な作用例につき説明する。
第2図は単音節音声パターンを認識する音声認識装置に
おける認識辞書学習用パターンに対する処理の流れを示
すものである。この場合には、入力すべき単音節を、例
えば単音節の組合せからなる単語としての発声入力が促
される。
しかして単語が発声入力されると、その入力音声パター
ンがA/D変換されて記憶部4に取込まれ(ステップa
)、またその入力音声パターンの分析が行われる(ステ
ップb)。この入力音声パターンの分析は、各フレーム
毎に16チヤンネルのフィルタバンク出力を求め、その
特徴パラメータと音声パワーを抽出して行われる。
そしてその分析結果の記憶部5への格納が行われる(ス
テップC)。
この処理は、1フレームの単語音声入力が終了するまで
(ステップd)、繰返して行われる。
しかる後、その特徴ベクトルに従って入力音声パターン
のセグメンテーションが行われ、音声区間の一部、或い
は全部が抽出された前記音声出力部9による音声の再合
成か行われる (ステップe)。このようにして再合成
出力した音声に対して、正しいとの確認情報を得て(ス
テップf)、前記分析結果に基く認識辞書7の学習が行
われる。
尚、再合成出力された音声に対して誤りの情報が指示さ
れた場合には、前記単語の発声入力が再度指示されて上
述した処理が繰返される。
例えば「確認」なる入力音声を「力・り・シ・ン」と誤
入力した場合、音声出力部9は「確信」なる再合成音声
を得、これを、例えば 「今、入力された単語は「確信」ですか」なる音声を出
力して、その確認を促すことになる。
これに対して、例えば「はい」なる入力音声が得られる
と、前記正誤判定部11は前記入力音声パターン(分析
結果)を用いた前記認識辞書7の学習を指示することに
なる。
またこの場合には1、例えば「いいえ」なる誤人力の指
示が発声入力されることから、正誤判定部11は音声出
力部9を駆動して、例えば「もう一度、発声して下さい
」 なるメツセージを音声出力して、その単語の再入力を促
すことになる。
この場合、「はい」 「いいえ」等は比較的簡単に、且
つ明確に音声認識することができるから、その音声認識
結果をそのまま正誤の情報として利用しても不具合を招
来することがない。
このようにして入力された単語に対する確認を行うので
、従来分析された特徴ベクトルでしか判断できなかった
入力音声パターンを効果的に確認してその認識辞書の学
習に用いることが可能となる。
従って正確な音声パターンだけを用いて認識辞書の学習
を行うことができ、認識辞書の充実化を効果的に図って
、その認識率の向上を図ることが可能となる。
一方、連続単語音声パターンの認識を行う場合には、例
えば第3図に示すように認識辞書の学習に用いる人力音
声パターンを抽出するようにすれば良い。
尚、この場合にあっても、先の例と同様に入力音声パタ
ーンのA/D変換結果の記憶と、その分析結果の記憶が
行われる。
しかしてこの場合には、入力音声パターンを音節単位に
セグメンテーションしくステップh)、そのセグメンテ
ーション結果に従って先の例と同様に人力音声の確認を
促す音声が合成出力される(ステップi)。そしてその
音声出力に対する正誤の情報を判定しくステップj、k
)、分析結果に対するセグメンテーションのやり直し等
が指示される。
具体的には、「音声」なる入力音声パターンに対して、
これを「音節」と誤入力すると、先ず前述した単語音声
の確認処理と同様に、例えば「今、入力した単語は「音
節」ですか」なる確認音声が出力される。これに対して
「いいえ」なる情報が入力されると、前記分析結果に対
するセグメンテーションが行われ、 「第1音節はrオ」ですか」 「第2音節は「ン」ですか」 「第3音節は「セ」ですか」 [第4音節は「ツ」ですか」 と云うように、各音節毎にその確認が促される。
ここで「いいえ」なる情報が入力されると、そのセグメ
ンテーションに誤りがあるとして、セグメンテーション
のやり直しが行われ、同様にして各音節に対する確認が
行われることになる。
この場合、音声の調音結合に起因するセグメンテーショ
ンの誤りも修正されることになる。そしてセグメンテー
ションのやり直し結果に従って、各音節の同様な確認処
理が行われることになる。
このような処理が繰返し行われても、「いいえ」なる指
示が与えられる場合には、ここで音声の誤入力であると
判定され、単語音声の再入力が促されるか、或いは辞書
作成における学習パターンとして受付けない等の処理が
促される。
また本装置は、上述したように対話的に処理を行う他に
、収集したデータを用いて一括して学習を行う場合にも
有効である。
第4図はこのようなバッチ処理の実施例を示すものであ
る。
具体的には大量のデータを1データづつ前述したように
前処理、分析、分析結果の記憶を行う。
そしてその分析結果に基いてセグメンテーションし、こ
れを音声出力する。この出力音声について、操作者はそ
の正誤の判定を行う。
ここで誤入力と判定された場合には、その人力データは
リジェクトされ、次のデータに対して同様な処理が実行
され。また誤入力でない、つまり正しいと判定された場
合には、再度セグメンテーションが行われ、音声出力さ
れる。その結果により、学習パターンとして正しいと判
定されると、そのデータは前記学習部に贈られて辞書作
成の為の学習に用いられる。
このような処理が繰返し実行される。
このように本装置によれば、認識処理の前処理段階で、
その入力音声に対する誤入力および誤動作を防ぐことが
できる。そして正しい入力音声だけを用いて認識辞書を
学習し、またその入力音声を高精度に認識することが可
能となる。
しかも認識辞書の作成、学習に際して従来より大きな負
担となっていた音声区間の切出しくセグメンテーション
)の容易化を図ることが可能となり、セグメンテーショ
ンの精度を高めることができる。
尚、本発明は上述した実施例に限定されるものではない
。例えば入力音声パターンを表す特徴ベクトルの種類や
、その特徴ベクトルを用いた認識処理法は従来より提唱
されている種々の方式を適宜採用することが可能である
。また電話回線を用いて、その遠隔操作を行うようにし
ても良い。要するに本発明はその要旨を逸脱しない範囲
で種々変形して実施することができる。
【図面の簡単な説明】
第1図は本発明の一実施例装置の要部概略構成図、第2
図乃至第4図はそれぞれ実施例装置における認識辞書学
習用の音声式カバターン抽出処理の流れを示す図である
。 ■・・・音声人力部、2・・・A/D変換器、3・・・
前処理部、4.5・・・記憶部、6・・・認識部、7・
・・認識辞書、8・・・制御部、9・・・音声出力部、
IO・・・音声区間検出部、11・・・正誤判定部、1
2・・・学習部。 出願人代理人 弁理士 鈴江武彦 第tffl

Claims (2)

    【特許請求の範囲】
  1. (1)入力音声をA/D変換したのち分析して該入力音
    声の特徴パラメータの時系列を求める手段と、この音声
    分析結果を音声認識辞書と照合して上記入力音声を認識
    する音声認識部と、前記入力音声のA/D変換結果、ま
    たは前記分析結果から入力音声を再合成して出力する手
    段と、この再合成した音声に対する正誤判定指示情報に
    従って前記分析結果を用いた前記音声認識辞書の学習を
    制御する手段とを具備したことを特徴とする音声認識装
    置。
  2. (2)入力音声を再合成する手段は、再合成された音声
    が誤りであると指示されたとき、分析結果に対する音声
    区間の検切位置を変更して入力音声を繰返し再合成する
    か、或いは入力音声をリジェクトし、学習に用いないよ
    うにするような処理を促すものである特許請求の範囲第
    1項記載の音声認識装置。
JP60161499A 1985-07-22 1985-07-22 音声認識装置 Pending JPS6221199A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60161499A JPS6221199A (ja) 1985-07-22 1985-07-22 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60161499A JPS6221199A (ja) 1985-07-22 1985-07-22 音声認識装置

Publications (1)

Publication Number Publication Date
JPS6221199A true JPS6221199A (ja) 1987-01-29

Family

ID=15736228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60161499A Pending JPS6221199A (ja) 1985-07-22 1985-07-22 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6221199A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63292196A (ja) * 1987-05-26 1988-11-29 日本電気株式会社 特定話者用音声認識装置
JP2002511154A (ja) * 1997-04-10 2002-04-09 マイクロソフト コーポレイション ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5988799A (ja) * 1982-11-15 1984-05-22 株式会社日立製作所 音声パタン登録方式
JPS59147396A (ja) * 1983-02-10 1984-08-23 株式会社日立製作所 音声認識制御方式
JPS59162600A (ja) * 1983-03-07 1984-09-13 株式会社リコー 音声認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5988799A (ja) * 1982-11-15 1984-05-22 株式会社日立製作所 音声パタン登録方式
JPS59147396A (ja) * 1983-02-10 1984-08-23 株式会社日立製作所 音声認識制御方式
JPS59162600A (ja) * 1983-03-07 1984-09-13 株式会社リコー 音声認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63292196A (ja) * 1987-05-26 1988-11-29 日本電気株式会社 特定話者用音声認識装置
JP2002511154A (ja) * 1997-04-10 2002-04-09 マイクロソフト コーポレイション ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム

Similar Documents

Publication Publication Date Title
Muhammad et al. E-hafiz: Intelligent system to help muslims in recitation and memorization of Quran
AU2009249165B2 (en) Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
WO2008033095A1 (en) Apparatus and method for speech utterance verification
Muhammad et al. Voice content matching system for quran readers
EP3042377A2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
Nadungodage et al. Continuous sinhala speech recognizer
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
Ahmed et al. Verification system for Quran recitation recordings
JP2955297B2 (ja) 音声認識システム
Dave et al. Speech recognition: A review
Shen et al. Self-supervised pre-trained speech representation based end-to-end mispronunciation detection and diagnosis of Mandarin
EP0192898B1 (en) Speech recognition
Mishra et al. An Overview of Hindi Speech Recognition
JP2745562B2 (ja) ノイズ適応形音声認識装置
JPS6221199A (ja) 音声認識装置
Hong et al. A study on the emotional feature composed of the mel-frequency cepstral coefficient and the speech speed
Nagaraja et al. Mono and cross lingual speaker identification with the constraint of limited data
Cettolo et al. Automatic detection of semantic boundaries based on acoustic and lexical knowledge.
Maciel et al. Five–framework for an integrated voice environment
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
Lingam Speaker based language independent isolated speech recognition system
JP3378547B2 (ja) 音声認識方法及び装置
Abdo et al. MFC peak based segmentation for continuous Arabic audio signal
Syadida et al. Sphinx4 for indonesian continuous speech recognition system
JP2813209B2 (ja) 大語彙音声認識装置