JPS6375796A

JPS6375796A - 特定話者音声認識装置の音声認識辞書作成方式

Info

Publication number: JPS6375796A
Application number: JP61219820A
Authority: JP
Inventors: 笹沼　三郎
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1986-09-19
Filing date: 1986-09-19
Publication date: 1988-04-06

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概　要〕本発明は、特定話者音声認識装置の音声認識辞書作成方
式において、音声登録に当って登録すべき音声の全てを
何回も発声しなければ音声認識率を高めることができな
いという問題点を解決するため、予め複数種類の特定音
声認識辞書を音声認識部に用意しておき、登録時に特定
話者が発声する予め定めた特定の音声に基づき前記複数
種類のうちの１つを当該特定話者用の辞書として選択す
ることにより、少ない音声の発声により音声認識率の高
い辞書を作成できるようにしたものである。

〔産業上の利用分野〕

本発明は特定話者音声認識装置の音声認識辞書作成方式
に関するものである。

特定の話者が発声する音声を認識する特定話者音声認識
装置においては、その使用に先立って特定話者に発声さ
せた音声に基づいて音声認識辞書を作成する、所謂音声
登録を行い、この登録した音声と認識時に発声した音声
とを比較照合して認識結果とするようになっている。上
記音声登録は特定話者が登録時に発声した音声をパラメ
ータ化し、例えばメモリの所定の場所に格納することに
より行われるが、この登録時の発声が通常時の発声と違
っていれば当然認識率が低下することになる。この認識
率を高めるためには、特定話者に何回も発声させ音声パ
ラメータを修正して適正なものにすればよいが、音声登
録すべき特定話者にとっては発声回数が少ない方が望ま
しい。

〔従来の技術〕

従来の特定話者音声認識装置の音声認識辞書作成方式を
第３図に示す。図中１は特定の話者が発声する音声を認
識する特定話者音声認識装置であり、該特定話者音声認
識装置１は、音声をピックアップして音声信号に変換す
るマイクロホン２が入力に接続されている音声認識部１
１と、例えば図示しない入力手段からの操作信号に基づ
いて音声認識部１１を制御して音声認識部１１に音声登
録及び音声比較照合のための音声認識動作を行わせる音
声入力制御部１２とを有する。３は特定話者音声認識装
置１による認識結果を利用する利用装置であり、該装置
としては例えばパーソナルコンピュータ、プロセスコン
トローラなどがある。

上記音声認識部１１は、特定の話者の音声についての登
録音声パラメータを収納している例えばメモリからなる
特定辞書１１１ａを有する音声認識辞書１１１を備える
。すなわち、音声認識部１１の音声認識辞書１１１は１
人の特定話者のための特定辞書１１１ａだけで構成され
ている。

なお、４はマイクロホン２からの音声信号を特定話者音
声認識装置１内の音声認識部１１に入力する入力ライン
、１３は音声認識部１１と音声入力制御部１２との間で
信号の授受を行う内部インターフェースライン、及び５
は特定話者音声認識装置１内の音声入力制御部１２と利
用装置３との間で信号の授受を行う外部インターフェー
スラインであり、該外部インターフェースライン５を介
して音声認識の結果が利用装置３に入力される。

〔発明が解決しようとする問題点〕

従来の特定話者音声認識装置１の音声認識辞書１１１は
特定辞書１１１ａを有するにすぎないため、特定話者の
音声を登録するには、登録すべき音声の全てについての
発声を特定話者に行わせ、該発声した各音声をパラメー
タ化する必要がある。

このような音声登録時の発声が通常時の発声と違ってい
た場合、その後の音声認識の際、特定話者が発声する音
声であっても、これを登録済みの特定話者のものである
と認識することができなくなり、音声認識率が低下する
。

音声認識率を高めるためには、登録音声パターンを適正
なものにすればよいが、上述した従来の音声認識作成方
式では、登録すべき全ての音声の発声を特定話者に何回
か行ってもらい、音声パターンを修正してその適正化を
図るしか方法がなかった。しかし、この方法では登録し
ようとしている特定話者に登録しようとしている多数の
音声についての同じ発声を何回も繰返すことを強いるこ
とになり、望ましくない。

また、上述の従来の方式では、音声認識しなければなら
ない特定話者が代る毎に、特定辞書１１１ａの内容の全
部を上述と同じ作業を行って作り替えなければならない
などの問題点があった。

本発明は上述したような点に鑑みなされたもので、音声
登録時の特定話者による音声の発声回数を少なくするこ
とが可能な特定話者音声認識装置の音声認識辞書作成方
式を提供することを目的としている。

〔問題点を解決するための手段〕

本発明の特定話者音声認識装置の音声認識辞書作成方式
は、特定話者音声認識装置の音声認識部が、各々が登録
すべきすべての音声についての音声パラメータを予め有
する複数種類の特定音声認識辞書と、登録時に特定話者
が発声する登録すべき音声のうちの予め定められた特定
の音声に基づいて前記複数種類のうちの１つの特定音声
認識辞書を選択する辞書選択部とを有し、該辞書選択部
により選択した特定音声認識辞書を前記特定話者用の辞
書として音声認識時に使用するようにしている。

〔作　用〕

音声認識部が有する複数種類の特定音声認識辞書の各々
が登録すべき全ての音声についての音声パラメータを予
め有しているため、登録すべき音声の一部を音声登録時
に特定話者に発声させることにより、該特定話者に最適
な特定音声認識辞書を前記複数種類のなかから辞書選択
部によって選択して特定話者用の辞書を簡単に作成する
ことが可能になる。

〔実施例〕

第１図は本発明による特定話者音声認識装置の音声認識
辞書作成方式の一実施例を示すブロック図である。同図
において、第３図について上述した従来の方式と同一の
部分には同一の符号を付してあり、１は特定話者音声認
識装置、２はマイクロホン、３は利用装置、４は人力ラ
イン、５は外部インターフェースライン、１１は音声認
識部、１２は音声人力制御部、１３は内部インターフェ
ースライン、そして１１１は音声認識辞書である。

上記音声認識辞書１１１は、各々が音声認識の対象とな
る全ての音声についての音声パラメータをもった複数種
類の特定音声認識辞書１１１ａ＋〜１ｌｌａ、を有する
。各特定音声認識辞書は、例えば数十人というような多
数の人が発声した音声を類似したもの別にグループ化し
、各グループの各音声の平均的なパラメータを例えばメ
モリに収納して予め音声認識部ＩＩの音声認識辞書１１
１中に内蔵しておかれるものである。

上記音声認識辞書１１１は、複数種類の特定音声認識辞
書１１１ａｌ〜１ｌｌａ、、中がら特定話者の音声認識
の際に使用する辞書として最適なものを選択する辞書選
択部１１１ｂを更に有する。

第２図は音声認識辞書１１１中の特定音声認識辞書１１
１ａｌ　〜１１１ａｒｌ及び辞書選択部１１１ｂの具体
例を示す図である。同図中特定音声認識辞書１　ｉ　１
　ａ、は音声認識すべき音声の全てについての音声パラ
メータａ＋　　　１〜ａ、−（ｎを、特定音声認識辞書
１１１　ａ２は同じ文字又は文字列についての異なる音
声パラメータａ２−１〜ａ２−ｍを、そして特定音声認
識辞書１１１　ａ、、は同じ文字又は文字列についての
他の異なる音声パラメータａｈ　　　ｌ　””　ａ　ｈ
　　ｍをそれぞれ収納している。

一方、辞書選択部１１１ｂは特定音声認識辞書１１１ａ
ｌ　〜１ｌｌａ、の各々に収納されている音声パラメー
タの数よりも十分に少ない数の子め定められた複数の文
字又は文字列についての音声パラメータｂ−１〜ｂ−ｘ
（ｘ＜ｍ）を収納するようになっている。これらの音声
パラメータｂ−１−ｂ−ｘは、実際の音声認識に先立っ
て行う登録時に特定話者が予め定められた複数の音声を
１回発声することにより辞書選択部１１１ｂに収納され
、該収納された音声パラメータｂ−１−ｂ−Ｘの各々は
各特定音声認識辞書１１１ａ＋〜１１１ａ、、中の対応
する音声パラメータとそれぞれ比較照合される。この比
較照合の結果、辞書選択部１１１ｂに収納されている音
声パラメータｂ−１〜ｂ−ｘに最も近い音声パラメータ
を最も多くもっている特定音声認識辞書を今登録しよう
としている特定話者用の辞書として選択する。すなわち
、登録時に発声しなかった音声についての音声パラメー
タも有する辞書を作成することができる。

例えば、登録すべき音声が第４図に示す６８音を構成し
ている単音である場合には、各特定音声認識辞書は６８
音を構成している６８個の単音のパラメータを予め収納
しており、一方辞書選択部１１１ｂは「あ、い、う、え
、お」の５つの母音と、［か、さ、た、な、は、ま、や
、ら、わ、ん、が、ざ、だ、ば、ばＪのア行の１５の子
音との２０の単音のみを収納するようになっているとす
る。

このような場合、特定話者が音声登録に当って「あ、・
・・・・・、お」　「か、さ、・・・・・・、ば、ば」
とマイクロホン２に向って発声すると、音声認識部１１
はマイクロホン２からの音声信号に基づいて各単音につ
いての音声パラメータｂ−１〜ｂ−ｘを作成し、これを
辞書選択部１１１ｂの所定の場所にそれぞれ収納する。

辞書選択部１１１ｂに収納された各音声パラメータは特
定音声認識辞″４Ｉ１１１ａ＋〜１ｌｌａ、の各々の中
の対応する音声パラメータと照合される。

例えば、音声パラメータｂ−１は音声パラメータａ、　
　　１　ｖ　ａ２　　１　＋”””ａｎ　　　１と、ｂ
−２はａｌ　　　２　＊　ａ２　　２・・・・・・ａ、
、２とのような比較照合が行われる。そして全ての音声
パラメータｂ−１〜ｂ−ｘについての照合結果の中から
最も最適な特定音声認識辞書が今登録しようとしている
特定話者用の辞書として選択される。よって、以後はこ
の選択された特定音声認識辞書を用いてこの特定話者の
発声する任意の音声についての音声認識が行われるよう
になる。

以上のように特定音声認識辞書は、登録時に特定話者に
より発声される少ない数の発声に基づいて予め用意され
ている複数種類の特定音声認識辞書の中から選択するこ
とにより作成されるので、音声登録しようとしている特
定話者に多くの音声を何回も繰返して発声させることな
く、最適な辞書の作成が可能になる。

〔発明の効果〕

本発明によれば、複数種類の特定音声認識辞書を予め用
意しておき、特定の予め指定された少ない数の文字又は
文字列の発声を１度行うことにより、上記複数種類の特
定音声認識辞書のなかから１つの辞書を選択し、特定話
者用の特定音声認識辞書を作成するようになっているた
め、音声登録時の音声発声の回数を低減することができ
ると共に比較的認識率の高い辞書を簡単に得ることがで
きる。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図は
第１図中の一部分の具体例を示すブロック図、及び第３
図は従来例を示すブロック図である。第４図は認識例の
６８音節。１・・・特定話者音声認識装置１１・・・音声認識部１１１ａ、〜１ｌｌａ、、・・・特定音声認識辞書１１
１ｂ・・・辞書選択部ａｌ　　　ｔ〜ａ、　　ｍ　ｔ　ａ２１〜ａ２　　ｍ　
Ｈａ、、−１〜ａｌ、−ｍ、ｂ−１〜ｂ−Ｘ・・・音声
パラメータ

Claims

【特許請求の範囲】登録時に特定話者が発声する音声に基づいて作成した特
定音声認識辞書を有し、音声認識時に発声される音声を
前記特定音声認識辞書中の登録音声と比較照合すること
により音声を認識する音声認識部を備える特定話者音声
認識装置において、前記音声認識部が、各々が登録すべ
き全ての音声についての音声パラメータを予め有する複
数種類の特定音声認識辞書と、登録時に特定話者が発声
する前記登録すべき音声のうちの予め定められた特定の
音声に基づいて前記複数種類の特定音声認識辞書のうち
の１つを選択する辞書選択部とを有し、前記辞書選択部により選択した特定音声認識辞書を前記
特定話者用の辞書として音声認識時に使用するようにし
たことを特徴とする音声認識辞書作成方式。