JPS6375796A - 特定話者音声認識装置の音声認識辞書作成方式 - Google Patents
特定話者音声認識装置の音声認識辞書作成方式Info
- Publication number
- JPS6375796A JPS6375796A JP61219820A JP21982086A JPS6375796A JP S6375796 A JPS6375796 A JP S6375796A JP 61219820 A JP61219820 A JP 61219820A JP 21982086 A JP21982086 A JP 21982086A JP S6375796 A JPS6375796 A JP S6375796A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- specific
- dictionary
- voice
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 5
- 230000007423 decrease Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔概 要〕
本発明は、特定話者音声認識装置の音声認識辞書作成方
式において、音声登録に当って登録すべき音声の全てを
何回も発声しなければ音声認識率を高めることができな
いという問題点を解決するため、予め複数種類の特定音
声認識辞書を音声認識部に用意しておき、登録時に特定
話者が発声する予め定めた特定の音声に基づき前記複数
種類のうちの1つを当該特定話者用の辞書として選択す
ることにより、少ない音声の発声により音声認識率の高
い辞書を作成できるようにしたものである。
式において、音声登録に当って登録すべき音声の全てを
何回も発声しなければ音声認識率を高めることができな
いという問題点を解決するため、予め複数種類の特定音
声認識辞書を音声認識部に用意しておき、登録時に特定
話者が発声する予め定めた特定の音声に基づき前記複数
種類のうちの1つを当該特定話者用の辞書として選択す
ることにより、少ない音声の発声により音声認識率の高
い辞書を作成できるようにしたものである。
本発明は特定話者音声認識装置の音声認識辞書作成方式
に関するものである。
に関するものである。
特定の話者が発声する音声を認識する特定話者音声認識
装置においては、その使用に先立って特定話者に発声さ
せた音声に基づいて音声認識辞書を作成する、所謂音声
登録を行い、この登録した音声と認識時に発声した音声
とを比較照合して認識結果とするようになっている。上
記音声登録は特定話者が登録時に発声した音声をパラメ
ータ化し、例えばメモリの所定の場所に格納することに
より行われるが、この登録時の発声が通常時の発声と違
っていれば当然認識率が低下することになる。この認識
率を高めるためには、特定話者に何回も発声させ音声パ
ラメータを修正して適正なものにすればよいが、音声登
録すべき特定話者にとっては発声回数が少ない方が望ま
しい。
装置においては、その使用に先立って特定話者に発声さ
せた音声に基づいて音声認識辞書を作成する、所謂音声
登録を行い、この登録した音声と認識時に発声した音声
とを比較照合して認識結果とするようになっている。上
記音声登録は特定話者が登録時に発声した音声をパラメ
ータ化し、例えばメモリの所定の場所に格納することに
より行われるが、この登録時の発声が通常時の発声と違
っていれば当然認識率が低下することになる。この認識
率を高めるためには、特定話者に何回も発声させ音声パ
ラメータを修正して適正なものにすればよいが、音声登
録すべき特定話者にとっては発声回数が少ない方が望ま
しい。
従来の特定話者音声認識装置の音声認識辞書作成方式を
第3図に示す。図中1は特定の話者が発声する音声を認
識する特定話者音声認識装置であり、該特定話者音声認
識装置1は、音声をピックアップして音声信号に変換す
るマイクロホン2が入力に接続されている音声認識部1
1と、例えば図示しない入力手段からの操作信号に基づ
いて音声認識部11を制御して音声認識部11に音声登
録及び音声比較照合のための音声認識動作を行わせる音
声入力制御部12とを有する。3は特定話者音声認識装
置1による認識結果を利用する利用装置であり、該装置
としては例えばパーソナルコンピュータ、プロセスコン
トローラなどがある。
第3図に示す。図中1は特定の話者が発声する音声を認
識する特定話者音声認識装置であり、該特定話者音声認
識装置1は、音声をピックアップして音声信号に変換す
るマイクロホン2が入力に接続されている音声認識部1
1と、例えば図示しない入力手段からの操作信号に基づ
いて音声認識部11を制御して音声認識部11に音声登
録及び音声比較照合のための音声認識動作を行わせる音
声入力制御部12とを有する。3は特定話者音声認識装
置1による認識結果を利用する利用装置であり、該装置
としては例えばパーソナルコンピュータ、プロセスコン
トローラなどがある。
上記音声認識部11は、特定の話者の音声についての登
録音声パラメータを収納している例えばメモリからなる
特定辞書111aを有する音声認識辞書111を備える
。すなわち、音声認識部11の音声認識辞書111は1
人の特定話者のための特定辞書111aだけで構成され
ている。
録音声パラメータを収納している例えばメモリからなる
特定辞書111aを有する音声認識辞書111を備える
。すなわち、音声認識部11の音声認識辞書111は1
人の特定話者のための特定辞書111aだけで構成され
ている。
なお、4はマイクロホン2からの音声信号を特定話者音
声認識装置1内の音声認識部11に入力する入力ライン
、13は音声認識部11と音声入力制御部12との間で
信号の授受を行う内部インターフェースライン、及び5
は特定話者音声認識装置1内の音声入力制御部12と利
用装置3との間で信号の授受を行う外部インターフェー
スラインであり、該外部インターフェースライン5を介
して音声認識の結果が利用装置3に入力される。
声認識装置1内の音声認識部11に入力する入力ライン
、13は音声認識部11と音声入力制御部12との間で
信号の授受を行う内部インターフェースライン、及び5
は特定話者音声認識装置1内の音声入力制御部12と利
用装置3との間で信号の授受を行う外部インターフェー
スラインであり、該外部インターフェースライン5を介
して音声認識の結果が利用装置3に入力される。
従来の特定話者音声認識装置1の音声認識辞書111は
特定辞書111aを有するにすぎないため、特定話者の
音声を登録するには、登録すべき音声の全てについての
発声を特定話者に行わせ、該発声した各音声をパラメー
タ化する必要がある。
特定辞書111aを有するにすぎないため、特定話者の
音声を登録するには、登録すべき音声の全てについての
発声を特定話者に行わせ、該発声した各音声をパラメー
タ化する必要がある。
このような音声登録時の発声が通常時の発声と違ってい
た場合、その後の音声認識の際、特定話者が発声する音
声であっても、これを登録済みの特定話者のものである
と認識することができなくなり、音声認識率が低下する
。
た場合、その後の音声認識の際、特定話者が発声する音
声であっても、これを登録済みの特定話者のものである
と認識することができなくなり、音声認識率が低下する
。
音声認識率を高めるためには、登録音声パターンを適正
なものにすればよいが、上述した従来の音声認識作成方
式では、登録すべき全ての音声の発声を特定話者に何回
か行ってもらい、音声パターンを修正してその適正化を
図るしか方法がなかった。しかし、この方法では登録し
ようとしている特定話者に登録しようとしている多数の
音声についての同じ発声を何回も繰返すことを強いるこ
とになり、望ましくない。
なものにすればよいが、上述した従来の音声認識作成方
式では、登録すべき全ての音声の発声を特定話者に何回
か行ってもらい、音声パターンを修正してその適正化を
図るしか方法がなかった。しかし、この方法では登録し
ようとしている特定話者に登録しようとしている多数の
音声についての同じ発声を何回も繰返すことを強いるこ
とになり、望ましくない。
また、上述の従来の方式では、音声認識しなければなら
ない特定話者が代る毎に、特定辞書111aの内容の全
部を上述と同じ作業を行って作り替えなければならない
などの問題点があった。
ない特定話者が代る毎に、特定辞書111aの内容の全
部を上述と同じ作業を行って作り替えなければならない
などの問題点があった。
本発明は上述したような点に鑑みなされたもので、音声
登録時の特定話者による音声の発声回数を少なくするこ
とが可能な特定話者音声認識装置の音声認識辞書作成方
式を提供することを目的としている。
登録時の特定話者による音声の発声回数を少なくするこ
とが可能な特定話者音声認識装置の音声認識辞書作成方
式を提供することを目的としている。
本発明の特定話者音声認識装置の音声認識辞書作成方式
は、特定話者音声認識装置の音声認識部が、各々が登録
すべきすべての音声についての音声パラメータを予め有
する複数種類の特定音声認識辞書と、登録時に特定話者
が発声する登録すべき音声のうちの予め定められた特定
の音声に基づいて前記複数種類のうちの1つの特定音声
認識辞書を選択する辞書選択部とを有し、該辞書選択部
により選択した特定音声認識辞書を前記特定話者用の辞
書として音声認識時に使用するようにしている。
は、特定話者音声認識装置の音声認識部が、各々が登録
すべきすべての音声についての音声パラメータを予め有
する複数種類の特定音声認識辞書と、登録時に特定話者
が発声する登録すべき音声のうちの予め定められた特定
の音声に基づいて前記複数種類のうちの1つの特定音声
認識辞書を選択する辞書選択部とを有し、該辞書選択部
により選択した特定音声認識辞書を前記特定話者用の辞
書として音声認識時に使用するようにしている。
音声認識部が有する複数種類の特定音声認識辞書の各々
が登録すべき全ての音声についての音声パラメータを予
め有しているため、登録すべき音声の一部を音声登録時
に特定話者に発声させることにより、該特定話者に最適
な特定音声認識辞書を前記複数種類のなかから辞書選択
部によって選択して特定話者用の辞書を簡単に作成する
ことが可能になる。
が登録すべき全ての音声についての音声パラメータを予
め有しているため、登録すべき音声の一部を音声登録時
に特定話者に発声させることにより、該特定話者に最適
な特定音声認識辞書を前記複数種類のなかから辞書選択
部によって選択して特定話者用の辞書を簡単に作成する
ことが可能になる。
第1図は本発明による特定話者音声認識装置の音声認識
辞書作成方式の一実施例を示すブロック図である。同図
において、第3図について上述した従来の方式と同一の
部分には同一の符号を付してあり、1は特定話者音声認
識装置、2はマイクロホン、3は利用装置、4は人力ラ
イン、5は外部インターフェースライン、11は音声認
識部、12は音声人力制御部、13は内部インターフェ
ースライン、そして111は音声認識辞書である。
辞書作成方式の一実施例を示すブロック図である。同図
において、第3図について上述した従来の方式と同一の
部分には同一の符号を付してあり、1は特定話者音声認
識装置、2はマイクロホン、3は利用装置、4は人力ラ
イン、5は外部インターフェースライン、11は音声認
識部、12は音声人力制御部、13は内部インターフェ
ースライン、そして111は音声認識辞書である。
上記音声認識辞書111は、各々が音声認識の対象とな
る全ての音声についての音声パラメータをもった複数種
類の特定音声認識辞書111a+〜1lla、を有する
。各特定音声認識辞書は、例えば数十人というような多
数の人が発声した音声を類似したもの別にグループ化し
、各グループの各音声の平均的なパラメータを例えばメ
モリに収納して予め音声認識部IIの音声認識辞書11
1中に内蔵しておかれるものである。
る全ての音声についての音声パラメータをもった複数種
類の特定音声認識辞書111a+〜1lla、を有する
。各特定音声認識辞書は、例えば数十人というような多
数の人が発声した音声を類似したもの別にグループ化し
、各グループの各音声の平均的なパラメータを例えばメ
モリに収納して予め音声認識部IIの音声認識辞書11
1中に内蔵しておかれるものである。
上記音声認識辞書111は、複数種類の特定音声認識辞
書111al〜1lla、、中がら特定話者の音声認識
の際に使用する辞書として最適なものを選択する辞書選
択部111bを更に有する。
書111al〜1lla、、中がら特定話者の音声認識
の際に使用する辞書として最適なものを選択する辞書選
択部111bを更に有する。
第2図は音声認識辞書111中の特定音声認識辞書11
1al 〜111arl及び辞書選択部111bの具体
例を示す図である。同図中特定音声認識辞書1 i 1
a、は音声認識すべき音声の全てについての音声パラ
メータa+ 1〜a、−(nを、特定音声認識辞書
111 a2は同じ文字又は文字列についての異なる音
声パラメータa2−1〜a2−mを、そして特定音声認
識辞書111 a、、は同じ文字又は文字列についての
他の異なる音声パラメータah l ”” a h
mをそれぞれ収納している。
1al 〜111arl及び辞書選択部111bの具体
例を示す図である。同図中特定音声認識辞書1 i 1
a、は音声認識すべき音声の全てについての音声パラ
メータa+ 1〜a、−(nを、特定音声認識辞書
111 a2は同じ文字又は文字列についての異なる音
声パラメータa2−1〜a2−mを、そして特定音声認
識辞書111 a、、は同じ文字又は文字列についての
他の異なる音声パラメータah l ”” a h
mをそれぞれ収納している。
一方、辞書選択部111bは特定音声認識辞書111a
l 〜1lla、の各々に収納されている音声パラメー
タの数よりも十分に少ない数の子め定められた複数の文
字又は文字列についての音声パラメータb−1〜b−x
(x<m)を収納するようになっている。これらの音声
パラメータb−1−b−xは、実際の音声認識に先立っ
て行う登録時に特定話者が予め定められた複数の音声を
1回発声することにより辞書選択部111bに収納され
、該収納された音声パラメータb−1−b−Xの各々は
各特定音声認識辞書111a+〜111a、、中の対応
する音声パラメータとそれぞれ比較照合される。この比
較照合の結果、辞書選択部111bに収納されている音
声パラメータb−1〜b−xに最も近い音声パラメータ
を最も多くもっている特定音声認識辞書を今登録しよう
としている特定話者用の辞書として選択する。すなわち
、登録時に発声しなかった音声についての音声パラメー
タも有する辞書を作成することができる。
l 〜1lla、の各々に収納されている音声パラメー
タの数よりも十分に少ない数の子め定められた複数の文
字又は文字列についての音声パラメータb−1〜b−x
(x<m)を収納するようになっている。これらの音声
パラメータb−1−b−xは、実際の音声認識に先立っ
て行う登録時に特定話者が予め定められた複数の音声を
1回発声することにより辞書選択部111bに収納され
、該収納された音声パラメータb−1−b−Xの各々は
各特定音声認識辞書111a+〜111a、、中の対応
する音声パラメータとそれぞれ比較照合される。この比
較照合の結果、辞書選択部111bに収納されている音
声パラメータb−1〜b−xに最も近い音声パラメータ
を最も多くもっている特定音声認識辞書を今登録しよう
としている特定話者用の辞書として選択する。すなわち
、登録時に発声しなかった音声についての音声パラメー
タも有する辞書を作成することができる。
例えば、登録すべき音声が第4図に示す68音を構成し
ている単音である場合には、各特定音声認識辞書は68
音を構成している68個の単音のパラメータを予め収納
しており、一方辞書選択部111bは「あ、い、う、え
、お」の5つの母音と、[か、さ、た、な、は、ま、や
、ら、わ、ん、が、ざ、だ、ば、ばJのア行の15の子
音との20の単音のみを収納するようになっているとす
る。
ている単音である場合には、各特定音声認識辞書は68
音を構成している68個の単音のパラメータを予め収納
しており、一方辞書選択部111bは「あ、い、う、え
、お」の5つの母音と、[か、さ、た、な、は、ま、や
、ら、わ、ん、が、ざ、だ、ば、ばJのア行の15の子
音との20の単音のみを収納するようになっているとす
る。
このような場合、特定話者が音声登録に当って「あ、・
・・・・・、お」 「か、さ、・・・・・・、ば、ば」
とマイクロホン2に向って発声すると、音声認識部11
はマイクロホン2からの音声信号に基づいて各単音につ
いての音声パラメータb−1〜b−xを作成し、これを
辞書選択部111bの所定の場所にそれぞれ収納する。
・・・・・、お」 「か、さ、・・・・・・、ば、ば」
とマイクロホン2に向って発声すると、音声認識部11
はマイクロホン2からの音声信号に基づいて各単音につ
いての音声パラメータb−1〜b−xを作成し、これを
辞書選択部111bの所定の場所にそれぞれ収納する。
辞書選択部111bに収納された各音声パラメータは特
定音声認識辞″4I111a+〜1lla、の各々の中
の対応する音声パラメータと照合される。
定音声認識辞″4I111a+〜1lla、の各々の中
の対応する音声パラメータと照合される。
例えば、音声パラメータb−1は音声パラメータa、
1 v a2 1 +”””an 1と、b
−2はal 2 * a2 2・・・・・・a、
、2とのような比較照合が行われる。そして全ての音声
パラメータb−1〜b−xについての照合結果の中から
最も最適な特定音声認識辞書が今登録しようとしている
特定話者用の辞書として選択される。よって、以後はこ
の選択された特定音声認識辞書を用いてこの特定話者の
発声する任意の音声についての音声認識が行われるよう
になる。
1 v a2 1 +”””an 1と、b
−2はal 2 * a2 2・・・・・・a、
、2とのような比較照合が行われる。そして全ての音声
パラメータb−1〜b−xについての照合結果の中から
最も最適な特定音声認識辞書が今登録しようとしている
特定話者用の辞書として選択される。よって、以後はこ
の選択された特定音声認識辞書を用いてこの特定話者の
発声する任意の音声についての音声認識が行われるよう
になる。
以上のように特定音声認識辞書は、登録時に特定話者に
より発声される少ない数の発声に基づいて予め用意され
ている複数種類の特定音声認識辞書の中から選択するこ
とにより作成されるので、音声登録しようとしている特
定話者に多くの音声を何回も繰返して発声させることな
く、最適な辞書の作成が可能になる。
より発声される少ない数の発声に基づいて予め用意され
ている複数種類の特定音声認識辞書の中から選択するこ
とにより作成されるので、音声登録しようとしている特
定話者に多くの音声を何回も繰返して発声させることな
く、最適な辞書の作成が可能になる。
本発明によれば、複数種類の特定音声認識辞書を予め用
意しておき、特定の予め指定された少ない数の文字又は
文字列の発声を1度行うことにより、上記複数種類の特
定音声認識辞書のなかから1つの辞書を選択し、特定話
者用の特定音声認識辞書を作成するようになっているた
め、音声登録時の音声発声の回数を低減することができ
ると共に比較的認識率の高い辞書を簡単に得ることがで
きる。
意しておき、特定の予め指定された少ない数の文字又は
文字列の発声を1度行うことにより、上記複数種類の特
定音声認識辞書のなかから1つの辞書を選択し、特定話
者用の特定音声認識辞書を作成するようになっているた
め、音声登録時の音声発声の回数を低減することができ
ると共に比較的認識率の高い辞書を簡単に得ることがで
きる。
第1図は本発明の一実施例を示すブロック図、第2図は
第1図中の一部分の具体例を示すブロック図、及び第3
図は従来例を示すブロック図である。第4図は認識例の
68音節。 1・・・特定話者音声認識装置 11・・・音声認識部 111a、〜1lla、、・・・特定音声認識辞書11
1b・・・辞書選択部 al t〜a、 m t a21〜a2 m
Ha、、−1〜al、−m、b−1〜b−X・・・音声
パラメータ
第1図中の一部分の具体例を示すブロック図、及び第3
図は従来例を示すブロック図である。第4図は認識例の
68音節。 1・・・特定話者音声認識装置 11・・・音声認識部 111a、〜1lla、、・・・特定音声認識辞書11
1b・・・辞書選択部 al t〜a、 m t a21〜a2 m
Ha、、−1〜al、−m、b−1〜b−X・・・音声
パラメータ
Claims (1)
- 【特許請求の範囲】 登録時に特定話者が発声する音声に基づいて作成した特
定音声認識辞書を有し、音声認識時に発声される音声を
前記特定音声認識辞書中の登録音声と比較照合すること
により音声を認識する音声認識部を備える特定話者音声
認識装置において、前記音声認識部が、各々が登録すべ
き全ての音声についての音声パラメータを予め有する複
数種類の特定音声認識辞書と、登録時に特定話者が発声
する前記登録すべき音声のうちの予め定められた特定の
音声に基づいて前記複数種類の特定音声認識辞書のうち
の1つを選択する辞書選択部とを有し、 前記辞書選択部により選択した特定音声認識辞書を前記
特定話者用の辞書として音声認識時に使用するようにし
たことを特徴とする音声認識辞書作成方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61219820A JPS6375796A (ja) | 1986-09-19 | 1986-09-19 | 特定話者音声認識装置の音声認識辞書作成方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61219820A JPS6375796A (ja) | 1986-09-19 | 1986-09-19 | 特定話者音声認識装置の音声認識辞書作成方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS6375796A true JPS6375796A (ja) | 1988-04-06 |
Family
ID=16741547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61219820A Pending JPS6375796A (ja) | 1986-09-19 | 1986-09-19 | 特定話者音声認識装置の音声認識辞書作成方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6375796A (ja) |
-
1986
- 1986-09-19 JP JP61219820A patent/JPS6375796A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1233406A1 (en) | Speech recognition adapted for non-native speakers | |
US6975986B2 (en) | Voice spelling in an audio-only interface | |
WO1996023298A2 (en) | System amd method for generating and using context dependent sub-syllable models to recognize a tonal language | |
Lee et al. | Cantonese syllable recognition using neural networks | |
JPS597998A (ja) | 連続音声認識装置 | |
David | Artificial auditory recognition in telephony | |
EP0508225A2 (en) | Computer system for speech recognition | |
JP2820093B2 (ja) | 単音節認識装置 | |
JPS6375796A (ja) | 特定話者音声認識装置の音声認識辞書作成方式 | |
JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
JPS6073595A (ja) | 音声入力装置 | |
JPS6126678B2 (ja) | ||
JPH04271397A (ja) | 音声認識装置 | |
KR100611894B1 (ko) | 음성 인식기의 단어 모델 생성 방법 | |
JPS63157199A (ja) | 話者照合装置 | |
Nair et al. | A Study on Automatic Speech Recognition | |
JPS6287994A (ja) | 音声認識辞書更新方式 | |
JPH07210193A (ja) | 音声対話装置 | |
JPS6073592A (ja) | 特定話者用音声認識装置 | |
CA1236578A (en) | Feneme-based markov models for words | |
JPS607492A (ja) | 単音節音声認識方式 | |
JPS6312000A (ja) | 音声認識装置 | |
JPS60241097A (ja) | 音声認識応用装置 | |
JPS62178999A (ja) | 音声認識装置 | |
JPS62217297A (ja) | 単語音声認識装置 |