JPS6348598A - 単語音声認識装置 - Google Patents
単語音声認識装置Info
- Publication number
- JPS6348598A JPS6348598A JP61192431A JP19243186A JPS6348598A JP S6348598 A JPS6348598 A JP S6348598A JP 61192431 A JP61192431 A JP 61192431A JP 19243186 A JP19243186 A JP 19243186A JP S6348598 A JPS6348598 A JP S6348598A
- Authority
- JP
- Japan
- Prior art keywords
- word
- pattern
- registered
- voice
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 claims description 67
- 238000000034 method Methods 0.000 claims description 58
- 238000010586 diagram Methods 0.000 description 15
- 238000007792 addition Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- UKUVVAMSXXBMRX-UHFFFAOYSA-N 2,4,5-trithia-1,3-diarsabicyclo[1.1.1]pentane Chemical compound S1[As]2S[As]1S2 UKUVVAMSXXBMRX-UHFFFAOYSA-N 0.000 description 1
- YYSFXUWWPNHNAZ-OSDRTFJJSA-N 851536-75-9 Chemical compound C1[C@@H](OC)[C@H](OCCOCC)CC[C@H]1C[C@@H](C)[C@H]1OC(=O)[C@@H]2CCCCN2C(=O)C(=O)[C@](O)(O2)[C@H](C)CCC2C[C@H](OC)/C(C)=C/C=C/C=C/[C@@H](C)C[C@@H](C)C(=O)[C@H](OC)[C@H](O)/C(C)=C/[C@@H](C)C(=O)C1 YYSFXUWWPNHNAZ-OSDRTFJJSA-N 0.000 description 1
- 235000011293 Brassica napus Nutrition 0.000 description 1
- 240000008100 Brassica rapa Species 0.000 description 1
- 235000000540 Brassica rapa subsp rapa Nutrition 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔目 次〕
概要
産業上の利用分野
従来の技術
発明が解決しよとする問題点
問題点を解決するための手段
作用
実施例
発明の効果
〔概要〕
予め登録単語音声パタンを持ち、入力された音声を認識
するときには、該未知の入力単語の音声パタンと、上記
登録単語音声パタンとのバクン間距^1を求め、最小距
離を与える登録単語音声パタンの単語を認識結果とする
単語音声認識方式において、(1)該登録単語音声パタ
ンを登録するときに、区間検出の方法を、単語毎、又は
単音節毎に記憶する記憶部を設けることにより、該詑t
a内容に基づいて、該区間検出の方法を登録すべき単語
。
するときには、該未知の入力単語の音声パタンと、上記
登録単語音声パタンとのバクン間距^1を求め、最小距
離を与える登録単語音声パタンの単語を認識結果とする
単語音声認識方式において、(1)該登録単語音声パタ
ンを登録するときに、区間検出の方法を、単語毎、又は
単音節毎に記憶する記憶部を設けることにより、該詑t
a内容に基づいて、該区間検出の方法を登録すべき単語
。
又は単音節毎に切り替えるようにしたものである。
(2)未知の入力音声に対する区間検出部の出力を、照
合する対象の登録パタン群から読み出した単語。
合する対象の登録パタン群から読み出した単語。
又は単音節毎↓こ選択して、照合し認識するようにした
ものである。
ものである。
本発明は、予め登録単語音声パタンを持ち、入力された
音声を認識するときには、該未知の入力単語の音声パタ
ンと、上記登録単語音声パタンとのパタン間距離を求め
、最小距離を与える登録単語音声パタンの単語を認識結
果とする単語音声認識方式に係り、特に、登録単語音声
パタンの登録方式、又は未知の入力音声の認識方式に関
する。
音声を認識するときには、該未知の入力単語の音声パタ
ンと、上記登録単語音声パタンとのパタン間距離を求め
、最小距離を与える登録単語音声パタンの単語を認識結
果とする単語音声認識方式に係り、特に、登録単語音声
パタンの登録方式、又は未知の入力音声の認識方式に関
する。
−)IQに、日本語を発声する場合、例えば、(キ)(
り)(シ)(ス)(チ)(ツ)(ヒ)())(ピ)(プ
)(シュ)等、(k) (g) (t) (h) (p
)の子音を持つ音節(拍)の次に(i)(u)の母音が
続く場合、該母音の口構えだけで、実際に(i) (u
)が有声にひびかない現象があり、「母音の無声化」と
呼ばれている。(「日本語発声アクセント辞典J NH
K kJ5参照)このような、無声化し易い音節が、単
語中の先頭、若しくは語尾にある場合、一般の音声認識
処理において実行されている音声区間検出処理では、該
無声化部分が脱落することが多く、標準となる音声パタ
ンの全1.六時において、該無声化部分が脱落した音声
パタンを登録する場合がある。
り)(シ)(ス)(チ)(ツ)(ヒ)())(ピ)(プ
)(シュ)等、(k) (g) (t) (h) (p
)の子音を持つ音節(拍)の次に(i)(u)の母音が
続く場合、該母音の口構えだけで、実際に(i) (u
)が有声にひびかない現象があり、「母音の無声化」と
呼ばれている。(「日本語発声アクセント辞典J NH
K kJ5参照)このような、無声化し易い音節が、単
語中の先頭、若しくは語尾にある場合、一般の音声認識
処理において実行されている音声区間検出処理では、該
無声化部分が脱落することが多く、標準となる音声パタ
ンの全1.六時において、該無声化部分が脱落した音声
パタンを登録する場合がある。
又、最近の計算機技術の進歩に伴って、文言処理システ
ム、所謂ワープロが普及してきているが、通常のワープ
ロにおいては、キーによって入力された単語、又は単音
節に対する処理である為、操作性が悪いと云う問題があ
り、最近音声ワープロが実用化されつつある。この場合
、単音節の登録品質を如何にして向上させるかが問題と
なる。
ム、所謂ワープロが普及してきているが、通常のワープ
ロにおいては、キーによって入力された単語、又は単音
節に対する処理である為、操作性が悪いと云う問題があ
り、最近音声ワープロが実用化されつつある。この場合
、単音節の登録品質を如何にして向上させるかが問題と
なる。
このようにして、登録された標準音声パタンと。
未知の入力音声パタンとを比較して、最も似ているパタ
ン、具体的にはパタン間距離が展小の上記標準音声パタ
ンを認識結果とする音声認識装置における音声認識にお
いても、その前処理として、該未知の入力音声に対する
特徴パラメータの抽出の後、区間検出処理があるので、
標準音声パタンの登録の場合と同し問題が存在する。
ン、具体的にはパタン間距離が展小の上記標準音声パタ
ンを認識結果とする音声認識装置における音声認識にお
いても、その前処理として、該未知の入力音声に対する
特徴パラメータの抽出の後、区間検出処理があるので、
標準音声パタンの登録の場合と同し問題が存在する。
こうした事情から、品質の良い標準音声パタンの登録と
、未知の入力音声を認識する際の品質の良い音声の抽出
ができる区間検出方式が求められていた。
、未知の入力音声を認識する際の品質の良い音声の抽出
ができる区間検出方式が求められていた。
第7図は従来の標準音声パタンの登録と、未知の入力音
声を認識する方式を説明する図である。
声を認識する方式を説明する図である。
先ず、マイ汐から入力された登録音声は、パラメータ抽
出部1において、該音声パタンの特徴を表す認識パラメ
ータが抽出される。
出部1において、該音声パタンの特徴を表す認識パラメ
ータが抽出される。
このi= RFiパラメータの抽出においては、例えば
、’TI/域通過フィルタ群を使用したBPF分析や、
線形予測分析(LPG)等の方法が知られている。
、’TI/域通過フィルタ群を使用したBPF分析や、
線形予測分析(LPG)等の方法が知られている。
上記BPF分析においては、マイクから入力された音声
を1特定の標本化周期(例えば、18m5)でサンプリ
ングした音声エネルギーのスペクトラム強度をディジク
ル化したものを認識パラメータとする。
を1特定の標本化周期(例えば、18m5)でサンプリ
ングした音声エネルギーのスペクトラム強度をディジク
ル化したものを認識パラメータとする。
該抽出されたi77 gFiパラメータは、次の区間検
出部2において、真に音声が存在する区間を検出し、そ
の部分の認識パラメータを、パタンマツチングを行う為
のデータとする。
出部2において、真に音声が存在する区間を検出し、そ
の部分の認識パラメータを、パタンマツチングを行う為
のデータとする。
具体的には、例えば、上記パラメータ抽出部1で作成し
た入力音声の認識パラメータに基づいて、音声パワーを
計算し、該音声パワーを、ある特定の闇値でチェ・7り
し、該闇値より大きい部分を音声存在区間とするように
する。
た入力音声の認識パラメータに基づいて、音声パワーを
計算し、該音声パワーを、ある特定の闇値でチェ・7り
し、該闇値より大きい部分を音声存在区間とするように
する。
又、該区間の検出精度を上げる為に、音声パワー閾値以
外に、ゼロクロスや、自己相関等の他のパラメータを組
み合わせて行う等、種々の方法があるが、基本的には、
−度該区間検出方法を決定すると、途中で変更すること
なく、同じ手法で区間検出を行っていた。
外に、ゼロクロスや、自己相関等の他のパラメータを組
み合わせて行う等、種々の方法があるが、基本的には、
−度該区間検出方法を決定すると、途中で変更すること
なく、同じ手法で区間検出を行っていた。
そして、該区間検出の結果に対しては何等のチェックを
行うことなく、標準の音声パタンとして音声辞書(登録
パタン群)6に登録していた。
行うことなく、標準の音声パタンとして音声辞書(登録
パタン群)6に登録していた。
次に、未知の単語音声を認識する方式においては、同じ
手法によって取り出された未知の入力単語の音声パタン
と、上記予め、登録きれている音声辞書(登録パタン群
)6から、標準音声パタンを1頃次取り出したものとを
、例えば、パタン・マツチング法によって照合して、両
者の距離を算出し、最小距離の標章音声パタンを検出し
て認識結果としていた。
手法によって取り出された未知の入力単語の音声パタン
と、上記予め、登録きれている音声辞書(登録パタン群
)6から、標準音声パタンを1頃次取り出したものとを
、例えば、パタン・マツチング法によって照合して、両
者の距離を算出し、最小距離の標章音声パタンを検出し
て認識結果としていた。
上記未知の入力音声に対する認識方式の他の従来方式と
しては、上記区間検出部2に複数個の闇値を事前に持ち
、複数個の区間を求めて、それぞれに対して、該標享の
音声パタンの全でと照合し、一番距離の近い組み合わせ
を選択して、認識結果とする考えがあった。
しては、上記区間検出部2に複数個の闇値を事前に持ち
、複数個の区間を求めて、それぞれに対して、該標享の
音声パタンの全でと照合し、一番距離の近い組み合わせ
を選択して、認識結果とする考えがあった。
然して、この方式では、1つの登録パタン当たり、該複
数個の闇値に対応する未知入力の音声パタンと照合しな
ければならないので、処理量が大幅に増大する問題と、
該複数個の音声パタン中に誤った音声パタンか多く含ま
れているので誤認識の原因となる問題があった。
数個の闇値に対応する未知入力の音声パタンと照合しな
ければならないので、処理量が大幅に増大する問題と、
該複数個の音声パタン中に誤った音声パタンか多く含ま
れているので誤認識の原因となる問題があった。
このような、−律の従来手法で区間検出をしていると、
音声区間の脱落と、ノイズの付加の問題があり、例えば
、脱落を減らそうとすると、ノイズの付加が増加し、ノ
イズの付加を減らそうとすると脱落が増えると云う関係
にあり、品質の良い区間検出ができ難いと云う問題があ
った。
音声区間の脱落と、ノイズの付加の問題があり、例えば
、脱落を減らそうとすると、ノイズの付加が増加し、ノ
イズの付加を減らそうとすると脱落が増えると云う関係
にあり、品質の良い区間検出ができ難いと云う問題があ
った。
登録時の区間検出で脱落、付加が生じた単語については
、認識時に、通常は同じ脱落、付加が生じることはない
ので、その殆どが棄却されるか、誤認識されてしまうと
云う問題があった。
、認識時に、通常は同じ脱落、付加が生じることはない
ので、その殆どが棄却されるか、誤認識されてしまうと
云う問題があった。
本発明は上記従来の欠点に3Mみ、上記区間検出で脱落
する可能性の高い部分は、無声化規則等によって事前に
分かるので、該無声化規則等に対応して、ji語、又は
単音節毎に区間険出方法を変えることによって、該区間
検出で検出された音声の品質を向上させる方法を提供す
ることを目的とするものである。
する可能性の高い部分は、無声化規則等によって事前に
分かるので、該無声化規則等に対応して、ji語、又は
単音節毎に区間険出方法を変えることによって、該区間
検出で検出された音声の品質を向上させる方法を提供す
ることを目的とするものである。
第1図は本発明による音声パタン登録方式の構成例を示
した図であり、第2図は本発明による未知入力音声の認
識方式の構成例を示した図である。
した図であり、第2図は本発明による未知入力音声の認
識方式の構成例を示した図である。
本発明においては、
(1) 予め登録単語音声パタンを持ら、入力された
音声を認識するときには、該未知の入力単語の音声パタ
ンと、上記登録単語音声パタンとのパタン間距離を求め
、最小距離を与える登録単語音声パタンの単語を認識結
果とする単語音声認識方式該登録単語音声パタンを登録
するときに、区間検出の方法を、単語毎1又は単音節毎
に記憶する区間検出記憶部3を設け、 登録すべき音声が入力されると、区間検出部1〜n (
2’)内、上記区間検出記憶部3が定める区間検出部1
〜n (2°)を選択し、該区間検出部1〜n(2”)
から出力される音声パタンを登録するように構成する。
音声を認識するときには、該未知の入力単語の音声パタ
ンと、上記登録単語音声パタンとのパタン間距離を求め
、最小距離を与える登録単語音声パタンの単語を認識結
果とする単語音声認識方式該登録単語音声パタンを登録
するときに、区間検出の方法を、単語毎1又は単音節毎
に記憶する区間検出記憶部3を設け、 登録すべき音声が入力されると、区間検出部1〜n (
2’)内、上記区間検出記憶部3が定める区間検出部1
〜n (2°)を選択し、該区間検出部1〜n(2”)
から出力される音声パタンを登録するように構成する。
(2)予め登録単語音声パタンを持ち、入力された音声
を認識するときには、該未知の入力単語の音声パタンと
、上記登録単語音声パタンとのパタン間距^セを求め、
最小距離を与える登録単語音声パタンの単語を認識結果
とする単語音声認識方式であって、 未知の入力音声に対する区間検出部1〜n (2’)の
出力を、照合する対象の登録パタン群6から読み出した
単語、又は単音節毎に選択し、照合部5で照合して、最
小のパタン間距離を与える登録m語、又は単音節を認識
結果とするように構成する。
を認識するときには、該未知の入力単語の音声パタンと
、上記登録単語音声パタンとのパタン間距^セを求め、
最小距離を与える登録単語音声パタンの単語を認識結果
とする単語音声認識方式であって、 未知の入力音声に対する区間検出部1〜n (2’)の
出力を、照合する対象の登録パタン群6から読み出した
単語、又は単音節毎に選択し、照合部5で照合して、最
小のパタン間距離を与える登録m語、又は単音節を認識
結果とするように構成する。
即ち、本発明によれば、予め登録単語音声パタンを持ち
、入力された音声を認識するときには、該未知の入力単
語の音声パタンと、上記登録単語音声パタンとのパタン
間距離を求め、最小距^11を与える登録単語音声パタ
ンの単語を認識結果とする単語音声認識方式において、
(1)該登録単語音声パタンを登録するときに、区間検
出の方法を、単語毎1又は単音節毎に記憶する記憶部を
設けることにより、該記憶内容に基づいて、該区間検出
のカー>Lを登録すべき単語、又は単音節毎に切り替え
るようにしたものであり、(2)未知の入力音声に対す
る区間検出部の出力を、照合する対象の登録パタン群か
ら読み出した単語、又は単音節毎に選択して、照合し認
識するようにしたものであるので、区間検出誤りが減少
し、標準音声パタンの品質が向上すると共に、未知入力
音声に対する認識性能が向上する効果がある。
、入力された音声を認識するときには、該未知の入力単
語の音声パタンと、上記登録単語音声パタンとのパタン
間距離を求め、最小距^11を与える登録単語音声パタ
ンの単語を認識結果とする単語音声認識方式において、
(1)該登録単語音声パタンを登録するときに、区間検
出の方法を、単語毎1又は単音節毎に記憶する記憶部を
設けることにより、該記憶内容に基づいて、該区間検出
のカー>Lを登録すべき単語、又は単音節毎に切り替え
るようにしたものであり、(2)未知の入力音声に対す
る区間検出部の出力を、照合する対象の登録パタン群か
ら読み出した単語、又は単音節毎に選択して、照合し認
識するようにしたものであるので、区間検出誤りが減少
し、標準音声パタンの品質が向上すると共に、未知入力
音声に対する認識性能が向上する効果がある。
以下本発明の実施例を図面によって詳述する。
前述の第1図は本発明による音声パタン登録方式の構成
例を示した図であり、第2図は本発明による未知入力音
声の認識方式の構成例を示した図であって、それぞれの
図面における区間検出部2°。
例を示した図であり、第2図は本発明による未知入力音
声の認識方式の構成例を示した図であって、それぞれの
図面における区間検出部2°。
及び関連機構(切り替え部3a1選択部3b等)が本発
明を実施するのに必要な手段である。
明を実施するのに必要な手段である。
第3図は本発明の登録方式の概念を示した図で、(a)
は単語の場合を示し、(b)は単音節の場合を示してお
り、第4図は本発明の登録方式をとった場合の誤り率を
説明する図である。又、第5図は本発明による認識方式
の概念を示した図であり、(aン は区間検出方式を示
し、(b)は登録音声パタンとの照合方式を示しており
、第6図は本発明による認識方式をとった場合の認識率
を説明する図である。
は単語の場合を示し、(b)は単音節の場合を示してお
り、第4図は本発明の登録方式をとった場合の誤り率を
説明する図である。又、第5図は本発明による認識方式
の概念を示した図であり、(aン は区間検出方式を示
し、(b)は登録音声パタンとの照合方式を示しており
、第6図は本発明による認識方式をとった場合の認識率
を説明する図である。
以下、第1図、第2図を参照しながら第3図〜第6図を
用いて、本発明の単語音声認識方式を説明する。
用いて、本発明の単語音声認識方式を説明する。
先ず、標準音声パタン登録方式について説明する。
例えば、認識対象の単語に「aomori ぐ青森)
j、raichi (愛知)」と云う単語が含まれて
いた場合、該単語音声パタンの全1.得時に、該「ao
mori (青森)」に対する単語音声の区間検出に
使う音声パワーの闇値を通常よりも、3デシベル上げて
、ノイズの付加が起きにくいようにする。(第3図(a
)の「Aの区間1」参照)又、I”aichi(愛知)
、に対する単語音声の区間検出に使う音声パワーの闇値
を、終端に対しでのみ通常よりも3デシベル下げて脱藩
が起きにくいようにする。或いは、該終、5i;iに対
する区間検出を、音声パワー闇値と、ゼロクロス−二対
する闇値(第3図(a)の「Bの区間ゴ参照)の両方を
使用して、区間2 (A+B)のパタンで区間検出を行
う。
j、raichi (愛知)」と云う単語が含まれて
いた場合、該単語音声パタンの全1.得時に、該「ao
mori (青森)」に対する単語音声の区間検出に
使う音声パワーの闇値を通常よりも、3デシベル上げて
、ノイズの付加が起きにくいようにする。(第3図(a
)の「Aの区間1」参照)又、I”aichi(愛知)
、に対する単語音声の区間検出に使う音声パワーの闇値
を、終端に対しでのみ通常よりも3デシベル下げて脱藩
が起きにくいようにする。或いは、該終、5i;iに対
する区間検出を、音声パワー闇値と、ゼロクロス−二対
する闇値(第3図(a)の「Bの区間ゴ参照)の両方を
使用して、区間2 (A+B)のパタンで区間検出を行
う。
これは、当該単語音声璽aichi (愛知)」につ
いては、語尾が無声化する場合が殆どなので、該単語の
終端部の音声パワーはイよくなるが、高域成分は相対的
に強くなるし、ゼロクロスも大きくなると云う特i枚が
あることに着目した区間検出を行うことを意味している
。
いては、語尾が無声化する場合が殆どなので、該単語の
終端部の音声パワーはイよくなるが、高域成分は相対的
に強くなるし、ゼロクロスも大きくなると云う特i枚が
あることに着目した区間検出を行うことを意味している
。
第3図(b)は、「ず」、「ア」と云う単音節の、音声
パワー1及びゼロクロスの時間的変化を回し軸上に示し
たもので、本図をみることにより、単音節についても、
各単音節毎に、音声パワー、ゼロクロスの特性が異なる
ことが分かる。
パワー1及びゼロクロスの時間的変化を回し軸上に示し
たもので、本図をみることにより、単音節についても、
各単音節毎に、音声パワー、ゼロクロスの特性が異なる
ことが分かる。
第4図は、本発明の手順によって音声パタンを登録する
ときの誤り率を説明した図であるが、例えば、音声パワ
ー闇値による区間検出のみでは、無声化した語尾の多く
が脱落してしまうこと、及び音声パワー闇値と、ゼロク
ロスによる区間検出を行うと無声化した語尾の多くが正
しく検出されるが、ノイズの付加による誤り率が増加し
、個別に区間検出方式を変えた場合には、誤り率が最小
になることを示している。
ときの誤り率を説明した図であるが、例えば、音声パワ
ー闇値による区間検出のみでは、無声化した語尾の多く
が脱落してしまうこと、及び音声パワー闇値と、ゼロク
ロスによる区間検出を行うと無声化した語尾の多くが正
しく検出されるが、ノイズの付加による誤り率が増加し
、個別に区間検出方式を変えた場合には、誤り率が最小
になることを示している。
このように、本発明にる音声パタン登録方式は、各単語
、又2よ単音節のそれぞれについて、音声パワーや、ゼ
ロクロスの特性が異なることに着目し、それぞれの単語
、単音節を抽出するのに最も適した区間検出を行うよう
に、各単語、単音節毎に区間検出方法を区間検出記憶部
3に記憶しておき、入力された音声に対応して、区間検
出部(1〜n)2゛を、切り替え部3aで選択するよう
にした所に特徴がある。 (第1図参照) 次に、未知の入力音声を認識する方式について説明する
。
、又2よ単音節のそれぞれについて、音声パワーや、ゼ
ロクロスの特性が異なることに着目し、それぞれの単語
、単音節を抽出するのに最も適した区間検出を行うよう
に、各単語、単音節毎に区間検出方法を区間検出記憶部
3に記憶しておき、入力された音声に対応して、区間検
出部(1〜n)2゛を、切り替え部3aで選択するよう
にした所に特徴がある。 (第1図参照) 次に、未知の入力音声を認識する方式について説明する
。
例えば、認識対象の単語にraomori (青森)
J、raichi (愛知)」と云う単語が含まれて
いた場合、該i”aomori(青森)」に対する単語
音声の区間検出に使う音声パワーの闇値を通常よりも、
3デシベル上げて、ノイズの付加が起き難いようにする
。(第5図(a)の「への区間1」参照) 又、raichi (愛知)」に対する単語音声の区
間検出に使う音声パワーの闇値を、終端に対してのみ通
常よりも3デシベル下げて脱落が起き難いようにする。
J、raichi (愛知)」と云う単語が含まれて
いた場合、該i”aomori(青森)」に対する単語
音声の区間検出に使う音声パワーの闇値を通常よりも、
3デシベル上げて、ノイズの付加が起き難いようにする
。(第5図(a)の「への区間1」参照) 又、raichi (愛知)」に対する単語音声の区
間検出に使う音声パワーの闇値を、終端に対してのみ通
常よりも3デシベル下げて脱落が起き難いようにする。
或いは、該終端に対する区間検出を、音声パワー闇値と
、ゼロクロスに対する闇値(第5図(a)の「Bの区間
J参照)の両方を使用して、区間2 (、i+8)のパ
タンで区間検出を行う。
、ゼロクロスに対する闇値(第5図(a)の「Bの区間
J参照)の両方を使用して、区間2 (、i+8)のパ
タンで区間検出を行う。
これは、当該単語音声raichi (愛知)Jにつ
いては、語尾が無声化する場合が殆どなので、該単語の
終端部の音声パワーは低くなるが、高域成分は相対的に
強くなるし、ゼロクロスも大きくなると云う特徴がある
ことに着目した区間検出を行うことを意味している。
いては、語尾が無声化する場合が殆どなので、該単語の
終端部の音声パワーは低くなるが、高域成分は相対的に
強くなるし、ゼロクロスも大きくなると云う特徴がある
ことに着目した区間検出を行うことを意味している。
このように、各単語、又は単音節毎の区間検出方式を、
予め分かっている無声化規則等によって定めて(第2図
、区間検出部(1〜n) 2’)参照)おき、未知の音
声が入力されると、それぞれの区間検出部(1〜n)2
゛ で、区間検出が行われ、入力用パタンメモリ(1〜
n) 2”に、咳険出された音声区間の認識パラメータ
が記憶される。
予め分かっている無声化規則等によって定めて(第2図
、区間検出部(1〜n) 2’)参照)おき、未知の音
声が入力されると、それぞれの区間検出部(1〜n)2
゛ で、区間検出が行われ、入力用パタンメモリ(1〜
n) 2”に、咳険出された音声区間の認識パラメータ
が記憶される。
一方、制御部7においては、登録パタン群6乙こ登録さ
れている標くWの音声パタンを、1語宛読み出し、対応
した入力パタンメモリ(1〜n) 2”をl駅部3bで
選択して、照合部4において上記標章音声パタンとのパ
タン間距離を求め、その最もパタン間距離の小さい標準
音声パタンを認識結果として出力するよう2こ機能する
。 (第2図参照)第5図(b)は、このときの認識過
程を模式的に示したもので、上記単語音声(−aich
i (愛知)」を認識する場合を過程を示している。
れている標くWの音声パタンを、1語宛読み出し、対応
した入力パタンメモリ(1〜n) 2”をl駅部3bで
選択して、照合部4において上記標章音声パタンとのパ
タン間距離を求め、その最もパタン間距離の小さい標準
音声パタンを認識結果として出力するよう2こ機能する
。 (第2図参照)第5図(b)は、このときの認識過
程を模式的に示したもので、上記単語音声(−aich
i (愛知)」を認識する場合を過程を示している。
■で示した区間検出では、語尾の「チ」の部分が脱落し
ており、■で示した区間検出では語頭にノイズが付加す
ると共に、語尾の「チ」の部分が脱落している場合を示
している。
ており、■で示した区間検出では語頭にノイズが付加す
ると共に、語尾の「チ」の部分が脱落している場合を示
している。
従って、登録パタン群6から読み出した登録パタン群A
、B、Cとのパタン間距離を算出した場合、図示の如(
、登2.にパタン群Bにおいて、パタン間距シ1(が最
小になり、該登録パタン群Bに登録されている単語の中
で、パタン間距離が最小となるものを選択することによ
り、正しい単語音声raichi(愛知)」を認識する
ことができる。
、B、Cとのパタン間距離を算出した場合、図示の如(
、登2.にパタン群Bにおいて、パタン間距シ1(が最
小になり、該登録パタン群Bに登録されている単語の中
で、パタン間距離が最小となるものを選択することによ
り、正しい単語音声raichi(愛知)」を認識する
ことができる。
第6図は本発明による未知入力音声を認識する場合の認
識率について説明したものであり、第4図の登録の場合
と同しような誤り率を示していて、区間検出方式を単語
毎に個別に変更した場合(■+■)の認識率が最大にな
ることが分かる。
識率について説明したものであり、第4図の登録の場合
と同しような誤り率を示していて、区間検出方式を単語
毎に個別に変更した場合(■+■)の認識率が最大にな
ることが分かる。
この■十■の区間検出では、第5図(b)からも明らか
な如く、誤りも多く含まれることになるが、照合結果で
は、パタン間距離が大きくなる場合が殆どである為、誤
認識の原因となるこは逆に少なくなるのである。
な如く、誤りも多く含まれることになるが、照合結果で
は、パタン間距離が大きくなる場合が殆どである為、誤
認識の原因となるこは逆に少なくなるのである。
上記標準音声パタンの登録の場合、或いは未知の入力音
声を認識する場合、いずれの場合においても、該区間検
出法の選択条件の設定は、事前に単語毎、或いは単音節
毎に人手で設定しても良いし、前述の無声化規則等によ
って、自動生成して設定しても良いことは云う迄もない
ことである。
声を認識する場合、いずれの場合においても、該区間検
出法の選択条件の設定は、事前に単語毎、或いは単音節
毎に人手で設定しても良いし、前述の無声化規則等によ
って、自動生成して設定しても良いことは云う迄もない
ことである。
例えば、上の例で云えば、raichi (愛知)」
は語尾が無声化することが、上記無声化規則等で分かる
ので、該単語の終端部に対して、上記のような区間検出
を行うように定めるのである。
は語尾が無声化することが、上記無声化規則等で分かる
ので、該単語の終端部に対して、上記のような区間検出
を行うように定めるのである。
本発明の区間検出方式を用いても、ノイズの付加の問題
は残るが、上記raichi (愛知)」の場合と同
じように、語尾が無声化する単語は、通常全単語の1〜
2割程度であるので、他の8〜9割の単語に対しては、
raomori(青森)」の場合のようにノイズの付加
の生じ難い区間検出を行うようにする為、該ノイズ付加
の問題)よ格段に小さくなる。
は残るが、上記raichi (愛知)」の場合と同
じように、語尾が無声化する単語は、通常全単語の1〜
2割程度であるので、他の8〜9割の単語に対しては、
raomori(青森)」の場合のようにノイズの付加
の生じ難い区間検出を行うようにする為、該ノイズ付加
の問題)よ格段に小さくなる。
又、認識対象の単語が最初から決まっていて変更が無い
、若しくは変更が少ない場合には、区間検出方式は、事
前に人手で設定しても良いが、変更が多い場合には、前
述の無声化規則等を使用して自動生成するのが良い。尚
、単音節を標乍音声登録パタンとする場合には、事前設
定でも構わないことは云う迄もない。
、若しくは変更が少ない場合には、区間検出方式は、事
前に人手で設定しても良いが、変更が多い場合には、前
述の無声化規則等を使用して自動生成するのが良い。尚
、単音節を標乍音声登録パタンとする場合には、事前設
定でも構わないことは云う迄もない。
以上、詳細に説明したように、本発明の単語音声認識方
式は、予め登録単語音声パタンを持ち、入力された音声
を認識するときには、該未知の入力i11語の音声パタ
ンと、上記登録ii1語音声パタンとのパタン間距離を
求め、最小距離を与える登録単語音声パタンの単語を認
識結果とする単語音声認識方式において、(1)該登録
単語音声パタンを登録するときに、区間検出の方法を、
単語毎3又は単音節毎に記憶する記憶部を設けることに
より、該記憶内容に基づいて、該区間検出の方法を登録
すべき単語、又は単音節毎に切り替えるようにしたもの
であり、(2)未知の入力音声に対する区間検出部の出
力を、照合する対象の登録パタン群から読み出した単語
、又は単音節毎に選択して、照合し認識するようにした
ものであるので、区間検出誤りが減少し、標章音声パタ
ンの品質が向上すると共に、未知入力音声に対する認識
性能が向上する効果がある。
式は、予め登録単語音声パタンを持ち、入力された音声
を認識するときには、該未知の入力i11語の音声パタ
ンと、上記登録ii1語音声パタンとのパタン間距離を
求め、最小距離を与える登録単語音声パタンの単語を認
識結果とする単語音声認識方式において、(1)該登録
単語音声パタンを登録するときに、区間検出の方法を、
単語毎3又は単音節毎に記憶する記憶部を設けることに
より、該記憶内容に基づいて、該区間検出の方法を登録
すべき単語、又は単音節毎に切り替えるようにしたもの
であり、(2)未知の入力音声に対する区間検出部の出
力を、照合する対象の登録パタン群から読み出した単語
、又は単音節毎に選択して、照合し認識するようにした
ものであるので、区間検出誤りが減少し、標章音声パタ
ンの品質が向上すると共に、未知入力音声に対する認識
性能が向上する効果がある。
第1図は本発明による音声パタン登録方弐の構成例を示
した図。 第2図は本発明による未知入力音声のt= 2a方式の
構成例を示した図。 第3図は本発明の登録方式の概念を示した図。 第4図は本発明の登録方式をとった場合の誤り率を説明
する図。 第5図は本発明による認識方式の概念を示した同第6図
は本発明による認識方式をとった場合の認識率を説明す
る図 第7図は従来の標準音声パタンの登録と、未知の入力音
声を認識する方式を説明する図。 である。 図面において、 lはパラメータ抽出部、2は区間検出部。 2゛は区間検出部1〜n、 2”は入力用パタンメモ
リ。 3は区間検出記憶部、 3aは切り替え部。 3bは選)尺部。 5は照合部、 6は登録パタン群。 8は制御部。 八は区間1. A+8は区間2゜■〜■は
区間検出方式。 /z−; s、11よう舒・・ぐタン、r、、Tt方;
六、q 、;i 、’i・を夕□I t r、しりβ
]31 困 末全1列・20令式n、4糺乞、2寸、し・′・図千
3 図((1) ゛ス″ のへリンとし71・訳 、f)パタンとL了、え壬 木交5jl(麿暑方へn、兜途、2示(た2う 3 図
(ら) 禾イこ口1看 (−3”言4疋、−31テXカブ(tn
、’i丁りe2化を示 乙f1第 5 図 (σ) 凸 禾4(日!!1:よう 間詰(餞t ヒコ、亡二 瑞、
イ≦し・の1≧4テ、謂ハ富ギ一り、七’Q 同第6
層
した図。 第2図は本発明による未知入力音声のt= 2a方式の
構成例を示した図。 第3図は本発明の登録方式の概念を示した図。 第4図は本発明の登録方式をとった場合の誤り率を説明
する図。 第5図は本発明による認識方式の概念を示した同第6図
は本発明による認識方式をとった場合の認識率を説明す
る図 第7図は従来の標準音声パタンの登録と、未知の入力音
声を認識する方式を説明する図。 である。 図面において、 lはパラメータ抽出部、2は区間検出部。 2゛は区間検出部1〜n、 2”は入力用パタンメモ
リ。 3は区間検出記憶部、 3aは切り替え部。 3bは選)尺部。 5は照合部、 6は登録パタン群。 8は制御部。 八は区間1. A+8は区間2゜■〜■は
区間検出方式。 /z−; s、11よう舒・・ぐタン、r、、Tt方;
六、q 、;i 、’i・を夕□I t r、しりβ
]31 困 末全1列・20令式n、4糺乞、2寸、し・′・図千
3 図((1) ゛ス″ のへリンとし71・訳 、f)パタンとL了、え壬 木交5jl(麿暑方へn、兜途、2示(た2う 3 図
(ら) 禾イこ口1看 (−3”言4疋、−31テXカブ(tn
、’i丁りe2化を示 乙f1第 5 図 (σ) 凸 禾4(日!!1:よう 間詰(餞t ヒコ、亡二 瑞、
イ≦し・の1≧4テ、謂ハ富ギ一り、七’Q 同第6
層
Claims (6)
- (1)予め登録単語音声パタンを持ち、入力された音声
を認識するときには、該未知の入力単語の音声パタンと
、上記登録単語音声パタンとのパタン間距離を求め、最
小距離を与える登録単語音声パタンの単語を認識結果と
する単語音声認識方式であって、 該登録単語音声パタンを登録するときに、区間検出の方
法を、単語毎、又は単音節毎に記憶する区間検出記憶部
(3)を設け、 登録すべき音声が入力されると、区間検出部1〜n(2
’)の内、上記区間検出記憶部(1)が定める区間検出
部1〜n(2’)を選択し、該区間検出部1〜n(2’
)から出力される音声パタンを登録することを特徴とす
る単語音声認識方式。 - (2)上記区間検出部(2’)の単語毎、又は単音節毎
に記憶する区間検出記憶部(3)の内容を、少なくとも
キー入力によって、人手で設定することを特徴とする特
許請求の範囲第1項に記載の単語音声認識方式。 - (3)上記区間検出部(2’)の単語毎、又は単音節毎
に記憶する区間検出記憶部(3)の内容を、特定の規則
によって、自動的に生成して設定することを特徴とする
特許請求の範囲第1項に記載の単語音声認識方式。 - (4)予め登録単語音声パタンを持ち、入力された音声
を認識するときには、該未知の入力単語の音声パタンと
、上記登録単語音声パタンとのパタン間距離を求め、最
小距離を与える登録単語音声パタンの単語を認識結果と
する単語音声認識方式であって、 未知の入力音声に対する区間検出部1〜n(2’)の出
力を、照合する対象の登録パタン群(6)から読み出し
た単語、又は単音節毎に選択し、照合部(5)で照合し
て、最小のパタン間距離を与える登録単語、又は単音節
を認識結果とすることを特徴とする単語音声認識方式。 - (5)上記未知の入力音声に対する区間検出部1〜n(
2’)の出力を、照合する対象の登録パタン群(6)か
ら読み出した単語、又は単音節毎に選択する為の情報を
少なくともキー入力によって、人手で設定することを特
徴とする特許請求の範囲第4項に記載の単語音声認識方
式。 - (6)上記未知の入力音声に対する区間検出部1〜n(
2’)の出力を、照合する対象の登録パタン群(6)か
ら読み出した単語、又は単音節毎に選択する為の情報を
、特定の規則によって、自動的に生成して設定すること
を特徴とする特許請求の範囲第4項に記載の単語音声認
識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61192431A JPS6348598A (ja) | 1986-08-18 | 1986-08-18 | 単語音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61192431A JPS6348598A (ja) | 1986-08-18 | 1986-08-18 | 単語音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6348598A true JPS6348598A (ja) | 1988-03-01 |
JPH0558553B2 JPH0558553B2 (ja) | 1993-08-26 |
Family
ID=16291195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61192431A Granted JPS6348598A (ja) | 1986-08-18 | 1986-08-18 | 単語音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6348598A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63279297A (ja) * | 1987-05-12 | 1988-11-16 | 三菱電機株式会社 | 離散単語音声認識装置 |
JPH02179059A (ja) * | 1988-12-28 | 1990-07-12 | Sekisui Chem Co Ltd | 電話機 |
JPH02241582A (ja) * | 1989-02-01 | 1990-09-26 | American Teleph & Telegr Co <Att> | 可燃性洗浄溶剤による物体洗浄法 |
JPH03106485A (ja) * | 1989-09-21 | 1991-05-07 | Oogawara Kakoki Kk | 超音波洗浄乾燥方法およびその装置 |
JPH03207482A (ja) * | 1990-01-11 | 1991-09-10 | Fuji Electric Co Ltd | 洗浄装置 |
JPH03228800A (ja) * | 1990-02-01 | 1991-10-09 | Sanyo Electric Co Ltd | ドライクリーナ |
JPH03228799A (ja) * | 1990-02-01 | 1991-10-09 | Sanyo Electric Co Ltd | ドライクリーナ |
JPH04972U (ja) * | 1990-04-20 | 1992-01-07 | ||
JPH0523649A (ja) * | 1991-07-19 | 1993-02-02 | Hitachi Ltd | 洗浄装置 |
-
1986
- 1986-08-18 JP JP61192431A patent/JPS6348598A/ja active Granted
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63279297A (ja) * | 1987-05-12 | 1988-11-16 | 三菱電機株式会社 | 離散単語音声認識装置 |
JPH02179059A (ja) * | 1988-12-28 | 1990-07-12 | Sekisui Chem Co Ltd | 電話機 |
JPH02241582A (ja) * | 1989-02-01 | 1990-09-26 | American Teleph & Telegr Co <Att> | 可燃性洗浄溶剤による物体洗浄法 |
JPH03106485A (ja) * | 1989-09-21 | 1991-05-07 | Oogawara Kakoki Kk | 超音波洗浄乾燥方法およびその装置 |
JPH03207482A (ja) * | 1990-01-11 | 1991-09-10 | Fuji Electric Co Ltd | 洗浄装置 |
JPH03228800A (ja) * | 1990-02-01 | 1991-10-09 | Sanyo Electric Co Ltd | ドライクリーナ |
JPH03228799A (ja) * | 1990-02-01 | 1991-10-09 | Sanyo Electric Co Ltd | ドライクリーナ |
JPH04972U (ja) * | 1990-04-20 | 1992-01-07 | ||
JPH0523649A (ja) * | 1991-07-19 | 1993-02-02 | Hitachi Ltd | 洗浄装置 |
Also Published As
Publication number | Publication date |
---|---|
JPH0558553B2 (ja) | 1993-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5220639A (en) | Mandarin speech input method for Chinese computers and a mandarin speech recognition machine | |
Zue | The use of speech knowledge in automatic speech recognition | |
US5787230A (en) | System and method of intelligent Mandarin speech input for Chinese computers | |
Howell et al. | Development of a two-stage procedure for the automatic recognition of dysfluencies in the speech of children who stutter: I. Psychometric procedures appropriate for selection of training material for lexical dysfluency classifiers | |
JPS6348598A (ja) | 単語音声認識装置 | |
Bobrow et al. | A limited speech recognition system | |
Seman et al. | Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation | |
Strik et al. | Averaging physiological signals with the use of a DTW algorithm | |
JPH0283595A (ja) | 音声認識方法 | |
JP2664136B2 (ja) | 音声認識装置 | |
JPS6317499A (ja) | 単語音声認識方式 | |
JPH1097269A (ja) | 音声検出装置及び方法 | |
Bonneau et al. | Strong cues for identifying well-realized phonetic features | |
JPH0654503B2 (ja) | パタ−ン認識装置 | |
Sweeny et al. | Speech perception using real-time phoneme detection: The BeBe system | |
JPH06348291A (ja) | 単語音声認識方法 | |
JPH08146996A (ja) | 音声認識装置 | |
JPS60164798A (ja) | 単音節音声認識方法 | |
KR950009328B1 (ko) | 단음절단위의 음성인식방법 | |
Sugamura | Continuous speech recognition using large vocabulary word spotting and CV syllable spotting | |
JPS6180298A (ja) | 音声認識装置 | |
JPH0415960B2 (ja) | ||
JPS58195895A (ja) | 単語音声認識装置 | |
JPS61177000A (ja) | 音声パタ−ン登録方式 | |
박경식 | A Study on the Consonant Classification Using Fuzzy Inference |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |