JPS63300295A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS63300295A JPS63300295A JP62135866A JP13586687A JPS63300295A JP S63300295 A JPS63300295 A JP S63300295A JP 62135866 A JP62135866 A JP 62135866A JP 13586687 A JP13586687 A JP 13586687A JP S63300295 A JPS63300295 A JP S63300295A
- Authority
- JP
- Japan
- Prior art keywords
- section
- voiced
- speech
- recognition
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 claims description 27
- 238000000034 method Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 2
- 229920000742 Cotton Polymers 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 208000037656 Respiratory Sounds Diseases 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は音声認識装置に関し、特に音声検出方式の改良
に関する。
に関する。
(従来の技術)
従来の音声認識装置では発声された音声をマイクロホン
により入力し、電気信号に変換された音声信号波の振幅
(パワーを含む)1スペクトルなどを検定して音声の検
出を行っている0通常は振幅レベルがある閾値を越えた
点および下回った点をそれぞれ始端および終端としたり
、あるいは前記点の近傍でスペクトルが急激に変化した
点を始端および終端として、その区間の音声を認識する
。
により入力し、電気信号に変換された音声信号波の振幅
(パワーを含む)1スペクトルなどを検定して音声の検
出を行っている0通常は振幅レベルがある閾値を越えた
点および下回った点をそれぞれ始端および終端としたり
、あるいは前記点の近傍でスペクトルが急激に変化した
点を始端および終端として、その区間の音声を認識する
。
音声データを入力する作業現場は静かな事務室だけでは
なく、工場内や屋外などのように、各種機械から騒音が
発生される場所も多い、音声認識装置では一般にta前
音消去接話型マイクロホンを使用し雑音耐力を上げてい
るが、それでも十分とは言えない、雑音の振幅やスペク
トルが短時間に急激に変化する場合、つまり非定常雑音
である場合、雑音の振幅レベルが音声検出のための閾値
を越えたり、真の発声の始端や終端の前後で雑音そのも
ののスペクトルが変化して音声検出を誤るという事態が
生じる。閾値を雑音の振幅のピーク値より高く設定する
と、今度は発声の始端や終端の近傍にある振幅の低い部
分や子音部分の検出が困雑となるので、認識性能が著し
く低下し、この方法は実用的でない。
なく、工場内や屋外などのように、各種機械から騒音が
発生される場所も多い、音声認識装置では一般にta前
音消去接話型マイクロホンを使用し雑音耐力を上げてい
るが、それでも十分とは言えない、雑音の振幅やスペク
トルが短時間に急激に変化する場合、つまり非定常雑音
である場合、雑音の振幅レベルが音声検出のための閾値
を越えたり、真の発声の始端や終端の前後で雑音そのも
ののスペクトルが変化して音声検出を誤るという事態が
生じる。閾値を雑音の振幅のピーク値より高く設定する
と、今度は発声の始端や終端の近傍にある振幅の低い部
分や子音部分の検出が困雑となるので、認識性能が著し
く低下し、この方法は実用的でない。
音声を発声していないのに非定常雑音のみが単独で音声
検出された場合は、特願昭52−158819号でも記
載されている如く、音声区間内に有声音区間が存在しな
いときその認識結果を棄却することにより誤動作を回避
できる。ところが、非定常雑音下で発声したり、発声の
直前や直後に非定常雑音が混入した場合には、音声区間
の検出を誤ったまま認識処理を行ってしまう、第2図の
(a)は非定常雑音がなく発声が正確に音声検出された
場合、同図(b)は非定常雑音がある中で発声し音声区
間を誤った場合の例を示す、これら図において、11は
発声区間、12は非定常雑音発生区間、13は音声検出
区間をそれぞれ示す、このように真の発声に対応する区
間を振幅レベルやスペクトル変化のみを見て決定したの
では、正確な音声検出は不可能であり、認識性能を低下
させることは明らかである。
検出された場合は、特願昭52−158819号でも記
載されている如く、音声区間内に有声音区間が存在しな
いときその認識結果を棄却することにより誤動作を回避
できる。ところが、非定常雑音下で発声したり、発声の
直前や直後に非定常雑音が混入した場合には、音声区間
の検出を誤ったまま認識処理を行ってしまう、第2図の
(a)は非定常雑音がなく発声が正確に音声検出された
場合、同図(b)は非定常雑音がある中で発声し音声区
間を誤った場合の例を示す、これら図において、11は
発声区間、12は非定常雑音発生区間、13は音声検出
区間をそれぞれ示す、このように真の発声に対応する区
間を振幅レベルやスペクトル変化のみを見て決定したの
では、正確な音声検出は不可能であり、認識性能を低下
させることは明らかである。
この音声検出誤りの影響を少なくするため、発声の始端
および終端を一意に定めず、始端および終端に幅を持た
せた、いわゆる始端・終端フリーの認識方法がある。始
端・終端フリーの認識は、始端候補点と終端候補点が取
り得る全ての組合せの区間の音声について比較照合を行
い、認識結果として最も可能性の高いものを最終結果と
することにより実現される。−例が、特願昭61−03
1179号に記載されている。@点フリーな区間の範囲
を自由にすると、例えば区間幅を広くしすぎると、真の
発声に対し語頭・語尾が脱落された区間、あるいは語頭
・語尾の外側にある雑音を含む区間が最終的な認識結果
となることがよく起きる。逆に、フリー区間幅を狭くす
ると効果が出ないことになる。
および終端を一意に定めず、始端および終端に幅を持た
せた、いわゆる始端・終端フリーの認識方法がある。始
端・終端フリーの認識は、始端候補点と終端候補点が取
り得る全ての組合せの区間の音声について比較照合を行
い、認識結果として最も可能性の高いものを最終結果と
することにより実現される。−例が、特願昭61−03
1179号に記載されている。@点フリーな区間の範囲
を自由にすると、例えば区間幅を広くしすぎると、真の
発声に対し語頭・語尾が脱落された区間、あるいは語頭
・語尾の外側にある雑音を含む区間が最終的な認識結果
となることがよく起きる。逆に、フリー区間幅を狭くす
ると効果が出ないことになる。
(発明が解決しようとする問題点)
音声の振幅レベルやスペクトル変化などで音声検出を行
い、始端・終端フリーで音声認識を行う場合、従来方法
では、発声の語頭または語尾での付加または脱落による
エラーが多く起きるという欠点があった。本発明の目的
は、前記の欠点を解消して音声検出誤りが少なく、認識
率の高い音声認識装置を提供することにある。
い、始端・終端フリーで音声認識を行う場合、従来方法
では、発声の語頭または語尾での付加または脱落による
エラーが多く起きるという欠点があった。本発明の目的
は、前記の欠点を解消して音声検出誤りが少なく、認識
率の高い音声認識装置を提供することにある。
(問題点を解決するための手段)
前述の問題点を解決するために本発明が提供する音声認
識装置は、入力信号波の音声区間を検出する音声区間検
出部と、前記入力信号波の有声音区間を検出する有声音
区間検出部と、前記音声区間および有声音区間の情報並
びに前記入力信号波を受けこの入力信号波に含まれる音
声の認識をする認識部とを備え:この認識部は:前記音
声区間内に前記有声音区間が存在するときに、その有声
音区間の始端とそれに先行する前記音声区間の始端との
間を発声の真の始端が存在する候袖区間とし、前記有声
音区間の終端と後続する前記音声区間の終端との間を発
声の真の終端が存在する候補区間として、音声の認識を
することを特徴とする。
識装置は、入力信号波の音声区間を検出する音声区間検
出部と、前記入力信号波の有声音区間を検出する有声音
区間検出部と、前記音声区間および有声音区間の情報並
びに前記入力信号波を受けこの入力信号波に含まれる音
声の認識をする認識部とを備え:この認識部は:前記音
声区間内に前記有声音区間が存在するときに、その有声
音区間の始端とそれに先行する前記音声区間の始端との
間を発声の真の始端が存在する候袖区間とし、前記有声
音区間の終端と後続する前記音声区間の終端との間を発
声の真の終端が存在する候補区間として、音声の認識を
することを特徴とする。
(作用)
有声音とは声帯の振動波に声道がWfJ振されて発声さ
れる音声であり、母音や鼻音などが対応する。
れる音声であり、母音や鼻音などが対応する。
これに対して声道中における空気流の摩擦や破裂等によ
って励起され、声帯の振動を伴なわない音声は無声音と
呼ばれ(無声)子音が対応する。日本語の音節は母音を
■、子音をCと表記した場合、かな音に代表されるよう
に通常/CV/という構造となっているので、音節の系
列である音声18号はCとVがほぼ交互に並んで形成さ
れているとみなせる。子音の持続時間は通常10011
sec程度以下であるので、1つの有声音部分と次の有
声音部分の途切れている間隔が一定時間(子音の持続時
間に相当)以下のときは−かたまりの有声音区間として
汲うことにより、発声中の無声音と発声の終了を区別す
ることができる。
って励起され、声帯の振動を伴なわない音声は無声音と
呼ばれ(無声)子音が対応する。日本語の音節は母音を
■、子音をCと表記した場合、かな音に代表されるよう
に通常/CV/という構造となっているので、音節の系
列である音声18号はCとVがほぼ交互に並んで形成さ
れているとみなせる。子音の持続時間は通常10011
sec程度以下であるので、1つの有声音部分と次の有
声音部分の途切れている間隔が一定時間(子音の持続時
間に相当)以下のときは−かたまりの有声音区間として
汲うことにより、発声中の無声音と発声の終了を区別す
ることができる。
非定常雑音を含む周囲雑音は一般に無声音としての性質
が強く、有声音とは区別できる。
が強く、有声音とは区別できる。
非定常雑音の発生中に発声された音声では、有声音区間
検出部が検出した有声音区間の外側に真の発声区間が存
在している。一方弁定常雑音がない時に発声された音声
では、音声区間検出部が検出した音声区間がそのまま真
の発声区間である。
検出部が検出した有声音区間の外側に真の発声区間が存
在している。一方弁定常雑音がない時に発声された音声
では、音声区間検出部が検出した音声区間がそのまま真
の発声区間である。
それゆえ、非定常雑音の有無が不明の場合には音声区間
の始端と有声音区間の始端の間に真の発声の始端があり
、音声区間の終端と有声音区間の終端の間に真の発声の
終端があるとして始端・終端フリーで認識処理を行うこ
とにより音声検出誤りを少なくし認識精度を向上するこ
とができる。始端候補区間または終端候補区間が子音の
持続時間に相当する時間より著しく長い場合には、その
一定時間の外側の音声について認識処理を省くことによ
り、演算時間を減らし、かつ雑音部分をも音声とみなし
て誤認識(付加によるエラー)としてしまう機会を少な
くできることは言うまでもない。
の始端と有声音区間の始端の間に真の発声の始端があり
、音声区間の終端と有声音区間の終端の間に真の発声の
終端があるとして始端・終端フリーで認識処理を行うこ
とにより音声検出誤りを少なくし認識精度を向上するこ
とができる。始端候補区間または終端候補区間が子音の
持続時間に相当する時間より著しく長い場合には、その
一定時間の外側の音声について認識処理を省くことによ
り、演算時間を減らし、かつ雑音部分をも音声とみなし
て誤認識(付加によるエラー)としてしまう機会を少な
くできることは言うまでもない。
有声音の検出については、特願昭52−158819号
に記載されているピッチ検出による方法、高域と低域周
波数とのエネルギー差による方法、零交差回数を利用す
る方法などがある。零交差回数は、信号の符号のみを残
し、振幅を1ビツトに量子化した零交差波が一定時間長
の区間内に零交差した回数であり、スペクトル中の優勢
な周波数成分によく対応する。有声音は低域にエネルギ
ーが集中し零交差回数は少ないので、ある閾値より少な
いものを有声音とみなすことができる。
に記載されているピッチ検出による方法、高域と低域周
波数とのエネルギー差による方法、零交差回数を利用す
る方法などがある。零交差回数は、信号の符号のみを残
し、振幅を1ビツトに量子化した零交差波が一定時間長
の区間内に零交差した回数であり、スペクトル中の優勢
な周波数成分によく対応する。有声音は低域にエネルギ
ーが集中し零交差回数は少ないので、ある閾値より少な
いものを有声音とみなすことができる。
(実施例)
第1図は本発明による音声認識装置の一実施例を示すブ
ロック図である。音声区間検出部1は入力される信号波
Sの振幅レベルが予め定められる閾値よりも高い区間を
音声区間として検出する。
ロック図である。音声区間検出部1は入力される信号波
Sの振幅レベルが予め定められる閾値よりも高い区間を
音声区間として検出する。
この音声区間内では検出信号Kが“1”にセットされ、
音声区間が終ると検出信号には“0″“にリセットされ
る。
音声区間が終ると検出信号には“0″“にリセットされ
る。
有声音区間検出部2は入力信号波Sの音声区間すなわち
検出信号Kが“1”である区間内に有声音が存在すると
きに、その区間を有声音区間として検出する。有声音の
検出に零交差回数を使用した場合、零交差回数を求め一
定の閾値より少ない部分を有声音として判定し検出信号
Pを“1”にセットし有声音が終ると“0”にリセット
する。
検出信号Kが“1”である区間内に有声音が存在すると
きに、その区間を有声音区間として検出する。有声音の
検出に零交差回数を使用した場合、零交差回数を求め一
定の閾値より少ない部分を有声音として判定し検出信号
Pを“1”にセットし有声音が終ると“0”にリセット
する。
この有声音区間検出部2は、一つの有声音部分が途切れ
てから次の有声音部分が始まるまでの間隔が一定時間(
子音持続時間相当)より短いときは、前回有声音が途切
れた点は有声音区間の終端ではなかったとみなす論理を
持っている。
てから次の有声音部分が始まるまでの間隔が一定時間(
子音持続時間相当)より短いときは、前回有声音が途切
れた点は有声音区間の終端ではなかったとみなす論理を
持っている。
認識部3は第3図に示すように音声区間検出信号Kが“
1”になった点から、有声音区間検出信号■〕が°゛1
”になった点までの区間Bを始端候補区間として、前記
検出信号Pが“0”になった点から前記検出信号が“0
”になった点までの区間Eを終端候補区間として、入力
信号波Sの音声を始端・終端フリーで認識し、その結果
Rを出力する。認識部3における認識原理としては種々
のものが提案されているが、それらのいずれであっても
本発明は適用可能である0本実綿例では公知のバタンマ
ツチング法を採用した。バタンマツチング法では予め認
識されるべき単語セットを定め、個々の単語を適当なパ
ラメータによって記述したものを標準バタンとして記憶
しておく、標準バタンは非定常雑音がない環境で発声さ
れた音声を分析して作成される。認識時には非定常雑音
が含まれている可能性のある音声の音声区間をパラメー
タで記述し、入力バタンとする。前記標準バタンと、入
力バタンの始端候補点と終端候補点が取り得る区間につ
いて始端・終端フリーでバタンマツチングを行って最大
一致が得られる標準バタン(列)を定めることによって
、入力バタンはこの標準バタン(列)と同一であると決
定する。
1”になった点から、有声音区間検出信号■〕が°゛1
”になった点までの区間Bを始端候補区間として、前記
検出信号Pが“0”になった点から前記検出信号が“0
”になった点までの区間Eを終端候補区間として、入力
信号波Sの音声を始端・終端フリーで認識し、その結果
Rを出力する。認識部3における認識原理としては種々
のものが提案されているが、それらのいずれであっても
本発明は適用可能である0本実綿例では公知のバタンマ
ツチング法を採用した。バタンマツチング法では予め認
識されるべき単語セットを定め、個々の単語を適当なパ
ラメータによって記述したものを標準バタンとして記憶
しておく、標準バタンは非定常雑音がない環境で発声さ
れた音声を分析して作成される。認識時には非定常雑音
が含まれている可能性のある音声の音声区間をパラメー
タで記述し、入力バタンとする。前記標準バタンと、入
力バタンの始端候補点と終端候補点が取り得る区間につ
いて始端・終端フリーでバタンマツチングを行って最大
一致が得られる標準バタン(列)を定めることによって
、入力バタンはこの標準バタン(列)と同一であると決
定する。
(発明の効果)
以上に説明したように本発明は、非定常雑音があった場
合でも、真に発声された音声区間を正確に推定でき、非
定常雑音がない場合の認識性能を維持できるという効果
がある。呼吸音についても無声音であるので、これによ
り影響されることがなくなるという効果もある。
合でも、真に発声された音声区間を正確に推定でき、非
定常雑音がない場合の認識性能を維持できるという効果
がある。呼吸音についても無声音であるので、これによ
り影響されることがなくなるという効果もある。
第1図は本発明による音声認識装での一実施例の梢成を
示すブロック図、第2図は音声だけの場合と音声に非定
常雑音が重ねられている場合との入力信号を示す波形図
、第3図は第1図実施例における各部信号を示す波形図
である。 1・・・音声区間検出部、2・・・有声音区間検出部、
3・・・認識部、11・・・発声区間、12・・・非定
常雑音発生区間、13・・・音声検出区間。
示すブロック図、第2図は音声だけの場合と音声に非定
常雑音が重ねられている場合との入力信号を示す波形図
、第3図は第1図実施例における各部信号を示す波形図
である。 1・・・音声区間検出部、2・・・有声音区間検出部、
3・・・認識部、11・・・発声区間、12・・・非定
常雑音発生区間、13・・・音声検出区間。
Claims (1)
- 入力信号波の音声区間を検出する音声区間検出部と、前
記入力信号波の有声音区間を検出する有声音区間検出部
と、前記音声区間および有声音区間の情報並びに前記入
力信号波を受けこの入力信号波に含まれる音声の認識を
する認識部とを備え;この認識部は;前記音声区間内に
前記有声音区間が存在するときに、その有声音区間の始
端とそれに先行する前記音声区間の始端との間を発声の
真の始端が存在する候補区間とし、前記有声音区間の終
端と後続する前記音声区間の終端との間を発声の真の終
端が存在する候補区間として、音声の認識をすることを
特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62135866A JPH07113836B2 (ja) | 1987-05-29 | 1987-05-29 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62135866A JPH07113836B2 (ja) | 1987-05-29 | 1987-05-29 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS63300295A true JPS63300295A (ja) | 1988-12-07 |
JPH07113836B2 JPH07113836B2 (ja) | 1995-12-06 |
Family
ID=15161596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62135866A Expired - Lifetime JPH07113836B2 (ja) | 1987-05-29 | 1987-05-29 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH07113836B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6075900A (ja) * | 1983-09-30 | 1985-04-30 | 三菱電機株式会社 | 単語音声認識装置 |
JPS60200300A (ja) * | 1984-03-23 | 1985-10-09 | 松下電器産業株式会社 | 音声の始端・終端検出装置 |
JPS61260299A (ja) * | 1985-05-15 | 1986-11-18 | 株式会社日立製作所 | 音声認識装置 |
JPS62100799A (ja) * | 1985-10-28 | 1987-05-11 | 松下電器産業株式会社 | 音声認識方法 |
-
1987
- 1987-05-29 JP JP62135866A patent/JPH07113836B2/ja not_active Expired - Lifetime
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6075900A (ja) * | 1983-09-30 | 1985-04-30 | 三菱電機株式会社 | 単語音声認識装置 |
JPS60200300A (ja) * | 1984-03-23 | 1985-10-09 | 松下電器産業株式会社 | 音声の始端・終端検出装置 |
JPS61260299A (ja) * | 1985-05-15 | 1986-11-18 | 株式会社日立製作所 | 音声認識装置 |
JPS62100799A (ja) * | 1985-10-28 | 1987-05-11 | 松下電器産業株式会社 | 音声認識方法 |
Also Published As
Publication number | Publication date |
---|---|
JPH07113836B2 (ja) | 1995-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zue | The use of speech knowledge in automatic speech recognition | |
US8140330B2 (en) | System and method for detecting repeated patterns in dialog systems | |
JP3180655B2 (ja) | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 | |
JP3069531B2 (ja) | 音声認識方法 | |
JP2996019B2 (ja) | 音声認識装置 | |
JPS60200300A (ja) | 音声の始端・終端検出装置 | |
JPS60114900A (ja) | 有音・無音判定法 | |
JPS63300295A (ja) | 音声認識装置 | |
JP2006010739A (ja) | 音声認識装置 | |
JP2666296B2 (ja) | 音声認識装置 | |
JPS60129796A (ja) | 音声入力装置 | |
Dersch | A decision logic for speech recognition | |
JPS59170894A (ja) | 音声区間の切り出し方式 | |
JPS6039691A (ja) | 音声認識方法 | |
JPS63217399A (ja) | 音声区間検出装置 | |
JPS63161499A (ja) | 音声認識装置 | |
JPS61260299A (ja) | 音声認識装置 | |
JPS5925240B2 (ja) | 音声区間の語頭検出方式 | |
JPS6317499A (ja) | 単語音声認識方式 | |
JPH02239290A (ja) | 音声認識装置 | |
JPS6039699A (ja) | 音声認識方法 | |
JPH025099A (ja) | 有声無声無音表示装置 | |
JPS61116400A (ja) | 音声情報処理装置 | |
JPH026078B2 (ja) | ||
CHANGCHUN | A new method to distinguish non-voice and voice in speech recognition |