JPS63316097A - 連続音声認識装置 - Google Patents
連続音声認識装置Info
- Publication number
- JPS63316097A JPS63316097A JP62152520A JP15252087A JPS63316097A JP S63316097 A JPS63316097 A JP S63316097A JP 62152520 A JP62152520 A JP 62152520A JP 15252087 A JP15252087 A JP 15252087A JP S63316097 A JPS63316097 A JP S63316097A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- recognition
- speech
- section
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003321 amplification Effects 0.000 claims description 23
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 description 19
- 238000000034 method Methods 0.000 description 11
- 238000003708 edge detection Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、連続的に発声された音声を認識する音声認識
装置に関する。
装置に関する。
(従来の技術)
従来、この種の連続音声認識装置では、登録(特定話者
用の音声認識装置で行なう処理)や認識処理を行なう前
に、マイクロホンからの音声信号を増幅するための増幅
器の増幅度を発声者自身がボリューム等で設定したり、
あるいは発声者のテスト発声のレベルに従って音声認識
装置が自動的に増幅度を設定して(以後このレベルを設
定する処理をレベル設定と呼ぶ)、その増幅度で増幅さ
れた音声信号に対して連続音声認識処理を行なっていた
。
用の音声認識装置で行なう処理)や認識処理を行なう前
に、マイクロホンからの音声信号を増幅するための増幅
器の増幅度を発声者自身がボリューム等で設定したり、
あるいは発声者のテスト発声のレベルに従って音声認識
装置が自動的に増幅度を設定して(以後このレベルを設
定する処理をレベル設定と呼ぶ)、その増幅度で増幅さ
れた音声信号に対して連続音声認識処理を行なっていた
。
(発明が解決しようとする問題点)
上述した従来の連続音声認識装置では、レベル設定後に
登録や認識が行なわれ、レベル設定で決定された増幅度
は、その登録や認識処理中は変更きれることなく一定の
増幅度でマイクロホンからの音声信号を増幅して処理し
ている。このようにして増幅度を設定する従来の連続音
声認識装置では、発声者の音量が変化した場合には最適
な増幅度の音声信号が得られない場合があった。万一増
幅度が最適となった場合でも連続的に発声された音声で
は音量が大きい認識対象区間に対して最適になるように
増幅度が決められるから、連続的に発声された音声中に
音量が小きい認識対象区間が存在した場合、その区間で
は増幅度が小さい。
登録や認識が行なわれ、レベル設定で決定された増幅度
は、その登録や認識処理中は変更きれることなく一定の
増幅度でマイクロホンからの音声信号を増幅して処理し
ている。このようにして増幅度を設定する従来の連続音
声認識装置では、発声者の音量が変化した場合には最適
な増幅度の音声信号が得られない場合があった。万一増
幅度が最適となった場合でも連続的に発声された音声で
は音量が大きい認識対象区間に対して最適になるように
増幅度が決められるから、連続的に発声された音声中に
音量が小きい認識対象区間が存在した場合、その区間で
は増幅度が小さい。
(音量が大きい部分に比べてA/D変換後の量子化の精
度が粗い)音声信号を処理して音声認識を行なわざるを
えない欠点があった。具体的な例を第2図で説明する。
度が粗い)音声信号を処理して音声認識を行なわざるを
えない欠点があった。具体的な例を第2図で説明する。
第2図は、発声者が「52」を発声したときのマイクか
らの音声信号パワー(音量)の変化を示す図である。一
般的に「52」の発声の中で、“5”の発声区間は“2
″の発声区間に比べてパワーが大きい、“5″の発声区
間に最適な増幅度をもった音声信号が万−得られた場合
でもダイナミックレンジ(第2@のレベルD)に占める
“2”の音量のレベルの割合が小さいから、A/D変換
後に十分な分解能が得られず、“2″の発声区間の量子
化の精度が“5”のそれに比較して粗くなる欠点があっ
た。
らの音声信号パワー(音量)の変化を示す図である。一
般的に「52」の発声の中で、“5”の発声区間は“2
″の発声区間に比べてパワーが大きい、“5″の発声区
間に最適な増幅度をもった音声信号が万−得られた場合
でもダイナミックレンジ(第2@のレベルD)に占める
“2”の音量のレベルの割合が小さいから、A/D変換
後に十分な分解能が得られず、“2″の発声区間の量子
化の精度が“5”のそれに比較して粗くなる欠点があっ
た。
(問題点を解決するための手段)
前述の問題点を解決するために本発明が提供する手段は
、連続的に発声された音声を認識する連続音声認識装置
であって、入力音声信号を互いに異なる増幅度でそれぞ
れ増幅する複数の増幅器と、前記入力音声信号の始端を
検出する始端検出部と、前記入力音声信号の終端を検出
する終端検出部と、前記始端から前記終端までの期間に
おける複数の前記増幅器の出力をそれぞれ一時記憶する
複数の記憶部と、前記始端から前記終端に到るまでの期
間を複数のセグメントに分割する手段と、各前記セグメ
ントごとに当該セグメントにおける最適な増幅度に対応
する前記記憶部から音声信号を読み出して認識処理を行
なう認識部とを有してなる。
、連続的に発声された音声を認識する連続音声認識装置
であって、入力音声信号を互いに異なる増幅度でそれぞ
れ増幅する複数の増幅器と、前記入力音声信号の始端を
検出する始端検出部と、前記入力音声信号の終端を検出
する終端検出部と、前記始端から前記終端までの期間に
おける複数の前記増幅器の出力をそれぞれ一時記憶する
複数の記憶部と、前記始端から前記終端に到るまでの期
間を複数のセグメントに分割する手段と、各前記セグメ
ントごとに当該セグメントにおける最適な増幅度に対応
する前記記憶部から音声信号を読み出して認識処理を行
なう認識部とを有してなる。
(実施例)
次に本発明の実施例について図面を参照して説明する。
第1図は本発明の連続音声認識装置の一実施例を示す構
成図である。
成図である。
本実施例において、増幅器At * kl v・・・、
A、はそれぞれ異なる増幅度をもっており、マイクロホ
ンMCから入力した音声信号をそれぞれ増幅する。
A、はそれぞれ異なる増幅度をもっており、マイクロホ
ンMCから入力した音声信号をそれぞれ増幅する。
始端検出部SD、終端検出部EDは音声信号の始めと終
わりを検出しそれぞれ始端検出信号Sly終端検出信号
S、を出力する。A/D変換器CI + Cm +・・
・+CMは増幅器at # Ax I・・・?AIの出
力をそれぞれディジタルな音声信号に変換する。記憶部
M1+1、・・・+ M’Iはそれぞれ始端検出信号S
Iを入力してから終端検出信号S、を入力するまでA/
D変換器C1t at I・・・+CIからの音声信号
を記憶する。連続音声認識部(以後認識部と呼ぶ)RC
は、終端検出信号S、を受信した時点で、連続音声認識
処理を開始する。
わりを検出しそれぞれ始端検出信号Sly終端検出信号
S、を出力する。A/D変換器CI + Cm +・・
・+CMは増幅器at # Ax I・・・?AIの出
力をそれぞれディジタルな音声信号に変換する。記憶部
M1+1、・・・+ M’Iはそれぞれ始端検出信号S
Iを入力してから終端検出信号S、を入力するまでA/
D変換器C1t at I・・・+CIからの音声信号
を記憶する。連続音声認識部(以後認識部と呼ぶ)RC
は、終端検出信号S、を受信した時点で、連続音声認識
処理を開始する。
認識部RCの処理を第3@の例を使って説明する。第3
図は連続的に発声されたある音声の音量の変化を示した
図である。認識部RCは連続的に発声された音声に仮区
分点P、Qを設定して3つのセグメントA、B、Cに分
割する。認識部RCはセグメントAの始点a、をセグメ
ント始点信号S1、終点a、をセグメント終点信号S4
として増幅度選択部SEへ送る。増幅度選択部SEは、
始点a。
図は連続的に発声されたある音声の音量の変化を示した
図である。認識部RCは連続的に発声された音声に仮区
分点P、Qを設定して3つのセグメントA、B、Cに分
割する。認識部RCはセグメントAの始点a、をセグメ
ント始点信号S1、終点a、をセグメント終点信号S4
として増幅度選択部SEへ送る。増幅度選択部SEは、
始点a。
と終点a、で示されるセグメントΔの区間に対して最適
な増幅度で記憶きれている音声信号を記憶部M、〜H1
の中から選び、セグメント音声信号Vとして認識部RC
へ送る。認識部RCは送られてきたセグメントAの音声
信号から特徴を抽出して、その特徴からセグメントAの
認識結果Aを得る。具体的には、バンドパスフィルター
の出力を特徴として、標準バタンと未知バタン(セグメ
ントAの特徴から得られたバタン)の一致の度合(類似
度)を調べてその類似度が最も大きい標準バタンのカテ
ゴリ(属′性)を認識結果とするバタンマツチング法で
音声認識が実現できる。第3図のセグメントB、Cにつ
いても同様の処理を行なって認識結果B、Cを得る。
な増幅度で記憶きれている音声信号を記憶部M、〜H1
の中から選び、セグメント音声信号Vとして認識部RC
へ送る。認識部RCは送られてきたセグメントAの音声
信号から特徴を抽出して、その特徴からセグメントAの
認識結果Aを得る。具体的には、バンドパスフィルター
の出力を特徴として、標準バタンと未知バタン(セグメ
ントAの特徴から得られたバタン)の一致の度合(類似
度)を調べてその類似度が最も大きい標準バタンのカテ
ゴリ(属′性)を認識結果とするバタンマツチング法で
音声認識が実現できる。第3図のセグメントB、Cにつ
いても同様の処理を行なって認識結果B、Cを得る。
ここで得られた認識結果A、B、Cは、連続的に発声さ
れた音声を仮の区分点P、Qで3分割した場合の結果で
あり最終的な認識結果を得るための候補となる。認識部
RCは、連続音声のセグメント(分割)数とそれに伴う
区分点の位置を変数としてこのすべての変数の組合せに
対して第3図の例で説明した処理をくり返し行ない、各
々の組合せ毎に認識結果の候補を得て、その候補の中か
ら最も類似度の大きい候補を最終的な連続音声の認識結
果Tとして出力する。
れた音声を仮の区分点P、Qで3分割した場合の結果で
あり最終的な認識結果を得るための候補となる。認識部
RCは、連続音声のセグメント(分割)数とそれに伴う
区分点の位置を変数としてこのすべての変数の組合せに
対して第3図の例で説明した処理をくり返し行ない、各
々の組合せ毎に認識結果の候補を得て、その候補の中か
ら最も類似度の大きい候補を最終的な連続音声の認識結
果Tとして出力する。
具体的には、認識部RCの連続認識の処理は前述したバ
タンマツチング法とDP法(DYNAMICPROGR
AMING法)を用いて実現できる。
タンマツチング法とDP法(DYNAMICPROGR
AMING法)を用いて実現できる。
以上、認識部RCの一実施例としてバタンマツチング法
、DP法をあげたが、他のいかなる認識方式についても
本発明が適用できることは明らかである。また本実施例
では増幅度の段階を5レベルとして説明したが、本発明
は5レベルに限定されるものではない。
、DP法をあげたが、他のいかなる認識方式についても
本発明が適用できることは明らかである。また本実施例
では増幅度の段階を5レベルとして説明したが、本発明
は5レベルに限定されるものではない。
(発明の効果)
以上説明したように本発明では、連続音声を複数のセグ
メントに分割して各々のセグメントの認識処理を行なう
場合、各セグメント毎にそのセグメントの区間にとって
最適な増幅度をもった音声信号を記憶部より選択するの
で、発声レベルが低い連続音声の部分に対しても最適な
増幅度で増幅された音声信号の処理が可能である。そこ
で、本発明の連続音声認識装置によれば、従来発声レベ
ルが低いために特徴量が十分に抽出されないことが原因
となって発生したエラーやりジェツトを削減できる。
メントに分割して各々のセグメントの認識処理を行なう
場合、各セグメント毎にそのセグメントの区間にとって
最適な増幅度をもった音声信号を記憶部より選択するの
で、発声レベルが低い連続音声の部分に対しても最適な
増幅度で増幅された音声信号の処理が可能である。そこ
で、本発明の連続音声認識装置によれば、従来発声レベ
ルが低いために特徴量が十分に抽出されないことが原因
となって発生したエラーやりジェツトを削減できる。
第1図は本発明の連続音声認識装置の一実施例を示す構
成図、第2図は発声者が「52」を発声したときのマイ
クからの音声信号の音量の変化を示す図、第3図は連続
的にある音声を発声したときのマイクからの音声信号の
音量の変化を示す区である。 MCはマイクロホン、AI + At +・・・+AI
は増幅器、C,、C,、・・・、CaはA/D変換器、
MI HMt r・・・+M6は記憶部、SEは増幅度
選択部、RCは連続音声認識部、SDは始端検出部、E
Dは終端検出部、Slは始端検出信号、S、は終端検出
信号、Vはセグメント音声信号、S、はセグメント始点
信号、S4はセグメント終点信号、Tは連続音声認識結
果である。
成図、第2図は発声者が「52」を発声したときのマイ
クからの音声信号の音量の変化を示す図、第3図は連続
的にある音声を発声したときのマイクからの音声信号の
音量の変化を示す区である。 MCはマイクロホン、AI + At +・・・+AI
は増幅器、C,、C,、・・・、CaはA/D変換器、
MI HMt r・・・+M6は記憶部、SEは増幅度
選択部、RCは連続音声認識部、SDは始端検出部、E
Dは終端検出部、Slは始端検出信号、S、は終端検出
信号、Vはセグメント音声信号、S、はセグメント始点
信号、S4はセグメント終点信号、Tは連続音声認識結
果である。
Claims (1)
- 連続的に発声された音声を認識する連続音声認識装置に
おいて、入力音声信号を互いに異なる増幅度でそれぞれ
増幅する複数の増幅器と、前記入力音声信号の始端を検
出する始端検出部と、前記入力音声信号の終端を検出す
る終端検出部と、前記始端から前記終端までの期間にお
ける複数の前記増幅器の出力をそれぞれ一時記憶する複
数の記憶部と、前記始端から前記終端に到るまでの期間
を複数のセグメントに分割する手段と、各前記セグメン
トごとに当該セグメントにおける最適な増幅度に対応す
る前記記憶部から音声信号を読み出して認識処理を行な
う認識部とを有する連続音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62152520A JPS63316097A (ja) | 1987-06-19 | 1987-06-19 | 連続音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62152520A JPS63316097A (ja) | 1987-06-19 | 1987-06-19 | 連続音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS63316097A true JPS63316097A (ja) | 1988-12-23 |
Family
ID=15542236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62152520A Pending JPS63316097A (ja) | 1987-06-19 | 1987-06-19 | 連続音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS63316097A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002005266A1 (fr) * | 2000-07-10 | 2002-01-17 | Matsushita Electric Industrial Co., Ltd. | Systeme de reconnaissance de la parole, procede de reconnaissance de la parole et programme de reconnaissance de la parole |
JP2020517204A (ja) * | 2017-04-06 | 2020-06-11 | キム, クム チョルKIM, Geum Cheol | 広い領域で音を損失なく収集する装置及び使用方法 |
-
1987
- 1987-06-19 JP JP62152520A patent/JPS63316097A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002005266A1 (fr) * | 2000-07-10 | 2002-01-17 | Matsushita Electric Industrial Co., Ltd. | Systeme de reconnaissance de la parole, procede de reconnaissance de la parole et programme de reconnaissance de la parole |
JP2020517204A (ja) * | 2017-04-06 | 2020-06-11 | キム, クム チョルKIM, Geum Cheol | 広い領域で音を損失なく収集する装置及び使用方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4720863A (en) | Method and apparatus for text-independent speaker recognition | |
US4918735A (en) | Speech recognition apparatus for recognizing the category of an input speech pattern | |
EP0077194B1 (en) | Speech recognition system | |
JPH09325790A (ja) | 音声処理方法および装置 | |
JPS5844500A (ja) | 音声認識方式 | |
JPS63316097A (ja) | 連続音声認識装置 | |
JPS6029800A (ja) | 音声分析方式 | |
CN115294990B (zh) | 扩声系统检测方法、系统、终端及存储介质 | |
JPS62272300A (ja) | 音声認識装置 | |
JP2975808B2 (ja) | 音声認識装置 | |
JP2997007B2 (ja) | 音声パターンマッチング方法 | |
JPH04324499A (ja) | 音声認識装置 | |
JPS6126080B2 (ja) | ||
JPS61123897A (ja) | 音声の始端決定装置 | |
JPS6172299A (ja) | 音声認識装置 | |
JPS62159195A (ja) | 音声パタン作成方法 | |
JPS63118796A (ja) | 音声認識装置 | |
CN117789764A (zh) | 车机输出音频检测方法、系统、控制装置及存储介质 | |
KR20210016975A (ko) | 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법 | |
JPH04240899A (ja) | 音声認識装置 | |
JPS58159599A (ja) | 単音節音声認識方式 | |
JPH04199199A (ja) | 音声認識装置 | |
JPS6173998A (ja) | 音声認識装置 | |
JPH04240897A (ja) | 音声認識装置 | |
JPH06222788A (ja) | 音声認識装置 |