JPS63278100A

JPS63278100A - 音声認識装置

Info

Publication number: JPS63278100A
Application number: JP62106810A
Authority: JP
Inventors: 恒雄新田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1987-04-30
Filing date: 1987-04-30
Publication date: 1988-11-15

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は周囲騒音の大きい環境下でも利用可能な音声認
！１ｍ装置に関する。

（従来の技術）音声による情報の入出力は人間にとって自然性が高く、
マン・マシン・インターフェースとして優れており、従
来より種々研究されている。

現在、実用化されている音声認識装置の殆んどは、音声
単語を認識する方式のものであり、認識対象単語が１６
〜２００　ｍ程度となっている。この種の単語音声！！
！１装置にあっては、Ｑｌｌｌと単語との間をその語中
の無音区間と区別できるように、通常２００１１３８Ｃ
程度の休止区間を設けて発声し、単語を離散的に与える
ことが必要である。

第３図はこの種の従来＠置の一般的な構成例を示すもの
で、発声入力された音声はマイクロフォンを介して電気
信号に変換されて取込まれ、帯域通過フィルタ等からな
る音響分析部１にて分析された後、始端・終端検出部２
にてその単語音声区間が検出される。パターン・マツチ
ング部３は、上述した如く検出された音声区間の待機情
報（音声パターン）と、標準パターン辞書４に予め登録
されている認識対象単語の各標準パターンとの類似度や
距離を計算して照合処理しており、その照合結果を判定
部５にて判定して、例えば類似度の最も高い標準パター
ンの情報を入力音声単語に対゛するＩ！結果として求め
るものとなっている。

このようなパターン・マツチング法による音声認識にあ
っては、特定話者を対象とする場合、音声の周波数・時
間パターンに現われる変形、つまり入力音声パターンと
予め登録された標準パターンとの差は、一般的に時間方
向に限定してよい。

このことは、時間方向のパターン変形をどのようにして
解決するかが、その認識性能を高める上で重要な課題と
なる。そこで従来より実用化されている装置では、一般
的に線形伸縮、或いはＤＰ（動的計画法）に代表される
非線形伸縮により上述した課題を解消している。

下ところで、実際の音声ｆｕｌｌ装置の使用環境ψにおい
ては、音声パワーと周囲雑音のパワーとの比、つまりＳ
Ｎ比がその認識性能を左・右する重要な要因となる。

具体的には、ＳＮ比が高い環境下（例えば３０８以上）
ではその認識性能が良好であるが、ＳＮ比弓しが劣化すると（例えば１０ｄＢ以下）になると、そ認識
性能が急激に劣化すると云う問題がある。

そこで従来、騒音下での音声認識を実現するべく、通常
のマイクロフォンに変えて骨伝導マイクロフォンを利用
することが考えられている。しかし骨伝導マイクロフォ
ンは、空気中を伝搬してくる騒音を拾うことがないと云
う特徴を云うする反面、固体伝搬する音声信号を扱うの
で信号品質が悪く、十分な認識性能を確保することがで
きないと云う新たな問題があった。

（発明が解決しようとする問題点）このように従来の音声認識装置にあっては、下騒音下等のＳＮ比の悪い環境ゼでの音声認識性能に種々
の問題があった。

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、ＳＮ比の悪い環境下においても
高精度に音声ＨＩＥすることのできる実用性の高い音声
認識装置を提供することにある。

［発明の構成］（問題点を解決するための手段）本発明は、伝搬形態を異にする音声をそれぞれ電気信号
に変換する第１および第２の音声入力変換器、例えば空
気中を伝搬する音声を検出するマイクロフォンと、人体
等からなる固体中を伝搬する音声を検出する骨伝導マイ
クロフォンとを用い、一方の音声入力変換器である骨伝
導マイクロフォンにより得られた電気信号の特徴から前
記音声の境界を検出し、この音声の境界情報を用いて前
記他方の音声入力変換器であるところの空気中を伝搬す
る音声信号を検出する通常のマイク０フオンにより得ら
れた電気信号の音声部分を抽出し、この抽出された音声
部分の電気信号の特徴と予め登録されている複数の標準
パターンとをそれぞれ照合して前記音声を認識するよう
にしたことを特徴とするものである。

（作用）本発明によれば、騒音下においてもＳＮ比の高い骨伝導
マイクロフォンによって音声区間を検出し、この検出音
声区間の情報に従って信号品質の高い通常のマイクロフ
ォンからの音声信号を抽出して音声認識するので、音声
部分を正確に検出しながら、その音声部分の品質の高い
信号を用いてその音声！識を実行し得る。

この結果、騒音環境下においてもその！ｉ！識性能を轟
く維持することが可能となる。しかも非常に簡単な構成
で騒音下での音声認識に対処することができ、その実用
的利点が高い。

（実施例）以４下、図面を参照して本発明の一実施例にっき説明す
る。

第１図は実施例装置の概略構成図であり、１１゜１２は
音声を電気信号に変換する第１および第２の入力手段で
あるマイクロフォンである。この第１のマイクロフォン
１１は、人体を固体伝搬する音声を検出する骨伝導マイ
クロフォンからなり、第２のマイクロフォン１２は空気
中伝搬する音声を検出する通常のマイクロフォンからな
る。このように第１および第２のマイクロフォン１１．
１２は、伝１形態をそれぞれ異にする音声をそれぞれ検
出し、電気信号に変換するものとなっている。

しかして第１および第２のマイクロフォン１１゜１２を
介してそれぞれ電気信号に変換されて入力された音声信
号は、前面増幅Ｗ５１３．１４を介して所定の信号レベ
ルに増幅されて音声認識処理に供される。

前記第１のマイクロフォン１１を介して入力された音声
の特徴抽出部１５は、その音声パワーを第２図（ｂ）に
示すようにその特徴情報として抽出しており、音声境界
検出部１６は、検出された音声パワーを所定の同値で弁
別してその入力音声の始端Ｓと終端Ｅとを入力音声区間
として検出している。

一方、第２のマイクロフォン１２を介して入力された音
声信号は、特徴抽出部１１にて帯域通過フィルタリング
処理され、その音声スペクトラムが特徴情報として抽出
されている。この入力音声の特徴抽出は、帯域フィルタ
による分析パターンの抽出のみならず、ＬＰＧ分析パタ
ーンの抽出等によって行うことも勿論可能であり、その
特徴パターンは第２図（ａ）に示す如く求められる。

マツチング範回設定部１８は、このような入力音声の特
徴情報（音声スペクトラムの時系列）から、前記音声区
間検出部１６による始端Ｓおよび終端Ｅの情報に従い、
該当音声区ｆｉｌ（音声部分）の情報だけを認識処理対
象部分として抽出している。

ちなみに前記第２のマイクロフォン１２を介して抽出さ
れた音声信号の特徴パターンに従ってその音声区間を検
出しようとする場合には、例えば周囲環境の雑音等によ
ってその始端および終端の検出位置に大きな検出誤差が
生じることが否めず、音声認識精度の結果の要因となっ
ている。

ここで上述した如き始端Ｓおよび終端Ｅの情報に従って
抽出される音声区間の特徴情報は、スイッチ１９を介し
てその音声単語のカテゴリ名と共に標準パターン登録部
２０に登録され、音声認識の為の標準パターン辞書が構
成されるものとなっている。この標準パターン辞書の構
築は、音声認識処理に先立って、認識対象とする複数の
単語の各カテゴリの全てについて行われる。

しかして音声認識時に上述した如く抽出される音声部分
の特徴情報は、前記スイッチ１９を介してパターン・マ
ツチング部２１に与えられる。パターン・マツチング部
２１は、例えばＤＰマツチング法によって入力音声の特
徴パターンと、前記標準パターン登録部２０に予め登録
されているａＸ対象単語の各標準パターンとの類似度を
それぞれ計算するものである。判定部２２は、このよう
にして各標準パターンとの間で計算された入力音声の類
似度を相互に比較照合し、例えば最も高い類似度を得た
標準パターンの単語カテゴリをその入力音声に対すＷ１
ｉｌｌ結果として出力するものとなっている。

かくしてこのように構成された本装置によれば、音声区
間の検出を周囲騒音の影響を受けることのない骨伝導マ
イクロフォン１１を介して入力された音声信号から高精
度に検出している。そしてこの高精度に検出された音声
区間情報に従って、当該音声を空気中伝搬して検出する
マイクロフォン１２を介して入力された信号品質の高い
音声信号に対する音声部分を特定し、その音声信号から
求められる特徴パラメータ（分析パターン）が０識処理
される。

この結果、周囲環境が騒音状態であり、入力音声のＳＮ
比が悪い場合であっても、その音声区間を正確に検出し
、信号品質の高い音声信号の情報を用いてその入力音声
を精度良＜ａ’ｇ＊することが可能となる。換言すれば
、そのｉ！識性能を周囲環境に左右されることなく、常
に高く維持することが可能となる。

尚、本発明は上述した実施例に限定さるものではない。

例えばマイクロフォンの種類や音声境界（音声区間）の
検出方法、マツチング範囲の設定方法等は、適宜その使
用に応じて変形して実施することが可能である。また認
識照合の手法もＤＰマツチングのみならず、従来より種
々提唱されている手法を適宜採用可能である。特にＤＰ
マツチングを行う場合には、音声境界の検出情報を直接
パターンマツチング部３に与えてそのマツチング処理の
制御情報として供することも可能である。

その他、本発明はその要旨を逸脱しない範囲で種々変形
して実施することができる。

［発明の効果］以上説明したように本発明によれば、騒音下においても
入力音声区間を高精度に、且つ安定に検出し、信号品質
の高い入力音声から求められる特徴情報に従ってその入
力音声を簡易に、且つ高精度に認識することができ、認
識性能を十分＾く維持することができる等の実用上多大
なる効果が奏せられる。

【図面の簡単な説明】

第１図は本発明の一実施例装置の概略構成図、第２図は
実施例＠置の作用を示す図、第３図は従来装置の概略構
成図である。１１・・・第１の音声入力変換器（骨伝導マイクロフォ
ン）、１２・・・第２の音声入力変換器（空気中伝搬の
通常のマイクロフォン）、１３．１４・・・前置増幅器
、１５．１７・・・特徴抽出部、１６・・・音声境界検
出部、１８・・・マツチング範囲設定部、１９・・・ス
イッチ、２０・・・標準パターン登録部、２１・・・パ
ターン・マツチング部、２２・・・判定部。

Claims

【特許請求の範囲】

（１）伝搬形態を異にする音声をそれぞれ電気信号に変
換する第１および第２の音声入力変換器と、上記一方の
音声入力変換器により得られた電気信号の特徴から前記
音声の境界を検出する音声境界検出部と、この音声の境
界情報を用いて前記他方の音声入力変換器により得られ
た電気信号の音声部分を抽出する手段と、抽出された音
声部分の電気信号の特徴と予め登録されている複数の標
準パターンとをそれぞれ照合するマッチング部と、この
マッチング結果に従って前記音声に該当する標準パター
ンの情報を求める判定部とを具備したことを特徴とする
音声認識装置。
（２）第１および第２の音声入力変換器は、空間中を伝
搬する音声波を電気信号に変換するマイクロフォンと、
固体中を伝搬する音声波を電気信号に変換する骨伝導マ
イクロフォンとからなり、音声の境界検出は上記骨伝導
マイクロフォンによる得られた電気信号を用いて行われ
るものである特許請求の範囲第１項記載の音声認識装置
。