JPS6346496A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6346496A
JPS6346496A JP61191397A JP19139786A JPS6346496A JP S6346496 A JPS6346496 A JP S6346496A JP 61191397 A JP61191397 A JP 61191397A JP 19139786 A JP19139786 A JP 19139786A JP S6346496 A JPS6346496 A JP S6346496A
Authority
JP
Japan
Prior art keywords
matching
category
pattern
unit
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61191397A
Other languages
English (en)
Inventor
室井 哲也
沢井 秀文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JPS6346496A publication Critical patent/JPS6346496A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 皮帆九駅 本発明は、複数の標準パターン(マルチテンプレート)
を有する音声認識装置に関する6従米艮玄 第9図は、従来の音声認識装置の一例を説明するための
電気的ブロック線図で、図中、1は音声入力用マイクロ
フォン、2は音声の前処理部、3は特徴抽出部、4は認
識処理部、5はe3準パターン格納部、6は認識結果出
力部で、マイクロフォン1から入力された音声は、前処
理部2で高域強調や低域通過フィルタを通した後、特徴
抽出部3で音声に特有な特徴パラメータに変換され、認
識処理部4で予め前記マイクロフォン1乃至特徴抽出部
3の過程を経て分析しておいた標準パターンとの照合が
行なわれ、入力音声パターンに最も近い標準パターン名
を認識結果出力部6に認識結果として出力する。
而して、上記従来の音声認識装置における音韻、音節、
単語等の標準パターンは認識率を向上させる目的で同一
カテゴリーのものに対して複数個(これをマルチテンプ
レートという)用意し、入力音声パターンとの照合を行
なうものが一般的である。しかし、認識率は向上するも
のの、認識対象となるカテゴリーの種類が多い時には、
照合に関する時間が増大し、特に大詰合単語を対象とす
る場合には、実時間での処理が困難になる。また、音声
は発声時期の違いや、話者による変動など様々な要因で
音声パターンの変動が著しく、そのため、1つのカテゴ
リーに単一の標準パターンを用いる方式では十分な認識
性能が上げられていない。そこで、入力音声パターンの
変動にそなえて、1つのカテゴリーについて複数の標準
パターンを用意する方式(マルチテンプレート方式)が
ある。
しかし、この方式では、複数の標準パターンを用意する
ことによって認識性能は向上するものの標準パターン数
が増加した分だけ、認識処理時間が増加し、高速な認識
処理が難かしくなるという欠点があった。また、各カテ
ゴリーごとに、それを代表する標準パターンを1つ用意
し、まず、その代表する標準パターンとマツチングを行
なって、上位候補を求め、その候補について複数の標準
パターンとマツチングさせる方法が考えられた。しかし
、初段の照合部で用いるe:44!!パターンを各カテ
ゴリーについて1つと限定すると、照合部で出力する上
位候補に正しいカテゴリーが含まれないことが多い。例
えば、「Z」は、/zeQto/+/Z eQ t /
 t / Z i/の3種類の発声があり、この「Z」
のカテゴリーを1つの標準パターンで代表させることは
不可能である。
目     的 本発明は、上述のごとき実情に鑑みてなされたもので、
複数の標準パターン(マルチテンプレート)を有する音
声認識装置において、同一カテゴリーに属するパターン
との照合を極力減少させることによって、マルチテンプ
レート方式における認識処理時間の増加をおさえ、高速
な認識処理を行なって認r11sを向上させること、更
には、マルチテンプレート方式における高い認識性能を
劣化させることなく、認識処理時間を減少させることを
目的としてなされたものである。
構成 本発明は、上記目的を達成するために、音声を入力する
マイクロフォン、音響的な前処理を行なう前処理部、音
声の特徴的なパラメータを抽出する特徴抽出部、認識対
象となる各カテゴリーについて複数の標準パターン(マ
ルチテンプレート)及びそれらの平均パターンを格納す
る標準パターン格納部、入力された音声の特徴パターン
と標準パターンとのパターンマツチングを行なう認識処
理部、認識処理部で得られた認識結果の上位候補につい
て再び認識処理を行なう再認識処理部、認識結果を出力
する認識結果出力端子部とから成り、認識処理を各カテ
ゴリー毎にマルチテンプレート中の任意の1パターンと
のマツチングを行なった後に、上位候補のカテゴリーに
ついてのみマルチテンプレートとの再照合を行なうこと
、及び、少なくとも音声を入力する入力部と、入力され
た音声を特徴ベクトルに変換する特徴ベクトル変換部と
、認識対象となる各カテゴリーについて複数の標準パタ
ーンを格納する標準パターン格納部と、入力された音声
の特徴ベクトルと標僧パターンとのマツチングを行なう
照合部と、照合部で得られた認識結果の上位候補につい
てのみ再び照合を行なう再照合部から成る音声認識装置
において、各カテゴリーごとに、当該カテゴリーを代表
する標準パターンを複数用意しておき、照合部では、各
カテゴリーを代表する複数の標準パターンとマツチング
を行なって上位候補を出力し、再照合部では、上位候補
のカテゴリーについてのみ、カテゴリーを代表する標準
パターン以外の標準パターンともマツチングを行なうこ
とを特徴としたものである。以下、本発明の実施例に基
いて説明する。
第1図は、本発明の一実施例を説明するための電気的ブ
ロック線図で、図中、7は再認識処理部、8は標準パタ
ーン格納部で、その他、第9図に示した従来技術と同様
の作用をする部分には第9図の場合と同一の参照番号が
付しである。而して。
本実施例が第9図に示した従来技術と異なる点は、従来
技術における標準パターン格納部5が同一カテゴリー(
音韻名、音節名、単語名を意味する)に対して1つのパ
ターンしか持たないのに対して、本実施例による標準パ
ターン格納部8は複数のパターン(マルチテンプレート
)及びそれらの平均パターンを有する点であり、さらに
は、再認識処理部7で標準パターン格納部8のマルチテ
ンプレートを参照して入カバターンの再照合を行なう点
である。
第2図は、第1図に示した標準パターン格納部8のパタ
ーンの構成を示す図で、■はマルチテンプレート、■は
平均パターンで、N個のカテゴリー31.#2.・・・
・、3Nに対して、各々テンプレートがn個存在するマ
ルチテンプレートの構成をとる。この図では、カテゴリ
ーとして0から9の数字やアルファベット、単語等を例
として示している。各カテゴリー毎にn個のテンプレー
トを平均化して平均パターンを作成している。
801.802.・・・・、8Nはマルチテンプレート
、801 a 、 802 a 、 ”、 8 N a
は平均化テンプレートを表わす。
第3図は、本実施例における認識処理の流れを表わすフ
ローチャートで、図中、41は認識処理開始端子、42
は第1段での認識処理部、71は認識候補選択部、72
は選択候補に対する認識処理を行う第2段の認識処理部
、73はカテゴリー毎の平均比に計算部、74は認識結
果選択部、6は認識結果出力部で1図示のように、第2
図の各カテゴリーについてマルチテンプレート中の1個
のテンプレート(シングルテンプレートと呼ぶ)又は平
均テンプレートと入カバターンとのマツチングを第1段
での認識処理部42で行なう。その結果、上位N工(N
、<N)個の候補のうち、第1位との距離の比がT h
 (Th> 1 )以内のものを再認識処理の対象とし
て選択する。次に、第2段の認識処理部72でこれらの
選択候補のカテゴリーに対して、再び第2図のマルチテ
ンプレート中の全てのパターンとのマツチングを行ない
、平均距離計算部73で各カテゴリー毎に入カバターン
との平均距煎を計算する。平均距離の内、最小距離を持
つカテゴリーを認識結果選択部74で選択し、その認識
結果を認識結果出力部6に出力する。
第4図は、本実施例における変形実施例を示す図で1図
中、9はカテゴリーの予備選択部、10は予備選択用の
標準パターン格納部で、この実施例は、認識処理部4で
認識を行なうに先立って認識対象を予備選択部9で絞っ
ておき、処理の高速化を図ったものである。
第5図は、本実施例の更に他の変形実施例を示す図で、
この実施例は、第4図に示した実施例に対し、さらに、
音声パターンのベクトル量子化部11と代表ベクトルの
集合体であるコードブック格納部12を付加したもので
、これらベクトル量子化部11とコードブック格納部1
2により、第4図に示した実施例に比べてさらに高速な
処理が行なえるようにしたものである。
また、第3図の平均距離計算部73で平均距離を計算す
る際に、各カテゴリーについてn個の距離のうち、小さ
い方からk(k≦n)個選択してもよい。所m k N
 N法(k −Nearest Neighbor法)
の手法を導入して、さらに認識性能を向」ニさせること
も可能である。
第6図は、本発明の他の実施例を説明するための電気的
ブロック線図で、この実施例は、音声を入力する入力部
21と、入力された音声を特徴ベクトルに変換する特徴
ベクトル変換部22と、認識対象となる各カテゴリーご
とに複数の標準パターンを格納する標準パターン格納部
25と、入力された音声の特徴ベクトルと42準パター
ンとのマツチングを行なう照合部23と、照合部で得ら
れた認識結果の上位候補についてのみ再び照合を行なう
再照合部24とから成る音声装置において、照合部23
では、各カテゴリーを代表する複数の標準パターンとマ
ツチングを行なって上位候補を出力し、再照合部24で
は、上位候補のカテゴリーについてのみ、当該カテゴリ
ーを代表する標準パターンともマツチングを行なうもの
で、マイク21から入力された音声は、特徴ベクトル変
換部22によって特徴ベクトルに変換される。特徴ベク
トルは1例えば、10m5ごとにサンプリングされた1
6チヤンネルのバンドパスフィルタ群の出力を用いれば
良い。
第7図は、標準パターンの構成を概念的に示したもので
、aijはカテゴリーiを代表する標準パターン、bi
jはカテゴリーiに属する標準パターンである。照合部
23では、カテゴリーを代表する標準パターンaijの
全てとマツチングを行なって上位候補を出力する。例え
ば、照合部での認識結果が、表1のようになったとし、
上位候補として、照合部での認識結果の3位まで選ぶよ
うに決めれば、上位候補としては、第7図のAに示すカ
テゴリー(単語「1」)、及び、第7図のBに示すカテ
ゴリー8(単語「8」)が選ばれる。
再照合部では、カテゴリー1,8に含まれる全ての標準
パターン(a1j+ bxj+ aej+ bsJ)と
マツチングを行なって認識結果26を得るようにする。
上述のように、本実施例においては、照合部で得られた
上位候補のカテゴリーについてのみ全ての標準パターン
とマツチングを行なうことにより、比較的パターンが似
ているカテゴリー(本実施例の説明図では単語rlJと
単語「8」のカテゴリー)については多くの標準パター
ンとマツチングできるため、精密な照合が可能であり、
入力音声パターンと大きく異なっているカテゴリー(本
実施例の説明図では単語「2」のカテゴリー(第7図の
Cのカテゴリー))では、カテゴリーを代表していない
標準パターンbijとは照合していないため、高速な認
識処理が可能である。
第8図は、各カテゴリーを複数のクラスタに分割した場
合の標準パターンの構成を示しており、(Aは単語「1
」のカテゴリー、Bは単語r3Jのカテゴリー)、ai
kはカテゴリーiのクラスタ#kを代表する標準パター
ン、bikjはカテゴリ−iのクラスタ#kに属する標
準パターンを示している。クラスタに分割する方法は様
々なものが知られており、例えば、DPマツチングを行
なったときの単語間距離を距踵尺度とした最短距離法の
手法を用いれば良い。また、クラスタを代表する標準パ
ターンaikは同一クラスタ内の全てのパターンとの単
語間距離の和が最も小さくなるものを選べば良い。
照合部では、各クラスタを代表する標準パターンaik
とマツチングを行ない、上位候補として得られたカテゴ
リーについてのみ全ての標準パターンaik、 bik
とマツチングを行なう。表2は各カテゴリーをクラスタ
に分割し、照合部で各クラスタを代表する標準パターン
とマツチングを行なったときの認識結果の例である。
上位候補として、照合部での順位を3位までと決めれば
、上位候補のクラスタとして、カテゴリー1のクラスタ
32.#1.カテゴリー8のクラスタ#2が選ばれる。
再照合部では、この3つのクラスタに含まれる全ての標
1(13パターンとマツチングを行なって認識結果を得
る。
本実施例では、上位候補に含まれるカテゴリーであって
も、クラスタが含まれない場合(表2のカテゴリー8、
クラスタ#1)は、そのクラスタについては、再照合を
行なわないようにしている。
これは、クラスタを代表するパターンが照合部で上位に
出現しない場合、再照合部でそのクラスタに属する標i
’Fパターンとマツチングを行なっても、最終的な認識
結果に影響を与える可能性が非常に小さいためである。
従って、本実施例によると、再照合部で照合すべき標傅
パターンが減少し、高速な認識が可能となる。
効   効 以上の説明から明らかなように、本発明によると、通常
の認識処理の後に、上位候補について再度マルチテンプ
レートとの照合を行なうので、認識性能を向上させるこ
とができ、しかも、再照合に要する計算量の増加は全体
の処理量に比べて極めて少ないために高速な処理が可能
である。更には、マルチテンプレート方式の認識を劣化
させずに高速な認識が可能となる。
【図面の簡単な説明】
第1図は、第1図に示した実施例の一実施例を説明する
ための電気的ブロック線図、第2図は、第1図に示した
標準パターン格納部のパターン構成例を示す図、第3図
は、第1図に示した実施例における認識処理の流れを示
すフローチャート、第4図及び第5図は、それぞれ第1
図に示した実施例の変形実施例を説明するための電気的
ブロック線図、第6図は、本発明の他の実施例を説明す
るための電気的ブロック線図、第7図は5標阜パターン
の構成を示す図、第8図は、クラスタに分割した標鵡パ
ターンの構成を示す図、第9図は、従来の音声認識装置
+’fの一例を説明するための図である。 1・・・音声入力用マイクロフォン、2・・前処理部、
3・・・特徴抽出部、4・・・認識処理部、5・・・標
準パターン格納部、6・・・認識結果出力部、7・・再
認識処理部、8・・・標準パターン格納部、9・・・カ
テゴリー予備選択部、10・・予備選択標イ曽パターン
格納部、11・・・ベクトル量子化部、12・・コード
ブック格納部、21・・・マイク、22・・・特徴ベク
トル変換部、23・・照合部、24・・・再照合部、2
5・・・標準パターン格納部、26・・認識結果部。

Claims (8)

    【特許請求の範囲】
  1. (1)、音声を入力するマイクロフォン、音響的な前処
    理を行なう前処理部、音声の特徴的なパラメータを抽出
    する特徴抽出部、認識対象となる各カテゴリーについて
    複数の標準パターン(マルチテンプレート)及びそれら
    の平均パターンを格納する標準パターン格納部、入力さ
    れた音声の特徴パターンと標準パターンとのパターンマ
    ッチングを行なう認識処理部、認識処理部で得られた認
    識結果の上位候補について再び認識処理を行なう再認識
    処理部、認識結果を出力する認識結果出力端子部とから
    成り、認識処理を各カテゴリー毎にマルチテンプレート
    中の任意の1パターンとのマッチングを行なつた後に、
    上位候補のカテゴリーについてのみマルチテンプレート
    との再照合を行なうことを特徴とする音声認識装置。
  2. (2)、各カテゴリー毎にマルチテンプレートの平均パ
    ターンを格納しておき、この平均パターンとの認識処理
    を行なつた後に、上位候補のカテゴリーについてのみ、
    マルチテンプレートとの再照合を行なうことを特徴とす
    る特許請求の範囲第(1)項に記載の音声認識装置。
  3. (3)、認識処理に先立つてカテゴリーの予備選択を行
    なつて候補となるカテゴリーを削減することを特徴とす
    る特許請求の範囲第(1)項又は第(2)項に記載の音
    声認識装置。
  4. (4)、音声の特徴パターンをベクトル量子化して圧縮
    した後に、カテゴリーの予備選択処理を経て認識処理と
    再認識処理を行なうことを特徴とする特許請求の範囲第
    (3)項に記載の音声認識装置。
  5. (5)、再認識処理部においてn個のマルチパターンと
    の平均距離を計算する際に、各カテゴリーについて、n
    個の距離のうち上位に個(k≦n)を選択して平均距離
    を計算して再照合を行なうことを特徴とする請求の特許
    範囲第(1)項又は第(2)項に記載の音声認識装置。
  6. (6)、少なくとも音声を入力する入力部と、入力され
    た音声を特徴ベクトルに変換する特徴ベクトル変換部と
    、認識対象となる各カテゴリーについて複数の標準パタ
    ーンを格納する標準パターン格納部と、入力された音声
    の特徴ベクトルと標準パターンとのマッチングを行なう
    照合部と、照合部で得られた認識結果の上位候補につい
    てのみ再び照合を行なう再照合部とから成る音声認識装
    置において、各カテゴリーごとに、当該カテゴリーを代
    表する標準パターンを複数用意しておき、照合部では、
    各カテゴリーを代表する複数の標準パターンとマッチン
    グを行なつて上位候補を出力し、再照合部では、上位候
    補のカテゴリーについてのみ、カテゴリーを代表する標
    準パターン以外の標準パターンともマッチングを行なう
    ことを特徴とする音声認識装置。
  7. (7)、各カテゴリーを複数のクラスターに分割し、照
    合部では、各クラスターを代表する標準パターンとマッ
    チングを行なうことを特徴とする特許請求の範囲第(6
    )項に記載の音声認識装置。
  8. (8)、再照合部では、照合部で得られた上位候補のク
    ラスターについてのみ、クラスターを代表する標準パタ
    ーン以外の標準パターンともマッチングを行なうことを
    特徴とする特許請求の範囲第(7)項に記載の音声認識
    装置。
JP61191397A 1986-04-04 1986-08-15 音声認識装置 Pending JPS6346496A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP61-78031 1986-04-04
JP7803186 1986-04-04

Publications (1)

Publication Number Publication Date
JPS6346496A true JPS6346496A (ja) 1988-02-27

Family

ID=13650439

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61191397A Pending JPS6346496A (ja) 1986-04-04 1986-08-15 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6346496A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002221991A (ja) * 2001-01-29 2002-08-09 Animo:Kk データ照合システム及び方法
JP2012529080A (ja) * 2009-06-04 2012-11-15 マイクロソフト コーポレーション 再認識および統計的分類を使用する認識
US11993871B2 (en) 2017-10-16 2024-05-28 Columbia Sportswear North America, Inc. Limited conduction heat retaining materials

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002221991A (ja) * 2001-01-29 2002-08-09 Animo:Kk データ照合システム及び方法
JP2012529080A (ja) * 2009-06-04 2012-11-15 マイクロソフト コーポレーション 再認識および統計的分類を使用する認識
US8930179B2 (en) 2009-06-04 2015-01-06 Microsoft Corporation Recognition using re-recognition and statistical classification
JP2016026326A (ja) * 2009-06-04 2016-02-12 マイクロソフト テクノロジー ライセンシング,エルエルシー 再認識および統計的分類を使用する認識
US11993871B2 (en) 2017-10-16 2024-05-28 Columbia Sportswear North America, Inc. Limited conduction heat retaining materials

Similar Documents

Publication Publication Date Title
JPH02238495A (ja) 時系列信号認識装置
CN106297776A (zh) 一种基于音频模板的语音关键词检索方法
US5864807A (en) Method and apparatus for training a speaker recognition system
US4989249A (en) Method of feature determination and extraction and recognition of voice and apparatus therefore
JP2003005790A (ja) 複合音声データの音声分離方法、発言者特定方法、複合音声データの音声分離装置、発言者特定装置、コンピュータプログラム、及び、記録媒体
JPS6346496A (ja) 音声認識装置
JPS6123560B2 (ja)
CN110875044A (zh) 一种基于字相关得分计算的说话人识别方法
US4790017A (en) Speech processing feature generation arrangement
JP2002062892A (ja) 音響分類装置
Chandrasekaram New Feature Vector based on GFCC for Language Recognition
CN113096669B (zh) 基于角色识别的语音识别系统
JP2000122693A (ja) 話者認識方法および話者認識装置
JPS62275300A (ja) 連続音声認識方法
KR100339525B1 (ko) 1,2단계중심어인식방법을이용한생활정보안내장치
JPS6136797A (ja) 音声セグメンテ−シヨン法
CN116246348A (zh) 基于卷积神经网络的聋哑人交互方法,系统和存储介质
JP2613108B2 (ja) 音声認識方法
JPS6147994A (ja) 音声認識方式
CN118038886A (zh) 异构多说话人自适应语音会议记录系统及方法
JPH0534679B2 (ja)
JPH0119599B2 (ja)
JPS6147993A (ja) 音声認識方式
JPS58159598A (ja) 単音節音声認識方式
JPS63292199A (ja) 音声認識装置