JPS63220298A - 音声認識における単語候補削減装置 - Google Patents
音声認識における単語候補削減装置Info
- Publication number
- JPS63220298A JPS63220298A JP62053066A JP5306687A JPS63220298A JP S63220298 A JPS63220298 A JP S63220298A JP 62053066 A JP62053066 A JP 62053066A JP 5306687 A JP5306687 A JP 5306687A JP S63220298 A JPS63220298 A JP S63220298A
- Authority
- JP
- Japan
- Prior art keywords
- word
- phoneme
- speech recognition
- template
- extraction unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 claims description 33
- 230000014509 gene expression Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 238000000034 method Methods 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔概 要〕
音声の入力パターンから確実に認識できる特徴的な音韻
を抽出し、単語テンプレート中から確実に認識できると
事前に予想される特徴的な音韻を抽出し、これらの特徴
的な音韻に基づいて音声認識時の照合処理に有効な単語
テンプレートを選択する。これにより、実際に照合の対
象となる単語テンプレートの数を大幅に削減し、認識率
を低下させることなく、音声認識時の処理を低減させる
ことができる。
を抽出し、単語テンプレート中から確実に認識できると
事前に予想される特徴的な音韻を抽出し、これらの特徴
的な音韻に基づいて音声認識時の照合処理に有効な単語
テンプレートを選択する。これにより、実際に照合の対
象となる単語テンプレートの数を大幅に削減し、認識率
を低下させることなく、音声認識時の処理を低減させる
ことができる。
本発明は、多数の単語テンプレートの中から音声認識時
に参照の対象となる有効な単語テンプレートを選択する
音声認識における単語候補削減装置、特に大語量音声認
識時に有用な単語候補削減装置に関する。
に参照の対象となる有効な単語テンプレートを選択する
音声認識における単語候補削減装置、特に大語量音声認
識時に有用な単語候補削減装置に関する。
音声認識装置は各種の用途に用いられるが、文書作成や
多数のコマンドを必要とする装置の操作を音声で行う場
合に有用である。この様な場合、最近は特に大語党の単
語が認識できることが望まれている。
多数のコマンドを必要とする装置の操作を音声で行う場
合に有用である。この様な場合、最近は特に大語党の単
語が認識できることが望まれている。
第8図は、従来の音声認識装置の基本構成をブロック図
で示したものである。
で示したものである。
第8図において、発声された音声は、マイクロホン21
で電気信号に変換されて分析部22に供 −給される。
で電気信号に変換されて分析部22に供 −給される。
分析部22は、電気信号に変換された音声を周波数特性
が略一定とみられる数ミリから数10ミリ秒毎に短時間
周波数分析して、短時間スペクトルの時系列からなる入
力パターンを作成する。この場合の短時間周波数分析に
は、アナログフィルタバンクによる方法、ディジタルフ
ィルタバンクによる方法、高速フーリエ変換(FFT)
による方法、線形予測分析による方法等が用いられる。
が略一定とみられる数ミリから数10ミリ秒毎に短時間
周波数分析して、短時間スペクトルの時系列からなる入
力パターンを作成する。この場合の短時間周波数分析に
は、アナログフィルタバンクによる方法、ディジタルフ
ィルタバンクによる方法、高速フーリエ変換(FFT)
による方法、線形予測分析による方法等が用いられる。
辞書部23には、認識させたい各単語部ち音声認識時に
参照の対象となる各単語候補のテンプレート(単語テン
プレート)が格納されている。
参照の対象となる各単語候補のテンプレート(単語テン
プレート)が格納されている。
単語テンプレートは、参照の対象となる単語毎の音声を
分析部22で分析して生成される短時間スペクトル時系
列(スペクトルパターンともいう)又は音韻ラベルネッ
トワーク(phonetic labelnetwor
k)で表現される。
分析部22で分析して生成される短時間スペクトル時系
列(スペクトルパターンともいう)又は音韻ラベルネッ
トワーク(phonetic labelnetwor
k)で表現される。
音韻ラヘルネットワークは、各子音や母音を示す音韻ラ
ベルを、第7図に例示する様に単語の音声を表現する様
に関係づけたものである。
ベルを、第7図に例示する様に単語の音声を表現する様
に関係づけたものである。
第7図は、日本語の単語である“しかし”の音韻ラヘル
ネソトワークを例示したものである。図において“#”
は単語境界、” S H”は“シ”の子音部、“■”は
無声化しない母音の“イ”、“l”は無声化した母音の
“イ”、“K″は“力”の子音部、”A″は母音の“ア
”を示すそれぞれの音韻ラベルである。第1及び第3音
節の“シ”の母音部分が無声化する場合があるため、ネ
ットワーク表現を用いて無声化という音声変形現象を表
現したものである。
ネソトワークを例示したものである。図において“#”
は単語境界、” S H”は“シ”の子音部、“■”は
無声化しない母音の“イ”、“l”は無声化した母音の
“イ”、“K″は“力”の子音部、”A″は母音の“ア
”を示すそれぞれの音韻ラベルである。第1及び第3音
節の“シ”の母音部分が無声化する場合があるため、ネ
ットワーク表現を用いて無声化という音声変形現象を表
現したものである。
照合部24は、分析部22より入力された入力パターン
と辞書部23より読み出した各単語テンプレートとを照
合して音声の認識結果を出力する。
と辞書部23より読み出した各単語テンプレートとを照
合して音声の認識結果を出力する。
即ち、人カバターンと各単語テンプレートの類似度(又
は距離計算)を行い、類似度の大きいものから一個又は
複数個(距離計算の場合は、距離の小さいものから一個
又は複数個)の単語テンプレートの単語名を認識結果と
して出力する。この場合、人カバターンと単語テンプレ
ートの時間軸のずれの補正に動的計画法(dynami
c programmingmatching)を利用
した照合法が、高性能な処理方式として用いられる。ま
た、音韻ラベルのネットワークを使用する場合は、各音
韻ラベルのスペクトルパターンを別に格納した音韻テン
プレート(図示せず)を使用して、ネットワーク中の各
音韻ラヘルと入力パターンの類似度(又は距離)計算が
行われる。
は距離計算)を行い、類似度の大きいものから一個又は
複数個(距離計算の場合は、距離の小さいものから一個
又は複数個)の単語テンプレートの単語名を認識結果と
して出力する。この場合、人カバターンと単語テンプレ
ートの時間軸のずれの補正に動的計画法(dynami
c programmingmatching)を利用
した照合法が、高性能な処理方式として用いられる。ま
た、音韻ラベルのネットワークを使用する場合は、各音
韻ラベルのスペクトルパターンを別に格納した音韻テン
プレート(図示せず)を使用して、ネットワーク中の各
音韻ラヘルと入力パターンの類似度(又は距離)計算が
行われる。
以上の様にして、各種の単語音声の認識を行うことがで
き、辞書部23に多数の単語テンプレートを格納してお
くことにより、人語量の音声認識を行うことができる。
き、辞書部23に多数の単語テンプレートを格納してお
くことにより、人語量の音声認識を行うことができる。
従来の音声認識装置は、入力パターンと単語テンプレー
トを照合する場合は、前述のように、辞書部に格納され
ているすべての単語テンプレートを人カバターンと照合
して類似度(又は距離)を計算していた。このため、処
理量が多くなり、人語量の音声認識の場合には単語テン
プレートの数が多大となり処理量が膨大となり処理に時
間が掛るという問題があった。特に動的計画法等の高性
能ではあるが処理量の多い方式の場合には、人語量の音
声の実時間認識が困難になるという問題があった。
トを照合する場合は、前述のように、辞書部に格納され
ているすべての単語テンプレートを人カバターンと照合
して類似度(又は距離)を計算していた。このため、処
理量が多くなり、人語量の音声認識の場合には単語テン
プレートの数が多大となり処理量が膨大となり処理に時
間が掛るという問題があった。特に動的計画法等の高性
能ではあるが処理量の多い方式の場合には、人語量の音
声の実時間認識が困難になるという問題があった。
本発明は、人語量音声の場合にも認識率を低下させるこ
となく処理量を大幅に低減させるため、多数の単語テン
プレートの中から音声認識時の照合処理に有効な単語テ
ンプレートを選択するようにした音声認識における単語
候補削減装置を提供することを目的とする。
となく処理量を大幅に低減させるため、多数の単語テン
プレートの中から音声認識時の照合処理に有効な単語テ
ンプレートを選択するようにした音声認識における単語
候補削減装置を提供することを目的とする。
本発明の講じた解決手段を、第1図を参照して説明する
。第1図は、本発明の基本構成をブロック図で示したも
のである。
。第1図は、本発明の基本構成をブロック図で示したも
のである。
第1図において、11は入力特徴音韻抽出部で、音声の
入力パターンから確実に認識できる特徴的な音韻を抽出
する処理を行う。
入力パターンから確実に認識できる特徴的な音韻を抽出
する処理を行う。
12は、単語特徴音韻抽出部で、各単語テンプレート毎
にそれより確実に認識できると事前に予想される特徴的
な音韻を抽出する処理を行う。
にそれより確実に認識できると事前に予想される特徴的
な音韻を抽出する処理を行う。
13は単語候補削減部で、入力特徴音韻抽出部11及び
単語特徴音韻抽出部12によって抽出された各特徴的な
音韻に基づいて、音声認識時の照合処理に有効な単語テ
ンプレートを選択する処理を行う。
単語特徴音韻抽出部12によって抽出された各特徴的な
音韻に基づいて、音声認識時の照合処理に有効な単語テ
ンプレートを選択する処理を行う。
入力特徴音韻抽出部11は、認識対象である音声の入力
パターン中の各音韻から確実に認識できる特徴的な音韻
を抽出する。この特徴的な音韻は、その音声であるかぎ
り必ず現れる音韻である。
パターン中の各音韻から確実に認識できる特徴的な音韻
を抽出する。この特徴的な音韻は、その音声であるかぎ
り必ず現れる音韻である。
一方、単語特徴音韻抽出部12は、各単語テンプレート
毎にそれより確実に認識できると事実に予想される特徴
的な音韻を抽出する。この特徴的な音韻は、その単語の
音声であるかぎり必ず現れる音韻である。
毎にそれより確実に認識できると事実に予想される特徴
的な音韻を抽出する。この特徴的な音韻は、その単語の
音声であるかぎり必ず現れる音韻である。
単語候補削減部13は、入力特徴音韻抽出部11及び単
語特徴音韻抽出部12によって抽出された各特徴的な音
韻に基づいて、音声認識時の照合処理に有効な単語テン
プレートを選択する。
語特徴音韻抽出部12によって抽出された各特徴的な音
韻に基づいて、音声認識時の照合処理に有効な単語テン
プレートを選択する。
例えば、■入力特徴音韻抽出部11によって抽出される
入力パターンの特徴的な音韻を有している単語テンプレ
ートであること、■単語特徴音韻抽出部12によって抽
出された単語テンプレートの特徴的な音韻が入力パター
ンに含まれていること、の少くとも一方が満足されない
場合は、その単語テンプレートは明らかに音声認識時の
照合処理に有効な単語テンプレートではない。したがっ
て、これらの単語テンプレートを不適確として削減し、
前記■及び■の条件を同時に満足する単語テンプレート
が有効な単語テンプレートとして選択するようにする。
入力パターンの特徴的な音韻を有している単語テンプレ
ートであること、■単語特徴音韻抽出部12によって抽
出された単語テンプレートの特徴的な音韻が入力パター
ンに含まれていること、の少くとも一方が満足されない
場合は、その単語テンプレートは明らかに音声認識時の
照合処理に有効な単語テンプレートではない。したがっ
て、これらの単語テンプレートを不適確として削減し、
前記■及び■の条件を同時に満足する単語テンプレート
が有効な単語テンプレートとして選択するようにする。
以上のようにして、多数の単語テンプレートの中から音
声認識処理時の照合処理に有効な単語テンプレートを選
択することにより、実際に参照の対象となる単語テンプ
レートの数を大幅に削減することができる。また、入力
パターン及び単語テンプレートに存在する特徴的な音韻
に基づいて音声認識時の照合処理に有効な単語テンプレ
ートを選択するようにしたので、認識率を低下させるこ
となく照合処理量を含めて全体の音声認識処理量を大幅
に低減することができる。したがって、音声認識処理が
効率良く行われ、人語量音声の場合でも容易に実時間認
識を行うことができる。
声認識処理時の照合処理に有効な単語テンプレートを選
択することにより、実際に参照の対象となる単語テンプ
レートの数を大幅に削減することができる。また、入力
パターン及び単語テンプレートに存在する特徴的な音韻
に基づいて音声認識時の照合処理に有効な単語テンプレ
ートを選択するようにしたので、認識率を低下させるこ
となく照合処理量を含めて全体の音声認識処理量を大幅
に低減することができる。したがって、音声認識処理が
効率良く行われ、人語量音声の場合でも容易に実時間認
識を行うことができる。
本発明の各実施例を、第2図〜第6図を参照して説明す
る。第2図は本発明の第1の実施例の構成の説明図、第
3図は各実施例における各音韻のワード内ビット割り当
て例の説明図、第4図は各実施例におけるビット表現の
説明図、第6図は本発明の第2の実施例の説明図である
。
る。第2図は本発明の第1の実施例の構成の説明図、第
3図は各実施例における各音韻のワード内ビット割り当
て例の説明図、第4図は各実施例におけるビット表現の
説明図、第6図は本発明の第2の実施例の説明図である
。
(A)第1の実施例の構成
第2図において入力特徴音韻抽出部11、単語特徴音韻
抽出部12及び単語候補削減部13については、第1図
で説明したとおりである。
抽出部12及び単語候補削減部13については、第1図
で説明したとおりである。
14は、電気音響変換部で、例えばマイクロホンで構成
され、入力音声を電気信号に変換する。
され、入力音声を電気信号に変換する。
15は分析部で、電気信号に変換された音声に対して周
波数特性が略一定とみられる数ミリから数10ミリ秒毎
に短時間周波数分析を行い、短時間スペクトルの時系列
からなる入力パターンを作成する。
波数特性が略一定とみられる数ミリから数10ミリ秒毎
に短時間周波数分析を行い、短時間スペクトルの時系列
からなる入力パターンを作成する。
16は辞書部で、単語テンプレート即ち音声認識時に参
照の対象となる各単語候補のテンプレートが格納される
。単語テンプレートは、その単語音声の短時間スペクト
ル時系列(スペクトルパターン)又は音ラベルネットワ
ークで表現される。
照の対象となる各単語候補のテンプレートが格納される
。単語テンプレートは、その単語音声の短時間スペクト
ル時系列(スペクトルパターン)又は音ラベルネットワ
ークで表現される。
17は照合部で、分析部15より入力された入力パター
ンと単語候補削減部13より人力された各単語テンプレ
ートとを照合して音声の認識結果を出力する。
ンと単語候補削減部13より人力された各単語テンプレ
ートとを照合して音声の認識結果を出力する。
(B)第1の実施例の動作
第1の実施例の動作を、第3図及び第4図を参照して説
明する。
明する。
分析部15は、電気音響変換部14より入力された音声
信号に対して短時間周波数分析を行って入力パターンを
作成し、入力特徴音韻抽出部11及び照合部17に入力
する。
信号に対して短時間周波数分析を行って入力パターンを
作成し、入力特徴音韻抽出部11及び照合部17に入力
する。
人力特徴音韻抽出部11は、この入力パターンから確実
に認識できる特徴的な音韻を抽出するが、以下、第3図
及び第4図を参照してこの特徴的な音韻抽出処理を説明
する。
に認識できる特徴的な音韻を抽出するが、以下、第3図
及び第4図を参照してこの特徴的な音韻抽出処理を説明
する。
すべての音韻を、1ワード内の各ビットに割り当てるよ
うにする。日本語の場合、音韻の数は母音及び子音を含
めて24個程度であるので、lワード(32ビット程度
)内の各ビットに割り当てることができる。第3図は、
その割り当て方の一例を示したものである。図において
、*印は割り当てのないことを示している。
うにする。日本語の場合、音韻の数は母音及び子音を含
めて24個程度であるので、lワード(32ビット程度
)内の各ビットに割り当てることができる。第3図は、
その割り当て方の一例を示したものである。図において
、*印は割り当てのないことを示している。
次に、大きいパワーで発音される音韻(以下、強い音韻
という)が容易かつ確実に検出されることから、この実
施例では、強い音韻が確実に認識できる特徴的な音韻と
して用いられる。
という)が容易かつ確実に検出されることから、この実
施例では、強い音韻が確実に認識できる特徴的な音韻と
して用いられる。
この特徴的な音韻の存在は、特徴的な音韻の該当ビ・ノ
ドに“1”を立てることによって表現する。
ドに“1”を立てることによって表現する。
例えば、入力パターンにA、S及びOという3個の音韻
が強い音韻として検出された場合は、第4図に示す様に
、ビット0.4及び6の位置に1”が立てられる。以下
、このような音韻のビットによる表現を、ビット表現と
呼ぶ。
が強い音韻として検出された場合は、第4図に示す様に
、ビット0.4及び6の位置に1”が立てられる。以下
、このような音韻のビットによる表現を、ビット表現と
呼ぶ。
このようなビット表現を用いると、既存の論理回路によ
りlワード(32ビット程度)毎の論理演算が極めて高
速で処理することが可能であるので、次に説明する単語
候補削減のための演算を高速に処理することができる。
りlワード(32ビット程度)毎の論理演算が極めて高
速で処理することが可能であるので、次に説明する単語
候補削減のための演算を高速に処理することができる。
入力特徴音韻抽出部11は、人カバターンから強い音韻
を抽出し、この強い音韻のビット表現(slで示す)を
作成して単語候補削減部13に入力する。
を抽出し、この強い音韻のビット表現(slで示す)を
作成して単語候補削減部13に入力する。
同様に、単語特徴音韻抽出部12は、辞書部16より単
語テンプレートを読み出し、単語テンプレートを形成す
るすべての音韻を用いてビット表現(diで示す、iは
テンプレート番号である)を作成する。
語テンプレートを読み出し、単語テンプレートを形成す
るすべての音韻を用いてビット表現(diで示す、iは
テンプレート番号である)を作成する。
更に、その単語テンプレートにおいて確実に認識できる
と事前に予想される特徴的な音韻即ち強い音韻を抽出し
て、その単語テンプレートの強い音韻のビット表現(d
i’で示す。iはテンプレート番号である)を作成する
。
と事前に予想される特徴的な音韻即ち強い音韻を抽出し
て、その単語テンプレートの強い音韻のビット表現(d
i’で示す。iはテンプレート番号である)を作成する
。
この場合、単語テンプレートがスペクトルパターンの場
合は単語テンプレートから入力特徴音韻抽出部11と同
様にして強い音素を抽出し、単語テンプレートの強い音
韻のビット表現(di’ )を作成する。単語テンプレ
ートが音韻ラベルのネットワークの場合は、そのネット
ワーク上の各音韻ラベルにその音韻が強い音韻であるか
どうかを示すフラグを予め人間が付けておくか、または
音声学のルールに従って強い音韻を自動的に抽出し、単
語テンプレートの強い音韻のビット表現(di’ )を
作成する。
合は単語テンプレートから入力特徴音韻抽出部11と同
様にして強い音素を抽出し、単語テンプレートの強い音
韻のビット表現(di’ )を作成する。単語テンプレ
ートが音韻ラベルのネットワークの場合は、そのネット
ワーク上の各音韻ラベルにその音韻が強い音韻であるか
どうかを示すフラグを予め人間が付けておくか、または
音声学のルールに従って強い音韻を自動的に抽出し、単
語テンプレートの強い音韻のビット表現(di’ )を
作成する。
以上のようにして作成された各ビット表現diおよびd
i’は、単語候補削減部13に入力される。
i’は、単語候補削減部13に入力される。
単語候補削減部13は、入力特徴音韻抽出部11及び単
語特徴音韻抽出部12から入力された各ビット表現に基
づいて、音声認識時の照合処理に有効な単語テンプレー
トを選択するが、この実施例では、次の2段階処理によ
り単語テンプレートの選択処理を行う。
語特徴音韻抽出部12から入力された各ビット表現に基
づいて、音声認識時の照合処理に有効な単語テンプレー
トを選択するが、この実施例では、次の2段階処理によ
り単語テンプレートの選択処理を行う。
まず第1段階では、各単語テンプレートの音韻のビット
表現diと人カバターンの強い音韻のビット表現slと
の間で次の式Tl)を満たすビット表現diを求め、そ
れを次の第2段階に渡す。
表現diと人カバターンの強い音韻のビット表現slと
の間で次の式Tl)を満たすビット表現diを求め、そ
れを次の第2段階に渡す。
di−sl=SI ・・・・・・・・
・・・・・・・(1)なお、式(1)中で演算子の“・
”はビット毎の論理積を表す。
・・・・・・・(1)なお、式(1)中で演算子の“・
”はビット毎の論理積を表す。
次に第2段階では、式(1)を満たす単語テンブレー)
diの強、い音韻のビット表現di′ と入力パターン
の強い音韻のビット表現srとの間で次の式(2)を満
たすビット表現di’を選択結果とする。
diの強、い音韻のビット表現di′ と入力パターン
の強い音韻のビット表現srとの間で次の式(2)を満
たすビット表現di’を選択結果とする。
di′ ・5l=di’ ・・・・・・・
・・・・・(2)式(1)は、入力パターンに現れる強
い音韻は必ず選択される単語テンプレートに含まれるこ
とを意味する。式(2)は、選択される単語テンプレー
トで予想される強い音韻は必ず入力パターンに含まれな
ければいけないことを意味する。
・・・・・(2)式(1)は、入力パターンに現れる強
い音韻は必ず選択される単語テンプレートに含まれるこ
とを意味する。式(2)は、選択される単語テンプレー
トで予想される強い音韻は必ず入力パターンに含まれな
ければいけないことを意味する。
この式(1)及び弐(2)を同時に満たす単語テンプレ
ートが、音声認識時の照合処理に有効な単語テンプレー
トであることは明らかである。式(1)及び式(2)の
両方を満たす単語テンプレートは、次の式(3)の値の
全ビットが“1”である単語テンプレートである。
ートが、音声認識時の照合処理に有効な単語テンプレー
トであることは明らかである。式(1)及び式(2)の
両方を満たす単語テンプレートは、次の式(3)の値の
全ビットが“1”である単語テンプレートである。
(■T■Y歪■・ di −sI ■di ・・
・・・・(3)なお、式(3)で、“■”はビット毎の
排他的論理和、“□”は全ビット反転(否定)を示す。
・・・・(3)なお、式(3)で、“■”はビット毎の
排他的論理和、“□”は全ビット反転(否定)を示す。
式(3)を変形することにより、次の式(4)に簡単化
される。
される。
(di+sl) ・(di +sl) ”・”
・(41なお、式(4)で、“+゛は、ビット毎の論理
和を示す。
・(41なお、式(4)で、“+゛は、ビット毎の論理
和を示す。
第5図は、式(4)の論理演算を行う具体的な回路の一
例を示したものである。131及び132はNOT回路
、133及び134はOR回路、135はAND回路、
136は比較回路(CMP)である。
例を示したものである。131及び132はNOT回路
、133及び134はOR回路、135はAND回路、
136は比較回路(CMP)である。
ビット表現di’はN OT回路131に入力され、ビ
ット表現sIはNOT回路132及びOR回路133に
入力され、ビット表現diはOR回路134に入力され
る。比較回路136には、AND回路135の出力と“
=1”が入力される。
ット表現sIはNOT回路132及びOR回路133に
入力され、ビット表現diはOR回路134に入力され
る。比較回路136には、AND回路135の出力と“
=1”が入力される。
OR回路133は(di +dI)を生成し、OR回
路134は(di+dl)を演算してそれぞれAND回
路135に加える。
路134は(di+dl)を演算してそれぞれAND回
路135に加える。
AND回路135は、式(4)に示される(di十訂)
・ (di +dl)を演算して比較回路136に入
力する。
・ (di +dl)を演算して比較回路136に入
力する。
比較回路136は、(di十訂)・ (di +dl
)と“−1”とを比較し、(di+dl) ・(di
十dl)の全ビットが“1″であるか否かを判定す
る。
)と“−1”とを比較し、(di+dl) ・(di
十dl)の全ビットが“1″であるか否かを判定す
る。
単語候補削減部13は、以上の論理演算を行うことによ
り式(4)を満たす単語テンプレートを選択し、照合部
17に送る。これにより、照合の対象となる有効な単語
テンプレートの数を大幅に削減することができる。
り式(4)を満たす単語テンプレートを選択し、照合部
17に送る。これにより、照合の対象となる有効な単語
テンプレートの数を大幅に削減することができる。
照合部17は、従来方式と同様にして、分析部15より
加えられた入力パターンと単語候補削減部13より加え
られた各単語テンプレートの類似度計算(または距離計
算)を行い、類似度の大きいものから一個または複数個
(または距離の小さいものから一個または複数個)の単
語テンプレートの単語名を出力する。
加えられた入力パターンと単語候補削減部13より加え
られた各単語テンプレートの類似度計算(または距離計
算)を行い、類似度の大きいものから一個または複数個
(または距離の小さいものから一個または複数個)の単
語テンプレートの単語名を出力する。
以上のようにして、有効な単語テンプレートのみを選択
して照合処理を行うことにより、認識率を低下させるこ
となく処理量を低減して、効率の良い音声認識を行うこ
とができる。
して照合処理を行うことにより、認識率を低下させるこ
となく処理量を低減して、効率の良い音声認識を行うこ
とができる。
(C)第2の実施例
前述した第1の実施例において、単語特徴音韻抽出部1
2で行われる各単語テンプレートのビット表現di及び
その単語テンプレートに予想される強い音韻のビット表
現di′は、入力パターンに関係なく各単語テンプレー
トの特徴から決まるものである。
2で行われる各単語テンプレートのビット表現di及び
その単語テンプレートに予想される強い音韻のビット表
現di′は、入力パターンに関係なく各単語テンプレー
トの特徴から決まるものである。
したがって、各単語テンプレートにおけるこれらのビッ
ト表現di及びdi′を予め求めておけば、単語候補削
減処理時の処理を更に削減し、処理を効率良く行うこと
ができる。
ト表現di及びdi′を予め求めておけば、単語候補削
減処理時の処理を更に削減し、処理を効率良く行うこと
ができる。
第2の実施例は、このような点に着目してなされたもの
である。以下、第6図を参照して第2の実施例について
説明する。
である。以下、第6図を参照して第2の実施例について
説明する。
第6図において、単語特徴音韻抽出部12が、ビット表
現作成部121及びビット表現記憶部123で構成され
ている点を除き、その他の構成、即ち、入力特徴音韻抽
出部100単語候補削減部13、電気音響変換部149
分析部15.辞書部16及び照合部17の構成及び動作
は、第2図で説明した第1の実施例と同様である。
現作成部121及びビット表現記憶部123で構成され
ている点を除き、その他の構成、即ち、入力特徴音韻抽
出部100単語候補削減部13、電気音響変換部149
分析部15.辞書部16及び照合部17の構成及び動作
は、第2図で説明した第1の実施例と同様である。
単語特徴音韻抽出部12において、ビット表現作成部1
21は、辞書部16より読み出された各単語テンプレー
トからそのビット表現di及び予想される強い音韻のビ
ット表現di’を予め作成し、それらをビット表現記憶
部122に格納しておく。
21は、辞書部16より読み出された各単語テンプレー
トからそのビット表現di及び予想される強い音韻のビ
ット表現di’を予め作成し、それらをビット表現記憶
部122に格納しておく。
単語候補削減部13は、入力特徴音韻抽出部11より入
力パターンのビット表現slが入力されると、ビット表
現記憶部122にある各ビット表現di及びdi’を参
照して、直ちに前掲の式(4)(又は(3))を満たす
有効な単語テンプレートを選択することができる。
力パターンのビット表現slが入力されると、ビット表
現記憶部122にある各ビット表現di及びdi’を参
照して、直ちに前掲の式(4)(又は(3))を満たす
有効な単語テンプレートを選択することができる。
これにより、単語候補削減処理時の処理量を、第1の実
施例よりも更に削減することができる。
施例よりも更に削減することができる。
以上、本発明の各実施例について説明したが、本発明の
各構成は、これらの実施例の各構成に限定されるもので
はない。例えば、ビット表現におけるビット数としてl
ワードのビット数以外のビット数を用いることができる
。また、本発明は日本語以外の言語にも適用されるもの
である。
各構成は、これらの実施例の各構成に限定されるもので
はない。例えば、ビット表現におけるビット数としてl
ワードのビット数以外のビット数を用いることができる
。また、本発明は日本語以外の言語にも適用されるもの
である。
以上説明したように、本発明によれば次の諸効果が得ら
れる。
れる。
(イ)多数の単語テンプレートの中から音声認識時の照
合処理に有効な単語テンプレートを選択することにより
、実際に参照の対象となる単語テンプレートの数を大幅
に削減することができる。
合処理に有効な単語テンプレートを選択することにより
、実際に参照の対象となる単語テンプレートの数を大幅
に削減することができる。
([I)音声認識時の照合処理に有効な単語テンプレー
トを選択するようにしたので、認識率を低下させること
なく、照合処理量を含めて全体の音声認識処理量を大幅
に低減することができる。
トを選択するようにしたので、認識率を低下させること
なく、照合処理量を含めて全体の音声認識処理量を大幅
に低減することができる。
(ハ)処理量が大幅に低減され、音声認識処理が効率良
く行われるので、人語党音声の場合でも、容易に実時間
認識を行うことができる。
く行われるので、人語党音声の場合でも、容易に実時間
認識を行うことができる。
第1図は本発明の基本構成の説明図、
第2図は本発明の第1の実施例の構成の説明図、第3図
は本発明の各実施例における各音韻のワード内ビット割
り当て例の説明図、 第4図は本発明の各実施例におけるビット表現の説明図
、 第5図は本発明の各実施例の単語候補削減部における論
理演算回路の説明図、 第6図は本発明の第2の実施例の構成の説明図、第7図
は音韻ラベルネットワークの説明図、第8図は従来の音
声認識装置の説明図である。 第1図、第2図及び第6図において、 11・・・入力特徴音韻抽出部、12・・・単語特徴音
韻抽出部、13・・・単語候補削減部、14・・・電気
音響変換部、15・・・分析部、16・・・辞書部、1
7・・・照合部、121・・・ビット表現作成部、12
2・・・ビット表現記憶部。 本発明力塾本末ユ成゛ 第1図 乳i芙化伜1め積板 賛M配イ々弔てf;、7ろ各皇ト佐均f)−7−μ′i
カビ゛ットを弓11者フイ々J1第3@ 老r事胞A手1に、ル1々ビレト表工晃第4図 各フ〔I灯防りa語Aり賃弓5成埴irJう翁Sζにモ
f;$1adド% 2 )芙f’f!A11’I n
’IJI r&第6図 髄末1睦5!、z叡装置 第80 名神ラヘ8し卑ヅトフーフ 第7図
は本発明の各実施例における各音韻のワード内ビット割
り当て例の説明図、 第4図は本発明の各実施例におけるビット表現の説明図
、 第5図は本発明の各実施例の単語候補削減部における論
理演算回路の説明図、 第6図は本発明の第2の実施例の構成の説明図、第7図
は音韻ラベルネットワークの説明図、第8図は従来の音
声認識装置の説明図である。 第1図、第2図及び第6図において、 11・・・入力特徴音韻抽出部、12・・・単語特徴音
韻抽出部、13・・・単語候補削減部、14・・・電気
音響変換部、15・・・分析部、16・・・辞書部、1
7・・・照合部、121・・・ビット表現作成部、12
2・・・ビット表現記憶部。 本発明力塾本末ユ成゛ 第1図 乳i芙化伜1め積板 賛M配イ々弔てf;、7ろ各皇ト佐均f)−7−μ′i
カビ゛ットを弓11者フイ々J1第3@ 老r事胞A手1に、ル1々ビレト表工晃第4図 各フ〔I灯防りa語Aり賃弓5成埴irJう翁Sζにモ
f;$1adド% 2 )芙f’f!A11’I n
’IJI r&第6図 髄末1睦5!、z叡装置 第80 名神ラヘ8し卑ヅトフーフ 第7図
Claims (3)
- (1)単語テンプレートの中から音声認識時の照合処理
に実際に参照の対象となる単語テンプレートを選択する
音声認識における単語候補削減装置であって、 (a)音声の入力パターンから確実に認識できる特徴的
な音韻を抽出する入力特徴音韻抽出部(11)と、 (b)各単語テンプレート毎にそれより確実に認識でき
ると事前に予想される特徴的な音韻を抽出する単語特徴
音韻抽出部(12)と、 (c)入力特徴音韻抽出部(11)及び単語特徴音韻抽
出部(12)によって抽出された各特徴的な音韻に基づ
いて、音声認識時の照合処理に有効な単語テンプレート
を選択する単語候補削減部(13)、 を備えたことを特徴とする音声認識における単語候補削
減装置。 - (2)入力特徴音韻抽出部(11)が、入力パターンか
ら確実に認識できる特徴的な音韻のビットによるビット
表現(sI)を作成し、 単語特徴音韻抽出部(12)が、各単語テンプレートの
音韻のビットによるビット表現(di、iは単語テンプ
レートの番号)及びその単語テンプレートから確実に認
識できると事前に予想される特徴的な音韻のビットによ
るビット表現(di′、iは単語テンプレートの番号)
を作成し、 単語候補削減部(13)が、 @(di・sI)■sI@・@(di′・sI)■di
@なる論理演算又はこれと等価な論理演算の値の全ビッ
トが“1”であるかどうかを判定して有効な単語テンプ
レートを選択することを特徴とする特許請求の範囲第1
項記載の音声認識における単語候補削減装置。 - (3)単語特徴音韻抽出部(12)が、ビット表現記憶
部(122)を設け、予め前記各単語テンプレート毎の
ビット表現di及ひdi′を求めてビット表現記憶部(
122)に格納しておくことを特徴とする特許請求の範
囲第1項又は第2項記載の音声認識における単語候補削
減装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62053066A JP2815579B2 (ja) | 1987-03-10 | 1987-03-10 | 音声認識における単語候補削減装置 |
EP88302028A EP0282272B1 (en) | 1987-03-10 | 1988-03-09 | Voice recognition system |
DE8888302028T DE3866736D1 (de) | 1987-03-10 | 1988-03-09 | Spracherkennungssystem. |
US07/464,594 US4962535A (en) | 1987-03-10 | 1990-01-12 | Voice recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62053066A JP2815579B2 (ja) | 1987-03-10 | 1987-03-10 | 音声認識における単語候補削減装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS63220298A true JPS63220298A (ja) | 1988-09-13 |
JP2815579B2 JP2815579B2 (ja) | 1998-10-27 |
Family
ID=12932457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62053066A Expired - Fee Related JP2815579B2 (ja) | 1987-03-10 | 1987-03-10 | 音声認識における単語候補削減装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US4962535A (ja) |
EP (1) | EP0282272B1 (ja) |
JP (1) | JP2815579B2 (ja) |
DE (1) | DE3866736D1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114420101A (zh) * | 2022-03-31 | 2022-04-29 | 成都启英泰伦科技有限公司 | 一种未知语言端侧命令词小数据学习识别方法 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03163623A (ja) * | 1989-06-23 | 1991-07-15 | Articulate Syst Inc | 音声制御コンピュータ・インターフェース |
US5168524A (en) * | 1989-08-17 | 1992-12-01 | Eliza Corporation | Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation |
IT1232301B (it) * | 1989-09-26 | 1992-01-28 | Olivetti & Co Spa | Metodo ed apparecchiatura di riconoscimento di parole isolate,in particolare per vocabolari molto grandi |
JP3045510B2 (ja) * | 1989-12-06 | 2000-05-29 | 富士通株式会社 | 音声認識処理装置 |
CA2088080C (en) * | 1992-04-02 | 1997-10-07 | Enrico Luigi Bocchieri | Automatic speech recognizer |
JP3001334B2 (ja) | 1992-07-08 | 2000-01-24 | シャープ株式会社 | 認識用言語処理装置 |
US5822360A (en) * | 1995-09-06 | 1998-10-13 | Solana Technology Development Corporation | Method and apparatus for transporting auxiliary data in audio signals |
US5937000A (en) * | 1995-09-06 | 1999-08-10 | Solana Technology Development Corporation | Method and apparatus for embedding auxiliary data in a primary data signal |
US6154484A (en) * | 1995-09-06 | 2000-11-28 | Solana Technology Development Corporation | Method and apparatus for embedding auxiliary data in a primary data signal using frequency and time domain processing |
US5765132A (en) * | 1995-10-26 | 1998-06-09 | Dragon Systems, Inc. | Building speech models for new words in a multi-word utterance |
US5799279A (en) * | 1995-11-13 | 1998-08-25 | Dragon Systems, Inc. | Continuous speech recognition of text and commands |
US5794189A (en) * | 1995-11-13 | 1998-08-11 | Dragon Systems, Inc. | Continuous speech recognition |
US5835888A (en) * | 1996-06-10 | 1998-11-10 | International Business Machines Corporation | Statistical language model for inflected languages |
JP4279909B2 (ja) * | 1997-08-08 | 2009-06-17 | ドーサ アドバンスズ エルエルシー | 音声認識装置における認識対象表示方式 |
DE10207895B4 (de) | 2002-02-23 | 2005-11-03 | Harman Becker Automotive Systems Gmbh | Verfahren zur Spracherkennung und Spracherkennungssystem |
AU2003273357A1 (en) * | 2003-02-21 | 2004-09-17 | Harman Becker Automotive Systems Gmbh | Speech recognition system |
US7580837B2 (en) | 2004-08-12 | 2009-08-25 | At&T Intellectual Property I, L.P. | System and method for targeted tuning module of a speech recognition system |
US7242751B2 (en) | 2004-12-06 | 2007-07-10 | Sbc Knowledge Ventures, L.P. | System and method for speech recognition-enabled automatic call routing |
US7751551B2 (en) | 2005-01-10 | 2010-07-06 | At&T Intellectual Property I, L.P. | System and method for speech-enabled call routing |
US7627096B2 (en) * | 2005-01-14 | 2009-12-01 | At&T Intellectual Property I, L.P. | System and method for independently recognizing and selecting actions and objects in a speech recognition system |
EP2081185B1 (en) | 2008-01-16 | 2014-11-26 | Nuance Communications, Inc. | Speech recognition on large lists using fragments |
EP2221806B1 (en) | 2009-02-19 | 2013-07-17 | Nuance Communications, Inc. | Speech recognition of a list entry |
KR101904423B1 (ko) * | 2014-09-03 | 2018-11-28 | 삼성전자주식회사 | 오디오 신호를 학습하고 인식하는 방법 및 장치 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5887599A (ja) * | 1981-11-20 | 1983-05-25 | 株式会社ピーエフーユー | 音声単語認識装置 |
JPS61238099A (ja) * | 1985-04-15 | 1986-10-23 | 日本電信電話株式会社 | 単語音声認識装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4435617A (en) * | 1981-08-13 | 1984-03-06 | Griggs David T | Speech-controlled phonetic typewriter or display device using two-tier approach |
JPS5844500A (ja) * | 1981-09-11 | 1983-03-15 | シャープ株式会社 | 音声認識方式 |
JPS58130396A (ja) * | 1982-01-29 | 1983-08-03 | 株式会社東芝 | 音声認識装置 |
JPS59216284A (ja) * | 1983-05-23 | 1984-12-06 | Matsushita Electric Ind Co Ltd | パタ−ン認識装置 |
US4748670A (en) * | 1985-05-29 | 1988-05-31 | International Business Machines Corporation | Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor |
-
1987
- 1987-03-10 JP JP62053066A patent/JP2815579B2/ja not_active Expired - Fee Related
-
1988
- 1988-03-09 DE DE8888302028T patent/DE3866736D1/de not_active Expired - Fee Related
- 1988-03-09 EP EP88302028A patent/EP0282272B1/en not_active Expired - Lifetime
-
1990
- 1990-01-12 US US07/464,594 patent/US4962535A/en not_active Expired - Lifetime
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5887599A (ja) * | 1981-11-20 | 1983-05-25 | 株式会社ピーエフーユー | 音声単語認識装置 |
JPS61238099A (ja) * | 1985-04-15 | 1986-10-23 | 日本電信電話株式会社 | 単語音声認識装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114420101A (zh) * | 2022-03-31 | 2022-04-29 | 成都启英泰伦科技有限公司 | 一种未知语言端侧命令词小数据学习识别方法 |
CN114420101B (zh) * | 2022-03-31 | 2022-05-27 | 成都启英泰伦科技有限公司 | 一种未知语言端侧命令词小数据学习识别方法 |
Also Published As
Publication number | Publication date |
---|---|
DE3866736D1 (de) | 1992-01-23 |
EP0282272B1 (en) | 1991-12-11 |
JP2815579B2 (ja) | 1998-10-27 |
US4962535A (en) | 1990-10-09 |
EP0282272A1 (en) | 1988-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS63220298A (ja) | 音声認識における単語候補削減装置 | |
JPS62235998A (ja) | 音節識別方式 | |
JPS5972496A (ja) | 単音識別装置 | |
CN112509550A (zh) | 语音合成模型训练方法、语音合成方法、装置及电子设备 | |
JP2583074B2 (ja) | 音声合成方法 | |
JP5300000B2 (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
Barros et al. | Maximum entropy motivated grapheme-to-phoneme, stress and syllable boundary prediction for Portuguese text-to-speech | |
Chen et al. | A first study on neural net based generation of prosodic and spectral information for Mandarin text-to-speech | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
JPH0632019B2 (ja) | 音声コ−ド作成方法 | |
JP2001005483A (ja) | 単語音声認識方法及び単語音声認識装置 | |
JPS62119591A (ja) | 文章読上げ装置 | |
JP2951332B2 (ja) | 音声認識における文節候補削減方式 | |
JPH0619497A (ja) | 音声認識方法 | |
JP2721341B2 (ja) | 音声認識方法 | |
JPS6033599A (ja) | 音声認識装置 | |
JP2008145996A (ja) | 離散ウェーブレット変換を用いたテンプレートマッチングによる音声認識 | |
JPH0573039B2 (ja) | ||
JPH0554678B2 (ja) | ||
JPS62160499A (ja) | 音声認識装置 | |
JPS6167896A (ja) | 音声認識方法 | |
JPS60158496A (ja) | 音声認識装置 | |
JPH01126694A (ja) | 音声認識装置における音韻記号の付加方式 | |
iti Kido et al. | Speech Recognition by Use of Word Dictionary Written in Linguistic Unit | |
JPS62218997A (ja) | 単語音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |