JPS6225795A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6225795A
JPS6225795A JP60165480A JP16548085A JPS6225795A JP S6225795 A JPS6225795 A JP S6225795A JP 60165480 A JP60165480 A JP 60165480A JP 16548085 A JP16548085 A JP 16548085A JP S6225795 A JPS6225795 A JP S6225795A
Authority
JP
Japan
Prior art keywords
words
word
input
recognition
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60165480A
Other languages
English (en)
Other versions
JPH067347B2 (ja
Inventor
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP60165480A priority Critical patent/JPH067347B2/ja
Publication of JPS6225795A publication Critical patent/JPS6225795A/ja
Publication of JPH067347B2 publication Critical patent/JPH067347B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〈産業上の利用分骨〉 本発明は単語を発声単位として音声を認識する音声認識
装置の改良に関するものである。
〈従来の技術〉 従来より、比較的低価格の音声認識装置として単語を単
位とした音声認識装置が開発されている。
この音声認識装置は話者に関する条件からいえば、予め
単語が決まっている不特定話者対象の音声認識装置及び
単語の選択が自由だが、予め発声者の声を登録する必要
のある特定話者対象の音声認識装置の二つに分かれる。
また不特定話者対象の音声認識に関しても、音素単位に
入力音声を分析することによって、任意語いの認識が可
能になりつつある。
〈発明が解決しようとする問題点〉 しかしながら、従来の音声認識装置において、類似した
単語対が対象語い内にあれば、実際上認識が極めて困難
になるのが現状である。また特定話者対象の認識装置で
は認識可能語数の増大と共に、類似単語対の出現確率が
必然的に高くなり、誤認識が生じていた。
本発明は上記の点に鑑みて創案されたものであり、認識
を行なう以前、あるいは特定話者対象の音声7%l識装
置では登録を行なう以前に予め認識対象単語の最適化を
行ない得るようにした音声認識装置を提供することを目
的としている。
く問題点を解決するための手段〉 上記の目的を達成するため、本発明は単語を発声単位と
して音声を認識する音声認識装置において、認識(ご用
いる複数の単語を予め文字入力する手段と、この入力手
段により入力された認識対象語いを発声の前に検定する
手段と、この検定結果にもとずいて類似語を警告出力す
る出力手段とを備えるように構成している。
〈作 用〉 上記のような構成により、認識に用いる単語を予め文字
にて入力すると、類似単語がこのレベルで検出され、こ
の検出結果によって類似単語対の単語の入れ換えまたは
除去を行なって、予め認識対象単語を最適化することが
可能となる。
〈実施例〉 以下、図面を参照して本発明の一実施例を詳細に説明す
る。
第1図は本発明一実施例装置の構成を示すブロック図で
ある。
第1図において、101はマイクロホン、102ハ増幅
器、103はプリエンファシス回路、104はアンチエ
イリアスフィルタ、+05はA/D 変換器、106は
ワーキングRAM、+07はパターンメモリ、108は
マイクロプロセッサ、109はプログラムメモリ、11
0は文字入力装置、II+は文字表示装置であり、本発
明に関連して実行される文字入力された認識対象単語の
検定処理については後述するようにプログラムメモリ1
09に格納されたプログラムにしたがってマイクロプロ
セッサ108によって実行されるように構成されている
上記のような構成において、使用者は認識を行なう前(
特定話者対象の音声認識装置では登録を行なう前)に文
字入力装置110のアルファベット文字入力部あるいは
仮名文字入力部等を操作して、ローマ字あるいは仮名文
字にて認識に用いる日本語単語を文字入力する(なお、
以下の説明ではローマ字にて文字入力する場合を例とし
て挙げている)。この文字入力装置+10を操作して入
力された文字入力は装置110内のバッファに一時記憶
され、対象語数分の文字入力の終了に応答して、入力さ
れた対象語数分の文字入力データがマイクロプロセッサ
+08に送られ、このマイクロプロセッサ108によっ
て後述するように文字入力された認識対象単語の検定処
理が実行され、類似単語対検定にもとすく不適当単語の
入れかえ、消去を指示する表示出力が文字表示装置I1
1に警告出力される。
使用者は、この文字表示装置I11に警告出力された表
示を見て判断し、処理することになる。
例えば類似単語を消去する場合は、出力された単語の認
識対象単語からの除外を文字入力装置+10より(例え
ば機能キー+11aを操作して)指定する。また入れ換
えの場合には、入れ換える単語を文字入力装置+10よ
り入力して上記と同じ類似単語対検定処理を行なったの
ち、ある閾値以上の類似度を持つ単語対が無くなるよう
に認識対象単語の入れ換えを行なう。
このようにして、認識対象単語を最適化した後、単語音
声認識を行なうことになる。
不特定話者対象の音声認識装置として構成されている場
合には、入力された人力認識対象単語文字列より標準パ
ターンを生成してパターンメモリ107に格納する。
特定話者対象の音声認識装置として構成されている場合
には、使用者は認識対象単語の発声を行なう。
認識時及び特定話者対象時の登録の場合の発声音はマイ
クロホン101によって電気信号に変換されて装置内に
入力され、増幅器102で増幅された後、ダイナミック
レンジ及び音源特性の補正のため、プリエンファシス回
路!03によって+6dB10CTのプリエンファシス
処理がなされ、その後、アナログ・ディジタル変換時の
折り返しノイス除去のためのアンチエイリアスフィルタ
+04を通った後、A/D変換器+05に入力される。
A/D変換器105の出力信号はマイクロプロセッサ1
08に入力され、このマイクロプロセッサ108におい
て特徴パラメータの抽出が行なわれる。この抽出された
特徴パラメータが特定話者対象時の登録時の発声に対す
るものである場合には標準パターンとしてパターンメモ
リ+07に格納される。またマイクロプロセッサlo8
において抽出された特徴パラメータが認識時の発生に対
するものである場合には、マイクロプロセッサ+08に
おいてこの入力音声の特徴パラメータと、パターンメモ
’J l 07に格納されている標準パターンの特徴パ
ラメータとのマツチング処理を行ない、その結果を判断
して、認識結果を文字表示装置JI11に単語のローマ
字表記で出力する。
次に文字入力された認識対象単語の検定処理について、
第2図を参照して説TrJIする。
第2図は本発明における文字入力された認識対象単語の
検定処理のフロー図であり、まず処理のステップ20+
で認識対象単語を文字入力装置+10より例えば/TI
RYUU/、/KIRYUU/。
/BIZE/N/のように入力する。この文字入力装置
110より入力された文字列はマイクロプロセッサ10
8を通して、一度ワーキングRAM I O6に格納す
る。なお、この場合の日本語の11節のローマ字表記の
一例を第1表に示す。
次に処理のステップ202において、ローマ字入力され
た認識対象単語をワーキングRAM+06よりマイクロ
プロセッサ+08にロー)−(LOAD)し、メモリテ
ーブルにある32個(第1表に示す第1行目及び第1列
目の計32個の音素)の音素文字パターン301と照合
して音素に分解し、認識対象単語列を音素列に変換し、
その変換結果をワーキングRAM+06に再格納する。
この処理ステップ202において例えば/TIRYUU
/の文字列が/TIRYUU/の音素列に変換される。
第1表 音素と単音節の規定 この処理のステップ202で求められた音素列には各音
素の継続長が考慮されていないため、次の処理のステッ
プ203において、音素継続長補正の処理を行ない、前
の処理のステップ202で求められた音素列の各音素毎
に長さの重みを与える。ここでは−例として子音対母音
の継続長を1:2として行なっており、ごれは後述する
処理のステップ208におけるDPマツチングの非線形
伸縮によって、細部が補われるであろうという前提に基
づいているが、この前提は特に問題にはならない。この
処理ステップ203において、例えば/T I RYU
U/の音素列が/TI IRYUUUU/の8音素に補
正される。
次に処理のステップ204において、時間軸正規化の処
理を行ない、音素系列数が16となるよう時間軸の正規
化を行なう。この処理ステップ204において、例えば
音素列/T I I RYUUUU/が均等16フレー
ムの音素系列/TI I I IRYRYUUUUUU
UU/に正規化される。
なお、この処理ステップ204は後述する処理のステッ
プ208のDPマツチングにおいて、計算量、速度を上
るため両端点固定のDPマツチングを行なうための処理
であり、両端点フリー等のDPマツチングを行なう場合
には、この処理のステップ204は特に必要としない。
次に処理のステップ205において、生成音素列の格納
処理を実行し、処理のステップ204で求められた等長
の音素列を全認識対象単語分認識対Φ??i語の音素列
パターン302に格納する。
次に処理のステップ206に移行し、全ての認識対象単
語の音素系列が求められた時点で、初めから項に1つの
単語の音素系列を仮入力単語として認識対象単語の音素
列パターン302よりマイクロプロ七ノサ+08にロー
ド(LOAD)する。
なお、この仮入力単語の番号を1、全認識対象単語数を
Nとする。
次に処理のステップ207において、予備選択処理を実
行する。即ち、仮入力単語lに対し、l+1からNまで
の残りの単語を標準パターンとして、最類似単語を求め
るが、処理のステップ208のDPマツチング計算量が
多いため、予め予備選択を行なう。ここでは音素系列長
に基づき予備選択を行なっており、入力lの音素系列長
に対し、±50%以内に入る単語のみを認識対象単語の
音素列パターン302より選択し、次の処理のステップ
208のDPマツチング処理ステップに送る。
処理ステップ208のDPマツチングの処理では、処理
のステップ207の予備選択の結果、求められた単語と
入力単語1のDPマツチングを行なう。DPマツチング
は一例として、ここでは両端点固定、整合窓±1,16
音素としている。また局所的距離の算出に当っては、第
2表に示す音素間類似皮表を格納している音素間類似度
マ) IJクス303をテーブルルックアップ(LOO
K UP)により用いて算出する。
次に処理のステップ209において、類似度。
平均類似度をワーキングメモリ303に格納する。
即ち、処理のステップ208のDPマツチング処理の結
果、求められた第1候補及び第2候補の単語名、素線類
似度及び平均類似度をワーキングメに + + + + 、100 、 58 l( 11  N   55 74  83  69 65 
85  5  532 J 305960524059
二第2表 音素間力 STNHMYRW ++++++++ ++++++++ ++++++++ ++++++++ ++++++++ ++++++++ ++++++++ ++++++++ 10    +    +    +    +   
 +    十   +10100   4    +
    +    +    +    +5  51
00   +   +   +   +   +j似度 IA    +    +    +    +   
 +    十   +    +    十   +
    +21    ++十++++++++ 3  υ   +   +−)++++++++4E+
++++++++++ SO+   +   +   +   +   +  
 +   +   +   +   +6N    十
   +    十   +    +    +  
  +    +    +    +    +7Q
    +    +    十   +    + 
   +    +    +    +    + 
   +8K   +   +   +   +   
+   +   +   +   +   +   +
9S   +   +   +   +   +   
+   +   +   +   +   +10T+
++++++++++ 11N++    十   +++++    +  
 ÷   +12H+++++++++++ 13M+++++++    十   十   +10
T+++++++++++ 15   R+++++++    十   +++1
6W++++++++++十 17  G100   +   +   +   + 
  +   +   +   +   +   +18
  Z   75100   +   +   +  
 +   +   +   +   +   +19D
8587100   +   +   +   +  
 +   +   +   +20B84729010
0   +   +   +   +   +   +
   +21P85508585100   +   
+   +   +   +   +22KY  30
 20 20 70 30100   +   +  
 +   +   +23SH2022Is  15 
20 40100   +   +   +   +2
4CHIs  42 13 13 40 55 601
00   +   +   +25NY  31 43
 20 20 21 40 50 20100   +
   +26HY  26 30 16 16 45 
35 55 50 40100   +27λα 32
 44 22 22 30 30 40 30 20 
3010028RY  30 41 25 25 26
 20 20 20 40 20 6229GY  3
1 60 28 28 28 50 10 21 41
 42 6330BY  32 55 27 60 4
0 43 10 22 42 48 6431 PY 
 20 40 15 15 70 80 30 60 
20 73 2032  J  68 80 77 5
2 40 10 12 32 33 20 34第2表
 音素間類似度(つづき RY  GY  BY  PY   J++++十 +++++ +++++ +++++ +++++ +++++ +++++ +++++ +++++ +++++ +++++ +++++ +++++ +++++ 十++++ +++++ +++++ +++++ +++++ +++++ +++++ +++++ +++++ +++++ +++++ +++++ +++++ IQQ    +    +    +    +50
100    +    +    +70  601
00    +    +35 55 70100  
 + モリ303に格納する。平均類似度は、入力単語iのそ
れ以外の全認識対象単語への類似度の和を個数で正規化
したものと定義している(ただし、予備選択で残ったも
のについてのみ)。
次に処理のステップ210に移行し、仮入力単語!とし
て1=N−1になるまでステップ206からステップ2
09の処理を続行する。
ステップ210において全語終了と判断した段階でステ
ップ2+1に移行し、類似度がある閾値θより大きな対
をワーキングメモリ303に再格納する。即ち、処理の
ステップ209によりワーキングメモIJ 303に格
納されている第1及び第2候補の単語名、類似度及び平
均類似度のうち、類似度をステップ2+1においてマイ
クロプロセッサ108にロード(ROAD)L、閾値θ
より類似度が大きい単語対のみをワーキングメモリ30
3に再格納する。
次にステップ212に移行し、処理のステップ211に
よりワーキングメモリ303に格納した閾値9以上の類
似単語対のうちの上位10位をソーティングする。
次に処理のステップ213に移行し、処理のステップ2
12によってソーティングした類似単語対を文字表示装
置111にて表示し、このうち平均類似度の大きい方に
ついての入れ換えまたは消去要求を区別表示して行なう
第3表は第4表に示す100都市名を用いて、本発明に
おける文字入力された認識対象単語の検定処理を行なっ
た結果の出力例を示すものであり、入れ換えあるいは消
去要求は単語対のうちのアンダーラインを施した単語と
して区別表示している。
なお、この例において用いた類似度閾値θは、全体の9
096ということでθ=2880としている。
この例からも明らかなように類似した単語対が効果的に
抽出され、単語の入れ換えまたは除去を効率良く行なう
ことが可能となる。
(以下余白) 第4表 100都市名 〈発明の効果〉 以上のように本発明によれば、認識に用いる単語を予め
文字入力することにより、認識対象語いが検定され、入
れ換えまたは除去すべき類似語が警告出力されるため、
効率良く類似単語の入れ換えまたは除去を行なうことが
出来、その結果、認識時における類似単語の出現確率が
低下し、認識率を高めることが出来る。
【図面の簡単な説明】
第1図は本発明の一実施例装置の構成を示すブロック図
、第2図は本発明における文字入力された認識対象単語
の検定処理フローを示す図である。 lot  マイクロホン、 + 05− A/D変換器
、+06  ワーキングRAM、   +07・・パタ
ーンメモリ、  108 マイクロプロセッサ、109
 ・プログラムメモリ、  llO文字入力装置、 1
11 文字表示装置。

Claims (1)

  1. 【特許請求の範囲】 1、単語を発声単位として音声を認識する音声認識装置
    において、 認識に用いる複数の単語を予め文字入力する手段と、 該入力手段により入力された認識対象語いを発声の前に
    検定する手段と、 該検定結果にもとずいて類似語を警告出力する出力手段
    と を備えたことを特徴とする音声認識装置。 2、前記出力手段は、ある閾値以上の類似度を示す類似
    単語対を出力し、単語の入れ換えまたは除去を促すよう
    に出力してなることを特徴とする特許請求の範囲第1項
    記載の音声認識装置。 3、前記出力手段は、各単語の全単語に対する平均類似
    度にもとずいて、それ以外の単語への類似性が大と思わ
    れる単語より入れ換えまたは除去を促すように出力して
    なることを特徴とする特許請求の範囲第2項記載の音声
    認識装置。
JP60165480A 1985-07-25 1985-07-25 音声認識装置 Expired - Lifetime JPH067347B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60165480A JPH067347B2 (ja) 1985-07-25 1985-07-25 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60165480A JPH067347B2 (ja) 1985-07-25 1985-07-25 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6225795A true JPS6225795A (ja) 1987-02-03
JPH067347B2 JPH067347B2 (ja) 1994-01-26

Family

ID=15813202

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60165480A Expired - Lifetime JPH067347B2 (ja) 1985-07-25 1985-07-25 音声認識装置

Country Status (1)

Country Link
JP (1) JPH067347B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS617890A (ja) * 1984-06-22 1986-01-14 富士通株式会社 音声認識対象単語検査方式
JPS6146995A (ja) * 1984-08-11 1986-03-07 富士通株式会社 音声認識システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS617890A (ja) * 1984-06-22 1986-01-14 富士通株式会社 音声認識対象単語検査方式
JPS6146995A (ja) * 1984-08-11 1986-03-07 富士通株式会社 音声認識システム

Also Published As

Publication number Publication date
JPH067347B2 (ja) 1994-01-26

Similar Documents

Publication Publication Date Title
JP3542026B2 (ja) 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
JP3426176B2 (ja) 音声認識装置、方法、コンピュータ・システム及び記憶媒体
CN101458928B (zh) 语音识别装置
US20120041763A1 (en) Recognizing the numeric language in natural spoken dialogue
JPS62232691A (ja) 音声認識装置
JPS6225795A (ja) 音声認識装置
JP5596869B2 (ja) 音声認識装置
JP6991409B2 (ja) 情報処理装置、プログラム及び情報処理方法
JP2003022091A (ja) 音声認識方法および音声認識装置ならびに音声認識プログラム
JP4445371B2 (ja) 認識語彙の登録装置と音声認識装置および方法
JPH0556519B2 (ja)
CN115132169A (zh) 一种语音转换方法、装置及终端设备
JPS60107192A (ja) パタ−ン認識装置
CN110880327A (zh) 一种音频信号处理方法及装置
JPS58186836A (ja) 音声入力デ−タ処理装置
JP2001067096A (ja) 音声認識結果評価装置および記録媒体
JPS62217297A (ja) 単語音声認識装置
JPH08160986A (ja) 音声認識装置
JP2006039383A (ja) 音声認識装置
JPS60115996A (ja) 音声認識装置
JPS60147797A (ja) 音声認識装置
JPS6011897A (ja) 音声認識装置
JPS63303398A (ja) 音声認識装置
JPH01285996A (ja) 音声認識装置
JPS60115993A (ja) 単音節音声認識装置