JPS6138480B2 - - Google Patents

Info

Publication number
JPS6138480B2
JPS6138480B2 JP55110628A JP11062880A JPS6138480B2 JP S6138480 B2 JPS6138480 B2 JP S6138480B2 JP 55110628 A JP55110628 A JP 55110628A JP 11062880 A JP11062880 A JP 11062880A JP S6138480 B2 JPS6138480 B2 JP S6138480B2
Authority
JP
Japan
Prior art keywords
digits
time length
utterance
uttered
digit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55110628A
Other languages
English (en)
Other versions
JPS5734599A (en
Inventor
Hiroki Yamaura
Hiroshi Hakane
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP11062880A priority Critical patent/JPS5734599A/ja
Publication of JPS5734599A publication Critical patent/JPS5734599A/ja
Publication of JPS6138480B2 publication Critical patent/JPS6138480B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は音声認識装置、特に連続に発声された
単語の認識性能を改善した音声認識装置に関す
る。
人間の話す言葉をそのまま理解する音声認識装
置は、マン・マシンインターフエースの究極の手
段として最近にわかに脚光を浴びて来た。特に
DP法(DYNAMIC PROGRAMING法)を用いて
連続して発声した音声を認識出来るいわゆる連続
認識可能な音声認識装置(特許出願公開昭55−
29803“連続音声認識装置”)が出現して以来コン
ピユータへのデータエントリ,オーダーエントリ
用としての期待が高まりつつある。
複数の単語を連続的に発声して認識させる場
合、その単語数をあらかじめ補助情報として与え
ておくか否かによつて認識性能に大きな差が生ず
ることが実験的に確認された。第1図の表はその
データの一例であり、連続単語として4個の数
字、すなわち4桁数字の場合について補助情報と
してあらかじめ単語数すなわち桁数が4であると
云う情報を与えておき、認識結果は指定された桁
数に限るとした場合(以降これを桁数指定の場合
と称する)とそうでない場合(以降これを桁数無
指定の場合と称する)との2通りについて任意抽
出した複数人の被検査人、A、B、C、Dについ
て各々の認識率の結果を示したものである。ここ
で認識率(正答率)は150個の4桁数字列のうち
の全桁正答数字列個数のここである。よく知られ
ている如く、音声認識装置の認識結果は個人差や
発声の仕方に負うところが大きい。したがつて表
の結果は必ずしも認識性能の絶対値を示すものと
は限らないが、少なくとも同一人について云え
ば、連続数字認識においては、桁数指定により方
法が桁数無指定による方法よりも優れていると云
える。したがつて発声される数字の桁数があらか
じめ定まつていれば桁数指定による認識方法が用
いられている。そして桁数を指定して連続音声認
識を行う技術としては特願昭50−132004号に示さ
れている。
しかしながら桁数は必ずしも常にあらかじめ定
まつているとは限らず例えばオーダーエントリに
おける注文数量,検査システムに於ける測定値な
どは一般に桁数は定まつていない。この場合桁数
が少ない場合は上位に零を付して無理に桁数を指
定の値に統一出来ないこともない。例えば21を
0021として4桁に統一するなどである。しかしな
がらこれでは音声認識装置にデータを入力すると
きの発声の仕方に制約を生じかつ本来は不必要を
上位桁の零を読み込まねばならず作業時間の無駄
を生じる結果となる。また前述の特願昭50−
132004号では桁指定をそのつど行つてやらねばな
らず、実際上の認識動作においては不便なもので
あつた。
したがつて、本発明の目的は、特別な桁数指定
手段を設けることなく、連続音声を正確に認識で
きる連続音声認識装置を提供することである。
第2図は任意に抽出された被検査人に対して数
字の1桁、2桁、3桁、4桁の乱数を多数囲発声
させたときの平均的な発声時間長(横軸)と出現
頻度(縦軸)との関係を示す実験結果のグラフで
ある。同図に於て曲線a〜dはそれぞれ1桁〜4
桁の場合の数字発声の分布を示している。同図か
ら明らかなように多数桁の数字を発声するに要す
る発声時間長は発声対象となる数字の種類及び被
検査によるバラツキはあるものの、それぞれ桁数
の発声時間長の発生頻度の分布は異なる桁数の発
声時間長のそれとほぼ明確に区別し得ることであ
る。
したがつて発声時間長を知ることによつて発声
された数字の桁数を判定することが出来る。すな
わち第2図の例で云えば発声時間長がt1より短か
ければ発声された数字は1桁でありt1とt2との間
であればそれは2桁とみなすことが出来る。3桁
と4桁の場合には一部オーバーラツプしているの
で、発声時間長によつて直接桁数を判定するのに
は無理がある。したがつて、とりあえず発声を3
桁以下に限定すれば発声時間長がt2より長い場合
には、3桁とみなすことが出来る。かくして3桁
以下の場合に限定すれば発声時間長から発声され
た数字の桁数を予測することが出来、それを補助
特徴として桁数指定による方法を用い認識性能を
向上せしめることが出来る。
本発明によれば、連続数字の認識率は桁数を
指定することで改善することができること。3
桁までの数字の場合、桁数は発声時間によつて検
知することができること、という2つの結果にも
とづき、発声時における発声時間長から発声され
た数字の桁数を自動的に検知し、これにより連続
音声の桁数を指定して連続音声認識を行う連続音
声認識装置が得られる。尚、桁数を4以上にして
本発明を実施することも可能であり、これについ
ては後で説明する。
次に本発明の一実施例の図面を参照して本発明
を詳細に説明する。第3図は本発明の一実施例を
示すブロツク図で連続単語として3桁までの数字
の認識を行う場合を示す。図で、マイクロホン1
より入力された音声信号Sが連続音声識別部20
と、発声時間長測定部10へ送られる。発声時間
長測定部10は、発声された音声信号の時間長t
xを測定して、その値txを発声時間弁別信号Stと
して、3個の比較器31,32及び33から成る
単語数判定部30へ送る。各々の比較器31〜3
3では、発声時間長測定部10より送られてきた
発声時間長弁別信号Stの発声時間長の値txが弁
別され、そのtxの値を包含する桁指定出力信号
N1〜N3のいずれかがオンとなり、連続音声識別
部20へ送られる。図中では、各々の比較器31
〜33における閾値t1,t2,t3は任意に設定可能
としている。例えば発声時間長測定部10より出
力された発声時間弁別信号Stの値txが、tx<t1
の範囲であつた場合は比較器31の桁指定出力信
号N1がオンとなり、連続音声識別部20へ送ら
れ、そこで連続音声識別部20は、“発声された
数字の桁数は1桁である”との情報を得る。そこ
で連続音声識別部20は、この情報を補助特徴と
してマイクロホン1より入力された音声信号Sを
識別し、その結果、認識結果信号Aを出力する。
この様にして、発声時間長測定部10を設けて、
その出力としての発声時間長txより桁数を割り
出し、その桁数を認識手段の補助的手段として用
いることにより、前述の桁数指定による寸法が自
動的に行われることにより従来の連続音声認識装
置の性能を大きく改善することが出来る。
図中の連続音声識別部20はパタンマツチング
等種々の識別方式による構成が考えられ本発明
は、識別方式については限定されるものではな
い。又図中の比較器31〜33は、周知のコンパ
レータを用いる事により容易に構成する事が可能
である。
第4図は、第3図の時間長測定部10の一構成
例を示すブロツク図である。図で11は整流器で
音声信号Sを整流し、音声エネルギー信号に変
換して、コンパレーター12に印加する。コンパ
レーター12は整流器11の出力が、ある一定の
エネルギー値以上であるとき論理“1”となる音
声弁別信号gを出力する公知のコンパレーターで
ある。13は時間計数器でコンパレーター12の
出力gが論理“1”である時間長を計測しその時
間長=txを音声時間弁別信号Stとして出力する
ものである。整流器11,コンパレーター12,
時間計数器13はいずれも公知の回路あるいは部
品を用いていかよりにも実現出来、ここであらた
めて、その詳細を説明するまでもないし、かつ、
これらの回路を実現する手段そのものは本発明の
要旨と直接は関係がない。
第2図の実験結果より同図の曲線Cと曲線dと
が発声時間長t3によつて明確に区分できないの
で、前述した本発明の一実施例においては、3桁
までの場合を示したが、本発明に3桁までのもの
に限定されず、4桁以上の場合にも実施できる。
例えば発音の仕方に若干の注意をはらうことによ
り、4桁のみならず、それ以上の桁数の場合でも
明確に区別することができるようになる。また第
2図のような場合でも、発声時間長がt3の近傍t3
±εのとき、桁数の判別が困難として、桁数指定
を行なわず、例えば特願昭50−29891号に示すよ
うな連続音声認識を行つてもよい。更にはつきり
と桁数が指定できないとき、例えば第2図の3桁
と4桁のときは、3桁と4桁とでそれぞれ認識を
行つて、類似度の高い結果を採用してもよい。ま
た、第3図において、単語数判定部30は3個の
比較器で構成されているが、これをn個とすれば
n桁迄までの桁指定できる。
以上の説明では発声される単語として数字の場
合について述べたが本発明は、限ずしも数字に限
定されず1単語の発声時間長が大略同程度の単語
群であれば発声時間長から発声された単語の数を
想定することが出来、本発明を応用出来ることは
以上述べた本発明の原理から明らかである。
【図面の簡単な説明】
第1図は連続的に発声される単語として4桁の
数字のとき、桁指定を行つた場合と行なわない場
合の認識率を示す表、第2図は1桁〜4桁の乱数
数字を多数回発声させたときの平均的な発声時間
長(横軸)と出現頻度(縦軸)との関係を示す
図、第3図は本発明の一実施例を示す図、第4図
は第3図の発声時間長測定部の構成を示す図。 図において、1……マイクロホン、10……発
声時間長測定部、20……連続音声識別部、30
……単語数判定部、31〜33……比較器、11
……整流器、12……比較器、13……時間計数
器。

Claims (1)

    【特許請求の範囲】
  1. 1 連続発声された単語列の認識を行う連続音声
    認識装置であつて、入力音声信号を受け発声時間
    長を測定する測定手段と、前記測定手段からの出
    力を受け発声された単語数を判定する単語数判定
    手段と、前記単語数判定手段の出力を受けて入力
    音声信号を認識する連続音声認識部とを具備する
    ことを特徴とする連続音声認識装置。
JP11062880A 1980-08-12 1980-08-12 Continuous voice recognizing device Granted JPS5734599A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11062880A JPS5734599A (en) 1980-08-12 1980-08-12 Continuous voice recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11062880A JPS5734599A (en) 1980-08-12 1980-08-12 Continuous voice recognizing device

Publications (2)

Publication Number Publication Date
JPS5734599A JPS5734599A (en) 1982-02-24
JPS6138480B2 true JPS6138480B2 (ja) 1986-08-29

Family

ID=14540583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11062880A Granted JPS5734599A (en) 1980-08-12 1980-08-12 Continuous voice recognizing device

Country Status (1)

Country Link
JP (1) JPS5734599A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956675A (en) * 1997-07-31 1999-09-21 Lucent Technologies Inc. Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection

Also Published As

Publication number Publication date
JPS5734599A (en) 1982-02-24

Similar Documents

Publication Publication Date Title
Lamel et al. An improved endpoint detector for isolated word recognition
US7447632B2 (en) Voice authentication system
JP3337233B2 (ja) 音声符号化方法及び装置
AU643142B2 (en) Speech recognition employing key word modeling and non-key word modeling
JP3080388B2 (ja) 不明人物の同一性検証方法
CA2366892C (en) Method and apparatus for speaker recognition using a speaker dependent transform
JPH03501657A (ja) パターン認識エラー低減装置
EP0121248A1 (en) Speaker verification system and process
US6308153B1 (en) System for voice verification using matched frames
US4370521A (en) Endpoint detector
KR20170073113A (ko) 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치
US5159637A (en) Speech word recognizing apparatus using information indicative of the relative significance of speech features
USRE32172E (en) Endpoint detector
JPS6138480B2 (ja)
JP2838848B2 (ja) 標準パターン登録方式
JP3919314B2 (ja) 話者認識装置及びその方法
JPS6147999A (ja) 音声認識装置
JPS6336678B2 (ja)
Pol et al. USE OF MEL FREQUENCY CEPSTRAL COEFFICIENTS FOR THE IMPLEMENTATION OF A SPEAKER RECOGNITION SYSTEM
KR101195742B1 (ko) 키워드별 필러 모델을 구비하는 키워드 검출 시스템 및 키워드별 필러 모델 구현 방법
KR100281581B1 (ko) 동시 조음 모델을 이용한 한국어 연속 숫자 음성인식 방법
JP2002372989A (ja) 数字音声入力方法、その装置、そのプログラム及びその記録媒体
Johnson et al. A phrase recognizer using syllable-based acoustic measurements
White Linear predictive residual analysis compared to bandpass filtering for automatic speech recognition
JPH0335297A (ja) 有音・無音検出方式