JPS62223798A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS62223798A
JPS62223798A JP61066955A JP6695586A JPS62223798A JP S62223798 A JPS62223798 A JP S62223798A JP 61066955 A JP61066955 A JP 61066955A JP 6695586 A JP6695586 A JP 6695586A JP S62223798 A JPS62223798 A JP S62223798A
Authority
JP
Japan
Prior art keywords
speech
interval
word
similarity
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61066955A
Other languages
English (en)
Inventor
章次 栗木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61066955A priority Critical patent/JPS62223798A/ja
Publication of JPS62223798A publication Critical patent/JPS62223798A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 挟宜公互 本発明は、音声認識装置、より詳細には、音声認識装置
における音声区間の検出に関する。
丈米五揉 従来、音声認識装置において、音声区間を検出する場合
1語尾に雑音が入っていることを考えて、無音区間の後
に有音区間がある場合、その有音区1ull長がある閾
値より小さい場合は雑音と考え、その有音区間を無視し
ていた。そのため、話者によって促音の後に短かい言葉
が続いて終了する単語、例えば、′ス1〜ツブ′や゛ア
ップ′では語尾の有音区間が無視されることがある。ま
た。
言語の違いにより、日本語では必ず母音が入るため、例
えば、′ストップ′でも促音の後の有音区間は’p u
’になり比較的長いが、英語の場合’s’top’では
′p′の子音だけになり非常に短かい。従って、日本語
の有音区間が欠落しないような値で雑音と判断して有音
区間を無視すると、英語では音声データの有音区間が多
く欠落してしまう。
目     的 本発明は、上述のごとき実情に視みてなされたものの、
特に、音声認識装置において、言語の違いによる音声区
間の検出誤りを無くし、認識率を向」二させることを目
的としてなされたものである。
盪−一處 本発明は、上記目的を達成するために、入力された音声
の特徴を抽出する手段と、辞書データとの類似度を求め
る認識処理をし最も高い類似度を持つ単語をその結果と
して出方する手段と、入力音声のパワー成分より音声区
間を検出する手段と。
無音区間を検出する手段と1語尾に無音区間に続く短か
い音声区間がある場合にその音声区間を無視して雑音を
除去する手段とを有する音声認識装置において、使用す
る言語を選択するスイッチを具備し、使用する言語によ
り無視する音声区間長をあらかじめ決定しておき、使用
者に前記スイッチで選択させること、或いは、使用者に
音声区間が欠落しやすい促音の後に子音が続いて終了す
る特定の単語を入力させ、その語尾の音声区間長を検出
して、その値より無視する音声区間長を決定すること、
或いは、使用者に音声区間が欠落しやすい促音の後に子
音が続いて終了する特定の単語を人力させ、正しく音声
区間が検出された標準辞書との類似度を算出し、いくつ
かの単語の類似度の合計が最も高くなるように無視する
音声区間を決定することを特徴としたものである。以下
、本発明の実施例に基いて説明する。
第5図は、本発明の動作原理を説明するための図で、(
a)は日本語の場合の入力音声、(b)は英語の場合の
入力音声、(c)は辞書に登録させている音声で、入力
音声と辞書単語を時間的に線形伸縮して認識処理をする
認識装置を例として説明する。入力音声には音声データ
以外に発声終了後に舌打ち等の雑音Cが付くことがある
(第5図(a))。この雑音を取り除くために、無音区
間Aに続く有音区間Bの長さに着目し、この区間長があ
る閾値より小さいものは無視していた。この値は1日本
語の場合30〜50+u程度である。
日本語では、全ての音節は母音を伴なうため、ひとつの
音節が30w以下になることはなく、音声データの欠落
はなかった。しかし、他の言語、例えば、英語について
考えた場合、英語を母国語とするアメリカ人やイギリス
人の場合、 ’s t o p’の最後は1p′になり
、子音のみなので10〜20m5程度の区間長しかなく
、’p’ が雑音とみなされ欠落してしまう。つまり、
第5図(b)の′p′の部分が無視されるため、辞書が
正しく’5top″になっていると対応が正しくなくな
り、類似度が小さくなり誤認識をする(第5図(C))
よって、各言語によって無音区間に続く有音区間長をあ
らかじめ調査し、言語によって雑音とみなす区間長を変
化させることにより、語尾の欠落を無くすことができる
第1図は1本発明の一実施例を説明するための電気的ブ
ロック線図1図中、1はマイクロホン。
2は特徴抽出部、3は音声区間検出部、4は雑音キャン
セル部、5は言語選択スイッチ、6はキャンセル長決定
部、7は辞書、8は認識処理部で。
話者は自分が使用する言語によって言語選択スイッチS
を切り換える。このスイッチSによって雑音としてキャ
ンセルする区間長が決定され、雑音キャンセル部4では
その区間長により雑音をキャンセルする。この構成によ
って言語による欠落を無くすことができる。
第2図及び第3図は、話者に語尾が落ちやすい単語を発
声してもらい、自動的に雑音としてキャンセルする区間
長を決定する場合の実施例を説明するための電気はブロ
ック線図で、第2図に示した実施例は、話者毎に欠落し
やすい単語、例えば、1ス1−ツブ′や′アップ′など
の単語を発声してもらい、その最後の区間数を検出して
最短のものが欠落しないように雑音キャンセル長を決定
するようにしたものである。単語は言語毎に決定してお
き、認識の前に発声してもらう。この時に語尾の有音区
間を検出し、その最小の値をキャンセル長として記憶す
る。一度決定された値は辞書にも記録され、この辞書を
使用する時にはキャンセル長がその値となるようにし1
話者に対して1回の調整ですむようにする。
第3図に示した実施例は、第2図に示した実施例の場合
と同様に一定の単語を発声してもらい、あらかじめ、そ
の単語の標準辞書をもっている。
いくつかの単語を発声してもらい、その単語についてキ
ャンセル長を変化させた時の類似度を計算し、記憶して
おく。全ての単語の発声が終了したならば、各キャンセ
ルフレーム長毎に全単語の類似度の総和を出し、その値
が最も高くなる値をキャンセル長として認識時に使用す
る。この値は辞書に記録し、−回の調整ですむようにす
る。
ところで、第2図及び第3図に示した実施例は共に調整
中の単語発声時に雑音が入った場合は間違った値を出す
可能性がある。従って、発声された単語の語尾の有音区
間が音声データであるか否かを検知できればさらに確実
なものとなる。
第4図は、上記単語の語尾の有音区間が音声データであ
るか否かを検出する手段を付は加えた場合の実施例を説
明するための図で、入力される単語は指定することによ
り語尾がなんの音節で終了するか分かるため、この語尾
の音節だけの標準辞書をもつようにする。入力された音
声の語尾の有音区間は、標準語尾の辞書12と類似度を
計算し、その値がある閾値をこさない場合には調整用に
は使用しない。例えば、第5図では′p′の辞書と入力
の語尾の有音区間との類似度を求めるものである。もし
、舌打ち等の雑音ならば類似度が低くなるため、この入
力された音声を調整用には使用せず、従って、間違った
キャンセル長を決定することはなくなる。
羞−一米 以上の説明から明らかなように、本発明によると、言語
毎に雑音キャンセル長が変化されるため、音声データの
欠落がなくなり、認識率を上げることができる6話者毎
に最適な雑音キャンセル長が決定されるため、より認識
率の向上が確保される等の利点がある。
【図面の簡単な説明】
第1図乃至第4図は、それぞれ本発明による音声認識装
置の実施例を説明するための電気的ブロック線図、第5
図は、本発明の動作原理を説明するための図である。 1・・・マイクロホン、2・・・特徴抽出部、3・・・
音声区間検出部、4・・・雑音キャンセル部、5・・・
言語選択スイッチ、6・・・キャンセル長決定部、7・
・・辞書、8・・・認識処理部、9・・・語尾の有音区
間検出部、10・・・雑音キャンセル長決定部、11・
・・標準辞書、12・・・語尾の辞書。 第 1 区 勇2図 第3図 第4図 第5図

Claims (5)

    【特許請求の範囲】
  1. (1)、入力された音声の特徴を抽出する手段と、辞書
    データとの類似度を求める認識処理をし最も高い類似度
    を持つ単語をその結果として出力する手段と、入力音声
    のパワー成分より音声区間を検出する手段と、無音区間
    を検出する手段と、語尾に無音区間に続く短かい音声区
    間がある場合にその音声区間を無視して雑音を除去する
    手段とを有する音声認識装置において、使用する言語を
    選択するスイッチを具備し、使用する言語により無視す
    る音声区間長をあらかじめ決定しておき、使用者に前記
    スイッチで使用する言語を選択させることを特徴とする
    音声認識装置。
  2. (2)、入力された音声の特徴を抽出する手段と、辞書
    データとの類似度を求める認識処理をし最も高い類似度
    を持つ単語をその結果として出力する手段と、入力音声
    のパワー成分より音声区間を検出する手段と、無音区間
    を検出する手段と、語尾に無音区間に続く短かい音声区
    間がある場合にその音声区間を無視して雑音を除去する
    手段とを有する音声認識装置において、使用者に音声区
    間が欠落しやすい促音の後に子音が続いて終了する特定
    の単語を入力させ、その語尾の音声区間長を検出し、そ
    の値より無視する音声区間長を決定することを特徴とす
    る音声認識装置。
  3. (3)、入力音声の語尾の有音区間と単語の語尾の有音
    区間の標準辞書との類似度を求め、ある閾値以上の時の
    み上記音声区間長の決定を行うようにしたことを特徴と
    する特許請求の範囲第(2)項に記載の音声認識装置。
  4. (4)、入力された音声の特徴を抽出する手段と、辞書
    データとの類似度を求める認識処理をし最も高い類似度
    を持つ単語をその結果として出力する手段と、入力音声
    のパワー成分より音声区間を検出する手段と、無音区間
    を検出する手段と、語尾に無音区間に続く短かい音声区
    間がある場合にその音声区間を無視して雑音を除去する
    手段とを有する音声認識装置において、使用者に音声区
    間が欠落しやすい促音の後に子音が続いて終了する特定
    の単語を入力させ、正しく音声区間が検出された標準辞
    書との類似度を算出し、いくつかの単語の類似度の合計
    が最も高くなるように無視する音声区間を決定する手段
    を有することを特徴とする音声認識装置。
  5. (5)、入力音声の語尾の有音区間と単語の語尾の有音
    区間の標準辞書との類似度を求め、ある閾値以上の時の
    み上記音声区間長の決定を行うようにしたことを特徴と
    する特許請求の範囲第(4)項に記載の音声認識装置。
JP61066955A 1986-03-25 1986-03-25 音声認識装置 Pending JPS62223798A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61066955A JPS62223798A (ja) 1986-03-25 1986-03-25 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61066955A JPS62223798A (ja) 1986-03-25 1986-03-25 音声認識装置

Publications (1)

Publication Number Publication Date
JPS62223798A true JPS62223798A (ja) 1987-10-01

Family

ID=13330952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61066955A Pending JPS62223798A (ja) 1986-03-25 1986-03-25 音声認識装置

Country Status (1)

Country Link
JP (1) JPS62223798A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010070840A1 (ja) * 2008-12-17 2010-06-24 日本電気株式会社 音声検出装置、音声検出プログラムおよびパラメータ調整方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010070840A1 (ja) * 2008-12-17 2010-06-24 日本電気株式会社 音声検出装置、音声検出プログラムおよびパラメータ調整方法

Similar Documents

Publication Publication Date Title
TW546631B (en) Disambiguation language model
EP1901286B1 (en) Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
JPS6147440B2 (ja)
JPS62232691A (ja) 音声認識装置
US20170270923A1 (en) Voice processing device and voice processing method
JPS62223798A (ja) 音声認識装置
US20180330742A1 (en) Speech acquisition device and speech acquisition method
JP7035476B2 (ja) 音声処理プログラム、音声処理装置、及び音声処理方法
JP2578771B2 (ja) 音声認識装置
JP3110025B2 (ja) 発声変形検出装置
WO2018043139A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JPS5872995A (ja) 単語音声認識方法
JP2891259B2 (ja) 音声区間検出装置
JP2005189294A (ja) 音声認識装置
JPS6033599A (ja) 音声認識装置
JPS6027433B2 (ja) 日本語情報入力装置
JPS6312000A (ja) 音声認識装置
JP2019135529A (ja) 編集支援装置、編集支援方法及びプログラム
JPS63306498A (ja) 音声区間検出方式
JPS5925240B2 (ja) 音声区間の語頭検出方式
JPS60118896A (ja) 音声認識装置
JPS58176699A (ja) 音声標準パタ−ン登録方式
JP2005189293A (ja) 音声認識装置