JPS6131478B2 - - Google Patents

Info

Publication number
JPS6131478B2
JPS6131478B2 JP55158608A JP15860880A JPS6131478B2 JP S6131478 B2 JPS6131478 B2 JP S6131478B2 JP 55158608 A JP55158608 A JP 55158608A JP 15860880 A JP15860880 A JP 15860880A JP S6131478 B2 JPS6131478 B2 JP S6131478B2
Authority
JP
Japan
Prior art keywords
detector
output
frame length
opening
mouth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55158608A
Other languages
English (en)
Other versions
JPS5781300A (en
Inventor
Yutaka Kamikawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP55158608A priority Critical patent/JPS5781300A/ja
Publication of JPS5781300A publication Critical patent/JPS5781300A/ja
Publication of JPS6131478B2 publication Critical patent/JPS6131478B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は話者の口の開閉動作を光学的に検出す
る機能を備えた音声認識装置に関するものであ
る。
音声認識装置において音声発声区間を検出する
ことは大切なことである。従来の音声発声区間検
出器においては20〜30msの長さのフレーム長内
でのエネルギーまたはゼロクロス数にあるしきい
値を設け、それより大きい場合のみ音声発声区間
と判断するようにしている。ところが破裂音を検
出する場合、破裂音の存続期間は5ms位である
為、20〜30msのフレーム長で取扱うと破裂音の
特徴が抽出できなく、また、子音はエネルギーが
小さい為、抜き出すことが難しいという欠点があ
つた。
本発明は上記の不都合を解決するようにしたも
のである。以下、本発明を図示の実施例に基いて
説明するが、その前に本発明の原理について説明
しておく。話す時は第1図a,bに示すように、
閉口状態および開口状態となる。従つて、話者の
口元に光量検出器の照準をあわせておき、斜め方
向より口元に光を当てておくと、口が閉じている
時は頬、唇からの反射により光量は多いが、口を
開くと口腔が現われ、口腔からの反射光量は少な
くなる。従つて、これを電気量に変換すれば口の
開閉に伴い、電気量が変化する。光量検出器とし
ては例えば光学レンズ系とフオトトランジスタと
を組み合わせ、光学レンズ系による像がフオトト
ランジスタの窓の所にくるように設置すればよ
い。定常、母音では口の開閉動作はほとんどない
が、子音+母音あるいは母音+母音の時のように
音が変化する時に開閉動作が行われる。定常母音
の時には、データ量の節約の為、フレーム長は長
い方がよいが、過渡音ではフレーム長を短くして
時々刻々の変化に対応しなけばならない。そこ
で、光量検出器の出力の変化に応じてフレーム長
を短くする信号が開閉検出器の出力となるように
する。この出力を音響分析器のフレーム長制御入
力端子に加えることにより、話者の口の開閉時に
フレーム長を短くすることができる。
以上の原理に基く本発明の実施例を第2図に示
す。同図において、1は話者、2は話者1の口元
に斜めから光を当てる照明具、3は話者1の口元
に照準を合わせた光量検出器、4は話者1の口の
開閉動作を検出する開閉検出器で、これは光量検
出器3に後続されている。5は話者1からの発声
音を電気信号に変換するマイクロホン、6は通常
用いられているエネルギー、ゼロクロス数を用
い、音声区間を検出した時に出力に「1」を、他
の場合には「0」を出す音声区間検出器であり、
これはマイクロホン5に後続されている。7は上
記マイクロホン5の出力が入力される低域フイル
ター、8はサンプリング周波数でアナログ信号す
なわち上記低域フイルター7の出力信号をデジタ
ル信号に変換するA−D変換器、9は前記開閉検
出器4の出力と音声区間検出器6の出力が入力さ
れるORゲート回路、10は上記ORゲート回路9
の出力が「1」の時に音声発声区間とみなして音
響分析を行い、開閉検出器4の出力が「1」の時
にフレーム長を短くして分析する音響分析器、1
1は音響分析器10の出力から特徴抽出を行う特
徴抽出器、12はあらかじめ登録してある特徴パ
ターンと比較または識別関数による判別を行い、
入力音声を識別する識別器、13はその識別結果
を表示する表示器である。
前記開閉検出器4は第3図aに示す如く、単位
時間当りの光量変化量が正の方向にL1、または
負の方向のL2より大きい場合に出力は「1」と
なり、それ以外の場合は「0」であるようにして
おく。ここでL1,L2は実験的に適当な値に設定
する。音響分析器10は高速フーリエ変換を用い
て周波数分析を行い、第3図bの如く開閉検出器
出力が「0」の時にフレーム長内サンプル点数は
N、「1」の時にフレーム長内サンプル点数が
N/2nとなるようにする。A−D変換器8のサ
ンプリング周波数をsで表わせば、フレーム長
は各々N/s、N/(s×2n)で表わせ
る。ここで、N=2m、m>n≧1、mとnは正
の整数とする。例えばs=8KHz、m=8即ち
N=256とすると、1フレームは32msである。
子音を検出するには、フレーム数は4ms位が必
要である。即ちn=3とすればよい。この場合、
周波数間隔は定常母音時の31、25(Hz)に対し、
8倍の250(Hz)となり、得られる精度は低くな
るが、母音の場合と異なり、子音はピツチ等の基
本周波数の高調波として現われず、連続スペクト
ルに近い形で出ることが多いので周波数精度が低
くても利用できる。また、この音響分析器には通
常のエネルギー、ゼロクロス数による検出だけで
は得られない小エネルギー、短時間発声の子音に
対しても開閉検出器4、ORゲート回路9を通つ
て音声区間として検出することができる。なお、
特徴抽出器11、識別器12、表示器13は周知
の音声認識装置に使用されているものを使用でき
る。
以上の実施例においては高速フーリエ変換を用
いた音響分析器を例にとつて説明したが、周波数
分析器としてアナログ回路による帯域フイルター
バンク出力を整流し、低域フイルターを通した
後、フレーム長を20ms位にして、その期間の平
均出力を特徴パラメータとする方法もあるが、こ
の場合も光量変化量が大きい場合にフレーム長を
小さくすることにより子音の如き過渡音をとらえ
ることができる。
以上の説明から明らかなように本発明によれ
ば、エネルギーが小さい子音等も口の開閉動作に
より音声区間として取り出し、また、その時、フ
レーム長を短かくするので、子音の如き過渡音の
特徴パラメータを有効に抽出することができるも
のである。本発明は特に椅子にすわり、顔の位置
があまり動かないような姿勢で発音、認識させる
装置、例えば音声入力式タイプライター等に有用
である。
【図面の簡単な説明】
第1図a,bは閉口状態および開口状態を示す
図、第2図は本発明の一実施例のブロツク構成
図、第3図aは同実施例における開閉検出器出力
と単位時間当たりの光量変化量との関係を示す
図、第3図bは同実施例におけるフレーム長と単
位時間当りの光量変化量との関係を示す図であ
る。 1……話者、2……照明具、3……光量検出
器、4……開閉検出器、5……マイクロフオン、
6……音声区間検出器、7……低域フイルター、
8……A−D変換器、9……ORゲート回路、1
0……音響分析器、11……特徴抽出器、12…
…識別器。

Claims (1)

    【特許請求の範囲】
  1. 1 話者の口元より反射される光量を検出し、そ
    れを電気量に変換する光量検出器と、該光量検出
    器の出力が変化する時に出力を出す開閉検出器を
    具備し、前記開閉検出器の出力時にフレーム長を
    短くし、かつ音声発声区間となしたことを特徴と
    する音声認識装置。
JP55158608A 1980-11-10 1980-11-10 Voice recognition apparatus Granted JPS5781300A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP55158608A JPS5781300A (en) 1980-11-10 1980-11-10 Voice recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP55158608A JPS5781300A (en) 1980-11-10 1980-11-10 Voice recognition apparatus

Publications (2)

Publication Number Publication Date
JPS5781300A JPS5781300A (en) 1982-05-21
JPS6131478B2 true JPS6131478B2 (ja) 1986-07-21

Family

ID=15675416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP55158608A Granted JPS5781300A (en) 1980-11-10 1980-11-10 Voice recognition apparatus

Country Status (1)

Country Link
JP (1) JPS5781300A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6374161U (ja) * 1986-10-31 1988-05-18
JP2005135432A (ja) * 2004-12-13 2005-05-26 Toshiba Corp 画像認識装置及び画像認識装置方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6338993A (ja) * 1986-08-04 1988-02-19 松下電器産業株式会社 音声区間検出装置
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6374161U (ja) * 1986-10-31 1988-05-18
JP2005135432A (ja) * 2004-12-13 2005-05-26 Toshiba Corp 画像認識装置及び画像認識装置方法

Also Published As

Publication number Publication date
JPS5781300A (en) 1982-05-21

Similar Documents

Publication Publication Date Title
Li et al. Robust endpoint detection and energy normalization for real-time speech and speaker recognition
Traunmüller Conventional, biological and environmental factors in speech communication: A modulation theory
Ibrahim et al. Preprocessing technique in automatic speech recognition for human computer interaction: an overview
Niyogi et al. Detecting stop consonants in continuous speech
JPH02242298A (ja) 声門波形に基づく話者識別装置
US7359856B2 (en) Speech detection system in an audio signal in noisy surrounding
JPH0990974A (ja) 信号処理方法
JPS6131478B2 (ja)
WO2007049879A1 (en) Apparatus for vocal-cord signal recognition and method thereof
JPS60200300A (ja) 音声の始端・終端検出装置
JP2797861B2 (ja) 音声検出方法および音声検出装置
Strope et al. Robust word recognition using threaded spectral peaks
JPH03114100A (ja) 音声区間検出装置
Joseph et al. Indian accent detection using dynamic time warping
JP2000099099A (ja) データ再生装置
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
JPS6242197A (ja) 音声区間検出方法
JP3049711B2 (ja) 音声処理装置
JP2737109B2 (ja) 音声区間検出方式
Paliwal et al. Cyclic autocorrelation-based linear prediction analysis of speech
JP2664136B2 (ja) 音声認識装置
Waardenburg et al. The automatic recognition of stop consonants using hidden Markov models
KR950001540B1 (ko) 음성신호의 끝점 검출장치
Blomberg et al. Speech Recognizer for Voice Control of Mobile Telephone
Undhad et al. Exploiting speech source information for vowel landmark detection for low resource language