JPS6391700A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6391700A
JPS6391700A JP61237384A JP23738486A JPS6391700A JP S6391700 A JPS6391700 A JP S6391700A JP 61237384 A JP61237384 A JP 61237384A JP 23738486 A JP23738486 A JP 23738486A JP S6391700 A JPS6391700 A JP S6391700A
Authority
JP
Japan
Prior art keywords
syllable
section
extracted
syllables
buzz bar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61237384A
Other languages
English (en)
Other versions
JPH0558556B2 (ja
Inventor
充宏 斗谷
徹 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP61237384A priority Critical patent/JPS6391700A/ja
Publication of JPS6391700A publication Critical patent/JPS6391700A/ja
Publication of JPH0558556B2 publication Critical patent/JPH0558556B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〈産業上の利用分野〉 この発明は、日本語等の音声を音節単位に認識して、外
部装置に出力する音声認識装置に関する。
〈従来の技術〉 バズバー部は有声破裂音の音節発声の前に先行して声帯
の振動によって発声される音であり、非常に低周波成分
の強い音であり人間には殆ど聞こえない。したがって、
音声認識装置では上記バズバー部を除去する必要がある
従来、音声認識装置では人力された音声を音韻分類する
ことによってバズバー部を判定して、上記バズバー部に
相当する音節情報を除去している。
〈発明が解決しようとする問題点〉 ところが、上記従来の音声認識装置においては、バズバ
ーを強く生じる発声を行う人の場合には、音韻分類では
正確にバズバー部か否かを判定することができない。し
かも、音節区間として切出された特徴パターンは総て有
意味な音節として処理しているので、意図しない音節が
切出されて認識結果として出力することがしばしば発生
し、上・記認識結果を入力する外部装置では入力に手間
取るという問題がある。     ゛ そこでこの発明の目的は、入力されf二音声の音節区間
をバズバー部であるか否かを正確に判別して、誤って一
音節として切出されたバズバー部を確実に除去しうる音
声認識装置を提供することにある。
〈問題点を解決するための手段〉 上記目的を達成するために、この発明の音声認識装置は
入力された音声から音節区間抽出部で音節を切出し、こ
の切出された音節の特徴パターンと、メモリに予め記憶
している複数種類の音節の特徴標準パターンとの類似度
計算をCPUで行って、入力された音声を音節単位で認
識する音声認識装置において、上記音節区間抽出部で切
出した音声が、バズバー部であるか否かを、上記音節区
間抽出部で切出された音節区間におけるパターンからの
特徴情報を所定の値と比較して判別し、上記音節がバズ
バー部であると判別したときに、バズバー部を表わす音
節情報を除去する判別除去手段を有することを特徴とし
ている。
く作用〉 音節区間抽出部によって入力された音声から種々の情報
をもとにして音節が切出されると共に、上記切出された
音節区間のパターンから、音節の特徴を表わす特徴情報
が得られる。上記特徴情報はCPUによって所定の値と
比較されることによって、上記音節がバズバー部である
か否かが判別される。
その結果、バズバー部であると判別されたときはその音
節情報は除去され、また、バズバー部でないと判別され
たときは、上記音節の特徴パターンと、メモリに予め記
憶されている複数種類の音節の特徴標準パターンとの類
似度計算が上記CPUて行なわれることによって、入力
された音声が音節単位でバズバー部の影響を受けること
なく、正確に認識される。
〈実施例〉′ 以下、この発明を図示の実施例により詳細に説明する。
第1図において、■はアナログ入力部であり、連続して
入力された音声を増幅する増幅器(AMP)IIとAM
PIIの出力をディジタル信号に変換するA/D変換器
12とからなる。2は音声分析部であり、ディジタル信
号化された入力音声を16m5程度のフレームに分けて
スペクトル分析を行い、8ms程度の間隔て音節区間抽
出部3に上記人力音声の特徴パターンと音節区間の切出
に必要な情報(例えばパワー、零交差数等)とを転送す
る。上記音節区間抽出部3は上記音声分析部2から転送
される上記音節区間の切出に必要な情報を基に、上記音
声分析部2から転送される特徴パターンから音節を切出
して、この切出した音節の特徴パターン(1音節分)を
特徴パターンメモリ61に格納する。さらに、上記CP
U5とデータを交換しながら、上記切出した音節から特
徴情報を切出して上記特徴パターンメモリ611CI納
して、入力された音声の音節切出しが完了したことをC
PU5に伝達する。
なお、上記特徴情報としては、切出した音節の長さ、切
出した音節と直航の音節との間の無音時間長、切出した
音節の平均パワー、切出した音節の1次の自己相関係数
の平均値、切出した音節と後続する音節との間の無音時
間長、切出した音節の音素系列を用いる。
ここで、上記音声のパワー(P W)および1次自己相
関係数(cBは次のようにして求められる。
すなわち、入力された音声波形は上記A/D変換器12
でディジタル値に変換される。このディジタル値の時系
列をW(i)とするとPW、CIは夫々、PW−xW(
i)xW(i) i=1 の式で求められる。ここでKはlフレームを構成するデ
ータ数(16KHzサンプリングで1フレームを16m
5とすると256となる)である。
パターンメモリ6は、上記音節区間抽出部3によって切
出された音節の一個分の特徴パターン、および上記音節
の特徴情報が記憶されている前述の特徴パターンメモリ
61と、複数の音節の特徴標準パターンが記憶されてい
る標準パターンメモリ62とを有している。音素標準パ
ターンメモリ7は、上記標準パターンメモリ62に記憶
されている上記特徴標学パターンを基にして得られる第
3図に示すような音素標準パターンが記憶されている。
単音節認識部9は、上記CPU5からの命令により、上
記パターンメモリ6内の特徴パターンメモリ61に記憶
されている上記特徴パターンと、標準パターンメモリ6
2に記憶されている上記複数の特徴標準パターンとの間
で類似度計算の一例である距離計算を行うことによって
、入力された音声を認識する。そして、得られた認識結
果は上記CPU5に戻され、さらにインターフェース(
I/F)部IOを介して外部装置に送出される。
次に、第2図に示すI音節の認識処理のフローチャート
により、上記音声認識装置の動作を説明する。
ステップSIで、入力された音声の音節が、上記音節区
間抽出部3によって切出されたか否かを判断する。上記
音節区間抽出部3で音節切出しが完了していればステッ
プS、に進み、完了していなければ、ステップSlに戻
る。
ステップS、で、切出した音節の長さく上記パターンメ
モリ6内の特徴パターンメモリ6Iに記憶されている、
切出された音節の特徴情報の一つ)と設定値Ll(20
フレーム)とを比較する。これは、上記バズバー部は比
較的短いことを利用しており、上記設定値L1以上であ
れば比較した音節はバズバー部ではないと判断してステ
ップS、に進み、設定値Llよりも小さければステップ
S3に進む。
ステップS3で、切出した音節と直前の音節との間の無
音時間長を設定値L2(10フレーム)と比較する。こ
れは、バズバー部を有する有声破裂音は語頭で発生する
ことが多いことを利用しており、設定値し2以下の場合
には上記音節はバズバー部ではないと判断してステップ
S9に進み、設定値L2より大きい場合にはステップs
4に進む。
ステップS4で、切出した音節の平均パワー値と設定値
L3(4000X256)とを比較する。
これはバズバー部は母音はど大きなパワーを持っていな
いことを利用しており、上記設定値L3以上の場合には
上記音節はバズバー部ではないと判断してステップS9
に進み、設定値L3より小さい場合にはステップS、に
進む。
ステップS、で、上記切出した音節の1次の自己相関係
数CIの平均値と、設定値L=1(0,95)とを比較
する。これはバズバー部は低周波成分が殆どでありCI
はlに近い値を持っていることを利用しており、上記設
定値し4以下の場合にはバズバー部ではないと判断して
ステップS、に進み、設定値L4より大きい場合にはス
テップS8に進む。
ステップS8で、切出した音節と後続の音節との間の無
音時間長を設定値L5(5フレーム)と比較する。これ
は上記音節がバズバー部であれば、バズバー部が終了す
ると直ちに有声破裂の有音音節が開始することを利用し
ており、上記設定値L5より大きい場合はバズバー部で
はないと判断してステップS、に進み、設定値し5以下
の場合にはステップS7に進む。
ステップS7で、切出された音節の音素系列を求め、そ
の系列の9割以上のフレームが“Noの音素ラベルであ
るか否かを判定する。9割より小さい場合にはバズバー
部ではないと判断してステップS9に進み、9割以上が
音素ラベル°N゛であれば上記音節はバズバー部である
と判断してステップS8に進む。
ここで、上記音素系列は各フレームごとの音素ラベルを
求めることによって得られ、上記音素ラベルは上記音素
標準パターンメモリ7に記憶されている第3図に示す音
素標準パターンと、入力された音節の特徴パターンを基
に得られる第3図に示す人力音素パターンとの距離計算
を各フレームごとに行って、距離が最小(すなわち、マ
ツチング距離)のときの音素ラベルをそのフレームの音
素ラベルとすることによって得られる。すなわち、まず
、上記音素標準パターンと入カバターンとのマツチング
距#(Dis)を次式で求める。
■ CE P ref(D(i))’ ここで、 i:音素の次数、 j:音素の種類(j=1・・・N)、 N:音素の種類の数(定数)、 L:マツチング計算する次数、 CEPin:入力音素パターン(第3図参照)、CEP
ref:音素標準パターン(第3図参照)。
また、第3図における音素標準パターン(CEP re
f)のCE P ref(D(0)には各音素を表わす
ラベルが割当てられており、’A’、’I’、“Uo、
“E′。
o′は母音性音を表わすラベルであり、N°は鼻音外音
を表わすラベルであり、“S゛は摩擦性音およびノイズ
外音を表わすラベルである。したがって、上記マツチン
グ距離(Dis)が得られたときのj(−J)に対応す
る音素ラベルPHが次式で求められる。
PH=CEPref(JXO) ここで、 J:DISが得られたときのjo 第2図のステップS8で、上記音節区間抽出部2で切出
され、バズバー部であると判定された音節をリジェクト
し、l音節の認識処理は終了する。
ステップSgで、上記CPU5は上記単音節認識部9に
類似度計算を指示する。上記単音節認識部9は上記パタ
ーンメモリ6内の特徴パターンメモリ61に記憶されて
いる、入力された音声から切出されて上記ステップS、
〜ステップS7でバズバー部でないと判定された音節1
個の特徴パターンと、標準パターンメモリ62に記憶さ
れている複数音節の特徴標準パターンとの間で類似度計
算を行い、上記入力された音声から切出された音節の認
識結果を得る。
ステップSIOで、得られた上記音節単位の認識結果を
上記TlF部IOを介して図示しない外部装置に送出し
、l音節の認識処理は終了する。
第4図に上述の音節の認識処理によってバズバー部であ
ると判定されてリジェクトされた音節と、バズバー部で
はないと判定されてリジェクトされなかった音節とを、
上記特徴情報の数例と共に示している。図中最上段より
従来の分類法である音韻分類1本実施例における音素系
列1本実施例におけるパワー曲線1本実施例における1
次の自己相関係数CIの曲線1本実施例におけるバズバ
ー部の判定結果(×・・・バズバー部 ○・・・有意味
な音節)を表わしている。第4図より有声破裂音である
「だ」を例に説明すると、「だ」の有音音節部Bに先行
して出される音節部Aは第2図のフローチャートにした
がって説明(第4図に示す以外の特徴情報は省略)する
と、ステップS4で1音節区間の平均パワーが上記設定
値L3より小さく、ステップS。
で1音節区間のCIの平均が上記設定値L4よりも大き
く、ステップS7で1音節区間の音素系列の9割以上の
フレームが音素ラベル“Noであり、したがってこの音
節部Aはバズバー部と判定されリジェクトされる。一方
、音節部BはステップS4で1音節間の平均パワーは上
記設定値し3以上であり、したがってバズバー部ではな
いと判定されリジェクトされない。他の場合も同様にし
て「と」はステップS4で、「あ」はステップS4で、
「ん」はステップS4で、「と」はステップS4で夫々
バズバー部ではないと判定される。
特に、第4図に示されるようにバズバー部と「ん」との
特性は比較的類似しているが、この場合は有声破裂音は
語頭に多く「ん」は語頭にはこない(すなわち、直前の
音節との無音区間の長さがバズバー部は長く「ん」は短
い)点を利用してステップS3で判定することができろ
本実施例においては上記特徴情報全てを用いてバズバー
部を判別しているが、上記特徴情報のいずれかの組合せ
で判別するようにしてもよい。
〈発明の効果〉 以上より明らかなように、この発明の音声認識装置は、
人力された音声から音節区間抽出部で切出した音節がバ
ズバー部であるか否かを、上記音節区間抽出部で切出し
た音節の特徴情報を所定の値と比較することによって判
別し、上記音節がバズバー部であると判別したときに、
バズバー部を表わす音節情報を除去する判別除去手段を
設けたので、バズバー部を強く生じる発声を行う人の場
合であっても正確にバズバー部を判別除去することがで
き、したがって、有意味な音節のみを切出することかで
きるので、認識性能が向上すると共に、認識結果が入力
される外部装置における入力の操作性が向上する。
【図面の簡単な説明】
第1図はこの発明の音声認識装置のブロック図、第2図
はこの発明の音声認識装置におけるl音節の認識処理フ
ローチャート、第3図は音素パターンの1例を示す図、
第4図はこの発明の音声認識装置によるバズパ一部判定
結果の1例を示す説明図である。 l・・・アナログ入力部、2・・・音声分升部、3・・
音節区間抽出部、訃・・CPU。 6・・・パターンメモリ、7・・・音素標準パターンメ
モリ、9・・・単音節認識部。

Claims (2)

    【特許請求の範囲】
  1. (1)入力された音声から音節区間抽出部で音節を切出
    し、この切出された音節の特徴パターンと、メモリに予
    め記憶している複数種類の音節の特徴標準パターンとの
    類似度計算をCPUで行って、入力された音声を音節単
    位で認識する音声認識装置において、 上記音節区間抽出部で切出した音声が、バズバー部であ
    るか否かを、上記音節区間抽出部で切出された音節区間
    におけるパターンからの特徴情報を所定の値と比較して
    判別し、上記音節がバズバー部であると判別したときに
    、バズバー部を表わす音節情報を除去する判別除去手段
    を有することを特徴とする音声認識装置。
  2. (2)上記判別除去手段はバズバー部を除去するための
    音節区間の特徴情報として、切出された音節とその前の
    音節との無音時間長、切出された音節の長さ、切出され
    た音節の平均パワー、切出された音節に後続する音節と
    の無音時間長、切出された音節の1次自己相関係数の平
    均値、切出された音節の音素系列のいずれか、またはそ
    れらの複数の組み合せを用いていることを特徴とする特
    許請求の範囲第1項記載の音声認識装置。
JP61237384A 1986-10-06 1986-10-06 音声認識装置 Granted JPS6391700A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61237384A JPS6391700A (ja) 1986-10-06 1986-10-06 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61237384A JPS6391700A (ja) 1986-10-06 1986-10-06 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6391700A true JPS6391700A (ja) 1988-04-22
JPH0558556B2 JPH0558556B2 (ja) 1993-08-26

Family

ID=17014589

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61237384A Granted JPS6391700A (ja) 1986-10-06 1986-10-06 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6391700A (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59224900A (ja) * 1983-06-03 1984-12-17 富士通株式会社 音声認識方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59224900A (ja) * 1983-06-03 1984-12-17 富士通株式会社 音声認識方法

Also Published As

Publication number Publication date
JPH0558556B2 (ja) 1993-08-26

Similar Documents

Publication Publication Date Title
JPS5972496A (ja) 単音識別装置
JPS58130393A (ja) 音声認識装置
JPS6147440B2 (ja)
JPS62232691A (ja) 音声認識装置
JPS62220998A (ja) 音声認識装置
JPS6391700A (ja) 音声認識装置
JPS63165900A (ja) 会話音声認識方式
JPS63213899A (ja) 話者照合方式
JPS6375800A (ja) 音声認識装置
JP3049711B2 (ja) 音声処理装置
JP2844592B2 (ja) 離散単語音声認識装置
JPS63161499A (ja) 音声認識装置
JPS6136798A (ja) 音声セグメンテ−シヨン法
JPS63217399A (ja) 音声区間検出装置
JPS63223696A (ja) 音声パタ−ン作成方式
JPS6293000A (ja) 音声認識方法
JPH01260495A (ja) 音声認識法
JPS6257000A (ja) 音声認識装置
JPS6313199B2 (ja)
JPS6236699A (ja) 音声識別装置
JPS6310437B2 (ja)
JPS61180300A (ja) 音声認識装置
JPS6370899A (ja) 音声認識装置
JPS6120879B2 (ja)
JPS5995597A (ja) 音声特徴パラメ−タ作成方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees