JPS6258518B2 - - Google Patents

Info

Publication number
JPS6258518B2
JPS6258518B2 JP6932281A JP6932281A JPS6258518B2 JP S6258518 B2 JPS6258518 B2 JP S6258518B2 JP 6932281 A JP6932281 A JP 6932281A JP 6932281 A JP6932281 A JP 6932281A JP S6258518 B2 JPS6258518 B2 JP S6258518B2
Authority
JP
Japan
Prior art keywords
value
phoneme
section
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP6932281A
Other languages
English (en)
Other versions
JPS57185496A (en
Inventor
Isamu Nose
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP6932281A priority Critical patent/JPS57185496A/ja
Publication of JPS57185496A publication Critical patent/JPS57185496A/ja
Publication of JPS6258518B2 publication Critical patent/JPS6258518B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】
本発明は、音声認識における前処理方法に関
し、特に音韻形認識における大分類的処理方法に
関する。 音声を音韻記号系列へ変換した後で単語等の適
当な区分で音声認識する形式の音韻形認識におい
ては、一般に、母音と子音との大分類を先行さ
せ、次いで母音と子音とを並列的に、或いは直列
的に細分類する。 また、音韻抽出は、一般に、ホルマントに相当
する特徴を抽出して各音韻に対してその特徴の出
現頻度を調べおき、未知音声の各標本毎に、音韻
と特徴との対応づけによつて行われる。ホルマン
トに相当する特徴の抽出は、音声をスペクトル分
折して得られたスペクトル情報から短区間パワー
スペクトルが極大点となる周波数を求める方法等
が一般的である。 音声認識における音韻は、大略、言語学上の音
韻と対応づけられるが、音声認識特有の音韻もあ
り、特に無音(無音部とはイチ等の発声でイ→チ
の間で音声の一瞬とぎれる部分をいう)は音声認
識上の有効な音韻となり、或いは音韻セグメンテ
ーシヨンの手段となる。 無音部の判定は、母音部と子音部とを大分類す
る前処理段階で行うのが適当である。この無音部
の分類は、従来、音声入力時の雑音レベルを検出
し、この検出量に基づいた閾値によつて判定され
ていた。しかしながら、音声区間内の無音区間に
おいては、残存呼気や発声の切れの悪さに基づく
残存パワーが存在する場合も多く、周囲雑音レベ
ルのみに基づく方法によつては、精度よく無音部
を抽出できない欠点があつた。 本発明は、音声区間の音声パワーを直接測定す
ることによつて無音部を判定するものであり、そ
の目的は認識率の向上にある。 第1図は、本発明の第1の実施例であつて、1
は音声信号入力端子、10は周波数分析部、20
はスペクトルデータ正規化部、30は音韻分類計
算部である。マイク等により電気信号に変換され
た音声信号は音声信号入力端子1から周波数分析
部10に送出され、短区間パワースペクトル情報
の検出が行われる。 周波数分析部10の詳細ブロツク図を第2図に
示す。100は前置増幅器、101−1〜101
−nはバンドパスフイルタ群、102−1〜10
2−nは全波整流器群、103−1〜103−n
はローパスフイルタ群、104はアナログマルチ
プレクサ回路、105はAD変換部、106は対
数変換部で、バンドパスフイルタ群の各中心周波
数は対数目盛で周波数の低い方から等間隔に配置
されていて、AD変換出力はリードオンメモリで
構成された対数変換部106で対数に変換され
る。標本化周期は10msで10ms毎に各バンドパス
フイルタの出力がスペクトルデータ正規化部20
に転送される。スペクトルデータ正規化部20で
は標本化周期でデータを受け取る毎に以下の計算
を行う。スペクトルデータ正規化部20へのデー
タをxi(iはフイルタ番号で、i=1,2,…,
n)とする。音帯音源特性を(1)式の一次関数でモ
デル化する。 yi=a・i+b (1) 音帯音源特性を表わすyiを入力データxiの最小
二乗近似直線とすると、(1)式の係数a,bは(2)式
を最小とするものを求めることによつて決定され
る。 すなわち、∂e/∂a=0,∂e/∂a=0と
してa,bを計算すると(3),(4)式となる。 正規化後のxiをxi*とすると(5)式で表わされ
る。 xi*=xi−yi (5) 但し、yi<0の場合はyi=0とする。 なお、音帯音源特性の一次関数モデル化につい
ては、通信学会、信学技報vol79No.141「非線形ス
ペクトルマツチングによる単語音声認識の一方
式」を参照されたい。 入力データの平均値を、正規化データの加算
値をsとすると、(6),(7)式で表わされる。 以上のように、スペクトルデータ正規化部20
では、(3),(6),(7)式のa,,sを標本化データ
毎に計算してその時系列データを作成する。第
3,4図にスペクトルデータ正規化部20の詳細
ブロツク図を示す。 第3図にて、300は入力端子、301はバツ
フアメモリ、302はカウンタ、303,30
6,311は乗算器、304,309は加算器、
308は減算器、305,310,314,31
5はレジスタ、307,312,321はマルチ
プレクサ、313,314は除算器、316,3
17,319,320は出力端子である。(3),(4)
にて、n及び分子の
【式】
【式】及び分 母は全て定数である。従つて、まず(3)式の計算に
て、分子はバツフアメモリ301に、一標本点の
n個(nはフイルタ個数)のデータが格納された
時点で実行される。バツフアメモリ301を順次
読み出して第1項の
【式】の演算がカウ ンタ302、加算器304、レジスタ305の部
分で実行されると共に第2項
【式】の演算が 加算器309、減算器310で実行され、マルチ
プレクサ307及び312で定数n及びΣiが
各々選択されて乗算器306,311で乗算がさ
らに減算器308にて第1項と第2項の減算が実
行される。次に定数C1がマルチプレクサ321
で選択され除算器313の除数入力となり、除算
が実行され係数aがレジスタ314に格納され
る。(4)式の係数bも同様の演算であり、マルチプ
レクサ307,312,321で選択される定数
が各々Σi,Σi2,C2となる点が異なり、係数b
はレジスタ315に格納される。 但し、
【式】
係数a,bが求まると、次に第4図の部分にて
(5)式の演算が実行される。 第4図にて、350はカウンタ、351は乗算
器、352,357は加算器、353はマルチプ
レクサ、354は制御線、355は減算器、35
6は絶対値回路、358はレジスタ、359は出
力端子である。第4図にて、端子316に係数a
が、端子317に係数bが出力されると、第3図
のバツフアメモリ301を順次読み出し、(5)式及
び(7)式の演算を行う。但し、加算器352の出力
(a・i+b)の極性がマルチプレクサ353の
制御線354となつていて、極性が負の場合にマ
ルチプレクサの入力0が出力される。又、平均値
は第3図にて、除算器318で計算されてい
る。 以上説明したように、スペクトルデータ正規化
部20にて、順次各標本点の係数a,,sが計
算され、音韻分類計算部30に送出される。 次に音韻分類計算部30の動作を説明するが、
その前に実際の装置では音声区間の検出が行われ
る。これは、マイク等から入力された信号に対
し、発声された音声の時間軸上の始端と終端を決
定することであるが、簡単には等のデータに対
しある閾値以上の区間を求め、その始端と終端に
て決定する方法がとられているが、詳細説明は省
略する。音韻分類計算部30では、入力される係
数a、平均値、加算値sを順次格納する。これ
らの時系列をa(k),(k),s(k)とする。 まず、平均値系列(k)に対し、始端から時系列
方向に終端まで(8)式の計算を行い、Δ(k)が最初
にx(k)<Cx(定数)を満足する標本番号kを
ksとし、最後にx(k)Δ(k)>Cxを満足する標
本番号kをkeとする。 Δ(k)=(k+1)−(k) (8) 次に再び平均値系列(k)に対してksからkeま
で順次参照して平均値系列(k)の最小値Vmin=
{(ks),(ks+1),…,(ke)}を求め
る。一定比率Cxよりも小さい始端付近の領域
と、一定比率Cxよりも小さい終端付近の領域を
除いた対象領域において最小値Vminを求める。
なお、ks,keが検出されない場合は子韻部の検
出を行う。VminCmin(定数)の場合は無音部
は無しとするが、Vmin<Cminの場合は(9)式で無
音判定の閾値を決定する。 Cthv=Vmin+α(定数) (9) 但し、Cthvβ(定数)の場合はCthv=β、
あるいはCthγ(定数)の場合はCthv=γとす
る。(γαβである)。α,β,γの代表的値
は、音声パワーを256レベルで量子化した場
合、α=16、β=90、γ=64である。 このようにして決めたCthvを用いてもう一度
(k)をk=ksからkeまで(10)式を計算する。 (k)Cthv …(10) (10)式を満足するkが無音部である。 次に子音部の検出を行う。子音部はその周辺で
パワーが小さくなることに着目して、平均値系列
(k)の始端から終端まで(11),(12)式を計算し、パワ
ーの凹部を検出する。 Δf(k)=(k+Δk)−(k) (11) Δb(k)=(k−Δk)−(k) (12) Δf(k)CthvかつΔb(k)Cthvかつ(k)
>Cthvを満足する標本番号kが子韻部である。
但し、ΔkはΔk1の定数。Δkは標本化周期
で異なるが、あまり時間軸の精度を上げると細か
い凹凸を検出するので30〜80ms程度に合わせる
のが良い。 又、摩擦音等ではスペクトルの傾きが正の極性
を示すことに着目してa(k)Ca(定数)で、か
つ無音部でない場合、標本番号kを子音部とする
処理を並列的に設ける。 又、鼻音部等は子音のホルマントが強く出ない
点に着目して、s(k)Cb(定数)で、かつ無音
部でない場合、kを子音部とする処理を並列的に
設ける。 以上、無音部、子音部と判定された標本番号k
を除いた部分を母音部とする。 第5図に、音韻分類計算部30のブロツク図を
示す。400は(k)、401はa(k)、402はs
(k)のデータを格納したバツフアメモリ、403,
411はマルチプレクサ、404はレジスタ、4
05は減算器、406,409,412は比較
器、407は制御部、408,413は制御部か
らの信号線、409は比較器406の出力信号
線、410は加算器である。 第5図にて、まず音韻分類制御部407がバツ
フアメモリ400を順次読み出し、レジスタ40
4の出力と減算を行い、結果を比較器406にて
制御部407からの信号線408にて送られた定
数Cxと比較を行う。レジスタ404の出力は一
つの平均値(k)がバツフアメモリ400から読み
出された時点で直前の平均値(k−1)の値が
格納されていて(8)式の計算を行つている。比較器
406の出力は信号線409を通して音韻分類制
御部407に送出され、音韻制御部407にて始
終端ks,keが検出される。次に音韻制御部40
7はバツフアメモリ400を始端ksから終keま
で順次読み出し、同じ回路系でVminを検出す
る。但し、音韻分類制御部407から信号線40
8には“0”が送出され、最小値検出が実行さ
れ、レジスタ405には最終的にVminが格納さ
れる。最小値が検出されると音韻分類制御部40
7はデータ線408を介して閾値Cminを送出し
てVminとの比較が実行される。Vmin<Cminの
場合、レジスタ404の出力と定数αの加算結果
と定数β及びγとの比較が、加算器410、マル
チプレクサ411、比較器412で実行され、結
果が音韻分類制御部407に送出され、音韻分類
制御部407ではその結果からCthvを決定し、
データ線413を通してCthvが送出され、バツ
フアメモリ400をksからkeまで順次読み出
し、比較器414で比較して無音部の決定を行
う。 次に、子音部の決定は、音韻分類制御部407
にてバツフアメモリ400を始端から順次(11),(12)
式の演算を行うように読み出し、Δf(k)あるい
はΔb(k)を順次レジスタ405に格納しつつ、
信号線408を介して定数Cthvを送出して比較
し、同時に信号線413にてCthvを送出し、比
較器414にて平均値系列(k)との比較を行い、
子音部の決定を行う。又、同様にバツフアメモリ
401,402を順次読み出し、信号線413に
て各々定数Ca,Cbを送出して比較器414で比
較することにより子音部が完全に決定される。 この実施例では、無音部の検出をある閾値以下
に無条件に定めず、各標本点の平均値の増減を
調べ、音声区間の始端、終端付近に観察される発
声の影響による低パワー領域(が小さい領域)
を除外して、検出領域を定め、検出領域内で最小
値を調べ、最小値にて閾値を補正して再び検出領
域内での無音部を検出するようにしている為、周
囲雑音あるいは発声等にる悪影響を除去すること
ができる。 又、スペクトル傾斜、ホルマント等の影響によ
るスペクトルの最小二乗直線からの誤差あるいは
極小点を検出することにより子音部を精確に決定
することができる。音韻抽出の精度を高める利点
があると共に音声認識の特徴として用いることも
できる。 以上の説明から明らかなように、本発明では子
音部の大分類に先行して無音部を決定しているた
め、子音部が正確に決定でき、認識率を向上させ
ることができる。
【図面の簡単な説明】
第1図は、本発明の概略図、第2図は、周波数
分析部のブロツク図、第3,4図は、スペクトル
データ正規化部のブロツク図、第5図は、音韻分
類計算部のブロツク図ある。 1……音声入力端子、10……周波数分析部、
20……スペクトルデータ正規化部、30……音
韻分類計算部、100……前置増幅器、101−
1,101−2,…,101−n……バンドパス
フイルタ群、102−1,102−2,…,10
2−n……全波整流器群、103−1,103−
2,…,103−n……ローパスフイルタ群、1
04……アナログマルチプレクサ回路、105…
…AD変換部、106……対数変換部、300…
…入力端子、301……バツフアメモリ、302
……カウンタ、303,306,311……乗算
器、304,309……加算器、308……減算
器、305,310,314,315……レジス
タ、307,312,321……マルチプレク
サ、313,314……除算器、316,31
7,319,320……出力端子、350……カ
ウンタ、351……乗算器、352,357……
加算器、353……マルチプレクサ、354……
制御線、355……減算器、356……絶対値回
路、358……レジスタ、359……出力端子、
400,401,402……バツフアメモリ、4
03,411……マルチプレクサ、404……レ
ジスタ、405……減算器、406,409,4
12……比較器、407……制御部、408,4
09,413……信号線、410……加算器。

Claims (1)

    【特許請求の範囲】
  1. 1 音声区間の始端付近における音声パワーの増
    加率が一定比率よりも小さい領域及び音声区間の
    終端付近における音声パワーの減少率が一定比率
    よりも小さい領域を除いた対象領域を決定し、こ
    の対象領域内で音声パワーの最小値を検出し、こ
    の最小値と予め定められた値との加算値及び予め
    定められた最小値並びに予め定められた最大値の
    いずれかによつて閾値を形定し、前記対象領域に
    おいて音声パワーが当該閾値よりも小さい音声標
    本を無音部として分類し、その後母音部と子音部
    とを分類することを特徴とした音声認識前処理方
    法。
JP6932281A 1981-05-11 1981-05-11 Voice recognition preprocessing system Granted JPS57185496A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6932281A JPS57185496A (en) 1981-05-11 1981-05-11 Voice recognition preprocessing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6932281A JPS57185496A (en) 1981-05-11 1981-05-11 Voice recognition preprocessing system

Publications (2)

Publication Number Publication Date
JPS57185496A JPS57185496A (en) 1982-11-15
JPS6258518B2 true JPS6258518B2 (ja) 1987-12-07

Family

ID=13399196

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6932281A Granted JPS57185496A (en) 1981-05-11 1981-05-11 Voice recognition preprocessing system

Country Status (1)

Country Link
JP (1) JPS57185496A (ja)

Also Published As

Publication number Publication date
JPS57185496A (en) 1982-11-15

Similar Documents

Publication Publication Date Title
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
KR100312919B1 (ko) 화자인식을위한방법및장치
JP2739950B2 (ja) パターン認識装置
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
US4937871A (en) Speech recognition device
EP0838805A2 (en) Speech recognition apparatus using pitch intensity information
WO1983002190A1 (en) A system and method for recognizing speech
JPS6258518B2 (ja)
JP4537821B2 (ja) オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体
JP2003271190A (ja) 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置
JPH07121197A (ja) 学習式音声認識方法
JP3410789B2 (ja) 音声認識装置
JPS6310440B2 (ja)
JPS60254100A (ja) 音声認識方式
JPH0246960B2 (ja)
JP3032215B2 (ja) 有音検出装置及びその方法
JPH05108088A (ja) 音声区間検出装置
JPH05313695A (ja) 音声分析装置
CN113611314A (zh) 一种说话人识别方法及系统
WO1991002348A1 (en) Speech recognition using spectral line frequencies
JPH0221598B2 (ja)
JPH0426480B2 (ja)
JPH09297596A (ja) 音声認識装置
JPH0844390A (ja) 音声認識装置
JPH0451840B2 (ja)