JPS6111799A - 音声の特徴抽出方式 - Google Patents

音声の特徴抽出方式

Info

Publication number
JPS6111799A
JPS6111799A JP13382984A JP13382984A JPS6111799A JP S6111799 A JPS6111799 A JP S6111799A JP 13382984 A JP13382984 A JP 13382984A JP 13382984 A JP13382984 A JP 13382984A JP S6111799 A JPS6111799 A JP S6111799A
Authority
JP
Japan
Prior art keywords
vowels
bpf
vowel
feature extraction
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP13382984A
Other languages
English (en)
Other versions
JPH0562759B2 (ja
Inventor
耕市 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP13382984A priority Critical patent/JPS6111799A/ja
Publication of JPS6111799A publication Critical patent/JPS6111799A/ja
Publication of JPH0562759B2 publication Critical patent/JPH0562759B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 く技術分野〉 本発明は、音声認識装置において、その特徴抽出部が2
つの帯域ろ波器(BPF)で構成されるという簡単な場
合で、音声認識の特徴量として、前記2つのBPF出力
波形の零交差回数を用いる音声の特徴抽出方式に関する
ものである。
〈従来技術〉 音声認識に使用される特徴量、およびそれを用。
いた標準パターンの作成方法については、各種のものが
提案され、開発されている。ここで、特徴量としてよく
知られている零交差回数(以下単にZCCという)を用
い、各母音のスペクトル情報、%KiIフォルマント(
F+)と第27Aルマント(F2)を重視した構成は、
簡易な音声認識装置が得られるものとして注目されてい
る。
さて、ZCCとフィルマント周波数との関連は、従来か
らもさまざまな研究がなされてきている。
しかし、BPFによってフォルマントの存在領域を限定
しても、そのフォルマントのバント幅や、他のフォルマ
ントの影響を受けて、厳密には対応しないことがしばし
ばある。日本語5母音は、Fl。
F2が抽出できれば、かなりよい精度で識別できること
は周知である。しかし上記の理由によって、厳密にFl
 、FQに対応せず、誤認識につながるおそれがある。
また一方、Fl、F2には次のような変動要素がある。
例えば、このように2チヤンネルのBPFを用いて、F
l、F2を抽出しようとする場合、自弁・藤沢(信学会
論文誌+974/3)では、各BPFの帯域を、250
Hz−10(IOT(z、 7QOHz−2’bOOH
zに設定することを提案している。ところが、Fl。
F2の分布は、前後の音韻環境による調音結合や個人差
により大きく変動し、前記の帯域はある特定の人に対し
ては有効に働くが、うまく作用しない人も存在する。
〈発明の目的〉 本発明は、上記点に鑑みて、母音のFlとF2の抽出を
最優先するのではなく、母音の中でlalとlitが最
も性質の違う対であることに注目し、この距離が最も大
きくなるようにBPFの帯域を設定することにより、従
来の欠点を除去するものである。
〈実施例〉 以下図面に従って、本発明方式の一実施例を詳細に説明
する。
第1図は音声認識装置としての回路構成例を示すブロッ
ク図である。図において、Iはマイク、2はアンプ、3
は第1帯域ろ波器(BPFI)、4は第2帯域ろ波器(
BPF2)、5は第1零交差カウンタ、6は第2零交差
カウンタ、7は認識部である。ここで、第1帯域ろ波器
(BPFI )8の通過域はFl 1(Hz)〜F1h
(Hz)(低チャンネル、第1フオルマン)Fl に対
応)、第2帯域ろ波器(BPF2)40通過域はF2 
fl (Hz)−F2 h (Hz)(高チャンネル、
第2フオルマン)F2に対応)であるとする。
第2図(a)(b)の実線はそれぞれ標準的なlalと
litのスペクトル概形を示す。この図から、点線のご
とく2つのBPFl、BPF2を施せば、この2母音の
分離はほぼ最大となることがわかる。第3図は、これを
わかりやすくするため、ある分析フレーム窓を設けたと
き、各BPFの出力に対するZ、 CCの分布を、男女
大勢の音声資料からlalとIj+の部分のみを切出し
て表わしたものである。横軸(zJりはBPFl出力の
ZCC,縦軸(zh)はBPF2出力のZCCをそれぞ
れ周波数に変換した値である。本発明方式の特徴は、こ
の2群間の距離が最大となるように、各BPFの遮断周
波数を設定することにある。
使凧する距離としては、例えば確率分布間の距離として
よく用いられるBhattacharyaの距離を採用
することができる。すなわち、2つの母音群Pi j[
=Pr(Zfi=i 、Zh=j)lおよびQi j 
(=Pr(Zj2=i、Zh”’j月間の距離d(P、
Q)は、次のように定義される。
ここで、+rj;Zj2方向の最大値 n二zh方向の最大値 Pr−確率密度関数 よって、2群が完全に分離していればd(P、Q)=1
、完全に一致していれば0となる。
低チャンネルBPFIの低域側の遮断周波数FInは、
ピッチの影響を除くためのもので、250<Flfi<
350(例えば300Hzぐらい)が望ましい。また高
チャンネルBPF2の高域側の遮断周波数F2hは、摩
擦音検出を兼ねて、5000<F2h (例えば600
0Hz〜7000Hz)に設定する。つまり、音声認識
装置として、簡単に回路構成にする目的で、高い方のチ
ャンネルBPF2は摩擦音検出を兼ねさせている。摩擦
音は母音と分離していて、一般にF2は1ooOHz〜
3000Hz に分布するのに対し、摩擦音は3000
Hz〜6000Hzにエネルギーが集中し、ZCCもそ
れに対応した値をとる。
低チャンネルBPFIの高域側遮断周波数F1hと、高
チャンネルBPF2’の低域側遮断周波数p2xは、大
勢の男女話者の発生した多くの単語音声資料から、Ia
lとlitの部分を対象に分析した結果、+200≦F
1h≦1400.1100≦F2μ≦1300.ただし
F2Q<F1h (例えばBPFIは1300Hz、B
PF2は1200H2)が最適であることが判明した。
すなわち、前記()内に記した具体例をとると、全体と
して例えば、低チャンネルBPFlの通過域は800〜
1800Hz、高チャンネルBPF2の通過域は!20
0〜6000Hzに設定すればよい。
なお、本例において、フィルタ回路の簡素化も考慮して
、両チャンネルとも遮断周波数の傾斜特性は±12dB
10ctに固定している。
上述のごとく、本発明による2つのBPFl、BPF2
は、Fl 、F2の抽出を目標に設定されたものでなく
、多人数の音声資料中でlaIとIilの分離が最大と
なるように定めている。従って、どんな人に対しても、
Ialと1!1は、第3図のzi−zh平面上でう捷く
識別できる。しかも、他の音韻に対しても、かなりの識
別能力は認められる。第4図に、日本語5母音(lal
、lil、+111.181.+01)  と摩擦音C
I’)の分布図を示しておく。上記により、本発明の方
式によれば、簡易な不特定話者音声認識装置を実現する
ことができる。
r lalと11の分離を最大にすることが、どうして
不特定話者認識において有効なのか」について、今少し
詳しく説明する。
まず、Ialと1g+が母音の中で最も性質の違う対で
あることを、調音などの点から述べる。母音は、調音の
位置(舌による声道の狭めの位置)と狭めの度合(主と
して顎の上下による唇の開く具合によって決まる)とに
よって、より詳しくは唇の丸めの有無、張りと緩みなど
を加えて、第5図のように分類される。ただし、図中で
対になっているもの、例えばiとy、eとφなどは唇に
よる変形であり、右側が円層の母音である。日本語のI
alは図の記号では’+D+8.Hに相当するが、図か
らlaIとlilが最も離れた存在であることがわかる
。すなわち、laIは広い後舌ないし中古母音であるの
に対し、litは狭い前古母音である。
また101はIaIの近い位置に存在する。
次に周波数領域での差異について述べる。普通、母音に
は数個のフォルマントがあって、周波数の低い方から第
1.第2.・・・フォルマントと呼んでいる。フォルマ
ントは、発声者、性別1年齢などにより、かなり大幅に
変動し、また発話時に前後につなげて発音される音素の
影響を受けて変動する。母音を特徴づけるのは、低次、
特に第1および第2フオルマン) (Fl 、F2 )
である。第6図は、日本語母音のフォルマン) Fl 
、F2を、男女別に発話者や環境の差による大略の範囲
を点線で示したものである。この図から、第2図(a)
(b)にそのスペクトル概形を示したように、lalと
filはFl。
F2に対応する領域で大きく食い違っていることがわか
る。
以上のことから、不特定話者を対象にして音声認識を行
なう場合、大きな課題の1つである、話者によらず特徴
量が安定している( robust features
である)という条件を満たすためには、母音識別におい
てlalとIilに着目するのが最も妥当である。つま
り、1a1と11は、その調音様式(第5図参照)の拘
束力が強いため、発話者や環境による変動が少ないと推
定される。事実、filに関しては、従来の研究から5
母音中最も安定した音素であると言われており、またl
−1は最も不安定で調音結合の影響を受けやすく、地域
による差も大きいとされている。よって、lalと1!
1のそれぞれの分布が最もよく分離するように2つのB
PF l 。
BPF2の通過域を設定すれば、特命量として最も安定
なもの(robustなもの)が期待できる。
ただし、実際の分析では、5母音中1alと101の分
布が非常に重なっていたため、この音素を1つにまとめ
IilとlaIの分離に着目した。101は、第5図、
第6図からもわかるようにlaIに近く、litとはか
なシ離れており、laIと同じ群として扱っても大差が
なく、また本廃明による分離では、同じ群として扱う方
が、よシ安定な特徴量(robus tfeature
s )形成に役立つ。もちろんこの場合、IaIと10
1は識別できないことになるが、2チヤンネルのBPF
という簡易な音声認識装置では、このデメリットは大き
くない。認識対象語いをこのことに注意して選んでやれ
ばよい。
この2チヤンネルBPF設計法で得られたデータ例を第
7図に示す。
対象とする母音は1a1.Ijl、lf’gl、+1?
+(7)4群、ただし上述のとおり、lalはaとOを
含ん−でいる。
使用したデータは、男女数十名の発声したいろいろな単
語中の母音定常部である。評価尺度は先に説明した2つ
の分布間のBhattacharya距離を用いており
、第7図中では各組み合わせの上段に記した。下段は、
参考までに2群間の重み付きEuclidian距離を
示している。BPFlの高域側遮断周波数F1hとBP
F2の低域側遮断周波数F2fiとの組み合せは、下表
のように9種類である。
(単位 KHz) 表中の■(n=1.2.・・・、9)が第7図に図示さ
れ、■の順にデータが載せられている。Δ印はBhat
tacharya距離の最大値を示す。図かられかる゛
ように、 1200≦Fill≦1400.1100≦
F2R≦1300の範囲で、各母音間とも充分な距離を
有している。
特にこの中で、lalとIilの分離は■と■の組み合
わせで最大(0,97)になっている。また最下欄の各
群間の距離の平均をみても、これら組み合わせで最大(
0,70)となった。しかし、■は■に比べ、v2Qを
100Hz 低く設定しているため、IaIの抽出にお
いてより安定していると思われる。
なぜなら、laIの第1.第27オルマントが1000
H2付近に存在しているため、F22が低いほどそれを
抽出しやすくなるからである。従って、各遮断周波数F
1h、F2fiは上記範囲内であって、かつp2n〈F
1hとなるように設定することが望ましい。
なお、上記例において、総合的には■の組み合わせが最
適であった。このとき、1a1とIilの分離が最大で
あるのみならず、平均値が示しているように、他の母音
群間の分離も最大になる。
〈発明の効果〉 以上のように本発明によれば、簡単な回路構成で、誤認
識がなく、任意の不特定話者に対しても有効に働き得る
、簡易型音声認識装置の実現に有用な方式が提供できる
【図面の簡単な説明】
第1図は本発明の実現回路例を示すブロック図、第2 
d(a)(b)はそれぞれ母音1aIおよびIilのス
ペクトル概形と第1図BPF特性の関係を示す図、第3
図は母音1alとlj1間の分離特性を説明する図、第
4図は摩擦音および各母音間の分離特性を説明する図、
第5図は調音様式による母音の分類を説明する図、第6
図は日本語母音のフォルマント分布を説明する図、第7
図は本発明方式による距離分析データ例を示す図である
。 l・・・マイク、2・・・アンプ、3・・・第1帯域ろ
波器、4・・・第2帯域ろ波器、5・・・第1零交差カ
ウンタ、6・・・第2零交差カウンタ、7・・・認識部
。 代理人 弁理士 福 士 愛 彦(他2名)第1図 第2図 11′il古  坤古 往古 第5図 第6図

Claims (1)

  1. 【特許請求の範囲】 1、入力音声を2つの帯域ろ波器(BPF)に通した後
    、それぞれの出力波形の一定時間(フレーム)内の零交
    差回数を音声認識の特徴量とするものにおいて、 前記各BPFの通過域をF_1l(Hz)からF_1h
    (Hz)、およびF_2l(Hz)からF_2h(Hz
    )とおくとき、250<F_1l<350、1200≦
    F_1h≦1400、1100≦F_2l≦1300、
    F_2l<F_1h、5000<F_2hを満たすよう
    に設定してなることを特徴とする音声の特徴抽出方式。
JP13382984A 1984-06-27 1984-06-27 音声の特徴抽出方式 Granted JPS6111799A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13382984A JPS6111799A (ja) 1984-06-27 1984-06-27 音声の特徴抽出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13382984A JPS6111799A (ja) 1984-06-27 1984-06-27 音声の特徴抽出方式

Publications (2)

Publication Number Publication Date
JPS6111799A true JPS6111799A (ja) 1986-01-20
JPH0562759B2 JPH0562759B2 (ja) 1993-09-09

Family

ID=15114013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13382984A Granted JPS6111799A (ja) 1984-06-27 1984-06-27 音声の特徴抽出方式

Country Status (1)

Country Link
JP (1) JPS6111799A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058191A (ja) * 2001-08-10 2003-02-28 Dainippon Printing Co Ltd 周波数解析方法および音響信号の符号化方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058191A (ja) * 2001-08-10 2003-02-28 Dainippon Printing Co Ltd 周波数解析方法および音響信号の符号化方法

Also Published As

Publication number Publication date
JPH0562759B2 (ja) 1993-09-09

Similar Documents

Publication Publication Date Title
JPS58105295A (ja) 音声標準パタン作成方法
Villing et al. Automatic blind syllable segmentation for continuous speech
Glass et al. Detection and recognition of nasal consonants in American English
JPS6111799A (ja) 音声の特徴抽出方式
JP3059022B2 (ja) 動画像表示装置
Prakash et al. Bessel features for detection of voice onset time using AM-FM signal
Cassidy et al. The place of articulation distinction in voiced oral stops: evidence from burst spectra and formant transitions
Villing et al. Performance limits for envelope based automatic syllable segmentation
JPS5972500A (ja) 音声認識方式
Dumpala et al. Use of Vowels in Discriminating Speech-Laugh from Laughter and Neutral Speech.
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
MacKinnon et al. Realtime recognition of unvoiced fricatives in continuous speech to aid the deaf
Waardenburg et al. The automatic recognition of stop consonants using hidden Markov models
Kiukaanniemi et al. Long-term speech spectra: A computerized method of measurement and a comparative study of Finnish and English data
Haque et al. A feature extraction method for automatic speech recognition based on the cochlear nucleus
Scarr Word-recognition machine
Ananthapadmanabha et al. Relative occurrences and difference of extrema for detection of transitions between broad phonetic classes
Plauché et al. Machine learning techniques for the identification of cues for stop place
JP3008404B2 (ja) 音声認識装置
JPS6350898A (ja) 音声認識装置
Bozkurt Automatic Speech Segmentation Based on Subband Decomposition
O'Kane et al. Deciphering speech waveforms
Zahorian et al. Dynamic spectral shape features for speaker-independent automatic recognition of stop consonants
Tang et al. Computer recognition of plosives in running speech
JPH0316040B2 (ja)