JPS6336676B2 - - Google Patents

Info

Publication number
JPS6336676B2
JPS6336676B2 JP58102023A JP10202383A JPS6336676B2 JP S6336676 B2 JPS6336676 B2 JP S6336676B2 JP 58102023 A JP58102023 A JP 58102023A JP 10202383 A JP10202383 A JP 10202383A JP S6336676 B2 JPS6336676 B2 JP S6336676B2
Authority
JP
Japan
Prior art keywords
unit
phoneme
consonant
recognition
vowel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP58102023A
Other languages
English (en)
Other versions
JPS59226400A (ja
Inventor
Katsuyuki Futayada
Satoshi Fujii
Hideji Morii
Ikuo Inoe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP58102023A priority Critical patent/JPS59226400A/ja
Priority to US06/618,368 priority patent/US4736429A/en
Priority to DE8484303870T priority patent/DE3473666D1/de
Priority to EP84303870A priority patent/EP0128755B1/en
Publication of JPS59226400A publication Critical patent/JPS59226400A/ja
Publication of JPS6336676B2 publication Critical patent/JPS6336676B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音素を基本単位とする音声認識装置に
関するものである。
従来例の構成とその問題点 第1図によつて従来例の構成を説明する。図に
おいて1はスペクトル分析部であり、29チヤンネ
ルの帯域フイルタ群で構成されている。各々のフ
イルタの出力を1フレーム(10msec)ごとにパ
ワー値に変換し、29チヤンネルの帯域パワーを得
る。2は帯域パワーからローカルピークを抽出す
るローカルピーク抽出部であり、1フレームごと
に周波数の低い順に3個(p1、p2、p3とする)、
またパワーの大きい順に3個(pe1、pe2、pe3)ず
つ求める。一方、3はセグメンテーシヨン用のパ
ラメータを抽出するセグメンテーシヨンパラメー
タ抽出部であり、帯域パワー情報を使用して、全
域パワー、スペクトルの傾き、低域、中域モーメ
ントがフレームごとに抽出される。セグメンテー
シヨン部4では、セグメンテーシヨンパラメータ
抽出部3で得られたパラメータの時間的な動きに
よつて、母音区間、子音区間、半母音区間を決定
する。音素判別部5では、セグメンテーシヨン部
4で決定された各区間に対して、ローカルピーク
抽出部2で得られたローカルピークによつて音素
の判別を行なう。音素の判別は判別図格納部6に
格納されている判別図にローカルピークの位置を
当てはめることによつて行なう。判別図は、母
音、子音、半母音の各々に対して別々に用意され
ており、セグメンテーシヨン部4によつて選択さ
れる。また、母音、半母音に対してはp1、p2
p3、を、子音に対してはpe1、pe2、pe3を用いる。
音素系列作成部7では、音素判別部5によつて
得られたフレームごとの音素判別結果を、セグメ
ンテーシヨン部4で得られた各セグメンテーシヨ
ン区間ごとにまとめ、各区間に対して音素記号を
割り当てる。セグメンテーシヨン部4でセグメン
テーシヨンができない/ao/、/iu/などの母音
連続に対しては、フレームごとの音素判別結果の
時間的な連続性によつてセグメンテーシヨンを行
なう。このようにして入力音声を音素系列に変換
する。
単語マツチング部8では、音素系列作成部7で
得られた入力音素系列と単語辞書9に蓄積されて
いる単語辞書の各項目を時間軸伸縮マツチング法
によつて比較し、入力音素系列に最も近い辞書項
目の内容を認識結果として出力する。
このような構成の音声認識装置は以下のような
問題点を有する。
すなわちセグメンテーシヨンパラメータ抽出部
3で抽出されるセグメンテーシヨン用のパラメー
タでは検出できにくい音素がある。(特に鼻音/
r/、半母音)。これらの音素は母音との類似性
が大きく、パラメータのみで検出するには限界が
ある。
さらに他の欠点としてフレームごとの音素判別
率が低い。従来例では特徴パラメータとしてロー
カルピークの位置を使用し、これを判別図に適用
することによつて音素の判別を行なつている。こ
の方法は母音や一部の半母音に対しては、かなり
の判別率が期待できるが、その他の子音の判別を
行なうには限界がある。
発明の日的 本発明は、従来例における上記の問題点を解決
し、高い音声認識率を得ることを目的としたもの
である。
発明の構成 本発明は上記目的を達成するもので入力音声を
線形予測分析法で分析してLPCケプストラム係
数を抽出するLPC分析部と、前記LPC分析部の
結果と標準パターン格納部からの母音性音素の標
準パターンとの類似度を、線形判別関数、マハラ
ノビス距離、ベイズ判定などの統計的距離尺度に
よつて計算して母音性音素に対する入力音声の尤
度を求める第1の尤度計算部と、前記第1の尤度
計算部の結果によりその時間的継続性を利用して
セグメンテーシヨンと認識を行う第1の認識部
と、入力音声またはその分析結果に基づき有声と
無声を判別する有声・無声判定部と、入力音声の
低域パワー情報と高域パワー情報を求めるセグメ
ンテーシヨン用パラメータ抽出部と、前記結果よ
り求められた前記パワー情報の時間的変動と前記
第1の尤度計算部の結果と前記有声・無声判定部
の結果とから子音性音素のセグメンテーシヨンを
行う子音性音素セグメンテーシヨン部と、前記子
音性音素セグメンテーシヨン部で得られた区間に
対し、LPC分析部からの係数と標準パターン格
納部からの子音性音素の標準パターンとの類似度
を計算する第2の尤度計算部と、前記第2の尤度
計算部の結果に基づき子音性音素を認識する第2
の認識部と、前記第1の認識部の結果と第2の認
識部の結果とにより音素系列を作成する音素系列
作成部と、前記音素系列作成部の結果と単語辞書
部に含まれている辞書項目との間でマツチングを
行うマツチング部とを備え、前記マツチング部よ
り音素系列に最も良く類似した辞書項目を出力す
ることを特徴とする音声認識装置を提供するもの
である。
実施例の説明 本発明における実施例を図によつて説明する。
第2図は実施例における方法を説明するためのブ
ロツク図である。10はLPC分析部であり、入
力音声に対して、20msecのハミング窓を施し、
線形予測分析(LPC分析)を行なつて、15次の
線形予測係数を求め、それらを15次のLPCケプ
ストラム係数Co(n=1、2………15)を求め
る。LPCケプストラム係数は1フレーム(10m
sec)ごとに求められ、入力バツフア11および
母音尤度計算部12へ送られる。母音尤度計算部
12は入力パラメータCoと、母音・鼻音標準パ
ターン格納部13に格納されている5母音と鼻音
の標準パターン各々との間の類似度を統計的距離
尺度で求め、類似度の高い順に並べかえ、その判
別結果をフレームごとに尤度バツフア14へ送出
する。標準パターンは各母音および鼻音(/
m/、/n/、はつ音)に対して、多くのデータ
によつて平均値および共分散行列をあらかじめ求
めておく。
統計的距離尺度には、ベイズ判定、マハラノビ
ス距離、線形判別関数などがあり、それらのいず
れを使用しても、ほぼ同様に良好な結果が得られ
る。
次に各距離尺度について簡単に説明する。
音素pの平均値ベクトルをμp、共分散行列をΣp
とすると、入力〓=(C1、C2………Cd)、d=15
に対する確率密度Ppは次式で与えられる。
Pp=1/(2π)d/2|Σp1/2・e×p{−1/2(〓 −〓pTΣ-1 p(〓−〓p)} ……(1) ただし、|Σp|は行列式の値を表わし添字Tは
転置を表わす。上記の対数をとつて、対数尤度
Lpを求める。
Lp=−1/2(〓−〓pT・Σ-1 p・(〓−〓p)−Ap ……(2) ただし、 Ap=log{(2π)d/2・|Σp1/2} ……(3) またマハラノビス距離は式(4)で定義される。
Mp=(〓−〓p)Σ-1 p(〓−〓p) ……(4) この場合式(4)でΣpを各音素に共通としてIp=I
として簡略化を図つてもよい。
次にΣp=Σp′とし、音素pとp′を判別する線形
判別関数は D2=Mp−Mp′=aT〓+b ……(5) 但しaは線形判別係数、bは定数である。
式(2)、式(4)または式(5)で5母音と鼻音に対し音
素ごとに尤度を計算し、大きさの比較を行なうの
が、母音尤度計算部12の機能である。
また母音・鼻音標準パターン格納部13には有
声および無声の標準パターンが格納されており、
母音・鼻音と同様な方法で母音尤度計算部12に
よつて尤度が計算され、入力フレームに対する有
声・無声判定が行なわれ、その結果が尤度バツフ
ア14へ送出される。
一方、入力音声はセグメンテーシヨン用パラメ
ータ抽出部15に送られる。この部分では、低域
フイルタ、高域フイルタによつて、低域パワー情
報(pL)と高域パワー情報(pH)がフレームごと
に求められる。また全域パワーも同時に求められ
る。これらのパワー情報は平滑化されて、パワー
情報バツフア16へ送出される。
次に子音セグメンテーシヨン部17の機能につ
いて説明する。
第3図は低域または高域パワー情報からデイツ
プを抽出する方法を示している。aはフイルタの
整流出力を時系列でプロツトしたものであり、子
音区間の大きなデイツプの他に細かいデイツプが
数多く左右する。後者は不要なデイツプであるの
で平滑化を行なつて取除く(第3図b)。次にb
の信号を微分することによつてcの信号を得る。
そしてcの信号から最大値と最小値間の大きさp
と、最小値から最大値までの時間長(フレーム
数)Lを求める。p>pnio、L<Lnaxの条件を適
用し、条件を満足するデイツプに対し、cで最小
値から最大値までの区間Lをデイツプ区間(子音
候補)とする。
この方法はパワーデイツプの大きさの計算をパ
ワーの変化速度の検出に置きかえ、その最大値、
最小値を計算することによつて簡易にしかも高い
精度でデイツプ区間を検出することができる。
次に低域パワーデイツプ、高域パワーデイツプ
の一方または両方によつて検出された子音候補の
うちから、子音区間を特定する方法を述べる。低
域パワー情報から得られた前述の方法によるデイ
ツプの大きさをpl、高域パワー情報から得られた
それをphとする。低域情報による子音候補区間と
高域情報による子音候補区間が重畳している場
合、2次元座標(pl、ph)を第4図に示す判別図
に適用する。(pl、ph)が判別図上で付加区間
(斜線の内側)に位置した場合、その子音候補は
棄却する。(pl、ph)が子音区間に位置した場合、
低域パワーデイツプ区間と高域パワーデイツプ区
間の論理和に相当する部分を子音として特定す
る。低域と高域情報による子音候補区間に重畳が
ない場合、一方をo(たとえば(pl、o))として
判別図に適用する。
このように相補的な性質を持つた低域パワー情
報と高域パワー情報をパラメータとし、その各々
によつて子音候補区間を探し、さらにそれを判別
図に適用することによつて子音区間を決定する方
法は、従来の方法に比較して、有声から無声まで
広い範囲の子音に有効であり、高い精度で子音区
間を検出することができる。特に有声子音の/
b/、/a/、/η/、/r/、無声子音/
h/、有声無声両方の性質を示す/z/に対して
有効である。
しかし、上に述べたデイツプ情報を利用したセ
グメンテーシヨン法は鼻音区間についてはその検
出率が73%程度であり、他の有声子音に比べて検
出率が充分とはいえない。また撥音は持続時間が
長すぎるため、デイツプ情報は利用できないとい
う弱点がある。本実施例では前に述べた母音尤度
計算部12において鼻音と判定されたフレームの
連続性を利用することによる第2の子音区間検出
方法によつて上記弱点を解消している。すなわち
全てのフレームに5母音と鼻音のパターンを適用
すると、鼻音/m/、/n/、撥音に相当する区
間の各フレームは鼻音(以後/N/と表わす)と
して認識され、その他スペクトルパターンが鼻音
に類似している音素(/b/、/d/、/
η/、/r/)も/N/として認識される確率が
高い。したがつて/N/として認識される区間を
参照すれば、デイツプが存在しない区間において
も、有声子音の検出を行なうことができる。本実
施例では/N/と認識されたフレームが、尤度第
2位のフレームも含めて5フレーム以上連続する
区間を子音区間としている。
以上述べた鼻音として認識されたフレームの連
続性を見ることによるセグメンテーシヨン法
は、/m/、/n/、撥音、/b/、/d/、/
η/に対し有効である。
次に有声・無声判定結果を利用した第3の子音
区間検出方法について述べる。持続時間が長い無
声子音/s/、/c/、/h/や/z/は持続時
間がLnax以上となり、デイツプが検出できない場
合がある。この場合、フレームごとの有声・無声
判定結果の時間的連続性によつてセグメンテーシ
ヨンを行なうことができる。
有声・無声判定の方法は零交差波、スペクトル
の傾き、第1次の自己相関係数の値などを利用す
る方法があり、どの方法でもよい。
本実施例ではLPCケプストラム係数c1〜c5を使
用し、有声・無声の標準パターンとの間の距離を
式(4)のマハラノビス距離を適用して計算し、判別
した場合、96.4%のフレーム認識率を得ている。
本実施例においては、無声区間が連続して7フ
レーム以上続く区間は子音区間としてセグメンテ
ーシヨンを行なう。
次に上述した第1〜第3の子音区間の検出法の
適用例について述べる。
第1〜第3の子音区間の検出法の組合わせとし
ては種々可能であるが、低域、高域パワー情報を
利用した第1の子音区間検出法に、フレームごと
の音素認識結果を利用した第2の子音区間検出法
と有声無声判定結果を利用した第3の子音区間検
出法のうちのいずれか一方又は両方を組合わせる
のが望ましい。
ここでは第3、第1、第2の子音区間検出法を
この順に適用した例を示す。
(i) 音声区間に対し、先ず第3のルール(と記
す)を適用し、無声区間が7フレーム以上連続
する区間を子音区間とする。
(ii) (i)の区間を除去した区間に第1のルール(
と記す)を適用し、デイツプによる子音区間を
求める。
(iii) 有声区間に対して第2のルール(と記す)
を適用し、/N/と認識された区間が5フレー
ム以上連続する区間を子音区間とする。
(iv) 上記(i)〜(iii)で求められた全区間を子音区間と
する。ただし、(i)と(ii)または(ii)と(iii)のルールに
よつて区間が重畳して求められた場合、原則と
してデイツプによつて求められた区間を優先す
る。
なお上記実施例では、第1の子音区間検出法に
第2又は第3の子音区間検出法のいずれか一方又
は両方を組み合わせる場合について述べたが、第
1の子音区間検出法のみであつても実用上は問題
とならない。
以上は語中子音のセグメンテーシヨン法につい
ての説明であつたが、次に各語頭子音検出法につ
いて詳細に説明する。
まず、低域、高域パワー情報を利用する第1の
語頭子音検出法について述べる。
第6図には、低域または高域パワーの語頭にお
ける時間的変化の例を示している。
語頭が主に破裂性の子音で始まる時、パワー値
の時間的変化をプロツトすると第6図のa,cの
ようになる。これは破裂性のためにパワーが急激
に立上がり、後続の母音との渡りの部分において
aのように凹状になつたり、cのように1度なだ
らかになつてから再び立上がるからである。
b,dはa,cのパワーの時間的変化の値をそ
れぞれ微分したものである。P1〜P3、P1′〜P3′は
a,cの変曲点のフレーム番号を示している。こ
こでは音声区間の始まるフレーム番号を1にして
いる。ここで、a,bのようにP1、P3の微分値
が正、P2の微分値が負、かつP3<m(mはフレー
ム番号を示すいき値)を満足する時、語頭から
P3までを語頭子音区間として判定する。
つぎにc,dのようにP1′〜P3′の微分値が正の
場合P3′における微分値をαとすると、α>a(a
はあるいき値)、かつP3′<n(nはフレーム番号
を示すいき値)を満足する時、語頭からP3′まで
を語頭子音区間として判定する。
以上の方法を低域パワー、高域パワーに対して
適用し、いずれか一方にa又はcの傾向が表われ
れば、その区間を子音と判定する。この方法は、
無声破裂音は低域パワーに、又有声破裂音は高域
パワーに特徴が現われやすいため、破裂音全体に
対して有効である。
次に、フレーム毎の音素認識の結果を利用する
第2の語頭子音検出法について述べる。本実施例
の音素認識は、各フレーム(例えば1フレームは
10msecとする)毎に行なう。フレーム毎の音素
認識は本実施例ではLPCケプストラム係数を用
いて、あらかじめ用意してある各音素の標準パタ
ーンとの比較によつて行なう。標準パターンとし
ては5母音(/a/、/i/、/u/、/
e/、/o/)、鼻音(/N/で表わす)と無声
子音(/s/で表わす)を用いた。このようにし
て、各フレーム毎に類似度の最も大きい音素(第
1候補音素)と2番目に類似度の大きい音素(第
2候補音素)を求める。フレーム毎の第1候補音
素と第2候補音素をそれぞれフレーム番号の順に
並べた系例を第1候補音素および第2候補音素時
系列とする。
このようにして求めたフレーム毎の音素時系列
を使用する第2の方法は、以下に述べるような2
つの場合に分ける。
まず最初は、上記音素系列を語頭から順に見た
時/N/が第1候補または第2候補音素系列を含
めてあるフレーム数以上(例えば4フレーム以
上)連続した時この区間を子音区間であると判定
する。例えば/ma/をフレーム毎に音素認識し
た時、音素認識の結果が第7図にようになつたと
すると/N/が第1、2候補を含めて5つフレー
ム連続しているので、1〜5フレームまでを語頭
子音区間とする。
この方法は、特に/m/、/n/、/b/、/
d/、/g/等に対して有効である。
次に、第1候補音素系列を語頭から順に見た時
に、持続時間の比較的短い語頭子音が存在する場
合、語頭付近のスペクトル変化が激しいために認
識されたフレーム毎の音素系列が不安定になる傾
向がある。そこで、語頭から同一母音が連続して
現われるまでの不安定な区間が一定フレーム数以
上(例えば3フレーム以上)の時、この区間を語
頭子音とする。例えば/ga/をフレーム毎に音
素認識を行ない第1候補音素系列が/
AIIAAAA/となつた場合、母音/A/が安定し
て出現するまでの区間/AII/を子音区間とす
る。
以上述べた2つの条件のうちどちらか一方を満
足すればその区間を子音と判定する。
次に、有声・無声判定を利用する第3の語頭子
音検出法について述べる。
語頭の無声子音のセグメンテーシヨンは、各フ
レーム毎に行なう有声・無声判定を利用すること
によつて、正確に行なうことが出来る。
有声・無声判定の方法は零交差波、スペクトル
の傾き、第1次の自己相関係数の値等を利用する
方法があるが、どの方法を用いてもよい。本実施
例では、有声・無声判定の標準パターンと比較す
ることによつて判定している。
ここで、語頭から無声の判定があるフレーム数
以上連続する時(例えば4フレーム以上)この区
間を子音区間を判定する。この方法は、すべての
無声子音に対して有効である。
次に/z/のように、音素の前半部分は有声性
をもち、後半の部分は無声性をもつ音素があるの
で、語頭からある時間長以下有声フレームの後、
無声フレームが続く時この区間を子音とする。例
えば/ZU/をフレーム毎に判定を行ない/
VVVVUUUVVVV/(ただし/V/は有
声、/U/は無声を表わす)となつた時、無声フ
レームが終わるところまでを語頭子音とする 本実施例は上記第1〜第3の語頭子音検出法を
次のような順番で適用する。
●フレーム毎の有声・無声判定を使用して検出す
る第2の方法 ●音声スペクトルの低域、高域パワーの時間的変
動の特徴を使用して検出する第1の方法 ●フレーム毎に5母音、鼻音と無声子音を対象と
して音素認識を行ないその結果を使用して検出
する第3の方法 以上述べた順番で適用して、子音が検出された
場合は最初に検出された方法でセグメンテーシヨ
ンを行ない、それ以後の方法は適用しない。
なお本実施例では第1〜第3の語頭子音検出法
をある順に併用する場合について述べたが本発明
はこれに限定されるものではなく、第1〜第3の
語頭子音検出法の適用順は任意に選べるものであ
り、また第1〜第3の語頭子音検出法のうち少な
くとも1方法を使用することによつて充分効果を
発揮するものである。
以上説明した部分について、第8図、第9図の
具体例で説明する。第8図は/da eki/(打撃)
と発声した場合、第9図は/nohara/(野原)
と発声した場合である。図において30および4
0は母音・鼻音判別結果の第1位の尤度を持つ音
素記号を時系列で表わしたものである。同様に3
1,41は第2位の音素の時系列である。32,
42は有声・無声判別結果の時系列でありVは、
そのフレームが有声と判別されたこと、uは無声
と判別されたことを示す。30〜32、または4
0〜42の結果は尤度バツフア14に蓄積されて
いる情報と等価である。
33,43は低域パワー情報の時間的な動き
を、そして、34,44は高域パワー情報の時間
的な動きを表わしたものである。これらは、パワ
ー情報バツフア16に蓄積されている情報と等価
である。
先ず第8図において、/d/は35に示すよう
に音素判別結果の第1位の尤度を持つ音素の時系
列が鼻音(N)であるので子音としてセグメンテ
ーシヨンされる。またこの部分は高域パワー情報
34が低下していることによつても検出でき
る。/ /は36に示すように高域パワー情報3
4に明らかなパワーデイツプが存在することで検
出できる。
この部分は尤度第1位の音素の時系列30、尤
度第2位の音素の時系列31、低域パワー情報3
3では検出できない。/k/の前に生じる無声区
間/Q/は低域パワー情報33、高域パワー情報
34のパワーが低下してデイツプを形成している
ことで検出できる。/k/はこのパワーデイツプ
の外に、有声・無声判定結果の時系列32が、3
8に示すように無声(uで示す)になつているこ
とで検出できる。
次に第9図において、語頭子音/n/は、低域
パワー情報43、高域パワー情報44では顕著な
特徴を見出せないが、音素判別結果の尤度第1位
の音素の時系列40において45に示すように鼻
音フレームが連続していることで検出できる。/
h/は46に示すように低域パワー情報43、高
域パワー情報44のパワーデイツプで検出でき
る。また/r/は、高域パワー情報44のデイツ
プ47によつて検出できる。
以上、例によつて示したように、低域パワー、
高域パワーの時間変化、母音・鼻音判別結果の時
間的連続性および有声・無声判別結果を併用する
ことによつて、精度の高い子音セグメンテーシヨ
ンを行なうことが可能となつた。
第2図の子音尤度計算部18は、子音セグメン
テーシヨン部17で検出された子音区間に対し
て、入力バツフア11から送出されてくる入力パ
ラメータと、子音標準パターン格納部19の各々
の子音標準パターンとの間で尤度計算を行ない、
尤度の高い音素から順に並べる。子音認識部20
は、子音尤度計算部18から送出されてくる結果
と、時間的な持続性(フレーム数)などを考慮し
て、その区間の子音を決定する。
次に母音認識部21の機能を第10図によつて
説明する。第10図は第8図、第9図と同様な形
式である。(ただし、有声・無声判別結果は省略
してある。)第10図において、語頭の/o/は
音素判別結果の尤度第1位の音素の時系列50の
連続性で認識される。半母音/j/の部分は55
に示されるように尤度第1位の音素の時系列50
の結果からわかるようにIからEに変化している
が、各々の持続時間が短く、しかもIからEに変
化するパターンは、典型的な/j/のパターンで
あるので、この部分を/j/として認識する。/
a/の部分は56に示されるように音素判別結果
の尤度第1位の音素の時系列50の連続性より認
識される。/u/の部分は尤度第1位の音素の時
系列50と尤度第2位の音素の時系列51を用
い、57に示すようにoとUが混在しているがU
の方が優勢であるので/u/として認識する。語
尾の撥音/N/も58に示すように尤度第1位の
音素の時系列50より、前記と同様に認識される
(撥音は母音に含める)。
次に前記のうち半母音の認識についてさらに詳
しく説明する。半母音(拗音も含む)を認識する
場合、母音認識部21の一部に設けられた半母音
候補検出用母音時系列パターン格納部に、予め、
多数の話者の発声した単語音声データを基に作成
された母音時系列から、半母音区間付近に共通し
て現われる母音の時系列の変化(これを母音時系
列パターンと呼ぶ)のうち出現頻度の特に多いも
のをいくつか抽出し、格納しておく。半母音の判
定には、尤度バツフア14から送出される母音時
系列と、半母音候補検出用母音時系列パターン格
納部に格納されている半母音候補検出のための母
音時系列パターンとが逐次比較照合され、一致し
たものについて、更にパターンの持続時間、音素
結合規則、有声無声無音判定結果を考慮して半母
音の判定及びセグメンテーシヨンが行なわれる。
ここで、実際に、半母音/j/及び/w/を認識
した例を図を用いて説明する。第11図は、本実
施例による半母音の認識例である。先ず、aは/
tesuurjoo/(手数料)という発声から/rjo/の
部分を例として抜き出して示したものである。a
において23は予め、分析区間毎につけられた音
素ラベルであり、24は子音の認識結果である。
この例で、入力音声を母音時系列に変換した結果
25から、半母音候補検出用母音時系列パターン
の1つである“IEUO”によつて半母音/j/の
候補区間が検出される。この例ではパターンの
“IEU”の区間が半母音候補区間、“O”の区間が
後続母音区間である。後続母音区間が閾値以上あ
りまた、半母音候補区間が閾値以下であること、
および、子音あるいは無声・無音区間と半母音候
補区間との位置関係が考慮され最終的に、26の
半母音/j/の認識結果が得られる。
次に、bは/awa/(泡)という発声を例とし
て示したもので、27は予め、分析区間毎につけ
られた音素ラベルであり28は子音の認識結果で
ある。ここで、入力音声を母音時系列に変換した
結果29から、半母音候補検出用母音時系列パタ
ーンの1つである“AOA”によつて半母音/
w/候補区間が検出される。この例では、パター
ン“O”の区間が半母音候補区間、“A”の区間
がそれぞれ先行母音区間、後続母音区間となる。
先行母音区間、後続母音区間がそれぞれ閾値以上
あり、半母音候補区間が閾値以下であることか
ら、例えば/aoao/(青々)という発声の/
aoa/の部分と区別され、半母音/w/が存在す
ると判断される。更に、半母音候補区間に子音が
認識されている場合、鼻音性をもたない子音の場
合には、子音区間も含めて半母音候補区間とし、
その区間が閾値以内であり、しかも無声・無音区
間ではない場合には、半母音を優先して、30の
半母音/w/の認識結果が得られる。
音素系列作成部22は、子音認識部20から送
出される子音認識結果と、母音認識部21から送
出される母音認識結果を総合して、音素系列を生
成する部分である。この部分では日本語の音形規
則、例えば、撥音以外の子音が2つ以上連続する
場合は、その間に母音/i/または/u/が存在
する、とか、母音/i/や/u/は無声化しやす
い………などの規則によつて、音素の判別結果を
修正する機能も有する。
このようにして作成された音素系列は、単語マ
ツチング部8において、単語辞書9の内容と1つ
ずつ比較され、最す類似度の高い単語が認識結果
として出力される。
第12図は認識処理の高速化を目的とした本発
明の他の実施例で、より実用的なブロツク構成で
ある。第2図では、子音部に対する距離計算は、
子音セグメンテーシヨンの後であるため、時間的
な遅れが生じ、このため入力バツフア11が必要
であつた。第12図はこの部分を改良し、高速化
を行なつたものである。第12図で第2図と同じ
番号のブロツクは、同一の機能を有する。第12
図の標準パターン格納部60は、第2図における
母音・鼻音標準パターン格納部13と子音標準パ
ターン格納部19の両方を含んでいる。尤度計算
部61は母音・鼻音および子音に対する尤度をい
つしよに計算し、それらを別々に尤度バツフア6
2に蓄積しておく。子音認識部20では尤度バツ
フア62の子音尤度の中で、子音セグメンテーシ
ヨン部17で子音区間と決定された部分の情報の
みを使用して子音の認識を行なう。このような構
成にすると、不要な部分の尤度まで計算すること
になるが、子音認識の時間遅れがなく、余分の入
力バツフアが不要となる。そして複雑な尤度計算
部の1部が共用できるので回路構成が簡単になる
利点がある。その他の部分は第2図と同様であ
る。
上記実施例は従来例に比し以下のような利点を
有する。
(1) 従来例では、音声信号を帯域フイルタで分析
し、ローカルピークを抽出してそれを特徴パラ
メータとしていたが、本実施例ではLPC分析
によつてLPCケプストラム係数を抽出し、特
徴パラメータとした。LPC分析では音声波形
から個人性を多く含む声帯音源情報を除去でき
るため、不特定話者の発声に対して強いシステ
ムとすることができた。しかも声帯音源情報の
除去によつて相対的に音韻性が強調されるた
め、フレームごとの音素判別率を高くできた。
またローカルピークが主に音声のフオルマン
トを表わすパラメータであるのに対し、LPC
ケプストラム係数はフオルマントを含んだ周波
数スペクトル概形全体を表わすパラメータであ
るため、後者の方が情報量が多く、認識率の向
上に役立つた。特にフオルマント構造がはつき
りしない無声子音間の判別には効果が高い。
(2) 従来例においては、フレームごとの音素判別
のために、ローカルピークを判別図に当てはめ
る方法であつたが、本実施例ではマハラノビス
距離、ベイズ判定、線形判別関数などの統計的
距離尺度によつて入力LPCケプストラム係数
と標準パターンとの間でパターンマツチングを
行なう方法を採用した。フレームごとの平均母
音認識率が従来例では78.4%であつたが、本発
明では85.2%に向上した。
(3) 従来例では、セグメンテーシヨンパラメータ
のみで子音の存在を検出していたが、鼻音や/
r/などの有声子音は検出できない場合が多か
つた。本実施例では、セグメンテーシヨンパラ
メータの他に、5母音と鼻音(/m/、/
n/、はつ音)を対象とした前記フレームごと
の音素認識結果、およびフレームごとの有声・
無声判別結果を併用した。すなわち、音素認識
結果で鼻音フレームが連続する場合は有声子音
区間とし、有声・無声判別結果で無声フレーム
が連続する場合はその区間を無声子音区間とし
た。これによつて子音のセグメンテーシヨン脱
落率を大きく減少することができた。
(4) セグメンテーシヨン用のパラメータとして、
低域パワーおよび高域パワー情報を導入した。
これらのパラメータによつて全域パワーとスペ
クトルの傾きを用いる従来例よりも、セグメン
テーシヨンをより確実に行なうことができるよ
うになつた。
(5) 男女計40名が発声した200都市名単語を対象
とした不特定話者単語認識実験において、従来
例による平均認識率が88%であつたのに対し、
本実施例によると95%という良好な結果を得る
ことができた。また、本実施例では、従来例よ
りも個人差による認識率のばらつきが小さく、
不特定話者認識により適していることが証明さ
れた。
上記の結果は主に、特徴パラメータとして
LPCケプストラム係数を使用し、統計的距離尺
度で尤度計算を行なうようにしたこと、セグメン
テーシヨン精度を向上させたことに依つている。
発明の効果 以上のように本発明は入力音声を線形予測分析
法で分析してLPCケプストラム係数を抽出する
LPC分析部と、前記LPC分析部の結果と標準パ
ターン格納部からの母音性音素の標準パターンと
の類似度を、線形判別関数、マハラノビス距離、
ベイズ判定などの統計的距離尺度によつて計算し
て母音性音素に対する入力音声の尤度を求める第
1の尤度計算部と、前記第1の尤度計算部の結果
によりその時間時継続性を利用してセグメンテー
シヨンと認識を行う第1の認識部と、入力音声ま
たはその分析結果に基づき有声と無声を判別する
有声・無声判定部と、入力音声の低域パワー情報
と高域パワー情報を求めるセグメンテーシヨン用
パラメータ抽出部と、前記結果より求められた前
記パワー情報の時間的変動と前記第1の尤度計算
部の結果と前記有声・無声判定部の結果とから子
音性音素のセグメンテーシヨンを行う子音性音素
セグメンテーシヨン部と、前記子音性音素セグメ
ンテーシヨン部で得られた区間に対し、LPC分
析部からの係数と標準パターン格納部からの子音
性音素の標準パターンとの類似度を計算する第2
の尤度計算部と、前記第2の尤度計算部の結果に
基づき子音性音素を認識する第2の認識部と、前
記第1の認識部の結果と第2の認識部の結果とに
より音素系列を作成する音素系列作成部と、前記
音素系列作成部の結果と単語辞書部に含まれてい
る辞書項目との間でマツチングを行うマツチング
部とを備え、前記マツチング部より音素系列に最
も良く類似した辞書項目を出力することを特徴と
する音声認識装置を提供するもので、フレームご
との音素判別率の向上、平均母音認識率の向上、
子音セグメンテーシヨン脱落率の減少、セグメン
テーシヨンの確度の向上をはかることができ、不
特定話者に対しても高速で高い認識率を得ること
ができる利点を有する。
【図面の簡単な説明】
第1図は従来の音声認識装置の構成を示すブロ
ツク図、第2図は本発明の一実施例である音声認
識装置の構成を示すブロツク図、第3図a〜cは
本発明の低域パワー情報または高域パワー情報か
らパワーデイツプを検出する方法を説明する図、
第4図は低域パワーデイツプ、高域パワーデイツ
プの大きさによつて、子音区間と子音の付加を判
加するための判別図、第5図は母音または鼻音と
して全てのフレームを認識し、この結果から子音
区間を検出する方法を説明する図、第6図a〜d
は本発明の語頭子音のセグメンテーシヨン法を説
明するパワーによる子音検出を示す図、第7図は
本発明に係る音素認識結果による子音検出法の例
を示す図、第8図及び第9図は本発明のセグメン
テーシヨンの方法を具体例に基づいて説明する
図、第10図は本発明の母音の認識方法を具体例
に基づいて説明する図、第11図aは本発明によ
る半母音/j/の検出例を示す図、第11図bは
本発明による半母音/w/の検出例を示す図、第
12図は他の実施例のブロツク図である。 10……LPC分析部、11……入力バツフア、
12……母音尤度計算部、13……母音・鼻音標
準パターン格納部、14……尤度バツフア、15
……セグメンテーシヨン用パラメータ抽出部、1
6……パワー情報バツフア、17……子音セグメ
ンテーシヨン部、18……子音尤度計算部、19
……子音標準パターン格納部、20……子音認識
部、21……母音認識部、22……音素系列作成
部、60……標準パターン格納部、61……尤度
計算部、62……尤度バツフア。

Claims (1)

  1. 【特許請求の範囲】 1 入力音声を線形予測分析法で分析してLPC
    ケプストラム係数を抽出するLPC分析部と、前
    記LPC分析部の結果と標準パターン格納部から
    の母音性音素の標準パターンとの類似度を、線形
    判別関数、マハラノビス距離、ベイズ判定などの
    統計的距離尺度によつて計算して母音性音素に対
    する入力音声の尤度を求める第1の尤度計算部
    と、前記第1の尤度計算部の結果によりその時間
    的継続性を利用してセグメンテーシヨンと認識を
    行う第1の認識部と、入力音声またはその分析結
    果に基づき有声と無声を判別する有声・無声判定
    部と、入力音声の低域パワー情報と高域パワー情
    報を求めるセグメンテーシヨン用パラメータ抽出
    部と、前記結果より求められた前記パワー情報の
    時間的変動と前記第1の尤度計算部の結果と前記
    有声・無声判定部の結果とから子音性音素のセグ
    メンテーシヨンを行う子音性音素セグメンテーシ
    ヨン部と、前記子音性音素セグメンテーシヨン部
    で得られた区間に対し、LPC分析部からの係数
    と標準パターン格納部からの子音性音素の標準パ
    ターンとの類似度を計算する第2の尤度計算部
    と、前記第2の尤度計算部の結果に基づき子音性
    音素を認識する第2の認識部と、前記第1の認識
    部の結果と第2の認識部の結果とにより音素系列
    を作成する音素系列作成部と、前記音素系列作成
    部の結果と単語辞書部に含まれている辞書項目と
    の間でマツチングを行うマツチング部とを備え、
    前記マツチング部より音素系列に最も良く類似し
    た辞書項目を出力することを特徴とする音声認識
    装置。 2 第1及び第2の尤度計算部が互いに一部を共
    用して構成されていることを特徴とする特許請求
    の範囲第1項記載の音声認識装置。
JP58102023A 1983-06-07 1983-06-07 音声認識装置 Granted JPS59226400A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP58102023A JPS59226400A (ja) 1983-06-07 1983-06-07 音声認識装置
US06/618,368 US4736429A (en) 1983-06-07 1984-06-07 Apparatus for speech recognition
DE8484303870T DE3473666D1 (en) 1983-06-07 1984-06-07 Apparatus for speech recognition
EP84303870A EP0128755B1 (en) 1983-06-07 1984-06-07 Apparatus for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58102023A JPS59226400A (ja) 1983-06-07 1983-06-07 音声認識装置

Publications (2)

Publication Number Publication Date
JPS59226400A JPS59226400A (ja) 1984-12-19
JPS6336676B2 true JPS6336676B2 (ja) 1988-07-21

Family

ID=14316150

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58102023A Granted JPS59226400A (ja) 1983-06-07 1983-06-07 音声認識装置

Country Status (4)

Country Link
US (1) US4736429A (ja)
EP (1) EP0128755B1 (ja)
JP (1) JPS59226400A (ja)
DE (1) DE3473666D1 (ja)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5997200A (ja) * 1982-11-26 1984-06-04 株式会社日立製作所 音声認識方式
US4860358A (en) * 1983-09-12 1989-08-22 American Telephone And Telegraph Company, At&T Bell Laboratories Speech recognition arrangement with preselection
EP0243479A4 (en) * 1985-10-30 1989-12-13 Central Inst Deaf LANGUAGE PROCESSING ARRANGEMENT AND METHOD.
US4820059A (en) * 1985-10-30 1989-04-11 Central Institute For The Deaf Speech processing apparatus and methods
JPH0760318B2 (ja) * 1986-09-29 1995-06-28 株式会社東芝 連続音声認識方式
US4916743A (en) * 1987-04-30 1990-04-10 Oki Electric Industry Co., Ltd. Pattern matching system
EP0364501A4 (en) * 1987-06-09 1993-01-27 Central Institute For The Deaf Speech processing apparatus and methods
US5255342A (en) * 1988-12-20 1993-10-19 Kabushiki Kaisha Toshiba Pattern recognition system and method using neural network
JPH02195400A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声認識装置
JPH03171199A (ja) * 1989-11-30 1991-07-24 Takayama:Kk 音声認識方法
US6236964B1 (en) * 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
DE69128990T2 (de) * 1990-09-07 1998-08-27 Toshiba Kawasaki Kk Sprecherkennungsvorrichtung
JP3050934B2 (ja) * 1991-03-22 2000-06-12 株式会社東芝 音声認識方式
DE4111995A1 (de) * 1991-04-12 1992-10-15 Philips Patentverwaltung Schaltungsanordnung zur spracherkennung
JPH04362698A (ja) * 1991-06-11 1992-12-15 Canon Inc 音声認識方法及び装置
JP3066920B2 (ja) * 1991-06-11 2000-07-17 キヤノン株式会社 音声認識方法及び装置
JPH0573100A (ja) * 1991-09-11 1993-03-26 Canon Inc 音声合成方法及びその装置
US5526466A (en) * 1993-04-14 1996-06-11 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
JP3450411B2 (ja) * 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
EP0703566A1 (en) * 1994-09-23 1996-03-27 Aurelio Oskian Device for recognizing speech
JPH10511472A (ja) 1994-12-08 1998-11-04 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 言語障害者間の語音の認識を向上させるための方法および装置
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
DE19610848A1 (de) * 1996-03-19 1997-09-25 Siemens Ag Rechnereinheit zur Spracherkennung und Verfahren zur rechnergestützten Abbildung eines digitalisierten Sprachsignals auf Phoneme
WO1997037345A1 (en) * 1996-03-29 1997-10-09 British Telecommunications Public Limited Company Speech processing
US6109107A (en) 1997-05-07 2000-08-29 Scientific Learning Corporation Method and apparatus for diagnosing and remediating language-based learning impairments
US6159014A (en) * 1997-12-17 2000-12-12 Scientific Learning Corp. Method and apparatus for training of cognitive and memory systems in humans
US6019607A (en) * 1997-12-17 2000-02-01 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI systems
US5927988A (en) * 1997-12-17 1999-07-27 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI subjects
JP2002539528A (ja) * 1999-03-05 2002-11-19 キヤノン株式会社 データベース注釈付け及び検索
JP2001117579A (ja) * 1999-10-21 2001-04-27 Casio Comput Co Ltd 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
CN1329861C (zh) * 1999-10-28 2007-08-01 佳能株式会社 模式匹配方法和装置
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
GB0027178D0 (en) 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) * 2000-11-20 2001-01-03 Canon Kk Speech processing system
EP1286329B1 (en) * 2001-08-23 2006-03-29 Culturecom Technology (Macau) Ltd. Method and system for phonetic recognition
JP3678421B2 (ja) * 2003-02-19 2005-08-03 松下電器産業株式会社 音声認識装置及び音声認識方法
US20050153267A1 (en) * 2004-01-13 2005-07-14 Neuroscience Solutions Corporation Rewards method and apparatus for improved neurological training
US20050175972A1 (en) * 2004-01-13 2005-08-11 Neuroscience Solutions Corporation Method for enhancing memory and cognition in aging adults
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
US20140207456A1 (en) * 2010-09-23 2014-07-24 Waveform Communications, Llc Waveform analysis of speech
RU2466468C1 (ru) * 2011-06-30 2012-11-10 Даниил Александрович Кочаров Система и способ распознавания речи
CN103827965B (zh) * 2011-07-29 2016-05-25 Dts有限责任公司 自适应语音可理解性处理器
GB2495755A (en) * 2011-10-20 2013-04-24 Gm Global Tech Operations Inc Correction of fuel injection timings in an internal combustion engine
EP4252643A1 (en) * 2022-03-29 2023-10-04 Emotion Comparator Systems Sweden AB A system and method for interpretation of human interpersonal interaction

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57161798A (en) * 1981-03-30 1982-10-05 Nippon Telegraph & Telephone Voice recognition unit

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57161798A (en) * 1981-03-30 1982-10-05 Nippon Telegraph & Telephone Voice recognition unit

Also Published As

Publication number Publication date
EP0128755B1 (en) 1988-08-24
JPS59226400A (ja) 1984-12-19
US4736429A (en) 1988-04-05
DE3473666D1 (en) 1988-09-29
EP0128755A1 (en) 1984-12-19

Similar Documents

Publication Publication Date Title
JPS6336676B2 (ja)
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
JPH07146699A (ja) 音声認識方法
KR100738332B1 (ko) 성대신호 인식 장치 및 그 방법
Unnibhavi et al. LPC based speech recognition for Kannada vowels
JPS6138479B2 (ja)
JPH0558553B2 (ja)
JPH067357B2 (ja) 音声認識装置
KR100319237B1 (ko) 유성음/무성음/묵음 정보를 이용한 동적 시간정합고립단어 인식 시스템
Laleye et al. Automatic boundary detection based on entropy measures for text-independent syllable segmentation
JP2664136B2 (ja) 音声認識装置
JPH0283595A (ja) 音声認識方法
Shetty et al. Speech Signal Segmentation using Zero Crossing Rate and Short-Time Energy for Speech Synthesis
Elghonemy et al. Speaker independent isolated Arabic word recognition system
JP2943445B2 (ja) 音声認識方法
Franco Recognition of intervocalic stops in continuous speech using context-dependent HMMs
JPH026079B2 (ja)
JPH026078B2 (ja)
KR20120131923A (ko) 음성인식 방법 및 이를 이용한 위험분석 방법
JPH0120440B2 (ja)
JPH0235500A (ja) 音声認識方式
JPH0289098A (ja) 音節パターン切り出し装置
JPH04260100A (ja) 音声認識装置
JPH0114600B2 (ja)
Haider A digital neural network approach to speech recognition