JPS6170595A - 音声認識方式 - Google Patents
音声認識方式Info
- Publication number
- JPS6170595A JPS6170595A JP59193077A JP19307784A JPS6170595A JP S6170595 A JPS6170595 A JP S6170595A JP 59193077 A JP59193077 A JP 59193077A JP 19307784 A JP19307784 A JP 19307784A JP S6170595 A JPS6170595 A JP S6170595A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- word
- input
- standard pattern
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
狭夏分夏
本発明は、単語音声を認識する音声認識方式に関する。
史米及亙
第7図は、音声認識装置の基本回路図で1図中、1はマ
イクロホン、2は分析部、3は切り換えスイッチ、4は
標準パターン部、5は入力音声パターン部、6は距離計
算部、7は最小値検出部、8は認識結果部で、距離計算
部6及び最小値検出部7でパターンマツチング部を形成
している。第1図において、まず、マイクロホン1から
入ってくる音声を分析してその音声パターンの特徴を認
識するパターンを抽出する。特定話者用のシステムでは
、認識する前に、前もってその話者の各認識対象単語の
分析結果を標準パターンとして登録しておき、認識する
時には、各認識対像単語の標準パターンと入力音声パタ
ーンのパラメータを比較して、最も近い即ち距離の小さ
い認識対象単語を選択する。なお、不特定話者の場合に
は、個人差を吸収できる標準パターンを使用する。
イクロホン、2は分析部、3は切り換えスイッチ、4は
標準パターン部、5は入力音声パターン部、6は距離計
算部、7は最小値検出部、8は認識結果部で、距離計算
部6及び最小値検出部7でパターンマツチング部を形成
している。第1図において、まず、マイクロホン1から
入ってくる音声を分析してその音声パターンの特徴を認
識するパターンを抽出する。特定話者用のシステムでは
、認識する前に、前もってその話者の各認識対象単語の
分析結果を標準パターンとして登録しておき、認識する
時には、各認識対像単語の標準パターンと入力音声パタ
ーンのパラメータを比較して、最も近い即ち距離の小さ
い認識対象単語を選択する。なお、不特定話者の場合に
は、個人差を吸収できる標準パターンを使用する。
第8図は、帯域通過フィルタ群(B P F)を使用し
た分析法の一例を示す図で、同図は、「3」(/ s
a n /)という音声を16チヤンネルの帯域通過フ
ィルタ群(全帯域は200〜6000)12)で分析(
BPF分析)したスペクトラムパターンの時間変化図で
ある。時間軸の一単位は18m5で。
た分析法の一例を示す図で、同図は、「3」(/ s
a n /)という音声を16チヤンネルの帯域通過フ
ィルタ群(全帯域は200〜6000)12)で分析(
BPF分析)したスペクトラムパターンの時間変化図で
ある。時間軸の一単位は18m5で。
ある時刻で断面をとると、それがその時刻でのスペクト
ラムになっており、実際の認識処理は、すべてデジタル
処理となり、ある時刻iでの横一列のスペクトラムの強
度値を特徴ベクトルai(=ail aiz ai3
、”’ ai6°”aL+e)とし、入力音声パター
ン(ここでは「3」の音声パターン)はA=a1 a
2−ai−aI(I=32)となる。
ラムになっており、実際の認識処理は、すべてデジタル
処理となり、ある時刻iでの横一列のスペクトラムの強
度値を特徴ベクトルai(=ail aiz ai3
、”’ ai6°”aL+e)とし、入力音声パター
ン(ここでは「3」の音声パターン)はA=a1 a
2−ai−aI(I=32)となる。
従って、音声パターンは次のように表現されるA=al
a2 ・=ai・=aI −(1)aiは時刻i
における音声の特徴を表す量で、一般にはベクトル値で
あり、Aはこの特徴ベクトルai(n=1〜32 (I
=32の場合)〕の時系列になり、■は音声パターンA
の長さに相当する。
a2 ・=ai・=aI −(1)aiは時刻i
における音声の特徴を表す量で、一般にはベクトル値で
あり、Aはこの特徴ベクトルai(n=1〜32 (I
=32の場合)〕の時系列になり、■は音声パターンA
の長さに相当する。
また、ベクトルatを特徴ベクトルと呼び、a i=
(ail 、 ai2 ・=aiq ・・・aiQ)
−(2)で表わす6Qはベクトルの次数で、第2図の
例では帯過帯域フィルタ群のチャンネル数16に相当す
る。
(ail 、 ai2 ・=aiq ・・・aiQ)
−(2)で表わす6Qはベクトルの次数で、第2図の
例では帯過帯域フィルタ群のチャンネル数16に相当す
る。
同様に単語nの標準パターンをBnとし。
1 °’ ” bt ’ b2 ’ = b
j’ パb“°° ”−(3)で表わすにの時、bJn
は単語nの標準パターンの時刻jにおける特徴ベクトル
で、前記入力パターンAの特徴ベクトルatと同次数で
ある。また、Jnは単語nの4!i?準パターンの長さ
を表わし。
j’ パb“°° ”−(3)で表わすにの時、bJn
は単語nの標準パターンの時刻jにおける特徴ベクトル
で、前記入力パターンAの特徴ベクトルatと同次数で
ある。また、Jnは単語nの4!i?準パターンの長さ
を表わし。
nは単語名を示す通し番号で、N単語の認識単語・セッ
トを考えてΣとすると。
トを考えてΣとすると。
Σ= (n I n= 1.2−N) ・・・・・・
(4)となる。ただし、特定の単語を指定する必要がな
い場合は添え字nを省略して、 B=b、b2・・・bj・・・bJ ・・・・・・
(5)?)J= (bJl t 1)J2 *・・・1
)js・・・b jO) ・・・(6)となる。
(4)となる。ただし、特定の単語を指定する必要がな
い場合は添え字nを省略して、 B=b、b2・・・bj・・・bJ ・・・・・・
(5)?)J= (bJl t 1)J2 *・・・1
)js・・・b jO) ・・・(6)となる。
音声認識処理では、入力パターンAについて認識単語セ
クトのすべての単語の標準パターンBnを時間正規化し
ながらパターンマツチングし、N単語の中から最も六方
パターンAに近い単anを探し出す。
クトのすべての単語の標準パターンBnを時間正規化し
ながらパターンマツチングし、N単語の中から最も六方
パターンAに近い単anを探し出す。
第9図は、時間正規化のための写像モデルで、これは、
前記例で言えば「3」という単語の標準パターンBを写
像関数によって六方パターンの時間軸に揃えるもので、
通常、前記写像関数を、j=Bi) 由・・・(7
) で表現し、これを歪関数と呼んでいる。
前記例で言えば「3」という単語の標準パターンBを写
像関数によって六方パターンの時間軸に揃えるもので、
通常、前記写像関数を、j=Bi) 由・・・(7
) で表現し、これを歪関数と呼んでいる。
この歪関数が既知であれば、標準パターンBの時間軸を
第(7)式によって変換して入力パターンAの時間軸i
に揃えることができるが、実際には、この歪関数は未知
であり、そのため、一方のパターンを人工的に歪ませて
他方のパターンに最もHIXするようにしてすなわち距
離を最小にして最適な歪関数を定めるようにしている。
第(7)式によって変換して入力パターンAの時間軸i
に揃えることができるが、実際には、この歪関数は未知
であり、そのため、一方のパターンを人工的に歪ませて
他方のパターンに最もHIXするようにしてすなわち距
離を最小にして最適な歪関数を定めるようにしている。
第10図は、上記原理を実行するためのDPマツチング
法の一例を説明するための図で、今、標準パターンBの
時間軸を歪まず関数として歪関数j(i)を考えると、
この歪関数j (i)によってパターンBは次のような
パターンB′に変換される。
法の一例を説明するための図で、今、標準パターンBの
時間軸を歪まず関数として歪関数j(i)を考えると、
この歪関数j (i)によってパターンBは次のような
パターンB′に変換される。
B’ =bj(1) bj(z )・・・bj(i)・
・・bj(I) ・・・(8)上記歪関数には、実際
の音声パターンの時間歪現像を考慮して、例えば、 (イ)、j (i)は(近似的に)単調増加関数。
・・bj(I) ・・・(8)上記歪関数には、実際
の音声パターンの時間歪現像を考慮して、例えば、 (イ)、j (i)は(近似的に)単調増加関数。
(ロ)、j(i)は(近似的に)連続関数。
(ハ)、Hi)はiの近傍の値をとる。
等の条件を加えるが、これらの条件を満たす歪関数はほ
とんど無限に存在するが、その中で、B′が入力パター
ンAに最も類似するすなわち距離が最も小さくなるよう
な歪関数j (i)を定める。このためには、まず、標
準パターンBの時間軸を歪関数j (i)で入力パター
ンAのi軸上に写像してパターンB′を得るが、この時
、パターンAとパターンB′の距離を最小にするような
歪関数j (i)が最適な歪関数である。この入力パタ
ーンAと写像パターンB′の距離は、 Σ I ai −bj(i)I −・= (9)n
=1 □ で表わされる。ここで、It IIは2つの
ベクトルの距離を示す、そして、上記(9)式の距離の
最小化問題は、 で定義される。一般に、D (A、B)を時間正規化距
離又はパターン間距離と呼び、d (i、j)はベクト
ルaiとbjとの距離で、通常、ベクトル間距離と呼ん
でいる。
とんど無限に存在するが、その中で、B′が入力パター
ンAに最も類似するすなわち距離が最も小さくなるよう
な歪関数j (i)を定める。このためには、まず、標
準パターンBの時間軸を歪関数j (i)で入力パター
ンAのi軸上に写像してパターンB′を得るが、この時
、パターンAとパターンB′の距離を最小にするような
歪関数j (i)が最適な歪関数である。この入力パタ
ーンAと写像パターンB′の距離は、 Σ I ai −bj(i)I −・= (9)n
=1 □ で表わされる。ここで、It IIは2つの
ベクトルの距離を示す、そして、上記(9)式の距離の
最小化問題は、 で定義される。一般に、D (A、B)を時間正規化距
離又はパターン間距離と呼び、d (i、j)はベクト
ルaiとbjとの距離で、通常、ベクトル間距離と呼ん
でいる。
第11図は、第4図に示した(i、j)平面を抽象化し
て格子状平面にし、各格子点についてその座標(is
j)に対応するベクトル間距離d(i、j)を求めるよ
うにしたもので、前記第(10)式をこの平面上で考え
ると、(1,l)から始めて(I、J)に至る最適な経
路(バス)を探していくことになるが、この場合、i−
1の状態からiの状態へ移るパスは図示の通り3通りに
制限されることが多い。なお、整合窓Wは極端な時間歪
を起こさないようにするためのもので。
て格子状平面にし、各格子点についてその座標(is
j)に対応するベクトル間距離d(i、j)を求めるよ
うにしたもので、前記第(10)式をこの平面上で考え
ると、(1,l)から始めて(I、J)に至る最適な経
路(バス)を探していくことになるが、この場合、i−
1の状態からiの状態へ移るパスは図示の通り3通りに
制限されることが多い。なお、整合窓Wは極端な時間歪
を起こさないようにするためのもので。
該整合窓になって時間正規化に関する前記3つの条件(
イ)〜(ハ)の満たしている。ここで、今。
イ)〜(ハ)の満たしている。ここで、今。
i=1,2・・・Iのそれぞれのiにおいて、次にどの
状態のjに移るべきかの制御を最適に行い、第(10)
式の評価関数を最小にする場合を考えると、初期条件は
、 g (1,1)=d (1,1) ・・・・・・(1
2)漸化式は。
状態のjに移るべきかの制御を最適に行い、第(10)
式の評価関数を最小にする場合を考えると、初期条件は
、 g (1,1)=d (1,1) ・・・・・・(1
2)漸化式は。
・・・・・・(13)
パターン間距離は、
D (A、B)=g (I、J) ・・・・・・(
14)となり、前記(13)式の計算は、第11図の格
子点を(i、j)の増加する方向にたどって行うことに
なる。すなわち、g(i、j)は(1,l)点から(i
、j)点に至るまでの距離和を最小にしたもので、第(
13)式は、第(i−1)段のj、 (j−1) r
(j−2)についてすでに求まっているg(i−1
y 3)r g(i−L j−1)+g (i−1,j
−2)を基に、第1段の状態jにおけるg (is j
)を求めるものである。
14)となり、前記(13)式の計算は、第11図の格
子点を(i、j)の増加する方向にたどって行うことに
なる。すなわち、g(i、j)は(1,l)点から(i
、j)点に至るまでの距離和を最小にしたもので、第(
13)式は、第(i−1)段のj、 (j−1) r
(j−2)についてすでに求まっているg(i−1
y 3)r g(i−L j−1)+g (i−1,j
−2)を基に、第1段の状態jにおけるg (is j
)を求めるものである。
第12図は、上述DPマツチング処理を実行するプロセ
ッサのブロック線図で1図中、11はAメモリ、12は
Bメモリ、13はd (i、j)計算部、14はg (
t+ 3)計算部、15はG(j)メモリ、16は制御
部で、d(i、J)計算部13でaiとbiのベクトル
間距離を計算し1g(i、j)計算部14で(is j
)に至る最短距離g (’+ J)を算出し、これらを
並行処理する。
ッサのブロック線図で1図中、11はAメモリ、12は
Bメモリ、13はd (i、j)計算部、14はg (
t+ 3)計算部、15はG(j)メモリ、16は制御
部で、d(i、J)計算部13でaiとbiのベクトル
間距離を計算し1g(i、j)計算部14で(is j
)に至る最短距離g (’+ J)を算出し、これらを
並行処理する。
g (is J)’; J=I〜Jを計算する時はG(
j)メモリ15にg (I L+ j);J=1””
Jが入っている。また、 m i nはg+ とg2の
小さい方を検出し、小さい方の値をgに入れる。
j)メモリ15にg (I L+ j);J=1””
Jが入っている。また、 m i nはg+ とg2の
小さい方を検出し、小さい方の値をgに入れる。
而して、上記DPマツチング法による時は、第(13)
式の1項から明らかなように、フレーム間距離の計算に
1xJXN回、類似度の計算にIXJXl’J回の計算
回数を必要とする。また、標準パターン記憶量でNXJ
Xpワード、ワード用記憶量で2XNXJワードのメ
モリ量を必要とし、計算量およびメモリ量が大きい欠点
を有する。但し、I;入力パターン長、に平均標準パタ
ーン長、N;認識単語数、P;特徴パラメータ次元数で
ある。さらに、不特定話者の単語音声認識ではlカテゴ
リに複数個(通常10個以上)の標準パターンを用いる
ことが多く、この場合には計算量、記憶量共に10倍以
上になる。
式の1項から明らかなように、フレーム間距離の計算に
1xJXN回、類似度の計算にIXJXl’J回の計算
回数を必要とする。また、標準パターン記憶量でNXJ
Xpワード、ワード用記憶量で2XNXJワードのメ
モリ量を必要とし、計算量およびメモリ量が大きい欠点
を有する。但し、I;入力パターン長、に平均標準パタ
ーン長、N;認識単語数、P;特徴パラメータ次元数で
ある。さらに、不特定話者の単語音声認識ではlカテゴ
リに複数個(通常10個以上)の標準パターンを用いる
ことが多く、この場合には計算量、記憶量共に10倍以
上になる。
1−眞
本−発、明は、上述の如き、実情に鑑みてなされもので
、特に、単語音声を認識する音声認識装置に於て、セグ
メンテーションを含む音韻識別によって音韻ラティスを
構成して単語を識別するボトム・アップ的手法よりもト
ップ・ダウン的に直接に単語を識別する方が単語認識性
能が良いという理由から、音韻(あるいは音節)ごとに
多数話者の発声した音声データから作成した統計的識別
関数と単語認識のためのDPマツチング法とを併用する
ことに基づいて1−ツブ・ダウン的に不特定話者の単語
音声を識別することを目的としてなされたものである。
、特に、単語音声を認識する音声認識装置に於て、セグ
メンテーションを含む音韻識別によって音韻ラティスを
構成して単語を識別するボトム・アップ的手法よりもト
ップ・ダウン的に直接に単語を識別する方が単語認識性
能が良いという理由から、音韻(あるいは音節)ごとに
多数話者の発声した音声データから作成した統計的識別
関数と単語認識のためのDPマツチング法とを併用する
ことに基づいて1−ツブ・ダウン的に不特定話者の単語
音声を識別することを目的としてなされたものである。
構成
本発明は、上記目的を達成するために、単語音声を認識
する音声認識装置に於て、単語標準パターンを音韻標準
パターンとヌル標準パターンとの連結で構成し、入力パ
ターン並びに標準パターンの重み付きDPマツチングに
基づいて単語音声を認識することを特徴としたものであ
る。以下1本発明の実施例に基づいて説明する。
する音声認識装置に於て、単語標準パターンを音韻標準
パターンとヌル標準パターンとの連結で構成し、入力パ
ターン並びに標準パターンの重み付きDPマツチングに
基づいて単語音声を認識することを特徴としたものであ
る。以下1本発明の実施例に基づいて説明する。
第1図は、本発明の一実施例を説明するための構成図で
1図中、21は音声入力部、22は周波数分析部、23
は音韻カテゴリとの距離計算部。
1図中、21は音声入力部、22は周波数分析部、23
は音韻カテゴリとの距離計算部。
24は音韻標準パターン蓄積部、25はDPマツチング
部、26は単語標準パターン蓄積部、27は単語同定部
、28は認識結果出力部で、音声入力部21で入力され
た未知入力音声は周波数分析部22で周波数分析され、
特徴パラメータの時系列で表現される。音韻標準パター
ン蓄積部24の音韻標準パターンk(k=1.2.・・
・・・・K)と前記未知入力パターンとの距、1ldk
(i)を距離計算部23で計算しておき、音韻クラス系
列で表現されている単語標準パターン26と前記入力パ
ターンとのDPマツチングをd k(i)の値を引用し
なからDPマツチング部25で行ない、単語標準パター
ン(1〜Nとの距離が最も小さい単語を単語同定部27
で決定した後、認識結果出力部28で出力する。
部、26は単語標準パターン蓄積部、27は単語同定部
、28は認識結果出力部で、音声入力部21で入力され
た未知入力音声は周波数分析部22で周波数分析され、
特徴パラメータの時系列で表現される。音韻標準パター
ン蓄積部24の音韻標準パターンk(k=1.2.・・
・・・・K)と前記未知入力パターンとの距、1ldk
(i)を距離計算部23で計算しておき、音韻クラス系
列で表現されている単語標準パターン26と前記入力パ
ターンとのDPマツチングをd k(i)の値を引用し
なからDPマツチング部25で行ない、単語標準パター
ン(1〜Nとの距離が最も小さい単語を単語同定部27
で決定した後、認識結果出力部28で出力する。
第2図は、本発明に於ける単語標準パターン(縦軸)の
構成および入力パターン(横軸)とのパターンマツチン
グを重み付きDPマツチングを用いて行なう場合の説明
図であり、図中、標準パターンの’TOYOHASI”
は音韻標準パターン(太細部)とヌル標準パターン(細
線部)との連結で構成されている。すなわち、al t
al l・・・。
構成および入力パターン(横軸)とのパターンマツチン
グを重み付きDPマツチングを用いて行なう場合の説明
図であり、図中、標準パターンの’TOYOHASI”
は音韻標準パターン(太細部)とヌル標準パターン(細
線部)との連結で構成されている。すなわち、al t
al l・・・。
al、・・・、 aI、は入力パターンの各フレームを
、bnl + ”2 + ”’+ b’jr ”’r
b’Jn t*単語nの標準パターンの各フレームを表
わし、入力パターンの各フレームの重みを0、標準パタ
ーンのヌル標準パターンに対応するフレームの重みを0
、音韻標準パターンに対応するフレームの重みを1に定
める。
、bnl + ”2 + ”’+ b’jr ”’r
b’Jn t*単語nの標準パターンの各フレームを表
わし、入力パターンの各フレームの重みを0、標準パタ
ーンのヌル標準パターンに対応するフレームの重みを0
、音韻標準パターンに対応するフレームの重みを1に定
める。
ここで1本発明の説明において使用する記号について定
義しておく。
義しておく。
n:単語名、n=1.2.・・・、N
N:単語数
Jn:単語nの標準パターン長(フレーム長)R”:Q
L語nの標準パターン R’ =b’ 1 b’ 2 −b’ j −b’
Jn但し、 bnj=音声カテゴリのインデックス列I:入力パター
ン長(フレーム長) T二人カバターン T=a3 a2−・aI に:音韻カテゴリ名、に=1.2.・・・、K(cv、
vcvカテゴリでも可、ただし。
L語nの標準パターン R’ =b’ 1 b’ 2 −b’ j −b’
Jn但し、 bnj=音声カテゴリのインデックス列I:入力パター
ン長(フレーム長) T二人カバターン T=a3 a2−・aI に:音韻カテゴリ名、に=1.2.・・・、K(cv、
vcvカテゴリでも可、ただし。
C;子音、v;母音)
Q:各音韻標準パターンの時系列ノ(ターン長b’j”
(lt 2+ ”’t kn ”’* K+ 0)b
Jn二に:単語nの標準パターンの第jフレームが音韻
カテゴリにの標準パター ンの終端に対応する場合 bjn二〇−単語nの標準パターンの第jフレームがい
ずれの音韻標準パターンの 終端にも対応しない場合 Mn:単語nの標準パターンを構成する音韻カテゴリ数 dk(i):入力の第i −Q + 1〜第iフレーム
と音韻カテゴリにの標準時系列 パターンとの距離(例えば、マハ ラノビスの距離を用いる) − D’ (11j) :単語nの標準パターンの第1〜第
jフレームと入力パターンの第1 〜第iフレームの累積照合距離 D(T、Rn):入力パターンTと単語nの標準パター
ンとの単語間距離 次に本発明のアルゴリズムについて説明するが。
(lt 2+ ”’t kn ”’* K+ 0)b
Jn二に:単語nの標準パターンの第jフレームが音韻
カテゴリにの標準パター ンの終端に対応する場合 bjn二〇−単語nの標準パターンの第jフレームがい
ずれの音韻標準パターンの 終端にも対応しない場合 Mn:単語nの標準パターンを構成する音韻カテゴリ数 dk(i):入力の第i −Q + 1〜第iフレーム
と音韻カテゴリにの標準時系列 パターンとの距離(例えば、マハ ラノビスの距離を用いる) − D’ (11j) :単語nの標準パターンの第1〜第
jフレームと入力パターンの第1 〜第iフレームの累積照合距離 D(T、Rn):入力パターンTと単語nの標準パター
ンとの単語間距離 次に本発明のアルゴリズムについて説明するが。
本アルゴリズムは入力フレームに対してフレーム同期で
認識を行なう実時間処理向きアルゴリズムである。勿論
、各単語ごとにDPマツチングを行なうアルゴリズムも
構成できる。
認識を行なう実時間処理向きアルゴリズムである。勿論
、各単語ごとにDPマツチングを行なうアルゴリズムも
構成できる。
■ 4=1.2.・・・、1について■〜■を実行する
。
。
(実際には、L=Q、 Q+1.・・・、■フレームに
対してでよい、、) ■ k=1,2.・・・、Kについてdk(i)を求め
る。
対してでよい、、) ■ k=1,2.・・・、Kについてdk(i)を求め
る。
(ここで、入力フレームをマトリックス量子化すれば、
dk(i)は音韻クラス別コードマトリックス間距離テ
ーブルとしてメモリに格納しておけば直ちに求めること
ができる@)■ n=1.2.・・・Nについて■を実
行する。“■ J=1+2y・・・Jnについて bjn=oなら 但し、 win() =D’(i−1,j−2)とな
る場合はb’j−1=Oである必要がある。
dk(i)は音韻クラス別コードマトリックス間距離テ
ーブルとしてメモリに格納しておけば直ちに求めること
ができる@)■ n=1.2.・・・Nについて■を実
行する。“■ J=1+2y・・・Jnについて bjn=oなら 但し、 win() =D’(i−1,j−2)とな
る場合はb’j−1=Oである必要がある。
bnj≠0なら
D’ (t+ j) = D’ (i−Q、 j−Q)
+d (i) −(16)但し、k=bjn ■ D(T、Rn )=Dn (I、Jn)/Mn+E
) n = arg m1nD(T、 Rn) :
認識結果第3図は、前記アルゴリズムに基づくゼネラル
フローチャートであり1図中、21〜28は第7図の同
一番号に対応している。また、31は入力フレームiの
カウンタ初期化部、32は辞書単語nのカウンタ初期化
部、33は前記nのカウンタ。
+d (i) −(16)但し、k=bjn ■ D(T、Rn )=Dn (I、Jn)/Mn+E
) n = arg m1nD(T、 Rn) :
認識結果第3図は、前記アルゴリズムに基づくゼネラル
フローチャートであり1図中、21〜28は第7図の同
一番号に対応している。また、31は入力フレームiの
カウンタ初期化部、32は辞書単語nのカウンタ初期化
部、33は前記nのカウンタ。
34は辞書単語数判定部、35は前記iのカウンタ、3
6は入力フレーム数判定部である。
6は入力フレーム数判定部である。
第4図は、本発明で使用するDPパスの例であり、(a
)図は音韻標準パターンと入力パターンとのマツチング
を行なう際のパスで1両パターンともΩフレームずつを
非伸縮なシフトマツチングで行なっている(重みl)、
(b)図はヌル標準パターンと入力パターンとのマツチ
ングを行なう際のバスであり、172〜2の傾斜制限を
設けている(重み0)、この場合、単語全体の伸縮率は
l/2〜2よりも小さい範囲となるので、傾斜制限をC
C)図に示すように1/3〜3の範囲に緩めてもよい。
)図は音韻標準パターンと入力パターンとのマツチング
を行なう際のパスで1両パターンともΩフレームずつを
非伸縮なシフトマツチングで行なっている(重みl)、
(b)図はヌル標準パターンと入力パターンとのマツチ
ングを行なう際のバスであり、172〜2の傾斜制限を
設けている(重み0)、この場合、単語全体の伸縮率は
l/2〜2よりも小さい範囲となるので、傾斜制限をC
C)図に示すように1/3〜3の範囲に緩めてもよい。
このとき(15)式は。
で置き換えられる。但し、(17)式のm1n()(1
)ffJiト1.テ0n(i−1,j −2) Cア;
6イL*、 D’ (i 11 J −3) )が選
択される場合には、b’j 1 =O(アルイハ、b
’j 1 =075”)b’ j−2=Q)である必
要がある・。
)ffJiト1.テ0n(i−1,j −2) Cア;
6イL*、 D’ (i 11 J −3) )が選
択される場合には、b’j 1 =O(アルイハ、b
’j 1 =075”)b’ j−2=Q)である必
要がある・。
母音や一部の子音(摩擦音/S/、撥音/N/)などは
、時系列パターン長αフレームよりも長い方が良いと考
えられるので、これらの標準パターンでは1フレームお
きに使用してもよい。このとき前記(16)式は。
、時系列パターン長αフレームよりも長い方が良いと考
えられるので、これらの標準パターンでは1フレームお
きに使用してもよい。このとき前記(16)式は。
D’ (iJ=D’ (i−2Q+l、 j−20+1
)+dk(i)、 k=bj’で置き換えられる。また
、一般に音韻カテゴリごとに標準パターンの時系列パタ
ーン長を可変にしてもよい。音韻カテゴリにの可変パタ
ーン長を111(k)とするとく16)式は。
)+dk(i)、 k=bj’で置き換えられる。また
、一般に音韻カテゴリごとに標準パターンの時系列パタ
ーン長を可変にしてもよい。音韻カテゴリにの可変パタ
ーン長を111(k)とするとく16)式は。
D’ (i、j)=D’ (i−Q(k)+ j−Q(
k))+dk(i) + k=bj’と変形できる。
k))+dk(i) + k=bj’と変形できる。
標準パターンのうち、音韻標準パターンに対応している
Ωフレームを最小lフレームまで短縮することにより、
メモリ量と計算量を減少させることもできる。このとき
(16)式は、 D’ (i、j)=D’ (i−Q、 j −1)+d
k(i)、 k=bj’と変形できる。同様に標準パタ
ーン中のヌル標準パターンを1/2または1/3に圧縮
することもできる。このどき(15)式は、各々、と変
形できる。
Ωフレームを最小lフレームまで短縮することにより、
メモリ量と計算量を減少させることもできる。このとき
(16)式は、 D’ (i、j)=D’ (i−Q、 j −1)+d
k(i)、 k=bj’と変形できる。同様に標準パタ
ーン中のヌル標準パターンを1/2または1/3に圧縮
することもできる。このどき(15)式は、各々、と変
形できる。
また、5母音a、i、u、e、oと無声化母音i、uな
どのようにコンテキストにより音韻カテゴリを細分類し
てもよい。このときの音韻カテゴリ数には約30前後と
なる。
どのようにコンテキストにより音韻カテゴリを細分類し
てもよい。このときの音韻カテゴリ数には約30前後と
なる。
音韻別のカテゴリの代わりにCV(子音−母音)音節カ
テゴリ別にすると精度を向上させることができる。しか
し、音韻カテゴリ数Kが120程度になり計算量やメモ
リ量が増加するので、CVの後続母音ごとに、例えば/
a、o、u/と/i。
テゴリ別にすると精度を向上させることができる。しか
し、音韻カテゴリ数Kが120程度になり計算量やメモ
リ量が増加するので、CVの後続母音ごとに、例えば/
a、o、u/と/i。
e/と2グループに分けると音韻カテゴリ数には約50
に減少させることができる。
に減少させることができる。
前述の実施例で、各音韻(または音節)クラス別に、全
コードマトリックスとの時系列フレーム間距離(例えば
、不特定話者向きにはマハラノビスの距離など)を予め
計算しておき、テーブル(音韻クラス別距離テーブルと
呼ぶ)に格納しておけば、入力フレーム時系列に対して
マトリックス量子化すれば、各音韻標準パターンと入力
フレーム時系列との距離dk(i)は前記テーブルを引
用することにより直ちに求めることができ、処理の高速
化およびメモリ量の減少化を図ることもできる。
コードマトリックスとの時系列フレーム間距離(例えば
、不特定話者向きにはマハラノビスの距離など)を予め
計算しておき、テーブル(音韻クラス別距離テーブルと
呼ぶ)に格納しておけば、入力フレーム時系列に対して
マトリックス量子化すれば、各音韻標準パターンと入力
フレーム時系列との距離dk(i)は前記テーブルを引
用することにより直ちに求めることができ、処理の高速
化およびメモリ量の減少化を図ることもできる。
第5図は、入力フレーム時系列をマトリックス量子化し
たときの音韻クラスにの距離テーブルの構成を表わし1
図中、1,2.・・・、C1・・・、Cの番号は、入力
フレーム時系列のコードマトリックス番号で1例えば、
入力フレーム時系列ai−3゜aj 2 Hai −
1,aiをマトリックス量子化したときのコードマトリ
ックス番号1cとし、前記入力フレーム時系列と音韻ク
ラスにとの距離dk1(1)が予め計算されメモリに記
憶されている。
たときの音韻クラスにの距離テーブルの構成を表わし1
図中、1,2.・・・、C1・・・、Cの番号は、入力
フレーム時系列のコードマトリックス番号で1例えば、
入力フレーム時系列ai−3゜aj 2 Hai −
1,aiをマトリックス量子化したときのコードマトリ
ックス番号1cとし、前記入力フレーム時系列と音韻ク
ラスにとの距離dk1(1)が予め計算されメモリに記
憶されている。
第6図は、入力フレーム時系列をマトリックス量子化し
たときのゼネラルフローチャートであり、第3図と同じ
く入力フレームに同期したアルゴリズムになっている。
たときのゼネラルフローチャートであり、第3図と同じ
く入力フレームに同期したアルゴリズムになっている。
図中、21〜36は第9図と同一のブロックを表わし、
37は入力フレーム時系列の71〜リックス量子化部、
38は入力フレーム時系列のコードマトリックス番号生
成部、39は第5図に示した音韻クラス別距離テーブル
である。音声入力部21で入力音声を取り込んだ後。
37は入力フレーム時系列の71〜リックス量子化部、
38は入力フレーム時系列のコードマトリックス番号生
成部、39は第5図に示した音韻クラス別距離テーブル
である。音声入力部21で入力音声を取り込んだ後。
22で周波数分析を行ない、入力フレーム時系列が入力
されるごとに31から36の間のループを回す。まず、
マトリックス量子化部37で入力フレーム時系列のマト
リックス量子化を音韻標準パターン24との距離を計算
して行ない、マトリックス番号生成部38でコードマト
リックス番号の系列を得る1次に32から34の間のル
ープで辞書単1iH=l、2.・・・、Nについて、予
め、計算してテーブル化しておいた音韻クラス別の距離
テーブル39を、辞書単語26の音韻クラス系列ごとに
引用しながらDPマツチングを25で行なう。
されるごとに31から36の間のループを回す。まず、
マトリックス量子化部37で入力フレーム時系列のマト
リックス量子化を音韻標準パターン24との距離を計算
して行ない、マトリックス番号生成部38でコードマト
リックス番号の系列を得る1次に32から34の間のル
ープで辞書単1iH=l、2.・・・、Nについて、予
め、計算してテーブル化しておいた音韻クラス別の距離
テーブル39を、辞書単語26の音韻クラス系列ごとに
引用しながらDPマツチングを25で行なう。
入力の継続フレームIまで前記DPマツチングを行なっ
た後に、入力音声との単語間距離が最小となる辞書単語
を単語同定部27で決定し、L3識結果として28で出
力する。
た後に、入力音声との単語間距離が最小となる辞書単語
を単語同定部27で決定し、L3識結果として28で出
力する。
肱−一見
以上の説明から明らかなように、本発明によれば、前記
dk(i)の計算回数はIXK回であり、1回当りの計
算量はマハラノビス距離の場合、PQ(PQ+1)の乗
・加算数であり(但し、Pは特徴パラメータ次元数)−
D’ (tyj)の計算回数はIXNXJであるが、1
回の計算量はマトリックス量子化しない場合でも(標準
パターンにヌルパターンを含み、且つ音韻標準パターン
の部分では非伸縮のシフトマツチングを行うため)通常
のDPマツチングに比べて少ないので高速に認識処理を
行なうことができる。また、多数話者の音韻(あるいは
音節)データで統計処理を施した音韻(音節)標準パタ
ーンとヌル標準パターンの連結で単語の標準パターンを
構成し入力パターンと単語単位でDPマツチングを行な
うので、入力音声のセグメンテーシ五ンを必要とせず、
トップ・ダウン的に処理を行なうので正確な認識が可能
となる。
dk(i)の計算回数はIXK回であり、1回当りの計
算量はマハラノビス距離の場合、PQ(PQ+1)の乗
・加算数であり(但し、Pは特徴パラメータ次元数)−
D’ (tyj)の計算回数はIXNXJであるが、1
回の計算量はマトリックス量子化しない場合でも(標準
パターンにヌルパターンを含み、且つ音韻標準パターン
の部分では非伸縮のシフトマツチングを行うため)通常
のDPマツチングに比べて少ないので高速に認識処理を
行なうことができる。また、多数話者の音韻(あるいは
音節)データで統計処理を施した音韻(音節)標準パタ
ーンとヌル標準パターンの連結で単語の標準パターンを
構成し入力パターンと単語単位でDPマツチングを行な
うので、入力音声のセグメンテーシ五ンを必要とせず、
トップ・ダウン的に処理を行なうので正確な認識が可能
となる。
第1図は1本発明の一実施例を説明するための構成図、
第2図は、本発明の動作説明図、第3図は、本発明の動
作説明をするためのフローチャート、第4図は、本発明
において使用するDPパスの例を示す図、第5図は、音
韻クラスの距離テーブル構成例を示す図、第6図は、入
力フレーム時系列をマトリックス量子化した時のフロー
チャート、第7図は、音声認識装置の基本構成図、第8
図は、音声分析の一例を示す図、第9図は、時間正規化
のための写像モデル、第10図は、歪関数による時間正
規化図、第11図は1時間正規化を行うための格子状平
面図、第12図は、DPマツチング処理を行うプロセッ
サのブロック線図である。 21・・・音声入力部、22・・・周波数分析部、23
・・・音韻カテゴリとの距離計算部、24・・・音韻標
貨パターン蓄積部、25・・・DPマツチング部、26
・・・単語標準パターン蓄積部、27・・・単語同定部
、28・・・y!3識結果出力部、31.32・・カラ
〉り初期化部、33・・・カウンタ、34・・・辞書単
語数判定部、35・・カウンタ、36・・・入力フレー
ム数判定部。 第 1 図 I 第2図 入力パターン 第3図 第4図 第5図 (1−1,JJ 、4161 第 7 図 第8図 第9図 第 10 図 s Q−N 。
第2図は、本発明の動作説明図、第3図は、本発明の動
作説明をするためのフローチャート、第4図は、本発明
において使用するDPパスの例を示す図、第5図は、音
韻クラスの距離テーブル構成例を示す図、第6図は、入
力フレーム時系列をマトリックス量子化した時のフロー
チャート、第7図は、音声認識装置の基本構成図、第8
図は、音声分析の一例を示す図、第9図は、時間正規化
のための写像モデル、第10図は、歪関数による時間正
規化図、第11図は1時間正規化を行うための格子状平
面図、第12図は、DPマツチング処理を行うプロセッ
サのブロック線図である。 21・・・音声入力部、22・・・周波数分析部、23
・・・音韻カテゴリとの距離計算部、24・・・音韻標
貨パターン蓄積部、25・・・DPマツチング部、26
・・・単語標準パターン蓄積部、27・・・単語同定部
、28・・・y!3識結果出力部、31.32・・カラ
〉り初期化部、33・・・カウンタ、34・・・辞書単
語数判定部、35・・カウンタ、36・・・入力フレー
ム数判定部。 第 1 図 I 第2図 入力パターン 第3図 第4図 第5図 (1−1,JJ 、4161 第 7 図 第8図 第9図 第 10 図 s Q−N 。
Claims (1)
- 単語音声を認識する音声認識装置に於て、単語標準パタ
ーンを音韻標準パターンとヌル標準パターンとの連結で
構成し、入力パターン並びに標準パターンの重み付きD
Pマッチングに基づいて単語音声を認識することを特徴
とする音声認識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59193077A JPS6170595A (ja) | 1984-09-14 | 1984-09-14 | 音声認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59193077A JPS6170595A (ja) | 1984-09-14 | 1984-09-14 | 音声認識方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS6170595A true JPS6170595A (ja) | 1986-04-11 |
Family
ID=16301826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59193077A Pending JPS6170595A (ja) | 1984-09-14 | 1984-09-14 | 音声認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6170595A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011022621A (ja) * | 2006-10-20 | 2011-02-03 | Toshiba Tec Corp | パターンマッチング装置及び方法 |
-
1984
- 1984-09-14 JP JP59193077A patent/JPS6170595A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011022621A (ja) * | 2006-10-20 | 2011-02-03 | Toshiba Tec Corp | パターンマッチング装置及び方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5018201A (en) | Speech recognition dividing words into two portions for preliminary selection | |
JPH0422276B2 (ja) | ||
JPS5972496A (ja) | 単音識別装置 | |
Kohler et al. | Language identification using shifted delta cepstra | |
US5721807A (en) | Method and neural network for speech recognition using a correlogram as input | |
JPH09319392A (ja) | 音声認識装置 | |
Sukkar | Rejection for connected digit recognition based on GPD segmental discrimination | |
JP2003535376A (ja) | 分類システムの反復訓練用の方法と装置 | |
JPS6170595A (ja) | 音声認識方式 | |
KR19990015122A (ko) | 음성 인식 방법 | |
JP2983364B2 (ja) | 隠れマルコフモデルと音声信号との類似度計算方法 | |
JP3315565B2 (ja) | 音声認識装置 | |
JPH04271397A (ja) | 音声認識装置 | |
CN115798462A (zh) | 语音识别方法及其装置、电子设备、芯片 | |
Huda et al. | Articulatory feature extraction for speech recognition using neural network | |
JPS59143200A (ja) | 連続音声認識装置 | |
JPH0323920B2 (ja) | ||
Pol et al. | USE OF MEL FREQUENCY CEPSTRAL COEFFICIENTS FOR THE IMPLEMENTATION OF A SPEAKER RECOGNITION SYSTEM | |
JP2602271B2 (ja) | 連続音声中の子音識別方式 | |
JPH0449719B2 (ja) | ||
JPS60147797A (ja) | 音声認識装置 | |
JP2000242292A (ja) | 音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体 | |
JPH0632006B2 (ja) | 音声認識装置 | |
JPH0464076B2 (ja) | ||
Nurul et al. | Distinctive phonetic feature (DPF) based phone segmentation using 2-stage multilayer neural networks |