JPS62217295A - 音声認識方式 - Google Patents
音声認識方式Info
- Publication number
- JPS62217295A JPS62217295A JP61059505A JP5950586A JPS62217295A JP S62217295 A JPS62217295 A JP S62217295A JP 61059505 A JP61059505 A JP 61059505A JP 5950586 A JP5950586 A JP 5950586A JP S62217295 A JPS62217295 A JP S62217295A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- section
- boundary
- candidate
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- PERSSGOZVHZNBC-ZPUQHVIOSA-N (2e,4e)-6-(4-chlorophenyl)sulfanyl-n-hydroxyhexa-2,4-dienamide Chemical compound ONC(=O)\C=C\C=C\CSC1=CC=C(Cl)C=C1 PERSSGOZVHZNBC-ZPUQHVIOSA-N 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の技術分野〕
この発明は、音声認識方式に関する。
音声認識の一般的な構成を第6図に示す。音声信号は帯
域通過フィルタ (BPF)分析、あるいは線形予測(
LPC)分析などによ抄音響分析部(1)で分析された
後、前処理部(2)で音声区間検出あるいは、振幅の正
規化などの処理が施される。次に、音声認識では、との
入カバターンとあらかじめ登鎌されている標準パターン
(セラ) ) (4)との類似度(もしくは距離)を計
算する方法「パターン・マツチング法」が採られ(パタ
ーン整合部3)、この結果の大小を判定部(5)で比較
した後、認識結果が出力される。
域通過フィルタ (BPF)分析、あるいは線形予測(
LPC)分析などによ抄音響分析部(1)で分析された
後、前処理部(2)で音声区間検出あるいは、振幅の正
規化などの処理が施される。次に、音声認識では、との
入カバターンとあらかじめ登鎌されている標準パターン
(セラ) ) (4)との類似度(もしくは距離)を計
算する方法「パターン・マツチング法」が採られ(パタ
ーン整合部3)、この結果の大小を判定部(5)で比較
した後、認識結果が出力される。
このような音声認識のための処理の中で、「境界の検出
」は、音声が時間と共に変動する信号であり、かつ多く
の背景雑音を伴なうことを考えると、重要な技術要素と
言える。このため、従来の音声認識装置の中におい−C
も、この境界噴出の精度向上には多大の努力が払われて
きた。しかし、音声には発声者自身の出す種々の雑音(
舌打ち・息づき・喉鳴り等)や周朋の雑音さらに電話音
声では回線雑音等も重畳している。このため、音声の始
端/終端を一意に決める方法を用いる限ゆ、このような
誤りは除くことができない。第7図は、事務所内で女性
が発声したr s (/hatf i/) 」の電話音
声をLPC分析した例である。
」は、音声が時間と共に変動する信号であり、かつ多く
の背景雑音を伴なうことを考えると、重要な技術要素と
言える。このため、従来の音声認識装置の中におい−C
も、この境界噴出の精度向上には多大の努力が払われて
きた。しかし、音声には発声者自身の出す種々の雑音(
舌打ち・息づき・喉鳴り等)や周朋の雑音さらに電話音
声では回線雑音等も重畳している。このため、音声の始
端/終端を一意に決める方法を用いる限ゆ、このような
誤りは除くことができない。第7図は、事務所内で女性
が発声したr s (/hatf i/) 」の電話音
声をLPC分析した例である。
図では右側に音声パワーの対数値(AopG)をプロッ
トしている。従来技術では、背景に他の事務員達の会話
が重畳しているため、本来の「8」の終端B2’“82
′フレーム(フレーム番号は図の左側に示す数字)では
なく、″″110″7110″7レーム終端と誤って、
検出してしまう。
トしている。従来技術では、背景に他の事務員達の会話
が重畳しているため、本来の「8」の終端B2’“82
′フレーム(フレーム番号は図の左側に示す数字)では
なく、″″110″7110″7レーム終端と誤って、
検出してしまう。
また、始端/終端を一意に決める方法は他の問題点も有
している。例えば、不特定多数の話者を認識の対象とす
る電話音声認識装置などでは、あらかじめ多数の人の音
声から標準音声辞書を設計することができる。しかるに
、境界を一意に決める場合、例えば「5/?δ/〕の2
のような音声の始点に近い子音の部分は、正確にその先
頭(?の前)で始端検出されると限らないため、標準音
声辞書では、子音の先端/子音の途中/母音への渡り部
分・・・・・・といった種々の変形を含ませないと認識
性能を向上させることができなかった。また、種々の変
形を辞書に含ませざるを得ない結果、認識語素数を増す
と(類似音節列の語が出現してくるため)性能が劣化し
九り、/10/と/δ/の区別がつかない等全般に類似
度値が大きくなり接近する結果、リジェクト能力も低下
するという問題があった。
している。例えば、不特定多数の話者を認識の対象とす
る電話音声認識装置などでは、あらかじめ多数の人の音
声から標準音声辞書を設計することができる。しかるに
、境界を一意に決める場合、例えば「5/?δ/〕の2
のような音声の始点に近い子音の部分は、正確にその先
頭(?の前)で始端検出されると限らないため、標準音
声辞書では、子音の先端/子音の途中/母音への渡り部
分・・・・・・といった種々の変形を含ませないと認識
性能を向上させることができなかった。また、種々の変
形を辞書に含ませざるを得ない結果、認識語素数を増す
と(類似音節列の語が出現してくるため)性能が劣化し
九り、/10/と/δ/の区別がつかない等全般に類似
度値が大きくなり接近する結果、リジェクト能力も低下
するという問題があった。
この発明は、上述した従来方式の欠点を改良したもので
、背景雑音に強く、かつ正確な音声認識方式を提供する
ことを目的とする。
、背景雑音に強く、かつ正確な音声認識方式を提供する
ことを目的とする。
本発明は、音声信号を分析処理し・C特徴パラメータに
変換し、この特徴パラメータから音声の始端および終端
等の境界候補を探索し、得られた境界候補から音声(存
在)区間を尤度もしくは順番を附してパターン整合部へ
転送し、パターン整合部では、候補を含む音声区間に対
して、各々標準パターン・セットとの類似度(距離)値
を計算にはカテゴリ番号でSLは尤度の1番目に大きい
区間に対する類似度(距離)値を表わす)から識別判定
するようにしたものである。
変換し、この特徴パラメータから音声の始端および終端
等の境界候補を探索し、得られた境界候補から音声(存
在)区間を尤度もしくは順番を附してパターン整合部へ
転送し、パターン整合部では、候補を含む音声区間に対
して、各々標準パターン・セットとの類似度(距離)値
を計算にはカテゴリ番号でSLは尤度の1番目に大きい
区間に対する類似度(距離)値を表わす)から識別判定
するようにしたものである。
かくして本発明によれば、第2図に示した如き雑音の重
畳した音声に対しても、正確な音声境界位置を抽出でき
、また、音声候補区間に尤度を付したことで、その上位
候補のみに対して類似度(距り)計算を行なうことで、
高速・高精度の音声認識方式を提供することができる。
畳した音声に対しても、正確な音声境界位置を抽出でき
、また、音声候補区間に尤度を付したことで、その上位
候補のみに対して類似度(距り)計算を行なうことで、
高速・高精度の音声認識方式を提供することができる。
以下、図面を参照して本発明の一実施例方式につき説明
する。
する。
第1図は、不特定話者用音声認識装置の概略構成図であ
る。
る。
認識に供される入力音声信号は、音響分析部1において
LPC分析が行なわれる。第2図にこの処理を示す。入
力音声信号X (t)は、人/D変換部11を介してデ
ィジタル信号(Xnlに変換されて取込まれる。
LPC分析が行なわれる。第2図にこの処理を示す。入
力音声信号X (t)は、人/D変換部11を介してデ
ィジタル信号(Xnlに変換されて取込まれる。
高域強請部12は上記ディジタル信号(Xn)に対して
、 xn= xn−βxn−1(1) なる高域強調処理を行うものである。冑、係数βは、例
えば(0,9〜1.0)程度の値として選ばれる。
、 xn= xn−βxn−1(1) なる高域強調処理を行うものである。冑、係数βは、例
えば(0,9〜1.0)程度の値として選ばれる。
またパワー計算部13は上記ディジタル信号(Xn)の
音声パワーを計算しており、そのパワーの変化から後段
の処理で入力音声の境界候補を検出している。
音声パワーを計算しており、そのパワーの変化から後段
の処理で入力音声の境界候補を検出している。
しかして前記高域強調されたディジタル音声信号の系列
は窓関数処理部14に転送され、所定の窓fli数Wn
処理が施される。この窓関数Wnは、例えばハミング窓
とし、その窓の長さをNとして次のように与えられる。
は窓関数処理部14に転送され、所定の窓fli数Wn
処理が施される。この窓関数Wnは、例えばハミング窓
とし、その窓の長さをNとして次のように与えられる。
Wn= 0.54−0.46 CO8(2πn/N)
(2)但し、ここに示したハミング窓に代えて、ハ
ミング窓やその他の窓関数を用いることも勿論可能であ
る。
(2)但し、ここに示したハミング窓に代えて、ハ
ミング窓やその他の窓関数を用いることも勿論可能であ
る。
しかる後、自己相関計算部15では、上記窓の中に含ま
れる信号について次の13)、 (4)式からRi =
ダi/gfo (4)各々
自己相関係数<gi)と正規化自己相関係数(几1)を
計算し°〔いる。
れる信号について次の13)、 (4)式からRi =
ダi/gfo (4)各々
自己相関係数<gi)と正規化自己相関係数(几1)を
計算し°〔いる。
またLPC分析部16は上記正規化自己相互関数(朗)
から次の(5)式に示す順化式に従り′c1まずその
線形予測係数(αi)を求める。係数(αi)を求める
手法については幾・りか提唱されCいるが、例えば“D
urbin″の繰返し算法によれば、次のように■〜■
の処理を繰返すことにょっ゛C係数(αi)を順次i=
0〜P個まで求めることができる。
から次の(5)式に示す順化式に従り′c1まずその
線形予測係数(αi)を求める。係数(αi)を求める
手法については幾・りか提唱されCいるが、例えば“D
urbin″の繰返し算法によれば、次のように■〜■
の処理を繰返すことにょっ゛C係数(αi)を順次i=
0〜P個まで求めることができる。
次に、LPG分析部16では線形予測係数(α1からL
PGメルクプストラム係数(CMi]を計算する。この
計算は次のようにして行なう。
PGメルクプストラム係数(CMi]を計算する。この
計算は次のようにして行なう。
■ (αi)からパワースペクトル(ps 1 )を求
める。このとき周波数軸をメル尺度(聴覚に対応した尺
度)に変換する。
める。このとき周波数軸をメル尺度(聴覚に対応した尺
度)に変換する。
第7図の音声分析例は、「8(/hatfi/)」と発
声した際のこの(PSt)をai淡図形(ツナグラム)
で示したものである。
声した際のこの(PSt)をai淡図形(ツナグラム)
で示したものである。
■ (Pi)かもLPCメルヶプストラム(CMt)を
求める0 、 t =O,L 2p・・・・・・M*但し、PK
の侵)+1〜(N−1)の各位は、0〜慢)−1までの
各位を折返したもの。
求める0 、 t =O,L 2p・・・・・・M*但し、PK
の侵)+1〜(N−1)の各位は、0〜慢)−1までの
各位を折返したもの。
*Mの値は4〜16
以上述べた如く、第1図の音響処理部1では、音声のパ
ワー列(P、)およびLPCメルケプストラム系列(C
M i 1 )が出力される0次に、前処理部(単語境
界候補探索部)2について、第3図以下を参照して説明
する。境界の探索は大きく■第一段境界探索部21@ノ
イズ・レベル計算部22θ第二段境界候補探索部23の
三つから構成されている。
ワー列(P、)およびLPCメルケプストラム系列(C
M i 1 )が出力される0次に、前処理部(単語境
界候補探索部)2について、第3図以下を参照して説明
する。境界の探索は大きく■第一段境界探索部21@ノ
イズ・レベル計算部22θ第二段境界候補探索部23の
三つから構成されている。
■第一段境界探索部21:この動作を第4図を参照して
説明する。
説明する。
音声の始端は、一定の閾値PToを越え(Fo点)、か
つそのま\一定の時間以上継続して越えたときの20点
とし°C抽出される。また終端は、同様にPro以下と
なった時刻(Bo)で、その後、閾値を一定フレーム以
上越えないときの80点として抽出される。閾値PTo
は、通常、固定値よりは、無音区間におけるノイズレベ
ルの測定値の2〜5倍の値として決めることが好ましい
。
つそのま\一定の時間以上継続して越えたときの20点
とし°C抽出される。また終端は、同様にPro以下と
なった時刻(Bo)で、その後、閾値を一定フレーム以
上越えないときの80点として抽出される。閾値PTo
は、通常、固定値よりは、無音区間におけるノイズレベ
ルの測定値の2〜5倍の値として決めることが好ましい
。
また、この一連の処理は、時間方向に(P>)を1回走
査しながら行なわれるが、途中、パワーの最大値Pxa
axとその位置F、が抽出される。
査しながら行なわれるが、途中、パワーの最大値Pxa
axとその位置F、が抽出される。
@ノイズレベル計算部32:ここでは、■で求められた
始端/終端の一次候補(Fo、 Bo)の前後の複数フ
レーム区間例えば(F−9〜Fo−1)。
始端/終端の一次候補(Fo、 Bo)の前後の複数フ
レーム区間例えば(F−9〜Fo−1)。
(Bo+1〜80+9)で平均的なノイズレベルを計算
し、この値を各々NF+ NBとする。
し、この値を各々NF+ NBとする。
θ第二段境界候補探査部33:二次の探索は、パワーが
最大値Pmaxをとる位置F8を起点として(4□+
NF + NB )から決定される2つの閾値を用いて
前後に境界候補を求める。
最大値Pmaxをとる位置F8を起点として(4□+
NF + NB )から決定される2つの閾値を用いて
前後に境界候補を求める。
第5図を参照して、始端候補を探索した際の動作を説明
する。
する。
まず、閾値PTXおよびPvを次のように決定する。P
Txは、NFが小さいときあらかじめ決められ九一定の
レベル(100〜500)が与えられる。またN、が大
きいときは、PTX=NF×2〜3と与えるOPvは、
確実な音声区間とし゛C認定するための閾値で、Pv=
ai* (F’v0. P、、、−’D)と与えられる
。但し、Pvoは5000〜10000. D =5〜
20である。
Txは、NFが小さいときあらかじめ決められ九一定の
レベル(100〜500)が与えられる。またN、が大
きいときは、PTX=NF×2〜3と与えるOPvは、
確実な音声区間とし゛C認定するための閾値で、Pv=
ai* (F’v0. P、、、−’D)と与えられる
。但し、Pvoは5000〜10000. D =5〜
20である。
Pmaxを与える点Fxを出発して、フレーム番号が小
さくなる方向に探索を行ない最初にPTx以下となる点
rかまず境界候補とされる。
さくなる方向に探索を行ない最初にPTx以下となる点
rかまず境界候補とされる。
しかし、この点F′は、その後、十分音声区間と1は定
される区間Fv (この区間はPvを越えた区間で、こ
のフレーム数が一定の値(8〜12)以上のとき音声区
間と認定する)があるため、棄却される。次にPTx以
下となる点F1が境界候補とされる。さらに先へ進み、
パワーは、P・F8を−HFcフレームだけ越えた後、
再びF2点で1壇以下となり、引き続き一定フレーム(
20〜25)その状態が継続した時点で探索を終える。
される区間Fv (この区間はPvを越えた区間で、こ
のフレーム数が一定の値(8〜12)以上のとき音声区
間と認定する)があるため、棄却される。次にPTx以
下となる点F1が境界候補とされる。さらに先へ進み、
パワーは、P・F8を−HFcフレームだけ越えた後、
再びF2点で1壇以下となり、引き続き一定フレーム(
20〜25)その状態が継続した時点で探索を終える。
FlとF2の尤度は l?Icフレームの区間長とこの
区間のレベルから決定される。
区間のレベルから決定される。
ここではこのレベルが平均的ノイズレベルに応じて定ま
る閾値PTV=2XPTxを4〜8フレーム以上越えた
場合に尤度=1を与え、これ以下で2〜3フレ一ム以上
のとき尤度=h。
る閾値PTV=2XPTxを4〜8フレーム以上越えた
場合に尤度=1を与え、これ以下で2〜3フレ一ム以上
のとき尤度=h。
これ以下のフレーム数で尤度=Oとした。また最初に探
索された境界候補点は常に尤度=弓とする。尤度Oのと
きは、その区間は、無視され、処理を続行される。
索された境界候補点は常に尤度=弓とする。尤度Oのと
きは、その区間は、無視され、処理を続行される。
同様の処理は、後方の境界候補探索にも適用され、1又
は複数個の境界値が抽出される。
は複数個の境界値が抽出される。
第7図の例では、B1で尤度=帰、B2で尤度=−とな
る。
る。
順位計算部24では、これらの値から単語区間を検証し
、尤度順にこの値をパターン整合部3へ送る。例えば、
終端候補として81(し) = Bl (”/l) 、
(に)内は尤度)、また始端候補としてFx(J)が探
索された場合、区間(Fl。
、尤度順にこの値をパターン整合部3へ送る。例えば、
終端候補として81(し) = Bl (”/l) 、
(に)内は尤度)、また始端候補としてFx(J)が探
索された場合、区間(Fl。
’−+L=o、rsの二つの区間が抽出されるが、これ
らの区間は、一定のフレーム数(8〜15)以上のもの
のみが音声区間と検定され、(Fl。
らの区間は、一定のフレーム数(8〜15)以上のもの
のみが音声区間と検定され、(Fl。
Bl)、(Fl、B2)の順に一定の順位までの候補区
間が転送される。また、尤度(の和)が等しい場合は、
始端の尤度が犬な方を優先する。
間が転送される。また、尤度(の和)が等しい場合は、
始端の尤度が犬な方を優先する。
パターン整合部3では、まずLPGメルケプストラム系
列(CMidに対するリサンプル処理が行々われる。具
体的には、 (Cyi7 )の時系列から(Fl、B
t)に対応する区間を等分割(ここでは15等分)して
、16点を抽出する<(CxLハ・i −1,16,/
= 1.16 >。例えば第7図の0点とする。次に同
様にして(Fl、B2)に対応する特徴パラメータを抽
出する((Cハハ、i=u、ts。
列(CMidに対するリサンプル処理が行々われる。具
体的には、 (Cyi7 )の時系列から(Fl、B
t)に対応する区間を等分割(ここでは15等分)して
、16点を抽出する<(CxLハ・i −1,16,/
= 1.16 >。例えば第7図の0点とする。次に同
様にして(Fl、B2)に対応する特徴パラメータを抽
出する((Cハハ、i=u、ts。
)=1.16)。例えば第7図の0点とする。以下、転
送された候補区間に対応する特徴パラメータが同様に処
理される。
送された候補区間に対応する特徴パラメータが同様に処
理される。
次に、(Cxj71と予め登録された各カテゴリの標準
パターン・セットとの複合類似度が次式で計算され、そ
の値(SF’)が判定部5へ送られる。
パターン・セットとの複合類似度が次式で計算され、そ
の値(SF’)が判定部5へ送られる。
ここで、C!= (C五り)、 i=l、15..4=
1.15w、、 ==λヨ/λe λ。、〆1は各々カテゴリにの共分散行列をKL展開し
て求めた固有値、固有ベクトルで、Lはその個数、 同様にして、(Cgidが存在する場合は、複合類似度
が上式でC工→C,として計算され、結果(S:o)が
判定部5へ送られる。以下同様な処理により、B3 +
B4 H・・・が判定部5へ送られる。
1.15w、、 ==λヨ/λe λ。、〆1は各々カテゴリにの共分散行列をKL展開し
て求めた固有値、固有ベクトルで、Lはその個数、 同様にして、(Cgidが存在する場合は、複合類似度
が上式でC工→C,として計算され、結果(S:o)が
判定部5へ送られる。以下同様な処理により、B3 +
B4 H・・・が判定部5へ送られる。
判定部5では、(81″r 82”r・・・lの類似度
値からカテゴリ毎に最大値(S )を決定した後、これ
を大金い順にノートして、必要な順位まで(例えば3位
まで)の結果を(認識結果として)出力する。
値からカテゴリ毎に最大値(S )を決定した後、これ
を大金い順にノートして、必要な順位まで(例えば3位
まで)の結果を(認識結果として)出力する。
このような一連の処理を行なうことにより℃、これまで
単語境界検出誤まりとして、誤認識されていた音声が、
正しく認識されるようになった。表1は、1oooサン
プルの音声(数字を含む電話音声)を、本発明による単
語境界候補探索によって第1位及び第2位までに入る率
を示したものである。始端・終端は各2個まで候補を許
し、最大4通りの区間が抽出されるが、85チの音声で
1通りしか区間が抽出されず、残りの殆んどで2通りの
区間が抽出され、また4通り抽出された場合でも、尤度
をつけたことで2位以内に入る例が多かりた。
単語境界検出誤まりとして、誤認識されていた音声が、
正しく認識されるようになった。表1は、1oooサン
プルの音声(数字を含む電話音声)を、本発明による単
語境界候補探索によって第1位及び第2位までに入る率
を示したものである。始端・終端は各2個まで候補を許
し、最大4通りの区間が抽出されるが、85チの音声で
1通りしか区間が抽出されず、残りの殆んどで2通りの
区間が抽出され、また4通り抽出された場合でも、尤度
をつけたことで2位以内に入る例が多かりた。
表 1
表から第2位の尤度までの候補区間を採用することで、
境界の誤判定は0.5%に減っている。
境界の誤判定は0.5%に減っている。
同じデータを、従来の単語境界を一意に決定する方法を
用い゛C単語区間を切り出した所、2.7チが誤まりで
あった。一般に、単語の終りは無声化するものが多く、
背景雑音の影響を受けやすい。そこで特に終端候補を複
数許容することにより正確な認識結果が得られる。
用い゛C単語区間を切り出した所、2.7チが誤まりで
あった。一般に、単語の終りは無声化するものが多く、
背景雑音の影響を受けやすい。そこで特に終端候補を複
数許容することにより正確な認識結果が得られる。
このように本方式によれば、背景雑音等のためにこれま
で救出不可能な単語境界誤まりによる認識エラーを大幅
に救うことができる。
で救出不可能な単語境界誤まりによる認識エラーを大幅
に救うことができる。
また、尤度(これは項番でもよい)を付したことで、2
位(所定数)以内の候補のみ類似度計算をすることで演
算の低減が可能となり高速・高性能な単語認識方式を形
成できる。
位(所定数)以内の候補のみ類似度計算をすることで演
算の低減が可能となり高速・高性能な単語認識方式を形
成できる。
閘、本発明は上述した実施例に限定されるものではない
。実施例では単語音声の認識について説明したが、音素
、音節あるいは文節9文単位の音声認識にも七れらの境
界検出誤まりの低減に適用可能なことは云うまでもない
。
。実施例では単語音声の認識について説明したが、音素
、音節あるいは文節9文単位の音声認識にも七れらの境
界検出誤まりの低減に適用可能なことは云うまでもない
。
その他、音響分析方式、境界検出方法など本発明はその
要旨を逸脱しない範囲で種々変形して実施することがで
きる。
要旨を逸脱しない範囲で種々変形して実施することがで
きる。
第1図は本発明の一実施例の全体ブロック図。
第2図は本発明の一実施例の音響分析部を示すブロック
図。 第3図は本発明の一実施例の前処理部を示すブロック図
。 第4図及び第5図は前処理部による境界検索法を説明す
るための図。 第6図は従来技術を説明するための図。 第7図は女性が発声した「8」の電話音声をLPC分析
し九例を示す図である。 1・・・音響分析部 2・・・前処理部 3・・・パターン整合部 4・・・標準パターンセット 5・・・判定部 21・・・第1段境界探索部 22・・・前方及び後方ノイズレベル計算部23・・・
第2段境界候補探索部 24・・・順位計算部 代理人 弁理士 則 近 憲 佑 同 竹 花 喜久男 第 1 図 第2図
図。 第3図は本発明の一実施例の前処理部を示すブロック図
。 第4図及び第5図は前処理部による境界検索法を説明す
るための図。 第6図は従来技術を説明するための図。 第7図は女性が発声した「8」の電話音声をLPC分析
し九例を示す図である。 1・・・音響分析部 2・・・前処理部 3・・・パターン整合部 4・・・標準パターンセット 5・・・判定部 21・・・第1段境界探索部 22・・・前方及び後方ノイズレベル計算部23・・・
第2段境界候補探索部 24・・・順位計算部 代理人 弁理士 則 近 憲 佑 同 竹 花 喜久男 第 1 図 第2図
Claims (1)
- 音声信号を分析処理して特徴パラメータに変換する手段
と、該特徴パラメータから音声の境界候補を複数探索す
ると共に、各候補に尤度もしくは順位を付し、音声区間
が複数個抽出されたとき該音声区間候補に順位を付す手
段と、得られた音声候補区間のうち一定の順位までの区
間に対して、予め作成された標準パターンとの類似度も
しくは距離値を計算する手段と、得られた複数候補区間
に対する類似度もしくは距離値から音声を識別判定する
手段を有することを特徴とする音声認識方式。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61059505A JPH06105394B2 (ja) | 1986-03-19 | 1986-03-19 | 音声認識方式 |
US07/019,781 US4881266A (en) | 1986-03-19 | 1987-02-27 | Speech recognition system |
EP87103477A EP0237934B1 (en) | 1986-03-19 | 1987-03-11 | Speech recognition system |
DE8787103477T DE3775797D1 (de) | 1986-03-19 | 1987-03-11 | Spracherkennungssystem. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61059505A JPH06105394B2 (ja) | 1986-03-19 | 1986-03-19 | 音声認識方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS62217295A true JPS62217295A (ja) | 1987-09-24 |
JPH06105394B2 JPH06105394B2 (ja) | 1994-12-21 |
Family
ID=13115188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61059505A Expired - Lifetime JPH06105394B2 (ja) | 1986-03-19 | 1986-03-19 | 音声認識方式 |
Country Status (4)
Country | Link |
---|---|
US (1) | US4881266A (ja) |
EP (1) | EP0237934B1 (ja) |
JP (1) | JPH06105394B2 (ja) |
DE (1) | DE3775797D1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09179585A (ja) * | 1995-12-20 | 1997-07-11 | At & T Corp | 音声認識をする方法とシステム |
JP2003524794A (ja) * | 1999-02-08 | 2003-08-19 | クゥアルコム・インコーポレイテッド | 雑音のある信号におけるスピーチのエンドポイント決定 |
JP2007057844A (ja) * | 2005-08-24 | 2007-03-08 | Fujitsu Ltd | 音声認識システムおよび音声処理システム |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8613327D0 (en) * | 1986-06-02 | 1986-07-09 | British Telecomm | Speech processor |
US4803730A (en) * | 1986-10-31 | 1989-02-07 | American Telephone And Telegraph Company, At&T Bell Laboratories | Fast significant sample detection for a pitch detector |
JPH0296800A (ja) * | 1988-10-03 | 1990-04-09 | Nec Corp | 連続音声認識装置 |
GB8908205D0 (en) * | 1989-04-12 | 1989-05-24 | Smiths Industries Plc | Speech recognition apparatus and methods |
JP3004023B2 (ja) * | 1989-11-28 | 2000-01-31 | 株式会社東芝 | 音声認識装置 |
JP3045510B2 (ja) * | 1989-12-06 | 2000-05-29 | 富士通株式会社 | 音声認識処理装置 |
CA2042926C (en) * | 1990-05-22 | 1997-02-25 | Ryuhei Fujiwara | Speech recognition method with noise reduction and a system therefor |
JPH04182700A (ja) * | 1990-11-19 | 1992-06-30 | Nec Corp | 音声認識装置 |
JP2924555B2 (ja) * | 1992-10-02 | 1999-07-26 | 三菱電機株式会社 | 音声認識の境界推定方法及び音声認識装置 |
DK46493D0 (da) * | 1993-04-22 | 1993-04-22 | Frank Uldall Leonhard | Metode for signalbehandling til bestemmelse af transientforhold i auditive signaler |
US5465317A (en) * | 1993-05-18 | 1995-11-07 | International Business Machines Corporation | Speech recognition system with improved rejection of words and sounds not in the system vocabulary |
JPH07225593A (ja) * | 1994-02-10 | 1995-08-22 | Fuji Xerox Co Ltd | 音処理装置 |
JP3533696B2 (ja) * | 1994-03-22 | 2004-05-31 | 三菱電機株式会社 | 音声認識の境界推定方法及び音声認識装置 |
JP3453456B2 (ja) * | 1995-06-19 | 2003-10-06 | キヤノン株式会社 | 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置 |
JP3535292B2 (ja) * | 1995-12-27 | 2004-06-07 | Kddi株式会社 | 音声認識システム |
FR2769118B1 (fr) * | 1997-09-29 | 1999-12-03 | Matra Communication | Procede de reconnaissance de parole |
US6389397B1 (en) * | 1998-12-23 | 2002-05-14 | Lucent Technologies, Inc. | User identification system using improved voice print identification processing |
DE60143506D1 (de) * | 2000-01-27 | 2011-01-05 | Nuance Comm Austria Gmbh | Sprachdetektiongsgerät mit zwei abschaltkriterien |
JP2002268698A (ja) * | 2001-03-08 | 2002-09-20 | Nec Corp | 音声認識装置と標準パターン作成装置及び方法並びにプログラム |
US7177810B2 (en) * | 2001-04-10 | 2007-02-13 | Sri International | Method and apparatus for performing prosody-based endpointing of a speech signal |
US20050165604A1 (en) * | 2002-06-12 | 2005-07-28 | Toshiyuki Hanazawa | Speech recognizing method and device thereof |
EP1763018B1 (en) * | 2004-07-01 | 2010-01-06 | Nippon Telegraph and Telephone Corporation | System for detection section including particular acoustic signal, method and program thereof |
US8069039B2 (en) | 2006-12-25 | 2011-11-29 | Yamaha Corporation | Sound signal processing apparatus and program |
US20090182524A1 (en) * | 2008-01-11 | 2009-07-16 | Cory James Stephanson | System and method of event detection |
US8050413B2 (en) * | 2008-01-11 | 2011-11-01 | Graffititech, Inc. | System and method for conditioning a signal received at a MEMS based acquisition device |
US20100283849A1 (en) * | 2008-01-11 | 2010-11-11 | Cory James Stephanson | System and method of environmental monitoring and event detection |
JP2014215877A (ja) * | 2013-04-26 | 2014-11-17 | 株式会社デンソー | 物体検出装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3770892A (en) * | 1972-05-26 | 1973-11-06 | Ibm | Connected word recognition system |
JPS59121100A (ja) * | 1982-12-28 | 1984-07-12 | 株式会社東芝 | 連続音声認識装置 |
US4720802A (en) * | 1983-07-26 | 1988-01-19 | Lear Siegler | Noise compensation arrangement |
-
1986
- 1986-03-19 JP JP61059505A patent/JPH06105394B2/ja not_active Expired - Lifetime
-
1987
- 1987-02-27 US US07/019,781 patent/US4881266A/en not_active Expired - Lifetime
- 1987-03-11 EP EP87103477A patent/EP0237934B1/en not_active Expired
- 1987-03-11 DE DE8787103477T patent/DE3775797D1/de not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09179585A (ja) * | 1995-12-20 | 1997-07-11 | At & T Corp | 音声認識をする方法とシステム |
JP2003524794A (ja) * | 1999-02-08 | 2003-08-19 | クゥアルコム・インコーポレイテッド | 雑音のある信号におけるスピーチのエンドポイント決定 |
JP2007057844A (ja) * | 2005-08-24 | 2007-03-08 | Fujitsu Ltd | 音声認識システムおよび音声処理システム |
Also Published As
Publication number | Publication date |
---|---|
US4881266A (en) | 1989-11-14 |
EP0237934B1 (en) | 1992-01-08 |
DE3775797D1 (de) | 1992-02-20 |
JPH06105394B2 (ja) | 1994-12-21 |
EP0237934A1 (en) | 1987-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS62217295A (ja) | 音声認識方式 | |
US6618702B1 (en) | Method of and device for phone-based speaker recognition | |
JPH0352640B2 (ja) | ||
JPH04255900A (ja) | 音声認識装置 | |
KR101122591B1 (ko) | 핵심어 인식에 의한 음성 인식 장치 및 방법 | |
JP2005148342A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
JP2996019B2 (ja) | 音声認識装置 | |
JP3444108B2 (ja) | 音声認識装置 | |
KR100391123B1 (ko) | 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템 | |
Gupta et al. | Improved utterance rejection using length dependent thresholds. | |
JP2813209B2 (ja) | 大語彙音声認識装置 | |
JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
KR20000025827A (ko) | 음성인식시스템에서의 반음소모델 구축방법및 그를 이용한 발화 검증방법 | |
JPH067346B2 (ja) | 音声認識装置 | |
JP3110025B2 (ja) | 発声変形検出装置 | |
Kim et al. | A study on the improvement of speaker recognition system by voiced detection | |
JP3291073B2 (ja) | 音声認識方式 | |
JPH0455518B2 (ja) | ||
JPH01185599A (ja) | 音声認識装置 | |
JPH06348291A (ja) | 単語音声認識方法 | |
JPS6336678B2 (ja) | ||
Nair et al. | Comparison of Isolated Digit Recognition Techniques based on Feature Extraction | |
JP2891259B2 (ja) | 音声区間検出装置 | |
JPS62111295A (ja) | 音声認識装置 | |
JPS62245295A (ja) | 特定話者音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EXPY | Cancellation because of completion of term |