JPS6250800A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS6250800A JPS6250800A JP60189653A JP18965385A JPS6250800A JP S6250800 A JPS6250800 A JP S6250800A JP 60189653 A JP60189653 A JP 60189653A JP 18965385 A JP18965385 A JP 18965385A JP S6250800 A JPS6250800 A JP S6250800A
- Authority
- JP
- Japan
- Prior art keywords
- section
- speech
- input
- detecting
- recognition device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の利用分野〕
本発明は音声分析あるいは認識装置に係シ、特に音声の
定常部区間や母音区間を自動的に検出し。
定常部区間や母音区間を自動的に検出し。
音声を音節単位などの構成単位ヘセグメンテーシヲンす
るのに好適な音声のセグメンテーション方式に関する。
るのに好適な音声のセグメンテーション方式に関する。
従来の音声を音素あるいは音節単位へセグメンテーショ
ンする方式としては、特開昭60−69694号「語頭
子音のセグメンテーション法」や音響学会音声研究会資
料885−15(1983−6) r Top−Dow
n処理による子音のセグメンテーション」に記載のよう
に音素特有の特徴を示すパラメータ(例えは有声、無声
、鼻音性)や音素特有の前後環境を示すパラメータ(例
えはパワーディプなど)を利用して行うもの、電子通信
学会論文誌55−DP186r数字音声の機械認識系」
や特開昭58−105296号「音声区間検出し方法」
に記載のように目視で前もって音素などの単位へセグメ
ンテーションした情報をもとにセグメント間の距離の累
積を最小にする最適セグメントを求めて行うもの、IE
EE ICASSP83予稿集pp 320〜323
[連続発声の日本語におけるセグメンテーションフリー
な音節認識(Segmentation −Free
5yllable Recogni−tion In
Continuovsly 5poken Japan
ese )Jに記載のように標準的な音節の特徴パタン
との連続的あるいは2段的D P (Dynamic
Programing )マツチングの結果から音節単
位へセグメンテーシ、ンするものなどが知られている。
ンする方式としては、特開昭60−69694号「語頭
子音のセグメンテーション法」や音響学会音声研究会資
料885−15(1983−6) r Top−Dow
n処理による子音のセグメンテーション」に記載のよう
に音素特有の特徴を示すパラメータ(例えは有声、無声
、鼻音性)や音素特有の前後環境を示すパラメータ(例
えはパワーディプなど)を利用して行うもの、電子通信
学会論文誌55−DP186r数字音声の機械認識系」
や特開昭58−105296号「音声区間検出し方法」
に記載のように目視で前もって音素などの単位へセグメ
ンテーションした情報をもとにセグメント間の距離の累
積を最小にする最適セグメントを求めて行うもの、IE
EE ICASSP83予稿集pp 320〜323
[連続発声の日本語におけるセグメンテーションフリー
な音節認識(Segmentation −Free
5yllable Recogni−tion In
Continuovsly 5poken Japan
ese )Jに記載のように標準的な音節の特徴パタン
との連続的あるいは2段的D P (Dynamic
Programing )マツチングの結果から音節単
位へセグメンテーシ、ンするものなどが知られている。
目視で前もってセグメンテーションする方法は確実に最
適なセグメンテーションが行えるが、自動的(あるいは
機械的)なセグメンテーシロではないこと、音素特有の
パラメータを使う方法は音素特有のパラメータを探索す
ることが必要であり。
適なセグメンテーションが行えるが、自動的(あるいは
機械的)なセグメンテーシロではないこと、音素特有の
パラメータを使う方法は音素特有のパラメータを探索す
ることが必要であり。
また判定が閾値処理となることから処理が複雑でかつ汎
用的でないこと、DPマツチングを用いる方法は音素や
音節の構造を細かにみることができないので本来の音節
区間が得られなかったり(脱落)、不要な音節区間が出
現したり(湧き出しあるいは付加)することや処理室が
多いことなどの問題があった。
用的でないこと、DPマツチングを用いる方法は音素や
音節の構造を細かにみることができないので本来の音節
区間が得られなかったり(脱落)、不要な音節区間が出
現したり(湧き出しあるいは付加)することや処理室が
多いことなどの問題があった。
本発明の目的は前記従来の問題を解決して、処理が単純
でかつ処t′!I!量も少なく、セグメンテーシ、ンの
性能も高い自動的な音声のセグメンテーション方式を提
供することにある。
でかつ処t′!I!量も少なく、セグメンテーシ、ンの
性能も高い自動的な音声のセグメンテーション方式を提
供することにある。
上記目的達成のために本発明では、入力音声自身のフレ
ーム間相関値の累積値により定常部区間、特定の音韻あ
るいは音声の区間を検出することによりセグメンテーシ
ョンを行うことに特徴がある。
ーム間相関値の累積値により定常部区間、特定の音韻あ
るいは音声の区間を検出することによりセグメンテーシ
ョンを行うことに特徴がある。
本発明の詳細な説明する前に本発明の原理を詳細に説明
する。第一図は本発明の処理のフローの一例を示したも
のである。まず入力音声の音声区間検出と音声分析が行
われる。音声区間検出は音声の短時間エネルギー(パワ
ー)などの情報を使って、前もって定められた閾値以上
となる区間を音部として検出する。音声分析は音声の特
徴パタンを抽出するもので1%徴パラメータは帯域通過
フィルタ(BPF)出力値や線形予測分析(LPC分析
)の結果得られるパラメータなどがある。次に音響区間
の中に存在する無音部の検出が前記パワーなどを用いて
行われ、無音部区間が抽出される。フレーム間相関計算
は音声分析で得られた特徴パタンのフレーム(短時間)
間の類似度を求めるもので、音声認識装置などで使われ
る距離もその一つである。フレーム間相関計算は一般に
、2つの特徴パタンの類似度を求めるもので。
する。第一図は本発明の処理のフローの一例を示したも
のである。まず入力音声の音声区間検出と音声分析が行
われる。音声区間検出は音声の短時間エネルギー(パワ
ー)などの情報を使って、前もって定められた閾値以上
となる区間を音部として検出する。音声分析は音声の特
徴パタンを抽出するもので1%徴パラメータは帯域通過
フィルタ(BPF)出力値や線形予測分析(LPC分析
)の結果得られるパラメータなどがある。次に音響区間
の中に存在する無音部の検出が前記パワーなどを用いて
行われ、無音部区間が抽出される。フレーム間相関計算
は音声分析で得られた特徴パタンのフレーム(短時間)
間の類似度を求めるもので、音声認識装置などで使われ
る距離もその一つである。フレーム間相関計算は一般に
、2つの特徴パタンの類似度を求めるもので。
1方の特徴パタンをx、(iフレーム、i=1〜I)、
他方をy、(jフレーム、j=1〜J)とすると、相関
(距離)行列d、1が得られる。本発明では、入力音声
自身のフレーム間距離と入力音声と特定の音韻(例えば
日本語5母音)のフレーム間距離を求める。次に、相関
(距離)行列をN段階に表現し直したNグレードパタン
n、が抽出される。このNグレードパタンは処理の簡略
化を計るためのもので、以下の処理で直接相関(距離)
行列を扱うとすれば省略が可能である。Nグレードパタ
ンを視覚的に色の濃さ等で表わしたものを濃淡パタンと
呼ぶことにする。本発明はこの濃淡パタンを使って、音
声の定常部区間やある特定の音韻区間を抽出するところ
に特徴がある。定常部区間検出は入力音声自身の製法パ
タンを使って行われる。原理は定常部は隣接するフレー
ム間の相関が高く(距離が小さく)、濃淡パタン嚢示で
は色の薄い所が四角形として表われてくる(第7図参照
)。一方音声の変化している遷移部は色の標い所が斜め
上がシの形で表われてくる。従って。
他方をy、(jフレーム、j=1〜J)とすると、相関
(距離)行列d、1が得られる。本発明では、入力音声
自身のフレーム間距離と入力音声と特定の音韻(例えば
日本語5母音)のフレーム間距離を求める。次に、相関
(距離)行列をN段階に表現し直したNグレードパタン
n、が抽出される。このNグレードパタンは処理の簡略
化を計るためのもので、以下の処理で直接相関(距離)
行列を扱うとすれば省略が可能である。Nグレードパタ
ンを視覚的に色の濃さ等で表わしたものを濃淡パタンと
呼ぶことにする。本発明はこの濃淡パタンを使って、音
声の定常部区間やある特定の音韻区間を抽出するところ
に特徴がある。定常部区間検出は入力音声自身の製法パ
タンを使って行われる。原理は定常部は隣接するフレー
ム間の相関が高く(距離が小さく)、濃淡パタン嚢示で
は色の薄い所が四角形として表われてくる(第7図参照
)。一方音声の変化している遷移部は色の標い所が斜め
上がシの形で表われてくる。従って。
濃淡バタン上で四角形の薄い個所を探索すれば、定常部
区間が求まることになる。同様に処理で特定の音韻(本
発明では5母音)との氏淡パタンから、母音部区間が求
まる。本発明では、この2つの結果を統合して、入力音
声の母音区間を検出することを一例として上げている。
区間が求まることになる。同様に処理で特定の音韻(本
発明では5母音)との氏淡パタンから、母音部区間が求
まる。本発明では、この2つの結果を統合して、入力音
声の母音区間を検出することを一例として上げている。
この結果、入力音声の定常部区間の中の母音区間が確実
に検出され、入力音声の音節区間がセグメンテーション
されることになる。本発明の主点は入力音声自身の相関
行列から少なくとも定常部区間を検出することにあり、
前記処理フローでの音声区間検出や無音部区間検出の有
無や処理フローの中での順序はどんな場合で本さしつか
えない。
に検出され、入力音声の音節区間がセグメンテーション
されることになる。本発明の主点は入力音声自身の相関
行列から少なくとも定常部区間を検出することにあり、
前記処理フローでの音声区間検出や無音部区間検出の有
無や処理フローの中での順序はどんな場合で本さしつか
えない。
以下1本発明の主点である定常部区間検出、母音区間検
出、統合の具体的処理に関して詳細に説明する。第2.
3図は定常部区間検出の概略処理フローと詳細なフロー
チャート、第4,5図は母音区間検出の概略フローとフ
ローチャート、第6図は統合処理のフローチャートを示
すものである。第2図(a)に示す定常部区間検出では
、入力音声自身のNグレードパタンn + +から入力
フレームiを固定した時にiから始まる定常部区間の可
能性を探索する(定常部区間候補の探索)。具体的な処
理は$2図(b)に示すようにNグレートバタンの(i
、i)点を始点とした三角形(i。
出、統合の具体的処理に関して詳細に説明する。第2.
3図は定常部区間検出の概略処理フローと詳細なフロー
チャート、第4,5図は母音区間検出の概略フローとフ
ローチャート、第6図は統合処理のフローチャートを示
すものである。第2図(a)に示す定常部区間検出では
、入力音声自身のNグレードパタンn + +から入力
フレームiを固定した時にiから始まる定常部区間の可
能性を探索する(定常部区間候補の探索)。具体的な処
理は$2図(b)に示すようにNグレートバタンの(i
、i)点を始点とした三角形(i。
i)、(i、i+j)、(i+j、i+j)の面積を計
算する。jを増加した時の三角形の面積の値と変化とか
ら定常部区間候補i % i + j・を探索する(検
出条件■あるいは■)。検出条件はNグレードバタンを
相関の高い(距離の小さい・)個所をグレードの小さい
所とし、三角形の面積はグレードの累積とした場合であ
る。次に、最終的な定常部区間を定常部区間候補の中で
長い順に選択して行く。収束条件は定常部区間候補が存
在しなくなりた場合か入力音声中の定常部個数の最大許
容値N(入力音声の時間長から定まる)を検出した場合
である。第3図は以上の処理を具体的に示したフローチ
ャートの一例である。
算する。jを増加した時の三角形の面積の値と変化とか
ら定常部区間候補i % i + j・を探索する(検
出条件■あるいは■)。検出条件はNグレードバタンを
相関の高い(距離の小さい・)個所をグレードの小さい
所とし、三角形の面積はグレードの累積とした場合であ
る。次に、最終的な定常部区間を定常部区間候補の中で
長い順に選択して行く。収束条件は定常部区間候補が存
在しなくなりた場合か入力音声中の定常部個数の最大許
容値N(入力音声の時間長から定まる)を検出した場合
である。第3図は以上の処理を具体的に示したフローチ
ャートの一例である。
次に第4図(a)に示した母音区間検出では、入力音声
と母音とのNグレードパタンn、かう入力フレームiを
固定した時にiから始まる母音区間の可能性を探索する
(母音区間候補の探索)。
と母音とのNグレードパタンn、かう入力フレームiを
固定した時にiから始まる母音区間の可能性を探索する
(母音区間候補の探索)。
本処理では第4図(b)に示すように入力フレーム1と
母音バタンフレームJ、tを始点とした四角形A(i、
J、、)、B(i、J−J、、)、c(i+Δi、J、
t)、D(i+Δi、J−J、、、) の面積の値と
変化とから母音部区間候補を探索する( J、、。
母音バタンフレームJ、tを始点とした四角形A(i、
J、、)、B(i、J−J、、)、c(i+Δi、J、
t)、D(i+Δi、J−J、、、) の面積の値と
変化とから母音部区間候補を探索する( J、、。
J@adは定数)。検出条件などは定常部区間検出の条
件などと同様である。本処理の具体的なフローチャート
の一例を第5図に示す。
件などと同様である。本処理の具体的なフローチャート
の一例を第5図に示す。
最後に、前記2つの処理で求まった定常部区間と母音部
区間候補の統合が行われ、最終的に母音区間が確実に求
められる。統合処理は2つの処理で求まった区間の共通
部分を探索する処理であり。
区間候補の統合が行われ、最終的に母音区間が確実に求
められる。統合処理は2つの処理で求まった区間の共通
部分を探索する処理であり。
具体的なフローチャートの一例を第6図に示す。
以上の処理から入力音声の定常部区間と確実な母音区間
とが求まることになる。
とが求まることになる。
次に前記処理の具体的実施例を説明する。第7図は入力
音声自身のNグレードパタン(#淡バタン)を示すもの
である(N=2)。上から順に入力音声/ akazu
ki N /の音声波形、パワー、Nグレードパタンで
あシ、横軸は時間である。Nグレードパタンかられかる
ように、定是部/a/。
音声自身のNグレードパタン(#淡バタン)を示すもの
である(N=2)。上から順に入力音声/ akazu
ki N /の音声波形、パワー、Nグレードパタンで
あシ、横軸は時間である。Nグレードパタンかられかる
ように、定是部/a/。
/&/、/u/、/i/、/N/が色の薄い四角形とし
て表われている。本発明の主点はこの色の薄い四角形を
探索することにより定常部区間を検出するところにある
。48図はこの入力音声と5母音/a/、/i/、/u
/、/e/、10/とのNグレードパタンを示すもので
ある(N=3)。
て表われている。本発明の主点はこの色の薄い四角形を
探索することにより定常部区間を検出するところにある
。48図はこの入力音声と5母音/a/、/i/、/u
/、/e/、10/とのNグレードパタンを示すもので
ある(N=3)。
この図から入力音声の母音区間候補が入力音声のどの時
間位置にあるのかがわかる。第9図は本発明の処理結果
を示す図であり、(a)は定常部区間検出結果(四角形
で表示)、(b)は統合処理結果の母音区間検出結果(
黒く塗シっぷした四角形)を示している。
間位置にあるのかがわかる。第9図は本発明の処理結果
を示す図であり、(a)は定常部区間検出結果(四角形
で表示)、(b)は統合処理結果の母音区間検出結果(
黒く塗シっぷした四角形)を示している。
以下1本発明の一実施例について詳細に説明する。第1
0図は本発明の一実施例を示したブロック図である。ア
ナログ入力音声1はLPF(低域通過フィルタ)、AD
C(アナログ−ディジタル変換器)2で、サンプリング
での折り返えし雑音を除去されながらディジタル値へ変
換される。次に、音声区間検出部3でパワーなどの情報
から入力音声の音声区間が検出され、音声分析部4で音
声の特徴パラメータが計算され、入力音声の特徴バタン
か抽出される。音声の特徴パラメータとしては、BPF
出力頃やLPG分析結果のパラメータなどがある。得ら
れた特徴バタンはフレームバタン格納メモリ9に格納さ
れる。次に、無音区間検出部5で入力音声中に存在する
無音部が検出される。無音部の検出方法としてはパワー
の値がある閾値以下となったフレームとするなどがある
。
0図は本発明の一実施例を示したブロック図である。ア
ナログ入力音声1はLPF(低域通過フィルタ)、AD
C(アナログ−ディジタル変換器)2で、サンプリング
での折り返えし雑音を除去されながらディジタル値へ変
換される。次に、音声区間検出部3でパワーなどの情報
から入力音声の音声区間が検出され、音声分析部4で音
声の特徴パラメータが計算され、入力音声の特徴バタン
か抽出される。音声の特徴パラメータとしては、BPF
出力頃やLPG分析結果のパラメータなどがある。得ら
れた特徴バタンはフレームバタン格納メモリ9に格納さ
れる。次に、無音区間検出部5で入力音声中に存在する
無音部が検出される。無音部の検出方法としてはパワー
の値がある閾値以下となったフレームとするなどがある
。
フレーム間相関計算部6ではフレームバタン格納メモリ
9から読み込まれた入力音声の特徴バタン間の類似度や
入力音声と5母音バタンメモリ10から読み込まれた5
母音の特徴バタンとの類似度が計算され、得られる相関
(距離)行列が本発明の主点であるセグメンテーション
部7へ入力される。セグメンテーション部7では、入力
音声自身の相関(距離)行列をNグレードバタンに変換
した後、入力音声の定常部区間が検出されると同時に、
入力音声と5母音との相関(距離)行列のNグレードパ
タンから母音区間候補が検出され、最終的に統合された
結果として定常部区間の中の母音区間が確実に抽出され
る。以上の処理は制御部8で制御されながら実行される
。
9から読み込まれた入力音声の特徴バタン間の類似度や
入力音声と5母音バタンメモリ10から読み込まれた5
母音の特徴バタンとの類似度が計算され、得られる相関
(距離)行列が本発明の主点であるセグメンテーション
部7へ入力される。セグメンテーション部7では、入力
音声自身の相関(距離)行列をNグレードバタンに変換
した後、入力音声の定常部区間が検出されると同時に、
入力音声と5母音との相関(距離)行列のNグレードパ
タンから母音区間候補が検出され、最終的に統合された
結果として定常部区間の中の母音区間が確実に抽出され
る。以上の処理は制御部8で制御されながら実行される
。
第11図は音声区間検出部3と無音部検出部5の一実施
例を詳細に示したものである。ディジタル値に変換され
た入力音声X、はサンプル値レジスタ31を介しながら
1乗算器32と加算器33に入力され入力音声の短時間
エネルギー(パワー)P、が求められる。パワーP、と
前もって定められた音声パワー閾値2との比較がなされ
、始終端カウンタ35でパワー閾値αとの大小関係の継
続時間長(フレーム長)が累積され、比較器36で始端
の継続時間長閾値NSや終端の継続時間長間値NEとの
比較により、入力音声の始端と終端が検出され、入力音
声区間が検出されることになる。
例を詳細に示したものである。ディジタル値に変換され
た入力音声X、はサンプル値レジスタ31を介しながら
1乗算器32と加算器33に入力され入力音声の短時間
エネルギー(パワー)P、が求められる。パワーP、と
前もって定められた音声パワー閾値2との比較がなされ
、始終端カウンタ35でパワー閾値αとの大小関係の継
続時間長(フレーム長)が累積され、比較器36で始端
の継続時間長閾値NSや終端の継続時間長間値NEとの
比較により、入力音声の始端と終端が検出され、入力音
声区間が検出されることになる。
同様に比較器51にてパワーP、と無音部パワー閾値β
との比較により、入力音声中の無音部区間が検出され、
入力フレームバタンコードレジスタ52に無音部コード
が設定される。
との比較により、入力音声中の無音部区間が検出され、
入力フレームバタンコードレジスタ52に無音部コード
が設定される。
第12図は音声分析部の一実施例を詳細に示したもので
ある。実施例では帯域通過フィルタ(BPF)分析をあ
げている。入力音声X、は中心周波数と帯域幅の違う複
数個のBPF群41と42に入力される。本実施例では
周波数分解能を上げるために2段のBPF構成としてい
る。
ある。実施例では帯域通過フィルタ(BPF)分析をあ
げている。入力音声X、は中心周波数と帯域幅の違う複
数個のBPF群41と42に入力される。本実施例では
周波数分解能を上げるために2段のBPF構成としてい
る。
BPF’41.42は2次のバターワース型フィルタと
なっており、加算器2個1乗算器4個と遅延器2個から
構成されている。BPF結果の波形は絶対値変換器(A
BS)43にて整流され、LPF44.サンプリング器
45.さらにLPF44にて高域周波数成分をカットさ
れながら出力値バタンx1が求められる。LPFはBP
F同様に周波数分解能をあげるために2段構成となって
おり、LPF44,46はBPF同様の処理規模のバタ
ーワース型となっている。尚、LPFの構成については
特願昭55−135981 rディジタル低域通過戸波
回路」に詳細に説明されている。
なっており、加算器2個1乗算器4個と遅延器2個から
構成されている。BPF結果の波形は絶対値変換器(A
BS)43にて整流され、LPF44.サンプリング器
45.さらにLPF44にて高域周波数成分をカットさ
れながら出力値バタンx1が求められる。LPFはBP
F同様に周波数分解能をあげるために2段構成となって
おり、LPF44,46はBPF同様の処理規模のバタ
ーワース型となっている。尚、LPFの構成については
特願昭55−135981 rディジタル低域通過戸波
回路」に詳細に説明されている。
本発明では音声分析部4の構成をBPF分析としたが、
LPG分析とすることも可能であち、この場合の詳細な
実施例は文献“「音声波形の線形予測分析による音声分
析と合成(5peech Analysisand 5
ynthesis by Linear Predic
tion ofthe 5peech Wave)’J
by B、 S、 Atal et al。
LPG分析とすることも可能であち、この場合の詳細な
実施例は文献“「音声波形の線形予測分析による音声分
析と合成(5peech Analysisand 5
ynthesis by Linear Predic
tion ofthe 5peech Wave)’J
by B、 S、 Atal et al。
Joumal of Acoustic 5ociet
y of AmericlVol、 50 、 p、p
、637〜655 、1971に詳i1に説明されてい
る。
y of AmericlVol、 50 、 p、p
、637〜655 、1971に詳i1に説明されてい
る。
第13図はフレーム間相関計算部の一実施例を詳細に示
すものである。本実施例では相関演算尺度として、絶対
値距離を用いた場合を示す。2つの音声の特徴バタンx
、とylとの絶対値距離d。
すものである。本実施例では相関演算尺度として、絶対
値距離を用いた場合を示す。2つの音声の特徴バタンx
、とylとの絶対値距離d。
は
d:1xI−yll:に2+11XkI−yk11とし
て求まる。ここでi、jはフレーム、KはBPFのチャ
ネル数である。従って、実施例では。
て求まる。ここでi、jはフレーム、KはBPFのチャ
ネル数である。従って、実施例では。
2つの特徴バタン!、、y、とが各々フレームバタンレ
ジスタ61.62を介しながら入力され、減算器63で
Xki−yk、の計算、絶対値変換器64で”kl
)’kl’の計算がされ、加算器65でに=1からKま
での累積が計算されることになる。
ジスタ61.62を介しながら入力され、減算器63で
Xki−yk、の計算、絶対値変換器64で”kl
)’kl’の計算がされ、加算器65でに=1からKま
での累積が計算されることになる。
結果d、は相関/距離レジスタ66に格納される。
本発明の実施例では絶対値距離としたが、LPC分析で
得られる特徴バタンの相関尺度なども考えラレる。この
場合の具体的実施例は文献「音声認識に適用した最小予
廁誤差原理(Mi n imumPrediction
Re5idual Pr1ncip1e App目e
dto 5peech Recoguition )
J by F、 Itakuraet al、 IEE
E Trans on Acoustics。
得られる特徴バタンの相関尺度なども考えラレる。この
場合の具体的実施例は文献「音声認識に適用した最小予
廁誤差原理(Mi n imumPrediction
Re5idual Pr1ncip1e App目e
dto 5peech Recoguition )
J by F、 Itakuraet al、 IEE
E Trans on Acoustics。
5peech and Signal Process
ing、 vol。
ing、 vol。
ASSP−23,p、p、 57〜72. Feb、
’75に詳細に説明されている。
’75に詳細に説明されている。
第14図は本発明の主点であるセグメンテーション部7
の一実施例を詳細に示したものである。
の一実施例を詳細に示したものである。
相関/距離レジスタ66から読み込まれた距離行列d、
がNグレードバタン抽出部71に入力される。ここでは
、比較器711で距離閾値θとの大小関係が比較され、
Nグレードパタンn がNグI レードバタンレジスタ712に一旦格納される。
がNグレードバタン抽出部71に入力される。ここでは
、比較器711で距離閾値θとの大小関係が比較され、
Nグレードパタンn がNグI レードバタンレジスタ712に一旦格納される。
次に、定常部区間検出部72ではNグレードパタン(濃
淡バタン)の三角形の面積が加算器721で累積され、
比較器722にてその値と変化の度合が判定定数α、β
と比較されて、入力フレームiを固定した場合の定常部
区間候補が求められ、レジスタ723に格納される。比
較器724では最終の定常部区間が区間長の長い順に決
定され。
淡バタン)の三角形の面積が加算器721で累積され、
比較器722にてその値と変化の度合が判定定数α、β
と比較されて、入力フレームiを固定した場合の定常部
区間候補が求められ、レジスタ723に格納される。比
較器724では最終の定常部区間が区間長の長い順に決
定され。
定常部区間検出結果が定常部区間レジスタに格納される
。一方、入力音声と5母音とのフレーム間距離行列のN
グレードバタンが同様に抽出され、母音区間検出部73
では加算器731.比較器732において母音区間が抽
出され、結果が母音区間レジスタ733に格納される。
。一方、入力音声と5母音とのフレーム間距離行列のN
グレードバタンが同様に抽出され、母音区間検出部73
では加算器731.比較器732において母音区間が抽
出され、結果が母音区間レジスタ733に格納される。
次に、定常部区間検出部72と母音区間検出部73で得
られた定常部区間情報り、と母音区間候補情報LV、と
が区間統合処理部74に入力され、比較器741でり、
とLV、との共通部分として最終の母音区間が抽出され
、結果が入力フレームバタンコードレジスタ742に格
納される。本実施例での加算器721.731.比較器
711,722,724゜732.741などは各々−
個に共通化することが可能である。セグメンテーション
部7の他の実施例は第3図、第5図、第6図のフローチ
ャートに示されるように計算機上で実行することも可能
である。
られた定常部区間情報り、と母音区間候補情報LV、と
が区間統合処理部74に入力され、比較器741でり、
とLV、との共通部分として最終の母音区間が抽出され
、結果が入力フレームバタンコードレジスタ742に格
納される。本実施例での加算器721.731.比較器
711,722,724゜732.741などは各々−
個に共通化することが可能である。セグメンテーション
部7の他の実施例は第3図、第5図、第6図のフローチ
ャートに示されるように計算機上で実行することも可能
である。
本実施例ではNグレードパタンの累積処理を一例として
あげたが、Nグレードパタンの隣接フレーム間の変化値
の累積処理とする場合も減算器を追加するだけで容易に
実現されうる。
あげたが、Nグレードパタンの隣接フレーム間の変化値
の累積処理とする場合も減算器を追加するだけで容易に
実現されうる。
第15図は本発明を用いた音声認識装置の一実施例を示
すブロック図である。入力音声151゜LPF、ADC
152は前述第10図の入力音声1、LPF、ADC2
と同じであシ、音声分析部153は音声区間検出部3と
音声特徴バタン抽出部4とを一緒にしたものである。距
離計算部 −154で入力音声151自身あるいは入力
音声と、・標準バタンメモリ156から読み込まれた標
進音声の特徴バタン間の距離が算出される。距離計算部
154は前述第13図で詳細に説明したフレーム間相関
計算部と同様に構成される。セグメンテーション部15
5では、入力音声自身間の距離行列情報を入力とし1本
発明の定常部区間のセグメンテーションが実行される。
すブロック図である。入力音声151゜LPF、ADC
152は前述第10図の入力音声1、LPF、ADC2
と同じであシ、音声分析部153は音声区間検出部3と
音声特徴バタン抽出部4とを一緒にしたものである。距
離計算部 −154で入力音声151自身あるいは入力
音声と、・標準バタンメモリ156から読み込まれた標
進音声の特徴バタン間の距離が算出される。距離計算部
154は前述第13図で詳細に説明したフレーム間相関
計算部と同様に構成される。セグメンテーション部15
5では、入力音声自身間の距離行列情報を入力とし1本
発明の定常部区間のセグメンテーションが実行される。
構成については第14図で詳細に示した。次に、照合部
157では入力音声と標準音声との照合がなされる。こ
の際、セグメンテーション部で得られたセグメンテーシ
、ン情報をもとに時間構造も含めた全体での照合値(総
距離)が算出される。判定部158にて標準バタンごと
の総距離値の大小関係をもとに、入力音声がどの標準音
声に最も以ているかの判定がなされ、認識結果を出力す
る。照合部157は例えば連続NL (Non Lin
ear )? 、7チング法(公知例、連続DP法、特
開昭55−2205号公報の改良)による回路で構成さ
れ、判定部158は単純な大小比較器で構成される。
157では入力音声と標準音声との照合がなされる。こ
の際、セグメンテーション部で得られたセグメンテーシ
、ン情報をもとに時間構造も含めた全体での照合値(総
距離)が算出される。判定部158にて標準バタンごと
の総距離値の大小関係をもとに、入力音声がどの標準音
声に最も以ているかの判定がなされ、認識結果を出力す
る。照合部157は例えば連続NL (Non Lin
ear )? 、7チング法(公知例、連続DP法、特
開昭55−2205号公報の改良)による回路で構成さ
れ、判定部158は単純な大小比較器で構成される。
本発明によれば、入力音声の定常部区間と特定の音韻(
例えば母音)区間の検出が確実にできるので、少なくと
も入力音声の音節単位へのセグメンテーションが確実釦
できる効果がある。さらに処理のアルゴリズムが容易で
かつ処理量も従来の方式よシも少ないという効果がある
。
例えば母音)区間の検出が確実にできるので、少なくと
も入力音声の音節単位へのセグメンテーションが確実釦
できる効果がある。さらに処理のアルゴリズムが容易で
かつ処理量も従来の方式よシも少ないという効果がある
。
第1図は本発明の処理フローを示す示、第2図から第6
図までは本発明の主点である定常部区間検出、母音部区
間検出、統合処理の概略処理フローと詳細なフローチャ
ートを示す図、第7図から第9図は本発明による処理の
実施例を示す図、第゛10図は本発明の一実施例を示す
ブロック図、第11図から第14図は本発明の各ブロッ
クの一実施例を詳細に示す図、付録Aから付録りは本発
明の具体的プログラムを示す図、第15図は本発明を用
いた音声認識装置を示すブロック図である。 7・・・・・・セグメンテーシ曹ン 73・・・・・・定常部区間検出部 74・・・・・・音韻区間検出部 75・・・・・・区間統合処理部 、/−〜、 代理人 弁理士 小 川 勝 男′ )第 1
過 入カヤ六 丁 第 2 図 r ’DL” b’ 障η ¥+4VJ 扁 31招 第 5 口 開 、gl!1 笛 7 凹 (DLJ ヤp津セ (b ) ンでワー
デコメ=22ンLJ七
、・フL−ム (CINyりし−ドパターン to 、?I7 、zo # 37)
to 7o 107L−ム 率 3 図 Vンフ+、t4 葛 9 図 (^) (b、7L−6 7L−ム VJIDUj3 不 11 口 第 12 1図 シ ー−・− \ ヘ Z r* 口 Δ
図までは本発明の主点である定常部区間検出、母音部区
間検出、統合処理の概略処理フローと詳細なフローチャ
ートを示す図、第7図から第9図は本発明による処理の
実施例を示す図、第゛10図は本発明の一実施例を示す
ブロック図、第11図から第14図は本発明の各ブロッ
クの一実施例を詳細に示す図、付録Aから付録りは本発
明の具体的プログラムを示す図、第15図は本発明を用
いた音声認識装置を示すブロック図である。 7・・・・・・セグメンテーシ曹ン 73・・・・・・定常部区間検出部 74・・・・・・音韻区間検出部 75・・・・・・区間統合処理部 、/−〜、 代理人 弁理士 小 川 勝 男′ )第 1
過 入カヤ六 丁 第 2 図 r ’DL” b’ 障η ¥+4VJ 扁 31招 第 5 口 開 、gl!1 笛 7 凹 (DLJ ヤp津セ (b ) ンでワー
デコメ=22ンLJ七
、・フL−ム (CINyりし−ドパターン to 、?I7 、zo # 37)
to 7o 107L−ム 率 3 図 Vンフ+、t4 葛 9 図 (^) (b、7L−6 7L−ム VJIDUj3 不 11 口 第 12 1図 シ ー−・− \ ヘ Z r* 口 Δ
Claims (1)
- 【特許請求の範囲】 1、音声を入力する手段と、所定時間ごとに入力音声の
特徴パターンを抽出す特徴パターン抽出手段と、入力音
声を所定区間にセグメンテーションするセグメンテーシ
ョン手段と、該セグメンテーションの結果に基づき上記
入力音声の特徴パターンと標準パターンとを照合する手
段と、該照合結果の判定を行う手段とを備えた音声認識
装置において、上記セグメンテーション手段は上記入力
音声自身のフレーム間相関値の累積値により所定部区間
を検出する手段を有していることを特徴とする音声認識
装置。 2、特許請求第1項記載の音声認識装置において、上記
所定部区間を検出する手段は定常部区間を検出すること
を特徴とする音声認識装置。 3、特許請求第2項記載の音声認識装置において、上記
所定部区間を検出する手段は、特定の音韻あるいは音節
の区間を検出することを特徴とする音声認識装置。 3、特許請求第1項の音声装置において、所定部区間を
検出する手段は相関(距離)値の継続したフレームで累
積した値が大きい区間としたことを特徴とする音声認識
装置。 4、特許請求第1項の音声認識装置において、所定部区
間を検出する手段は相関(距離)値の隣接フレーム間で
の差を累積した値をもとにすることを特徴とする音声認
識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60189653A JP2664136B2 (ja) | 1985-08-30 | 1985-08-30 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60189653A JP2664136B2 (ja) | 1985-08-30 | 1985-08-30 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6250800A true JPS6250800A (ja) | 1987-03-05 |
JP2664136B2 JP2664136B2 (ja) | 1997-10-15 |
Family
ID=16244916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP60189653A Expired - Lifetime JP2664136B2 (ja) | 1985-08-30 | 1985-08-30 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2664136B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004094077A (ja) * | 2002-09-03 | 2004-03-25 | Nec Corp | 音声認識装置及び制御方法並びにプログラム |
JP2005241997A (ja) * | 2004-02-26 | 2005-09-08 | Sega Corp | 音声解析装置、音声解析方法及び音声解析プログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS53128905A (en) * | 1977-04-15 | 1978-11-10 | Hiroya Fujisaki | Voice discrimination system |
JPS6128766A (ja) * | 1984-07-20 | 1986-02-08 | Hoxan Corp | 流体内に設置して用いる発電装置 |
JPS61183697A (ja) * | 1985-02-08 | 1986-08-16 | 松下電器産業株式会社 | 単音節音声認識装置 |
-
1985
- 1985-08-30 JP JP60189653A patent/JP2664136B2/ja not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS53128905A (en) * | 1977-04-15 | 1978-11-10 | Hiroya Fujisaki | Voice discrimination system |
JPS6128766A (ja) * | 1984-07-20 | 1986-02-08 | Hoxan Corp | 流体内に設置して用いる発電装置 |
JPS61183697A (ja) * | 1985-02-08 | 1986-08-16 | 松下電器産業株式会社 | 単音節音声認識装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004094077A (ja) * | 2002-09-03 | 2004-03-25 | Nec Corp | 音声認識装置及び制御方法並びにプログラム |
JP2005241997A (ja) * | 2004-02-26 | 2005-09-08 | Sega Corp | 音声解析装置、音声解析方法及び音声解析プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2664136B2 (ja) | 1997-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS6336676B2 (ja) | ||
JPH0990974A (ja) | 信号処理方法 | |
Wilpon et al. | Application of hidden Markov models to automatic speech endpoint detection | |
JPH0222960B2 (ja) | ||
JPS6250800A (ja) | 音声認識装置 | |
JPH1097269A (ja) | 音声検出装置及び方法 | |
JPH0228160B2 (ja) | ||
Morales-Cordovilla et al. | A robust pitch extractor based on dtw lines and casa with application in noisy speech recognition | |
JP2594916B2 (ja) | 音声認識装置 | |
JPH0640274B2 (ja) | 音声認識装置 | |
Pawate et al. | A new method for segmenting continuous speech | |
JPH0682275B2 (ja) | 音声認識装置 | |
JPH01158499A (ja) | 定常雑音除去方式 | |
JPH0567040B2 (ja) | ||
JPH01165000A (ja) | 音韻区間情報形成装置 | |
JPH0632006B2 (ja) | 音声認識装置 | |
Yalabik et al. | An efficient algorithm for recognizing isolated Turkish words | |
JPS6027000A (ja) | パタンマツチング方法 | |
Svendsen | Articulatory features and segmental information for automatic speech recognition | |
Tang et al. | Mandarin Tone Recognition Based on Pre-Classification | |
JPS6227798A (ja) | 音声認識装置 | |
JPH0449716B2 (ja) | ||
Baker | On the similarity of noisy phonetic strings produced by different words | |
JPH03145167A (ja) | 音声認識方式 | |
JPH0876789A (ja) | 不特定話者単語音声認識システムおよび不特定話者単語音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EXPY | Cancellation because of completion of term |