JPS62254197A - 音声認識方式 - Google Patents
音声認識方式Info
- Publication number
- JPS62254197A JPS62254197A JP61096704A JP9670486A JPS62254197A JP S62254197 A JPS62254197 A JP S62254197A JP 61096704 A JP61096704 A JP 61096704A JP 9670486 A JP9670486 A JP 9670486A JP S62254197 A JPS62254197 A JP S62254197A
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- information
- section
- voice
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 20
- 230000003595 spectral effect Effects 0.000 claims description 11
- 239000011295 pitch Substances 0.000 description 42
- 238000000605 extraction Methods 0.000 description 15
- 238000001228 spectrum Methods 0.000 description 15
- 238000012937 correction Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000002966 varnish Substances 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011038 discontinuous diafiltration by volume reduction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000003746 feather Anatomy 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、音声入力方式に係り、特に音声高能率伝送と
共通の音声分析手段を有するのに好適な音声認識方式に
関する。
共通の音声分析手段を有するのに好適な音声認識方式に
関する。
従来、高能率音声符号化装置の音声分析と、音声認識装
置の音声分析は、例えば、特公昭49−18007号や
、中角、板弁「個人差の種々の学習機能をもつ実時間単
語音声識別システム」信学論誌、J60−D、6.19
78のように一般には独立に開発されているか、あるい
は前者の手法として元々開発された線形予測技術の一部
を変形して後者に用いる場合が多く、分析の実態や得ら
れる情報も形式が異なっていたり、一部の情報を利用す
るのみの場合が多い。このため両者用に兼用でき、かつ
得られた情報を両者で十分有効活用するようには配慮さ
れていなかった。
置の音声分析は、例えば、特公昭49−18007号や
、中角、板弁「個人差の種々の学習機能をもつ実時間単
語音声識別システム」信学論誌、J60−D、6.19
78のように一般には独立に開発されているか、あるい
は前者の手法として元々開発された線形予測技術の一部
を変形して後者に用いる場合が多く、分析の実態や得ら
れる情報も形式が異なっていたり、一部の情報を利用す
るのみの場合が多い。このため両者用に兼用でき、かつ
得られた情報を両者で十分有効活用するようには配慮さ
れていなかった。
上記従来技術は音声高能率伝送と音声認識装置の音声分
析手段の共用については何ら配慮されておらず、装置の
経済性が問題であった。
析手段の共用については何ら配慮されておらず、装置の
経済性が問題であった。
本発明の目的は、すでに発明者の一人が主発明者となっ
ている高品質高能率音声符号化方式(特願昭6O−20
1542)の分析部をそのまま用いて、高性能の音声認
識結果を得ることのできる手段を提供することにある。
ている高品質高能率音声符号化方式(特願昭6O−20
1542)の分析部をそのまま用いて、高性能の音声認
識結果を得ることのできる手段を提供することにある。
また、本発明のもう一つの目的は、本発明と同一の発明
者がすぐに発明者として出願している特願昭60−93
611 r文字音声通信方式及び装置」の一つの高性能
な実現手段を提供することにある。
者がすぐに発明者として出願している特願昭60−93
611 r文字音声通信方式及び装置」の一つの高性能
な実現手段を提供することにある。
さらに、本発明の第三の目的は、従来の手段では安定に
処理出来なかった音声認識情報であるホルマントとピッ
チを安定かつ有効に利用する手段を実現し、高性能な音
声認識を実現することにある。
処理出来なかった音声認識情報であるホルマントとピッ
チを安定かつ有効に利用する手段を実現し、高性能な音
声認識を実現することにある。
〔問題点を解決するための手段〕
上記目的は、前記高品質高能率音声符号化方式の符号化
部出力結果に対し、音声に関する知識を利用した補正処
理および、標準パターンとのマツチング等の従来の音声
認識技術とにより達成される。
部出力結果に対し、音声に関する知識を利用した補正処
理および、標準パターンとのマツチング等の従来の音声
認識技術とにより達成される。
前記高品質高能率音声符号化方式の音声分析部の出力は
スペクトル情報(たとえば線形予測係数やPARCOR
係数など)、音源波形情報(たとえば予測残差波形など
)、音源波形パワ、音源ピッチ周波数又は周期(周期時
の有無の情報を含む)の各情報を出力し、これに基づき
、各ベクトル、コード・ブックと照合して、ベクトル・
コードに符号化する。この出力は符号化装置として使用
する場合、そのまま使用することができる。
スペクトル情報(たとえば線形予測係数やPARCOR
係数など)、音源波形情報(たとえば予測残差波形など
)、音源波形パワ、音源ピッチ周波数又は周期(周期時
の有無の情報を含む)の各情報を出力し、これに基づき
、各ベクトル、コード・ブックと照合して、ベクトル・
コードに符号化する。この出力は符号化装置として使用
する場合、そのまま使用することができる。
音声認識部では、上記出力情報をもとにホルマント及び
ピッチ情報を先ず求めておくと音韻認識の性能向上に非
常に有効である。ホルマントの値及びその時間的変化は
音韻がなにであるかを判定する上で非常に重要な情報を
有することは広く知られている。また、ピッチ周波数の
時間的変化は、特に類似した無声子音と有声子音(たと
えばkとg、tとdyPとbなど)の正則に大きな効果
があることが合成実験から知られているが、認識に直接
利用した例は、その安定な抽出が困難なためか、はとん
どない。本発明では、分析・符号化にベクトル量子化方
式を取っている利点を利用し、了め各ベクトルコードに
対したホルマント周波数及びピッチ周波数候補を複数個
安定に抽出し、表などの形で用意できるようにしたこと
により、音声入力毎の抽出の手間と抽出の不安定性の問
題を解決した。
ピッチ情報を先ず求めておくと音韻認識の性能向上に非
常に有効である。ホルマントの値及びその時間的変化は
音韻がなにであるかを判定する上で非常に重要な情報を
有することは広く知られている。また、ピッチ周波数の
時間的変化は、特に類似した無声子音と有声子音(たと
えばkとg、tとdyPとbなど)の正則に大きな効果
があることが合成実験から知られているが、認識に直接
利用した例は、その安定な抽出が困難なためか、はとん
どない。本発明では、分析・符号化にベクトル量子化方
式を取っている利点を利用し、了め各ベクトルコードに
対したホルマント周波数及びピッチ周波数候補を複数個
安定に抽出し、表などの形で用意できるようにしたこと
により、音声入力毎の抽出の手間と抽出の不安定性の問
題を解決した。
以上の結果得られる、スペクトル情報、ホルマント情報
、ピッチ情報を利用することにより、従来主にスペクト
ルに情報のみを用いて来た方式に比し、大幅に認識性能
を向上させることが出来る。
、ピッチ情報を利用することにより、従来主にスペクト
ルに情報のみを用いて来た方式に比し、大幅に認識性能
を向上させることが出来る。
以下、本発明の一実施例を図を用いて説明する。
第1図は高能率音声符号化装置と音声認識装置を有する
通信端末の構成を説明するブロック図である。第1図に
おいて、入力音声1は高能率音声符号化部2において符
号化され、その出力である符号化音声4は、伝送として
用いられる場合は、そのまま符号化音声インターフェー
ス7を経て回線9へ出力され、データ端末入力用に音声
認識入力として用いる場合は、音声認識部3の入力に用
いられると共にメモリ1.3に記録される。認識結果を
確認する際、本メモリより高能率音声符号化部11に転
送再生することにより読み合せが可能となる。高能率符
号化されているためメモリ容易は小さくて良い。認識結
果はデータ端末部5に送られ、通常のキー人力データと
同様に取り扱かわれ、データとして伝送される場合はモ
デム6、スイッチ部10、回線インターフェース8を経
て回線9に送出される。回線9から入力される符号化音
声は回線インターフェース8、符号化音声インターフェ
ースを経て高能率音声復合化部11にて音声12に復号
化され、出力される。
通信端末の構成を説明するブロック図である。第1図に
おいて、入力音声1は高能率音声符号化部2において符
号化され、その出力である符号化音声4は、伝送として
用いられる場合は、そのまま符号化音声インターフェー
ス7を経て回線9へ出力され、データ端末入力用に音声
認識入力として用いる場合は、音声認識部3の入力に用
いられると共にメモリ1.3に記録される。認識結果を
確認する際、本メモリより高能率音声符号化部11に転
送再生することにより読み合せが可能となる。高能率符
号化されているためメモリ容易は小さくて良い。認識結
果はデータ端末部5に送られ、通常のキー人力データと
同様に取り扱かわれ、データとして伝送される場合はモ
デム6、スイッチ部10、回線インターフェース8を経
て回線9に送出される。回線9から入力される符号化音
声は回線インターフェース8、符号化音声インターフェ
ースを経て高能率音声復合化部11にて音声12に復号
化され、出力される。
次に本発明の中心部分となる高能率音声符号化部2と認
識部3の実施例を図をもって説明する。
識部3の実施例を図をもって説明する。
第2図は高能率音声符号化部の構成を説明するブロック
図である。
図である。
第2図において、入力源音声1はA/D変換部201に
よりデジタル信号化され、入力バッファ202に送られ
る。バッファ202は二面バッファ構造となっており、
一定長の音声の符号化処理中、次の入力音声を途切れる
ことなく保持できる構造となっている。バッファ202
中の音声は一定区間長毎に取り出され、スペクl〜ル・
ベクトル・コード選択部205、ピッチ抽出部206、
残差波形抽出部209に送られる。
よりデジタル信号化され、入力バッファ202に送られ
る。バッファ202は二面バッファ構造となっており、
一定長の音声の符号化処理中、次の入力音声を途切れる
ことなく保持できる構造となっている。バッファ202
中の音声は一定区間長毎に取り出され、スペクl〜ル・
ベクトル・コード選択部205、ピッチ抽出部206、
残差波形抽出部209に送られる。
スペクトル・ベクトル・コード選択部205は、すでに
良く知られている線形予測分析により線形・ 予測分析
を行ない、得られた予測係数とスペクトル・ベクトル・
コード・ブック204中のスペクトル情報と順次マツチ
ングさせ、最も類似度の高いスペクトルを選択し、その
コードを出力する。
良く知られている線形予測分析により線形・ 予測分析
を行ない、得られた予測係数とスペクトル・ベクトル・
コード・ブック204中のスペクトル情報と順次マツチ
ングさせ、最も類似度の高いスペクトルを選択し、その
コードを出力する。
この手順は通常の音声認識装置と同様に構成することが
できる。
できる。
選択されたスペクトル・ベクトル・コードはピッチ決定
部207及びコード編集・送出部203に送られ、対応
するスペクトル情報は残差波形抽出部209に送られる
。
部207及びコード編集・送出部203に送られ、対応
するスペクトル情報は残差波形抽出部209に送られる
。
ピッチ抽出部206は、すでに良く知られているAMD
F法や自己相関法で簡単に構成することができる。
F法や自己相関法で簡単に構成することができる。
ピッチ決定部207はスペクトル・ベクトル・コードが
指定するピッチの範囲をピッチ範囲指定データ・メモリ
208より取り出し、ピッチ抽出部206の出力ピッチ
候補からピッチ周波数を選択、決定し、コード編集・送
出部213及び残差波形コード選択部210に送る。
指定するピッチの範囲をピッチ範囲指定データ・メモリ
208より取り出し、ピッチ抽出部206の出力ピッチ
候補からピッチ周波数を選択、決定し、コード編集・送
出部213及び残差波形コード選択部210に送る。
残差波形抽出部209は通常の線形予測逆フィルタから
なり、スペクトル・ベクトル・コード選択部で選択され
たコードに対応するスペクトル情報をスペクトル・ベク
トル・コード・ブロックより取り出し逆フィルタに設定
し、バッファ202中の対応する入力音声原波形を入力
し、残差波形を抽出する。ここでは、もちろんスペクト
ル抽出7一 部203で得たスペクトル情報を用いてもよい。
なり、スペクトル・ベクトル・コード選択部で選択され
たコードに対応するスペクトル情報をスペクトル・ベク
トル・コード・ブロックより取り出し逆フィルタに設定
し、バッファ202中の対応する入力音声原波形を入力
し、残差波形を抽出する。ここでは、もちろんスペクト
ル抽出7一 部203で得たスペクトル情報を用いてもよい。
抽出された残差波形は残差波形ベクトル・コード・選択
部210と残差振幅抽出部212に送られる。残業振幅
抽出部212は残差波形の平均振幅を求め、残差波形ベ
クトル・コード選択部210とコード編集・送出部21
3に送る。
部210と残差振幅抽出部212に送られる。残業振幅
抽出部212は残差波形の平均振幅を求め、残差波形ベ
クトル・コード選択部210とコード編集・送出部21
3に送る。
残差波形ベクトル・コード選択部210では、スペクト
ル・ベクトル・コードとピッチ周波数にもとすき、候補
となる残差波形ベクトルを残差波形ベクトル・コード・
ブック211より取り出し、残差波形抽出部209より
送られた残差波形とマツチングを取り、最も良く合った
残差波形ベクトル・コードを決定する。この際、両者を
比較するため、残差振幅情報を利用し、振幅を正規化し
て行なう。選択された残差波形ベクトル・コードはコー
ド編集・送出部213に送られる。
ル・ベクトル・コードとピッチ周波数にもとすき、候補
となる残差波形ベクトルを残差波形ベクトル・コード・
ブック211より取り出し、残差波形抽出部209より
送られた残差波形とマツチングを取り、最も良く合った
残差波形ベクトル・コードを決定する。この際、両者を
比較するため、残差振幅情報を利用し、振幅を正規化し
て行なう。選択された残差波形ベクトル・コードはコー
ド編集・送出部213に送られる。
コード編集・送出部213は、スペクトル・ベクトル・
コード、残差波形ベクトル・コード、ピッチ周期、残差
振幅の各コードを編集し符号化音声4として送出する。
コード、残差波形ベクトル・コード、ピッチ周期、残差
振幅の各コードを編集し符号化音声4として送出する。
なお、次の認識部へは、編集しないで、そのまま各コー
ド又は原データを送る方が、認識部の処理は容易であが
、図面等が複雑になるため、本実施例の説明では編集し
たものが送られ、認識部で再分解されるがごとく、図面
上取り扱うが、本発明の主旨に対しては、なんら本質的
ではなく、どちらでも良いことは言うまでもない。
ド又は原データを送る方が、認識部の処理は容易であが
、図面等が複雑になるため、本実施例の説明では編集し
たものが送られ、認識部で再分解されるがごとく、図面
上取り扱うが、本発明の主旨に対しては、なんら本質的
ではなく、どちらでも良いことは言うまでもない。
第3図は音声認識部を説明するブロック図である。
高能率音声符号化部でコード化された符号化音声4はコ
ード解読部301で各コードに分解され(前述の通りこ
の処理は本質的でない)、ピッチ情報はピッチ補正部3
02に送られ、また各情報はマツチング部305及びホ
ルマント決定部306に送られる。
ード解読部301で各コードに分解され(前述の通りこ
の処理は本質的でない)、ピッチ情報はピッチ補正部3
02に送られ、また各情報はマツチング部305及びホ
ルマント決定部306に送られる。
本実施例に示したピッチ抽出法は、スペクトル情報を利
用したピッチ範囲が指定されたものの中からピッチ情報
を抽出しているため、通常のピッチ抽出法によるものよ
り安定に抽出されているが、入力時の環境雑音等の影響
で誤抽出される可能性もあるので、ピッチ補正部302
で、前後のピッチ情報と比較し、音声学上あり得ないよ
うな不連続性が検出される場合は、直前に入力されたピ
ッチ情報から外挿した値に修正を行なう。最も簡単な補
正は−データ前の値に置き換えるものである。
用したピッチ範囲が指定されたものの中からピッチ情報
を抽出しているため、通常のピッチ抽出法によるものよ
り安定に抽出されているが、入力時の環境雑音等の影響
で誤抽出される可能性もあるので、ピッチ補正部302
で、前後のピッチ情報と比較し、音声学上あり得ないよ
うな不連続性が検出される場合は、直前に入力されたピ
ッチ情報から外挿した値に修正を行なう。最も簡単な補
正は−データ前の値に置き換えるものである。
このようにして補正されたピッチ情報は標準パターン選
択部304及びマツチング補正部308に送られる。
択部304及びマツチング補正部308に送られる。
本実施例における音声認識部はマルチ・テンプレート方
式による不特定話者連続音声認識方式となっており、標
準パターン・メモリには一つの認識カテゴリーに対し、
複数個の標準パターンが用意されている。各標準パター
ンは声の高さの類似した話者グループ毎に関連付けられ
ており、入力されたピッチ情報に従って、使用される標
準パターンの組が1組ないし複数組選択され、認識性能
向上と共にマツチング処理量低減の効果が上るように構
成されている。標準パターン選択部303は入力された
ピッチ情報の平均値を求める機能を有し、話者の平均的
声の高さを検出する。入力されたピッチ周波数をft、
平均ピッチfいαを1より小さい定数として ft=αXft4+(1−α)xft、 (t)と
すればよい。αは実効的に平均を取る範囲を定める時定
数的係数である。
式による不特定話者連続音声認識方式となっており、標
準パターン・メモリには一つの認識カテゴリーに対し、
複数個の標準パターンが用意されている。各標準パター
ンは声の高さの類似した話者グループ毎に関連付けられ
ており、入力されたピッチ情報に従って、使用される標
準パターンの組が1組ないし複数組選択され、認識性能
向上と共にマツチング処理量低減の効果が上るように構
成されている。標準パターン選択部303は入力された
ピッチ情報の平均値を求める機能を有し、話者の平均的
声の高さを検出する。入力されたピッチ周波数をft、
平均ピッチfいαを1より小さい定数として ft=αXft4+(1−α)xft、 (t)と
すればよい。αは実効的に平均を取る範囲を定める時定
数的係数である。
標準パターン・メモリ304には標準パターンがスペク
トル・コード、の時系列で記録されており、入力音声の
スペクトル・コードと、距離テーブル310を参照しな
がら時々刻々の距離を計算し、連続DPマツチング法で
連続的に入カバターンと標準パターンが比較され認識候
補が出力されて行く。連続DPの具体的手順は、公知の
手法を用いることができる(たとえばA、Ichika
wa et al。
トル・コード、の時系列で記録されており、入力音声の
スペクトル・コードと、距離テーブル310を参照しな
がら時々刻々の距離を計算し、連続DPマツチング法で
連続的に入カバターンと標準パターンが比較され認識候
補が出力されて行く。連続DPの具体的手順は、公知の
手法を用いることができる(たとえばA、Ichika
wa et al。
“Conceptual SystemDesign
of a ContinuousSpeeh Reco
gnition of ICA S S P 81.1
981)。
of a ContinuousSpeeh Reco
gnition of ICA S S P 81.1
981)。
ホルマント決定部306では、入力されるスペクトル・
コードをキーとして、予め用意されているホルマント・
テーブルより第1〜第3ホルマント周波数を複数候補取
り出す。一般にホルマントを実時間で正確に分析・抽出
することは困難であるが、本方式ではスペクトル・コー
ドに対応するホルマントの値を予め正確に求め、テーブ
ルに登録しておくことが可能である。但し、環境雑音な
どのため、一時的にスペクトルに乱れるなどの現実的問
題が生じるため、ホルマント・テーブルには、第2.第
3のホルマント候補を予め用意し、前後の連続性を考慮
して、その中から最も妥当なものを選択する。たとえば
、入カスベクトル・コードの対応するn次ホルマントの
値がF’n、t、予測されるホルマントの値をF n
+’ tとして Fn、t”aIFn、t−1+82Fn、t−2ここで
ai+ 82は実験的に定められた予測係数 として、ホルマント・テーブル307より与えられる候
補の中から最もFn、tに近いものをFn、tとする。
コードをキーとして、予め用意されているホルマント・
テーブルより第1〜第3ホルマント周波数を複数候補取
り出す。一般にホルマントを実時間で正確に分析・抽出
することは困難であるが、本方式ではスペクトル・コー
ドに対応するホルマントの値を予め正確に求め、テーブ
ルに登録しておくことが可能である。但し、環境雑音な
どのため、一時的にスペクトルに乱れるなどの現実的問
題が生じるため、ホルマント・テーブルには、第2.第
3のホルマント候補を予め用意し、前後の連続性を考慮
して、その中から最も妥当なものを選択する。たとえば
、入カスベクトル・コードの対応するn次ホルマントの
値がF’n、t、予測されるホルマントの値をF n
+’ tとして Fn、t”aIFn、t−1+82Fn、t−2ここで
ai+ 82は実験的に定められた予測係数 として、ホルマント・テーブル307より与えられる候
補の中から最もFn、tに近いものをFn、tとする。
Fn、tと候補が一定以上離れている場合は、雑音等に
よる乱れと見なして、Fn、tti−Fn、tと見なす
。このようにして、連続で安定なホルマント周波数を得
ることができる。ここで、ピッチ情報が周期的か非周期
的かによりこれらの制御を変え、より正確にすることは
当然可能である。
よる乱れと見なして、Fn、tti−Fn、tと見なす
。このようにして、連続で安定なホルマント周波数を得
ることができる。ここで、ピッチ情報が周期的か非周期
的かによりこれらの制御を変え、より正確にすることは
当然可能である。
標準パターン・メモリ304の各標準パターンには、単
にスペクトル・コードの時系列だけでなく、ピッチ周期
の動きが上昇か下降か、第nホルマントの動きは上昇か
下降かという情報も併せ有しており、マツチング補正部
308はピッチ補正部302及び又はホルマント決定部
306の出力と、これらの情報の一致度を検定し、マツ
チング部305の出力を修正する。たとえばマツチング
部の出力を膜層D、ピッチング及びホルマントの動きの
一致度をWPとWFとして修正されたマツチング値D′
を D’=WPXWFXD とする。WPとWFは傾向が逆の場合は1.5、その他
の場合は1.0などの値を与える(マツチング尺度が距
離ではなく、相関や類似度の場合は重みの付は方が逆に
なるなど、尺度の性格で重みの値や付加の形式が異なる
のは言うまでもない)。
にスペクトル・コードの時系列だけでなく、ピッチ周期
の動きが上昇か下降か、第nホルマントの動きは上昇か
下降かという情報も併せ有しており、マツチング補正部
308はピッチ補正部302及び又はホルマント決定部
306の出力と、これらの情報の一致度を検定し、マツ
チング部305の出力を修正する。たとえばマツチング
部の出力を膜層D、ピッチング及びホルマントの動きの
一致度をWPとWFとして修正されたマツチング値D′
を D’=WPXWFXD とする。WPとWFは傾向が逆の場合は1.5、その他
の場合は1.0などの値を与える(マツチング尺度が距
離ではなく、相関や類似度の場合は重みの付は方が逆に
なるなど、尺度の性格で重みの値や付加の形式が異なる
のは言うまでもない)。
このようにして補正されたマツチング結果を判定部30
9相互に比較することにより、正確な認識結果を得るこ
とができる。
9相互に比較することにより、正確な認識結果を得るこ
とができる。
以上説明したごとく、本発明によれば、高性能の音声認
識を行なう手段が得られるだけでなく、高能率音声符号
化伝送方式と共通の音声分析・符号化を行なうことが可
能となり、両機能を有する端末等では分析部及び符号化
部を共有することが可能となるので、小型かつ経済的装
置を実現する等の効果がある。
識を行なう手段が得られるだけでなく、高能率音声符号
化伝送方式と共通の音声分析・符号化を行なうことが可
能となり、両機能を有する端末等では分析部及び符号化
部を共有することが可能となるので、小型かつ経済的装
置を実現する等の効果がある。
4、発明の詳細な説明
第1図は通信端末構成図、第2図は高能率音声符号化部
を示す図、第3図は音声認識部を示す図である。
を示す図、第3図は音声認識部を示す図である。
に入力音声、2:音能率音声符号化部、3:音声認識部
、4:符号化音声、5:データ端末部、6:モデム、7
:符号化音声インターフェース、8:回線インターフェ
ース、9:回線、10:スイッチ部、11:高能率音声
復号化部、12:復号化音声、13:メモリ、 203ニスベクトル抽出部、204ニスベクトル・ベク
トル・コード・ブック、205ニスベクトル・ベクトル
・コード選択部、206:ピッチ抽出部、207:ピッ
チ決定部、208:ピッチ範囲指定データ・メモリ、3
01:コード解読部、302:ピッチ補正部、303:
標準パターン選択部、304:標準パターン・メモリ、
305:マツチング部、306:ホルマント決定部、3
07:ホルマント・テーブル、308:マツチング補正
部、310:距離テーブル。
、4:符号化音声、5:データ端末部、6:モデム、7
:符号化音声インターフェース、8:回線インターフェ
ース、9:回線、10:スイッチ部、11:高能率音声
復号化部、12:復号化音声、13:メモリ、 203ニスベクトル抽出部、204ニスベクトル・ベク
トル・コード・ブック、205ニスベクトル・ベクトル
・コード選択部、206:ピッチ抽出部、207:ピッ
チ決定部、208:ピッチ範囲指定データ・メモリ、3
01:コード解読部、302:ピッチ補正部、303:
標準パターン選択部、304:標準パターン・メモリ、
305:マツチング部、306:ホルマント決定部、3
07:ホルマント・テーブル、308:マツチング補正
部、310:距離テーブル。
、、c>
々 外
ヘ
す七 ・2與 参りジ ; へ し 即 々 ミ 吠 へ 〜
阿 埠−一二f偽 座収戚^ 塁≧6二−ト ° ″′Yショ へ 。
す七 ・2與 参りジ ; へ し 即 々 ミ 吠 へ 〜
阿 埠−一二f偽 座収戚^ 塁≧6二−ト ° ″′Yショ へ 。
「ソ、 、 、
q町 ・ 及
1 (3ベ−NNへ
へ へ ?! 粧 々 、Lよ 々tS 1”1 (羽2.−2 ′ ドI 電 乞軸式 %式%
1 (3ベ−NNへ
へ へ ?! 粧 々 、Lよ 々tS 1”1 (羽2.−2 ′ ドI 電 乞軸式 %式%
Claims (1)
- 【特許請求の範囲】 1、音声信号を入力する手段と、上記入力された信号を
分析し符号化する手段と、上記分析結果又は/及び、符
号化情報に基づき上記入力音声を認識する音声認識手段
と、上記符号化情報又は上記認識情報を送信する手段と
を有する音声認識方式において、上記符号化手段は、ピ
ッチ情報により標準パターンの組を選択することを特徴
とする音認識方式。 2、特許請求の範囲第1項の音声認識方式において、上
記符号化手段は、上記入力音声と上記標準パターンのピ
ッチの動きの一致の度合を評価し、認識結果を修正する
手段と有していることを特徴とする音声認識方式。 3、特許請求の範囲第1項の音声認識方式において、上
記音声認識手段は、スペクトルコードに従ってホルマン
ト情報を得る手段を有していることを特徴とする音声認
識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61096704A JPS62254197A (ja) | 1986-04-28 | 1986-04-28 | 音声認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61096704A JPS62254197A (ja) | 1986-04-28 | 1986-04-28 | 音声認識方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS62254197A true JPS62254197A (ja) | 1987-11-05 |
Family
ID=14172142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61096704A Pending JPS62254197A (ja) | 1986-04-28 | 1986-04-28 | 音声認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS62254197A (ja) |
-
1986
- 1986-04-28 JP JP61096704A patent/JPS62254197A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Daubechies et al. | A nonlinear squeezing of the continuous wavelet transform based on auditory nerve models | |
US6161091A (en) | Speech recognition-synthesis based encoding/decoding method, and speech encoding/decoding system | |
US4975957A (en) | Character voice communication system | |
EP0302663B1 (en) | Low cost speech recognition system and method | |
US4791670A (en) | Method of and device for speech signal coding and decoding by vector quantization techniques | |
JPS62159199A (ja) | 音声メツセ−ジ処理装置と方法 | |
US7650281B1 (en) | Method of comparing voice signals that reduces false alarms | |
JP2003036097A (ja) | 情報検出装置及び方法、並びに情報検索装置及び方法 | |
JPS5827200A (ja) | 音声認識装置 | |
Oura et al. | Deep neural network based real-time speech vocoder with periodic and aperiodic inputs | |
JPS62194296A (ja) | 音声符号化方式 | |
JPH0215080B2 (ja) | ||
Ramasubramanian et al. | Ultra low bit-rate speech coding | |
JPS62254197A (ja) | 音声認識方式 | |
CN113990325A (zh) | 流式语音识别方法及装置、电子设备、存储介质 | |
Chazan et al. | Low bit rate speech compression for playback in speech recognition systems | |
JPH0475100A (ja) | 符号化装置 | |
JPS6032100A (ja) | Lsp型パタンマッチングボコ−ダ | |
JPH09179593A (ja) | 音声符号化装置 | |
KR100269357B1 (ko) | 음성 인식 방법 | |
Van Schalkwyk et al. | Linear predictive speech coding at 2400 b/s | |
Mittal et al. | A sparse representation of the excitation source characteristics of nonnormal speech sounds | |
JPS61262800A (ja) | 音声符号化方式 | |
JPH03120434A (ja) | 音声認識装置 | |
Chen et al. | On the use of pitch contour of Mandarin speech in text-independent speaker identification |