JPS6270898A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6270898A
JPS6270898A JP60210629A JP21062985A JPS6270898A JP S6270898 A JPS6270898 A JP S6270898A JP 60210629 A JP60210629 A JP 60210629A JP 21062985 A JP21062985 A JP 21062985A JP S6270898 A JPS6270898 A JP S6270898A
Authority
JP
Japan
Prior art keywords
code
vector
phoneme
speech
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60210629A
Other languages
English (en)
Inventor
沢井 秀文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP60210629A priority Critical patent/JPS6270898A/ja
Publication of JPS6270898A publication Critical patent/JPS6270898A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 肢五分1 本発明は、音声認識装置、より詳細には、音声認識装置
における音声パターン中の音韻認識に関する。
従来肢玉 従来、音節、単語9文節や連続音声中の音韻認識を正確
で且つ高速に行うことは困難であるとされており、連続
音声中の母音で80〜90%、子音で60〜80%程度
の認識率に留まっている。
これは、前後の音韻による調音結合により同じ音韻でも
パターンが変形し、音韻標準パターンとの差異が大きく
なって誤認識が起こることが主な理由である。その他、
発声スピードに依る音韻パターンの変形、不特定話者用
音韻認識では、話者毎のパターンの違いによる誤認識が
考えられる。
胚 本発明は、上述のごとき実情に鑑みてなされたもので、
特に、音節、単語文節や連続音声中の音韻認識を高速に
行うことを目的としてなされたものである。
1成 本発明は、上記目的を達成するため、音節、単語9文節
や連続音声中の音韻を認識する認識装置に於いて、音声
信号を分析して特徴パラメータに変換する特微分析部と
、特徴パラメータをベクトル量子化してコード番号に変
換するベクトル量子化部と、ベクトル量子化する際に必
要な代表的なコードベクトルを格納しておくコードブッ
ク格納部と、各コードが音韻に対応する確率を格納して
おく音韻コードテーブル格納部と、コードテーブルを引
用して音韻を決定する認識処理部と、認識結果を出力す
る認識結果出力端子とから成り、入力された未知音声を
ベクトル量子化して得られるコード番号から前記音韻コ
ードテーブルを引用することにより、音声中の音韻を決
定して未知入力音声を認識することを特徴としたもので
ある。以下、本発明の実施例に基づいて説明する。
第1図は、本発明の一実施例を説明するための電気的ブ
ロック線図で、図中、1は信号入力端子。
2は特微分析部、3はコードブック(コードベクトルの
集合)格納部、4はベクトル量子化部、5は音韻コード
テーブル格納部、6は認識処理部。
7は認識結果出力部である。
入力端子1で入力された信号は、特微分析部2でバンド
パスフィルタ一群や、LPG分析等の分析処理が行われ
、パワースペクトラムやLPGパラメータなどの特徴パ
ラメータに変換される。これらの特徴パラメータの集合
を学習サンプルとして、後述するクラスタリングの手法
(ベクトル量子化法)によって、代表的なベクトル(コ
ードベクトルと呼ぶ)を予め作成しておき、コードブッ
ク3に格納しておく。これらコードベクトルの集合をコ
ードブックと呼ぶ。
ある信号入力は、コードブック3のコードベクトルのい
ずれかにベクトル量子化部4でベクトル量子化され、各
フレームごとにコード(コードベクトルの番号)が登録
される。このコードから音韻コードテーブル5を引用し
て対応する音韻名を認識処理部6にて決定し、これを出
力端子7にて出力する。
第2図は、代表的なベクトル量子化法のアルゴリズムに
基づくフローチャートを示したものである。このアルゴ
リズムは量子化の際に生じる平均歪みを最小化するもの
で、強力なアルゴリズムの一つである。図中、8はアル
ゴリズム開始端子。
9は初期化部、10は学習サンプルの読み込み部。
11はクラスタリング部、12は平均歪み計算部。
13は収束判定部、14は平均歪みの入れ替え部。
15はコードブック決定部、16はコードブック格納部
、17はアルゴリズム終了端子である。
まず、初期化部9で収束の判定のための平均歪みD−+
の設定(D−+=”とする)、量子化レベルNの設定、
初期ベクトル’11+*2+ ・・・、9Nの設定、収
束判定閾値εの設定を行う。量子化レベルNとしては、
通常、特定話者向き音声認識装置では128,256等
のレベルを、不特定話者向きには256,512等のレ
ベルを採るのが良いとされている。初期ベクトル(y+
)、  (1=1゜2、・・・N)の選択法としては、
学習サンプルXI。
士2.・・・、knの中から、出来る限り互いに異なる
ベクトルN個をとるのが普通である。さもないと、クラ
スタリングが正常に行われず、局所的に収束する危険が
ある。また、学習サンプル数nについては、通常、量子
化レベルNの10倍以上とするのがよい。収束判定闇値
としては、例えばε= 0.001を選ぶ。読み込み部
10で学習サンプル;C1,M2.・・・2knをバッ
ファメモリに読み込み、各サンプルkjについて、初期
的なコードベクトル夛1.)’2.・・・、VNとの距
離u兎、−i、lを計算する。このとき、最も距離が小
さいシ1を選び、k、はシ1に属すると考える。このよ
うにして、全ての学習サンプルX1.X2.・・・。
inについてのクラスタリングが終了する。各y1(i
=1.2.  ・・・、N>をコードベクトルとするク
ラスタをCiと呼ぶと、各Ciに属する全ての学習サン
プルkjと91との距離(量子化歪という)を計算して
、全クラスタCi  (i=1.2゜・・・、N)で平
均化したものを平均歪DOとして、平均歪計算部12で
計算する。次に、前記(初期的な)歪み値D−+とDO
との相対的な変化分(D−“−Do)/Doを計算し、
予め初期化部9で定めた閾値ξより小さければ、この時
の(;+)。
(i=1.2.・・・、N)を最終的なコードブックと
してコードブック決定部15で決定し、各クラスタCi
に属するサンプル数Siとともにメモリ部16に登録後
、終了する。しかし、以上クラスタリング部11から収
束判定部13の計算過程は初期化部9の初期ベクトル(
辷)を適切に選択しても収束するまでに数回以上の繰り
返しを必要とする。そのため、入れ替え部14でDoを
D−1に値を入れ替えて再びクラスタリング部11に戻
って収束判定部13の条件を満たすまでクラスタリング
とDOの計算を繰り返す。
第3図は、コードブックが作成できた時点での学習サン
プル(XJ )、  (j=1.2.・・・、n)各ク
ラスタCi等を表わす図であり、各ベクトルは一般にP
 (P≧2)次元であるが、図ではP==2の場合を表
わしている。同図から明らかなように、学習サンプルの
集合(ij)は各音韻に対応するフレームの集合体であ
るから、各コードベクトル(y+)  (i=1. 2
.・・・、N)は各音韻を代表するフレームの集合体で
あることになる。
いま、仮に量子化レベルNを256とすると、第4図に
示すように、多くの学習サンプルを統計的に処理するこ
とによって、各コード番号(1〜256)が各音韻に対
応する確率が求められ、音韻コード(確率)テーブルと
いうべきものが作成できる。このテーブルの作成法とし
ては、音韻名が既知のフレームをベクトル量子化したと
きのコード番号を調べ、各コード番号が各音韻に対応す
る頻度から確率を計算すればよい。
第5図は、未知入力音声が入力されたときに各フレーム
をベクトル量子化してコード番号を検出し、第4図の音
韻コード確率テーブルを引用して、音韻名を決定したと
きの例を示したものであり、rONsEI Jなる認識
結果を得ている。
尚、未知入力音声のベクトル量子化の際には、第2図で
述べた既に作成済みのコードブック内の各コードベクト
ルとの距離を計算し、最も距離の近いコードベクトル番
号を付すだけでよいので特別な音韻のセグメンテーショ
ンを必要とせず、高速な認識処理が可能となる。
前述の音韻コードテーブルは特定話者の場合には1名の
話者の音韻データを基に作成するが、不特定話者の場合
には多数の話者の音韻データから作成することは勿論で
ある。
未知入力音声をベクトル量子化してコード番号を付与す
る際に、最も近いコードベクトルの番号を選択する他に
、第2候補や、第3候補までも考慮したコード番号を付
加することによって、音韻ラベルを決定する際の信頼度
を向上させることも可能である。また、各フレームとコ
ードベクトルとの距離の計算を、ベイズ判定則や、マハ
ラノビスの距離等の統計的な距離尺度を用いて行っても
よ(、これは特に不特定話者の音声を認識する際に有効
である。
重来 以上の説明から明らかなように、本発明によると、未知
入力音声のLW &fiを各フレームのベクトル量子化
をした際のコード番号に基づいて行うので、高速な認識
処理が可能となると共に、音節、単語。
文節、単位入力の音声のみならず、連続音声に対しても
特別な音韻のセグメンテーション処理を施すことな(音
韻の認識を行うことができる。
【図面の簡単な説明】
第1図は、本発明の一実施例を説明するための電気的ブ
ロック線図、第2図は、ベクトル量子化法のアルゴリズ
ムに基づくフローチャート、第3図は、学習サンプル及
び各クラスタを表わす図、第4図は、音韻コード確率テ
ーブルの一例を示す図、第5図は、音韻名を決定した時
の例を示す図である。 ■・・・信号入力端子、2・・・特徴分析部、3・・・
コードブック(コードブクトルの集合)格納部、4・・
・ベクトル量子化部、5・・・音韻コードテーブル格納
部。 6・・・認識処理部、7・・・認識結果出力部、8・・
・アルゴリズム終了端子、9・・・初期化部、10・・
・学習サンプルの読み込み部、11・・・クラスタリン
グ部。 12・・・平均歪み計算部、13・・・収束判定部、1
4・・・平均歪みの入れ替え部、15・・・コードブッ
ク決定部、16・・・コードブック格納部、17・・・
アルゴリズム終了端子。

Claims (4)

    【特許請求の範囲】
  1. (1)、音節、単語、文節や連続音声中の音韻を認識す
    る認識装置に於いて、音声信号を分析して特徴パラメー
    タに変換する特徴分析部と、特徴パラメータをベクトル
    量子化してコード番号に変換するベクトル量子化部と、
    ベクトル量子化する際に必要な代表的なコードベクトル
    を格納しておくコードブック格納部と、各コードが音韻
    に対応する確率を格納しておく音韻コードテーブル格納
    部と、コードテーブルを引用して音韻を決定する認識処
    理部と、認識結果を出力する認識結果出力端子とから成
    り、入力された未知音声をベクトル量子化して得られる
    コード番号から前記音韻コードテーブルを引用すること
    により、音声中の音韻を決定して未知入力音声を認識す
    ることを特徴とする音声認識装置。
  2. (2)、音韻コードテーブルを多数の話者の音韻データ
    から作成することを特徴とする特許請求の範囲第(1)
    項に記載の音声認識装置。
  3. (3)未知入力音声をベクトル量子化してコード番号を
    付与する際に、第2候補や第3候補等の複数候補のコー
    ド番号をも付加することにより音韻名を決定することを
    特徴とする特許請求の範囲第(1)項に記載の音声認識
    装置。
  4. (4)未知入力音声のコード番号を付与する際の各コー
    ドベクトルとの距離計算を統計的な距離尺度に基づいて
    行うことを特徴とする特許請求の範囲第(1)項に記載
    の音声認識装置。
JP60210629A 1985-09-24 1985-09-24 音声認識装置 Pending JPS6270898A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60210629A JPS6270898A (ja) 1985-09-24 1985-09-24 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60210629A JPS6270898A (ja) 1985-09-24 1985-09-24 音声認識装置

Publications (1)

Publication Number Publication Date
JPS6270898A true JPS6270898A (ja) 1987-04-01

Family

ID=16592485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60210629A Pending JPS6270898A (ja) 1985-09-24 1985-09-24 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6270898A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04305699A (ja) * 1991-04-03 1992-10-28 Matsushita Electric Ind Co Ltd 音声認識方法および装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04305699A (ja) * 1991-04-03 1992-10-28 Matsushita Electric Ind Co Ltd 音声認識方法および装置

Similar Documents

Publication Publication Date Title
Ghai et al. Literature review on automatic speech recognition
US4363102A (en) Speaker identification system using word recognition templates
US4400828A (en) Word recognizer
CN113470662A (zh) 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配
EP0109190B1 (en) Monosyllable recognition apparatus
JPH064093A (ja) Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置
JP2020027193A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
Paliwal Lexicon-building methods for an acoustic sub-word based speech recognizer
US5864807A (en) Method and apparatus for training a speaker recognition system
JPS63259687A (ja) 音声信号認識方法およびその方法を実施する装置
JP3875357B2 (ja) 単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体
Pandey et al. Keyword spotting in continuous speech using spectral and prosodic information fusion
Pandey et al. LSTM Based Attentive Fusion of Spectral and Prosodic Information for Keyword Spotting in Hindi Language.
JPH01204099A (ja) 音声認識装置
JPS6270898A (ja) 音声認識装置
JPH10254473A (ja) 音声変換方法及び音声変換装置
JP4391179B2 (ja) 話者認識システム及び方法
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
Unnibhavi et al. A survey of speech recognition on south Indian Languages
KR100673834B1 (ko) 문맥 요구형 화자 독립 인증 시스템 및 방법
KR20100098007A (ko) 고속 화자 인식 방법 및 장치, 고속 화자 인식을 위한 등록방법 및 장치
Li Speech recognition of mandarin monosyllables
JP3098157B2 (ja) 話者照合方法及び装置
JP5136621B2 (ja) 情報検索装置及び方法