JPS62113196A - 音声認識学習方式 - Google Patents

音声認識学習方式

Info

Publication number
JPS62113196A
JPS62113196A JP60254092A JP25409285A JPS62113196A JP S62113196 A JPS62113196 A JP S62113196A JP 60254092 A JP60254092 A JP 60254092A JP 25409285 A JP25409285 A JP 25409285A JP S62113196 A JPS62113196 A JP S62113196A
Authority
JP
Japan
Prior art keywords
speech
feature
recognition
similarity
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60254092A
Other languages
English (en)
Other versions
JP2656239B2 (ja
Inventor
洋一 竹林
宏之 坪井
平井 彰一
博 松浦
恒雄 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP60254092A priority Critical patent/JP2656239B2/ja
Publication of JPS62113196A publication Critical patent/JPS62113196A/ja
Application granted granted Critical
Publication of JP2656239B2 publication Critical patent/JP2656239B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野) 本発明は高性能な音声認識処理を実現し得る音声!!!
識学晋方式に関する。
〔発明の技術的背景とその問題点〕
音声認識処理技術の発達に伴い、工場における生産管理
制御の分野で特定話者認識装置が応用され、また電話サ
ービスの分野では不特定話者認識が応用され始めている
。また最近では、音声ワードプロセッサとしての実用化
が試みられている。
ところで音声ワードプロセッサや大語愈ψxi a識に
あっては、その認識性能を十分に高くする必要がある。
しかし、入力音声の認識処理単位である音素や音節は、
一般にその情報量が少ない。その為、異なる音声カテゴ
リ間でその音声パターンが類似していることが多くあり
、またその冗長度も少ない。これ故、入力音声を精度良
く認識することが難しい。
そこで従来より、認識性能の向上を図るべく神々の工夫
が試みられているが、音声認識処理が徒に複雑化したり
、また装置構成が大掛りとなることが否めなかった。
更にはAX i性能の向上を図るべく、その認識辞書の
高性能化を図ることも試みられているが、多くの音声サ
ンプルを収集しなければならない等、認識辞書の効果的
な学習が困難であった。
〔発明の目的〕
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、音声に対する認識性能の向上を
簡易に、且つ効果的に図ることのできる実用性の^い音
声認識学習方式を提供することにある。
〔発明の概要〕
本発明は、入力音声を分析して求められる該入力音声の
特徴パラメータの時系列から、例えば上記特徴パラメー
タを得る入力音声の分析タイミングで固定次元の特徴ベ
クトルを順次連続して抽出し、この特徴ベクトルを音声
!i1辞書と照合して認識対象とする複数の音声カテゴ
リに対する類似度をそれぞれ計篩し、各音声カテゴリ毎
に上記類似度が最大となるタイミングとそのときの類似
度値とを求めるものである。
そしてその類似度が最大となる音声カテゴリの時間的に
連続した系列またはその類似度系列から前記入力音声を
認識すると共に、前記音声カテゴリに対する類似度値が
最大となる時点の前記特徴ベクトルを用いて、例えばそ
の音声認識辞書の特性核を更新し、更新された特性核を
KLB開して該音声カテゴリの音声認識辞書を学習する
ようにしたものである。
〔発明の効果〕
かくして本発明によれば、特徴パラメータの時系列から
固定次元の特徴ベクトルを時間的に連続して、つまりそ
の抽出タイミングを連続的にずらしながら順次抽出し、
認識対象とする複数の音声カテゴリの各認識辞書との類
似度が最大とな′るタイミングの特徴ベクトルを求めて
入力音声を認識するので、音素や音節に対する認識率を
格段に向上させることが可能となる。つまり音素や音節
等として最も信頼性の高い特徴ベクi−ルについて認識
処理を行うことになるので、その認識性能の向上を図り
、総合的には入力音声に対する認識性能の向上を図るこ
とが可能となる。
また特徴パラメータの時系列から連続的に抽出される特
徴ベクトルの中から、認識辞書の学習に用いられる特徴
ベクトルがL!識辞書との類似度に応じて抽出されるの
で、上記認識辞書の学習を効果的に行い、認識辞書の性
能を効果的に高めることが可能となる。
更には、連続的に抽出される特徴ベクトルと認識辞書と
の類似度計算が連続的に行われるので、例えば認識処理
に供される入力音声期間の切出し、つまりセグメンテー
ションを大まかに行っても、その認識性能が低下するこ
とがない。故に、簡易に、且つ精度良く入力音声を認識
処理し、またその認fl辞書の性能向上を図ることが可
能となる等の実用上多大なる効果が奏せられる。
〔発明の実施例〕 以下、図面を参照して本発明の一実施例につき説明する
第1図は本発明の一実施例方式を適用して構成される音
声認識装置の概略構成図で、第2図は実施例方式におけ
る音声ベクトルの抽出概念を示す図である。
パターン入力部1はマイクロフォンや増幅器等からなり
、このパターン入力部1から認識処理に供せられる音声
が発声入力される。バンドパスフィルタ等からなる前処
理部2は、入力音声を複数チャンネルのスペクトル成分
からなる音声パラメータの時系列に変換し、これを類似
度計算部3に出力している。
類似度計算部3は、特徴パラメータの時系列から所定の
タイミングで順に固定次元の特徴ベクトルを抽出し、そ
の抽出した特徴ベクトルと音声辞書記憶部4に格納され
た複数の認識対象音声カテゴリの認識辞書との類似度を
順次計算している。
この類似度計算は、例えば複合類似度法によって行われ
る。
即ち、類似度計算部3は、第2図に示すように前記前処
理部2の出力(バンドパスフィルタの出力)として得ら
れる特徴パラメータの時系列Aから、タイミングTを基
準として連続するNサンプルの特徴パラメータのパター
ンを上記タイミングTにおける固定次元の特徴ベクトル
Bとして抽出している。
つまり上記タイミングTにおける特徴ベクトルBは、例
えばタイミング(T−N)からタイミングTに至る特徴
パラメータの系列として抽出される。尚、特徴パラメー
タの抽出数Nは、Oを含む正の整数として設定されるも
のであり、タイミングTに関して複数種類設定される場
合もある。この場合には、次元の異なる複数の特徴ベク
トルが同時に抽出されることになる。また特徴ベクトル
は、上記タイミングNに亙る期間の特徴パラメータを1
つおきに選択して抽出されるものであっても良い。
しかして特徴ベクトルBの抽出は、その処理タイミング
(例えば入力音声の分析タイミング)毎に順次連続して
行われる。従って次のタイミング(T+1)では、タイ
ミング(T −N + 1 )からタイミング(T+1
)に至る特徴パラメータのパターンが、上記タイミング
(T+1)における特徴ムク1〜ルとして抽出される。
このようにして特徴パラメータの時系列から順次連続し
て抽出される特徴ベクトルBが、第2図中Cに示すよう
に特徴ベクトルの時系列として出力される。
しかして前記特徴パラメータの時系列Aから時間的に順
次連続して順に検出される特徴ベクトルBは、v1識対
象とする複数の音声カテゴリの各音声辞書との複合類似
度計算にそれぞれ供せられる。
そして各音声カテゴリの認識部♂に対する上記特徴ベク
トルBの類似度計算結果は、上記特徴ベクトルと共に認
識部5および音節切出し部6に出力される。尚、類似度
計算結果の出力は、例えば高い類似度値を得たM個の音
声カテゴリについてのみ、その音声カテゴリ名とその類
似度値として出力するようにしても良い。
音節切出し部6は、各音声カテゴリについて、その音声
カテゴリに対して求められた類似度の最大値を求め、こ
の最大値を得た特徴ベクトルの抽出タイミング(特徴ベ
クトルのパターン区間)を該音声カテゴリの音節区間と
して求めている。そしてその音節区間における上記特徴
ベクトルBを認識辞書の学習用データとして字間データ
記憶部7に順次記憶すると共に、その音声カテゴリ名と
その音節区間の情報を認識部5に与えている。
rt31 ill tit部8の制御の下で認識処理を
実行する認識部5は、例えば成る音声区間について、そ
の音声区間を音節区間とする音声カテゴリを前記音節切
出し部6の検出情報から求めている。そしてその音声カ
テゴリに対する前記特徴ベクトルの類似度を相互に比較
して、例えば最大の類似度値をとる音声カテゴリを、そ
の音声区間の入力音声データに対する認識結果として求
めている。
尚、認識結果として複数の音声カテゴリが候補として求
められた場合には、例えば第1候補順位から第り候補順
位の音声カテゴリが認31 fa 渠として出力される
言語処理部9は、このような認識結果の系列をさiin
情報辞@10を参照して言gI的に検定し、最も確から
しい音声カテゴリの系列を前記入力音声の認識結果とし
て求めるものであり、その認識結果は適宜表示部11に
て表示される。
この表示部11に表示された認識結果に対して、例えば
そのCXwA結果が誤りである等の情報が与えられる。
また誤認識された結果に対する正しい情報の修正入力が
行われる。この修正情報の入力は、認識結果に対する次
候補の選択や、正しい音声カテゴリのコードデータをキ
ー人力することによって行われる。
一方、上述したようにして入力音声に対する認識結果が
求められると、学習副部部12が起動されて、その認識
結果である音声カテゴリのデータが特性核更新部13に
与えられる。また同時にその音声カテゴリを得た特徴ベ
クトルが前記学習データ記憶部7から読出されて、特性
核更新部13に読出される。
特性核更新81S13は、上記音声カテゴリの特性核K
を特性核記憶部14から読出し、前記認識結果に対する
正誤の判定結果に従って上記特性核Kを更新処理するも
のである。この特性核にの更新処理は、誤0!識された
音声カテゴリ、および誤認識結果を得た特徴ベクトルに
対する正しい音声カテゴリに対して行われることは勿論
のこと、正しく認識された音声カテゴリに対しても行わ
れる。
即ち、この特性核にの更新処理は、例えばに−K  ±
 αSSt として行われる。但し、Sは入力音声パターン(特徴ベ
クトル)を示しており、αは特性核更新の荷重係数であ
る。
具体的には、本来音声カテゴリXに関する特徴ベクトル
Sを音声カテゴリYと誤認識した場合、音声カテゴリY
の特性台Kyを Ky−Ky −αSSt として、負の重み(減算)を以て更新する。また音声カ
テゴリXの特性核Kxを KX −KX+  aSS’ として、正の重み(加算)を以て更新する。尚、正しい
認識結果が得られた場合も、正の重み(加算)を以てそ
の特性核を更新する。
このような特性核にの更新処理によって、その特性核に
中から誤認識に至るベクトルの要素、つまり誤認識成分
が除去され、また誤認識を招かない為の成分が特性核K
に追加されることになる。
しかして音声辞書作成部15は、各音声カテゴリについ
て、上述した如く更新処理された特性台Kを、例えばK
L展開して複合類似度計算に供する認識辞書を作成して
いる。そしてこの認識辞書を以て、前記音声辞さ記憶部
4に格納された認識辞書を順次更新し、その認識経内の
充実化、つまり高性能化を図っている。
以上、本発明の一実施例に係る音声認識装置につき説明
したように、本方式にあっては入力音声の特徴ベクトル
を固定次元で連続的に抽出し、これによって音節の切出
しと認識処理とを同時に行うので、簡易に、l″)精度
良く入力音声を認識することが可能、−ムる。しかも、
認識対象とする音声カテゴリの各認識辞書と連続的な特
徴ベクトルとの類似度計算結果に従ってその音節を検出
するので、音節の切出しを効果的に行うことができる。
故に、セグメンテーションを大まかに指示するだけで、
精度の高い音節の切出しを可能とし、その認識性能の向
上を図ることができる。
更には、連続的に抽出される特徴ベクトルを用いて認識
辞書を効果的に更新し、認識辞書の充実化(高性能化)
を図ることができ、そのH1辞書の学習処理も簡単であ
ると云う効果が奏せられる。
即ち、入力音声を分析した特徴パラメータの時系列から
、その特徴ベクi−ルを固定次元で連続的に切出してそ
の認識処理、および学習処理を行うので、簡易にして認
識学習性能の大幅な向上を図り得ると云う実用上多大な
る効果が奏せられる。
尚、本発明は上述した実施例に限定されるものではなく
、その要旨を逸脱しない範囲で種々変形して実施できる
ことは勿論のことである。
【図面の簡単な説明】
第1図は本発明の一実施例方式を適用した音声認識vl
置の概略構成図、第2図は実施例方式における入力音声
の分析特徴パラメータからの連続的な特徴ベクトルの抽
出処理の概念を示す図である。 1・・・パターン入力部、2・・・前処理部、3・・・
類似度演算部、4・・・音声辞書記憶部、5・・・認識
部、6・・・音節切出し部、7・・・学習データ記憶部
、8・・・認識制御部、9・・・言語処理部、10・・
・言8B情報辞占、11・・・表示部、12・・・学習
制卸部、13・・・特性各更新部。 14・・・特性各記憶部、15・・・音声辞書作成部。 出願人代理人 弁理士 鈴江武彦 第2図

Claims (5)

    【特許請求の範囲】
  1. (1)入力音声を分析して該入力音声の特徴パラメータ
    の時系列を求める手段と、この特徴パラメータの時系列
    から所定のタイミングで固定次元の特徴ベクトルを順次
    連続して抽出する手段と、この特徴ベクトルを音声認識
    辞書と照合して認識対象とする複数の音声カテゴリに対
    する類似度をそれぞれ計算する手段と、各音声カテゴリ
    毎に上記類似度が最大となるタイミングとそのときの類
    似度値とを求める手段と、類似度が最大となる音声カテ
    ゴリの時間的に連続した系列またはその類似度系列から
    前記入力音声を認識する手段と、前記音声カテゴリに対
    する類似度値が最大となる時点の前記特徴ベクトルを用
    いて該音声カテゴリの音声認識辞書を学習する手段とを
    具備したことを特徴とする音声認識学習方式。
  2. (2)特徴ベクトルを連続的に抽出する所定のタイミン
    グは、特徴パラメータを得る入力音声の分析タイミング
    である特許請求の範囲第1項記載の音声認識学習方式。
  3. (3)固定次元の特徴ベクトルは、次元数の異なる複数
    種類の特徴ベクトルとして同時に抽出されるものである
    特許請求の範囲第1項記載の音声認識学習方式。
  4. (4)特徴ベクトルを用いた音声認識辞書の学習は、複
    合類似度計算に用いられる音声認識辞書の特性核を該特
    徴ベクトルで更新し、更新された特性核をKL展開して
    行われるものである特許請求の範囲第1項記載の音声認
    識学習方式。
  5. (5)特性核の更新は、その音声カテゴリの特性核から
    他の音声カテゴリに誤認識された特徴ベクトルを減算し
    、誤認識された特徴ベクトルを誤認識された音声カテゴ
    リの特性核に加算してなるものである特許請求の範囲第
    1項記載の音声認識学習方式。
JP60254092A 1985-11-13 1985-11-13 音声認識学習方式 Expired - Lifetime JP2656239B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60254092A JP2656239B2 (ja) 1985-11-13 1985-11-13 音声認識学習方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60254092A JP2656239B2 (ja) 1985-11-13 1985-11-13 音声認識学習方式

Publications (2)

Publication Number Publication Date
JPS62113196A true JPS62113196A (ja) 1987-05-25
JP2656239B2 JP2656239B2 (ja) 1997-09-24

Family

ID=17260111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60254092A Expired - Lifetime JP2656239B2 (ja) 1985-11-13 1985-11-13 音声認識学習方式

Country Status (1)

Country Link
JP (1) JP2656239B2 (ja)

Also Published As

Publication number Publication date
JP2656239B2 (ja) 1997-09-24

Similar Documents

Publication Publication Date Title
Hazen Automatic language identification using a segment-based approach
Mohammed et al. Quranic verses verification using speech recognition techniques
JP4499389B2 (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
US4581756A (en) Recognition of speech or speech-like sounds using associative memory
Birla A robust unsupervised pattern discovery and clustering of speech signals
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Nuttall et al. Bias of the estimate of magnitude-squared coherence
JPS62113196A (ja) 音声認識学習方式
Seman et al. Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation
JPS5915993A (ja) 音声認識装置
Alshammri IoT-Based Voice-Controlled Smart Homes with Source Separation Based on Deep Learning
Marie-Sainte et al. A new system for Arabic recitation using speech recognition and Jaro Winkler algorithm
JPH0736481A (ja) 補完音声認識装置
Kabir et al. Real time bengali speech to text conversion using CMU sphinx
CN114038482A (zh) 一种口语发音测评方法和系统
CN114203159A (zh) 语音情感识别方法、终端设备及计算机可读存储介质
JPS60147797A (ja) 音声認識装置
JPS59219799A (ja) 音声認識装置
JPH0981177A (ja) 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法
JPS60159798A (ja) 音声認識装置
JPS60115996A (ja) 音声認識装置
JPS615300A (ja) 学習機能付音声入力装置
JPS63161498A (ja) 音声情報入力装置
JPS6312000A (ja) 音声認識装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term