JPS62159195A - 音声パタン作成方法 - Google Patents

音声パタン作成方法

Info

Publication number
JPS62159195A
JPS62159195A JP61000451A JP45186A JPS62159195A JP S62159195 A JPS62159195 A JP S62159195A JP 61000451 A JP61000451 A JP 61000451A JP 45186 A JP45186 A JP 45186A JP S62159195 A JPS62159195 A JP S62159195A
Authority
JP
Japan
Prior art keywords
voice
vector
speech
audio
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61000451A
Other languages
English (en)
Inventor
森戸 誠
田部井 幸雄
山田 興三
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP61000451A priority Critical patent/JPS62159195A/ja
Priority to US06/909,957 priority patent/US4852181A/en
Priority to EP86113175A priority patent/EP0219712B1/en
Priority to DE8686113175T priority patent/DE3683343D1/de
Publication of JPS62159195A publication Critical patent/JPS62159195A/ja
Priority to US07/295,194 priority patent/US4918735A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は音声特徴を効率良く表現し、認識装置の認識
性能を向上させる音声パタンの作成方法に関する。
(従来の技術) 従来より、情報及び通信機器の入力の効率化、システム
機能の向上等を図る目的のため、音声認識に関しての研
究開発が進められている。この音声認識を行う一般的な
方法に音声のスペクトルの形状を表わすパタンを用いて
認識を行うパタンマツチング法がある。
先ず、この発明の説明に先立ち、第8図を参照して従来
のパタンマツチング法につき説明する。
第8図において、lOは音声入力端子、11は音声分析
部、12は区間検出部、13は入力メモリ部、14は比
較パタンメモリ部、15は類似度計算部、16は判定部
、17は出力端子である。
この従来の認識方式においては、音声入力端子10に入
力した入力音声を音声分析部11において特徴を表わす
ベクトルの時系列パタン(以下、音声パタンと称する)
に変換する。この音声パタンは、一般に、中心周波数の
異る2個のバンドパスフィルタ群によって抽出された帯
域内周波数成分を時間間隔T、(例えば8ミリ秒)毎に
標本化(以下、サンプリングと称する)することによっ
て得ている。従ってこの音声パタンは音声のスペクトル
形状そのものを表わしている。一方、この音声分析部1
1において、音声パタンに対応する時間点における音声
パワーを算出する。この音声分析部11において算出さ
れた音声パタンを人力メモリ部13に逐次格納すると共
に、音声パワーを区間検出部12へ出力する。
区間検出部12では、音声分析部11からの音声パワー
に基づき、音声区間すなわち音声の始端及び終端を決定
する。この音声パワーによる音声の始端及び終端の決定
アルゴリズムについては、特願昭59−108668号
に開示されているような複雑なアルゴリズム、音声パワ
ーが閾値以上となった時点を音声の始端、閾値未満とな
った時点を音声の終端と考える簡易なアルゴリズムその
他のアルゴリズム等があり、いずれかの適切なアルゴリ
ズムで区間検出を行っている。この区間検出部12で決
定された始端及び終端間の音声パタンを入力メモリ部か
ら読出して類似度計算部15へ送る。一方、この類似度
計算部15には比較パタンメモリ部14から比較パタン
を別途入力させている。
この比較パタンは認識対象となる単語(以後カテゴリと
称する)に対し音声パタンと同一な音声分析処理を施し
たベクトルの時系列パタンであり、予め比較パタンメモ
リ部14に格納しておく。
この格納に当り、比較パタンを作成するが、その作成は
認識目的によって異る。例えば、話者を限定した認識方
式の場合には、限定された話者が発声した音声を周波数
分析部11を用いて又はこれと同等な音声分析処理を施
して得られた音声パタンを比較パタンとして比較パタン
メモリ部14に格納する。
類似度計算部15では、音声パタンと比較パタンとの間
の類似度計算を行う。この類似度計算には、例えば、文
献: 「沖電気研究開発118号」49 (3)に記載
の論文「不特定話者単語音声認識の研究」に開示されて
いる重み付は線形マツチング法、特公昭50−2394
1号に開示されているいわゆるDPマツチングと呼ばれ
ている方法すなわち発声速度の変動等による時間軸方向
の歪を最適化する方法又はその他の適切な方法を用いて
いる。
この類似度計算部15から出力されるカテゴリ毎の類似
度を用いて、判定部16では、その最大類似度を与える
比較パタンに与えられたカテゴリ名を認識結果として出
力する。
以上が従来のパタンマツチング法による音声認識方式の
概略である。
(発明が解決しようとする問題点) 上述した従来の認識方式は、音声のスペクトルの形状を
与える音声パタンと、予め同一分析処理によって算出さ
れた比較パタンとの相違を類似度という尺度から評価し
、最大の類似度を与える比較パタンのカテゴリ名を認識
結果とする方法であった。従って、音声パタンのカテゴ
リと比較パタンのカテゴリとが同じ場合はその類似度は
大きく、異なる場合にはその類似度は小さくなるもので
あった。
しかしながら、音声のスペクトルの形状が音声以外の要
因例えば外部の雑音により歪んだ場合にはたとえ同一カ
テゴリといえどもその両者の類似度が大きくなるとはい
えなくなる。
また、従来の認識方式では、比較パタン及び認識パタン
との記憶容量が相違するので、領域管理が複雑となると
いう問題点があった。
この発明の目的はこのような従来の問題点に鑑み、静寂
環境下はもとより雑音環境下における音声を用いても認
識性能を低下させない音声パタン作成方法を提供するこ
とにある。
(問題点を解決するための手段) 上述した目的の達成を図るため、この発明の音声パタン
作成方法においては人力音声から類似度判定用の基準デ
ータを形成する登録処理と、認識音声から類似度判定用
の認識データを形成する認識処理とを行うに当り、次の
ような手段を採る。
(a)先ず、音声のスペクトルの形状を一定時間間隔T
0 (音声フレーム周期と称する)毎に表わすベクトル
(音声特徴ベクトルと称する)を入力させる。
(b)また、任意の音声フレームにおける音声特徴ベク
トルと、次の音声フレームにおける音声特徴ベクトルと
を内分して音声特徴内分ベクトルを算出する。
(c)前述の音声特徴内分ベクトルから最小二乗近似直
線を算出し、この最小二乗近似直線を基準にして周波数
軸方向で極大かつ正となるチャネルに対応する成分を1
にしその他の成分を0にして得られるローカルピークベ
クトルを算出する。
そして、この場合、登録処理で得られたローカルピーク
ベクトルを基準データとし、認識処理で得られたローカ
ルピークベクトルを認識データとする。
これら処理によってそれぞれ得られたローカルピークベ
クトルはスペクトルの形状を与えるベクトルでなく音声
のスペクトルのピークの位置のみを与えるベクトルであ
る。
音声のピークの位置は雑音が入力されていてもさほど変
化するものでないため認識処理内の類似度に対する雑音
の影響が軽減される。
(作用) 次に、この発明の作用につき説明する。
この発明のの声パタン作成方法を達成するための機能は
第1図に示される処理ブロックによって構成される。
第1図において21は音声のスペクトルの形状を表わす
音声特徴ベクトルが入力される入力端子、22は音声フ
レーム電力を算出し音声の始端、終端を検出する音声区
間検出部、23は音声特徴内分ベクトルを算出する音声
特徴内分ベクトル算出部、24はローカルピークベクト
ルを算出するローカルビーク算出部、25はローカルピ
ークベクトルの出力端子である。
作用の詳細な処理の説明に入る前にこの発明の入力であ
る音声特徴ベクトルについて考える。
前にも述べたように音声特徴ベクトルは音声のスペクト
ルの形状を音声フレーム周期ごとに与えるベクトルであ
り、どのような分析手段によって得られたベクトルであ
るかはこの発明では本質ではない。
たとえば第2図に示されるような中心周波数の異なるバ
ンドパスフィルタ群によって周波数成分を抽出し、その
出力を絶対値化し、ローパスフィルタによって抽出した
ベクトルとしてもよい(文献=「沖電気研究開発122
号」iユ、(1)「不特定話者簡易音声認識方式の研究
」)。
また、たとえばFFT 、 DFT処理によって得られ
た値もしくはそれらの値をログ周波数帯域に分割、平均
化して得られるベクトルとしてもよい。
さらには予め同一音声分析処理により音声が入力されて
いない環境雑音のみの分析を行い雑音パタンを算出し、
音声の入力されたときのスペクトルのパタンからこの雑
音パタンを減じ(スペクトラムサブトラクション法と呼
ばれている)た結果のベクトルとしてもよい。
尚、このような雑音パタンを減じる処理は雑音環境下で
の認識方式では必要な処理である。
今、i番目の音声フレームにおける音声特徴ベクトルを
alとしその成分を81、次元数をKとすると、 a=(a(、脣、・・・、a!、・・・、aK−1■ と表現することができる。
[a:音声区間検出処理コ 音声フレームごとに入力端子21により入力される音声
特徴ベクトルa、を用いて当該音声フレームにおける音
声フレーム電力P1を算出する。
音声区間検出部12ではフレーム電力P、を用いて音声
の区間検出を行う。
音声区間検出のアルゴリズムについては各方式が提案さ
れているが、この発明は音声区間検出のアルゴリズムが
重要なのではなく音声区間検出によって得られる始端と
終端の値が重要であるため、このアルゴリズムについて
は詳しくは述べない。
音声区間検出部12によって検出された音声の始端をS
及び、終端をEとする。
[b=音声特徴内分ベクトル算出処理]音声区間検出部
22によって検出され斥始端S及び終端Eを用いて入力
端子からの音声特徴ベクトルを一定音声フレーム長に時
間軸線形伸縮する。
このブロック22における線形伸縮処理は認識処理、特
に線形マツチング処理を行い易くするために行う処理で
あり、さらにはこの発明により得られた音声パタンを格
納するためのメモリ内の領域管理を容易にするために行
う処理でもある。
次に、この時間軸線形伸縮の方法について第3図を参照
して説明する。
第3図は時間軸線形伸縮方法を説明するための図で、横
軸に伸縮後のフレーム番号j及び縦軸に1音声フレーム
の時間経Jiをそれぞれ取って示しである。ここで、線
形伸縮処理によって得られたベクトルを音声特徴内分ベ
クトルと称する。
また、線形伸縮後の音声フレーム数を説明の便宜のため
一例として32音声フレームとして説明するが、これに
限定されるものではない。
今、線形伸縮後のj番目(j=1〜32)の音声フレー
ムの音声特徴内分ベクトルをIb Jとし次式によって
算出する。j′をjに対応する実際の入力フレームの番
号とすると、 ただし[]はガウス記号を表わす。
先ず、(2)式により、1フレームの始QSから終端E
までを31分したとき、伸縮後のj番目のフレームが1
フレームの時間軸i上で取る位置j′を求め、次いで(
3)式によりj′の両近傍特徴ベクトルを内分しrf声
特徴内分ベクトルlb jを算出している。
[C:ローカルピークベクトル算出部I!l!]この処
理をローカルビーク算出部24で行う。
音声特徴内分ベクトル算出部23から送出される音声特
徴内分ベクトルlb 、をローカルピークベクトル算出
部24においてローカルピークベクトルf1に変換する
この変換処理につき第4図(A)〜(c)を参照して説
明する。
音声特徴内分ベクトルlb 、の各成分す、は次式によ
り対数変換される。
第4図(八)にこの音声特徴内分ベクトル成分の対数変
換により得られた対数成分X+(k)の例を示し、横軸
にチャネル番号kを及び縦軸に対数成分x + (k)
をそれぞれプロットして示す。この図により、i番目の
音声フレームにおける音声の対数スペクトルの形状が表
わされている。
次に、次式によって与えられる最小二乗近似直線 を用いて正規化を行う。
z(k) = x((k) −71(k)= x、(k
) −ui(k) ・k −v4(k)この正規化され
た音声特徴内分ベクトル成分(正規化成分と称する)Z
i(k)の例を第4図(B)に示す。第4図(B)にお
いて横軸にチャネル番号を及び縦軸に正規化成分Z I
(k)をそれぞれプロットして示す。
次に、次式(7)のような判断に基づいて、この正規化
成分z 1 (k)を用いてローカルピークベクトルr
1を算出する。
この(7)式の判断条件を満たすkに対してはrI=l
、満たさないkに対してはr、=Oなる値を成分として
有するベクトルr。
を算出する。このベクトルrlをローカルピークベクト
ルと称する。このローカルピークベクトルf1の例を第
4図(c)に示す。
上述した説明においては、音声特徴内分ベクトルの算出
を、始端の音声フレームから終端の音声フレームまでを
一定の音声フレーム長に線形伸縮することによって行う
方法につき説明したが、この発明では、必ずしも始端か
ら終端までを一様に線形伸縮する方法を与えるものでな
く、音声特徴内分ベクトル列の一部を時間的に隣接する
2つの音声特徴ベクトルの内分処理によって算出してロ
ーカルピークベクトルを算出する方法も適用できる。例
えば、音声定常部のみを伸縮して音声パタンを作成する
方法も適応できる。
(実施例) 以下、この発明の実施例につき第5図〜第7図を参照し
て説明する。
第5図はこの発明の音声パタン作成方法の一実施例を実
施するための具体的な回路構成を示すブロック図である
第5図において、41はマイクロフォン、42は音声信
号を増幅するための増幅器、43はローパスフィルタ、
44は音声をディジタル信号に変換するA/D変換器、
45は特徴ベクトルを算出する信号処理プロセッサ、4
6はプロセッサ、47はプロセッサのプログラムが格納
されているプログラムメモリ、48は比較パタンを格納
するための比較パタンメモリ、49は作業メモリ、5o
は雑音パタンを格納するための雑音パタンメモリ、51
は認識結果を外部に出力するためのインタフェースであ
る。ただし、それぞれの構成要素間には厳密な意味では
インタフェース回路が必要であるが、ここではこれを省
略する。
立“パタン−の  ダ 次に、この第5図を参照してこの発明の音声認識方式の
一例を説明する。
マイクロフォン41からの人力音声を増幅器42で増幅
した後、ローパスフィルタ(LPF)43においてその
高周波数成分を除去する。
次に、高周波成分が除去された人力音声をA/D変換器
44によって例えば12kHzのサンプリング周波数で
12ビツトにサンプリングする。前述のローパスフィル
タ43での処理はこのサンプリングのために必要な処理
で、従フて、このフィルタとしては例えば5kHzの遮
断周波数をもつ減衰48 d B / o c tのロ
ーパスフィルタを用いる。
A/D変換器44によってサンプリングされた音声のデ
ィジタルデータを信号処理プロセッサ45によって、周
波数分析される。この信号処理プロセッサ45によって
算出されるベクトルを特に特徴ベクトルに変換する。こ
の信号処理プロセッサ45として例えばTI社製の32
010DSPプロセツサを用いることが出来る。
プロセッサ46は音声フレーム周期毎に信号処理プロセ
ッサ45から出力される特徴ベクトルを用いて処理を行
うが、その処理の内容は ■ 登録処理 ■ 認識処理 とに分けられる。以下、これらの処理についてそれぞれ
説明をする。
[登録処理] この処理は次の処理に分けられる。
雑音パタンの算出処理 音声特徴ベクトルの算出処理 音声区間検出処理 音声特徴内分ベクトル算出処理 ローカルピークベクトル算出処理 以下、これらの各処理につき第6図の登録処理の流れ図
を参照して説明する。尚、各ステップをSで表わす。
登録処理を開始しくSl)、以下の処理を行う。
(雑音パタン算出処理)(S2) 登録処理のため、例えば、10音声フレームを雑音区間
と定める。このとき、話者は発声しないで、まわりの雑
音のみをマイクロフォン41から入力するようにする。
この雑音入力を信号経路(42,43,44)を経て信
号処理プロセッサ45に送り、これより雑音ベクトルを
生じさせ、この雑音ベクトルを作業メモリ49に逐次格
納する。このメモリ49に10音声フレーム分の雑音ベ
クトルが格納されると、これら雑音ベクトルを平均化し
てその平均値を雑音パタンメモリ50に格納する。
(音声特徴ベクトル算出処理)(S3)雑音区間終了後
、信号処理プロセッサ45から人力される特徴ベクトル
から雑音パタンメモリ50中の雑音パタンを減じること
によって、音声特徴ベクトルを算出し、これを作業メモ
リ49内に格納する。
この処理は音声フレーム周期毎に行われるが、音声区間
検出処理によって始端が検出されるまでの音声特徴ベク
トルは不必要であり、従って、作業メモリ49を効果的
に使用するためには適当に捨てていく。
(音声区間検出処理)(S4) 次に、第1図に示した音声区間検出部22における前述
した処理を行う。
先ず、作業メモリ49に格納されている音声特徴ベクト
ル哀1からフレーム電力P1を算出する。
次に、この算出されたフレーム電力P1と、予め設定さ
れている区間検出周間値との間で、大小の比較を行って
音声の始端S及び終端Eをそれぞれ決定する。この場合
、音声の始端検出の簡単なアルゴリズムとしては、例え
ば、フレーム電力P1が、連続して3音声フレ一ム以上
、閾値以北となる先頭の音声フレームを始端Sとするア
ルゴリズムを用いることができるが、他のアルゴリズム
であってもよい。
また、音声の終端Eの検出の簡単なアルゴリズムとして
、例えば、フレーム電力P、が、連続して30音声フレ
一ム以上、閾値未満となる先頭の音声フレームから1つ
前の音声フレームを終端Eとするアルゴリズムを用いる
ことができるが、これに限定されるものではない。
この音声区間の終端Eを検出しなかった場合には(SS
)、再び音声特徴ベクトルa1の算出処理(S3)を行
った後、音声区間の検出処理(S4)を繰り返し行い、
最終的に終端Eを検出する(S5)。
(音声特徴内分ベクトル算出処理’)(S6)音声直間
の終端検出後、作業メモリ49に格納されている音声特
徴ベクトル玉、と、音声区間の始端S及び終端Eとを用
いて、第1図の音声特徴内分ベクトル算出部23におけ
る前述した処理を行って、得られた音声特徴内分ベクト
ルTojを作業メモリ49に格納する(S6)。この場
合、線形伸縮の音声フレーム数を例えば32音声フレー
ムとする。
(ローカルピークベクトル算出処理)(S7)次に、作
業メモリ49に格納された音声特徴内分ベクトルわ、を
、第1図のローカルピークベクトル算出部24において
前述した処理を行ってローカルピークベクトルr1を得
、得られたローカルピークベクトルr1を比較パタンメ
モリ48に格納する。
z>3時の音声に対するローカルピークベクトルr1を
比較ローカルピークベクトルと称し、、、SJで表現す
る。また32個の比較ローカルピークベクトル、BSJ
によって表現される音声のパタンを比較パタンと称し5
ffiで表わす。
この比較パタンは各カテゴリ毎に1つあるいは複数ある
ものとし、この比較パタンの総数をMとする。
また比較パタンS。に対するカテゴリ名をインタフェー
ス51から出力する必要がある場合には、そのカテゴリ
名C1を比較パタンメモリ50に格納しておく。
以上の各処理により登録処理を終了する。
[認識処理] この処理はさらに次の処理に分けられる。
雑音パタンの算出処理 認識音声の特徴ベクトルの算出処理 認識音声の音声区間検出処理 認識音声の音声特徴内分ベクトル算出処理認識音声のロ
ーカルピークベクトルの算出処理 パタン類似度算出処理 認識判定処理 以下、これらの各処理について第7図の認識処理の流れ
図を参照して説明する。
認識処理を開始しく5IO)、次の処理を行う。
(雑音パタンの算出処理)(Sll) 登録時と認定時とでは雑音の状況か変化していることも
考えられるため、雑音パタンの算出を再度行う。
この雑音パタンの算出に関しては単語入力の前毎に行う
のが良いが、単語の入力速度が遅くなったり或いは雑音
測定中に発声し易いなどの点から、特に特別な雑音区間
を適宜設けてその区間で雑音パタンを測定する方が現実
的であろう。
登録時と同様に、ある10音声フレームを雑音区間と定
め、このとき話者は発声しないようにする。この状態で
、まわりからの雑音のみをマイクロフォン41から入力
させて、前述と同様に信号処理プロセッサ45に送り、
これより生ずる雑音ベクトルを作業メモリ49に逐次格
納する。10音声フレーム分の雑音ベクトルを格納した
とき、これら雑音ベクトルの平均を取って、この平均雑
音ベクトルを雑音パタンメモリ50に格納する。
(音声特徴ベクトル抽出処理)(S12)雑音区間終了
後から音声特徴ベクトルの算出は新しい雑音パタンを用
いて行われる。
信号処理プロセッサ45から入力される特徴ベクトル直
1から雑音パタンメモリ50に格納されている雑音パタ
ンを減じることによって音声特徴ベクトルaJを算出し
、これを作業メモリ49に格納する。この処理は音声フ
レーム周期毎に行われる。
また、後述する始端検出以前の音声特徴ベクトルは不必
要であるため適宜捨てていく。
(音声区間検出処理)(S13) 認識音声に対して′frJi図の音声区間検出部22に
おける前述した処理を行う。区間検出のアルゴリズムは
前述した[登録処理]における(音声区間検出処理)の
場合のアルゴリズムと同様である。
区間終端Eを検出しなかった場合には(S14)、これ
を検出するまで繰り返し処理を行う。
(音声特徴内分ベクトル算出処理)(S15)区間終端
検出後、認識音声に対して第1図の音声特徴内分ベクト
ル算出部23における処理を行い、得られた音声特徴内
分ベクトルlb 、を作業メモリ49に格納する。この
場合、線形伸縮の音声フレーム数を例えば32音声フレ
ーム長とする。
(認識ローカルピークベクトル算出処理) (516)
認識音声に対して第1図のローカルピークベクトル算出
部24における前述した処理を行い、得られたローカル
ピークベクトル(認識ローカルピークベクトル)を作業
メモリ49に格納する。この認識ローカルピークベクト
ルをr、で表現する。
また32個の認識ローカルピークベクトルによって表現
される認識音声のパタンを認識パタンと称し、これをR
で表現する。
(パタン類似度算出処理)  (s、+7)認識パタン
Rとm番目の比較パタン5.6との間のパタン類似度D
1を で定義する。ここで右上添字tはベクトルの転置を表わ
す。
通常この(8)式で表現されるパタン類似度の算出方法
は線形マツチング法と呼ばれており、各種方式が提案さ
れている。
作業メモリ49内の認識パタンRと比較パタンメモリ4
8内の比較パタンS1の間のパタン類似度り、が算出さ
れ作業メモリ49内に格納される。
このパタン類似度の算出処理を全比較パタンについて行
い(S+8)、全比較パタンについてこの処理が未完了
のときは再度パタン類似度算出処理(S+7)を繰り返
し行って、全比較パタンについて完了する。
(認識判定処理)(519) 各カテゴリ毎に求まるパタン類似度り、のうち最大を与
えるパタン番号m、□を で求め、このパタン番号m 、、Xに対応するカテゴリ
名Cm□8を比較パタンメモリ内から読み出すか又はパ
タン番号mmawの値自体をインタフェース51を通し
て外部に出力する。
以トの処理によりこの発明の第一の実施例の処理が完了
する( S 20)。
上述した実施では登録動作を行う特定話者認識方式に適
応したが、Pめ不特定多数の人の比較パタンを作成して
おけば話者を限定しない不特定話者認識方式にも適応可
能となる。この場合ローカルピークベクトルを用いるこ
とにより、パタンか多くなっても比較パタンメモリを少
なくでき、従って比較パタンメモリの削減効果は大きい
(発明の効果) 以上説明したようにこの発明によれば次の効果が生じる
(1)音声スペクトルのピーク位置を取り出しているた
め、近傍の雑音位置によってピーク位置がずれることが
なく、従って、認識性能の低下がない。
(2)ローカルピークベクトルをパタン類似度演算に用
いているため演算処理がきわめて簡易である。
(3)また音声特徴内分ベクトルを音声の始端から終端
までを一定音声フレームになるように線形伸縮すること
により算出するか又は線形、非線形を問わず一定音声フ
レーム長になるように処理した場合には、比較パタン又
は認識パタンの記憶容量は等しく領域管理が容易に行え
るものである。
【図面の簡単な説明】
第1図はこの発明の音声パタン作成方法におけるローカ
ルピークベクトル算出処理を説明するためのブロック図
、 第2図は音声分析処理に用いるバンドパスフィルタの特
性を示す図、 第3図は音声特徴内分ベクトルの算出のための時間軸線
形伸縮方法の説明図、 第4図はローカルピークベクトル算出を説明するための
説明図、 第5図はこの発明の実施例を示すブロック図、第6図及
び第7図はこの発明の登録処理及び認識処理の流れ図、 第8図は従来の音声パタン作成方法を説明するためのブ
ロック図である。 21・・・入力端子、    22−・・音声区間検出
部23・・・音声特徴内分ベクトル算出部24・・・ロ
ーカルピークベクトル算出部41−・・マイクロフォン
、 42・−増幅器43−・・ローパスフィルタ、44
−A/D変換器45−・・信号処理プロセッサ 46・・・プロセッサ、   47・−プログラムメモ
リ48・・・比較パタンメモリ、49・・一作業メモリ
50−・・雑音パタンメモリ 51−・・インタフェース。 特許出願人    沖電気工業株式会社f 2    
j        Jf j2伸m機のフし一4番8j 時間軸線形伸縮方法の説明図 第3図 キマキル蚤号     k (c)  r’、 0001000001000010
00口−カルヒー7ベクトIレヘ分 ロー刀Jしこ゛−7ベクトル算出説明圓第4図 堂俳灯理の流れ出 第6図 認識幻理の流れ国 第7図

Claims (2)

    【特許請求の範囲】
  1. (1)入力音声から類似度判定用の基準データを形成す
    る登録処理と、認識音声から類似度判定用の認識データ
    を形成する認識処理とを含む音声パタン作成方法におい
    て、 該登録処理及び認識処理は、 (a)音声フレーム周期毎に算出され音声のスペクトル
    の形状を与える音声特徴ベクトルを入力させること、 (b)任意の前記音声フレームにおける音声特徴ベクト
    ルと、次の前記音声フレームにおける音声特徴ベクトル
    とをそれぞれ内分して音声特徴内分ベクトルを算出する
    こと、 (c)該音声特徴内分ベクトルから最小二乗近似直線を
    算出し、該音声特徴内分ベクトルの各成分を該最小二乗
    近似直線を基準する値に変換し、これら成分間で正でか
    つ極大となる位置を1にしその他の成分を0としてロー
    カルピークベクトルを算出することを含み、 前記登録処理及び認識処理で得られたローカルピークベ
    クトルを前記基準データ及び認識データとそれぞれなし
    たことを特徴とする音声パタン作成方法。
  2. (2)音声特徴内分ベクトルの算出は、音声の始端に対
    応する音声フレームから音声の終端に対応する音声フレ
    ームまでの音声特徴ベクトルを用いて、一定音声フレー
    ム長に線形伸縮することによって、行うことを特徴とす
    る特許請求の範囲第1項記載の音声パタン作成方法。
JP61000451A 1985-09-26 1986-01-06 音声パタン作成方法 Pending JPS62159195A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP61000451A JPS62159195A (ja) 1986-01-06 1986-01-06 音声パタン作成方法
US06/909,957 US4852181A (en) 1985-09-26 1986-09-22 Speech recognition for recognizing the catagory of an input speech pattern
EP86113175A EP0219712B1 (en) 1985-09-26 1986-09-25 Method of and system for speech recognition
DE8686113175T DE3683343D1 (de) 1985-09-26 1986-09-25 Verfahren und einrichtung zur spracherkennung.
US07/295,194 US4918735A (en) 1985-09-26 1989-01-09 Speech recognition apparatus for recognizing the category of an input speech pattern

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61000451A JPS62159195A (ja) 1986-01-06 1986-01-06 音声パタン作成方法

Publications (1)

Publication Number Publication Date
JPS62159195A true JPS62159195A (ja) 1987-07-15

Family

ID=11474152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61000451A Pending JPS62159195A (ja) 1985-09-26 1986-01-06 音声パタン作成方法

Country Status (1)

Country Link
JP (1) JPS62159195A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004505328A (ja) * 2000-07-31 2004-02-19 シャザム エンターテインメント リミテッド 高い雑音、歪み環境下でサウンド・楽音信号を認識するシステムおよび方法
JP2016512610A (ja) * 2013-02-04 2016-04-28 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド オーディオ認識のための方法およびデバイス
US10354307B2 (en) 2014-05-29 2019-07-16 Tencent Technology (Shenzhen) Company Limited Method, device, and system for obtaining information based on audio input

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61228500A (ja) * 1985-04-03 1986-10-11 沖電気工業株式会社 音声認識方法
JPS61230199A (ja) * 1985-04-04 1986-10-14 沖電気工業株式会社 音声認識方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61228500A (ja) * 1985-04-03 1986-10-11 沖電気工業株式会社 音声認識方法
JPS61230199A (ja) * 1985-04-04 1986-10-14 沖電気工業株式会社 音声認識方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004505328A (ja) * 2000-07-31 2004-02-19 シャザム エンターテインメント リミテッド 高い雑音、歪み環境下でサウンド・楽音信号を認識するシステムおよび方法
JP2016512610A (ja) * 2013-02-04 2016-04-28 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド オーディオ認識のための方法およびデバイス
US10354307B2 (en) 2014-05-29 2019-07-16 Tencent Technology (Shenzhen) Company Limited Method, device, and system for obtaining information based on audio input

Similar Documents

Publication Publication Date Title
EP0219712B1 (en) Method of and system for speech recognition
JPS634200B2 (ja)
CN110570871A (zh) 一种基于TristouNet的声纹识别方法、装置及设备
JPS62159195A (ja) 音声パタン作成方法
JPH04184400A (ja) 雑音除去装置
JP3118023B2 (ja) 音声区間検出方式及び音声認識装置
JPS6273299A (ja) 音声認識方式
JPS6229799B2 (ja)
JPS6273298A (ja) 音声認識方式
JPH04324499A (ja) 音声認識装置
JP3102553B2 (ja) 音声信号処理装置
CN115938382B (zh) 降噪控制方法、装置、设备及存储介质
JPH0556520B2 (ja)
JP3023135B2 (ja) 音声認識装置
JPS62262897A (ja) 音声認識方式
JPS625298A (ja) 音声認識装置
JP2668877B2 (ja) 音源正規化方法
JPH05313695A (ja) 音声分析装置
JPH09198079A (ja) 音声認識装置
JP2001265368A (ja) 音声認識装置および認識対象検出方法
JPS59204895A (ja) 音声認識装置
JPH02232699A (ja) 音声認識装置
JPH0316038B2 (ja)
JPS62113199A (ja) 音声スペクトル抽出方法
JPH0448400B2 (ja)