JPS61177494A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS61177494A
JPS61177494A JP61013964A JP1396486A JPS61177494A JP S61177494 A JPS61177494 A JP S61177494A JP 61013964 A JP61013964 A JP 61013964A JP 1396486 A JP1396486 A JP 1396486A JP S61177494 A JPS61177494 A JP S61177494A
Authority
JP
Japan
Prior art keywords
parameter
frame
parameters
utterance
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61013964A
Other languages
English (en)
Other versions
JPH0797279B2 (ja
Inventor
マシユー・レニツグ
ポール・マーメルスタイン
ビシユワ・ナソ・グプタ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nortel Networks Ltd
Original Assignee
Northern Telecom Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northern Telecom Ltd filed Critical Northern Telecom Ltd
Publication of JPS61177494A publication Critical patent/JPS61177494A/ja
Publication of JPH0797279B2 publication Critical patent/JPH0797279B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Complex Calculations (AREA)
  • Telephonic Communication Services (AREA)
  • Document Processing Apparatus (AREA)
  • Selective Calling Equipment (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Bidet-Like Cleaning Device And Other Flush Toilet Accessories (AREA)
  • Image Analysis (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識に関する。
従来の技術及び発明が解決使用とする問題点公知の音声
i!識表装置は、パルス符号変11(PCM)型式に符
号化された音声は前もっで処理されて、それを人間の聴
覚システムが音声を知覚する方法により密接に関連した
形状にする1例えば、音声はフィルタパンクエネルギー
(filter  bankener@ie)、ケプス
トフ(cepstra)、メルφ周波数テプストラ、又
は線形予測係数(linear  predictio
n  coefficients)を与えるために処理
されることができる。その後認識ユニット、例えば語、
又はシラブルは有効な(valid)ユニットを表わし
ている一連の基準テンプレートの各々と比較される。′
Rもぴったり適合しているテンプレートが未知のユニッ
トであると見なされ、そしてテンプレートに対応するユ
ニットのラベルが出力に提供される。
このような認識装置はある適用には適合しているが、こ
れ等の認識装置は、特にスピーカー・独立(speak
er−1ndependent)の、電話を基礎にした
、又は多い用語の適用のいくつかの適用において受は入
れられない誤り率を与えるので、これ等の認識装置は完
全に満足すべ終ものではない、これは通常の表示(re
presentat ion )が人間の聴覚システム
の応答に充分合わせて作られていないためと考えられる
問題点を解決するための手段 本発明によれば、音声をII識する装置は;(i)  
各々のパラメータフレームが音声(utteranee
)の対応する時間フレームを表わす一連のパラメータフ
レームとして未知の音声発声を表わす手段と、 (ii)複数の基準テンプレートを・設け、各々が最初
に述べたバフメータと同じ種類のパラメータで表わされ
た一連のパラメータフレームを含む手段と、 但し、最初に述べた(未知)シーケンス及び第2に述べ
た(基準)シーケンスの各々のパラメータフレームはセ
ットの一次パラメータと、セットの二次パラメータとを
具備し、各々の二次パラメータが異なる時間フレームに
対して得られた、それぞれのパラメータフレームにおけ
る対応する一次パラメータ間の符号化した(signe
d)差を表わす。
(至)未知の発声のパラメータフレームのシーケンスを
各々の基準テンプレートと比較し、そして基準テンプレ
ート中のどれが最も近くそれに類似しているかを決定す
る手段とを具備しでいる。
各々のパラメータフレームは、例えばフィルタバンクエ
ネルギー、ケプストフ、メルを基礎にしだケプストフ又
は線形予測係数を、使用した表示の形式によって選択さ
れたセットのパラメータを含む。
好ましくは、前記系なる時間フレームの中心間の時間差
は20ミリ秒から30ミリ秒、好ましくは50ミリ秒で
ある。二次バフメータは先行の、且つ次の一次パラメー
タ、例えば±25ミリ秒又は±2フレームから得られる
のが好都合である。
また未知の発声及び基準テンプレートの双方に対して二
次パラメータとして振幅の変化又は知覚音量(perc
eptual  1oudness)の変化を表わす成
分を含むのが好ましい、このような音量成分は、絶対振
幅又は絶対音量が語を区別する場合に有効でないので一
次パラメータに通常使用されない。
従って、一般的に、新方法は短時間間隔(例えば20乃
至200ミリ秒)に亘り一次パラメータの各々の変化を
表わすセットの動的(dyna霞is)二次パラメータ
と共に音声認識のために標準的に使用されるセットの一
次短時間静的(sta+tic)パラメータを増加する
ことより虞っている。−次パラメータに加えて動的パラ
メータの使用は、他の、無関係な、音響の差に対立する
ものとして重要な音素の差により鋭敏な音声音を区別す
るのに使用される距離測定又は確条密度関数を与える。
いかなる種類の短時間スペクトル表示(repress
nt+ation)も−次パフメータのセットとして使
用されることができる。このような表示の実例はフィル
タパンクエネルギー、ケプストラム(cepstru論
)、メル・周波数ケプストラム、線形予測係数(目ne
arprediction  coefficient
s)等を含む、これ等の表示の各々は小数のパラメータ
(典型的に3と80との間)によってタイムフレーム(
典型的に2ミリ秒と50ミリ秒との閏)に亘って振幅(
謙agnitude)又はパワースペクトルを推定する
Ptが時間tにおいて計算された一次パラメータのベク
トルであれば、タイムオフセット(time  。
ff5ets)a及びbは下記のように選択される;−
20ミリ秒≦a+b≦200ミリ秒 動的パラメータベクトルΔP、は下記のベクトル差と定
覇づけされる ΔPt ”Pt+a −Pt+b 本発明は時間tの近くの音声信号を表わすためにΔP、
と一緒にパラメータP、の集合を使用することより成っ
ている。確鬼密度関数及び距離は従って静的(−次)及
び動的(二次)パラメータの双方より戒っているこの増
大したパラメータセットによって規定される。
あるいはまた、上記の誘導(derivation)は
フレーム数によって表わされることができる。Δ1=隣
接する7レ一ム間の時間差、そしてPi=7ミニフレー
ムiる一次パラメータベクトルであれば、動的パラメー
タベクトルΔP・は下記のベクトル差として定義づけら
れる。
好ましくはパラメータはノル(mel)を基礎としたケ
プス)ラル(6epstral)係数であり、この場合
には一次係数C1f・・・・・、Cはスペクトル形状を
表わし1.そして二次パラメータΔC0・・・・・ΔC
は特定した時間間隔中のスペクトル形状変化を表わす、
更に、ΔCは音jl (loudness)又は振幅の
変化を表わすために二次パラメータのセット内に含まれ
ることができる。
本発明の実施態様を実施例のみにより、且つ添付図面を
参照して説明する。
実施例 #s1図に例示された音声認識システムでは、信号Sn
は線形パルス待号変調(PCM)された音声信号を表わ
しており、これは認識されるべき未知の又は「入力」の
発声である。信号Snはウィンドウ手R10に印加され
る。ウィンドウ手段10では、信号Snは各々が25.
6 ミリ秒又は204サンプル持続時間の時間フレーム
に分割される0作動において、各々のフレームは12.
8ミリ秒又は102サンプルだけ進められ、従って連続
フレームは50パーセントだけオーバーラツプする。
それから各々の時間フレームは巡点的にかさ上げ余弦(
raised  cosine  pulse)Ill
数に乗ぜられ、そしてフィルタ手8.12に印加される
。このハミングウィンドウはスペクトルサイドクープ(
sidelobes)を減衰する。
256点高遠7−リエ変換が各々の時間アレーム上で行
なわれ、そして128.E(実パワースペクトルF、・
・・・・FN、となる、この場合N=28である。
フィルタ一手段12は20の三角形(triangul
ar)フィルタのフィルタパンクを具備しでおり、これ
等が8kHzのPCMサンプリングレートf に$ 対して約100Hzから約400 HzまでのII囲に
わたり24チヤンネルの対応するセット内の二ネルイー
を決定する。92図に例示された如く、チャンネルはチ
ャンネル中間周波数が100Hz間隔で100Hzから
1000Hzに、且つ対数関数的に1100Hzから4
000 Hzに線形に間隔をへだでちれるようにしてノ
ル間隔でへだてられている。
各々の時間フレームに対して、各々のフィルタチャンネ
ルの出力は下式に従って得られる重みづけられた(we
ighted) B  である:B、=下  W、・ 
F。
1=l   IJ   l この場合、B・は1番目のノル・周波数チャンネルエネ
ルギー出力、F、は高速7−リエ変換か置 らのNスペクトル振幅1≦i≦Nであり、そしてW8.
は下記の如く定義づけされた重みである。
IJ 但し、1≦i≦N及び1≦j≦20 N そしてこの場合1 、 、に、 、h・但し、1≦j≦
」」」 20は第1表に与えられた、各フィルタチャンネルのそ
れぞれ低域、中心及び高域周波数である。
信号B、の20の対数チャンネルエネルギーは下記に従
って手段14において計算される:L、=10gIll
B、但し、1≦j≦20゜」           」 フィルタ手段及び手段14の出力は、それぞれ知党音f
iCo、及び第1の7つのエルを基礎にした(eel 
 based)ケプストラル(cepstral)係数
CllCa1・・・・・Ct)を計算するために手段1
6に印加される。
知覚前fic  はこのようにして得られたチャンネル
エネルギーB、の知覚的な加重(pereeptual
ly」 weighted)合計の対数である:C=6001o
g、、Σ V、B。
0       j=I J J この場合V・≧0は知覚的重要性に対応して選」 択された。■・に対する適切な値が以下の第1表」 に例示されている。
第1表 1、    O,、100,、20G、、  、001
62、  100.、 200.、  300.  .
02563、  200.、 300.、  400.
  .12964、  300.、 40G、、  5
00.  .40965、  400.、 50G、、
  600. 1゜6、   500@、    60
0.、   70G、   1゜7、   600.、
   700.、   800.  1゜8、    
 フ00..    800.、    900.  
 1゜9、    800.、   90G、、   
100G、   1゜10、    900.、  1
000.、  1150.  1゜11、   100
G、、   1150.、  1320.  1゜12
、   1150.、  132G、、   1520
.  1゜13、   1320.、  152G、、
   1750.  1゜14、    1520.、
   1フ50.、   200G、   l。
15、   175G、、   2000.、  23
00.  1゜16、   200G、、   230
0.、  2640.  1゜17、   2300.
、  264G、、   3040.  1゜18、 
  264G、、   3040.、  350G、 
  1゜19、   304G、、   3500.、
  4000. 1゜20、   3500.、  4
00G、、   480G、   1゜ケプストラル係
数C0を得るための手段16は対数エネルギーの余弦変
換をとることによって機能する。
この場合1≦i≦7゜ 係数計算に関する更に他の情報のために、リーグ(re
ader)は音響及び信号処理に関する1980年8月
発行のIEEE会報、第ASSP28版、第4号、第3
57−366頁、[連続的に話した文における単音節語
認識のためのパラメトリック表示の比較(Compar
ison  of  Parametrie  Rep
resentations  for  Monosy
llabie  WordssRecognition
  in  Continuously  5poke
n  5entences)Jと題するニス・ビー・グ
ビス(S、B。
D avis)及びピー・メーノルシュタイン(P、M
armelstein)による論文に向けられて、いる
−次パラメータCat・・・・・IC?のセットと、知
覚的加重音量パラメータCoと含んでいる手段16の出
力が12.8ミリ秒毎に発声(utterance)終
点検出器18に送られる0語の終点は、時間フレームナ
ンバーの関数として知覚音量Goにおける充分な持続期
間及び深さの最小を捜すことによって検出される。終点
検出は、例えば音響、音声及び信号処理に関する198
1年8月発行、IEEE会報、第ASSP−29版、第
4号、第777貫乃至第785頁に[隔離語認識のため
の改良された終点検出器(A n  Improved
  E ndpointDetector  for 
 l5olated  Word  Recognit
i。
n)Jと題し、エル・エフ争うノル(L、F、La5e
l)、エル・アール・ラビナー(L、 R,Rabin
er)、ニー・イー・ローゼンベルク(A、 E、 R
osenberg)及びシエイ・シー・ウィルボン(J
、 G、 Wilpon)により開示された如き種々の
公知の方法の1つによって行なわれることができる。
その後語間又は沈黙が除かれる、即ち干渉発声(int
ervening  utterance)のみが伝え
られる番任意に発声当りのパラメータフレーム数Mは線
形空間フレーム(Iinearly  5paced 
 frame)の抹消又は繰返しによって、例えばM=
32に標準化されることができる。
終点検出器18の出力は一連のMエルを基礎にした(e
el−based)ケプストラであり、そして次のマト
リクスによって表わされる;− U=  会。
この出力信号、又は認識ユニット表示、Uは下記の如き
動的(dynamic)パラメータを計算する動的パラ
メータ計算手段に印加される;−ΔC,,=C,、−C
,。
1、J        1十e*J      +−c
L J但し、d+1≦i≦M−CI O≦j≦7゜この
場合cは先のフレームセパレーションであり、dは遅れ
フレームセパレーシヨンである。特定の場合に、c=d
=2 。
1≦i<d+1に対して Δ” ’ =Ci+c*j−C1tJ”そして1豐J M −c < i≦Mに対して 40° ”0M*j−01d*j 11」 これ等の動的パラメータは入って未る剰戟の変化を知覚
するための人間の聴覚系統の性質を考慮しでいる。
MパラメータフレームシーケンスU′は、マトリクスに
よって表わされた一次(静的)及び二次(動的)パラメ
ータを含んでいるニー Cl f l f m m m I Cl t 1 f
  ΔC1llltssstΔC1l?は動的計算手1
3j20から動的時間歪み(warping)手段22
に印加される。
静的音量に対するC ベクトルが使用されないことに注
目すべきである。
動的パラメータ及び動的音量成分ΔT、、。を倉んでい
る対応するセットのテンブレー) (tes+plit
es)は下記の形の手段24によって得られる。
T l f l t m e * t T I * ?
 f    ΔTIT。toastΔTlf?Ts*e
+vam*Tsttt*    ΔT31@6sa++
#ΔLt*tテンプレートに対するパラメータのシーケ
ンスがまた動的時間歪み手段22に印加される。
「未知」のパラメータの表示U′は更に各々の基準テン
プレートT′及び各々の場合に計算された時間歪み距離
と比較される。未知の発声は最小歪み距離を有している
テンプレートに対応する基準発声であると見なされる。
動的時間歪み計算はタイムウオープス、ストリングエデ
イツ及び高分子(Time  Warps、Strin
g。
Editseand  Maeromoleeules
)に「シラブルを基礎にした連続音声認識システムにお
ける動的プログラミングの使用(U se  of  
D ynamie  P rogrammirig’i
n   a   5yllable−Based   
ContinuousS peach  Recogn
ition  ’S yste−)Jと題する章にハン
ト(Hunt)、レニグ(Lennig)及びマーノル
シエタイン(Mereelstein)によって、記述
されでいる如くであることができる二発行所、7デイソ
ン・ウェスレイ(Addison−Wesley)(リ
ーディング(Reading)MA)、1983年のデ
ィ・サンコア及びクエイ・ビークルスカA/(D、 5
ankoff  and  J、 B、 Kruska
l)のシーケンス比較の理論と実際(The  The
ory  and  Proctiae  of  5
equence  Co■parison)の51i1
63頁乃至第187頁に記載されている。
認識精度における有意な改良がパラメータ表示において
動的パラメータを含むことによって得られることが発見
された。*た動的パラメータが約50ミリ秒だけ間隔を
へだでた時間フレーム間に音声信号の変化を表わすとき
、特によい結果が得られることが発見された。
孤立した(isolated)!iの認識装置に適用す
る如く記述したが、本発明はまた連続した(conne
cted)語の認識装置に適用可能であり、且つまた認
識装置はスピーカー・連続(speaker −tra
ined)であるかスピーカー争独立(S peake
r −1ndependent)であるかが有用である
一次バフメータが第1の7つのノル・周波数ケプストラ
ル係数であった上記の如き動的パラメータと共に増加し
たパラメータセットを使用する実験結果は公衆切換電話
回路網に亘リスビーカー・独立に接続したデイツプ) 
(digit)1!識においで認識誤りの約20%減少
となった。第1の7つのノルを基礎にしだケプストラル
係数に対応する動的パラメータの使用に加えて、全音量
の変化に対応する第8の動的パラメータは更に誤りを約
10%まで減少した。
【図面の簡単な説明】
li図は音声認識装置の一般化されたブロック線図であ
る、 第2図は音声認識装置のフィルタ手段の特性を表わして
いる線図である。 10・・・ハミング窓 12−・・フィルタ 14・・・対数計算手段 20・・・グイナミクスを計算する手段FIG、  1

Claims (1)

  1. 【特許請求の範囲】 1、未知の音声発声を認識する方法において、(i)該
    未知の音声発声を、各々のパラメータフレームが該発声
    の対応する時間フレームを表わしている一連のパラメー
    タフレームとして表わすこと; (ii)各々が最初に述べたパラメータフレームと同じ
    種類のパラメータで表わされた一連のパラメータフレー
    ムを含んでいる複数の基準テンプレートを提供すること
    、 但し、該最初に述べたパラメータのシーケンス及び第2
    に述べたパラメータのシーケンスの各々のパラメータフ
    レームが1セットの一次パラメータ及び1セットの二次
    パラメータを含み、各々の二次パラメータが異なる時間
    フレームに対して、得られたそれぞれのパラメータフレ
    ームにおける対応する一次パラメータ間の符号化した差
    を表している;そして (iii)該未知の発声のパラメータフレームのシーケ
    ンスを各々の基準テンプレートと比較し、そして該基準
    テンプレートの中のどれが該未知の発声に最もぴったり
    類似しているかを決定することのステップを含むことを
    特徴とする方法。 2、異なる時間フレームの中心間の時間が20ミリ秒乃
    至200ミリ秒の範囲である特許請求の範囲第1項記載
    の方法。 3、該時間が約50ミリ秒である特許請求の範囲第2項
    記載の方法。 4、二次パラメータとして動的音量成分を計算するステ
    ップと、該パラメータフレームの各々における対応する
    動的音量成分を提供するステップとを含む特許請求の範
    囲第1〜3項のいづれか1つの項に記載の方法。 5、音声信号における未知の音声発声を認識する装置に
    おいて、 (i)各々のパラメータフレームが該発声の対応する時
    間フレームを表わしている一連のパラメータフレームと
    して未知の音声発声を表わすための手段と; (ii)各々が最初に述べたパラメータフレームと同じ
    種類のパラメータで表わされた一連のパラメータフレー
    ムを含んでいる複数の基準テンプレートを提供する手段
    と、 但し、最初に述べたシーケンスのパラメータフレーム及
    び第2に述べたシーケンスのパラメータフレームの各々
    のパラメータフレームがセットの一次パラメータ及びセ
    ットの二次パラメータを含んでおり、各々の二次パラメ
    ータが異なる時間フレームに対して得られたそれぞれの
    パラメータフレームにおける対応する一次パラメータ間
    の符号化した差を表わしている;そして (iii)該発声のシーケンスパラメータフレームを各
    々の基準テンプレートと比較し、且つ該基準テンプレー
    トの中のどれが該未知の発声に最も近く類似しているか
    を決定する手段と を具備していることを特徴とする装置。 6、20ミリ秒乃至200ミリ秒の範囲の時間間隔によ
    って間隔をへだてられている時間フレームに対して得ら
    れたそれぞれのパラメータフレームにおける一次パラメ
    ータ間の符号化した差を表わすために、該提供手段が各
    々、該第2のパラメータを提供する特許請求の範囲第5
    項記載の装置。 7、該時間フレームが中心対中心で約50ミリ秒だけ間
    隔をへだてられている特許請求の範囲第6項記載の装置
    。 8、該未知の発声シーケンス及び該テンプレートシーケ
    ンスの双方に対してセットの二次パラメータの成分とし
    て動的音量成分を計算する手段を具備している特許請求
    の範囲第5〜7項のいづれか1つの項に記載の装置。 9、該提供手段が、 ΔC_i_、_j=C_i_+_c_、_j−C_i_
    −_d_、_j但し、d+1≦i≦M−c、0≦j≦7 この場合cは先のフレームセパレーシヨン、そしてdは
    遅れフレームセパレーシヨンであり、双方とも動的パラ
    メータが決定されるフレームに関連している、 上記の式に従つて二次パラメータΔC_i_、_jを計
    算する手段を含む特許請求の範囲第5項記載の装置。 10、該二次パラメータが ΔC_i_、_j=C_i_+_c_、_j−C_i_
    −_d_、_j但し、d+1≦i≦M−c、0≦j≦7 この場合cは先のフレームセパレーシヨン、そしてdは
    遅れフレームセパレーシヨンであり、双方とも動的パラ
    メータが決定されるフレームに関連している、 上記の式に従つて計算される特許請求の範囲第1項記載
    の方法。 11、該二次パラメータを計算する該手段が式ΔC_i
    _、_j=C_i_+_c_、_j−C_1_、_j但
    し、1≦i<d+1 に従つて、且つ式 ΔC_i_、_j=C_M_、_j−C_i_−_d_
    、_j但し、M−c<i≦M に従つて計算する特許請求の範囲第9項記載の装置。 12、該二次パラメータが式 ΔC_i_、_j=C_i_+_c_、_j−C_1_
    、_j但し、1≦i<d+1 に従つて、且つ式 C_i_、_j=C_M_、_j−C_i_−_d_、
    _j但し、M−c<i≦M に従つて計算される特許請求の範囲第10項記載の方法
JP61013964A 1985-01-30 1986-01-27 音声認識装置 Expired - Lifetime JPH0797279B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CA000473198A CA1232686A (en) 1985-01-30 1985-01-30 Speech recognition
CA473198 1985-01-30

Publications (2)

Publication Number Publication Date
JPS61177494A true JPS61177494A (ja) 1986-08-09
JPH0797279B2 JPH0797279B2 (ja) 1995-10-18

Family

ID=4129719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61013964A Expired - Lifetime JPH0797279B2 (ja) 1985-01-30 1986-01-27 音声認識装置

Country Status (7)

Country Link
EP (1) EP0192898B1 (ja)
JP (1) JPH0797279B2 (ja)
KR (1) KR940002437B1 (ja)
CN (1) CN1009320B (ja)
AT (1) ATE51457T1 (ja)
CA (1) CA1232686A (ja)
DE (1) DE3576868D1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6371599U (ja) * 1986-10-30 1988-05-13
US5152958A (en) * 1991-01-22 1992-10-06 U.S. Tool & Die, Inc. Spent nuclear fuel storage bridge
JP2000250576A (ja) * 1999-02-23 2000-09-14 Motorola Inc 音声認識システムにおいて特徴を抽出する方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5182773A (en) * 1991-03-22 1993-01-26 International Business Machines Corporation Speaker-independent label coding apparatus
JPH07261797A (ja) * 1994-03-18 1995-10-13 Mitsubishi Electric Corp 信号符号化装置及び信号復号化装置
JPH08211897A (ja) * 1995-02-07 1996-08-20 Toyota Motor Corp 音声認識装置
US5806022A (en) * 1995-12-20 1998-09-08 At&T Corp. Method and system for performing speech recognition
US6957183B2 (en) 2002-03-20 2005-10-18 Qualcomm Inc. Method for robust voice recognition by analyzing redundant features of source signal
GB2422237A (en) * 2004-12-21 2006-07-19 Fluency Voice Technology Ltd Dynamic coefficients determined from temporally adjacent speech frames
US8030568B2 (en) * 2008-01-24 2011-10-04 Qualcomm Incorporated Systems and methods for improving the similarity of the output volume between audio players

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58130393A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6371599U (ja) * 1986-10-30 1988-05-13
US5152958A (en) * 1991-01-22 1992-10-06 U.S. Tool & Die, Inc. Spent nuclear fuel storage bridge
JP2000250576A (ja) * 1999-02-23 2000-09-14 Motorola Inc 音声認識システムにおいて特徴を抽出する方法

Also Published As

Publication number Publication date
KR940002437B1 (ko) 1994-03-24
KR860006083A (ko) 1986-08-18
ATE51457T1 (de) 1990-04-15
EP0192898A1 (en) 1986-09-03
CA1232686A (en) 1988-02-09
CN1009320B (zh) 1990-08-22
EP0192898B1 (en) 1990-03-28
CN86100298A (zh) 1986-08-06
JPH0797279B2 (ja) 1995-10-18
DE3576868D1 (de) 1990-05-03

Similar Documents

Publication Publication Date Title
US4956865A (en) Speech recognition
Stylianou et al. Perceptual and objective detection of discontinuities in concatenative speech synthesis
US5097509A (en) Rejection method for speech recognition
US5791904A (en) Speech training aid
Ruinskiy et al. An effective algorithm for automatic detection and exact demarcation of breath sounds in speech and song signals
JPH0441356B2 (ja)
Hunt et al. Speaker dependent and independent speech recognition experiments with an auditory model
Shanthi et al. Review of feature extraction techniques in automatic speech recognition
JPH0612089A (ja) 音声認識方法
Patil et al. Automatic Speech Recognition of isolated words in Hindi language using MFCC
Fujisaki et al. Analysis, recognition, and perception of voiceless fricative consonants in Japanese
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
JPS61177494A (ja) 音声認識装置
WO2002091358A1 (en) Method and apparatus for rejection of speech recognition results in accordance with confidence level
JPH09198085A (ja) 電話をベースとする音声認識用時変特徴スペース処理手順
Cheng et al. Comparative performance study of several pitch detection algorithms
Kanke et al. Enhanced Marathi Speech Recognition Using Double Delta MFCC and DTW
Garg et al. Minimal Feature Analysis for Isolated Digit Recognition for varying encoding rates in noisy environments
Lienard Speech characterization from a rough spectral analysis
JPH0441357B2 (ja)
Paliwal et al. Dynamic frequency warping for speaker adaptation in automatic speech recognition
CA2013263C (en) Rejection method for speech recognition
Keeler et al. Two preliminary studies of the intelligibility of predictor-coefficient and formant-coded speech
Pol et al. USE OF MEL FREQUENCY CEPSTRAL COEFFICIENTS FOR THE IMPLEMENTATION OF A SPEAKER RECOGNITION SYSTEM
Lobo et al. Evaluation of a glottal ARMA modeling scheme

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term