JPS6128998B2 - - Google Patents

Info

Publication number
JPS6128998B2
JPS6128998B2 JP54148904A JP14890479A JPS6128998B2 JP S6128998 B2 JPS6128998 B2 JP S6128998B2 JP 54148904 A JP54148904 A JP 54148904A JP 14890479 A JP14890479 A JP 14890479A JP S6128998 B2 JPS6128998 B2 JP S6128998B2
Authority
JP
Japan
Prior art keywords
parameters
parameter
input
speech
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP54148904A
Other languages
English (en)
Other versions
JPS5672499A (en
Inventor
Akio Komatsu
Hiroshi Ichikawa
Kazuhiro Umemura
Yoshiaki Kitatsume
Nobuo Hataoka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP14890479A priority Critical patent/JPS5672499A/ja
Priority to DE3043516A priority patent/DE3043516C2/de
Priority to US06/208,251 priority patent/US4426551A/en
Publication of JPS5672499A publication Critical patent/JPS5672499A/ja
Publication of JPS6128998B2 publication Critical patent/JPS6128998B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】
本発明は、音声認識装置における前処理方法、
特に、音声波形の特徴パラメータの分析・圧縮を
行なうための前処理方法に関するものである。 音声認識装置は、大きく分けて、(1)音声の特徴
パラメータの抽出・分析部と、(2)特徴パラメータ
と標準パラメータとのマツチングを行ない判定・
認識を行なう部分とに分けられる。これまで、音
声の特徴パラメータとして、線形予側系数や偏自
己相関係数、フイルタバンクの出力などが用いら
れている。通常、いずれのパラメータを採用する
にしても、数次元のパラメータの時系列として音
声パターンが表現される。たとえば、10ミリ秒毎
にサンプリングされる8次の偏自己相関係数を考
えるとすれば、1秒の音声の表現に800個のパラ
メータを要することになり、認識のために必要な
標準パターンのパラメータとの比較演算に要する
処理が増大してしまう。このため、音声パターン
を出来るだけ忠実に表現できる効率のよい特徴パ
ラメータの抽出方法が必要とされている。 本発明の目的は、上述した点に鑑みて、標準パ
ターンのパラメータと比較すべき入力力音声パタ
ーンのパラメータを効率良く圧縮し、標準パラメ
ータとの比較演算に要する処理時間を著るしく短
縮した音声認識装置の前処理方法を提供すること
にある。 このような目的を達成するために、本発明で
は、入力音声から抽出されたP次元の特徴パラメ
ータを、n個のP次元の特定の特徴パラメータと
比較して相互の距離を求め、それら距離データを
標準パターンと比較すべき特徴パラメータとして
使用することに特徴がある。 そして、このn個の特徴パラメータとして、例
えば、明確に区別し易く、分離度が良い母音の特
徴パラメータが使われる。 以下、本発明を実施例により詳細に説明する。 第1図は本発明に係る音声認識装置の基本構成
を示すもので、1は入力音声、2は分析部、3は
マツチング部、4は判定部、5は認識結果の出力
である。 このような構成において、入力音声1を分析部
2で分析して、特徴パラメータを求め、求められ
た特徴パラメータを利用してマツチング部3にお
いて、標準パターンの特徴パラメータとの比較を
行ない、判定部4で入力音声の認識を行ない、そ
の結果を出力5として得るようになつている。 第2図は、本発明による前処理方法を実現する
回路の一実施例の構成を示すもので、第1図の分
析部2に相当する部分である。 図において、21は各種の制御信号を発生する
制御回路、22はアナログ/デイジタル変換器、
23は入力バツフアメモリ、24はフイルタバン
ク、25は中間バツフア、26は正規化回路、2
7はパターンバツフア、28はマイクロパターン
バツフア、29は距離計算回路、30はパラメー
タバツフアを示す。 この例では、入力音声を表現する特徴パラメー
タとしてフイルタバンクの出力を利用するように
なつている。 分析部2に入力された音声1はA/D変換器2
2でデイジタル信号に変換され制御回路21の制
御により入力バツフアメモリ23に入力される。
入力バツフアメモリ23に入力されたデイジタル
信号は同じく制御回路21の制御によつて、フイ
ルタバンク24に入力される。このフイルタバン
ク24は、第3図に示すように、たとえば電話帯
域の300〜3600Hzを対数的に16チヤネルに等間隔
に分けた帯域通過型フイルタ群241−1〜24
1−16とその出力を平滑してリサンプリングす
る回路242−1〜242−16よりなる。この
平滑されて、たとえば10ミリ秒間隔で、リサンプ
リングされた16個のデータは、時点tの特徴パラ
メータベクトルatとして中間バツフア25に送ら
れる。この特徴パラメータベクトルatの時系列が
中間バツフア25に順次配列される。ここで、at
={a1t,a2t,………,a16t}を表記することと
し、ajtは時刻tにおるj番目のフイルタの出力
であるとする。一般にajtの大きさは、入力音声
1の入力レベルや発声環境に依存して変化するた
め、絶対値比較は困難である。このため、制御回
路21の制御により中間バツフア25から読み出
された特徴パラメータベクトルatを正規化回路
26に入力し、正規化ベクトルa′tを求める。こ
こで、ベクトルa′tのj番目の要素は次のように
して求める。 ここで、Cは定数であり単なる係数である。こ
のようにして求められた正規化された特徴パラメ
ータベクトルa′tの時系列が制御回路21の制御
でパターンバツフア27に格納される。 第2図のマイクロパターンバツフア28には、
上述と同じ処理によつて求められた母音などの特
徴あるn個の音声(これをマイクロパターンと称
する)の正規化された特徴パラメータベクトルV
k(k=1〜n)が格納されている。ここで、Vk
は特徴パラメータベクトルの時系列である必要は
ない。すなわち、例えば母音の発声などはかなり
安定しているので、その安定区間内の一時点での
特徴パラメータベクトルで代表させて充分であ
る。第4図に示したのは、成人男性が発声した5
つの母音の正規化された特徴パラメータベクトル
の様子を示す、本実施例においては、5つの母音
に対応した5個のマイクロパターンを用いるもの
とする。 距離計算回路29では、制御回路21の働きで
パターンバツフア27および28に格納されてい
る特徴パラメータベクトルを読み込み、パターン
バツフア27に格納されている16次元の正規化さ
れた特徴パラメータベクトルa′tに対して、5個
のマイクロパターンの正規化された特徴パラメー
タベクトルVk(k=1〜5)の各々との距離計
算を行ない、その結果としての5個の距離パラメ
ータxt k(k=1、〜5)(tは時点を示す)を
パラメータバツフア30に格納する。ここで、距
離パラメータxt kは次式に示すように、通常の距
離計算によつて求められる。 このように、パラメータバツフア30には、5
次元のパラメータxt kの時系列が格納されること
になる。このパラメータの時系列が第1図のマツ
チング部3に引き渡され、既に同じマイクロパタ
ーンによつて情報圧縮されて登録されている標準
パターンのパラメータとのマツチング操作が行な
われ、第1図の判定部4を経て認識結果が出力さ
れる。 従来の音声認識装置における方式では、マツチ
ング部3に渡される特徴パラメータとして、中間
バツフア25に格納されている16次元のパラメー
タの時系列が用いられていたのに対し、本発明に
よる方法を採用すれば、5次元のパラメータの時
系列のみを用いることができ、5/16のパラメータ
圧縮率が得られる上に、認識率等に関しての有意
ある劣化は認められないという実験結果が得られ
ている。 第5図は、第2図の実施例の正規化回路26、
パターンバツフア27,28および距離計算回路
29部分の具体的構成の一例を示すものである。 正規化回路26において、261は並列入力加
算器、262−1〜262−16は除算器を示し
ており、また、パターンバツフア28は5個のマ
イクロパターンメモリ281〜285からなり、
距離計算回路29も5個のマイクロパターン比較
回路291〜295からなつている。 このような構成において、ある時点におけるP
次元の特徴パラメータが中間バツフアメモリ25
から並列に読み出され正規化回路26に入力され
ると、その加算器261においてそれらの入力が
加算され、
【式】が得られる。このように して得られた加算結果を除算器262−1〜26
2−16に入力し、それぞれに入力されている特
徴パラメータajt(j=1〜16)との間で上述し
た(1)式に従つて割り算を行ない、正規化を行なつ
てその結果をパターンバツフアメモリ27に一旦
格納する。次に、パターンバツフアメモリ27か
ら並列に読み出したP次元の正規化された特徴パ
ラメータをそれぞれマイクロパターン比較回路2
91〜295に入力する。一方、これらの比較回
路291〜295には対応するマイクロパターン
メモリ281〜285から読み出された、16次元
のパラメータが入力されているので、この比較回
路において、両入力の特徴パラメータを比較し
て、両者の距離を計算する。したがつて、マイク
ロパターン比較回路291〜295の出力は、5
次元のパラメータの時系列となり、パラメータバ
ツフア30に格納される。このようにしてパラメ
ータバツフア30に格納されたパラメータを用い
て、第1図のマツチング部3において標準パター
ンとのマツチングが行なわれ、判定部4を経て認
識結果が出力される。 なお、第5図の回路は、第2図の制御回路21
によつて制御されていることは言うまでもない。 また、図では、正規化回路26において、16個
の除算器262−1〜262−16を設けた例に
ついて説明したが、唯一個の除算器を設け、それ
によつて、各次元の特徴パラメータの正規化を時
分割的に行なうようにしてもよい。マイクロパタ
ーンメモリ281〜285、マイクロパターン比
較回路291〜295をそれぞれ共通化してもよ
い。 さらに、上述したマイクロパターン比較回路か
ら得られる、5次元のパラメータの時系列を平滑
した後に、1つまたは2つ飛びにリサンプリング
する回路を設け、特徴パラメータの時間軸方向に
さらに1/2、1/3に圧縮するようにしてもよい。そ
のように圧延されたパラメータを使つた場合に
も、実験の結果ほとんど認識率の劣化は認められ
なかつた。 さらに、この5次元のパラメータの時系列を平
滑した後に、その時間的変化が極値となる点を代
表点としてリサンプリングするようにしてもよ
い。 第2図の実施例においては、各種のメモリ2
3,25,27,28,30を別個に設けている
が、この代りに共通のメモリを使つてもよく、ま
た、これらのメモリを省略することもできる。 また、上述した例では、音声入力の特徴を表現
するパラメータとしてフイルタバンクの出力を用
いたが、他のパラメータ、例えば、線形予測係数
や偏自己相関係数などを使つても実現できる。 また、マイクロパターンとしては、5つの母音
による特徴パラメータに限らず、他の特徴的なパ
ラメータ、例えば、摩擦性子音(“S”音など)
や鼻音性子音(“N”、“M”など)による特徴パ
ラメータを使用したり、それらを母音とともに使
用したりしてもよく、さらに、人工的に設定し
た、意図的に特徴を強調した形のパラメータを使
用してもよい。 さらに上述した例ではマイクロパターン演算回
路において距離を計算する場合について示した
が、それに限定されるものではなく、2つのパタ
ーンの比較結果を示すものであれば良い。 上述した実施例からも解るように、一般的に、
入力音声のP次元の特徴パラメータと、n個のP
次元の特徴パラメータとの距離を求めた結果とで
マツチングをとつた場合、各次元の特徴パラメー
タを格納するに必要な量と求められた各次元の距
離を格納するに必要な量がほぼ等しいとすれば、
従来に比べて本発明ではn/Pに圧縮することが
でき(但し、n<Pとする)。一般に、マツチン
グ処理に必要な距離計算は、例えば、入力音声の
i番目のフレームと、標準パターンのj番目のフ
レームとの間で、 の計算が必要となる(ここで、a、bはl次元の
特徴パラメータとする)。 従つて、P次元がn次元に圧縮されれば上記の
演算(減算、自乗、加算)は1回につきn/Pに
減少する。 この計算は、入力音声のフレーム毎に、しか
も、標準パターンのすべてのフレームに対して行
なわれるので、マツチング処理における処理時間
の短縮の効果は著しい。それによつて、高速な認
識、リアルタイムCの認識あるいは認識単語数の
増加などを実現できる。 以上述べたように、本発明によれば、入力音声
の特徴パラメータを効率よく圧縮することがで
き、それによつて、認識速度の向上や認識処理量
の増大を計ることができる。
【図面の簡単な説明】
第1図は音声認識装置の基本構成図、第2図は
本発明による前処理方法を実現する回路の一例の
構成図、第3図は第2図のフイルタバンクの一例
の構成図、第4図は母音による特徴パラメータを
示す図、第5図は第2図の正規化回路、パターン
バツフア、距離計算回路の一例の構成図を示す。 24……フイルタバンク、26……正規化回
路、28……マイクロパターンバツフア、29…
…距離計算回路。

Claims (1)

  1. 【特許請求の範囲】 1 入力音声を分析して得られるP次元の特徴パ
    ラメータと、予じめ定められたP次元の母音の特
    徴パラメータとを比較演算し、その比較演算に基
    づいて得られる結果パラメータと標準音声のパラ
    メータとの一致をとり、入力音声の認識を行なう
    ことを特徴とする音声認識装置の前処理方法。 2 前記比較演算は、前記入力音声を分析して得
    られるP次元の特徴パラメータと、予じめ定めら
    れたP次元の母音の特徴パラメータとの距離を求
    める演算であることを特徴とする特許請求の範囲
    第1項記載の音声認識装置の前処理方法。 3 前記結果パラメータは、前記比較演算結果得
    られる時系列情報を平滑して、所定間隔でサンプ
    リングして得られるパラメータであることを特徴
    とする特許請求の範囲第1項又は第2項の音声認
    識装置の前処理方法。 4 前記結果パラメータは前記入力パラメータと
    前記特定パラメータとの距離を表わすパラメータ
    からなる特許請求範囲第1項ないし第3項のいず
    れか記載の音声認識装置の前処理方法。
JP14890479A 1979-11-19 1979-11-19 Pretreatment for voice identifier Granted JPS5672499A (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP14890479A JPS5672499A (en) 1979-11-19 1979-11-19 Pretreatment for voice identifier
DE3043516A DE3043516C2 (de) 1979-11-19 1980-11-18 Verfahren und Vorrichtung zur Spracherkennung
US06/208,251 US4426551A (en) 1979-11-19 1980-11-19 Speech recognition method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14890479A JPS5672499A (en) 1979-11-19 1979-11-19 Pretreatment for voice identifier

Publications (2)

Publication Number Publication Date
JPS5672499A JPS5672499A (en) 1981-06-16
JPS6128998B2 true JPS6128998B2 (ja) 1986-07-03

Family

ID=15463261

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14890479A Granted JPS5672499A (en) 1979-11-19 1979-11-19 Pretreatment for voice identifier

Country Status (3)

Country Link
US (1) US4426551A (ja)
JP (1) JPS5672499A (ja)
DE (1) DE3043516C2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5814199A (ja) * 1981-07-17 1983-01-26 三洋電機株式会社 音声認識装置
JPS5844500A (ja) * 1981-09-11 1983-03-15 シャープ株式会社 音声認識方式
DE3216871A1 (de) * 1982-05-03 1983-11-03 Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem
US4720863A (en) * 1982-11-03 1988-01-19 Itt Defense Communications Method and apparatus for text-independent speaker recognition
WO1984003983A1 (en) * 1983-03-28 1984-10-11 Exxon Research Engineering Co Speech recognition methods and apparatus
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
US4713778A (en) * 1984-03-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method
US4718088A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
US4817158A (en) * 1984-10-19 1989-03-28 International Business Machines Corporation Normalization of speech signals
US4969193A (en) * 1985-08-29 1990-11-06 Scott Instruments Corporation Method and apparatus for generating a signal transformation and the use thereof in signal processing
US5142657A (en) * 1988-03-14 1992-08-25 Kabushiki Kaisha Kawai Gakki Seisakusho Apparatus for drilling pronunciation
IT1229782B (it) * 1989-05-22 1991-09-11 Face Standard Ind Metodo ed apparato per riconoscere parole verbali sconosciute mediante estrazione dei parametri e confronto con parole di riferimento
US5025471A (en) * 1989-08-04 1991-06-18 Scott Instruments Corporation Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
US5440661A (en) * 1990-01-31 1995-08-08 The United States Of America As Represented By The United States Department Of Energy Time series association learning
FR2727236B1 (fr) * 1994-11-22 1996-12-27 Alcatel Mobile Comm France Detection d'activite vocale

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1435779A (en) * 1972-09-21 1976-05-12 Threshold Tech Word recognition

Also Published As

Publication number Publication date
DE3043516C2 (de) 1984-10-11
JPS5672499A (en) 1981-06-16
DE3043516A1 (de) 1981-09-17
US4426551A (en) 1984-01-17

Similar Documents

Publication Publication Date Title
US4624010A (en) Speech recognition apparatus
JPS6128998B2 (ja)
Chapaneri Spoken digits recognition using weighted MFCC and improved features for dynamic time warping
JPS58100199A (ja) 音声認識及び再生方法とその装置
JPH0441356B2 (ja)
JPH0612089A (ja) 音声認識方法
CN113160852A (zh) 语音情绪识别方法、装置、设备及存储介质
US5487129A (en) Speech pattern matching in non-white noise
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Maes Synchrosqueezed representation yields a new reading of the wavelet transform
JPH0345839B2 (ja)
JPH0738114B2 (ja) フオルマント型パタンマツチングボコ−ダ
JPH054678B2 (ja)
JPH03120434A (ja) 音声認識装置
JPH0346838B2 (ja)
JPH0424717B2 (ja)
JPS6136797A (ja) 音声セグメンテ−シヨン法
JPH0451840B2 (ja)
JPH02205900A (ja) 話者照合方式
JPH0217039B2 (ja)
JPH0221598B2 (ja)
JPS61275799A (ja) 音声認識装置
JPS6340200A (ja) 単語音声予備選択装置
GB2299247A (en) Sound analysis
JPS63292199A (ja) 音声認識装置