JPS6199200A - 音声認識処理方式 - Google Patents

音声認識処理方式

Info

Publication number
JPS6199200A
JPS6199200A JP20668784A JP20668784A JPS6199200A JP S6199200 A JPS6199200 A JP S6199200A JP 20668784 A JP20668784 A JP 20668784A JP 20668784 A JP20668784 A JP 20668784A JP S6199200 A JPS6199200 A JP S6199200A
Authority
JP
Japan
Prior art keywords
section
average power
standard pattern
recognition processing
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP20668784A
Other languages
English (en)
Inventor
佐藤 泰雄
神田 敏恵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP20668784A priority Critical patent/JPS6199200A/ja
Publication of JPS6199200A publication Critical patent/JPS6199200A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (A)産業上の利用分野 本発明は、音声認識処理方式、特に未知入力音声を分析
して得られた特徴量にもとづき入力音声区間を所定数の
区間に分割し、平均化特徴量を得て認識処理を行う音声
認識処理方式において、入力音声区間における電力(パ
ワー)を抽出し、これを照合処理に利用するようにした
音声認識処理方式に関するものである。
(B)従来の技術と発明が解決しようとする問題点 従来から音声認識処理に当たっては、未知入力音声を複
数のフィルタによって周波数分析して。
各フィルタ毎(チャネル毎)に特徴量を抽出するように
し、未知入力音声区間を所定数の区間に分割して区間毎
に平均特徴量を求め、標準パタンと照合をとるようにす
ることが行われていた。
しかし当該従来の方式の場合にはいわばスペクトル情報
が特徴量として利用されているに止まるものであり、未
知入力音声のパワーの推移を認識処理に利用する方式に
関しては未だ模索中であった。
(C)問題点を解決するための手段 本発明は、上記の点を解決することを目的としており、
”上記パワーの推移を認識処理に利用する態様を提供す
ることを目的としている。そしてそのため1本発明の音
声認識処理方式は、未知入力音声を分析して得られた特
徴量にもとづき入力音声区間を上記特徴量の変動の大き
い部分を粗くかつ小さい部分を細か(分割し、一定数の
区間に分割した上で、上記特徴量を各区間毎に平均した
平均化特徴量を抽出するよう構成され、予め登録されて
いる標準パタンと照合して認識を行う音声認識処理方式
において、上記分割された各区間毎の平均電力を抽出す
ると共に当該抽出された平均電力のうちの最大平均電力
を抽出するよう構成してなり、上記各区間毎の平均電力
を上記最大平均電力にて正規化した所の各区間毎の正規
化平均電力を決定し、上記各区間毎に、上記平均化特徴
量に関する上記標準パタンとの距離と上記正規化平均電
力に関する上記標準パタンとの距離とを算出し。
全区間でそれぞれの荷重和を累算した照合距離を用いて
認識を行うことを特徴とし、また上記正規化平均電力を
上記各区間毎の平均化時fiffi自体内に繰り込ませ
た較正平均化特徴量を用いることを特徴とし、更にまた
上記較正平均特徴量として変形を与えたものを用いて認
識を行うようにすることを特徴としている。以下図面を
参照しつつ説明する。
(D)実施例 第1図は本発明の一実施例構成を示し、第2図はパワー
を得る態様を説明する説明図を示す。
第1図において、1は周波数分析部であって複数のフィ
ルタをそなえて入力音声を周波数分析するもの、2は音
声区間検出部であって入力音声の音声区間゛を検出する
もの、3はパラメータ抽出部であって本発明にいう平均
化時@量や正規化平均電力や較正平均化特徴量などの各
種パラメータを抽出するもの、4は切替部であって登録
モード時と認識モード時とでパラメータの転送先を切り
替えるもの、5は登録辞書部であって標準パタンを格納
しているもの、6は照合部であって距離計算を行うもの
、7は候補判定部であっていわば最も正しいと認められ
る認識結果を出力するものを表している。
本願発明の大きい特徴的構成は第1図図示パラメータ抽
出部3にあり、夫々の実施例(第1実施例、第2実施例
2第3実施例)について以下説明する。
入力音声は、第1図図示の如く周波数分析部1に供給さ
れ゛ζ周波数分析されると共に、音声区間検出部2に供
給されて音声が存在する区間(第2図図示区間T0ない
しTt)について検出される。
周波数分析部1によって分析された結果や音声区間検出
部2によって検出された区間は、パラメータ抽出部3に
供給される。
パラメータ抽出部3においては9周波数分析結果の特徴
量にもとづいて、特徴量の変化の大きい部分を粗くかつ
小さい部分を細か(分割する形で。
上記区間T0ないしT7内を分割する。第2図図示の場
合には、第1区間(T oないしT1)、第2区間(T
IないしT2)、第3区間(TzないしT3)、第4区
間(T、ないしT4)、第5区間(T4ないしT、)、
第6区間(T、ないしT6)、第7区間(T bないし
Tt )に区分されている。
☆ 第1実施例 当該第1実施例は1本願特許請求の範囲第(1)項に該
当するものであると考えてよい。
第1図図示の如く周波数分析部1において複数のフィル
タによって周波数分析が行われた各ナヤネル毎に、第2
図(A>図示タイミングtO+  tl+tZ +−’
−・・−においてサンプリングされ、一般に第i番目の
チャネルにおけるタイミングLにおいて、特徴量Xi 
(t)が得られる。第2図(B)は第1番目から第i番
目までの全チャネルについて得られている特徴量 X+(t)、 Xz(t)、・・・・・−・−、XJ(
t)を表している。
上記各チャネル毎の特徴量X、(1)について第2図図
示の区間毎に平均値が求められる。該平均値は第i番目
のチャネルに対して で表される。第2図(C)は、各チャネル毎に各区間毎
の平均化特徴量 Y(1,1) 、 Y(2,1) 、 Y(3,1) 
、・−・−・−・・・Y(1,2) 、 Y(2,2)
 、 Y(3,2) 、−・−・・−・・−Y(Lj)
 、 ’/(2,j) 、 Y(3,j) 、  −−
・−・−・を表している。
一方上記各チャネル毎の特徴%1Xi(t)を全チャネ
ルにわたって累算し、各サンプリング点毎のパワーP袈
(1) を得ており、当該パワーPw (t)を各区間毎に平均
して平均電力PK(n) Tn  −Tyl−1t=T+1−+ を得る。第2図(D)の上半は上記パワーPw(t)を
表し、第2図(D)の下半は上記平均電力Pw(n)を
表している。
上記の如く得られた各区間毎の平均電力P w (n)
のうち最大値を P匈(n max) とし、正規化平均電力Pw’ (n) を得る。
第1実施例の場合には、上記各区間毎の平均化特徴量Y
 (n + i)−と上記正規化平均電力PwN(n)
とを用いて、第1図図示照合部6において、照合距離d
 (R,X)として。
(Pノ(n)は第(4)式に対応する標準パタン)を算
出し、その結果にもとづいて、第1図図示の候補判定部
7が認識結果を抽出する。
☆ 第2実施例 当該第2実施例は2本願特許請求の範囲第(2)項に該
当するものであると考えてよい。
該第2実施例の場合にも、上記第(1)式の如く平均化
特徴ffl ’/ (n、 i)を得ると共に、第(4
)式の如く正規化平均電力p、N (n)を得る。そし
て第2実施例の場合には、正規化平均電力を所定割合で
附加した較正平均化特徴i1Y’ (n、i)としてY
’ (n、i) =Y(n、i) +w、宋Pw’ (
n)   (61(但しW−はp、1)1 (n)の付
加割合)を生成し、第1図図示照合部6において、照合
距離d (R,X)として (但しR’(n、i)は第(6)弐に対応する標準パタ
ン)を算出し、その結果にもとづいて、認識結果が抽出
される。
☆ 第3実施例 当該第3実施例は1本願特許請求の範囲第(3)項に言
亥当するものであると考えてよい。
該実施例の場合には、第1実施例の場合と同様に各チャ
ネル毎に特徴量X、D)を得るが、この特徴量X1(t
)の対数値 log X= (t) を用いる。そして、当該対数値を用いて第(1)式と同
様に平均化特徴量LY(n、i) を得る。
一方策(2)式と同様にパワーLP、(t)を得る。そ
して、第(3)式と同様に平均電力LPw(n)を得る
。当該平均電力LPw(n)をチャネル数jよりも僅か
に異なる(例えば+1や+2など)値j・Cをもって除
算した結果LPw (n) / j−Cを用い。
較正平均化特徴量Y ” (n、 i)としてを生成す
る。そして、第1図図示照合部6において、照合距離d
 (R,X)として を算出し、その結果にもとづいて認識結果が抽出される
。なお2本実施例において較正平均化特徴量Y ” (
n、 i)を得るのは、各チャネル毎のバラツキを疑似
的に正規化しつつパワー1を付加するためと考えてよい
(E)発明の詳細 な説明した如く2本発明によれば、従来から行われてい
るスペクトル情報に対応する特徴量にパワー情報に対応
する量を加味させて、照合距離d  (R,X)を得る
ことが容易になり、認識率を一段と向上させることが可
能となる。
【図面の簡単な説明】
第1図は本発明の一実施例構成を示し、第2図はパワー
を得る態様を説明する説明図を示す。 図中、1は周波数分析部、2は音声区間検出部。 3はパラメータ抽出部、5は登録辞書部、6は照合部を
表す。

Claims (3)

    【特許請求の範囲】
  1. (1)未知入力音声を分析して得られた特徴量にもとづ
    き入力音声区間を上記特徴量の変動の大きい部分を粗く
    かつ小さい部分を細かく分割し、一定数の区間に分割し
    た上で、上記特徴量を各区間毎に平均した平均化特徴量
    を抽出するよう構成され、予め登録されている標準パタ
    ンと照合して認識を行う音声認識処理方式において、上
    記分割された各区間毎の平均電力を抽出すると共に当該
    抽出された平均電力のうちの最大平均電力を抽出するよ
    う構成してなり、上記各区間毎の平均電力を上記最大平
    均電力にて正規化した所の各区間毎の正規化平均電力を
    決定し、上記各区間毎に、上記平均化特徴量に関する上
    記標準パタンとの距離と上記正規化平均電力に関する上
    記標準パタンとの距離とを算出し、全区間でそれぞれの
    荷重和を累算した照合距離を用いて認識を行うことを特
    徴とする音声認識処理方式。
  2. (2)未知入力音声を分析して得られた特徴量にもとづ
    き入力音声区間を上記特徴量の変動の大きい部分を粗く
    かつ小さい部分を細かく分割し、上記特徴量を各区間毎
    に平均した平均化特徴量を抽出するよう構成され、予め
    登録されている標準パタンと照合して認識を行う音声認
    識処理方式において、上記分割された各区間毎の平均電
    力を抽出すると共に当該抽出された平均電力のうちの最
    大平均電力を抽出するよう構成してなり、上記各区間毎
    の平均電力を上記最大平均電力にて正規化した所の各区
    間毎の正規化平均電力を決定し、上記各区間毎に、上記
    平均化特徴量に対して上記正規化平均電力を所定割合で
    附加した較正平均化特徴量を求め、当該上記各区間毎に
    上記較正平均化特徴量に関する上記標準パタンとの距離
    を算出し、全区間で累算した照合距離を用いて認識を行
    うことを特徴とする音声認識処理方式。
  3. (3)未知入力音声を分析して得られた特徴量にもとづ
    き入力音声区間を所定数の区間に分割し、上記特徴量を
    各区間毎に平均した平均化特徴量を抽出するよう構成さ
    れ、予め登録されている標準パタンと照合して認識を行
    う音声認識処理方式において、上記未知入力音声を複数
    のフィルタによって周波数分析した結果の出力値を対数
    変換した対数値を上記各フィルタ毎にかつ上記各区間毎
    に抽出するよう構成すると共に、同一区間における上記
    各フィルタ毎の対数値の総和をとって上記フィルタの個
    数よりも僅かに異なる値で除した較正値を抽出するよう
    構成してなり、上記各フィルタ毎でかつ上記各区間毎の
    対数値から上記較正値を減算した結果を用いて較正平均
    特徴量とし、当該較正平均特徴量に関する上記標準パタ
    ンとの距離を算出して全区間で累算した照合距離を用い
    て認識を行うことを特徴とする音声認識処理方式。
JP20668784A 1984-10-02 1984-10-02 音声認識処理方式 Pending JPS6199200A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20668784A JPS6199200A (ja) 1984-10-02 1984-10-02 音声認識処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20668784A JPS6199200A (ja) 1984-10-02 1984-10-02 音声認識処理方式

Publications (1)

Publication Number Publication Date
JPS6199200A true JPS6199200A (ja) 1986-05-17

Family

ID=16527448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20668784A Pending JPS6199200A (ja) 1984-10-02 1984-10-02 音声認識処理方式

Country Status (1)

Country Link
JP (1) JPS6199200A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1988001090A1 (en) * 1986-07-30 1988-02-11 Ricoh Company, Ltd. Voice recognition
US5347612A (en) * 1986-07-30 1994-09-13 Ricoh Company, Ltd. Voice recognition system and method involving registered voice patterns formed from superposition of a plurality of other voice patterns
US6379244B1 (en) 1997-09-17 2002-04-30 Konami Co., Ltd. Music action game machine, performance operation instructing system for music action game and storage device readable by computer
US6410835B2 (en) 1998-07-24 2002-06-25 Konami Co., Ltd. Dance game apparatus and step-on base for dance game
US6582309B2 (en) 1998-07-14 2003-06-24 Konami Co., Ltd. Game system and computer-readable recording medium
US6645067B1 (en) 1999-02-16 2003-11-11 Konami Co., Ltd. Music staging device apparatus, music staging game method, and readable storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53128905A (en) * 1977-04-15 1978-11-10 Hiroya Fujisaki Voice discrimination system
JPS56126896A (en) * 1980-03-10 1981-10-05 Nippon Electric Co Voice recognizing system
JPS573959A (en) * 1980-06-09 1982-01-09 Hasegawa Komuten Kk Interior finishing of concrete wall
JPS5971100A (ja) * 1982-10-18 1984-04-21 日本電信電話株式会社 音声認識方式
JPS5995600A (ja) * 1982-11-25 1984-06-01 電子計算機基本技術研究組合 音声認識装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53128905A (en) * 1977-04-15 1978-11-10 Hiroya Fujisaki Voice discrimination system
JPS56126896A (en) * 1980-03-10 1981-10-05 Nippon Electric Co Voice recognizing system
JPS573959A (en) * 1980-06-09 1982-01-09 Hasegawa Komuten Kk Interior finishing of concrete wall
JPS5971100A (ja) * 1982-10-18 1984-04-21 日本電信電話株式会社 音声認識方式
JPS5995600A (ja) * 1982-11-25 1984-06-01 電子計算機基本技術研究組合 音声認識装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1988001090A1 (en) * 1986-07-30 1988-02-11 Ricoh Company, Ltd. Voice recognition
GB2202667A (en) * 1986-07-30 1988-09-28 Ricoh Kk Voice recognition
GB2202667B (en) * 1986-07-30 1991-03-27 Ricoh Kk Voice recognition
US5347612A (en) * 1986-07-30 1994-09-13 Ricoh Company, Ltd. Voice recognition system and method involving registered voice patterns formed from superposition of a plurality of other voice patterns
US6379244B1 (en) 1997-09-17 2002-04-30 Konami Co., Ltd. Music action game machine, performance operation instructing system for music action game and storage device readable by computer
US6582309B2 (en) 1998-07-14 2003-06-24 Konami Co., Ltd. Game system and computer-readable recording medium
US6410835B2 (en) 1998-07-24 2002-06-25 Konami Co., Ltd. Dance game apparatus and step-on base for dance game
US6645067B1 (en) 1999-02-16 2003-11-11 Konami Co., Ltd. Music staging device apparatus, music staging game method, and readable storage medium

Similar Documents

Publication Publication Date Title
US4780906A (en) Speaker-independent word recognition method and system based upon zero-crossing rate and energy measurement of analog speech signal
EP1843324A2 (en) Speech signal pre-processing system and method of extracting characteristic information of speech signal
US4833713A (en) Voice recognition system
Aversano et al. A new text-independent method for phoneme segmentation
CN100456356C (zh) 一种应用于语音识别系统的语音端点检测方法
US7809555B2 (en) Speech signal classification system and method
US10984813B2 (en) Method and apparatus for detecting correctness of pitch period
US20120197641A1 (en) Consonant-segment detection apparatus and consonant-segment detection method
JPS6199200A (ja) 音声認識処理方式
US8255214B2 (en) Signal processing method and processor
EP1141943A1 (en) Speaker recognition using spectrogram correlation
Jena et al. Gender recognition of speech signal using knn and svm
US3304369A (en) Sound actuated devices
JPS6129519B2 (ja)
US5363311A (en) Data compression system using response waveform discrimination
JPH07248790A (ja) 音声認識システム
US7418385B2 (en) Voice detection device
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
KR100198057B1 (ko) 음성신호 특징 추출방법 및 장치
JP3107905B2 (ja) 音声認識装置
JP2882791B2 (ja) パターン比較方式
JPH0673079B2 (ja) 音声区間検出回路
JPS6126680B2 (ja)
JPS5936759B2 (ja) 音声認識方法
JP3423233B2 (ja) オーディオ信号処理方法および装置