JPS6193500A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6193500A
JPS6193500A JP59214536A JP21453684A JPS6193500A JP S6193500 A JPS6193500 A JP S6193500A JP 59214536 A JP59214536 A JP 59214536A JP 21453684 A JP21453684 A JP 21453684A JP S6193500 A JPS6193500 A JP S6193500A
Authority
JP
Japan
Prior art keywords
section
output
input
audio
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59214536A
Other languages
English (en)
Inventor
晃 柘植
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP59214536A priority Critical patent/JPS6193500A/ja
Publication of JPS6193500A publication Critical patent/JPS6193500A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、入力未知音声をテストパタンとして辞書の標
準パタンとマツチングを行い、認識結果を出力する音声
認識装置に関する。
従来例の構成とその問題点 最近、コンピュータ技術の発達に伴い、マンマシンイン
ターフェースが重要な課題となってきている。その人間
と機械との対話の方法のなかで最も自然で簡便、かつ高
速な手法は音声による情報交換である。
以下、図面を参照しながら従来の音声認識装置について
説明する。第1図は、従来の音声認識装置であり、音声
を入力する音声入力部1と、周波数分析手段で構成され
特徴パラメータの時系列という形でテストパタンを出力
する周波数分析部2と、前記周波数分析部と同一の処理
が予め施された標準パタンか格納されている辞書部3と
、DPマツチングによる時間軸正規化の処理を行いなが
らテストパタンと標準パタンとの距離を計算してマツチ
ングを行う認識部4と、認識結果を出力する認識結果出
力部5とから構成される。
第2図は、従来の音声認識装置に於ける周波数分析部の
出力である特徴パラメータの時系列として表現された音
声信号の例を示す。従来、一定区間のフレーム内の音声
信号を周波数分析して一定のフレーム速度で分析区間を
移動することにより、スペクトルの時系列として音声デ
ータを表現するという方法が一般的である。しかしなが
ら、第2図の例からもわかるように、音声信号には比較
的定常的な母音部と過渡的な子音部とに大別することが
できるので、比較的定常的な母音部において過渡的な子
音部と同じ条件で分析したデータを蓄えておくことは冗
長度が大きいという問題点を有していた。
また、第1図の従来の音声認識装置の認識部に於いては
、辞書の標準パタンと周波数分析部から出力されるテス
トパタンとのマツチングをとる際に、本来の単語の意味
の違いではなくてその単語の時間的構造の非線形性によ
る違いを吸収するためにDPマソチンダ手法が採られて
きた。しかしながら、DPマツチングは計算量が膨大で
、計算の効率が良くないという問題点を有していた。
発明の目的 本発明は上記2つの問題点を解決することを可能とした
音声データの表現方式を導入した音声認識装置を提供す
ることを目的とする。
発明の構成 本発明は、入力音声波形を与える音声入力部と、入力音
声波形を周波数分析して特徴ノζラメータの時系列を与
える周波数分析部と、この特徴ノζラメータの時系列を
入力とし、スペクトル時間変動の微分係数から得られる
定常部/非定常部の区間の情報、定常部を代表させる定
常部代表スペクトノペおよび非定常区間のスペクトル時
系列で構成されるテストパタンを出力する音声データ圧
縮部と、テストパタンと同一の過程によって予め処理さ
れた標準パタンを蓄えておく圧縮辞書部と、テストパタ
ンと標準パタンを入力としてスペクトルマツチングを行
って判定を行う高速認識部と、認識結果を出力する認識
結果出力部とを備え、音声データ圧縮部によって冗長度
の少ない音声データが得られること、および前記音声デ
ータの表現方法を用いることによりスペクトルパタンマ
ッチングを効率良く行えることを特徴とする音声認識装
置を構成する。
本発明の音声認識装置に於ける音声データの表現方法の
原理を説明する。従来の手法で周波数分析された特徴パ
ラメータの時系列 (S + l S 2 +・・・・・・、Si、・・・
・・・、S、)   (1)(i=1.2.・・・・・
・、Nはフレーム番号)に於いてSiとJ  との距離
の値をd(i、j)とすると、 d(i+i+1) (i=1.2.・・・・・・、N−1)       
(2)は、ある一定時間(フレーム速度)に於けるスペ
クトルの変動量、すなわちスペクトル変動の微分係数に
相当する量を与える。これをデータ長の区間だけ時間積
分した で正規化した次式で定義される定常部判別関数りや(i
)を考える。
DH(i)=−d (i 、 i + 1 ’)   
     (4)(4)式で与えられるDH(1)が閾
値Dthより大きいときスペクトル変動が大きい部分、
すなわち過渡的な子音部である可能性が強く、逆にDN
(i)くDthのときは比較的定常な母音部である可能
性が強い。
そこでDH(i)< Dthとなる区間を両端のフレー
ム番号(S1+J)+(”2+ez)r =・・・・で
表現すると、これらの区間は音声信号中の定常部の情報
を与える。
次に、定常区間の部分時系列を代表させる1フレームの
スペクトル情報として、両端の非定常部の影響をできる
だけ防止するために抽出された定常区間の中心にあたる
1フレームのデータを採用する。すなわちさきに抽出さ
れた定常部の1つを(Sn、en)とすると、その区間
を代表させるフレーム番号1nは、〔〕をガウス記号と
して次式で定義される。
Sn+en i n=(−)            (5)以上の
ように、最終的に音声データは ””””””、Ss −+、Si  ’e  +、r−
・・、 S   、 、5irse  −1−+ +・
・・・・・、58)S2   2 2 s、、s、、、・・・・・、Sm e  、e   ・・・・・・、em l     21 (mは定常区間の数)(6) の情報で表現できることになる。
実施例の説明 以下、本発明の実施例について図面を参照しながら説明
する。第3図は、本発明の一実施例を示すブロック図で
ある。同図に於いて、音声入力部1から入力された入力
音声波形を周波数分析部2に於ける周波数分析によって
特徴パラメータの時系列に変換し、音声データ圧縮部6
に於いて特徴パラメータの時系列を、スペクトル時間変
動の微分係数から得られる定常部/非定常部の区間の情
報と、定常部を代表させる定常部代表スペクトル、およ
び非定常区間のスペクトル時系列で構成されるテストパ
タンを求め、テストパタン、I−同一の過程によって予
め処理され、圧縮辞書部7に蓄えられた標準パタンとテ
ストパタンとの間でスペクト ゛、ルマノチングを高速
認識部8で行い、認識結果出力部6によって認識結果を
出力する。
次に、本発明の実施例が従来の音声認識装置(第1図)
と異なる点である音声データ圧縮部6゜圧縮辞書部7.
高速認識部8について図面を参照しながらその動作を説
明する。
第4図は音声データ圧縮部6に於ける音声データの処理
例を表す。同図(a)は周波数分析部2の出力である特
徴パラメータの時系列の例を示す。この特徴パラメータ
の時系列をもとに同図(b)に示した定常部判別関数り
、1(i)を求め、与えられた入力パタンの時間軸の中
で定常区間(S1+(!’1)+(S2+02)、(S
3.e3=N)を求める。次に、同図(C)のように各
定常区間を代表させる定常区間代表スペクトルを決定す
る。第6図は、以上の音声データ圧縮部6に於ける処理
のフローチャートである。
第6図は、高速認識部8に於けるスペクトルマツチング
の処理例を示す。同図のように圧縮辞書部7にはテスト
パタンと同一の処理が施され、スペクトル時間変動の微
分係数から得られる定常部/′非定常部の区間の情報と
、定常部を代表させる定常区代表スペクトルペおよび非
定常区間のスペクトル時系列で構成される標準パタンか
格納されている。ここで、第6図に示したようなテスト
パタンか音声データ圧縮部6から入力された場合の高速
認識部8の動作を説明する。まず最初に、第1段階とし
て大きく候補を分けるために音節数に対応する定常区間
の数がテストパタンのそれと同じ標準パタンを圧縮辞書
部7の中から選びだす。
次に第2段階として、テストパタンと標準パタンのそれ
ぞれ対応する各定常区間の代表スペクトルでマツチング
をとり、さらに候補を絞る。そして、第3段階として最
終候補を選゛ぶために、テストパタンと標準パタンのそ
れぞれ対応する各非定常区間のスペクトルマツチングを
行う。第7図は、以上の高速認識部8に於ける処理のフ
ローチャートである。
以上のように、本実施例によれば定常部を1つのスペク
トルデータで代表させることにより、従来この種のマツ
チングで主流とされてきた計算量の膨大なりPマツチン
グを使うことなく、しかも3段階にわたって候補を絞っ
てゆくので効率良く認識結果を得ることを実現している
。これは音声データの時間的構造の非線形性は定常母音
部の長さの変動に起因するのであるが、本発明では定常
部の長さの情報は用いておらず、DPマツチングの本来
の目的である時間軸の正規化の効果も兼ね備えているか
らである。
発明の効果 以上の説明から明らかなように、本発明は音声入力部か
らの音声信号を周波数分析する周波数分折部と、周波数
分析部の出力であり従来の音声認識装置が用いていた音
声データ表現であるところの特徴パラメータの時系列か
ら定常区間を検出し、これらをそれぞれ1つのスペクト
ルデータで代表させてテストパタンを出力する音声デー
タ圧縮部と、予めテストパタンと同一の処理が施された
標1′店パタンを出力する圧縮辞書部と、テストパタン
に最も近いものを標準パタンの中から3段階に分けて候
補を絞ってゆく高速認識部、および認識結果出力部で音
声認識装置を構成することによシ、冗長度の少ない音声
データ表現を可能とし、かつスペクトルマツチングに於
いて従来主流とされてきた計算量の膨大なりPマツチン
グを使うことなく時間軸正規化を行うことができるとい
う効果が得られる。
【図面の簡単な説明】
第1図は、従来の音声認識装置を示すブロック構成図、
第2図は、従来の音声信号表現の一例を示す図、第3図
は、本発明の一実施例による音声認識装置のブロック構
成図、第4図は、音声データ圧縮部に於ける音声データ
の処理例を示す図であり、同図(a)は周波数分析部の
出力である特徴パラメータの時系列、同図(b)はスペ
クトル時間変動の微分係数から得られる定常部判別関数
DH(i)、同図(C)は音声データ圧縮部の出力であ
る音声データ表現をそれぞれ示す図、第6図は、音声デ
ータ圧縮部に於ける処理の流れを示すフローチャート、
゛ 第6図は、認識部に於けるスペクトルマツチングの
処理例を示す図、第7図は、認識部に於ける処理の流れ
を示すフローチャートである。 1・・・・・・音声入力部、2・・・・・・周波数分析
部、3・・・・・・辞書部、4・・・・・・認識部、6
・・・・・・認識結果出力部、6・・・・・・音声デー
タ圧縮部、7・・・・・・圧縮辞書部、8・・・・・・
高速認識部。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名范2
“  七(ll匍、 ム 第4図 f(凰″jla) 第 5 図 奸奄訃 第7図

Claims (1)

    【特許請求の範囲】
  1. 入力音声波形を与える音声入力部と、前記音声入力部の
    出力である音声波形を入力として周波数分析を行い、特
    徴パラメータの時系列を与える周波数分析部と、前記周
    波数分析部の出力である特徴パラメータの時系列を入力
    とし、スペクトル時間変動の微分係数から得られる定常
    部/非定常部の区間の情報と、定常区間を代表させる定
    常部代表スペクトル、および非定常区間のスペクトル時
    系列で構成され、情報量が圧縮されたテストパタンを出
    力する音声データ圧縮部と、前記音声データ圧縮部の出
    力であるテストパタンと同一の過程によって予め処理さ
    れた標準パタンを蓄えておく圧縮辞書部と、前記音声デ
    ータ圧縮部の出力であるテストパタンと前記圧縮辞書部
    の出力である標準パタンとを入力とし、能率良くスペク
    トルマッチングを行って判定を行う高速認識部と、認識
    結果を出力する認識結果出力部とを備え、音声データ圧
    縮部によって冗長度の少ない音声データが得られること
    、及び前記音声データの表現方法を用いることによりス
    ペクトルパタンマッチングを効率良く行えることを特徴
    とする音声認識装置。
JP59214536A 1984-10-12 1984-10-12 音声認識装置 Pending JPS6193500A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59214536A JPS6193500A (ja) 1984-10-12 1984-10-12 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59214536A JPS6193500A (ja) 1984-10-12 1984-10-12 音声認識装置

Publications (1)

Publication Number Publication Date
JPS6193500A true JPS6193500A (ja) 1986-05-12

Family

ID=16657354

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59214536A Pending JPS6193500A (ja) 1984-10-12 1984-10-12 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6193500A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005513576A (ja) * 2001-12-27 2005-05-12 フランス テレコム 音声信号を特徴付ける方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005513576A (ja) * 2001-12-27 2005-05-12 フランス テレコム 音声信号を特徴付ける方法

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
JP3162994B2 (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
JP2815579B2 (ja) 音声認識における単語候補削減装置
JPS5972496A (ja) 単音識別装置
Ezeiza et al. Enhancing the feature extraction process for automatic speech recognition with fractal dimensions
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
US4989249A (en) Method of feature determination and extraction and recognition of voice and apparatus therefore
JPS6273391A (ja) パタ−ン認識学習装置
Sabanal et al. A study of time-dependent fractal dimensions of vocal sounds
JPS6193500A (ja) 音声認識装置
CN110600010B (zh) 一种语料提取方法及装置
Tereikovska et al. Recognition of Speaker’s Emotion by Squeezenet convolutional neural network
TWI409802B (zh) 音頻特徵處理方法及其裝置
JP2001083978A (ja) 音声認識装置
WO2021181451A1 (ja) 音声認識装置、制御方法、及びプログラム
JP3012994B2 (ja) 音韻識別方法
KR100269429B1 (ko) 음성 인식시 천이 구간의 음성 식별 방법
JPS58195895A (ja) 単語音声認識装置
Jiang et al. Fastmandarin: Efficient Local Modeling for Natural Mandarin Speech Synthesis
JPH06102895A (ja) 音声認識モデル学習装置
Smietanka et al. Interpreting Convolutional Layers in DNN Model Based on Time–Frequency Representation of Emotional Speech
Wang et al. A Hierarchal BERT Structure for Native Speaker Writing Detection
JP2602271B2 (ja) 連続音声中の子音識別方式
KR960007132B1 (ko) 음성인식장치 및 그 방법
CN114203155A (zh) 训练声码器和语音合成的方法和装置