JPS63183499A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS63183499A
JPS63183499A JP62016876A JP1687687A JPS63183499A JP S63183499 A JPS63183499 A JP S63183499A JP 62016876 A JP62016876 A JP 62016876A JP 1687687 A JP1687687 A JP 1687687A JP S63183499 A JPS63183499 A JP S63183499A
Authority
JP
Japan
Prior art keywords
level
inverse filter
output
inverse
weighted sum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62016876A
Other languages
English (en)
Other versions
JPH0634195B2 (ja
Inventor
伏木田 勝信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP62016876A priority Critical patent/JPH0634195B2/ja
Publication of JPS63183499A publication Critical patent/JPS63183499A/ja
Publication of JPH0634195B2 publication Critical patent/JPH0634195B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、音声波形より文字データを抽出する音声認識
装置に関する。
(従来技術とその問題点〉 従来、入力音声のセグメンテーションを行なった後に音
声認識を行なう種々の方式が例えば下記文献パ新美康永
著「音声認識」 (共立出版)″等により知られている
一方、パーセプトロンあるいはそれに類似した素子を階
層的に結合してネットワークを構成しテキスト−音素変
換を行なう方式が、テランス・ジエイ・セジョノスキ−
(Terrence J、 Sejnowski )及
びチャールズ・アール・ローゼンバーグ(Charle
s R,Rosenberg)著の技術論文”NETt
alk:八ParallelNetworkthatL
earnstoReadAloud  ″  (丁he
  Johns  Hopkins  Llniver
sityLlectrical Epgineerin
g and CorIlputer 5ciencet
echnical Report JHU/EEC8−
86101)等の文献により知られている。
しかしながら、前者の音声認識方式は複雑なセグメンテ
ーションアルゴリズムを必要とし、且つセグメンテーシ
ョンアルゴリズムに必要な知識を獲得することが困難で
あるという欠点があった。
一方、後者のテキスト−音素変換方式は比教的単純な回
路構成で実現できるとともに学習を行なうことにより前
記変換に必要な知識を比較的容易に獲得できる長所があ
る。そこで、後者の如き方式を前者の音声認識に応用す
ることが考えられるが、後者の方式は時間軸方向に対す
る処理が十分考慮されておらず適用が困難であった。
(問題点を解決するための手段) 前述の問題点を解決するために本願発明が提供する音声
認識装置は、音声の知覚または生成の過程に対応して設
けられた階層毎に各階層内の状態に対応して予め用意さ
れたセグメンテーションデータに従って制御される複数
個のインバースフィルタと、前記各階層内の状態に対応
して予め用意された重み係数に従って下層の前記インバ
ースフィルタの出力値の荷重和を算出し上層の前記イン
バースフィルタの入力とする手段とを有することを特徴
とする。
(作用) 人間の音声の知覚(生成)過程は、文字列の処理等を行
なう言語レベルの処理、音素レベルの処理、調音器官の
制御に対応した調音レベルの処理等の階層構造を持って
いることが知られている。
また各階層は複数個の状態を有しており、文字列レベル
では例えば日本語の場合「あ]、「い」。
「か」、「さ」等の文字に対応する状態が、音素レベル
では’PJ、rj、、’kJ、’SJ。
’a」、  「fJ、’y」等の音素に対応する状態が
、調音レベルでは「有声」、「無声」。
「鼻音」、「破裂」、「唇音」、「歯ぐき音」等の調音
状態が考えられる。
以上述べたような階N構造は比教的単純な構造を持ち直
観的にも分り易く音声認識システムを構築する上でも有
用である。音声波形を文字列に変換する音声認識処理を
行なう為には入力音声をセグメンテーションする処理と
、各セグメントが前記各階層のどの状態に対応するかを
推定する必要がある。一般に、各階層における一つの状
態が他の状態に移行する際にはその状態を表わすパラメ
ータ値が特有の時間変化をするなめ、前記パラメータの
Pr間突変化特性調べればセグメンテーションが可能と
なる。本発明においては前記状態に特有の時間変化特性
をインバースフィルタを用いて評価しセグメンテーショ
ン情報を得ることができる。前記インバースフィルタを
制御する各状態に固有の係数値(セグメンテーションデ
ータ)は、例えば実際の音声波形データと正解データを
与えて学習させることにより得ることができる。
前記状態を表わすパラメータとしては例えば、前記下層
の複数個のインバースフィルタの出力値の荷重和(線形
結合)を用いることができる。この際、前記状態に対す
る荷重和の荷重値(重み係数)は実際の音声データと正
解データを与えて学習することにより得ることができる
(実施例) 次に図面を参照して本発明を一層詳しく説明するう第1
図は本発明の一実施例を示すブロック図である。
第1図において、まず音声波形が音源パラメータ抽出回
路1およびホルマントパラメータ抽出回路2に入力され
る。音源パラメータ抽出回F!@1は前記音声波形から
有声/無声データ、ピッチデータ8振中データ等の音源
パラメータ値を抽出し調音レベルの荷重和回路11.1
2.13に出力する。一方、ホルマントパラメータ抽出
回路2は前記音声波形からホルマントパラメータ値を抽
出し、調音レベルの荷重和回路11.12.13に出力
する。調音レベルの荷重和回路11.12.13は前記
音源パラメータ値およびホルマントパラメータ値にそれ
ぞれの荷重和回路毎に予め定められた荷重をかけた後に
、対応する調音レベルのインバースフィルタ14゜15
、16に出力する。調音レベルのインバースフィルタ1
4.15.16は予め各インバースフィルタ毎に定めら
れた係数に従って、対応する前記調音レベルの荷重和回
路の出力に対してインバースフィルタリングを行ない音
素レベルの荷重和回路21.22゜23に出力する。
音素レベルの荷重和回路21.22.23は前記調音レ
ベルのインバースフィルタの出力に対して各荷重和回路
毎に予め定められた荷重をかけた後に加算を行ない総和
を対応する音素レベルのインバースフィルタ24.25
.26に出力する。音素レベルのインバースフィルタ2
4.25.26は、予め各インバースフィルタ毎に定め
られた係数に従って対応する前記音素レベルの荷重和回
路の出力に対してインバースフィルタリングを行ない文
字レベルの荷重和回!31.32.33に出力する。
文字レベルの荷重和回路31.32.33は前記音素レ
ベルのインバースフィルタの出力に対して、各荷重和回
路毎に予め定められた荷重をかけた後に加算を行ない総
和を対応する文字レベルのインバースフィルタ34.3
5.36に出力する9文字レベルのインバースフィルタ
34.35.36は予め各インバースフィルタ毎に定め
られた係数に従って対応する前記文字レベルの荷重和回
路の出力に対してインバースフィルタリングを行ないR
IM文字検出回#I41に出力する。最適文字検出回路
41は前記文字レベルのインバースフィルタの出力値を
比較し最小値に対応する文字を出力する。
第2図は第1図において用いられているインバースフィ
ルタの構成例を示すブロック図である。
まず入力端子51を介して該レベルにおける前記荷重和
回路の出力値101が加算回路52に入力される。加算
回路52は荷重回路56.57.58の出力値と前記荷
重和回路の出力値101を加算し総和を遅延回路53に
出力する。遅延回路53.54.55は該入力に対して
該レベルにおいて定められた単位時間たけ遅延を行なう
。荷重回路56.57.58は対応する前記遅延回路の
出力に対して各インバースフィルタ毎に予め定められた
前記係数を用いて荷重をがけ加算回路52に出力する。
遅延回路55の出力109はインバースフィルタの出力
値として出力端子59を介して出力される。
以上の説明においては、インバースフィルタとして第2
図に示されるような巡回型のフィルタを用いたが、一般
に時間遅れ要素を含むフィルタを用いれば各状態のパラ
メータ値の時間変化パターンを調べることができ同様の
効果が得られることは明らかである。
(発明の効果) 以上述べた如く本発明によればセグメンテーションデー
タに従って制御されるインバースフィルタを用いること
により比較的単純な回路構成でセグメンテーションおよ
び状態認識を行ない音声認識を行なうことが可能となる
【図面の簡単な説明】 第1図は本発明の一実施例を示すブロック図、第2図は
その実施例で用いるインバースフィルタを示すブロック
図である。

Claims (1)

    【特許請求の範囲】
  1. 音声の知覚または生成の過程に対応して設けられた階層
    毎に各階層内の状態に対応して予め用意されたセグメン
    テーションデータに従って制御される複数個のインバー
    スフィルタと、前記各階層内の状態に対応して予め用意
    された重み係数に従って下層の前記インバースフィルタ
    の出力値の荷重和を算出し上層の前記インバースフィル
    タの入力とする手段とを有することを特徴とする音声認
    識装置。
JP62016876A 1987-01-27 1987-01-27 音声認識装置 Expired - Lifetime JPH0634195B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62016876A JPH0634195B2 (ja) 1987-01-27 1987-01-27 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62016876A JPH0634195B2 (ja) 1987-01-27 1987-01-27 音声認識装置

Publications (2)

Publication Number Publication Date
JPS63183499A true JPS63183499A (ja) 1988-07-28
JPH0634195B2 JPH0634195B2 (ja) 1994-05-02

Family

ID=11928385

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62016876A Expired - Lifetime JPH0634195B2 (ja) 1987-01-27 1987-01-27 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0634195B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0272397A (ja) * 1988-09-07 1990-03-12 Hitachi Ltd 音声認識装置
JPH03114345A (ja) * 1989-09-28 1991-05-15 Sekisui Chem Co Ltd 発呼者認識電話装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0272397A (ja) * 1988-09-07 1990-03-12 Hitachi Ltd 音声認識装置
JPH03114345A (ja) * 1989-09-28 1991-05-15 Sekisui Chem Co Ltd 発呼者認識電話装置

Also Published As

Publication number Publication date
JPH0634195B2 (ja) 1994-05-02

Similar Documents

Publication Publication Date Title
CA1216673A (en) Text to speech system
Gevaert et al. Neural networks used for speech recognition
Song et al. ExcitNet vocoder: A neural excitation model for parametric speech synthesis systems
CN111312245B (zh) 一种语音应答方法、装置和存储介质
CN112037766B (zh) 一种语音音色转换方法及相关设备
JP2008152262A (ja) 音声特徴ベクトル変換方法及び装置
CN115641543B (zh) 一种多模态抑郁情绪识别方法及装置
KR19990028694A (ko) 음성 전달 신호의 속성 평가 방법 및 장치
Meyer et al. A quasiarticulatory speech synthesizer for German language running in real time
Rawat et al. Emotion recognition through speech using neural network
CN109308903B (zh) 语音模仿方法、终端设备及计算机可读存储介质
Park et al. Emotion recognition and acoustic analysis from speech signal
Wang et al. Speech augmentation using wavenet in speech recognition
Yadav et al. Prosodic mapping using neural networks for emotion conversion in Hindi language
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
De Mori A descriptive technique for automatic speech recognition
JPS63183499A (ja) 音声認識装置
CN116434758A (zh) 声纹识别模型训练方法、装置、电子设备及存储介质
KR102655933B1 (ko) 데이터 증강 방법 및 장치
Turner et al. Modeling natural sounds with modulation cascade processes
Binh et al. A high-performance speech-recognition method based on a nonlinear neural network
Nikitaras et al. Fine-grained noise control for multispeaker speech synthesis
JPH01276200A (ja) 音声合成装置
JP2910035B2 (ja) 音声合成装置
JPH02304493A (ja) 音声合成システム