JPS61137200A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPS61137200A
JPS61137200A JP59257524A JP25752484A JPS61137200A JP S61137200 A JPS61137200 A JP S61137200A JP 59257524 A JP59257524 A JP 59257524A JP 25752484 A JP25752484 A JP 25752484A JP S61137200 A JPS61137200 A JP S61137200A
Authority
JP
Japan
Prior art keywords
speech
formant
matching
information
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59257524A
Other languages
English (en)
Inventor
畑岡 信夫
天野 明雄
矢島 俊一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP59257524A priority Critical patent/JPS61137200A/ja
Publication of JPS61137200A publication Critical patent/JPS61137200A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は音声認識方式に係り、特に認識性能をあげるの
に好適な音声認識方式に関する。
〔発明の背景〕
従来の音声認識装置は一般に入力音声と標準音声との単
純なバタンマツチング(照合)の結果、照合度が最も良
い(あるいは距離が最も小さい)標準音声を認識結果と
する方式がとられていた。
しかし、従来の単純なバタンマツチング方式では、第1
図(同一内容音声/i/の発声の違いによるスペクトラ
ムバタンの変動)で示されるように同一内容音声でもバ
タン間に差が生じるという問題があった。これは主とし
て、発声レベルとスペクトルの傾きが発声ごとに変動す
ることに起因している。
〔発明の目的〕
本発明の目的は、上記従来の音声認識装置の欠点を改良
し、認識性能を向上する音声認識方式を提供することに
ある。
〔発明の概要〕
上記目的を達成するために、本発明では音声(特に母音
)を特徴づけているホルマント(優勢な周波数成分、低
い方から第1ホルマン)(F+)、第2ホルマント(F
2)、・・・・・・と言う。第1図参照)情報を使い、
入力音声と標準音声とのホルマントの合致度から照合度
(距離)を補正し、認識性能をあげることに第1の特徴
があり、さらに連続音声中の子音認識性能の向上をはか
るためにホルマント遷移情報を使うことに第2の特徴が
ある。
〔発明の実施例〕
以下、本発明の原理を詳細に説明する。
第1図に示されるように、同一内容音声でも発声レベル
とスペクトルの傾きが発声ごとに変動する結果、同一内
容音声バタン間に差が生じることはすでに述べた。しか
し、ホルマント周波数の値(ピークの位置)の変動は少
々く、かつ5母音のスペクトルバタンを表わす第2図か
ら、ホルマント周波数は5母音ごとに異なることがわか
る。以上から音声ごとに特有の値を持ち、かつ変動の少
々いホルマント情報を検出し、伺らかの形で認識処理の
中に組み入れられれば、認識性能の向上と安定化がはか
れると考えられる。しかし、一方ではホルマント周波数
を安定に抽出することの難しさから、ホルマント周波数
情報を単独では便えAいことが柚々の実験から判明して
いる。従って本発明では、従来の単純なバタンマツチン
グ方式の中に、照合値(距離値)の補正あるいは対判定
という形で組み入れ、認識性能の向上と安定化をはかつ
ている。具体的表処理は、入力音声と標準音声とのホル
マント周波数(帯域通過フィルタではピークを与えるチ
ャネル)との合致度をカウントして、入力音声と標準音
声との照合度や認識結果を補正する。この結果、発声レ
ベルやスペクトルの傾きに変動があっても、バタン差の
補正がなされる。
次に、第3図は子音の調音形態(調音位置と調音方法1
文献;斎藤、中国共著[音声情報処理の基礎jp、p3
8〜39.オーム社参照)と周波数スペクトルの対応を
示すものである。この図から、調音方法による差は第1
ホルマントの時間変動特性に、また調音位置による差は
主に第2ホルマントの時間変動特性に反映していること
がわかる。これらの子音の変動特性(正確には調音結合
による子音と母音間の渡υ部の特性)は、後続する母音
が変わると、その影響を受けて変化するが、子音と母音
の組み合わせで決まる特異なホルマント遷移(渡り)を
呈する(この特徴は連続音声中での母音と子音の渡り部
にも表われる)。従って、本発明の第2の特徴は、連続
音声中の子音認識性能の向上と安定化をはかるだめに、
ホルマント周波数の遷移状態の情報を使うことにちる。
次に本発明の具体的実施例を詳細に説明する。
第4図は本発明を用いた音声認識装置の一実施例を構成
を示すブロック図である。入力音声1は低域ν波器(L
PF)、アナログ−ディジタル変換器(ADC)2で折
り返し雑音を除去されながらアナログ値からディジタル
値にサンプリングされる。その後、音声分析部3にて入
力音声が分析され、認識に必要な特徴パラメータが求め
られる。
認識に必要な特徴パラメータとしては、例えば帯域フィ
ルタ(BPF)バンク値や線形予測分析の結果書られる
各櫨パラメータなどが考えられる。
本発明では前者の帯域フィルタバンク値を一実施例とし
て用いている。その後ホルマント合致度算出部4にて、
入力音声のホルマント情報やホルマント遷移情報とが検
出され、標準音牢記l型部5に格納されている標準音声
のホルマント情報との合致度が入力音声と標準音声との
時間対応で算出される。従ってホルマント合致度算出部
4は、ホルマント検出部41、ホルマンl移探索部42
および合致度計算部43とから構成される。その後距離
部計算部6にて、標準音声記憶部5から読み込まれた標
準音声の特徴との距離がホルマント合致度算出部4で求
められた合致度を考慮した形で求められる。次に、照合
部7にて入力音声と標準音声との時間構造を含めた総距
離(照合)値が計算され、判定部8にて入力音声がどの
標準音声に最も似ているかの判定がなされ、認識結果9
を出力する。距離計算部6は簡単な加・減算器のみでも
構成され、照合部7は例えば連続NL(NOn−:[,
1near )マツチング法(公知例;連続DP法、特
開昭55−2205号公報の改良)による回路で構成さ
れる。判定部8は単純な大小比較器で構成しうる。本発
明はホルマント検出部41、ホルマント遷移探索部42
、合致度計算部43とから成るホルマント合致度算出部
4に関するものであり、ホルマント検出部、ホルマント
遷移探索部は減算器と大小比較器などで構成され、合致
度計算部は乗算器と加算器で構成される。
第5図は、ホルマント合致度算出部4でおこなわれる本
発明の処理フローの一実施例を示している。帯域通過フ
ィルタ(BPF )分析の結果得られた音声バタンx(
i、j)、iチャネル、jフレームを入力として、まず
ホルマントピークの検出が行なわれる。具体的には両隣
りのチャネルとのBPF出力差がどちらも閾値よシも大
きい時をピークと判定することなどが考えられる。この
結果、0/1で表わされたホルマントピーク情報PEA
K((i、 j)が得られる。次に、ホルマント遷移探
索が行なわれ、第5図に示す処理からホルマント遷移情
報TRN5x(+、J)  が得られる。
最後に、標準音声のホルマント遷移情報TRN5g (
j 、 j ) との合致度M j x j sが次の
ように求まる。
M j x j s−ΣTRNSx (i、 jx) 
XTR,NSs (t、 j s)jx+js;入力お
よび標準音声のフレームN   、BPF総チャネル数 認識処理の中には、1例として次のような重み係数の形
で入力音声と標準音声の距離djxjsを補正する。
djxjs= (1−0,2Mjx js)djxjs
〔発明の効果〕 第6図は従来の方式と本発明の方式による連続音声の子
音認識結果を示すものであり、第0位内までの複数候補
を許した場合の認識率を表わしている。この結果、本発
明の方式による場合約4%゛(第1位内で)の認識率向
上がはかれた。特に、2重母音への湧き出しや破裂音t
、b、弾音rの認識改善がはかれた。
以上のように、本発明によれば、発声レベルやスペクト
ルの傾きの変動による同一内容音声のバタン差を補正し
、かつ連続音声中での子音と母音の組み合せで決まる特
異な渡シ部の特性を使うことができるので、認識性能の
向上をはかる効果がある。
【図面の簡単な説明】
第1図は発話により同一内容音声/i/のスペクトルバ
タンか変動することを示す図、第2図は5母のホルマン
ト周波数が異なることを示す図、第3図は調音形態によ
って子音と母音のホルマントの時間変動を示す図、第4
図は本発明を組み入れた音声認識装置の一実施例を示す
ブロック図、第5図は本発明の処理フローの一実施例を
示す図、第6図は本発明の効果を示す認識実験結果を表
わす図である。 4・・・ホルマント合致度算出部、41・・・ホルマン
ト検出部、42・・・ホルマント遷移探索部、43・・
・合第  1  図 周  リ、皮  数   ζKH1) ¥J  2  図 /Z3d

Claims (1)

  1. 【特許請求の範囲】 1、入力音声のホルマント(音声を特徴づける優勢な周
    波数成分)情報を検出する第1の手段と前もつて検出さ
    れ標準音声記憶部に格納されている標準音声のホルマン
    ト情報との合致度を算出する第2の手段と、その合致度
    をもとに入力音声と標準音声との照合度あるいは認識結
    果を補正する第3の手段とを有することを特徴とする音
    声認識方式。 2、前記特許請求の範囲第1項記載の音声認識装置にお
    いて、上記第3の手段は入力音声と標準音声とのホルマ
    ント情報の合致度をホルマントの遷移状態の似具合いに
    重きを置いたことを特徴とする音声認識方式。 3、前記特許請求の範囲第1項記載の音声認識装置にお
    いて、入力音声の分析手段を帯域通過フィルタとし、ホ
    ルマント情報を帯域通過フィルタ出力の周波数方向での
    ピーク情報としたことを特徴とする第1項または第2項
    記載の音声認識方式。
JP59257524A 1984-12-07 1984-12-07 音声認識方式 Pending JPS61137200A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59257524A JPS61137200A (ja) 1984-12-07 1984-12-07 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59257524A JPS61137200A (ja) 1984-12-07 1984-12-07 音声認識方式

Publications (1)

Publication Number Publication Date
JPS61137200A true JPS61137200A (ja) 1986-06-24

Family

ID=17307490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59257524A Pending JPS61137200A (ja) 1984-12-07 1984-12-07 音声認識方式

Country Status (1)

Country Link
JP (1) JPS61137200A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002508526A (ja) * 1998-03-25 2002-03-19 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 狭帯域言語信号からの広帯域言語合成

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002508526A (ja) * 1998-03-25 2002-03-19 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 狭帯域言語信号からの広帯域言語合成

Similar Documents

Publication Publication Date Title
EP0128755B1 (en) Apparatus for speech recognition
Singh et al. Vector quantization approach for speaker recognition using MFCC and inverted MFCC
JPS5972496A (ja) 単音識別装置
KR960007842B1 (ko) 음성잡음분리장치
US7680657B2 (en) Auto segmentation based partitioning and clustering approach to robust endpointing
KR910020643A (ko) 음성신호처리장치
JPS61137200A (ja) 音声認識方式
JPH0558553B2 (ja)
JPH07191696A (ja) 音声認識装置
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
JP3251480B2 (ja) 音声認識方法
JPS61128300A (ja) ピツチ抽出装置
CN115171733A (zh) 一种基于特征融合的音频抑郁症检测方法
JP2891259B2 (ja) 音声区間検出装置
JPS63173100A (ja) キ−ワ−ド抽出装置
JP2656239B2 (ja) 音声認識学習方式
JPS62113197A (ja) 音声認識装置
JP3002200B2 (ja) 音声認識
JPS6310440B2 (ja)
JPH0451840B2 (ja)
JPH0117599B2 (ja)
JPS61143800A (ja) 音声認識装置
JPH0731506B2 (ja) 音声認識方法
JPS62293299A (ja) 音声認識方法
JPS6227798A (ja) 音声認識装置