JPS62278597A - 音素標準パタ−ンの切り出し方法 - Google Patents

音素標準パタ−ンの切り出し方法

Info

Publication number
JPS62278597A
JPS62278597A JP61121870A JP12187086A JPS62278597A JP S62278597 A JPS62278597 A JP S62278597A JP 61121870 A JP61121870 A JP 61121870A JP 12187086 A JP12187086 A JP 12187086A JP S62278597 A JPS62278597 A JP S62278597A
Authority
JP
Japan
Prior art keywords
phoneme
word
speech
boundary
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61121870A
Other languages
English (en)
Other versions
JPH0458635B2 (ja
Inventor
伸 神谷
厚夫 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP61121870A priority Critical patent/JPS62278597A/ja
Publication of JPS62278597A publication Critical patent/JPS62278597A/ja
Publication of JPH0458635B2 publication Critical patent/JPH0458635B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 3、発明の詳細な説明 〔産業上の利用分野〕 本発明は音声認識装置における音素標準パターンの切り
出し方法に関する。
〔従来の技術〕
音声認識は、音声を音響分析してその中に含まれる言語
的特徴を抽出し、これにより音声に対応する言語記号の
表示に変換する処理であり、原理的には2種類の方法が
知られている。すなわち、その一つは音声に含まれる言
語的特徴に関する標準パターンを予め記憶しておき、こ
の標準パターンと音声入力とを比較して類似性を調べ、
その類貝性に基づいて入力された音声入力が標準パター
ンと一致とするかどうかの認識判定を行う方法である。
もう一つの方法は、上記の標準パターンを使うことなく
、音声入力の音響分析結果に基づいて、音素記号の二者
択一的な判定を繰り返し行い、最終的に言語としての認
識判定を行う方法である。
上記2つの方法では、一般に標準パターンを用いる前者
の方法が認識結果が良好てあり、たとえば、第8図に示
す方法により音声入力の単語認識が行われている。
第8図において、人力された音声入力の周波数スペクト
ラム包絡と、相関分析等による駆動音源の2つの音響的
特徴で音響分析された後、予め作成された音素標準パタ
ーンにより音素認識が行われる。この音素認識において
は、入力された上記音響的特徴が音素記号の系列で表さ
れ、この音素記号の系列を予め作成された単語辞書によ
り単語認識を行い、認識された単語がその単語の言語記
号の形で出力される。
〔発明が解決しようとする問題点〕
上述のように、連続音声認識において音素を認識の基本
単位として用いる場合、予め音素標準パターンを登録用
単語音声から切り出す必要があり、この音素の切り出し
は、従来音声情報処理の熟練台が視察にて行っていたた
めに、切り出し時間が長くかかり非常に不便であった。
〔発明の目的〕
本発明の目的は以上の問題点を解決し、単語音声から音
素標準パターンを人手を介することなく機械的にかつ迅
速に切り出すことができる音素標準ベターンの切り出し
方法を提供することにある。
〔発明の構成〕
本発明は、予め複数の話者が発声した単語毎に音素境界
記号を節とする複数の遷移路を有する単語ネットワーク
を記憶手段に記憶する一方、人力された単語音声の音素
境界記号列及び音声分析のパラメータ系列を抽出し、上
記人力された単語音声の音素境界記号列が上記記憶手段
に記憶された単語ネットワークのうちの少なくとも1つ
の遷移路と一致したとき、上記パラメータ系列を音声認
識を行うための音素標準パターンとして切り出すことを
特徴とする。
〔実施例〕
第1図は本発明の一実施例である音素標準パターン切り
出し装置のブロック図であり、本発明は登録用単語音声
から音素標準パターンを切り出す際にパワー変化及びス
ペクトル変化等から検出される音素境界記号を節とする
単語ネットワークを用いることを特徴とする。
第1図において、まず登録用単語音声X (L)は音声
分析部1に入力され、その音声入力X (t)から、自
己相関係数R(t)及びその変化R″(1)、パワーP
 (t)及びその変化P’(t)、並びにケプストラム
係数c(t)が計算される。ここで、音声入力のフレー
ム周期を例えば8 m5ecとし、上記tは音声人力の
1番めのフレームを表す。
第2図は第1図の音声分析部lのブロック図であり、第
2図において、まず登録用単語音声入力X (t)は標
本化回路11に入力されて、所定の標本化周波数で標本
化され、標本化値S (t)が自己相関係数計算部12
及びパワー計算部13に出力される。本実施例の標本化
回路IIでは、lフレームあたり256回の標本化を行
い、以下、個々の標本化値を、 5(L)i、  l  ≦i≦256  ・・・・・・
・・・(1)と表す。
自己相関係数計算部I2において、入力された標本化値
Sα)から、分析次数np=24として第3図の処理フ
ローに基づいて次式の自己相関係数R(t)iが計算さ
れた後、線形予測係数計算部14及び音韻分類部2に出
力される。
256  k=1 1≦ i ≦24          ・・・・・・・
・・(2)ここで添字iは自己相関係数R(t)の次数
を表し、以下において記述される線形予測分析係数A(
t)i及びケプストラム係数c(t) iの各添字iも
次数を表す。
第3図のフローチャートにおいて、5(I)は上記標本
化値S (t)iを表し、R(I)は上記自己相関係数
RQ)iを表わす。
線形予測係数計算部I4において、人力された自己相関
係数R(t)iから、公知の線形予測分析法により第4
図の処理フローに基づいて線形予測分析係数A(t)i
が算出された後、ケプストラム係数計算部15に出力さ
れる。ケプストラム係数計算部15においては、入力さ
れた線形予測分析係数A (t) iから次式に上りケ
プストラム係数c(t) iが算出され、音素切り出し
部4及びケプストラム変化計算部16に出力される。
l≦1=24      ・・・・・ (3)ただし、
(3)式において、1次のケプストラム係数c(t)、
は次式で表わされる。
c(t)+= −AQ)+         ・・・・
・ (4)さらに、ケプストラム変化計算部16におい
て、人力されたケプストラム係数c(t)iから次式に
基づいてケプストラム係数の変化c’(t)iを算出し
、音素境界検出部3に出力される。
c’(t)i=lc(t−4)i−c(L)il   
・−=  (5)一方、パワー計算部13において、人
力された標本化値5(t)iから次式に基づいてパワー
P (t)が算出された後、音韻分類部2及びパワー変
化計算部17に出力される。
次に、パワー変化計算部I7において、入力されたパワ
ーP (t)から次式に基づいてパワーの変化P’(t
)を算出し、音声境界検出部3に出力される。
P’ (t)−Σ (j−4)・P(t−7−N)  
・・・・(7)J=1 第5図は、第1図の音韻分類部2において音韻分類する
際の領域表であり、横軸Xは、−1og(1−R(t)
i)であり、縦軸Yは、log P(t)である。
コ、: テ、R(t) +は前述の通りt番目のフレー
ムの1次の自己相関係数である。
第5図において、Yが所定の境界値73未満の領域にお
いては、無音部(・)である。また、Yが所定の境界値
Y、以上かつ所定の境界値Y2以下である領域であって
、Xが所定の境界値X9未満の領域では無声部(F)、
Xが所定の境界値X1以上かつ所定の境界値 X、以下
の領域では母音部(V)、Xが所定の境界値X、を越え
る領域では鼻音部(N)である。
さらに、YがY、を越える領域であって、Y <  m
+ (X  X +)+ Y !   −−−(8)な
る領域は無声部(F)であり、 Y≧−IIlt (X  X +) + Y t   
・・・・・・・・・ (9)であってかつ Y≧l1lx (x−xt)+yt    −・−−−
(10)なる領域は母音部(V)であり、 Y< mt (X  K*)十Yx    ==−−・
(11)なる領域は鼻音部(N)である。ここで、m、
及びm、は正の所定値である。
音韻分類部2においては、入力されたパワーP Q)及
び自己相関係数R(し)から、第5図に基づき音声人力
の各フレームの大略的特徴を音韻分類記号phi)の形
で音素境界検出部3に出力する。
なお、出力される音韻分類記号ph(t)とそれが表す
べき性質を第1表に示す。
次に、音素境界検出部3では、入力されたパワーの変化
P’(t)、ケプストラム係数の変化C’(t)i及び
音韻分類記号ph(t)から、第2表の条件に基づいて
、第2表の音素境界番号bdQ)が検出され、音素切り
出し部4に出力される。なお、第2表において、T、、
T、及びT、は所定のしきい値である。この音素境界検
出部3において、もし境界番号の間隔が所定のしきい値
T4フレーム以内であるならば、次式に示す優先四ノ高
い音素境界番号bd(し)が出力される。
陵先度か高い■〉■〉■〉■〉■〉■優先度が低い  
            ・・・・・・・・ (12)
第6図は、3名の話者が「あさひ」と発声したときの、
音韻分類記号列ph(t)と境界番号列bd(t)の例
を示した図である。前述のように、1個の単語区間は、
境界記号■から始まり境界記号■で終わる境界記号列b
d(t)で記述できる。第6図の境界記号列bdQ)を
、境界記号をノード(節)とする単語ネットワークで表
現すると第7図のようになる。ただしノード間の枝にそ
の区間に存在する音素を、ノードの上に通し番号を示す
。なお、第7図において示されるように、複数の話者に
よって作成された1Mの単語に対する単語ネットワーク
においては、話者によって境界記号列bd(t)が異な
るため複数の遷移路が存在する。
第1図において、5は単語ネットワーク表(ROM)で
あり、予め多数の話者が発声した音素切り出し用単語の
音声データを分析して、単語毎に第7図のような単語ネ
ットワークを作成し、単語ネットワーク表(ROM)5
に書き込んでおく。
このネットワークをメモリ (ROM)上で記憶さ仕る
ために第3表の例のようなリスト表現を用い、第3表に
示すように1本の枝を6ワードのノード情報で表現する
。ノード情報の各ワードの意味を第3表に、各校におけ
る音素の切り出し位置とその記号を第4表に示す。
なお、第3表において、分岐条件(最短)とは分岐条件
を満たす境界記号が来るまでのフレーム間隔の最小値で
あり、分岐条件(最長)とは分岐条件を満たす境界記号
が来るまでのフレーム間隔の最大値である。
第3表の例においては、境界記号■が、5フレ一ム以上
15フレーム以内に来れば、ノード番号4に分岐し現在
のノードと分岐先のノードを結ぶ区間の中央のフレーム
におけるケプストラム係数c(t)を音素/a/の標準
パターンとして切り出すことを意味する。
音素切り出し部4では、音素切り出し用単語毎に対応す
る単語ネットワークを単語ネットワーク表(ROM)5
より読み出すとともに、登録用音声入力を分析した繕求
音素境界検出部3から出力される境界記号列bd(t)
か入力される。まず、最初のノードである境界記号■か
ら出発して、ノード情報内の分岐条件を満たせば、音素
切り出し部に設けられたポインタを次のノードに遷移さ
せ、この動作を繰り返す。
入力された境界記号列bd(t)に基づいて、上記ポイ
ンタが単語ネットワーク表(ROM)5に記憶された単
語ネットワークに従って遷移し、単語の終端を表す境界
記号■まで遷移することができた時のみ、音素の区分に
成功したと見なして、単語ネットワーク表(ROM) 
5に書き込まれたノード情報の切り出し位置し0に対応
するフレームにおけるケプストラム係数C(tO)を各
音素毎に切り出し、その係数c(to)を音素の標準パ
ターンとして音素標準パターン表(RAM)6にストア
する。
以上説明したように、予め多数の話者が発声した音素切
り出し用単語の音声データを分析して、音素境界記号を
ノードとした第7図に示すような単語ネットワークを、
各ノード間の枝を6ワードで表わした第3表のノード情
報の形で単語ネットワーク表(ROM)5に書き込んで
おき、登録用音声人力X (t)から分析された境界記
号列bd(t)と単語ネットワーク表(ROM) 5に
書き込まれた単語ネットワークとを照合して、一致した
遷移路がある場合、音素の区分に成功したと判断し単語
ネットワーク表(ROM) 5に書き込まれたノード情
報の切り出し位置t。に対応するフレームにおけるケプ
ストラム係数c(to)を各音素毎に音素標準パターン
として切り出すことができる。
第1表 第3表 第4表 〔発明の効果〕 以上詳述したように、予め複数の話者が発声した単語音
声を分析して単語毎に音素境界記号を節とする複数の遷
移路を有する単語ネットワークを記憶手段に記憶してお
き、人力された単語音声を分析して音素境界記号列及び
音声分析のパラメータ系列を出力させ、上記入力音素境
界記号列が上記記憶手段に記憶された単語ネットワーク
のうちの少なくとも1つの遷移路と一致したとき、上記
パラメータ系列を音声認識を行うための音素の標準パタ
ーンとして切り出すことができるので、人手を介するこ
となく機械的にかつ迅速に単語音声から音素標準パター
ンの切り出すことができる。
【図面の簡単な説明】
第1図は本発明の一実施例である音素標準パターンの切
り出し装置のブロック図、 第2図は第1図の音声分析部のブロック図、第3図は第
2図の自己相関係数計算部の処理を示すフローチャート
、 第4図は第2図の線形予測分析係数計算部の処理を示す
フローチャート、 第5図は第1図の音韻分類部における分類の領域を示す
図、 第6図は3名の話者が「あさひ」と発声したときの音韻
分類記号列と境界番号列を示した図、第7図は第6図の
境界記号列を境界記号をノードとして表現された単語ネ
ットワークを示す図、第8図は従来例の音声認識方法を
示すブロック図である。 特 許 出 願 人 ンヤーブ 株式会社代 理 人 
弁理士 青 山  葆ほか2名蔦3図 第5図 0      ”       ’      x −
−j!o、7n−R+t+、+第6図 第71!1

Claims (1)

    【特許請求の範囲】
  1. (1)予め複数の話者が発声した単語毎に音素境界記号
    を節とする複数の遷移路を有する単語ネットワークを記
    憶手段に記憶する一方、 入力された単語音声の音素境界記号列及び音声分析のパ
    ラメータ系列を抽出し、 上記入力された単語音声の音素境界記号列が上記記憶手
    段に記憶された単語ネットワークのうちの少なくとも1
    つの遷移路と一致したとき、上記パラメータ系列を音声
    認識を行うための音素標準パターンとして切り出すこと
    を特徴とする音素標準パターンの切り出し方法。
JP61121870A 1986-05-26 1986-05-26 音素標準パタ−ンの切り出し方法 Granted JPS62278597A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61121870A JPS62278597A (ja) 1986-05-26 1986-05-26 音素標準パタ−ンの切り出し方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61121870A JPS62278597A (ja) 1986-05-26 1986-05-26 音素標準パタ−ンの切り出し方法

Publications (2)

Publication Number Publication Date
JPS62278597A true JPS62278597A (ja) 1987-12-03
JPH0458635B2 JPH0458635B2 (ja) 1992-09-18

Family

ID=14821966

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61121870A Granted JPS62278597A (ja) 1986-05-26 1986-05-26 音素標準パタ−ンの切り出し方法

Country Status (1)

Country Link
JP (1) JPS62278597A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5356210A (en) * 1991-03-16 1994-10-18 Alfred Teves Gmbh Anti-lock hydraulic brake system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5356210A (en) * 1991-03-16 1994-10-18 Alfred Teves Gmbh Anti-lock hydraulic brake system

Also Published As

Publication number Publication date
JPH0458635B2 (ja) 1992-09-18

Similar Documents

Publication Publication Date Title
JPS6147440B2 (ja)
JP2005043666A (ja) 音声認識装置
KR20160061071A (ko) 발음 변이를 적용시킨 음성 인식 방법
JP2001195087A (ja) 音声認識システム
KR20040061070A (ko) 음성인식시스템에서의 음성인식장치 및 그 방법
JPH1097285A (ja) 音声認識装置
JPS62278597A (ja) 音素標準パタ−ンの切り出し方法
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
KR20220112560A (ko) 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템
JP2006010739A (ja) 音声認識装置
JP3049235B2 (ja) 複合的な文法ネットワークを用いる音声認識システム
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
KR100981540B1 (ko) 연속 음성인식 시스템에서의 묵음 모델 처리를 통한음성인식 방법
JPH0534679B2 (ja)
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JPS62144200A (ja) 連続音声認識装置
JPS59189398A (ja) 連続音声認識方式
JP2003345383A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JPS60164800A (ja) 音声認識装置
JP2000242292A (ja) 音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体
JP2004309654A (ja) 音声認識装置
JPH096387A (ja) 音声認識装置
JPH08305389A (ja) 音声認識装置
JP2000315095A (ja) 音声認識装置、音声認識方法及び音声認識制御プログラムを記録した記録媒体
JPS63247799A (ja) 音声認識装置