JPS62278597A

JPS62278597A - 音素標準パタ−ンの切り出し方法

Info

Publication number: JPS62278597A
Application number: JP61121870A
Authority: JP
Inventors: 伸神谷; 厚夫田中
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1986-05-26
Filing date: 1986-05-26
Publication date: 1987-12-03
Also published as: JPH0458635B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】３、発明の詳細な説明〔産業上の利用分野〕本発明は音声認識装置における音素標準パターンの切り
出し方法に関する。

〔従来の技術〕

音声認識は、音声を音響分析してその中に含まれる言語
的特徴を抽出し、これにより音声に対応する言語記号の
表示に変換する処理であり、原理的には２種類の方法が
知られている。すなわち、その一つは音声に含まれる言
語的特徴に関する標準パターンを予め記憶しておき、こ
の標準パターンと音声入力とを比較して類似性を調べ、
その類貝性に基づいて入力された音声入力が標準パター
ンと一致とするかどうかの認識判定を行う方法である。

もう一つの方法は、上記の標準パターンを使うことなく
、音声入力の音響分析結果に基づいて、音素記号の二者
択一的な判定を繰り返し行い、最終的に言語としての認
識判定を行う方法である。

上記２つの方法では、一般に標準パターンを用いる前者
の方法が認識結果が良好てあり、たとえば、第８図に示
す方法により音声入力の単語認識が行われている。

第８図において、人力された音声入力の周波数スペクト
ラム包絡と、相関分析等による駆動音源の２つの音響的
特徴で音響分析された後、予め作成された音素標準パタ
ーンにより音素認識が行われる。この音素認識において
は、入力された上記音響的特徴が音素記号の系列で表さ
れ、この音素記号の系列を予め作成された単語辞書によ
り単語認識を行い、認識された単語がその単語の言語記
号の形で出力される。

〔発明が解決しようとする問題点〕

上述のように、連続音声認識において音素を認識の基本
単位として用いる場合、予め音素標準パターンを登録用
単語音声から切り出す必要があり、この音素の切り出し
は、従来音声情報処理の熟練台が視察にて行っていたた
めに、切り出し時間が長くかかり非常に不便であった。

〔発明の目的〕

本発明の目的は以上の問題点を解決し、単語音声から音
素標準パターンを人手を介することなく機械的にかつ迅
速に切り出すことができる音素標準ベターンの切り出し
方法を提供することにある。

〔発明の構成〕

本発明は、予め複数の話者が発声した単語毎に音素境界
記号を節とする複数の遷移路を有する単語ネットワーク
を記憶手段に記憶する一方、人力された単語音声の音素
境界記号列及び音声分析のパラメータ系列を抽出し、上
記人力された単語音声の音素境界記号列が上記記憶手段
に記憶された単語ネットワークのうちの少なくとも１つ
の遷移路と一致したとき、上記パラメータ系列を音声認
識を行うための音素標準パターンとして切り出すことを
特徴とする。

〔実施例〕

第１図は本発明の一実施例である音素標準パターン切り
出し装置のブロック図であり、本発明は登録用単語音声
から音素標準パターンを切り出す際にパワー変化及びス
ペクトル変化等から検出される音素境界記号を節とする
単語ネットワークを用いることを特徴とする。

第１図において、まず登録用単語音声Ｘ　（Ｌ）は音声
分析部１に入力され、その音声入力Ｘ　（ｔ）から、自
己相関係数Ｒ（ｔ）及びその変化Ｒ″（１）、パワーＰ
　（ｔ）及びその変化Ｐ’（ｔ）、並びにケプストラム
係数ｃ（ｔ）が計算される。ここで、音声入力のフレー
ム周期を例えば８　ｍ５ｅｃとし、上記ｔは音声人力の
１番めのフレームを表す。

第２図は第１図の音声分析部ｌのブロック図であり、第
２図において、まず登録用単語音声入力Ｘ　（ｔ）は標
本化回路１１に入力されて、所定の標本化周波数で標本
化され、標本化値Ｓ　（ｔ）が自己相関係数計算部１２
及びパワー計算部１３に出力される。本実施例の標本化
回路ＩＩでは、ｌフレームあたり２５６回の標本化を行
い、以下、個々の標本化値を、５（Ｌ）ｉ、　　ｌ　　≦ｉ≦２５６　　・・・・・・
・・・（１）と表す。

自己相関係数計算部Ｉ２において、入力された標本化値
Ｓα）から、分析次数ｎｐ＝２４として第３図の処理フ
ローに基づいて次式の自己相関係数Ｒ（ｔ）ｉが計算さ
れた後、線形予測係数計算部１４及び音韻分類部２に出
力される。

２５６　　ｋ＝１１≦　ｉ　≦２４　　　　　　　　　　・・・・・・・
・・（２）ここで添字ｉは自己相関係数Ｒ（ｔ）の次数
を表し、以下において記述される線形予測分析係数Ａ（
ｔ）ｉ及びケプストラム係数ｃ（ｔ）　ｉの各添字ｉも
次数を表す。

第３図のフローチャートにおいて、５（Ｉ）は上記標本
化値Ｓ　（ｔ）ｉを表し、Ｒ（Ｉ）は上記自己相関係数
ＲＱ）ｉを表わす。

線形予測係数計算部Ｉ４において、人力された自己相関
係数Ｒ（ｔ）ｉから、公知の線形予測分析法により第４
図の処理フローに基づいて線形予測分析係数Ａ（ｔ）ｉ
が算出された後、ケプストラム係数計算部１５に出力さ
れる。ケプストラム係数計算部１５においては、入力さ
れた線形予測分析係数Ａ　（ｔ）　ｉから次式に上りケ
プストラム係数ｃ（ｔ）　ｉが算出され、音素切り出し
部４及びケプストラム変化計算部１６に出力される。

ｌ≦１＝２４　　　　　　・・・・・　（３）ただし、
（３）式において、１次のケプストラム係数ｃ（ｔ）、
は次式で表わされる。

ｃ（ｔ）＋＝　−ＡＱ）＋　　　　　　　　　・・・・
・　（４）さらに、ケプストラム変化計算部１６におい
て、人力されたケプストラム係数ｃ（ｔ）ｉから次式に
基づいてケプストラム係数の変化ｃ’（ｔ）ｉを算出し
、音素境界検出部３に出力される。

ｃ’（ｔ）ｉ＝ｌｃ（ｔ−４）ｉ−ｃ（Ｌ）ｉｌ　　　
・−＝　　（５）一方、パワー計算部１３において、人
力された標本化値５（ｔ）ｉから次式に基づいてパワー
Ｐ　（ｔ）が算出された後、音韻分類部２及びパワー変
化計算部１７に出力される。

次に、パワー変化計算部Ｉ７において、入力されたパワ
ーＰ　（ｔ）から次式に基づいてパワーの変化Ｐ’（ｔ
）を算出し、音声境界検出部３に出力される。

Ｐ’　（ｔ）−Σ　（ｊ−４）・Ｐ（ｔ−７−Ｎ）　　
・・・・（７）Ｊ＝１第５図は、第１図の音韻分類部２において音韻分類する
際の領域表であり、横軸Ｘは、−１ｏｇ（１−Ｒ（ｔ）
ｉ）であり、縦軸Ｙは、ｌｏｇ　Ｐ（ｔ）である。

コ、：　テ、Ｒ（ｔ）　＋は前述の通りｔ番目のフレー
ムの１次の自己相関係数である。

第５図において、Ｙが所定の境界値７３未満の領域にお
いては、無音部（・）である。また、Ｙが所定の境界値
Ｙ、以上かつ所定の境界値Ｙ２以下である領域であって
、Ｘが所定の境界値Ｘ９未満の領域では無声部（Ｆ）、
Ｘが所定の境界値Ｘ１以上かつ所定の境界値　Ｘ、以下
の領域では母音部（Ｖ）、Ｘが所定の境界値Ｘ、を越え
る領域では鼻音部（Ｎ）である。

さらに、ＹがＹ、を越える領域であって、Ｙ　＜　　ｍ
＋　（Ｘ　　Ｘ　＋）＋　Ｙ　！　　　−−−（８）な
る領域は無声部（Ｆ）であり、Ｙ≧−ＩＩｌｔ　（Ｘ　　Ｘ　＋）　＋　Ｙ　ｔ　　　
・・・・・・・・・　（９）であってかつＹ≧ｌ１ｌｘ　（ｘ−ｘｔ）＋ｙｔ　　　　−・−−−
（１０）なる領域は母音部（Ｖ）であり、Ｙ＜　ｍｔ　（Ｘ　　Ｋ＊）十Ｙｘ　　　　＝＝−−・
（１１）なる領域は鼻音部（Ｎ）である。ここで、ｍ、
及びｍ、は正の所定値である。

音韻分類部２においては、入力されたパワーＰ　Ｑ）及
び自己相関係数Ｒ（し）から、第５図に基づき音声人力
の各フレームの大略的特徴を音韻分類記号ｐｈｉ）の形
で音素境界検出部３に出力する。

なお、出力される音韻分類記号ｐｈ（ｔ）とそれが表す
べき性質を第１表に示す。

次に、音素境界検出部３では、入力されたパワーの変化
Ｐ’（ｔ）、ケプストラム係数の変化Ｃ’（ｔ）ｉ及び
音韻分類記号ｐｈ（ｔ）から、第２表の条件に基づいて
、第２表の音素境界番号ｂｄＱ）が検出され、音素切り
出し部４に出力される。なお、第２表において、Ｔ、、
Ｔ、及びＴ、は所定のしきい値である。この音素境界検
出部３において、もし境界番号の間隔が所定のしきい値
Ｔ４フレーム以内であるならば、次式に示す優先四ノ高
い音素境界番号ｂｄ（し）が出力される。

陵先度か高い■〉■〉■〉■〉■〉■優先度が低い　　
　　　　　　　　　　　　・・・・・・・・　（１２）
第６図は、３名の話者が「あさひ」と発声したときの、
音韻分類記号列ｐｈ（ｔ）と境界番号列ｂｄ（ｔ）の例
を示した図である。前述のように、１個の単語区間は、
境界記号■から始まり境界記号■で終わる境界記号列ｂ
ｄ（ｔ）で記述できる。第６図の境界記号列ｂｄＱ）を
、境界記号をノード（節）とする単語ネットワークで表
現すると第７図のようになる。ただしノード間の枝にそ
の区間に存在する音素を、ノードの上に通し番号を示す
。なお、第７図において示されるように、複数の話者に
よって作成された１Ｍの単語に対する単語ネットワーク
においては、話者によって境界記号列ｂｄ（ｔ）が異な
るため複数の遷移路が存在する。

第１図において、５は単語ネットワーク表（ＲＯＭ）で
あり、予め多数の話者が発声した音素切り出し用単語の
音声データを分析して、単語毎に第７図のような単語ネ
ットワークを作成し、単語ネットワーク表（ＲＯＭ）５
に書き込んでおく。

このネットワークをメモリ　（ＲＯＭ）上で記憶さ仕る
ために第３表の例のようなリスト表現を用い、第３表に
示すように１本の枝を６ワードのノード情報で表現する
。ノード情報の各ワードの意味を第３表に、各校におけ
る音素の切り出し位置とその記号を第４表に示す。

なお、第３表において、分岐条件（最短）とは分岐条件
を満たす境界記号が来るまでのフレーム間隔の最小値で
あり、分岐条件（最長）とは分岐条件を満たす境界記号
が来るまでのフレーム間隔の最大値である。

第３表の例においては、境界記号■が、５フレ一ム以上
１５フレーム以内に来れば、ノード番号４に分岐し現在
のノードと分岐先のノードを結ぶ区間の中央のフレーム
におけるケプストラム係数ｃ（ｔ）を音素／ａ／の標準
パターンとして切り出すことを意味する。

音素切り出し部４では、音素切り出し用単語毎に対応す
る単語ネットワークを単語ネットワーク表（ＲＯＭ）５
より読み出すとともに、登録用音声入力を分析した繕求
音素境界検出部３から出力される境界記号列ｂｄ（ｔ）
か入力される。まず、最初のノードである境界記号■か
ら出発して、ノード情報内の分岐条件を満たせば、音素
切り出し部に設けられたポインタを次のノードに遷移さ
せ、この動作を繰り返す。

入力された境界記号列ｂｄ（ｔ）に基づいて、上記ポイ
ンタが単語ネットワーク表（ＲＯＭ）５に記憶された単
語ネットワークに従って遷移し、単語の終端を表す境界
記号■まで遷移することができた時のみ、音素の区分に
成功したと見なして、単語ネットワーク表（ＲＯＭ）　
５に書き込まれたノード情報の切り出し位置し０に対応
するフレームにおけるケプストラム係数Ｃ（ｔＯ）を各
音素毎に切り出し、その係数ｃ（ｔｏ）を音素の標準パ
ターンとして音素標準パターン表（ＲＡＭ）６にストア
する。

以上説明したように、予め多数の話者が発声した音素切
り出し用単語の音声データを分析して、音素境界記号を
ノードとした第７図に示すような単語ネットワークを、
各ノード間の枝を６ワードで表わした第３表のノード情
報の形で単語ネットワーク表（ＲＯＭ）５に書き込んで
おき、登録用音声人力Ｘ　（ｔ）から分析された境界記
号列ｂｄ（ｔ）と単語ネットワーク表（ＲＯＭ）　５に
書き込まれた単語ネットワークとを照合して、一致した
遷移路がある場合、音素の区分に成功したと判断し単語
ネットワーク表（ＲＯＭ）　５に書き込まれたノード情
報の切り出し位置ｔ。に対応するフレームにおけるケプ
ストラム係数ｃ（ｔｏ）を各音素毎に音素標準パターン
として切り出すことができる。

第１表第３表第４表〔発明の効果〕以上詳述したように、予め複数の話者が発声した単語音
声を分析して単語毎に音素境界記号を節とする複数の遷
移路を有する単語ネットワークを記憶手段に記憶してお
き、人力された単語音声を分析して音素境界記号列及び
音声分析のパラメータ系列を出力させ、上記入力音素境
界記号列が上記記憶手段に記憶された単語ネットワーク
のうちの少なくとも１つの遷移路と一致したとき、上記
パラメータ系列を音声認識を行うための音素の標準パタ
ーンとして切り出すことができるので、人手を介するこ
となく機械的にかつ迅速に単語音声から音素標準パター
ンの切り出すことができる。

【図面の簡単な説明】

第１図は本発明の一実施例である音素標準パターンの切
り出し装置のブロック図、第２図は第１図の音声分析部のブロック図、第３図は第
２図の自己相関係数計算部の処理を示すフローチャート
、第４図は第２図の線形予測分析係数計算部の処理を示す
フローチャート、第５図は第１図の音韻分類部における分類の領域を示す
図、第６図は３名の話者が「あさひ」と発声したときの音韻
分類記号列と境界番号列を示した図、第７図は第６図の
境界記号列を境界記号をノードとして表現された単語ネ
ットワークを示す図、第８図は従来例の音声認識方法を
示すブロック図である。特　許　出　願　人　ンヤーブ　株式会社代　理　人　
弁理士　青　山　　葆ほか２名蔦３図第５図０　　　　　　”　　　　　　　’　　　　　　ｘ　−
−ｊ！ｏ、７ｎ−Ｒ＋ｔ＋、＋第６図第７１！１

Claims

【特許請求の範囲】

（１）予め複数の話者が発声した単語毎に音素境界記号
を節とする複数の遷移路を有する単語ネットワークを記
憶手段に記憶する一方、入力された単語音声の音素境界記号列及び音声分析のパ
ラメータ系列を抽出し、上記入力された単語音声の音素境界記号列が上記記憶手
段に記憶された単語ネットワークのうちの少なくとも１
つの遷移路と一致したとき、上記パラメータ系列を音声
認識を行うための音素標準パターンとして切り出すこと
を特徴とする音素標準パターンの切り出し方法。