JPS63223694A

JPS63223694A - 単音節登録・認識方式

Info

Publication number: JPS63223694A
Application number: JP62058076A
Authority: JP
Inventors: 安田　晴剛
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1987-03-12
Filing date: 1987-03-12
Publication date: 1988-09-19

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】皮胤水」本発明は、単音節認識装置における登録・認識方式に関
する。

従来挟東従来技術においては、単音節における子音境界を何らか
の方法で決定し、その１個の値を基に登録、認識演算を
行ったり、複数の特徴量を用いて各々別の境界を検出し
、同様の演算を行っていた。

この場合、特徴量に対して１個の境界に決定する場合に
誤検出を行うと、登録辞書を壊したり、誤認識の原因と
なっていた。又、その決定法に対して単音節に対する言
語情報がないため、実際とは異なる検出を行う場合があ
った。また、子音境界を求める手段として例えばスペク
トル時間差分値やパワー情報を用いて行う方法を用いて
登録、認識演算を行っている報告があるが、上記と同様
の欠点があった。

目　　　　　的本発明は、上述のごとき実情に鑑みてなされたもので、
特に、より精度の高い単音節の登録・認識を可能とする
ことを目的としてなされたものである。

菫−一一或本発明は、上記目的を達成するために、マイクから入力
された単音節音声の周波数解析をある時間周期で行う手
段と、その抽出された特徴量をある特徴ベクトル系列に
変換する手段と、その特徴ベクトル系列とは別の特徴量
を用いて子音領域候補を一個又は複数検出する手段と、
その子音区間をもとに認識用辞書として登録する手段と
、その辞書群と子音区間を用いて認識する手段とを有す
る単音節登録・認識装置において、得られた子音候補の
すべてを登録することにより、マルチテンプレートとし
て構成すること、或いは、得られた〜候補の内、すでに
格納、されている複数の単音節の平均的な子音長に最も
近い子音候補を真の子音区間長として登録又は認識する
こと、或いは、数回の発生により登録する場合において
、第１回目は得られた子音区間の内すでに格納されてい
る複数人の単音節の平均的な子音長に最も近い子音候補
を真の子音区間長として登録し、第２回目以降は、第１
回目の境界に対し第１回目の方式で得られる平均値の標
準偏差内に入っているものの内、平均値に最も近いもの
を境界として決定して登録することを特徴としたもので
ある。以下、本発明の実施例に基づいて説明する。

第１図は、本発明の一実施例を説明するための構成図で
１図中、１はマイクロフォン、２は特徴系列変換部、３
はスペクトル時間差分演算部、４は音声区間検出部、５
は入力バッファ、６は母音区間検出部、７は子音候補検
出部、８は登録部、９は認識部、１０は辞書、１１は結
果出力部で、以下、スペクトル時間差分値に基いて境界
検出を行い登録、認識処理を実行する場合の一例につい
て説明するが、最初に基本となる子音候補検出について
簡単に説明する。第１図はその構成図で、マイクから入
力された音声は、特徴系列変換部により、特徴ベクトル
の時系列（Ｘｌ、Ｘ、、・・・Ｘｚ）に変換される。特
徴ベクトル系列変換手段としては、例えば中心周波数２
５０〜６３００　Ｈｚで１／６オクターブごとに配置し
た２９チヤンネルのバンドパスフィルタ群を用いればよ
い。このとき、ｉフレームの特徴ベクトルＸｉはＸ１＝（Ｘｉ、０．Ｘｉ、、　ｌ　”’１Ｘｌｔ２９）
となる。ここで、Ｘｉ、ｊは、ｉフレームにおけるｊチ
ャンネルのフィルターの出力を表す。また、音声パワー
Ｐｉは、例えば、Ｐｉ＝ΣＸｉ、ｊｊ＝１として、求めれば良い。この様な特徴系列をある周期（
例えばＩＯｌｌｇ）で演算し、その情報をある記憶手段
（例えばバッファメモリ）に記憶する。

なお、音声区間検出手段は、本発明とは直接関係ないの
で、ここではその詳細な説明は省略するが、すでにいく
つかの方法が知られている。

スペクトル時間差分は、上記特徴ベクトル系列を用いて
そのフレームとフレームの絶対値距離の正規化値を求め
るもので、例えば１次式のような演算式でサンプル周期
（フレーム単位）に求められる。

第２図は、この様にして求められたスペクトル時間差分
値の例を示す図で、（ａ）図はＩＫＩＩＡＩの音声パワ
ーを、（ｂ）図はＤｉスペクト時間差分を示し、図示の
ように、子音から母音への過渡部にその特徴的変化分が
表われることになる。次に、境界の決定法を説明する。

あらかじめ検出された母音定常部Ｔ１の先頭の部分Ｘ点
を検索開始点として時間軸を逆方向にさか上り、その閾
値Ｔｈ以上のスペクトル時間差分の累積和をもってその
累積和Ｓか更に閾値ｓｔｈを越える点をその子音境界と
している。第２図ではａがその子音境界となる。本方式
においては、子音境界を決定せず、子音候補として検出
する。その具体的方式を説明する。上記と同様に検索開
始点から検索を開始し、閾値Ｔｈ以上のスペクトル時間
差分の累積和Ｓａの点において子音候補ａを検出し、更
に時間方向に逆上りそれが閾値以下になる点でその累積
和をクリアし、再び同様の検索を行いｓｂなる点を検出
し、子音候補すを検出する。同様の演算を語頭Ｔまで行
い、候補検出を行う、第２図の場合、子音境界候補とし
て、ａとｂの２つの候補が得られる。このようにして得
られた子音候補の結果を用いて登録部において発声され
た音声の登録辞書を作成し、認識部においてその未知入
力のパターンを用いて辞書に対して照合演算を行い認識
結果を出力する。この照合演算は１例えばＤＰマツチン
グ等を用い、母音部や全体の照合演算を行い、対象単音
節をある個数に絞り、子音認識により結果を決定するも
のである。

本発明は、このようにして得られた複数の子音候補を用
いて、より正確に登録、認識作業を行おうとするもので
ある。

第３図は、第１図に示した登録部８の詳細を示す図、第
４図は、第３図の動作説明をするためのフローチャート
で、図中、８ａは子音候補抽出部。

８ｂは比較部、８ｃは境界平均値標準偏差格納部、８ｄ
は子音境界決定部、８ｅは登録演算部である。

まず、第１にすべての候補を登録し、マルチテンプレー
ト辞書を構成する。この方式は簡単にできるが、数回の
発声により辞書を構成する場合、そのテンプレート数が
増加し、認識演算処理量が増加する欠点を有する６次に
、単音節の登録の場合、対象となる単音節はあらかじめ
判明しており、例えば１Ｋａｌという単音節を登録する
に際し、その音響情報はある程度推則することが可能で
ある。

従って、１Ｋａｌに対する子音の長さは人によって異な
るが、ある程度接近していると考えられる。

従って、あらかじめ多くの１Ｋａｌの音声情報を解析し
、その真の境界値を求めておき、その人数で構成される
境界の平均値Ａｖと標準偏差δを求めて利用する。もち
ろん、子音候補が１個の場合はそれに決定されるが、得
られた子音候補に対しその平均値Ａｖ±δに入るものの
中で、最も平均値に近いものを子音境界値として決定す
る。入らない場合は、入力をリジェクトする。次に、数
回の発声により登録する場合、第１回目は、平均値に最
も近いものを、第２回目以降は、第１回目の長さの±δ
の中に入るものの中で最も平均値に近いものを用いて登
録する。

次に、認識演算においては、まず、得られた子音候補の
すべてのものについて認識演算を行い、最も高い類似度
を得るものを認識結果として出力すればよい。勿論、登
録時に用いた方式の利用は可能であるが、その場合、類
似度に端的に反映される為、あえて候補を決定する。

効　　　果以上の説明から明らかなように、本発明によると、より
精度の高い単音節の登録、認識が可能となる。

【図面の簡単な説明】

第１図は、本発明による単音節登録・認識装置の一実施
例を説明するためのブロック構成図、第２図は、第１図
の回路の動作説明をするためのタイムチャート、第３図
は、第１図に示した登録部８の詳細電気回路図、第４図
は、第３図の動作説明をするためのフローチャートであ
る。１・・・マイクロフォン、２・・・特徴系列変換部、３
・・・スペクトル時間差分演算部、４・・・音声区間検
出部。５・・・入カバソファ、６・・・母音区間検出部、７・
・・子音候補検出部、８・・・登録部、９・・・認識部
、１ｏ・・・辞書、１１・・・結果出力部、８ａ・・・
子音候補抽出部。８ｂ・・・比較部、８ｃ・・・境界平均値標準偏差格納
部。８ｄ・・・子音境界決定部、８ｅ・・・登録演算部。蔦　１　　ズ第　２　図第　　３　　図第４図手続ネ甫正書（自発）昭和６２年６月２３日特許庁長官　　黒　１）明　雄　段車音節登録・認識方式、補正をする者事件との関係　　特許出願人オオタ　り　ナカマゴメ住所　　東京都大田区中馬込１丁目３番６号氏　名（名
称）　　（６７４）株式会　社　リ　コ　−代表者　　
浜　　１）　　広シャトレーイン横浜８０７号自発７、補正の内容（１）、明細書の第４頁第５行目に記載の「誤検出を行
うと」を「誤検出すると」に補正する。（２）、同第７行目に記載の「言語情報がないため」を
［言語情報を用いていないため」に補正する。（３）、同第７頁第１５行目に記載のに補正する６（４）、同第１８行目に記載の「スペクト」を［スペク
トルＪに補正する。（５）、同第８頁第７行目に記載の「累積和Ｓか」を「
累積和ＳがＪに補正する。（６）、同第１０頁第２行目に記載の「推則する」を「
推測する」に補正する。（７）、同第１１頁第２行目に記載の「決定する。」を
「決定する必要はない。」に補正する。

Claims

【特許請求の範囲】

（１）、マイクから入力された単音節音声の周波数解析
をある時間周期で行う手段と、その抽出された特徴量を
ある特徴ベクトル系列に変換する手段と、その特徴ベク
トル系列とは別の特徴量を用いて子音領域候補を一個又
は複数検出する手段と、その子音区間をもとに認識用辞
書として登録する手段と、その辞書群と子音区間を用い
て認識する手段とを有する単音節登録・認識装置におい
て、得られた子音候補のすべてを登録することにより、
マルチテンプレートとして構成することを特徴とする単
音節登録・認識方式。
（２）、マイクから入力された単音節音声の周波数解析
をある時間周期で行う手段と、その抽出された特徴量を
ある特徴ベクトル系列に変換する手段と、その特徴ベク
トル系列とは別の特徴量を用いて子音領域候補を一個又
は複数検出する手段と、その子音区間をもとに認識用辞
書として登録する手段と、その辞書群と子音区間を用い
て認識する手段とを有する単音節登録・認識装置におい
て、得られた候補の内、すでに格納されている複数の単
音節の平均的な子音長に最も近い子音候補を真の子音区
間長として登録又は認識することを特徴とする単音節登
録・認識方式。
（３）、得られた候補すべてについて認識演算を行い、
最も大きい類似度を有する結果を認識結果とする特許請
求の範囲第（２）項に記載の単音節登録・認識方式。
（４）、得られた子音候補がすでに格納されている複数
人の平均的な子音長にその標準偏差の幅の中にない場合
、すべてをキャンセルしてもう一度発声を促すよう構成
したことを特徴とする特許請求の範囲第（２）項に記載
の単音節登録・認識方式。
（５）、マイクから入力された単音節音声の周波数解析
をある時間周期で行う手段と、その抽出された特徴量を
ある特徴ベクトル系列に変換する手段と、その特徴ベク
トル系列とは別の特徴量を用いて子音領域候補を一個又
は複数検出する手段と、その子音区間をもとに認識用辞
書として登録する手段と、その辞書群と子音区間を用い
て認識する手段を有する単音節登録・認識装置において
、数回の発生により登録する単音節登録・認識装置にお
いて、第１回目は得られた子音区間の内、すでに格納さ
れている複数人の単音節の平均的な子音長に最も近い子
音候補を真の子音区間長として登録し、第２回目以降は
、第１回目の境界に対し第１回目の方式で得られる平均
値の標準偏差内に入っているものの内、平均値に最も近
いものを境界として決定して登録することを特徴とする
単音節登録・認識方式。