JPS63223694A - 単音節登録・認識方式 - Google Patents
単音節登録・認識方式Info
- Publication number
- JPS63223694A JPS63223694A JP62058076A JP5807687A JPS63223694A JP S63223694 A JPS63223694 A JP S63223694A JP 62058076 A JP62058076 A JP 62058076A JP 5807687 A JP5807687 A JP 5807687A JP S63223694 A JPS63223694 A JP S63223694A
- Authority
- JP
- Japan
- Prior art keywords
- consonant
- registration
- recognition
- monosyllable
- candidates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 description 13
- 230000003595 spectral effect Effects 0.000 description 7
- 230000001186 cumulative effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 241000282821 Hippopotamus Species 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000002747 voluntary effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
皮胤水」
本発明は、単音節認識装置における登録・認識方式に関
する。
する。
従来挟東
従来技術においては、単音節における子音境界を何らか
の方法で決定し、その1個の値を基に登録、認識演算を
行ったり、複数の特徴量を用いて各々別の境界を検出し
、同様の演算を行っていた。
の方法で決定し、その1個の値を基に登録、認識演算を
行ったり、複数の特徴量を用いて各々別の境界を検出し
、同様の演算を行っていた。
この場合、特徴量に対して1個の境界に決定する場合に
誤検出を行うと、登録辞書を壊したり、誤認識の原因と
なっていた。又、その決定法に対して単音節に対する言
語情報がないため、実際とは異なる検出を行う場合があ
った。また、子音境界を求める手段として例えばスペク
トル時間差分値やパワー情報を用いて行う方法を用いて
登録、認識演算を行っている報告があるが、上記と同様
の欠点があった。
誤検出を行うと、登録辞書を壊したり、誤認識の原因と
なっていた。又、その決定法に対して単音節に対する言
語情報がないため、実際とは異なる検出を行う場合があ
った。また、子音境界を求める手段として例えばスペク
トル時間差分値やパワー情報を用いて行う方法を用いて
登録、認識演算を行っている報告があるが、上記と同様
の欠点があった。
目 的
本発明は、上述のごとき実情に鑑みてなされたもので、
特に、より精度の高い単音節の登録・認識を可能とする
ことを目的としてなされたものである。
特に、より精度の高い単音節の登録・認識を可能とする
ことを目的としてなされたものである。
菫−一一或
本発明は、上記目的を達成するために、マイクから入力
された単音節音声の周波数解析をある時間周期で行う手
段と、その抽出された特徴量をある特徴ベクトル系列に
変換する手段と、その特徴ベクトル系列とは別の特徴量
を用いて子音領域候補を一個又は複数検出する手段と、
その子音区間をもとに認識用辞書として登録する手段と
、その辞書群と子音区間を用いて認識する手段とを有す
る単音節登録・認識装置において、得られた子音候補の
すべてを登録することにより、マルチテンプレートとし
て構成すること、或いは、得られた〜候補の内、すでに
格納、されている複数の単音節の平均的な子音長に最も
近い子音候補を真の子音区間長として登録又は認識する
こと、或いは、数回の発生により登録する場合において
、第1回目は得られた子音区間の内すでに格納されてい
る複数人の単音節の平均的な子音長に最も近い子音候補
を真の子音区間長として登録し、第2回目以降は、第1
回目の境界に対し第1回目の方式で得られる平均値の標
準偏差内に入っているものの内、平均値に最も近いもの
を境界として決定して登録することを特徴としたもので
ある。以下、本発明の実施例に基づいて説明する。
された単音節音声の周波数解析をある時間周期で行う手
段と、その抽出された特徴量をある特徴ベクトル系列に
変換する手段と、その特徴ベクトル系列とは別の特徴量
を用いて子音領域候補を一個又は複数検出する手段と、
その子音区間をもとに認識用辞書として登録する手段と
、その辞書群と子音区間を用いて認識する手段とを有す
る単音節登録・認識装置において、得られた子音候補の
すべてを登録することにより、マルチテンプレートとし
て構成すること、或いは、得られた〜候補の内、すでに
格納、されている複数の単音節の平均的な子音長に最も
近い子音候補を真の子音区間長として登録又は認識する
こと、或いは、数回の発生により登録する場合において
、第1回目は得られた子音区間の内すでに格納されてい
る複数人の単音節の平均的な子音長に最も近い子音候補
を真の子音区間長として登録し、第2回目以降は、第1
回目の境界に対し第1回目の方式で得られる平均値の標
準偏差内に入っているものの内、平均値に最も近いもの
を境界として決定して登録することを特徴としたもので
ある。以下、本発明の実施例に基づいて説明する。
第1図は、本発明の一実施例を説明するための構成図で
1図中、1はマイクロフォン、2は特徴系列変換部、3
はスペクトル時間差分演算部、4は音声区間検出部、5
は入力バッファ、6は母音区間検出部、7は子音候補検
出部、8は登録部、9は認識部、10は辞書、11は結
果出力部で、以下、スペクトル時間差分値に基いて境界
検出を行い登録、認識処理を実行する場合の一例につい
て説明するが、最初に基本となる子音候補検出について
簡単に説明する。第1図はその構成図で、マイクから入
力された音声は、特徴系列変換部により、特徴ベクトル
の時系列(Xl、X、、・・・Xz)に変換される。特
徴ベクトル系列変換手段としては、例えば中心周波数2
50〜6300 Hzで1/6オクターブごとに配置し
た29チヤンネルのバンドパスフィルタ群を用いればよ
い。このとき、iフレームの特徴ベクトルXiは X1=(Xi、0.Xi、、 l ”’1Xlt29)
となる。ここで、Xi、jは、iフレームにおけるjチ
ャンネルのフィルターの出力を表す。また、音声パワー
Piは、例えば、 Pi=ΣXi、j j=1 として、求めれば良い。この様な特徴系列をある周期(
例えばIOllg)で演算し、その情報をある記憶手段
(例えばバッファメモリ)に記憶する。
1図中、1はマイクロフォン、2は特徴系列変換部、3
はスペクトル時間差分演算部、4は音声区間検出部、5
は入力バッファ、6は母音区間検出部、7は子音候補検
出部、8は登録部、9は認識部、10は辞書、11は結
果出力部で、以下、スペクトル時間差分値に基いて境界
検出を行い登録、認識処理を実行する場合の一例につい
て説明するが、最初に基本となる子音候補検出について
簡単に説明する。第1図はその構成図で、マイクから入
力された音声は、特徴系列変換部により、特徴ベクトル
の時系列(Xl、X、、・・・Xz)に変換される。特
徴ベクトル系列変換手段としては、例えば中心周波数2
50〜6300 Hzで1/6オクターブごとに配置し
た29チヤンネルのバンドパスフィルタ群を用いればよ
い。このとき、iフレームの特徴ベクトルXiは X1=(Xi、0.Xi、、 l ”’1Xlt29)
となる。ここで、Xi、jは、iフレームにおけるjチ
ャンネルのフィルターの出力を表す。また、音声パワー
Piは、例えば、 Pi=ΣXi、j j=1 として、求めれば良い。この様な特徴系列をある周期(
例えばIOllg)で演算し、その情報をある記憶手段
(例えばバッファメモリ)に記憶する。
なお、音声区間検出手段は、本発明とは直接関係ないの
で、ここではその詳細な説明は省略するが、すでにいく
つかの方法が知られている。
で、ここではその詳細な説明は省略するが、すでにいく
つかの方法が知られている。
スペクトル時間差分は、上記特徴ベクトル系列を用いて
そのフレームとフレームの絶対値距離の正規化値を求め
るもので、例えば1次式のような演算式でサンプル周期
(フレーム単位)に求められる。
そのフレームとフレームの絶対値距離の正規化値を求め
るもので、例えば1次式のような演算式でサンプル周期
(フレーム単位)に求められる。
第2図は、この様にして求められたスペクトル時間差分
値の例を示す図で、(a)図はIKIIAIの音声パワ
ーを、(b)図はDiスペクト時間差分を示し、図示の
ように、子音から母音への過渡部にその特徴的変化分が
表われることになる。次に、境界の決定法を説明する。
値の例を示す図で、(a)図はIKIIAIの音声パワ
ーを、(b)図はDiスペクト時間差分を示し、図示の
ように、子音から母音への過渡部にその特徴的変化分が
表われることになる。次に、境界の決定法を説明する。
あらかじめ検出された母音定常部T1の先頭の部分X点
を検索開始点として時間軸を逆方向にさか上り、その閾
値Th以上のスペクトル時間差分の累積和をもってその
累積和Sか更に閾値sthを越える点をその子音境界と
している。第2図ではaがその子音境界となる。本方式
においては、子音境界を決定せず、子音候補として検出
する。その具体的方式を説明する。上記と同様に検索開
始点から検索を開始し、閾値Th以上のスペクトル時間
差分の累積和Saの点において子音候補aを検出し、更
に時間方向に逆上りそれが閾値以下になる点でその累積
和をクリアし、再び同様の検索を行いsbなる点を検出
し、子音候補すを検出する。同様の演算を語頭Tまで行
い、候補検出を行う、第2図の場合、子音境界候補とし
て、aとbの2つの候補が得られる。このようにして得
られた子音候補の結果を用いて登録部において発声され
た音声の登録辞書を作成し、認識部においてその未知入
力のパターンを用いて辞書に対して照合演算を行い認識
結果を出力する。この照合演算は1例えばDPマツチン
グ等を用い、母音部や全体の照合演算を行い、対象単音
節をある個数に絞り、子音認識により結果を決定するも
のである。
を検索開始点として時間軸を逆方向にさか上り、その閾
値Th以上のスペクトル時間差分の累積和をもってその
累積和Sか更に閾値sthを越える点をその子音境界と
している。第2図ではaがその子音境界となる。本方式
においては、子音境界を決定せず、子音候補として検出
する。その具体的方式を説明する。上記と同様に検索開
始点から検索を開始し、閾値Th以上のスペクトル時間
差分の累積和Saの点において子音候補aを検出し、更
に時間方向に逆上りそれが閾値以下になる点でその累積
和をクリアし、再び同様の検索を行いsbなる点を検出
し、子音候補すを検出する。同様の演算を語頭Tまで行
い、候補検出を行う、第2図の場合、子音境界候補とし
て、aとbの2つの候補が得られる。このようにして得
られた子音候補の結果を用いて登録部において発声され
た音声の登録辞書を作成し、認識部においてその未知入
力のパターンを用いて辞書に対して照合演算を行い認識
結果を出力する。この照合演算は1例えばDPマツチン
グ等を用い、母音部や全体の照合演算を行い、対象単音
節をある個数に絞り、子音認識により結果を決定するも
のである。
本発明は、このようにして得られた複数の子音候補を用
いて、より正確に登録、認識作業を行おうとするもので
ある。
いて、より正確に登録、認識作業を行おうとするもので
ある。
第3図は、第1図に示した登録部8の詳細を示す図、第
4図は、第3図の動作説明をするためのフローチャート
で、図中、8aは子音候補抽出部。
4図は、第3図の動作説明をするためのフローチャート
で、図中、8aは子音候補抽出部。
8bは比較部、8cは境界平均値標準偏差格納部、8d
は子音境界決定部、8eは登録演算部である。
は子音境界決定部、8eは登録演算部である。
まず、第1にすべての候補を登録し、マルチテンプレー
ト辞書を構成する。この方式は簡単にできるが、数回の
発声により辞書を構成する場合、そのテンプレート数が
増加し、認識演算処理量が増加する欠点を有する6次に
、単音節の登録の場合、対象となる単音節はあらかじめ
判明しており、例えば1Kalという単音節を登録する
に際し、その音響情報はある程度推則することが可能で
ある。
ト辞書を構成する。この方式は簡単にできるが、数回の
発声により辞書を構成する場合、そのテンプレート数が
増加し、認識演算処理量が増加する欠点を有する6次に
、単音節の登録の場合、対象となる単音節はあらかじめ
判明しており、例えば1Kalという単音節を登録する
に際し、その音響情報はある程度推則することが可能で
ある。
従って、1Kalに対する子音の長さは人によって異な
るが、ある程度接近していると考えられる。
るが、ある程度接近していると考えられる。
従って、あらかじめ多くの1Kalの音声情報を解析し
、その真の境界値を求めておき、その人数で構成される
境界の平均値Avと標準偏差δを求めて利用する。もち
ろん、子音候補が1個の場合はそれに決定されるが、得
られた子音候補に対しその平均値Av±δに入るものの
中で、最も平均値に近いものを子音境界値として決定す
る。入らない場合は、入力をリジェクトする。次に、数
回の発声により登録する場合、第1回目は、平均値に最
も近いものを、第2回目以降は、第1回目の長さの±δ
の中に入るものの中で最も平均値に近いものを用いて登
録する。
、その真の境界値を求めておき、その人数で構成される
境界の平均値Avと標準偏差δを求めて利用する。もち
ろん、子音候補が1個の場合はそれに決定されるが、得
られた子音候補に対しその平均値Av±δに入るものの
中で、最も平均値に近いものを子音境界値として決定す
る。入らない場合は、入力をリジェクトする。次に、数
回の発声により登録する場合、第1回目は、平均値に最
も近いものを、第2回目以降は、第1回目の長さの±δ
の中に入るものの中で最も平均値に近いものを用いて登
録する。
次に、認識演算においては、まず、得られた子音候補の
すべてのものについて認識演算を行い、最も高い類似度
を得るものを認識結果として出力すればよい。勿論、登
録時に用いた方式の利用は可能であるが、その場合、類
似度に端的に反映される為、あえて候補を決定する。
すべてのものについて認識演算を行い、最も高い類似度
を得るものを認識結果として出力すればよい。勿論、登
録時に用いた方式の利用は可能であるが、その場合、類
似度に端的に反映される為、あえて候補を決定する。
効 果
以上の説明から明らかなように、本発明によると、より
精度の高い単音節の登録、認識が可能となる。
精度の高い単音節の登録、認識が可能となる。
第1図は、本発明による単音節登録・認識装置の一実施
例を説明するためのブロック構成図、第2図は、第1図
の回路の動作説明をするためのタイムチャート、第3図
は、第1図に示した登録部8の詳細電気回路図、第4図
は、第3図の動作説明をするためのフローチャートであ
る。 1・・・マイクロフォン、2・・・特徴系列変換部、3
・・・スペクトル時間差分演算部、4・・・音声区間検
出部。 5・・・入カバソファ、6・・・母音区間検出部、7・
・・子音候補検出部、8・・・登録部、9・・・認識部
、1o・・・辞書、11・・・結果出力部、8a・・・
子音候補抽出部。 8b・・・比較部、8c・・・境界平均値標準偏差格納
部。 8d・・・子音境界決定部、8e・・・登録演算部。 蔦 1 ズ 第 2 図 第 3 図 第4図 手続ネ甫正書(自発) 昭和62年6月23日 特許庁長官 黒 1)明 雄 段 車音節登録・認識方式 、補正をする者 事件との関係 特許出願人 オオタ り ナカマゴメ 住所 東京都大田区中馬込1丁目3番6号氏 名(名
称) (674)株式会 社 リ コ −代表者
浜 1) 広 シャトレーイン横浜807号 自発 7、補正の内容 (1)、明細書の第4頁第5行目に記載の「誤検出を行
うと」を「誤検出すると」に補正する。 (2)、同第7行目に記載の「言語情報がないため」を
[言語情報を用いていないため」に補正する。 (3)、同第7頁第15行目に記載の に補正する6 (4)、同第18行目に記載の「スペクト」を[スペク
トルJに補正する。 (5)、同第8頁第7行目に記載の「累積和Sか」を「
累積和SがJに補正する。 (6)、同第10頁第2行目に記載の「推則する」を「
推測する」に補正する。 (7)、同第11頁第2行目に記載の「決定する。」を
「決定する必要はない。」に補正する。
例を説明するためのブロック構成図、第2図は、第1図
の回路の動作説明をするためのタイムチャート、第3図
は、第1図に示した登録部8の詳細電気回路図、第4図
は、第3図の動作説明をするためのフローチャートであ
る。 1・・・マイクロフォン、2・・・特徴系列変換部、3
・・・スペクトル時間差分演算部、4・・・音声区間検
出部。 5・・・入カバソファ、6・・・母音区間検出部、7・
・・子音候補検出部、8・・・登録部、9・・・認識部
、1o・・・辞書、11・・・結果出力部、8a・・・
子音候補抽出部。 8b・・・比較部、8c・・・境界平均値標準偏差格納
部。 8d・・・子音境界決定部、8e・・・登録演算部。 蔦 1 ズ 第 2 図 第 3 図 第4図 手続ネ甫正書(自発) 昭和62年6月23日 特許庁長官 黒 1)明 雄 段 車音節登録・認識方式 、補正をする者 事件との関係 特許出願人 オオタ り ナカマゴメ 住所 東京都大田区中馬込1丁目3番6号氏 名(名
称) (674)株式会 社 リ コ −代表者
浜 1) 広 シャトレーイン横浜807号 自発 7、補正の内容 (1)、明細書の第4頁第5行目に記載の「誤検出を行
うと」を「誤検出すると」に補正する。 (2)、同第7行目に記載の「言語情報がないため」を
[言語情報を用いていないため」に補正する。 (3)、同第7頁第15行目に記載の に補正する6 (4)、同第18行目に記載の「スペクト」を[スペク
トルJに補正する。 (5)、同第8頁第7行目に記載の「累積和Sか」を「
累積和SがJに補正する。 (6)、同第10頁第2行目に記載の「推則する」を「
推測する」に補正する。 (7)、同第11頁第2行目に記載の「決定する。」を
「決定する必要はない。」に補正する。
Claims (5)
- (1)、マイクから入力された単音節音声の周波数解析
をある時間周期で行う手段と、その抽出された特徴量を
ある特徴ベクトル系列に変換する手段と、その特徴ベク
トル系列とは別の特徴量を用いて子音領域候補を一個又
は複数検出する手段と、その子音区間をもとに認識用辞
書として登録する手段と、その辞書群と子音区間を用い
て認識する手段とを有する単音節登録・認識装置におい
て、得られた子音候補のすべてを登録することにより、
マルチテンプレートとして構成することを特徴とする単
音節登録・認識方式。 - (2)、マイクから入力された単音節音声の周波数解析
をある時間周期で行う手段と、その抽出された特徴量を
ある特徴ベクトル系列に変換する手段と、その特徴ベク
トル系列とは別の特徴量を用いて子音領域候補を一個又
は複数検出する手段と、その子音区間をもとに認識用辞
書として登録する手段と、その辞書群と子音区間を用い
て認識する手段とを有する単音節登録・認識装置におい
て、得られた候補の内、すでに格納されている複数の単
音節の平均的な子音長に最も近い子音候補を真の子音区
間長として登録又は認識することを特徴とする単音節登
録・認識方式。 - (3)、得られた候補すべてについて認識演算を行い、
最も大きい類似度を有する結果を認識結果とする特許請
求の範囲第(2)項に記載の単音節登録・認識方式。 - (4)、得られた子音候補がすでに格納されている複数
人の平均的な子音長にその標準偏差の幅の中にない場合
、すべてをキャンセルしてもう一度発声を促すよう構成
したことを特徴とする特許請求の範囲第(2)項に記載
の単音節登録・認識方式。 - (5)、マイクから入力された単音節音声の周波数解析
をある時間周期で行う手段と、その抽出された特徴量を
ある特徴ベクトル系列に変換する手段と、その特徴ベク
トル系列とは別の特徴量を用いて子音領域候補を一個又
は複数検出する手段と、その子音区間をもとに認識用辞
書として登録する手段と、その辞書群と子音区間を用い
て認識する手段を有する単音節登録・認識装置において
、数回の発生により登録する単音節登録・認識装置にお
いて、第1回目は得られた子音区間の内、すでに格納さ
れている複数人の単音節の平均的な子音長に最も近い子
音候補を真の子音区間長として登録し、第2回目以降は
、第1回目の境界に対し第1回目の方式で得られる平均
値の標準偏差内に入っているものの内、平均値に最も近
いものを境界として決定して登録することを特徴とする
単音節登録・認識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62058076A JPS63223694A (ja) | 1987-03-12 | 1987-03-12 | 単音節登録・認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62058076A JPS63223694A (ja) | 1987-03-12 | 1987-03-12 | 単音節登録・認識方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS63223694A true JPS63223694A (ja) | 1988-09-19 |
Family
ID=13073826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62058076A Pending JPS63223694A (ja) | 1987-03-12 | 1987-03-12 | 単音節登録・認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS63223694A (ja) |
-
1987
- 1987-03-12 JP JP62058076A patent/JPS63223694A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH10274996A (ja) | 音声認識装置 | |
JP3444108B2 (ja) | 音声認識装置 | |
JPS63223694A (ja) | 単音節登録・認識方式 | |
JP2813209B2 (ja) | 大語彙音声認識装置 | |
JP3039453B2 (ja) | 音声認識装置 | |
JPS6131880B2 (ja) | ||
JPH05210397A (ja) | 音声認識装置 | |
JP3515143B2 (ja) | パターン追加登録装置 | |
JPS63173100A (ja) | キ−ワ−ド抽出装置 | |
JPS60147797A (ja) | 音声認識装置 | |
JP3033132B2 (ja) | 言語処理装置 | |
JPS63161499A (ja) | 音声認識装置 | |
JPS6069694A (ja) | 語頭子音のセグメンテ−ション法 | |
JPH0887292A (ja) | 単語音声認識装置 | |
JPH0950292A (ja) | 音声認識装置 | |
JPH01155399A (ja) | 単語音声認識方式 | |
JPS61259299A (ja) | 音声パタ−ン照合方式 | |
JPH0316038B2 (ja) | ||
JPH04260100A (ja) | 音声認識装置 | |
JPS62111295A (ja) | 音声認識装置 | |
JPH06100919B2 (ja) | 音声認識装置 | |
JPS6355599A (ja) | 音声認識装置 | |
JPS61200596A (ja) | 連続音声認識装置 | |
JPS6131879B2 (ja) | ||
JPH0247756B2 (ja) |