JPS62235998A

JPS62235998A - 音節識別方式

Info

Publication number: JPS62235998A
Application number: JP61078817A
Authority: JP
Inventors: 厚夫田中; 伸神谷
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1986-04-05
Filing date: 1986-04-05
Publication date: 1987-10-16
Also published as: US5054084A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、入力音声を認識してその内容をたとえばＣＲ
Ｔ（陰極線管）などに表示するようにできるいわゆる音
声ワードプロセッサなどに好適に用いられる音節識別方
式に関する。

従来技術自然な連続音声では、一般的な話癖、文脈、方ご等の影
響により母音及び子音の変形、縮小化、脱落などが生じ
、音声自身に多くの変形が見られる。したがって、連続
音声を認識するにはこれらの変形に対する知識、即ち、
音韻論的変形に関する知識を認識システムに取り入れる
ことが必要である。

発明が解決しようとする問題点従来の音声認識装置では、仮説や認識結果の候補として
の単語、文節、文章などは音韻的に固定した形で表わさ
れることが多く、シたがって少なくともｆｆ額列を正確
に発声しなければ正しい解釈ができないという問題点が
あった。

本発明は、この点を鑑みて考案されたものであり、その
目的は、上述の問題点を解決し、所定のｆｆｆｌｌｉ周
辺の音韻論的影響に関する知識を認ａ装置に搭載し、認
識の際に活用できるようにできる音節識別方式を提供す
ることである。

問題点を解決するための手段本発明は、入力された音声に特徴付けがなされ、その出
力された音節情報に対して音節の識別を行なう方式であ
って、入力音声に対応する各音節情報の音ｆｆ１Ｉａおよび時
間間隔がキャラクタ列によって表現されるようにしたこ
とを！徴とする音節識別方式である。

１乍　　　用本発明においては、入力された音声に特徴付けがなされ
、その出力された音節情報に対して音節の識別を行なう
にあたりで、入力音声に対応する各音節情報の音ｆｆ？
ｉ種および時間間隔がキャラクタ列によって表現される
ようにした。すなわち音節をキャラクタ列形式で表現す
るため、音声現象がとＣ）え易くなり、また、音節周辺
の音韻論的影響に関する知識を表現し易くなる。また、
着目している音節周辺も含めて照合されるため、候補と
して得られる音節は、その周辺状態から見て妥当な音節
になる。しかも、キャラクタ列表現のため、−盲部パタ
ーン当たりのメモリが小さくなるため、パターン照合の
処理時間の短縮や、より多くの音節パターンの格納が図
れる。またそれだけ多くの音節の変動を知識として活ｍ
できる結果、音声の多くの変動に対する解釈が可能にな
り、性能向上が図れる。

実施例第１図は本発明の一実施例に従う構成のブロック図であ
る。第１図を参照して、入力音声はマイク１を介して眞
処理部２へ入力される。１前処理部２では、制御部３に
よってケプストラム係数などを用いた特徴付けを行なう
。次に前処Ｊ！ｌｌ！部２の出力は音節識別部４に入力
され、一旦、音節単位に識別される。音節識別部４から
は、後述される音節ラティスが出力される。一方、この
音節ラティス等を考慮に入れ、辞書記憶部５を参照して
、辞書記憶部５の項目中の各３節毎に各音節に対応する
仮説が仮説発生部６から発生される。

前記得られた音節列仮工は、仮説修正部７で元の音節列
仮説から所定の規則に基づいて修正される。仮説検証部
８では、この修正された仮説音節列の有無を音節ラティ
ス上で確認しながら、その音節仮説の後述するスコアを
求めていき、仮説音節列全体としてのスコアを計算する
ことによってＶｉ説検証する。認識のｔり定は、各仮説
音節列のスコアを用いて判定部９で行なわれる。

本実施例において、入力音声は、一旦、後述するように
音韻的に特徴付けられたセグメントの時系列に変換され
る。音節ラティスはキャラクタ列から成る記述的な音節
パターンとのマツチング過程の結果、作成される。本発
明は、第１図の二重線で囲まれた音節識別部４、即ち、
音節ラティスを作成する処理に関するものである。たと
えば、元の辞書項目等がら書替え規則に基づいてさらに
生成された仮説音節列は、本発明の処理で得られた音節
ラティス′上でその有無を確認されながら対応ｆ・１け
られ、その仮説音節列のスコアを計算針ることにより評
価される。認識の判定は各音節ｆ規板のスコアを用いて
イ〒われる。以下に、第１図に示す構成要素について詳
述する。

■前処理部２前処理部２では、マイク等から入力された音声信号は、
用いる周波数帯域に応じて帯域制限され（′タトえば８
ＫＨｚ以下をカント）、サンプリングされてアナログ／
デンタル（Ａ／Ｄ）変換される（たとえば、１６ＫＨｚ
で１２ビツトに量子化される）。

その後、適当な時１７ｒ１間隔（フレーム）を置いて（
たとえば、４−４−２Ｏ毎）、１０１０−４Ｏ程度の時
間窓内で分析されて特徴イ・１けされる。

分析の手法としては、たとえば各種のパラメータの分布
を用いるもの、線形予測分析、ケプストラム分析、ホル
マント情報を用いるものなど種々のらのが考えられる。

その１．ｙ機付けの方法としては、一旦、１０種類の無
音、バズバー、・鼻音、母音、弱い摩擦音、摩擦音、強
い摩擦音、有声摩擦音、強い有声摩擦音に粗く特徴付け
し、その後、予め登録されている音素標準パターンとの
重工７レーム阜位のパターンマツチングにより、更にび
素記号によりｔ、ｙ　ｍ付けすることが出来る。

ここでは、以下の１８桟類の記号に特徴付けするものと
する。上記の粗い特徴付けで得られた無音（記号「、」
で表す）と、バズバー　（記号ｒＢＪで表す）の記号と
、１６種類の音素記号である。１６種類の記号は音素標
準パターンとのマツチングにより得うレルもノテ、Ａ、
Ｉ　、Ｕ、Ｅ、Ｏ，Ｓ、Ｆ、Ｃ。

Ｈ，に、Ｎ、Ｍ、Ｒ，Ｘ、Ｚ、Ｊがらなっている。Ａ、
■。

Ｕ、［Ｅ、Ｏ，Ｓ、Ｆ、Ｃ，Ｈ，に、Ｎ、Ｍ、Ｒ，Ｚ、
Ｊは記号の意味通りであり、Ｘははつ音／Ｎ／、Ｆは／
ｓ１１／、Ｃは母音部に／ｉ／　　またはよう音を持つ
場合の／１１／、／に／を表わしている。１を素標準パ
ターンは予め、たとえば既知音声の音素に該当する部分
からの抽出によって作成される。この結果得られた記号
系列に対して、スムーノングが施される場合も考えられ
る。

入力音声は適当な長さ　（２０〜１００ＩＩｌｓ程度の
時間長）に分割（セグメント化）される、第２図（１）
に入力音声から得られるセグメント１１．．１１２゜・
・・、１１．（必要な場合には参照符１１で示す）の系
列１２の例を示す。入力音節に関する前記フレーム１０
には、１２図（１）の入力記号（本実施例ではｒＺＪ汀
Ｕ」および「○」）がそれぞれ設定される。

セグメント化は、たとえば、記号変化の池、パワ一時間
変化その池の特徴量の時間変化を併用してもよい。この
例の場合、７フレーム以上同じ記号のフレームが続くと
、その近傍でセグメン）Ｍ列１２の分割の境界を設ける
ようにしている。このようにして、記号により特徴イ・
１けされたセグメント系列１２が得られる。

以下に、本実施例の音声識別処理について説明する。音
声識別は入力音声から得られた前記セグメント系列１２
と、後述される音節パターンとのマツチングにより行な
われる。音節パターンはキャラクタ列などの記述的な形
で表現される。たとえば、「ア」汀か」、「き」に関す
るいくつかの音節パターンは下記の１１表のように表現
される。

第　　１　　表音節表記の後の数字（信頼度係数、以下、Ｓで表わす）
は、パターンの信頼度に関係しており、この値が小さく
なる程、ペナルティの付加は小さくなる。音素記号の後
の数字はセグメントの持続時間に対応している。「１」
は２〜３フレームを、［２」は４〜Ｇフレームを、「３
」は７〜１０フレームを、「４」は１１〜１５フレーム
をそれぞれ示しており、ｒｎＪは、たとえば（ｎ２＋ｎ
＋２　］／　２−　　（ｎ”＋３ｎ＋２）／２７レーム
を示す。。

たとえば、［Ｕ２４Ｊは音素記号がｒＵＪでその持続時
間が「２」〜ｒ４Ｊ（４〜１５７レーム）のものである
。「＠」はどのような音素記号でもよいことを示し。「
京」はゼロ７レーム、即ちセグメント１１が脱落するこ
とら許されることを示している。丸括弧は音節セグメン
トの境界を示している。即ち、記号「（」は音節始端を
、記号「）」は音節終端をそれぞれ表わしている。音節
パターン内の［」（スペース）はセグメント１１を分け
るセグメント分離記号に相当している。

例（１）は次のようなセグメント列を示している。

即ち、７〜２８フレームの音素記号Ｚのセグメント１１
１〜１１．の後にＯ〜３フレームのセグメントがあり、
その後に７〜２８フレームの記号Ｕのセグメント１１．
〜１１７が続くセグメント系列１２を示している。無声
化の例が例（３）である０例（４）はｒＯＪまたはｒＵ
Ｊの有意なセグメントの挿入が母音ｆ’ＯＪが先行した
場合の「か」に起こる例を示している。無声化によるＣ
ＶＣからＣＣへの変形を例（５）に示す。

入力セグメント系列１２と音節パターンとの照合は、音
節パターンの各セグメント１１を順に入力音声から得ら
れたセグメント系列１２と照合することによって実行さ
れる。その方法を第２図（２）を参照して説明する。今
、第２図（１）に示す入力セグメント系列１２と、第１
表例（１）のＺＵに関する音節パターンとの照合につい
て説明する。

まず、音節の始端記号「（」があるので、照合を開始す
る第１セグメント１１１が音節始端セグメントとなる。

「７３６」のセグメント系列は７フレームから２８フレ
ームまでの時間的な幅を持っているので、入力セグメン
ト系列１２の第１とｆＪＳ２のセグメント１１□　１１
２を合わせたセグメント、及びｍｌとｆＪＳ２と第３の
セグメント１１．．１１２，１１．を合わせたセグメン
トに対して整合する。しかし、第４セグメント１１４ま
で幅を広げると、音素記号Ｕが表われ第２図（２）に示
すように不整合になる。その結果、セグメント「２３６
」の終端候補は、＠２図（３）に示す２笥所の二重Ｍ　
、ｉ’　１　＋　、ｔ’　２の位置になる。

次に、セグメント「０京１」との照合は、それまでに整
合されたセグメン）ｒＺ３６Ｊの終端候補から始まる。

即ち、前のセグメントの終端候補は次のセグメントの始
端候補になる。「０本１」に対して２通りの始端候？ｌ
ｌ’１．ノ２があるので、第２図（４）〜第２図（６）
に示すように、それぞれについて照合する。このように
、セグメント１−Ｕ５６Ｊに関しても、１２図（７）、
ｆｐＪ２図（８）に示すように照合を行なった結果、Ｉ
ｒ５２図（９）に示すように３箇所の終端候補ノ３．ノ
ー１．ノ５が得られる。

犬に音節境界を示す記号［月があるのでこれら３箇所の
終端候補Ｊ！３１）４，１５を音節境界候補とする。音
節パターンには更に照合すべさセグメントがないので、
音節Ｚ　Ｕ　１ｍ対する音節パターンとの照合は成功し
、第２図（１０）に示すように音節部として、（第１セ
グメント１１．〜第５セグメント１ｌｓ）、ｌｉ上セグ
メント１１〜第６セグメント１１６）、（第１セグメン
ト１１１〜ｌＱ７セグメント１１．）の３つの候補１３
，１４．１５が得られる。

上記のセグメン）１列１２と音節パターンとの照合を、
各セグメント毎に行なう。各音節候補１３〜１５はその
スコアと出現位置を情報として持っているので、各々の
結果を集めると音節ラティスが得られる。前記マツチン
グのスコアＤは（ｉ傾度係数Ｓの関数で表わされるが、
たとえば、Ｆを背型係数として簡単に、Ｄ＝ＦＸＳ　　　　　　　　　　　　・・・（１）で表
わすことも出来る。

以下、本実施例において用いられる音節部について説明
する。取＋）扱う音節のｍ類として、たとえば１１１種
類の日本語音節が考えられる。６８音節はＣＶ、ＪＶ、
Ｖ　　（Ｃは子音、Ｊはよう音、■は母音を表わす）型
のものとはつ音とからなっている。３３種類のＣＪＶ型
の音節が有り、先と合わせて１０１種類の茸からの日本
語音節をＲＪｌしている。外来語で用いられる音節の比
較的頻度の高いもの１０種類の音節も含めて、計１１１
種頭としている。

■音節識別部４音節識別部４の一実施例を第３図に示す、第１図−ｒ：
ｔＳ３図を参照して、音節識別部４は曲処理部２で得ら
れたセグメント系列１２を保持するセグ／／）１列バッ
フ７１Ｇ、制御７３１Ｓ３のコントロールにより音節パ
ターンメモリ１７から読み出した音節パターンを保持す
る音節パターンバッフ７１８、セグメント系列１２と音
節パターンとを照合する音節パターン照合部１９と、照
合した結果をＭ積して保持する音節ラティスバッフＦ２
０及び音節パターンを格納する前記メモリ１７　ｈ−Ｃ
＞なっている。上記の音節パターン照合過程を、以下の
第・を図の処理７０−で示す。

第１図〜第４図を♂照して、ステップｎ　１で訪処理部
２から読み込まれるセグメント系列１２は、コード列（
Ｓ　１ｔ（ｉ＝　１　、２、−　Ｌ　ｓ：Ｌ　ａはセグ
メント系列を１１η成するフードの総数）から成り、各
コードＳｉ　は、萌述したセグメント１１のコード、セ
グメント分離記号、セグメン）Ｍ列終端コードなどであ
る。音節パターンメモリ１７がら読み込まれる各音節パ
ターンは、コード列ＩＣＪｌ（Ｊ＝　１．２　＋・・・
Ｌ　ｅ：Ｌ　ｃは音節パターンを構成するコードの総数
）からなり、各コードＣｊは、セグメントのフード、音
節始端コード（記号「（」に相当）、音節終端コード（
記号「）」に相当）、セグメント分離記号（記号「（ス
ペース）」に相当）、音節パターン終端コード及びｔｆ
ｍパターンメモリ終了コードなどである。

マタ、セグメント系列１２内の各セグメントコードは、
セグメント１１を特徴付ける記号（第４図中、「ｓ」で
表わす）、あるいはセグメント１１のフレーム長（第４
図中、「）」で表わす）であり、音節パターン内のセグ
メント系列には、セグメント１１を特徴付ける記号（第
４図中、ｒｃＪで表わす）、セグメントの許容雇小フレ
ーム長（第４図中、ｒｎＪで表わす　）、あるいはセグ
メント１１の許容最大フレーム長（第４図中、「１０」
で表わす」である。

ステップ１１２　　において、照合開始セグメントが更
新され、ステップ：１３　　において、たとえばＰｔ５
２図（１）図示のセグメン）１１１〜１１．から成るセ
グメント系列が表わすコードＳ１がセグメント系列終端
コードであれば、処理は終了する。前記ステップ１１３
において、フードＳｌがセグメント系列終端コードでな
ければステップ【１４　　に移り、音節パターンメモリ
１７から”ＪｆｆＩｉパターンバッフ７１８への音節パ
ターンｆｃ　ｊｌの読み込み史話が行なわれる。

ステ、プ１１５　　では、重犯音節パターンコード列Ｉ
ｃ　ｊｌにおいて、コードＣＩが音節パターンメモリ終
了コードであることが検出されると、処理はステノブ１
１２；二戻る。ステップ１１５１こおいて、コードＣ１
が音節パターンメモリ終了コードでなければ、処理はス
テップ１１６に移り、音節パターンバッファ１８からパ
ターン照合部１９へのフード列　（Ｃｊｌの読込み更新
が行なわれる。

ステップ１１７において、コードＣｊが前記セグメント
分離コードであって、かつセグメント終端候補（第２図
の候補Ｊ！１〜Ｉ　Ｓなど）が設定登ｆｆ１Ｊされてい
なければ、当該セグメントの照合が失敗したことになり
、処理はステップｎ４　　に戻る。コードＣｊがステッ
プｎ　７において、ステップｎ４　　に戻る条件を満た
していなければ、処理はステップｎ８に移りコードＣｊ
が前記セグメント分離フードであって、かつ前記セグメ
ント終端候補が設定登録されていれば、処理はステップ
ｎ　４に戻る。

照合結果は音節パターンの属する音節番号、その信頼度
係数、音節候補の始端セグメント番号、終端セグメント
番号の群になっている。照合結果は、ステップｎ４の段
階でクリアされる。したがって、音節パターンの照合終
了時に音節候補・の終端セグメント番号が登Ｑされてい
なければ（ステップ【１７）、照合が失敗したことにな
る。

ステップ１１８において、フードＣｊがステップ＋１４
に戻る条件を満たしていなければ処理はステップ１１９
に移り、コードＣｊがｒｔｆＪ記音節始端コードであれ
ぼ、当該フードＣｊが属する音節始端セグメント番号を
保持し、ステップ１１４　　に戻る。ステップｎ　９に
おいて、コードＣｊが前記音節始端フードでな（すれば
、ステップｎ１０１こおいてコードＣｊが前記音節終端
コードであるかどうかの判断を行ない、１！ｉ゛定なら
ば当該コードＣｊｌＪ／属する音節終端候補セグメント
番号を保持しステップｎ６に戻る。

ステップｎｌｏにおいて、コードＣｊが音節終端コード
でな（すれば、ステップｎ１ｌｌこおいてコードＣｊが
音節パターン終端コードであって、音節終端候補セグメ
ント番号が保持されていれば、パターンの照合は成功し
たことになり、照合結果を音節ラティスバッファ２０に
転送し、処理はステップ１１４に戻る。

フードＣｊがステップ１１１１におけるステ２プｎ４に
戻る条１′１−を満たしていなければ、処理はステップ
ｎ１２に移り、コードＣｊが音節パターン終端コードで
あり、かつ音節終端候補セグメント番号が保持されてい
なければ、照合は失敗したことになり処理はステップｎ
４に戻る。ステップｎ１２においてコードＣｊがステッ
プｎ４に戻る条件を満たしていなければ、処理はステッ
プ１０３　に移りセグメント終端候補の次のセグメント
をセグメント照合開始セグメントとする６次にステップ
１１１４において、照合セグメン）　（Ｓ　ｉ、セグメ
ントコード（Ｓ　、７＞）の更新を行なう。

また、セグメント照合の段階で、ステップｎ１３〜１１
１４　　でセグメント照合が失敗すれば、照合結果には
セグメント終端候補が登録されないままになるため、一
つのセグメント照合終了時にはセグメント終端候補が登
録されていなければ、セグメント照合失敗を意味する。

前記ステップｎ１４　　において、照会セグメントの更
新が行なわれるとステップ１１１５　　に移り、コード
Ｃｊがセグメントコード（Ｃ，１１，０１）であって、
前記コード要素Ｃが第１表の記号「＠」、および前記コ
ード要素Ｓと不一致ならば処理はステップｎ６に戻る。

ステップ１１１５　　においてフードＣｊステップ１１
Ｇに戻る条件を満たしていないならば、処理はステンブ
１１１６に移り前記コード要素ｎ、ＩＩＩに関して、ｎ
＜Ｊｇ＜ｕａ　　　　　　　　　　　　　　　・・・（
２）が成立するならば、セグメント終端候補　（第２図
の終端候補！１，７２　；）３〜ノ５など）を更新し、
ステップ蔦１１３に戻る。

ステップ１１１６　において、前記ＰＡ２式が成立しな
いならば、処理はステップ＋１１７　　に移り前記コー
ド要素、ｅ＋ｌＩｌにおいて、ｌ＞ｌ　　　　　　　　　　　　　　　　　　・・・（
３）が成立するならば、処理はステップ口６　に戻る。

第３式の条件が成立しないならば、ステップ１１８で処
理はステップｎ１４に戻る。

この第４図の場合、入力音声から得られたセグメント系
列１２の各々のセグメント１１にお−１で、それぞれを
開始セグメントとして、順に全ての音節パターンとの照
合を行なっている。即ち、各開始セグメントに対して音
節パターンメモリ１７の全ての音節パターンと照合しく
第４図ステップｎ５）、開始セグメントを移動して（即
ち処理ステップｎ２　）、更に音節パターンメモリ１７
の全ての音節パターンとの照合をするという処理を続け
る場合に相当している。したがって、あるセグメント系
列１２に対して全ての処理が終了するのは、ｆｉ４図の
ステップｎ３　　において、セグメント系列１２内の全
てのセグメント１１を開始セグメントとしての音節パタ
ーン照合が終了する時である。

効　　果以上のように本発明に従えば、入力された音声に特徴１
・ｔけがなされ、その出力された音節情報に対して音節
の識別を打なうにあたって、入力音声に対応する各音節
情報の音節様および時間間隔がキャラクタ列によって表
現されるようにした。すなわち音節をキャラクタ列形式
で表現するため、音声現象がとらえ易くなり、また、音
節周辺の音韻論的影響に関する知識を表現し易くなる。

また、着目している音節周辺も含めて照合されるため、
候補として得られる音節は、その周辺状態から見て妥当
な音節になる。しかも、キャラクタ列表現のため、−ａ
ｍパターン当たりのメモリがノドさくなるため、パター
ン照合の処理時間の短縮や、より多くの音節パターンの
格納が図れる。またそれだけ多くの音節の′Ｖ＆勅を知
識として活用できる結果、音声の多くの変動に対する解
釈が可能になり、性能向上が図れる。

【図面の簡単な説明】

第１図は本発明の一実施例に従う音声ｖ！ＰＲ装置の基
本的構成を示すブロック図、第２図は本実施例に従う入
力音節の照合動作を説明する図、ｐｔ４３図は音ｆｆ１
ｉｎ別部４の構成を示すブロック図、第４図は本実施例
の入力音節の照合動作を示す７０−チャートである。２・・・萌処Ｊ！！！部、・１・・・音＠：Ｊｔ別部、
５・・・辞書記憶部、１０・・・フレーム、１１・・・
セグメント、１２・・・セグメント系列、１３〜１５・
・・音節候補、１６・・・セグメント系列バッファ、１
７・・・音節パターンメモリ、１８・・・音節パターン
バッファ、１つ・・・音節パターン照合部、２０・・・
音節ラティスパン７ア代理人　　弁理士　画数　圭一部手続補正書（方式）昭和６１年　６月２７日特願昭６１−７８８１７２、発明の名称音ｆｆｌ！識別方式３、補正をする者事件との関係　　出願人住所　大阪市阿倍野区艮池町２２番２２号国装置ＥＸ　
０５２５−５９１３５　　ＩＮＴＡＰＴ　　Ｊ国際ＦＡ
Ｘ　ＧＩＵ＆ＧＩ［（０６）５３８−０２４７昭和６１
年　６月２４日（発送日）６、補正の対象図　　面７、補正の内容図面の浄書（内容に変更なし）。以　　上

Claims

【特許請求の範囲】入力された音声に特徴付けがなされ、その出力された音
節情報に対して音節の識別を行なう方式であつて、入力音声に対応する各音節情報の音節種および時間間隔
がキャラクタ列によって表現されるようにしたことを特
徴とする音節識別方式。