JPS62175800A

JPS62175800A - 音声パタ−ン作成方式

Info

Publication number: JPS62175800A
Application number: JP1749486A
Authority: JP
Inventors: 潤一郎藤本
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1986-01-29
Filing date: 1986-01-29
Publication date: 1987-08-01

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】技術分野本発明は、音声認識装置における音声パターン作成方式
に関する。

皿米扱嵐近年、音声認識技術の進歩はめざましく、単語だけでな
く単音節音声の認識も可能になってきた。

その中で簡易に音声の認識ができる方法として２値化処
理による方式（日本音響学会講演論文集昭和５８年１０
月、ＰＬ９５〜１９６．３−１−８゜２値のＴＳＰによ
る単語音声認識方式）が報告されている。この方式は、
単語音声の時間−周波数パターン（ＴＳＰ）を図形処理
してパターンマツチングするもので、周波数方向に幅を
もつパターンとローカルビークパターンを重ね合わせて
類似度を求めるもので、両パターンとも２値化で表現で
きるようにしたものである。しかしこの方式はスペクト
ルを２値化処理するための音声の大きさに関する情報が
失われてしまうので憤語等の情報量の多い音声の認識に
は向いているが、単音節等、全てが類似しているような
パターンの比較には適していない。そこで日本音響学会
講演論文集昭和６０年１０月、Ｐ５７〜５８．２−４−
４．単音節音声認識の一方式に報告されたような音声の
パワー情報も２値化処理する方式が考えられ、これによ
って音声の大きさの時間変化によっても音声の違いが区
別できるに至った。しかし、この方式は、ｒＯＪ　、ｒ
ｌ、Ｊの２値化パターン作成時にスペク１−ルパターン
は音声の第２〜第３ホルマントが「１」となるように設
定するからスペクトル情報を担う「１」は１フレームに
つき２〜３個或いはそれ以上生じるのに対し、パワーを
表わす「１」は１フレームに１個となってしまい、パワ
ー情報はスペクトル情報に比ベラエイトが小さくなり、
折角の情報も効果的でないという欠点があった。

目　　　　　的本発明は、上述のごとき実情に鑑みてなされたもので、
特に、音声によるパターン間差異を強調するようなパタ
ーンを作ることを目的としてなされたものである。

構　　　成本発明は、上記目的を達成するために、音声を周波数分
析し、周波数成分レベルの大きな部分とそうでない部分
を２値化して差異を出し、更に発声された音声の強弱を
表わすパワーをパワーの包絡線と他を２値化して差異を
出し、両者のパターンを結合して一つの音声パターンと
する音声パターン作成方式において、（１）パワーの一
定以上の値と他を２値化により差異を出したパターンと
、周波数のパターンとを結合して作ること、或いは、（
２）パワーの大きさを棒グラフ状にし、２値化処理して
差異を出したパターンと周波数のパターンとを結合して
作ることを特徴としたものである。以下、本発明の実施
例に基づいて説明する。

第５図は、従来の方法で作ったパターンで、スペクトル
パターンＡは単音節／　ｋ　ａ　／の冒頭の部分のスペ
クトルパターンで、該スペクトルパターンＡは前述のご
とくスペクトル変換したものを２値化したものであり、
パワーパターンＢは第６図に示すように／　ｋ　ａ　／
を発声した時のパワーの時間変化をそのまま包絡を「１
」他を「ｏ」で表わしたものである。なお、このパター
ンは１０ｍ５毎にサンプルされており、スペクトル部は
１５個の周波数帯域、パワーレベルは８レベルとした。

本発明ではこのパワーの包絡線だけでなく包絡線の何割
か以上をｒＩＪとして表わすものである。

つまり、第２図の斜線の部分をｒｌＪとし他を「Ｏ」と
するもので第５図ではパワーパターンＢは１フレームに
１つの「１」しが存在しなかったものが本発明では第３
図のように「１」の数が増加する。これによってスペク
トルパターンＡにパワーパターンＢが与える影響が増え
、パワーの形状差による認識率が向上する６第１図は、上述のごときパターンを作成するための電剣
的ブロック線図、すなわち本発明の一実施例を説明する
ための電気的ブロック線図で、図中、１はマイク、２は
区間検出部、３はバンドパスフィルタ群、４はオールパ
スフィルタ、５は量子化部、６は２値化部、７及び８は
レジスタ、９はピーク正規化部、１０はフレーム毎のピ
ークＸ閾値部、１１はパターン作成部、１２は組合せ部
。

１３はパターン部で、マイク１からの入力音声は、区間
検出部２により音声の区間が取り出され、次いで１例え
ば、１５個のバンドパスフィルタから成るバンドパスフ
ィルタ群３によりスペクトル分析され、ｌｏｍｓ毎に量
子化され、２値化され、−汗声分がレジスタ７へ格納さ
れる。これと並行してオールパスフィルタ４を通過した
パワーがｌ０ｍ５毎に量子化されて一音声分がレジスタ
８へ格納される。この−音声分のパワーのピークが第８
レベルになるよう正規化すると共に閾値１例えばパワー
の２０％を掛けて「１」とする値を決め他をＯとしたパ
ターンを作る。これとスペク１−ルパターンを組み合わ
せて本発明のパターンを作成することができる。更に、
この閾値を１００％とすることで棒グラフ状のパワーパ
ターンができる。

この場合、パワーパターンが認識に与えるウェイトは最
大にすることができる。このようなパターンの例を第４
図に示す。

効　　　果以上の説明から明らかなように、本発明による音声認識
においては、パワー形状の差異が認識結果に与える影響
をもつようなパターンを作成することができる。

【図面の簡単な説明】

第１図は１本発明による音声パターン作成方式の一実施
例を説明するための電気的ブロック線図。第２図は１本発明による音声パターンの一例を示す図、
第３図は、本発明によるパワースペクトルを２値化した
図、第４図は、本発明による２値化パターンの他の例を
示す図、第５図は、音声パターンを２値化した場合の従
来例の一例を示す図、第６図は、音声パワーの一例を示
す図である。１・・・マイク、２・・・区間検出部、３・・・バンド
パスフィルタ群、４・・・オールパスフィルタ、５・・
・量子化部、６・・・２値化部、７，８・・・レジスタ
、９・・・ピーク正規化部、１０・・・フレーム毎のピ
ークＸ閾値部、１１・・・パターン作成部、１２・・組
合せ部。１３・・・パターン部。

Claims

【特許請求の範囲】

（１）、音声を周波数分析し、周波数成分レベルの大き
な部分とそうでない部分を２値化して差異を出し、更に
発声された音声の強弱を表わすパワーをパワーの包絡線
と他を２値化して差異を出し、両者のパターンを結合し
て一つの音声パターンとする音声パターン作成方式にお
いて、パワーの一定以上の値と他を２値化により差異を
出したパターンと、周波数のパターンとを結合して前記
二つのパターンを作ることを特徴とする音声パターン作
成方式。
（２）、音声を周波数分析し、周波数成分レベルの大き
な部分とそうでない部分を２値化して差異を出し、更に
発声された音声の強弱を表わすパワーをパワーの包絡線
と他を２値化して差異を出し、両者のパターンを結合し
て一つの音声パターンとする音声パターン作成方式にお
いて、パワーの大きさを棒グラフ状にし、２値化処理し
て差異を出したパターンと周波数のパターンとを結合し
て前記一つのパターンを作ることを特徴とする音声パタ
ーン作成方式。