JPS63223696A

JPS63223696A - 音声パタ−ン作成方式

Info

Publication number: JPS63223696A
Application number: JP62058077A
Authority: JP
Inventors: 室井　哲也; 安田　晴剛
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1987-03-12
Filing date: 1987-03-12
Publication date: 1988-09-19

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】孜生公団本発明は、音声のパターン作成方式に関する。

灸来援樒従来の音声パワーの正規化方式は、音声区間全体で音声
パワーの最大値（もしくは最大値と最小値）を求め、そ
の値で音声区間の各フレームの音声パワーの値を正規化
していた。

しかし、この方式では音声区間が終了してから音声パワ
ーの正規化の計算を行なうことになり。

本質的に実時間処理が不可能であった。

月−一一眞本発明は、上述のごとき実情に鑑みてなされたもので、
特に、音声の終了以前に音声パワーの正規化の計算を行
なうことにより、実時間処理が可能なパワーパターン作
成方式を提供することを目的としてなされたものである
。

構　　　成本発明は、上記目的を達成するために、入力された音声
から時間周期（フレーム周期）で、そのパワー情報を抽
出する手段と、入力信号から音声区間を切り出す音声区
間検出手段と、入力信号のパワーを計算する計算手段と
、入力音声の各フレームが有声であるか無声であるかを
判定する有／無声判定手段とを有し、入力信号が初めて
有声となったフレームから一定フレーム以内を最大パワ
ー検出区間とし、該最大パワー検出区間内で最大パワー
を検出し、有声区間の各フレームのパワーを該最大パワ
ーで正規化すること、又は、最大パワー検出区間終了時
点にて該最大パワー検出区間終了時点以前の各フレーム
の正規化音声パワーを一括計算し、該最大パワー検出区
間終了時点以降の各フレームの正規化音声パワーをフレ
ーム周期に従って遂時計算すること、又は、正規化音声
パワーを計算して、パワーパターンを作成することを特
徴としたものである。以下、本発明の実施例に基づいて
説明する。

第１図は、本発明の一実施例を説明するための構成図で
１図中、１はマイクロフォン、２は特徴系列変換部、３
は有／無声判定部、４は音声パワー抽出部、５は音声区
間検出部、６は最大パワー検出部、７はパワー正規化部
、８はパワーパターン生成部で１．マイクから入力され
た音声信号は、特徴系列変換部により、特徴ベクトルの
時系列（Ｘ□、ｘ２．・・・Ｘ　ｒ　）に変換される。

特徴ベクトル系列変換手段としては、例えば中心周波数
２５０〜６３００　Ｈｚで１／６オクターブごとに配置
した２９チヤンネルのバンドパスフィルタ群を用いれば
よい。このとき、ｉフレームの特徴ベクトルＸｉはＸ１＝（Ｘｉ、０．Ｘｉ、、、　　・・・、Ｘｉ、２ｇ
）となる、ここで、Ｘｉ、ｊは、ｉフレームにおけるｊ
チャンネルのフィルターの出力を表す、また、音声パワ
ーＰｉは、例えば、ＰＬ＝ΣＸｉ、ｊｊ＝１として、求めれば良い。この様な特徴系列をある周期（
例えばｌ０ｍ５）で演算し、その情報をある記憶手段（
例えばバッファメモリ）に記憶する。

また、音声区間検出手段は、本発明とは直接関係ないの
でその詳細な説明は省略するが、すでにいくつかの方法
が知られている。

有／無声判定手段としては、例えば、以下に述べる判定
法を用いればよい。

Ｌ　ｉ　）　Ｈｉ→有声、　　Ｌｉ≦Ｈｉ→無声但し。

第２図は、最大パワー検出手段の一例を説明するだめの
フローチャートで、Ｖｓは音声区間中初めて有声と判定
されたフレーム、には最大パワーを検出する区間の区間
長、Ｐｍａｘは最大パワーを示している。この最大パワ
ー検出手段により、第３図に示すように、最大パワーＰ
　ｗａｘが検出される。Ｋの値はフレーム周期が１０ｍ
５ｅｃの場合、２０フレーム（つまり２００　ｍ５ｅｃ
）程度とすればよい。この結果、入力音声の終了を待た
ず、Ｖｓ十にフレームの時点で、入力音声のパワーＰｉ
を正規化する計算が開始可能になる。

パワー正規化手段としては次に示す式を用い、各フレー
ムの音声パワーＰｉを正規化音声パワーＳｉに変換すれ
ば良い。

５Ｌ＝Ｐｉ／Ｐｍａｘ以上のような正規化法は、主に例えば単音節のような子
音母音結合（Ｃ−Ｖ）の音声認識の正規化法に最適であ
る。すなわち、単音節発声の場合。

必ずＣｖ（子音、母音の結合）であり、本正規化法はい
わゆる母音の定常部を検出し、子音部分のパワー形状を
正規化してその特徴を得るものであリ、それを実時間処
理で行うことができる。この具体的作用を以下に、Ｂ　
Ｔ　Ｓ　Ｐ　（Ｂｉｎａｒｙ−Ｔｉｍｅ−５ｐｅｃｔｒ
ｕｍ）方式を用いて説明する。

第４図は、ＢＴＳＰ方式を用いた音声認識の正規化法の
一例を説明するための構成図で１図中、１１はマイクロ
フォン、１２は前処理部、１３はバンドパスフィルタ（
Ｂ、Ｐ、Ｆ）　、１４はＢＴＳＰデータ生成部、１５は
パワー正規化部、１６はパワーパターン生成部、１７は
音声区間検出部、１８はデータ入力部、１９は認識登録
部で、マイクから入力された音声は前処理部において増
幅、周波数処理された後、Ｂ　、　Ｐ　、　Ｆ　（Ｂａ
ｎｄ−Ｐａｓｓ−Ｆｉｌｔｅｒ）で各チャンネルに対す
る周波数解析を行ってスペクトルパワーを求める。ＢＴ
ＳＰデータ変換部においては、その各チャンネルのスペ
クトルパワーから、その音声情報を１．０１　と′１′
の２値コードに変換する。パワー正規化部は、前述のパ
ワー正規化手法により、正規化パワーを得たのちに、パ
ワー包絡の概形を得るために２値化パワーパターンに変
換する。この図示構成においては、パワー正規化情報は
発声終了後にすべて２値化パワーパターンとして変換し
終っていることが望ましい。しかしながら、パワー正規
化は音声のパワーピーク点が検出されてからしか行えず
、その為前述の様な正規化法が有用となる。この方法を
用いれば、例えば、第４図のデータ入力部は第５図に示
すようにＶｓ＋にの時点で語頭からそれまでのデータを
正規化し、２値化パワーパターンを生成して一括転送し
、換言すれば、第５図のパワーパターン生成部のＡ部に
おいてパワーピーク点の検索を行い、それまでのパワー
を正規化し、それまでのパワーのパターンを作成し、そ
れを一括して転送し、その後はサンプル周期に同期して
入力したパワー情報を２値化変換して、認識・登録部に
転送する。このようにして必要な２値化パワーパターン
の生成の実時間処理が可能となる。

効　　　果以上の説明から明らかなように、本発明によると、発声
終了を待たずに正規化パワーパターンを生成することが
可能となり、特徴データの実時間処理が可能となる。

【図面の簡単な説明】

第１図は１本発明による音声パターン作成方式の一実施
例を説明するための構成図、第２図は、最大パワー検出
手段の一例を説明するための図、第３図は、／　ｓ　ａ
　／の音声パワーの時間的変化を示す図、第４図は、Ｂ
ＴＳＰ方式を用いた音声認識の正規化法の一例を説明す
るための図、第５図は、第４図に示した正規化法の動作
説明をするための図である。１・・・マイクロフォン、２・・・特徴系列変換部、３
・・・有／無声判定部、４・・・音声パワー抽出部、５
・・・音声区間検出部、６・・・最大パワー検出部、７
・・・パワー正規化部、８・・・パワーパターン生成部
、１１・・・マイクロフォン、１２・・・前処理部、１
３・・・バンドパスフィルタ、１４・・・ＢＴＳＰデー
タ生成部。１５・・・パワー正規化部、１６・・・パワーパターン
生成部、１７・・・音声区間検出部、１８・・・データ
入力部、１９・・・認ｒ１登録部。第　　１　図第２図　　　　第３図

Claims

【特許請求の範囲】

（１）、入力された音声から時間周期（フレーム周期）
で、そのパワー情報を抽出する手段と、入力信号から音
声区間を切り出す音声区間検出手段と、入力信号のパワ
ーを計算する計算手段と、入力音声の各フレームが有声
であるか無声であるかを判定する有／無声判定手段とを
有し、入力信号が初めて有声となったフレームから一定
フレーム以内を最大パワー検出区間とし、該最大パワー
検出区間内で最大パワーを検出し、有声区間の各フレー
ムのパワーを該最大パワーで正規化することを特徴とす
る音声パターン作成方式。
（２）、特許請求の範囲第（１）項に記載の音声パワー
正規化方式を用いて正規化された音声パワーを計算する
方式において、最大パワー検出区間終了時点にて該最大
パワー検出区間終了時点以前の各フレームの正規化音声
パワーを一括計算し、該最大パワー検出区間終了時点以
降の各フレームの正規化音声パワーをフレーム周期に従
って遂時計算することを特徴とする特許請求の範囲第（
１）項に記載の音声パターン作成方式。
（３）、特許請求の範囲第（２）項に記載の音声パワー
計算方式を用いて正規化音声パワーを計算して、パワー
パターンを作成することを特徴とする特許請求の範囲第
（２）項に記載の音声パターン作成方式。