JPS63223696A - 音声パタ−ン作成方式 - Google Patents
音声パタ−ン作成方式Info
- Publication number
- JPS63223696A JPS63223696A JP62058077A JP5807787A JPS63223696A JP S63223696 A JPS63223696 A JP S63223696A JP 62058077 A JP62058077 A JP 62058077A JP 5807787 A JP5807787 A JP 5807787A JP S63223696 A JPS63223696 A JP S63223696A
- Authority
- JP
- Japan
- Prior art keywords
- power
- frame
- section
- maximum power
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
孜生公団
本発明は、音声のパターン作成方式に関する。
灸来援樒
従来の音声パワーの正規化方式は、音声区間全体で音声
パワーの最大値(もしくは最大値と最小値)を求め、そ
の値で音声区間の各フレームの音声パワーの値を正規化
していた。
パワーの最大値(もしくは最大値と最小値)を求め、そ
の値で音声区間の各フレームの音声パワーの値を正規化
していた。
しかし、この方式では音声区間が終了してから音声パワ
ーの正規化の計算を行なうことになり。
ーの正規化の計算を行なうことになり。
本質的に実時間処理が不可能であった。
月−一一眞
本発明は、上述のごとき実情に鑑みてなされたもので、
特に、音声の終了以前に音声パワーの正規化の計算を行
なうことにより、実時間処理が可能なパワーパターン作
成方式を提供することを目的としてなされたものである
。
特に、音声の終了以前に音声パワーの正規化の計算を行
なうことにより、実時間処理が可能なパワーパターン作
成方式を提供することを目的としてなされたものである
。
構 成
本発明は、上記目的を達成するために、入力された音声
から時間周期(フレーム周期)で、そのパワー情報を抽
出する手段と、入力信号から音声区間を切り出す音声区
間検出手段と、入力信号のパワーを計算する計算手段と
、入力音声の各フレームが有声であるか無声であるかを
判定する有/無声判定手段とを有し、入力信号が初めて
有声となったフレームから一定フレーム以内を最大パワ
ー検出区間とし、該最大パワー検出区間内で最大パワー
を検出し、有声区間の各フレームのパワーを該最大パワ
ーで正規化すること、又は、最大パワー検出区間終了時
点にて該最大パワー検出区間終了時点以前の各フレーム
の正規化音声パワーを一括計算し、該最大パワー検出区
間終了時点以降の各フレームの正規化音声パワーをフレ
ーム周期に従って遂時計算すること、又は、正規化音声
パワーを計算して、パワーパターンを作成することを特
徴としたものである。以下、本発明の実施例に基づいて
説明する。
から時間周期(フレーム周期)で、そのパワー情報を抽
出する手段と、入力信号から音声区間を切り出す音声区
間検出手段と、入力信号のパワーを計算する計算手段と
、入力音声の各フレームが有声であるか無声であるかを
判定する有/無声判定手段とを有し、入力信号が初めて
有声となったフレームから一定フレーム以内を最大パワ
ー検出区間とし、該最大パワー検出区間内で最大パワー
を検出し、有声区間の各フレームのパワーを該最大パワ
ーで正規化すること、又は、最大パワー検出区間終了時
点にて該最大パワー検出区間終了時点以前の各フレーム
の正規化音声パワーを一括計算し、該最大パワー検出区
間終了時点以降の各フレームの正規化音声パワーをフレ
ーム周期に従って遂時計算すること、又は、正規化音声
パワーを計算して、パワーパターンを作成することを特
徴としたものである。以下、本発明の実施例に基づいて
説明する。
第1図は、本発明の一実施例を説明するための構成図で
1図中、1はマイクロフォン、2は特徴系列変換部、3
は有/無声判定部、4は音声パワー抽出部、5は音声区
間検出部、6は最大パワー検出部、7はパワー正規化部
、8はパワーパターン生成部で1.マイクから入力され
た音声信号は、特徴系列変換部により、特徴ベクトルの
時系列(X□、x2.・・・X r )に変換される。
1図中、1はマイクロフォン、2は特徴系列変換部、3
は有/無声判定部、4は音声パワー抽出部、5は音声区
間検出部、6は最大パワー検出部、7はパワー正規化部
、8はパワーパターン生成部で1.マイクから入力され
た音声信号は、特徴系列変換部により、特徴ベクトルの
時系列(X□、x2.・・・X r )に変換される。
特徴ベクトル系列変換手段としては、例えば中心周波数
250〜6300 Hzで1/6オクターブごとに配置
した29チヤンネルのバンドパスフィルタ群を用いれば
よい。このとき、iフレームの特徴ベクトルXiは X1=(Xi、0.Xi、、、 ・・・、Xi、2g
)となる、ここで、Xi、jは、iフレームにおけるj
チャンネルのフィルターの出力を表す、また、音声パワ
ーPiは、例えば、 PL=ΣXi、j j=1 として、求めれば良い。この様な特徴系列をある周期(
例えばl0m5)で演算し、その情報をある記憶手段(
例えばバッファメモリ)に記憶する。
250〜6300 Hzで1/6オクターブごとに配置
した29チヤンネルのバンドパスフィルタ群を用いれば
よい。このとき、iフレームの特徴ベクトルXiは X1=(Xi、0.Xi、、、 ・・・、Xi、2g
)となる、ここで、Xi、jは、iフレームにおけるj
チャンネルのフィルターの出力を表す、また、音声パワ
ーPiは、例えば、 PL=ΣXi、j j=1 として、求めれば良い。この様な特徴系列をある周期(
例えばl0m5)で演算し、その情報をある記憶手段(
例えばバッファメモリ)に記憶する。
また、音声区間検出手段は、本発明とは直接関係ないの
でその詳細な説明は省略するが、すでにいくつかの方法
が知られている。
でその詳細な説明は省略するが、すでにいくつかの方法
が知られている。
有/無声判定手段としては、例えば、以下に述べる判定
法を用いればよい。
法を用いればよい。
L i ) Hi→有声、 Li≦Hi→無声但し。
第2図は、最大パワー検出手段の一例を説明するだめの
フローチャートで、Vsは音声区間中初めて有声と判定
されたフレーム、には最大パワーを検出する区間の区間
長、Pmaxは最大パワーを示している。この最大パワ
ー検出手段により、第3図に示すように、最大パワーP
waxが検出される。Kの値はフレーム周期が10m
5ecの場合、20フレーム(つまり200 m5ec
)程度とすればよい。この結果、入力音声の終了を待た
ず、Vs十にフレームの時点で、入力音声のパワーPi
を正規化する計算が開始可能になる。
フローチャートで、Vsは音声区間中初めて有声と判定
されたフレーム、には最大パワーを検出する区間の区間
長、Pmaxは最大パワーを示している。この最大パワ
ー検出手段により、第3図に示すように、最大パワーP
waxが検出される。Kの値はフレーム周期が10m
5ecの場合、20フレーム(つまり200 m5ec
)程度とすればよい。この結果、入力音声の終了を待た
ず、Vs十にフレームの時点で、入力音声のパワーPi
を正規化する計算が開始可能になる。
パワー正規化手段としては次に示す式を用い、各フレー
ムの音声パワーPiを正規化音声パワーSiに変換すれ
ば良い。
ムの音声パワーPiを正規化音声パワーSiに変換すれ
ば良い。
5L=Pi/Pmax
以上のような正規化法は、主に例えば単音節のような子
音母音結合(C−V)の音声認識の正規化法に最適であ
る。すなわち、単音節発声の場合。
音母音結合(C−V)の音声認識の正規化法に最適であ
る。すなわち、単音節発声の場合。
必ずCv(子音、母音の結合)であり、本正規化法はい
わゆる母音の定常部を検出し、子音部分のパワー形状を
正規化してその特徴を得るものであリ、それを実時間処
理で行うことができる。この具体的作用を以下に、B
T S P (Binary−Time−5pectr
um)方式を用いて説明する。
わゆる母音の定常部を検出し、子音部分のパワー形状を
正規化してその特徴を得るものであリ、それを実時間処
理で行うことができる。この具体的作用を以下に、B
T S P (Binary−Time−5pectr
um)方式を用いて説明する。
第4図は、BTSP方式を用いた音声認識の正規化法の
一例を説明するための構成図で1図中、11はマイクロ
フォン、12は前処理部、13はバンドパスフィルタ(
B、P、F) 、14はBTSPデータ生成部、15は
パワー正規化部、16はパワーパターン生成部、17は
音声区間検出部、18はデータ入力部、19は認識登録
部で、マイクから入力された音声は前処理部において増
幅、周波数処理された後、B 、 P 、 F (Ba
nd−Pass−Filter)で各チャンネルに対す
る周波数解析を行ってスペクトルパワーを求める。BT
SPデータ変換部においては、その各チャンネルのスペ
クトルパワーから、その音声情報を1.01 と′1′
の2値コードに変換する。パワー正規化部は、前述のパ
ワー正規化手法により、正規化パワーを得たのちに、パ
ワー包絡の概形を得るために2値化パワーパターンに変
換する。この図示構成においては、パワー正規化情報は
発声終了後にすべて2値化パワーパターンとして変換し
終っていることが望ましい。しかしながら、パワー正規
化は音声のパワーピーク点が検出されてからしか行えず
、その為前述の様な正規化法が有用となる。この方法を
用いれば、例えば、第4図のデータ入力部は第5図に示
すようにVs+にの時点で語頭からそれまでのデータを
正規化し、2値化パワーパターンを生成して一括転送し
、換言すれば、第5図のパワーパターン生成部のA部に
おいてパワーピーク点の検索を行い、それまでのパワー
を正規化し、それまでのパワーのパターンを作成し、そ
れを一括して転送し、その後はサンプル周期に同期して
入力したパワー情報を2値化変換して、認識・登録部に
転送する。このようにして必要な2値化パワーパターン
の生成の実時間処理が可能となる。
一例を説明するための構成図で1図中、11はマイクロ
フォン、12は前処理部、13はバンドパスフィルタ(
B、P、F) 、14はBTSPデータ生成部、15は
パワー正規化部、16はパワーパターン生成部、17は
音声区間検出部、18はデータ入力部、19は認識登録
部で、マイクから入力された音声は前処理部において増
幅、周波数処理された後、B 、 P 、 F (Ba
nd−Pass−Filter)で各チャンネルに対す
る周波数解析を行ってスペクトルパワーを求める。BT
SPデータ変換部においては、その各チャンネルのスペ
クトルパワーから、その音声情報を1.01 と′1′
の2値コードに変換する。パワー正規化部は、前述のパ
ワー正規化手法により、正規化パワーを得たのちに、パ
ワー包絡の概形を得るために2値化パワーパターンに変
換する。この図示構成においては、パワー正規化情報は
発声終了後にすべて2値化パワーパターンとして変換し
終っていることが望ましい。しかしながら、パワー正規
化は音声のパワーピーク点が検出されてからしか行えず
、その為前述の様な正規化法が有用となる。この方法を
用いれば、例えば、第4図のデータ入力部は第5図に示
すようにVs+にの時点で語頭からそれまでのデータを
正規化し、2値化パワーパターンを生成して一括転送し
、換言すれば、第5図のパワーパターン生成部のA部に
おいてパワーピーク点の検索を行い、それまでのパワー
を正規化し、それまでのパワーのパターンを作成し、そ
れを一括して転送し、その後はサンプル周期に同期して
入力したパワー情報を2値化変換して、認識・登録部に
転送する。このようにして必要な2値化パワーパターン
の生成の実時間処理が可能となる。
効 果
以上の説明から明らかなように、本発明によると、発声
終了を待たずに正規化パワーパターンを生成することが
可能となり、特徴データの実時間処理が可能となる。
終了を待たずに正規化パワーパターンを生成することが
可能となり、特徴データの実時間処理が可能となる。
第1図は1本発明による音声パターン作成方式の一実施
例を説明するための構成図、第2図は、最大パワー検出
手段の一例を説明するための図、第3図は、/ s a
/の音声パワーの時間的変化を示す図、第4図は、B
TSP方式を用いた音声認識の正規化法の一例を説明す
るための図、第5図は、第4図に示した正規化法の動作
説明をするための図である。 1・・・マイクロフォン、2・・・特徴系列変換部、3
・・・有/無声判定部、4・・・音声パワー抽出部、5
・・・音声区間検出部、6・・・最大パワー検出部、7
・・・パワー正規化部、8・・・パワーパターン生成部
、11・・・マイクロフォン、12・・・前処理部、1
3・・・バンドパスフィルタ、14・・・BTSPデー
タ生成部。 15・・・パワー正規化部、16・・・パワーパターン
生成部、17・・・音声区間検出部、18・・・データ
入力部、19・・・認r1登録部。 第 1 図 第2図 第3図
例を説明するための構成図、第2図は、最大パワー検出
手段の一例を説明するための図、第3図は、/ s a
/の音声パワーの時間的変化を示す図、第4図は、B
TSP方式を用いた音声認識の正規化法の一例を説明す
るための図、第5図は、第4図に示した正規化法の動作
説明をするための図である。 1・・・マイクロフォン、2・・・特徴系列変換部、3
・・・有/無声判定部、4・・・音声パワー抽出部、5
・・・音声区間検出部、6・・・最大パワー検出部、7
・・・パワー正規化部、8・・・パワーパターン生成部
、11・・・マイクロフォン、12・・・前処理部、1
3・・・バンドパスフィルタ、14・・・BTSPデー
タ生成部。 15・・・パワー正規化部、16・・・パワーパターン
生成部、17・・・音声区間検出部、18・・・データ
入力部、19・・・認r1登録部。 第 1 図 第2図 第3図
Claims (3)
- (1)、入力された音声から時間周期(フレーム周期)
で、そのパワー情報を抽出する手段と、入力信号から音
声区間を切り出す音声区間検出手段と、入力信号のパワ
ーを計算する計算手段と、入力音声の各フレームが有声
であるか無声であるかを判定する有/無声判定手段とを
有し、入力信号が初めて有声となったフレームから一定
フレーム以内を最大パワー検出区間とし、該最大パワー
検出区間内で最大パワーを検出し、有声区間の各フレー
ムのパワーを該最大パワーで正規化することを特徴とす
る音声パターン作成方式。 - (2)、特許請求の範囲第(1)項に記載の音声パワー
正規化方式を用いて正規化された音声パワーを計算する
方式において、最大パワー検出区間終了時点にて該最大
パワー検出区間終了時点以前の各フレームの正規化音声
パワーを一括計算し、該最大パワー検出区間終了時点以
降の各フレームの正規化音声パワーをフレーム周期に従
って遂時計算することを特徴とする特許請求の範囲第(
1)項に記載の音声パターン作成方式。 - (3)、特許請求の範囲第(2)項に記載の音声パワー
計算方式を用いて正規化音声パワーを計算して、パワー
パターンを作成することを特徴とする特許請求の範囲第
(2)項に記載の音声パターン作成方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62058077A JPS63223696A (ja) | 1987-03-12 | 1987-03-12 | 音声パタ−ン作成方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62058077A JPS63223696A (ja) | 1987-03-12 | 1987-03-12 | 音声パタ−ン作成方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS63223696A true JPS63223696A (ja) | 1988-09-19 |
Family
ID=13073852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62058077A Pending JPS63223696A (ja) | 1987-03-12 | 1987-03-12 | 音声パタ−ン作成方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS63223696A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07306694A (ja) * | 1994-05-10 | 1995-11-21 | Nec Corp | 音声入力装置 |
JP2010266488A (ja) * | 2009-05-12 | 2010-11-25 | Raytron:Kk | 音声認識モデルパラメータ作成装置、音声認識モデルパラメータ作成方法および音声認識装置 |
-
1987
- 1987-03-12 JP JP62058077A patent/JPS63223696A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07306694A (ja) * | 1994-05-10 | 1995-11-21 | Nec Corp | 音声入力装置 |
JP2010266488A (ja) * | 2009-05-12 | 2010-11-25 | Raytron:Kk | 音声認識モデルパラメータ作成装置、音声認識モデルパラメータ作成方法および音声認識装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS58130393A (ja) | 音声認識装置 | |
JPH0465392B2 (ja) | ||
JPS63223696A (ja) | 音声パタ−ン作成方式 | |
JP2757356B2 (ja) | 単語音声認識方法および装置 | |
JPS5936759B2 (ja) | 音声認識方法 | |
JP3411074B2 (ja) | 母音区間検出装置及び母音区間検出方法 | |
JP2760096B2 (ja) | 音声認識方式 | |
JPS59211098A (ja) | 音声認識装置 | |
JP2655637B2 (ja) | 音声パターン照合方式 | |
JPS62255999A (ja) | 単語音声認識装置 | |
JPS6225796A (ja) | 音声認識装置 | |
JPS6136797A (ja) | 音声セグメンテ−シヨン法 | |
JPS6237797B2 (ja) | ||
JPH0451840B2 (ja) | ||
JPS5879297A (ja) | 音声認識装置 | |
JPH0731506B2 (ja) | 音声認識方法 | |
JPS62293299A (ja) | 音声認識方法 | |
JPH09198382A (ja) | 音声入力かな漢字変換装置 | |
JPS60229099A (ja) | 音声認識方式 | |
JPS6313199B2 (ja) | ||
JPS62166400A (ja) | 音声ワ−ドプロセツサ装置 | |
JPS6391700A (ja) | 音声認識装置 | |
JPS625299A (ja) | 音声認識装置 | |
JPS63221397A (ja) | 単音節音声認識装置 | |
JPH0567036B2 (ja) |