JPS62279400A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPS62279400A JPS62279400A JP61122289A JP12228986A JPS62279400A JP S62279400 A JPS62279400 A JP S62279400A JP 61122289 A JP61122289 A JP 61122289A JP 12228986 A JP12228986 A JP 12228986A JP S62279400 A JPS62279400 A JP S62279400A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- standard
- bits
- local peak
- bit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001228 spectrum Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 210000003323 beak Anatomy 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000002747 voluntary effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
3、発明の詳細な説明
(産業上の利用分野)
本発明は、音声認識方法に関し、具体的には、音声の周
波数スペクトルを各分析チャンネル当り1ビットを用い
たローカルビークパターンで表現し、その時系列を音声
特徴・ぐターンとして音声を認識する方法に関する。
波数スペクトルを各分析チャンネル当り1ビットを用い
たローカルビークパターンで表現し、その時系列を音声
特徴・ぐターンとして音声を認識する方法に関する。
(従来の技術)
音声の周波数ス綬りトルの作成については、音声研究会
資料、資料番号381−6 (1981−6)、日本音
響学会において開示されている。
資料、資料番号381−6 (1981−6)、日本音
響学会において開示されている。
そこでは、音声信号を中心周波数の異なるディノタル帯
域フィルタで周波数分析し、LINERと称する2乗和
平方根によるスペクトル変換或いはLS FLと称する
最小2乗近似直線差引変換によって正規化し、音声の周
波数スペクトルを作成する。
域フィルタで周波数分析し、LINERと称する2乗和
平方根によるスペクトル変換或いはLS FLと称する
最小2乗近似直線差引変換によって正規化し、音声の周
波数スペクトルを作成する。
ここで帯域ごとの系をチャンネルと称する。
ローカルビーク・ぐターンを用いた音声認識については
、沖電気研究開発、Vol 53 、A 2 、 PP
6l−66、昭和61年4月において開示されている。
、沖電気研究開発、Vol 53 、A 2 、 PP
6l−66、昭和61年4月において開示されている。
そこでは、正規化した後の周波数スペクトルの極大位置
に着目し、正の値をもち且つ隣接チャンネルとの間で極
大と°なるチャンネルに対して2値情報の一方(1)で
表現し、又負の値をもつもしくは極大とならないチャン
ネルに対して他方(0)で表現してローカルビーク・ぐ
ターンを作成し、その時系列を音声特徴・ぐターンとし
て用い、音声認識を行なう。
に着目し、正の値をもち且つ隣接チャンネルとの間で極
大と°なるチャンネルに対して2値情報の一方(1)で
表現し、又負の値をもつもしくは極大とならないチャン
ネルに対して他方(0)で表現してローカルビーク・ぐ
ターンを作成し、その時系列を音声特徴・ぐターンとし
て用い、音声認識を行なう。
(解決すべき問題点)
前述のローカルビークパターンは、例えば分析チャンネ
ルとして20個の帯域を設定した場合20ビットで表現
される。
ルとして20個の帯域を設定した場合20ビットで表現
される。
しかし、ローカルビーク・ぐターンにおいては、ビーク
の隣りはビークでないので、換言すれば(1)が連続す
るパターンは存在しないので、標準音声の・セターンと
しては更に圧縮して記憶できる可能性が内在する。
の隣りはビークでないので、換言すれば(1)が連続す
るパターンは存在しないので、標準音声の・セターンと
しては更に圧縮して記憶できる可能性が内在する。
(問題点を解決するための手段)
標準音声のローカルビーク/Jターンの4ビット毎に3
ビットに圧縮してその圧縮・ぐターンを予め記憶してお
き、圧縮・ぐターンの3ビット毎に元の4ビットの・ぐ
ターンに逆変換して元のローカルビークツクターンを作
成り、ローカルビークツクターンを時系列要素とする音
声特徴・2ターンに基づいて未知音声を認識する。
ビットに圧縮してその圧縮・ぐターンを予め記憶してお
き、圧縮・ぐターンの3ビット毎に元の4ビットの・ぐ
ターンに逆変換して元のローカルビークツクターンを作
成り、ローカルビークツクターンを時系列要素とする音
声特徴・2ターンに基づいて未知音声を認識する。
次の表は標準音声におけるローカルピークパターンの4
ビットと圧縮パターンの3ビットとの対応関係を示す一
例である。
ビットと圧縮パターンの3ビットとの対応関係を示す一
例である。
但し、bo、 bl、 b2. b3はローカルビーク
ツやターンにおける4ビット毎の任意の部分・ぐターン
であって周波数の低い順(又は高い順)にサフィクスを
付したもの、co + C+ + 02は圧縮・ぐター
ンにおける同様のものである。
ツやターンにおける4ビット毎の任意の部分・ぐターン
であって周波数の低い順(又は高い順)にサフィクスを
付したもの、co + C+ + 02は圧縮・ぐター
ンにおける同様のものである。
なお、ローカルビーク/Jターンを4ビット毎に分割し
た部分ツヤターンは、(])が連続しないものとして8
通りのみ存在するので、対応関係は前述の表による必要
はなく、8通りの4ビット部分・ぐターンを択一的に3
ビットの8通りの部分・ぐターンに、論理回路やメモリ
によって、対応させればよい。
た部分ツヤターンは、(])が連続しないものとして8
通りのみ存在するので、対応関係は前述の表による必要
はなく、8通りの4ビット部分・ぐターンを択一的に3
ビットの8通りの部分・ぐターンに、論理回路やメモリ
によって、対応させればよい。
(作用)
例えば、20チヤンネルで帯域分析した場合、現でき、
それらを時系列要素したもので標準・ぐターンを記憶し
ておくため、記憶容量が節約できる。
それらを時系列要素したもので標準・ぐターンを記憶し
ておくため、記憶容量が節約できる。
(実施例)
第1図は本発明の一実施例を示すブロック図である。
第1図を参照するに、端子301から入力された音声信
号Iは、前処理部302において4 kHzの低域通過
フィルタでろ波され、10 kHzでサンプルホールド
され、ディノタル信号へ変換され、中心周波数250H
z〜4 kHzまでの115オクタ一ブ間隔の20チヤ
ンネルで、尖鋭度Q==6の巡回型ディノタルフィルタ
によって周波数分析され、その分析出力の絶対値の対数
値を128サンプルずつ加算平均したものに変換され、
それを1フレ一ム長分としてマイクロプロセッサ303
へ送られる。
号Iは、前処理部302において4 kHzの低域通過
フィルタでろ波され、10 kHzでサンプルホールド
され、ディノタル信号へ変換され、中心周波数250H
z〜4 kHzまでの115オクタ一ブ間隔の20チヤ
ンネルで、尖鋭度Q==6の巡回型ディノタルフィルタ
によって周波数分析され、その分析出力の絶対値の対数
値を128サンプルずつ加算平均したものに変換され、
それを1フレ一ム長分としてマイクロプロセッサ303
へ送られる。
マイクロプロセッサ303は、ローカルピークパターン
を計算作成する。
を計算作成する。
第2図を参照するに、plは、前処理部302の出力で
あって、スペクトル正規化途中の1フレ一ム分20チャ
ンネルの特徴量Yj(j=1〜20)からなるスペクト
ルを示していて、マイクロプロセッサ303は、このス
ペクトルp1に対して誤差の2乗和が最小となる最小2
乗近似直線p2を計算し、この直線p2の値をYjのお
のおのから減算することにより正規化後の特徴量Z、か
らなるスペクトルp5を得る。正規化後の特徴量zJの
うちで、正の値をとり且つピークとなるチャンネルを測
定し、ピークを(1)とし且つ他を(0)とした20ビ
ットのローカルビーク・ぐターンp3を計算作成する。
あって、スペクトル正規化途中の1フレ一ム分20チャ
ンネルの特徴量Yj(j=1〜20)からなるスペクト
ルを示していて、マイクロプロセッサ303は、このス
ペクトルp1に対して誤差の2乗和が最小となる最小2
乗近似直線p2を計算し、この直線p2の値をYjのお
のおのから減算することにより正規化後の特徴量Z、か
らなるスペクトルp5を得る。正規化後の特徴量zJの
うちで、正の値をとり且つピークとなるチャンネルを測
定し、ピークを(1)とし且つ他を(0)とした20ビ
ットのローカルビーク・ぐターンp3を計算作成する。
標準音声を記憶する場合、このローカルビークパターン
p3は、変換装置304へ与えられ、その4ビット毎の
部分/Pターンを3ビットの部分パターンに圧縮変換し
た後、標準・2ターン記憶装置305へ送られ、I5ビ
ットの圧縮パターンを時系列要素した標準パターンが記
憶される。
p3は、変換装置304へ与えられ、その4ビット毎の
部分/Pターンを3ビットの部分パターンに圧縮変換し
た後、標準・2ターン記憶装置305へ送られ、I5ビ
ットの圧縮パターンを時系列要素した標準パターンが記
憶される。
第3図は、変換装置304の回路図を4ビット分の部分
について示したものであり、標準音声の各フレーム長の
ローカルピーク/?ターンの各4ピツ ト 毎 に
、 c2=b5+(b2+b1)・bo+b101 =b2
+b1 c、)=b、)+(b2+b1) −bo+b1なる論
理演算を実行し、前述の表に対応した各3ビントノやタ
ーンに変換する。
について示したものであり、標準音声の各フレーム長の
ローカルピーク/?ターンの各4ピツ ト 毎 に
、 c2=b5+(b2+b1)・bo+b101 =b2
+b1 c、)=b、)+(b2+b1) −bo+b1なる論
理演算を実行し、前述の表に対応した各3ビントノやタ
ーンに変換する。
音声認識においては、音声人カニとして未知音声を与え
、そのローカルピーク/Fターンを時系列要素とする未
知パターンを未知−9ターン記憶装置3θ6に一旦記憶
する。
、そのローカルピーク/Fターンを時系列要素とする未
知パターンを未知−9ターン記憶装置3θ6に一旦記憶
する。
又標準・(ターン記憶装置305から標準・ぞターンを
読み出し、その時系列要素である圧縮・ぞターン毎に、
逆変換装置307において各3ビア ト/’9ターンを
元の4ビノトハターンに逆変換し、元のローカルビーク
・ぐターンを時系列要素とする標準・ぐターンを作成し
、未知・ぐターン記憶装置306から読み出した未知パ
ターンとの類似度を測定することによって、マイクロプ
ロセッサ303から端子30Bへ認識結果Rを出力する
。
読み出し、その時系列要素である圧縮・ぞターン毎に、
逆変換装置307において各3ビア ト/’9ターンを
元の4ビノトハターンに逆変換し、元のローカルビーク
・ぐターンを時系列要素とする標準・ぐターンを作成し
、未知・ぐターン記憶装置306から読み出した未知パ
ターンとの類似度を測定することによって、マイクロプ
ロセッサ303から端子30Bへ認識結果Rを出力する
。
第4図は逆変換装置307の回路図を3ビット分の部分
について示したものであり、 b s ” C2°C4’ C1 1)2==c、 ’ C。
について示したものであり、 b s ” C2°C4’ C1 1)2==c、 ’ C。
bloCloCo
1)a=:C4’ C1°C2
なる論理演算を実行し、前述の表に対応した元の4ビッ
トパターンを作成し、ローカルビーク・ぐターンを時系
列要素とする標準・2ターンをマイクロプロセッサへ送
る。
トパターンを作成し、ローカルビーク・ぐターンを時系
列要素とする標準・2ターンをマイクロプロセッサへ送
る。
(発明の効果)
以上の説明から明らかなように、本発明では4ビットを
3ビットに圧縮して標準パターンを記憶するため、記憶
容量が節約できる。
3ビットに圧縮して標準パターンを記憶するため、記憶
容量が節約できる。
第1図は本発明の一実施例を示すブロック図、第2図は
第1図の説明に用いる音声・ぐターンの説明図、第3図
は第1図の変換装置の部分的回路図、第4図は第1図の
逆変換装置の部分的回路図である。 302・・・前処理部、303 ・マイクロプロセッサ
、304・・・変換装置、305・・・標準パターン記
憶装置、306・・未知・ぞターン記憶装置、307・
・・逆変換装置。 特許 出 願人 沖電気工業株式会社 膏先捉診\侠1のフ゛コ・7り図 第1図 1々虐 III TOo 000 100 110 p4
1忌に も矛バ7ソ tさig 図 委慣伎1の回路2 第3図 仲冬璋襲支1の可ミフ 第4図 手続補正書(自発) l 事件の表示 昭和61年 特 許 願第122289号2、発明の名
称 音声認識方法 3、補正をする者 事件との関係 特 許 出 願 大佐 所(
〒105) 東京都港区虎ノ門1丁目7番12号住
所(〒105) 東京都港区虎ノ門1丁目7@12号
5、補正の対象 明細書中「発明の詳細な説明」の欄6
、補正の内容 (1)明細書第5頁の表を下記のように補正する。 表 (2) 同書第6頁第8行目に「時系列要素したもの
で」とあるのを 「時系列要素としたもので」と補正する。 (3) 同書同頁第20行目から第7頁第1行目に「
絶対値の対数値を・・・変換され、」とあるのを 「絶対値を128サンプルずつ加算平均したものの対数
値に変換され、」と補正する。 (4) 同書第8頁第1行目から第2行目に「時系列
要素した」とあるのを 「時系列要素とした」と補正する。 (5) 同書第9頁第7行目の式を下記のように補正
する。 b3”C2” 1 ” 0 (6) 同薔同頁第10行目の式を下記のように補正
する。 b=c 憂 欅 C (7)図面「第2図」を別紙の通り補正する。
第1図の説明に用いる音声・ぐターンの説明図、第3図
は第1図の変換装置の部分的回路図、第4図は第1図の
逆変換装置の部分的回路図である。 302・・・前処理部、303 ・マイクロプロセッサ
、304・・・変換装置、305・・・標準パターン記
憶装置、306・・未知・ぞターン記憶装置、307・
・・逆変換装置。 特許 出 願人 沖電気工業株式会社 膏先捉診\侠1のフ゛コ・7り図 第1図 1々虐 III TOo 000 100 110 p4
1忌に も矛バ7ソ tさig 図 委慣伎1の回路2 第3図 仲冬璋襲支1の可ミフ 第4図 手続補正書(自発) l 事件の表示 昭和61年 特 許 願第122289号2、発明の名
称 音声認識方法 3、補正をする者 事件との関係 特 許 出 願 大佐 所(
〒105) 東京都港区虎ノ門1丁目7番12号住
所(〒105) 東京都港区虎ノ門1丁目7@12号
5、補正の対象 明細書中「発明の詳細な説明」の欄6
、補正の内容 (1)明細書第5頁の表を下記のように補正する。 表 (2) 同書第6頁第8行目に「時系列要素したもの
で」とあるのを 「時系列要素としたもので」と補正する。 (3) 同書同頁第20行目から第7頁第1行目に「
絶対値の対数値を・・・変換され、」とあるのを 「絶対値を128サンプルずつ加算平均したものの対数
値に変換され、」と補正する。 (4) 同書第8頁第1行目から第2行目に「時系列
要素した」とあるのを 「時系列要素とした」と補正する。 (5) 同書第9頁第7行目の式を下記のように補正
する。 b3”C2” 1 ” 0 (6) 同薔同頁第10行目の式を下記のように補正
する。 b=c 憂 欅 C (7)図面「第2図」を別紙の通り補正する。
Claims (1)
- 【特許請求の範囲】 未知音声の周波数スペクトルと標準音声の周波数スペク
トルとを、共に各周波数分析チャンネル当り1ビットを
用いたローカルピークパターンで表現し、未知音声のロ
ーカルピークパターンの時系列と標準音声のローカルピ
ークパターンの時系列との類似度を測定することによっ
て未知音声を認識する方法において、 前記標準音声のローカルピークパターンの4ビット毎に
3ビットに圧縮した圧縮パターンを予め記憶しておき、 その圧縮パターンの3ビット毎に元の4ビットのパター
ンに逆変換して標準音声の前記ローカルピークパターン
を作成する処理過程を備え、当該ローカルピークパター
ンの各4ビットパターンにおける2値情報の一方(1)
が連続しない8通りのパターン(0000、0001、
0010、0100、0101、1000、1001、
1010)を、圧縮パターンの各3ビットパターンにお
ける8通りのパターン(000、001、010、01
1、100、101、110、111)に択一的に対応
させていること、 を特徴とした音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61122289A JPS62279400A (ja) | 1986-05-29 | 1986-05-29 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61122289A JPS62279400A (ja) | 1986-05-29 | 1986-05-29 | 音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS62279400A true JPS62279400A (ja) | 1987-12-04 |
Family
ID=14832268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61122289A Pending JPS62279400A (ja) | 1986-05-29 | 1986-05-29 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS62279400A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003003673A1 (en) * | 2001-06-28 | 2003-01-09 | Ntt Docomo, Inc. | Routing method, node, packet communication system, program, and recording medium |
-
1986
- 1986-05-29 JP JP61122289A patent/JPS62279400A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003003673A1 (en) * | 2001-06-28 | 2003-01-09 | Ntt Docomo, Inc. | Routing method, node, packet communication system, program, and recording medium |
US7301948B2 (en) | 2001-06-28 | 2007-11-27 | Ntt Docomo, Inc. | Routing method, node, packet communication system, program, and recording medium |
CN100418326C (zh) * | 2001-06-28 | 2008-09-10 | 株式会社Ntt都科摩 | 路由选择方法、节点以及分组通信系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4715004A (en) | Pattern recognition system | |
WO2002011123A3 (en) | Method for search in an audio database | |
CN103189916B (zh) | 估计信号模式的方法和设备 | |
JPS5844500A (ja) | 音声認識方式 | |
Scarr | Zero crossings as a means of obtaining spectral information in speech analysis | |
JPS62279400A (ja) | 音声認識方法 | |
US5329062A (en) | Method of recording/reproducing waveform and apparatus for reproducing waveform | |
JPS5977498A (ja) | 音声特徴パラメータの圧縮装置 | |
JP3023135B2 (ja) | 音声認識装置 | |
Seo | Salient Chromagram Extraction Based on the Savitzky-Golay Filter for Cover Song Identification | |
JPS58147797A (ja) | 音声認識装置 | |
JPS6075898A (ja) | 単語音声認識装置 | |
JPS5999496A (ja) | ベクトル量子化法 | |
JPS6093499A (ja) | スペクトル包絡パラメ−タ値の抽出方法 | |
JPH1020886A (ja) | 波形データに存在する調和波形成分の検出方式 | |
JPS5883900A (ja) | 音声識別装置 | |
JPS625298A (ja) | 音声認識装置 | |
WO1991002348A1 (en) | Speech recognition using spectral line frequencies | |
JPS62164100A (ja) | 声帯特徴抽出装置 | |
JPS59151216A (ja) | デ−タ・テ−ブルの作成及び索引方法 | |
JPS62283400A (ja) | 音声認識方法 | |
Davie | Channel vocoder based on ccd discrete-Fourier-transform processors | |
JPH07111462A (ja) | 音声圧縮方法および装置 | |
JPS59231599A (ja) | 音声認識方法 | |
JPH0221597B2 (ja) |