JPS6225799A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6225799A
JPS6225799A JP16619185A JP16619185A JPS6225799A JP S6225799 A JPS6225799 A JP S6225799A JP 16619185 A JP16619185 A JP 16619185A JP 16619185 A JP16619185 A JP 16619185A JP S6225799 A JPS6225799 A JP S6225799A
Authority
JP
Japan
Prior art keywords
data
spectral
frame
trend
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP16619185A
Other languages
English (en)
Inventor
納田 重利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP16619185A priority Critical patent/JPS6225799A/ja
Publication of JPS6225799A publication Critical patent/JPS6225799A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、例えば話者の音声を単語単位で認識するの
に通用される音声認識装置に関する。
〔発明の概要〕
この発明は、音声認識装置において、種々の原因により
変動するスペクトルの傾向を補正するための傾向値を算
出し、この傾向値に基づいてスペクトルの傾向を平坦化
することにより話者の個人差や周囲のノイズ等に影響さ
れることがないようにして認識率の向上を図ると共に、
二値化処理を行うことによりメモリ容量を低減させ、計
算処理時間を短縮するようにしたものである。
〔従来の技術〕
従来の音声認識装置としては、例えば音声入力部として
のマイクロホン、前処理回路、音響分析器、特徴データ
抽出器、登録パターンメモリ及びパターンマツチング判
定器等により構成されるものが知られている。
この音声認、爪装置:よ、マイクロホンから入力される
音声信号を前処理回路において、音声認識に必要とされ
る:汁域に制限L、A/D変換変換器上りディジタル音
声信号とし、このディジタル音声信号を音響分析器に供
給する。
そして、音響分析器において、音声信号を周波数スペク
トルに変換し、例えば対数軸上で一定間隔となるように
N個の周波数を代表値とする周波数スペクトルを得、フ
レーム周期毎にNチャンネルのスペクトルデータにより
構成されるフレームデータを特徴データ抽出器に供給す
る。 特徴データ抽出器は、隣り合うフレームデータの
距離を計算し、夫々のフレーム間距離の総和により、音
声信号の始端フレームから終端フレームまでのN次元ヘ
クトルの軌跡長を求める。最も語数が多く長い音声の場
合に特徴を抽出するのに必要な所定の分割数でもって軌
跡長を等分割し、その分割点に対応したフレームデータ
のみを特徴データとして抽出する。
この特徴データを登録時においては、登録パターンメモ
リに供給して登録特徴データプロ、り(標準パターン)
として記憶し、:、U、識時にノ3いては、入力音声信
号を前述した処理により、入力特徴データブロック (
入カバターン)とし、パターンマツチング判定器に供給
する。そしてパターンマツチング判定器において、入力
特徴データプロ7りと登録特徴データブロックとの間で
パターンマツチングを行う。
パターンマツチング判定器は、登録特徴データブロック
を構成するフレームデータと入力特徴データブロックを
構成するフレームデータとの間でフレーム間距離を計算
し、フレーム間距離の総和をマツチング距離とする。他
の登録特徴データブロックに関しても同様にマツチング
距離を算出して、マツチング距離が最小で十分に距離が
近いものと判断される登録特徴データプロ、りに対応す
る単語を認識結果として出力する。
〔発明が解決しようとする問題点〕
しかし、音声信号の周波数スペクトルは話者の個人差及
び周囲ノイズ等の混入によってその傾向が大きく変化す
るもので、このIIU向を正規化しないと認識率が極め
て低下する。
例えば第6図Aに示すフレームデータが第6図B示すよ
うなスペクトル傾向を持つノイズにより変形され、第6
図CQこ示すようなフレームデータとされたとする。パ
ターンマツチング判定器において、第6図Aに示すフレ
ームと第6図Cに示すフレームとの距離が求められると
、そのフレーム間距離は大きな値として計算され、マツ
チング距離が大きな誤差を含んだものとされて誤認識さ
れる可能性が高くなる。このため、スペクトルの傾向変
動を補正して、話者の個人差や周囲ノイズに影響される
ことがないようにスペクトルの傾向を平坦化(正規化)
することが提案されている。
例えば最小二乗法等でスペクトル傾向を一次関数で推定
し正規化する手法や所定のチャンネル幅間で部分的に平
均化した補正関数で正規化する手法が稈茎されている。
しかしながら、前者の場合は、計算が複雑なばかりか傾
向が曲線を描く場合に適用することができず、また、後
者の場合コ、1、スペクトルエンヘロープがなめらかな
場合に適用することができない欠点を有するものであっ
た。
従って、この発明の目的は、簡単でかつ高速に任意のス
ペクトル傾向を正確に正規化することができる手段を有
した音声認識装置を提供することにある。
また、従来の音声認識装置においては、音響分析器から
出力されるフレームデータが特徴データ抽出器を介して
そのまま登録特徴データプロ、りとして登録パターンメ
モリに記憶されるため、登録パターンメモリのメモリ量
が膨大なものとなる問題点があった。これと共に、パタ
ーンマツチング時においても、データ量に応じてその計
算処理時間が長くなる問題点があった。
従って、この発明の他の目的は、フレームデータを二値
化することにより、登録パターンメモリの容量を低減で
き、また、マツチング処理時間の短縮を図ることができ
る音声;、2.爪装置を提供することにある。
!問題点を解決するための手段〕 この発明は、複数チャンネルの周波数スペクトルに変換
され、?M数数十ヤンネル周波数スペクトルの時系列デ
ータが入力される音声認識装置において、 時系列データの各フレームのスペクトルデータ乙こ関し
て所定のチャンネルより低い全てのチャンネルのスペク
トルデータの第1の平均値を算出すると共に、所定のチ
ャンネルより高い全てのチャンネルのスペクトルデータ
の第2の平均値を算出し、第1の平均値と第2の平均値
との平均値を所定チャンネルにおける傾向値として算出
し、傾向値又は適当なオフセットが付加された傾向イ直
を基準レベルとして二値化処理を行うことを特徴とする
音声;忍識装置である。
J作用] スペクトルの傾向を正規化する手段としてスペクトル傾
向正規化器6が設けられると共に、二値化回路8が設け
られ、スペクトル傾向正規化器6において、時系列フレ
ームデータのフレーム毎に、チャンネルlから所定のチ
ャンネルn(1≦n≦N)までのスペクトルデータの平
均値が求められると共に、所定のチャンネルnから最大
チャンネルNまでのスペクトルデータの平均値が求めら
れ、夫々の平均値の更に平均値が求められて所定のチャ
ンネルnに関する傾向値とされ、各チャンネルのスペク
トルデータと対応する傾向値との間において夫々減算処
理がなされることにより[61有の特徴的なスペクトル
データが保存されながら、スペクトル傾向が平坦化され
る。二値化回路8において、スペクトルデータが二(直
データとされ、この二値データが登録パターンメモリ1
0及びパターンマツチング判定器11に供給され、この
二値データに基づいてパターンマツチングが行われる。
〔実施例] 以下、この発明の一実施例を図面を参照して説明する。
第1図は、この発明の一実施例を示すもので、第1[f
flにおいて1が音声入力部としてのマイクロホンを示
している。
マイクロホン1からのアナログ音声信号がフィルタ2に
供給される。フィルタ2は、例えば力。
トオフ周波数7.5K)Izのローパスフィルタであり
、音声信号がフィルタ2において、音声認識に必要とさ
れる7、5KHz以下の帯域に制限され、この音声信号
がアンプ3を介してA/D変換器4に供給される。
ノ\/D変換器4は、例えば、サンプリング周波数12
.5KHzで動作するA/D変換器である。音声信号が
A/D変換器4において、アナログ−ディジタル変換さ
れて、8ビツトのディジタル信号とされ、音響分析器5
に供給される。
音響分析器5は、音声信号を周波数スペクトルに変換し
て、例えばNチャンネルのスペクトルデータ列を発生す
るものである。音響分析器5において、音声信号が演算
処理により周波数スペクトルに変換され、例えば、対数
軸上で一定間隔となるN個の周波数を代表値とするスペ
クトルデータ列が得られる。従って、音声信号がNチャ
ンネルの離散的な周波数スペクトルの大きさによって表
現される。そして、単位時間(フレーム周期)毎にNチ
ャンネルのスペクトルデータ列が一つのフレームデータ
として出力される。即ち、フレーム周期毎に音声信号が
N次元ヘクトルにより表現されるパラメータとして切り
出され、スペクトル傾向正規化器6に供給される。
例えば、音声区間の終端に対応するフレームを1とした
場合、第2図に示すように、各々がチャンネル1〜チヤ
ンネルNのデータにより牟黄成されるフレームデータが
1フレームからIフレームまでスペクトル傾向正規化器
6に供給される。
スペクトル傾向正規化器6は、傾向値計算回路12及び
減算器13により構成されている。このスペクトル傾向
正規化器6において、順次供給されるフレームデータ毎
にスペクトルデータの傾向正規化処理がなされる。
傾向イ直計算回路12において、フレームデータを構成
する各チャンネルのスペクトルデータに関して傾向変動
を補正する傾向値F7が下記の式により算出さnる。
2(N+1−n)  ・n つまり、チャンネルlから所定のチャンネルn(l≦n
≦N)までのスペクトルデータの平均値が求められると
共に、所定のチャンネルnから最大チャンネルNまでの
スペクトルデータの平均値が求められる。史に夫々の平
均値の平均値が求められ、この平均値が傾向値F、、と
される。N個の傾向(直データが減算器X3に供給され
る。
減算?i13において、各チャンネルのスペクトルデー
タと対応する傾向イ直データとが減算される。
この減算処理によりスペクトル傾向が平坦化され、話者
の個人差及び周囲ノイズ等に影響されることがないよう
にスペクトル傾向が正規化される。1フレームからIフ
レームまで全てのフレームに関して同様に傾向正規化処
理がなされ、傾向正規化されたフレームデータが特徴デ
ータ抽出器7に供給される。
特徴データ抽出器7において、隣り合うフレームデータ
の距離が31算される。例えば、各チャンネルに関して
スペクトルデータの差の絶対値が夫々求められ、その総
和がフレーム間距離とされる。
更に、フレーム間距離の総和が求められ、音声信号の始
端フレームから終端フレームまでのN次元ヘクトルの軌
跡長が求められる。そして最も語数が多く長い音声の場
合に特徴を抽出するのに必要な所定の分割数でもって軌
跡長が等分割される。
分割点の夫々に対応したフレームデータのみが特徴デー
タとして抽出され、話者の音声の発生速度変動に影響さ
れることがないように時間軸が正規化される。
特徴データ抽出器7により抽出されたフレームデータが
二値化回路8に供給される。二値化回路8は、入力端子
14を有しており、入力端子14を介して適当に設定さ
れた基【Vレベルデータが供給される。この基準レベル
データとフレームデータを構成する夫のスペクトルデー
タとの比較がなされ、IQレレベデータより大きな値の
スペクトルデータが「1」とされ、基準レベルデータよ
り小さな値のスペクトルデータがrOJとされて二値化
される。この二値データがモード切替回路9に供給され
る。
この二値データが登録時においては、モード切替回路9
を介して登録パターンメモリ10に供給され、Q録特徴
データブロックとして記憶される。゛認識時においては
、入力音声信号が前述した処理により二値データ(入力
特徴データブロック)とされ、この二値データがパター
ンマツチング判定器11に供給される。入力特徴データ
ブロックと全ての登録特徴データブロックとの間におい
て、パターンマツチングが行われる。
即ち、パターンマツチング判定器11において、登録パ
ターンメモリ10から順次供給される登録特徴データブ
ロックを構成するフレームと入力特徴データブロックを
構成するフレームとの間において、フレーム間距離が求
められ、その総和がマツチング距離とされる。そして全
ての登録特徴データブロックに関して求められたマツチ
ング距離のうちで最小でかつ十分に距離か近いものと判
断される登録特徴データブロックに対応する単語が認識
結果とされる。
上述のこの発明の一実施例におけるスペクトル傾向正規
化器6の動作を第3図に示すフローチャートを参照して
説明する。
音響分析器5から順次フレームデータがスペクトル傾向
正規化器6に供給され、各フレーム毎にステップ■〜■
の処理が行われる。
まず、チャンネル番号を示す変数nが1に初期設定され
る(ステップ■)。ステップ■において、チャンネル1
に関する補正関数の計算処理がなされ、(中間変動を補
正する傾向値F1が2  (N+1−1)  ・1 により求められる。
そして、正規化処理がステップ■においてなされ、チャ
ンネル1のスペクトルデータS1から傾同値F1が減算
され、この減算結果がチャンネル1のスペクトルデータ
S1 とされる。
スう−/プ■に王9いて、ナヤン不ル番号を示ス変故【
Iと最大チャンネル数Nとの比較がなされ、nが・イン
クリメントされて(n−2)  (ステップ■)とさね
、チャンネル2に関する計算処理に移行する。
傾向変動を補正する傾向値F2か により求められ(ステップ■)、チャンネル2のスペク
トルデータS2から傾向値F2が減算され、この減算結
果がチャンネル2のスペクトルデータS2とされる。(
ステップ■)。
史にnがインクリメントされながら、上述したスラーノ
ブ■〜■の処理が繰り返し行われ、所定チャンネルに関
しての傾向値F、、か により求められ(ステップ■)、所定チャンネルのスペ
クトルデータS、から傾向値F7が減算され、この減算
結果が所定チャンネルのスペクトルデータS、、とされ
る。チャンネル番号を示す変数nが最大チャンネル数N
とされ、最大チャンネルに関して傾向正規化処理がなさ
れると、一つのフレームに関する計算が終了する。
例えば、第4図Aに示すようなチャンネル1〜チヤンネ
ル16の16(囚のスペクトルデータ夕により構成され
、各チャンネルのスペクトルデータの大きさが(8,1
2,16,17,12,14,18,16,12゜10
、 6.12. 9. 8. 6. 5 )とされるフ
レームデータについて説明する。このフレームデータの
場合には、上述の処理によりチャンネル1〜チヤンネル
16までの傾向値F、、は第4図Bに示すものとなる。
この(中間イ直F。を基準としてスペクトルデータが平
坦化され、傾向正規化されたスペクトルデータは、第4
図Cに示すものとなる。このように全てのフレームに関
して傾向正規化処理がなされ、固有の特徴的なスペクト
ルデータが保存されながらスペクトル傾向が平坦化され
る。
また、第4[JCに示す傾向正規化処理がなされたフレ
ームデータが特徴データ抽出器7を介して二値化回路8
に供給されると、基準レベルにより二値化され、(0,
1,1,1,0,1,1,1,0,0,0,1,0,0
,帆O)の二値データとされる。
第5図は、この発明の他の実施例を示し、二値化回路8
において、スペクトルの傾向正規化処理と二値化処理を
同時に行う構成とされ、上述の一実施例と対応する部分
には、同一の符号が付されている。音響分析器5から順
次フレームデータが傾向値計算回路12に供給される。
傾向値計算値路12において、フレームデータを構成す
る各チャンネルのスペクトルデータに関する傾向変動を
補正する傾向値F、が算出され、傾向値データが加算器
15に供給される。加算器15には、入力端子16から
適当に設定されたオフセットデータが供給される。加算
器15において、傾向イ直データとオフセットデータと
の加算処理がなされ、この加算結果がw準しベルデータ
として二値化回路8に供給される。
二値化回路8において、基準レベルデータとフレームデ
ータを構成する夫のスペクトルデータとの比較がなされ
、基準レベルデータより大きな値のスペクトルデータが
「1」とされ、基準レベルデータより小さな値のスペク
トルデータが[0謬とされて二値化され、この二値デー
タがモード切替回路9に供給される。
この二値データが登録時においては、モード切替回路9
を介して登録パターンメモリ10に供給され、登録デー
タブロックとして記憶される。認識時においては、入力
音声信号が前述した処理を経ることにより二値データと
され、この二値データがパターンマツチング判定器17
に供給され、入力データブロックとされる。
パターンマツチング判定器17において、話者の音声の
発生速度変動によるデータブロックの構成フレーム数の
増減を吸収する例えばDPマツチングにより、登録デー
タブロックと入力データプロ・7りとのマツチング距離
が算出される。そして、全ての登録データブロックに関
して求められた77チング距離のうらで最小でかつ十分
距離が近いものと判断される登録データブロックに対応
する単語が認識結果とされる。
面、この発明の他の実施例においては、傾向値データに
オフセットデータを加算する構成について説明したが、
スペクトルデータからオフセットデータを減算する構成
とし、傾向値データを基準レベルデータとして二値化回
路に供給して二値化処理を行うようにじでも良い。また
、この発明は、ハードワイヤードの構成に限らず、マイ
クロコンピュータ又はマイクロプログラム方式を用いて
ソフトウェアにより処理を行うようにしても良い。
〔発明の効果] この発明では、スペクトルの傾向を正規化することによ
り、同右の特徴的なスペクトルデータが保存さね7なが
ら、スペクトル傾向が平坦化される。
また、この発明では、二値化回路において、スペクトル
データが二値データとされ、この二値データが登録パタ
ーンメモリ及びパターンマツチング判定器に供給され、
この二値データに基づいてパターンマツチングが行われ
る。
従って、この発明に依れば、簡単でかつ高速に任意のス
ペクトル傾向を正も育に正規化することができ、計算処
理時間が短縮されると共に認識率が向上される。
また、この発明に依れば、フレームデータのスペクトル
の傾向が正規化されているためフレームデータを正確に
二値化することができ、例えば1個のスペクトルデータ
が8ビツトで表される場合には、登録パターンメモリの
容けを1/8に低減できると共に、マツチング処理時間
が大幅に短4j6される。
【図面の簡単な説明】
第1図はこの発明の一実施例の構成のプロ、りM、第2
図はこの発明の一実施例における時系列フレームデータ
のデータ構成の説明に用いる路線図、第3図はこの発明
の一実施例におけるスペクトル傾向正規化器の動作説明
に用いるフローチャート、第1図A、第4図B及び第4
図Cはこの発明の一実施例におけるスペクトル傾向正規
化器の動作説明に用いる路線図、第5図はこの発明の他
の実施例の構成のブロック図、第6図は従来の音声認識
装置の説明に用いる路線図である。 図面における主要な符月の説明 l:マイクロホン、  5:音響分析器。 6:スペクトル傾向正規化器。 7:特徴データ抽出器。 8:二値化回路、  9:モード切替回路10:登録パ
ターンメモリ。 11.17:パターンマツチング判定器。 代理人   弁理士 杉 浦 正 知 U平東fづ7L−ム予・−グ 第2図 重カ作肯栄7g月用の70−21・−ト第3図 第4図A 峯 し。 へ1゜ ル: 第4図B ・1  ゛ 第4図C

Claims (1)

  1. 【特許請求の範囲】 入力音声信号が複数チャンネルの周波数スペクトルに変
    換され、上記複数チャンネルの周波数スペクトルの時系
    列データが入力される音声認識装置において、 上記時系列データの各フレームのスペクトルデータに関
    して所定のチャンネルより低い全てのチャンネルの上記
    スペクトルデータの第1の平均値を算出すると共に、上
    記所定のチャンネルより高い全てのチャンネルの上記ス
    ペクトルデータの第2の平均値を算出し、上記第1の平
    均値と上記第2の平均値との平均値を上記所定のチャン
    ネルにおける傾向値として算出し、上記傾向値又は適当
    なオフセットが付加された上記傾向値を基準レベルとし
    て二値化処理を行うことを特徴とする音声認識装置。
JP16619185A 1985-07-27 1985-07-27 音声認識装置 Pending JPS6225799A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP16619185A JPS6225799A (ja) 1985-07-27 1985-07-27 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP16619185A JPS6225799A (ja) 1985-07-27 1985-07-27 音声認識装置

Publications (1)

Publication Number Publication Date
JPS6225799A true JPS6225799A (ja) 1987-02-03

Family

ID=15826774

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16619185A Pending JPS6225799A (ja) 1985-07-27 1985-07-27 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6225799A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8734147B2 (en) 2006-04-06 2014-05-27 Ihi Corporation Seal structure for pressurized container, cooling treatment apparatus, multi-chamber heat treatment apparatus, pressure regulating method, and operating method
JP2019020528A (ja) * 2017-07-13 2019-02-07 株式会社メガチップス 電子メロディ特定装置、プログラム、及び電子メロディ特定方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8734147B2 (en) 2006-04-06 2014-05-27 Ihi Corporation Seal structure for pressurized container, cooling treatment apparatus, multi-chamber heat treatment apparatus, pressure regulating method, and operating method
JP2019020528A (ja) * 2017-07-13 2019-02-07 株式会社メガチップス 電子メロディ特定装置、プログラム、及び電子メロディ特定方法

Similar Documents

Publication Publication Date Title
US4516215A (en) Recognition of speech or speech-like sounds
CN109829515A (zh) 一种音频指纹匹配方法以及音频指纹匹配装置
US4809331A (en) Apparatus and methods for speech analysis
EP0240329A2 (en) Noise compensation in speech recognition
JPS6225799A (ja) 音声認識装置
JPS6225798A (ja) 音声認識装置
JPS6286400A (ja) 音声認識装置
JPS625298A (ja) 音声認識装置
JPS63104099A (ja) 音声認識装置
KR0176751B1 (ko) 음성인식 시스템의 특징추출방법
JPS6210697A (ja) 音声認識装置
JPH056193A (ja) 音声区間検出方式及び音声認識装置
JP3338573B2 (ja) サブバンド分割演算回路
JPS625299A (ja) 音声認識装置
JP3349858B2 (ja) 音声符号化装置
JPS5979300A (ja) 認識装置
JP3023135B2 (ja) 音声認識装置
JPH0454960B2 (ja)
JP2594028B2 (ja) 音声認識装置
JPS6172299A (ja) 音声認識装置
JPS62105199A (ja) 音声認識装置
JPH0461359B2 (ja)
JP2668877B2 (ja) 音源正規化方法
JPS60166993A (ja) 単語音声認識装置
JPS6295598A (ja) 音声認識装置