JPS6131879B2 - - Google Patents

Info

Publication number
JPS6131879B2
JPS6131879B2 JP55048083A JP4808380A JPS6131879B2 JP S6131879 B2 JPS6131879 B2 JP S6131879B2 JP 55048083 A JP55048083 A JP 55048083A JP 4808380 A JP4808380 A JP 4808380A JP S6131879 B2 JPS6131879 B2 JP S6131879B2
Authority
JP
Japan
Prior art keywords
section
audio data
value
point
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55048083A
Other languages
English (en)
Other versions
JPS56144499A (en
Inventor
Isamu Nose
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP4808380A priority Critical patent/JPS56144499A/ja
Publication of JPS56144499A publication Critical patent/JPS56144499A/ja
Publication of JPS6131879B2 publication Critical patent/JPS6131879B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】
本発明は認識率の高い音声認識装置に関するも
のである。 従来の音声認識装置を第1図に示す。 第1図において、1はマイクロホン、2はフイ
ルタ分析部、3はパワー検出部、4はサンプルデ
ータ格納メモリ、5は音声区間切出し部、6は特
徴抽出部、7は音声特徴登録メモリー、8は識別
部の如く構成されている。一般に認識装置は話者
により特定話者と不特定話者に大別される。特定
話者の認識装置では話し手が読み取り対象語を一
度あるいは数度発声して自分の声の特徴をあらか
じめ登録する(以下これを登録モードと称す)。
不特定話者の場合はこの登録の過程がない。 現在製品化されているのは殆んど特定話者であ
り、以下第1図にて説明する。入力音声はマイク
1にて電気信号に変換され、フイルタ分析部2に
て周波数成分に分けられる。フイルタ分析部2は
一般的にはバンドパスフイルタ群、全波整流器
群、ローパスフイルタ群、及びマルチプレクサ、
AD変換器等から構成されており、音声帯域200Hz
〜5KHz程度を約10〜15のフイルタ群で分けて10
〜20mS周期で各フイルタ出力を取り出している
(以下この出力をサンプルデータと称す)。この過
程は一般的方法であり本発明の直接的な要素でな
いので図示していない。なおサンプルデータは正
負極性をもつもの、あるいは一方の極性のもの絶
対値(正負のpeak−to−peak)データ等の表現
があるが以後説明の都合上絶対値表現とする。サ
ンプルデータは逐次パワー検出部3に送出され各
フイルタ出力のサンプルデータの総和あるいは最
大値等が定められた閾値以上になつたら音声区間
の始まりと考え以下サンプルデータ格納メモリ4
に順次格納する。一定時間のデータが格納された
らこのシーケンスを終了して次に音声区間切り出
し部5が動作する。音声区間切り出し部5では改
めて音声区間の始端及び終端の検出を行う。この
方法としては上記サンプルデータの格納方法と同
様に音声パワーを用いて閾値1、2を設定し始端
は閾値1を越えるサンプルデータがある一定時間
持続する先頭を又終端は閾値2以下のサンプルデ
ータがある一定時間持続する先頭あるいはその1
サンプル前の時点を終端としてその間を音声区間
とする方法等が考えられる。 音声区間が決定すると特徴抽出部6では音声区
間を等分割して分割時間内で各フイルタ出力毎の
平均値を求めこれを特徴とする。登録モードでは
この特徴を登録用メモリー7に格納する。各語句
の登録が終了すると次からは新たに発声した語句
の識別が可能となる。識別部8の動作を以下説明
する。 登録特徴をTo(s、f)として識別すべき発
声語句の特徴をR(s、f)とする。但しnはn
番目に登録された語句の特徴、sは音声区間内の
分割に対して順次付された番号でfは各フイルタ
出力に対応して順次付された番号を示す。 To(s、f)とR(s、f)間の距離Doを次
の様に定義する。 oは非類似度を示しており全ての登録語句に
対してDoを求めてその中でDoが最小となるnに
対応する語句が識別結果となる。この識別を行う
過程を以下識別モードと称す。 しかしながら発声動作においては同一人の同一
語句でも発声毎に発声時間は伸縮それも部分的に
伸縮することが多くこのような音声区間を等分割
する線形マツチングでは対処しきれない場合が多
く、又似ている語句の識別は非常に困難であると
いう欠点をもつている。 本発明の目的はこれらの欠点を除去することに
あり、伸縮の大きい母音区間、無音区間等に対し
てデータをまびき、音声区間を等分して平均特徴
を求め、第1段の普通のマツチングと似かよつた
語句に対応できるよう部分マツチングの2段判定
を特徴とし以下詳細に説明する。 第2図は本発明の第1の実施例であつて切り出
し部迄は本発明の直接的目的ではないので省略し
てある。10は再サンプル回路、20は再サンプ
ルデータ格納部、30は特徴計算部、40は特徴
格納部、50は登録特徴格納部、60は第1マツ
チング部、70は第2マツチング部である。 これを動作するには、切り出された音声区間デ
ータ(図示していない)を再サンプル回路10で
は始端より順次参照して定常性検出(母音部に対
応)、1サンプル内の各フイルタ出力値の最大値
検出(無音部の検出)、発声パワーの正規化を行
う。 第3図に再サンプル回路10の詳細ブロツク図
を示す。100は1サンプルデータ格納部、10
1はMAX値検出部、102は最大値レジスタ、
103は比較器、104は加算回路、105は加
算レジスタ、106は正規化部、107は正規化
データ格納部、108は差分極性計算部、109
は現極性レジスタ、110は前極性レジスタ、1
11は一致検出部、20は再サンプルデータ格納
部、112は一致計算部である。 1サンプルデータ格納部100では切り出され
た音声区間内のデータを始端より順次1サンプル
分のデータを格納する。1サンプルデータが格納
されると最大値検出部101及び加算回路104
ではこれらのデータを順次調べて各々最大値及び
加算値を最大値レジスタ102及び加算レジスタ
105に格納する。比較器103では最大値レジ
スタ102の出力値とあらかじめ定められた定数
値とを比較して比較結果を正規化部106に出力
する。正規化部106では最大値の方が定数値よ
り大きい場合は1サンプルデータ格納部100の
データと加算レジスタ105の値を用いて比率
(%)を計算する。又最大値が定数値より小さい
場合は比率計算は行わず“0”を出力する。出力
値は正規化データ格納部107に格納される。即
ち1サンプルデータ格納部100に格納された各
フイルタの出力値をFo(M)とする。nはフイルタ
に付された番号でkは音声区間データのサンプル
番号である。加算値は
【式】 MAX値は MAX(M)=MAX{F1(M)F2(M)……Fl(M)} である。但しフイルタ個数をl個とする。 (1) MAX(M)定数値の場合、正規化部106の
出力NORMo(M)は NORMo(M)=F(M)/ADD(M)×100(%) (2) MAX(M)<定数値の場合は NORMo(M)=0 次に再サンプル動作について説明する。これは
サンプルデータの時系列において定常性を検出し
て(一般に音声データにおいて母音部では定常性
を示し子音部および過渡部では非定常性を示すこ
とはよく知られている)、定常部のサンプルを粗
くする動作である。 差分極性計算部108では正規化データ格納部
107のデータを参照して隣接フイルタ間の出力
値の差分計算を行い差分極性を3値でもとめる。
但し、前記MAX(M)定数値の場合、即ち全ての
NORMo(M)においてNORMo(M)=0が成立しない場
合において次の様に動作する。 差分値Do(M)=NORMo(M)−NORMo+1(k) 但しn=1、2、……、l−1である。 (1) |Do(M)|Δdの場合(但しΔdはあらか
じめ定められた定数) Do(M)0なら差分極性So(M)=S+ 又Do(M)<0ならSo(M)=S- (2) |Do(M)|<Δdの場合 So(M)=S0とする。
ここでS+、S0、S-は2ビツト表現で例えば S+=(0、1)、S0=(0、0)、S-=(1、
0)の様に表現する。 この様にして1サンプルデータの差分の符号系
列S1(M)、S2(M)、……、Sl-1(M)を求める。但し前
記MAX(M)<定数値の場合、即ち全てのNORM(M)
=0の場合は差分極性の計算は行わず、差分極性
計算で出現することのない符号系列を出力する。
例えばS×、S×、S×……の様なものである。但し
S×=(1、1)である。 差分極性の計算結果は現極性レジスタ109に
セツトされると同時に、それ迄現極性レジスタ1
09の内容が前極性レジスタ110にセツトされ
る。前極性レジスタの初期状態(1音声の処理に
入る前の状態)は先程の例で述べたS×、S×
S×、……、の様に差分極性計算で出現しない符
号系列がセツトされているものとする。一致検出
部111では現極性レジスタ109の内容と前極
性レジスタ110の内容が一致するか否かを検出
する。すなわち、一致検出部111は時間軸で隣
接する傾斜識別符号系列(傾斜識別符号群)が互
いに完全に一致するか否かを検出する。一致しな
い場合は非定常点と見なし正規化データ格納部1
07の1サンプル正規化データを再サンプルデー
タ格納部20に格納する。一致する場合は一致計
数部112で連続して一致する回数を計数しある
計数値(あらかじめ定められた回数)に達した場
合のみ正規化データ格納部107の内容を再サン
プルデータ格納部20に格納すると共に計数値を
“0”とする。この様にして正規化された再サン
プル動作を音声区間データについて全て実行す
る。 再サンプル及び正規化動作が音声区間サンプル
データに対し終了すると次に特徴計算部30にて
再サンプルデータの音声区間を等分割して各分割
内のチヤネルフイルタ出力値(正規化データ)に
対して平均値を求めこれを特徴とする。 再サンプルデータの音声区間長をI、等分割数
をJとすると、I/J=iにより1分割内のデー
タ個数(i)が求まる。この場合余り(rとする)が
生じたら、最初の分割より1データづつ各分割に
対し余りがなくなる迄加えて補正する。例えばr
=3とすると最初の3つの分割内データ個数はi
+1であり、それ以降はiである。 平均値を求める式は平均値をMj(n)、正規化
値は前記NORMo(M)とする。jは分割毎に付され
た番号、nはチヤネルフイルタに対応して付され
た番号、kは再サンプルデータに付された番号と
する。 但しj=1、2、……J、Δi=k2−k1+1で
分割jにおいてr=0であればΔi=i、r≠0
であればΔi=i+1である。 以上の過程を第4図にフローチヤートで、第5
図にブロツク図で示す。第5図において、120
は分割単位計算部、121は再サンプルデータ参
照アドレス制御部、122は加算部、123は加
算結果格納レジスタ、124は平均値計算部、2
0は再サンプルデータ格納部、40は特徴格納部
である。格納された特徴は登録モードでは登録特
徴格納部50に送出され保存される。保存された
特徴を以下登録特徴と称す。又、識別モードでは
この特徴(以下、入力特徴と称す。)は登録特徴
と順次比較され非類似度の小さい登録特徴に対応
する語句が識別結果となる。以下識別モードの動
作を説明する。入力特徴をA(u、v)、登録特
徴をB〓(u、v)とする。uはフイルタに対応
して付した番号であり、vは分割に対応して付し
た番号であり、ωは登録語に対応して付した番号
を示す。 非類似度をM(ω)とする。M(ω)は次の様
に計算する。 ω=1、2、……、ω′として全ての登録語に
関して非類似度を計算する。あらかじめ決められ
た閾値をTH1とする。M(ω)<TH1なる条件を
満たすωが1個のみの場合はその番号を出力す
る。0個の場合は該当語句が無いものとして認識
不能(リジエクト)とする。2個以上の場合は次
の第2マツチング部で調べる。 以上の第1マツチング部60の詳細ブロツク図
を第6図に示す。40は特徴格納部、50は登録
特徴格納部、130は分割内マツチング計算部、
131及び133は加算部、132及び134は
加算結果格納レジスタ、135は比較部、136
は第1マツチング結果格納レジスタであり、最初
の加算部で上式M(ω)の〔 〕の中を計算して
次の加算部で〔 〕の外の加算を実行して1登録
語の非類似度が計算される毎に比較部135で閾
値(TH1)と比較しM(ω)<TH1の場合は対応
番号ωをレジスタ136に格納する。第2マツチ
ング部70では第1マツチング結果格納レジスタ
136に格納された候補数がr個(あらかじめ決
められた定数)以上の場合は、認識不能(リジエ
クト)とする。2個以上がr個より小さい場合
は、その候補語に対応する登録特徴相互間の非類
似度を調べ非類似度の大きい分割部の特徴から順
次P個(あらかじめ決められた定数)の部分的マ
ツチング場所を選び入力特徴に対しそのマツチン
グ場所に対して登録特徴との非類似度を計算す
る。即ち候補番号を例えばα、β、γとするとま
ずα、βとの登録特徴間の各分割間の非類似度m
(v)を次式で計算する。 v=1、2、……、v′とするとm(1)、m(2)、…
…m(v′)を計算してその中で一番大きいm
(v)より順次P個のvを決めその各vに対して
のみ入力特徴とα、βの登録特徴間で部分非類似
度を再び計算する。v=v1、v2、……vpとする
同様にM′(β)〓を計算して、部分非類似度の
小さい方を候補として残す。 次にβ、γに対しても同様にm(v)及び
M′(β)〓、M′(γ)〓を計算し候補を選ぶ。さ
らにα、γに対しても候補を選び全ての場合に候
補として残つた候補番号があれがその番号が認識
結果となり、それ以外はリジエクトとなる。 第7図に第2マツチング部70の詳細ブロツク
図を示す。40は特徴格納部、50は登録特徴格
納部、140,143,145,146,15
0,152,153はレジスタ、141,148
は絶対値演算部、142,144,149,15
1は加算部、147,154は比較部、155は
候補格納部、156は結果選出部である。 本発明は、再サンプル回路、正規化回路、部分
マツチング回路を有しているので十分高い認識を
行うことができ、音声認識装置に利用できる。 以上説明したように、本発明によると、定常部
を再サンプルすることにより、母音部のデータと
子音部のデータが認識に同程度関与するようにな
るので(一般に母音部の持続時間の方が子音部の
持続時間に比べて十分長いため)、バランスの取
れた特徴が抽出できる。又、母音部は時間的伸縮
が大きいがその影響を再サンプルにより押えるこ
とができ、正規化しているので発声パワーの大き
さの違いも対処できる。そして似か良つた語句は
部分的に登録特徴の差の大きい所(似かよつてい
ない部分)にのみ着目して判別することにより認
識できる利点がある。
【図面の簡単な説明】
第1図は従来の音声認識装置のブロツク図、第
2図は本発明の一実施例のブロツク図、第3図は
再サンプル回路の詳細ブロツク図、第4図は特徴
計算部の詳細フローチヤート、第5図はそのブロ
ツク図、第6図は第1マツチング部のブロツク
図、及び第7図は第2マツチング部のブロツク図
である。 1……マイクロフオン、2……フイルタ分析
部、3……パワー検出部、4……サンプルデータ
格納メモリ、5……音声区間切出し部、6……特
徴抽出部、7……音声特徴登録メモリ、8……認
識部、10……再サンプル回路、20……再サン
プルデータ格納部、30……特徴計算部、40…
…特徴格納部、50……登録特徴格納部、60…
…第1マツチング部、70……第2マツチング
部、100……1サンプルデータ格納部、101
……MAX値検出部、102……MAX値レジス
タ、103……比較器、104……加算回路、1
05……加算レジスタ、106……正規化部、1
07……正規化データ格納部、108……差分極
性計算部、109……現極性レジスタ、110…
…前極性レジスタ、111……一致検出部、11
2……一致計数部、120……分割単位計算部、
121……再サンプルデータ参照アドレス制御
部、122……加算部、123……加算結果格納
レジスタ、124……平均値計算部、130……
分割内マツチング計算部、131,133……加
算部、132,134……加算結果格納レジス
タ、135……比較部、136……第1マツチン
グ結果格納レジスタ、140,143,145,
146,150,152,153……レジスタ、
141,148……絶対値演算部、142,14
4,149,151……加算部、147,154
……比較部、155……候補格納部、156……
結果選出部。

Claims (1)

    【特許請求の範囲】
  1. 1 入力された音声信号を複数の周波数成分に分
    割し、且つ一定時間間隔でサンプリングしたもの
    を第1次音声データとして出力するサンプリン
    グ・フイルタ手段と、各サンプリング時点におけ
    る第1次音声データの最大値と予め定められる一
    定値とを比較して有音時点と無音時点とを識別す
    る無音検出手段と、有音時点における第1次音声
    データを音声パワで正規化する正規化手段と、正
    規化手段の出力に基づいて周波数軸で隣接する第
    1次音声データ間の差分値を識別し且つその識別
    値に応じた傾斜識別符号群を作成する傾斜符号作
    成手段と、時間軸で隣接する傾斜識別符号群が互
    いに完全に一致するかどうかを判定して定常時点
    と非定常時点とを識別する定常検出手段と、特定
    個数継続する無音時点の第1次音声データを一つ
    のサンプリング時点のもので代表させ且つ非定常
    時点の第1次音声データは各サンプリング時点の
    ものに対応させ且つ特定個数継続する定常時点の
    第1次音声データの一つをサンプリング時点のも
    ので代表させて第2次音声データを出力する再サ
    ンプリング手段とを備え、音声区間を特定個数で
    等分割し、各周波数成分毎に且つ各分割区間毎に
    第2次音声データの平均値を取り、この平均値群
    を音声識別の特徴とすることを特徴とする音声認
    識装置。
JP4808380A 1980-04-14 1980-04-14 Voice recognizing unit Granted JPS56144499A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4808380A JPS56144499A (en) 1980-04-14 1980-04-14 Voice recognizing unit

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4808380A JPS56144499A (en) 1980-04-14 1980-04-14 Voice recognizing unit

Publications (2)

Publication Number Publication Date
JPS56144499A JPS56144499A (en) 1981-11-10
JPS6131879B2 true JPS6131879B2 (ja) 1986-07-23

Family

ID=12793427

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4808380A Granted JPS56144499A (en) 1980-04-14 1980-04-14 Voice recognizing unit

Country Status (1)

Country Link
JP (1) JPS56144499A (ja)

Also Published As

Publication number Publication date
JPS56144499A (en) 1981-11-10

Similar Documents

Publication Publication Date Title
JPS6131880B2 (ja)
JP3091537B2 (ja) 音声パターン作成方法
JPS6131879B2 (ja)
WO2014155652A1 (ja) 話者検索システム、プログラム
JP2813209B2 (ja) 大語彙音声認識装置
JPH0643893A (ja) 音声認識方法
JP4336282B2 (ja) 音声認識性能推定方法、認識障害単語抽出方法、音声認識性能推定装置、認識障害単語抽出装置、音声認識性能推定プログラム、認識障害単語抽出プログラムおよび記録媒体
JP2760096B2 (ja) 音声認識方式
JPS6336678B2 (ja)
JPS62133499A (ja) 音声認識装置
JPS59189398A (ja) 連続音声認識方式
JPH0115079B2 (ja)
JPS5977500A (ja) 単語音声認識方式
JPH026079B2 (ja)
JPS5936759B2 (ja) 音声認識方法
JPS63223694A (ja) 単音節登録・認識方式
JPS6131878B2 (ja)
JPS6069694A (ja) 語頭子音のセグメンテ−ション法
JPS6155680B2 (ja)
JPH0554678B2 (ja)
JPS60147797A (ja) 音声認識装置
JPH0449719B2 (ja)
JPS63257797A (ja) 音声始端検出装置
JPS6310440B2 (ja)
JPS5975298A (ja) 音声認識方法