JPS6332395B2 - - Google Patents

Info

Publication number
JPS6332395B2
JPS6332395B2 JP57031697A JP3169782A JPS6332395B2 JP S6332395 B2 JPS6332395 B2 JP S6332395B2 JP 57031697 A JP57031697 A JP 57031697A JP 3169782 A JP3169782 A JP 3169782A JP S6332395 B2 JPS6332395 B2 JP S6332395B2
Authority
JP
Japan
Prior art keywords
standard pattern
pattern
sample
similarity
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57031697A
Other languages
English (en)
Other versions
JPS58149097A (ja
Inventor
Yutaka Iizuka
Isamu Nose
Kaneyoshi Mizuno
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP57031697A priority Critical patent/JPS58149097A/ja
Publication of JPS58149097A publication Critical patent/JPS58149097A/ja
Publication of JPS6332395B2 publication Critical patent/JPS6332395B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】
この発明は、不特定話者を対象とした音声認識
における音声の標準パターンの作成方法に関す
る。 このような標準パターンの画一的作成方法は知
られていないので、現状では、できるだけ多数の
人々から認識対象としての音声標本を収集し、そ
れらに基づいて作成せざるを得ない。代表的に、
10数個のカテゴリの音声を認識対象とし、カテゴ
リ当り数100個の音声標本を収集し、カテゴリ当
り平均10個前後の標準パターンを設定する場合を
想定しても、その組み合わせは膨大に過ぎ、何等
かの方向づけが必要である。最も単純には、熟練
者が音声標本のスペクトルを観察して標準的と判
断したものを標準パターンに採用し、その標準パ
ターンに最も類似しないものを標準パターンとし
て逐次追加することによつて、標準パターンを作
成することができる。 しかしながら、この方法では、ある標準パター
ンを追加することによつてそのカテゴリの認識率
を高くすることができるが、他のカテゴリの認識
率は繁々低くなり、また、追加する標準パターン
は初期に設定した標準パターンによつて決定さ
れ、しかも最適な標準パターンを最初に設定する
一般的方法も知られていない等の理由によつて、
高い認識率を期待することはできない。 この発明は、認識率を低下させている標準パタ
ーンを消去する消去過程、一定の形式で標準パタ
ーン毎に選択した標本パターンを平均してその平
均パターンで各標準パターンを置き換える修正過
程及び認識率の低いカテゴリの標準パターンを追
加する追加過程の、3過程を組み合わせて繰り返
し更新させ、全体としての認識率の高い標準パタ
ーンセツトを選択するようにしたものであり、前
記修正過程において、もとの標準パターンにもあ
る程度近く且つ他のカテゴリの特定の標準パター
ンともある程度近いものとすることによつて、初
期の標準パターンセツトを考慮しないで済むよう
にしたものであり、以下詳細に説明する。 第1図はこの発明に係る音声標準パターン作成
装置の機能を示すブロツク図であり、第2図のフ
ローチヤートに示すように、標本パターンの作成
記憶、初期標準パターン設定、認識率及び更新情
報検出、現在の標準パターンセツトによる認識率
がそれ以前の認識率よりも高いことを条件とした
標準パターンセツトのセーブ、削除・修正・追加
による標準パターンの更新、のシーケンスで制御
され、これらの過程を50回繰り返すことによつて
最も認識率の高い標準パターンセツトを作成する
ものである。 第1図において、標本パターン作成部1は、音
声標本入力端子2から「イチ」、「ニ」、「サン」の
如き音声の標本が与えられる毎に、その標本パタ
ーンを作成するものであり、バンドパスフイルタ
による周波数分析、最小二乗近似値線による発声
強度・音源特性の正規化、音声区間の検出、発声
時間の正規化の順序により、各要素が周波数軸と
時間軸からなる標本パターンを作成している。 標本パターンメモリ3は、そのアドレスを音声
標本の識別の標本パターン番号iとして、全ての
標本パターンPSiを記憶し、又各標本パターンに
対応してカテゴリ入力端子4から与えられるカテ
ゴリをカテゴリ番号CT(PSi)として記憶するも
のであり、各カテゴリ当り数100個のものを10個
程度のカテゴリに亘つて記憶する。 標準パターンメモリ5は、そのアドレスを標準
パターン識別の標準パターン番号jとして、標準
パターンPRjとそのカテゴリ番号CT(PRj)を記
憶するものであり、最大100個程度(カテゴリ当
り平均10個程度)のものをセツトとして記憶する
ものであり、また、任意の標準パターン番号jの
アドレスに標準パターンPRjが設定されているの
か若しくは空いているのかをフラグ“1”“0”
で区別する有効テーブルを備えていて、有効な標
準パターンPRjのみが読み出されるようにしてい
る。標準パターンメモリ5への標準パターンPRj
及びそのカテゴリCT(PRj)の初期設定は、標本
パターンメモリ3から各カテゴリ毎に5個程度の
一定数の任意の標本パターンPSiを読み出し、こ
れらを標準パターンPRjとしてそのカテゴリCT
(PRj)と共に設定し、又その標準パターン番号
jに対応して有効テーブルにフラグ“1”を設定
し、標準パターンPRjが設定された標識とする。 なお、この標準パターンメモリ5は、標準パタ
ーンセツトの更改のために用いるものであり、最
終的な標準パターンセツトは標準パターンセーブ
メモリ6に記憶されることになる。 類似度検出部7は、任意の標本パターンPSi
対して現在の標準パターンセツトを対応させて通
常の音声認識と類似の機能を果すものであり、標
準パターンメモリ3から読み出した標本パターン
PSiを順次1個ずつ、その標本パターン番号i、
カテゴリ番号CT(PSi)と共に設定し、任意の標
準パターンPSiを設定する毎に、標準パターンセ
ツトの全ての標準パターンPRjを順次1個ずつ、
その標準パターン番号j及びそのカテゴリ番号
CT(PRj)と共に設定し、次の情報a〜eを検出
する。 なお、類似度検出部7の詳細は後述する。
【表】
【表】 認識率検出部8は、これまでの更新過程で検出
された最大の認識率を記憶しており、標準パター
ンメモリ5に現在格納されている標準パターンセ
ツトによつて、標本パターンメモリ3に格納され
ている全ての標本パターンPSiを認識した場合の
認識率を検出し、その認識率がこれまでに更新過
程で検出された最大の認識率よりも高い場合に、
その認識率を記憶し、且つ標準パターンメモリ5
に記憶されている標準パターンセツトを標準パタ
ーンセーブメモリへ転送し記憶させる。 又、現在の標準パターンセツトによる認識率を
検出するために、認識率検出部8は、カテゴリ入
力端子4からカテゴリ番号CT(PSi)が与えられ
る毎にカウントアツプして標本パターンPSiの総
数を検出する総数カウントと、各更新過程の初期
にクリアされ、且つ類似度検出部6による検出結
果がCT(PSi)=CT(PRjni)なる条件を満足する
毎に、すなわち、最大類似度Djniが同一カテゴリ
で生起する毎にカウントアツプされ、全ての標本
パターンPSiのうちで正しく認識された個数を検
出する正認識数カウンタとを備えており、全ての
標本パターンPSiに関する類似度検出が終了した
後、両カウンタの値の比を計算することによつて
全体としての認識率が検出される。 標準パターン認識率検出部9は、メモリ3に格
納されている全ての標本パターンPSiと、メモリ
5に現在格納されている標準パターンセツトPRj
との、類似度を測定した結果に基づき、各々の標
準パターンPRj毎の認識率を検出する。 すなわち、全ての標本パターンPSiを現在の標
準パターンセツトPRjで認識した場合の、標準パ
ターンPRi毎の認識率を検出するものであり、標
準パターン番号j毎に第1位数カウンタと正認識
数カウンタとを備えていて、両カウンタ群は各更
新過程の初期にクリアされ、最大類似度Djniが検
出される毎にその標準パターン番号jmiを識別し
て対応した番号の第1位カウンタをカウントアツ
プし、CT(PSi)=CT(PRjni)なる条件を満足し
て正しく認識される毎にその標準パターン番号
jmiを識別して対応した番号の正認識数カウンタ
をカウントアツプし、全ての標本パターンPSi
関する類似度検出の終了後、夫々対応したカウン
タ対の値の比を計算することにより、各標準パタ
ーンPRjに最も類似する標本パターンの個数と正
しく認識された標本パターンの個数との比を標準
パターン番号j別に検出するものである。 なお、標準パターンとしては、最も類似する標
本パターンの個数として期待した値(100個の標
準パターンなら1%の個数)に比べて極端に小さ
い場合(0.1%程度)があり、このような標準パ
ターンも有効ではないので、期待された値の半分
程度の個数を100%に対応させ、この個数に関す
る率を前述の標本パターン認識率に含めるように
する方が実際的である。 消去選択部10は、標準パターンセツト更改の
一部制御を分担するものであり、標本パターン認
識率の低いものから順に一定個数の標本パターン
番号jを選択し、それに対応して、標準パターン
メモリ5における有効テーブルのフラグを“0”
にセツトすることによつて前記標本パターン番号
jに対応した標準パターンPRjを消去する。 なお、標準パターン番号jの選択は、標準パタ
ーン認識率がある閾値以下となるものを選択する
ようにすることもできるが、標準パターンの個数
に関する前述の率の概念を採用した場合は、率の
低いものから順に一定個数選択する。 複合類似度計算部11は、標準パターン修正の
一部機能を分担するものであり、第3図のフロー
チヤートに示すように、ある標本パターンPSi
標準パターンセツトとの類似度検出が終了する毎
に、CT(PSi)=CT(PRjni)を満足することを条
件にして、すなわち、最大類似度Djniが同じカテ
ゴリで生起して正しく認識されたことを前提とし
て、その標本パターンPSiに関する次の複合類似
度Aiを計算する。 複合類似度Ai=C1Djfi−C2Djsi+C3Djdi 但し、C1,C2,C3は予め定めた係数であり、
後述の如く、類似度として距離を採用し、C1
2、C2=1、C3=1としている。又、複合類似
度計算部11には、標準パターン番号毎にエリア
を確保した修正テーブルが用意してあり、次の如
く、複合類似度Ai及びその標本パターン番号iを
標準パターンPRjniに対応した標準パターン番号
のエリアに記憶し、格納個数を1個増加させる。
【表】 5 5 5 5 5 5 5 5 5

Claims (1)

  1. 【特許請求の範囲】 1 全ての標本パターンPSiとある時点での標準
    パターンセツトPRjとの類似度を測定して、標準
    パターン毎の認識率を検出し、当該認識率の低い
    標準パターンを消去する消去過程と、 全ての標本パターンPSiとある時点の標準パタ
    ーンセツトPRjとの類似度を測定して最大の類似
    度が同じカテゴリで生起する標本パターンを対象
    として、標本パターン毎に最大となる当該類似度
    及び異なるカテゴリで最大となる類似度との荷重
    和を要素とする複合類似度を検出し、最大の類似
    度が同じカテゴリで生起した当該標本パターン
    PSiの番号とそれに対応した当複合類似度とを、
    標準パターンPRj番号毎に記憶し、標準パターン
    PRj番号毎に複合類似度に応じて標本パターン
    PSiを選択し、選択した当該標本パターンPSiを
    平均した平均パターンでそれに対応した標準パタ
    ーンPRjを置き換える修正過程と、 全ての標本パターンPSiとある時点の標準パタ
    ーンセツトPRjとの類似度を測定して、カテゴリ
    毎の認識率を検出し、当該認識率の低いカテゴリ
    に、予め定められた形式に従つて作成されたパタ
    ーンを標準パターンとして追加する追加過程とを
    備え、 前記消去過程及び前記修正過程並びに前記追加
    過程とを組み合わせた更新過程を繰り返すことに
    よつて標準パターンセツトを更新し、全体の認識
    率の高い標準パターンセツトを選択することを特
    徴とした音声標準パターンの作成方法。
JP57031697A 1982-03-02 1982-03-02 音声標準パタ−ンの作成方法 Granted JPS58149097A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57031697A JPS58149097A (ja) 1982-03-02 1982-03-02 音声標準パタ−ンの作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57031697A JPS58149097A (ja) 1982-03-02 1982-03-02 音声標準パタ−ンの作成方法

Publications (2)

Publication Number Publication Date
JPS58149097A JPS58149097A (ja) 1983-09-05
JPS6332395B2 true JPS6332395B2 (ja) 1988-06-29

Family

ID=12338260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57031697A Granted JPS58149097A (ja) 1982-03-02 1982-03-02 音声標準パタ−ンの作成方法

Country Status (1)

Country Link
JP (1) JPS58149097A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034293A (ja) * 1999-06-30 2001-02-09 Internatl Business Mach Corp <Ibm> 音声を転写するための方法及び装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034293A (ja) * 1999-06-30 2001-02-09 Internatl Business Mach Corp <Ibm> 音声を転写するための方法及び装置

Also Published As

Publication number Publication date
JPS58149097A (ja) 1983-09-05

Similar Documents

Publication Publication Date Title
CN110175549A (zh) 人脸图像处理方法、装置、设备及存储介质
CN106683687B (zh) 异常声音的分类方法和装置
EP0210609A2 (en) Broadcast program identification method and apparatus
EP0757342A3 (en) User selectable multiple threshold criteria for voice recognition
US10665248B2 (en) Device and method for classifying an acoustic environment
JP7389421B2 (ja) 精神・神経系疾患を推定する装置
CN108021635A (zh) 一种音频相似度的确定方法、装置和存储介质
JPS6332395B2 (ja)
CN109587357A (zh) 一种骚扰电话的识别方法
CN110956800A (zh) 一种路段交通数据预处理方法、装置及电子设备
CN114743598A (zh) 一种基于信息论检测新冠病毒谱系间重组的方法
CN113643709A (zh) 一种基于mean-SAP池化模型的说话人识别方法及系统
CN106852171B (zh) 基于声音信息的用户多个行为识别方法
CN109714207B (zh) 一种复杂网络关键节点识别方法及系统
CN104282315A (zh) 音频信号分类处理方法、装置及设备
CN113837091A (zh) 识别方法、装置、电子设备及计算机可读存储介质
CN116156416A (zh) 基于信令数据的职住地提取方法及装置
CN111581508A (zh) 业务监控方法、装置、设备及存储介质
CN111009263A (zh) 一种用于肺部啰音识别的系统及方法
CN111177465A (zh) 一种确定类别的方法及装置
CN111105814A (zh) 歌曲难度系数的确定方法及计算机可读存储介质
KR20200113397A (ko) 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법
JPH04276523A (ja) 音識別装置
WO2008066341A1 (en) Method and apparatus for preventing from abusing search logs
KR102443221B1 (ko) 수면 음성 분석 장치 및 방법