JPS6177900A - 音声区間検出装置 - Google Patents

音声区間検出装置

Info

Publication number
JPS6177900A
JPS6177900A JP59200209A JP20020984A JPS6177900A JP S6177900 A JPS6177900 A JP S6177900A JP 59200209 A JP59200209 A JP 59200209A JP 20020984 A JP20020984 A JP 20020984A JP S6177900 A JPS6177900 A JP S6177900A
Authority
JP
Japan
Prior art keywords
voice
section
pattern
threshold value
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59200209A
Other languages
English (en)
Other versions
JPH0570837B2 (ja
Inventor
藤井 浩美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP59200209A priority Critical patent/JPS6177900A/ja
Publication of JPS6177900A publication Critical patent/JPS6177900A/ja
Publication of JPH0570837B2 publication Critical patent/JPH0570837B2/ja
Granted legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E60/00Enabling technologies; Technologies with a potential or indirect contribution to GHG emissions mitigation
    • Y02E60/10Energy storage using batteries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P10/00Technologies related to metal processing
    • Y02P10/20Recycling

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、音声認識技術などで用いられる入力音声の存
在範囲全検出する音声区間検出装置に関するものである
(従来技術) 従来の音声区間検出装置としては、種々の方式疋よるも
のが試みられている。それらのうち代表的な方法として
、パワーや零交差数などの特徴パラメータの閾値をあら
かじめ設定し、入力信号のパワーや零交差数、あるいは
、単位時間内のパワーから求められるエネルギー唸どが
ある閾値を超えるかどうかで音声区間の検出を行うもの
がある。
以下に図面を用いて従来の音声区間検出装置の原理を説
明する。
第1図は従来の音声検出装置の原理を示すプ日ツク図で
ある。
マイク1から入力された音声は音声パラメータ抽出部2
においてパワーを含む特徴パラメータの時系列に変換さ
れる。
次に、あらかじめd閾値記憶部3に設定された閾値に従
い、音声区間検出部4において検出が行われる。この方
法は固定、あるいは、ノイズレベルに適応し几閾値と入
力音声の特徴パラメータを時間ごとに比較することによ
う実行される。音声検出部4における処理はたとえば特
願昭58−156098号明細書「可変閾値型音声検出
器」に記載されている方式が知られている。
この方式は、入力信号中の雑音信号の平均電力を求め、
その値からパワー、パワーの累積などの閾値を設定し、
入力信号との比較により求めた、それぞれの閾値に対す
る結果から始端、終端を決定するものである。
音声区間検出後、入力音声が登録パタンの場合はS工t
−Aに切り換えt後、登録パタンバッファメモリ5に、
認識パタンの場合はスイッチSIをBに切り換え几後、
認識パタンバッファメモリ6にそれぞれのパタンか記憶
される。
(従来技術の問題点) しかし、以上説明してきたような音声区間検出装置では
、音声区間検出のための閾値が、発声の個人差に適応し
ないため、発声者によっては、語頭1語尾の誤検出が起
こる場合がちる。このことは認識時に認識エラーが発生
することを意味する。
特に登録時にこのような誤検出が起こると、どのようく
すぐれfc認識方式に用いたとしても認識エラーが大幅
に増加してしまうという問題が発生することになる。
(発明の目的) 本発明の目的は、登録パタンの音声区間検出が正確であ
シ、しかも1発声者ごとに、反適な閾値を学習する機能
を備えた音声区間検出装置を提供することにある。
(発明の構成) 本発明による音声区間検出装置は次のような缶部を必要
とする。すなわち、入力された?−f市からパワーを含
むパラメータ時系列全抽出する音声パラメータ抽出部と
、前記音声パラメータ抽出部で得られた音声パラメータ
を記憶する、パタンバックアメモリと、人力された登録
パタンごとにあらかじめ定められたルールを記憶するル
ール記憶部と、前記パターンバッファメモリ内の登録パ
タンとルール記憶部のルールにより、最適の閾値を学習
する最適閾値学習部と、そこで得られ几最適閾値を用い
て、前記パタンバックアメモリ内の登録パタンおよび音
声パラメータ抽出部で得られた認識パタンの音声区間の
検出を行う音声区間検出部と、前記音声区間検出部によ
り音声検出された登録パタンを記憶する登録パタンバッ
ファメモリと、同じく前記音声区間検出部により音声検
出された認識パタンを記憶する認識パタンバッファメモ
リの各部である。
(本発明の作用・原理) 本発明の原理は、以下の:3つのステップに分けて考え
る事ができる。まず第1ステツプでは、複数個の登録パ
タンに対して求められた複数個の閾値から最適な閾値を
学習する。
十なわち登録ノζタンごとに音声区間検出が正確【求め
られる集注をルールとして与え、そのルールを満足する
閾値を各登録パタンに対してそれぞれ求める。このよう
に求められ7Jq数個の閾値は登録・Zタンに対して求
められたものであり、これらの中から最適のr15値を
得ることにより、発声者の音声に適し比閾位を得ること
ができる。第2のステップは、第1ステツプで得られ次
最適間値を周込て、登録パタンの音声・滲出を行う。こ
こでは最適閾値が登録パタンから得られたものである几
め音声検出の確実性が期待できる。第3のステップ社登
録パタンの音声検出後、認識パタンに対して第2ステツ
プと同様に音声検出を行う。
(実施例) 以下に本発明の実施例について図面を参照しながら詳細
に説明する。
第3図は本発明のf声区間検出装置の一実施例を示すブ
ロック図であり、マイク1、竹串パラメータ抽出部2.
パタンバッファメモリ7、ルール記憶部8、最適閾値学
習部9、音声区間検出部4、登録パタンバッファメモリ
5%認識パタンバッフ7メモリ6とからなる。
ここでは入力音声を数字に限り、登録パタンとして「ゼ
ロI「イチJrニイ」・・・・・「キエー」を1回ずつ
計10パタン、シ識パタンとして「ニイサンJの1パタ
ンを用いた場合を例にとって説明する。
第1ステツプで吋、まずスイッチS2’iAに切り換え
た後マイクlから入力されたデータ「ゼロ」〜「キュー
」が音声パラメータ抽出部2においてパワーを含む特徴
パラメータの時系列に変換される。
そこで求められtパラメータはパタンバッファメモリ7
に収納される。ルール記憶部8には「ゼロ」〜「キュー
」それぞれのデータごとに音声区間が確実に検出できる
ような条件が定めである。
たとえば「【1り」に対しては E’ROKUくh”in・・・・・・・・・・・・・・
・・・(1)NP= 2 ・・・・・・・・・・・・・
・・・・・・−・・(2)が考えられる。EROKCr
けパタン「ロク」に対してあらかじめ定めたエネルギー
閾値であり、Ei aは人力音声に対して仮に検出され
た音声区間に対するパワーの積分である。ま次、NPは
極大値をとるXの数、P l)は時刻tにおけるパワー
、Tは入力音声の時間長であるう すなわち、ここでの条件とけ「パワーの積分がE RO
KITより大きく、かつ極大値を2つ持つ」と言い閏え
ることがでへる。
「ロク」の後半部分「り」は、無声化する′と、パワー
のレベルがかなり下がるため、標準的な音声検出レベル
では「り」は検出できない。そこでそのような場合を防
ぐために“極大値を2つ持つ゛という条件をルールとし
て与えるわけである。
次の処理はこのような全登録パタンに対するルールと登
録パタンとから最適閾値学習部9にお込て最適な閾値を
求めることである。最適閾値学習部9の構成は第2図(
1)に示される通りである。登録パタン「ロク」を例に
とって以下にその処理を説明する。低閾値記憶部91に
記憶されている閾値を初期値とし、入力された登録デー
タ「ロク」K対するルールを用いて、そのルールを満足
する閾値を閾値決定部92において求める。第2図(2
)は閾値決定部92における「ロク」の音声検出の様子
を示している。Lsは仮閾値Lyはルールを満足する閾
値であり、閾値は極の数NP=2になるまで徐々に下げ
られる。
閾値決定部92の構成は第2図(3)に示す通りである
マイクロプロセッサ921は第2図(4)に示すフロー
チャートに従って動作し、最終的に「ロク」K対する閾
値LFが決定される。
第2図(4)中のブロック(8)では、従来の方法、た
とえば、前記の特願昭58−156098号明細書に記
載されている方法、によって音声検出を行い始端(Ts
)と終端(T、)を求める処理を行う。
また、LVは一度に下げられる閾値の値である。
このようにして求められた閾値は閾値記憶部93に記憶
される。同様にして全登録パタンにつbてそれぞれのル
ールを満足する閾値が閾値記憶部93に記憶される。
全登録データに対して閾値が決定すると1次に最適閾値
決定部94において最適の閾値を決定する。
ここでは1.たとえば、閾値記憶部93における閾値の
最小値をとることが考えられる。最適閾値決定部94は
最小値検出回路により構成され、ここで得られた最適閾
値は音声区間検出部4に記憶される。
以上説明したように、第1ステツプでは入力された登録
データに対して閾値を適応させる機能を持ち、従来方法
に比べ、より話者に適し7を閾値が得られる。
第2ステツプでは、スイッチ83.S4を Aに切り換
えた彼、wE1ステップで求められfc最適閾値を用い
て登録パタンの音声検出を音声区間検出部4において行
う。登録パタンバックアメモリ7には各登録データのパ
ラメータが既に記憶されているためそれを利用すること
ができる。
検出部4における処理は前述と同様に特願昭58−15
6098号明細書に記載されている音声検出器を用いる
事ができる。
第3ステツプでは、82,83.84をBに切り換え几
後、認識パタンの音声区間検出を行う。
マイク1よフ発声入力された「エイサン」は登録−時と
同様に音声パラメータ抽出部2で特徴パラメータが抽出
される。
次に第1ステツプど求められた最適闇値を用いて、音声
区間検出部4に訃いて第2ステツプと同様に検出を行う
以上、本発明による一実施例を説明しかが、扱うデータ
は、数字に限る必要はなく、音声ならば何でも適用でき
ることは自明である。また、説明中でルールの一例t−
あげ比が、ルールは閾値を決定するための条件であると
いう意味において、ルールの記述内容、記述法は本発明
の本質を何らかえる吃のではない。し念がって、本発明
に含まれる。
また、最適閾値は全登録データの閾値すべてを用いて決
める必要はなく、そのうちの1個、あるいは複数個の登
録データに対する閾値のみを用いて決める事も考えられ
る。
さらに最適閾値決定部94において複数個の閾値から最
適閾値を求める方法ti最小値の他に平均値をとる方法
、重み付は平均値をとる方法などが考えられる。
(発明の効果) 今まで述べてきたように、本発明による音声区間検出装
置では、発声の回数が従来とまったく変わら々いにもか
かわらず、以下の利点を生じる。
まず第1K、発声の個人性に対応できる。すなわち登録
パタンから最適の閾値を学習する究め、固定閾値製音声
検出装置に比べると、より発声者の音声に適応した閾値
を検出に使うことができる。
第2に、登録パタンに対する閾値から求めた最適閾値に
よりて再び登録パタンの音声区間検出を行うという点で
、従来の方法より登録パタンの誤検出が減るといえる。
このことは登録パタンの質の悪さ忙起因する認識エラー
を大幅に減少させることを示している。
【図面の簡単な説明】
第1図は従来の音声区間検出装置を示すブロック図、第
2図(1)は最適閾値学習部9を示すブロック図、第2
図(2)#i登録パタン「6」に対する閾値決定法を示
す図、第2図(3)は閾値決定部920回路図、第2図
(4)は閾値決定部921の70−チャート、第3図は
、本発明による音声区間検出装置’に示すブロック図で
ある。 図において、 l・・・・・・マイク、2・・・・・・音声パラメータ
抽出部、3・・・・・・閾値記憶部、4・・・・・・音
声検出部、5・・・・・・登録パタンバッファメモリ、
6・・・・・・認識パタンバッファメモリ、7・・・・
・・パタンバッファメモリ、8・・・・・・ルール記憶
部、9・・・・・・最適閾値学習部、91 ・・・・・
・仮閾値記憶部、92・・・・・・閾値決定部、93 
 ・・・・・・閾値記憶部、94・・・・・・最適閾値
決定部、921・・・・・・マイクロプロセッサ、92
2・・団・I10ボート、923・・・・・・メモリ、
81.82.83.84  ・・・・・・スイッチ。 EF?OKυ< E、n NP=1 」     (2) E<E、n ROKυ NP=2 手続補正書(■

Claims (1)

    【特許請求の範囲】
  1. 入力された音声からパワーを含むパラメータ時系列を抽
    出する音声パラメータ抽出部と、前記音声パラメータ抽
    出部で得られた音声パラメータを記憶するパタンバッフ
    ァメモリと、登録パタンごとにあらかじめ定められた判
    定条件を記憶する判定条件記憶部と、前記パタンバッフ
    ァメモリ内の登録パタンと判定条件記憶部出力とに適合
    する閾値を定める閾値決定部と、前記閾値決定部におい
    て得られた閾値を用いて、前記パタンバッファメモリ内
    の登録パタンおよび音声パラメータ抽出部で得られた認
    識パタンの音声区間の検出を行う音声区間検出部と、前
    記音声区間検出部により音声検出された登録パタンを記
    憶する登録パタンバッファメモリと、同じく前記音声区
    間検出部により音声検出された認識パタンを記憶する認
    識パタンバッファメモリとを有することを特徴とする音
    声区間検出装置。
JP59200209A 1984-09-25 1984-09-25 音声区間検出装置 Granted JPS6177900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59200209A JPS6177900A (ja) 1984-09-25 1984-09-25 音声区間検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59200209A JPS6177900A (ja) 1984-09-25 1984-09-25 音声区間検出装置

Publications (2)

Publication Number Publication Date
JPS6177900A true JPS6177900A (ja) 1986-04-21
JPH0570837B2 JPH0570837B2 (ja) 1993-10-05

Family

ID=16420620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59200209A Granted JPS6177900A (ja) 1984-09-25 1984-09-25 音声区間検出装置

Country Status (1)

Country Link
JP (1) JPS6177900A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075580A (ja) * 1999-08-18 2001-03-23 Siemens Ag 音声認識方法および音声認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075580A (ja) * 1999-08-18 2001-03-23 Siemens Ag 音声認識方法および音声認識装置
JP4520596B2 (ja) * 1999-08-18 2010-08-04 シーメンス アクチエンゲゼルシヤフト 音声認識方法および音声認識装置

Also Published As

Publication number Publication date
JPH0570837B2 (ja) 1993-10-05

Similar Documents

Publication Publication Date Title
JP2000250565A (ja) 音声区間検出装置、音声区間検出方法、音声認識方法およびその方法を記録した記録媒体
JP3119510B2 (ja) 音声認識装置
JPS6177900A (ja) 音声区間検出装置
JP2754960B2 (ja) 音声認識装置
CA2227679C (en) Speaker recognition device
JPS6135494A (ja) 音声認識処理装置
JPS6326879Y2 (ja)
JPH0376471B2 (ja)
JPS61259296A (ja) 音声区間検出方式
JPS58159599A (ja) 単音節音声認識方式
JPS58159600A (ja) 単音節音声認識方式
JP2901976B2 (ja) パターン照合予備選択方式
JP2004309779A (ja) 音声認証装置
JP2712704B2 (ja) 信号処理装置
JPS58152299A (ja) 音声入力制御装置
JPS60205600A (ja) 音声認識装置
JPS6283799A (ja) 音声認識装置
JP2891259B2 (ja) 音声区間検出装置
JPS58159590A (ja) 単音節音声認識方式
JPS6331793B2 (ja)
JPS5934597A (ja) 音声認識処理装置
JPS6147994A (ja) 音声認識方式
JPH01244497A (ja) 音声区間検出回路
JPH07210186A (ja) 音声登録装置
JPH0443277B2 (ja)