JPWO2011083528A1 - データ処理装置、そのコンピュータプログラムおよびデータ処理方法 - Google Patents

データ処理装置、そのコンピュータプログラムおよびデータ処理方法 Download PDF

Info

Publication number
JPWO2011083528A1
JPWO2011083528A1 JP2011548868A JP2011548868A JPWO2011083528A1 JP WO2011083528 A1 JPWO2011083528 A1 JP WO2011083528A1 JP 2011548868 A JP2011548868 A JP 2011548868A JP 2011548868 A JP2011548868 A JP 2011548868A JP WO2011083528 A1 JPWO2011083528 A1 JP WO2011083528A1
Authority
JP
Japan
Prior art keywords
pruning
threshold
hypothesis
data
hypotheses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011548868A
Other languages
English (en)
Other versions
JP5786717B2 (ja
Inventor
岡部 浩司
浩司 岡部
健 花沢
健 花沢
長田 誠也
誠也 長田
隆行 荒川
隆行 荒川
田中 大介
大介 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011548868A priority Critical patent/JP5786717B2/ja
Publication of JPWO2011083528A1 publication Critical patent/JPWO2011083528A1/ja
Application granted granted Critical
Publication of JP5786717B2 publication Critical patent/JP5786717B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

入力されるテストデータ(TD)の特徴量(CV)から複数の枝刈尺度(PM)を計算し、閾値空間(SS)にプロットして複数の等密度面(EC)を設定し、一つの等密度面(EC)の一部を一部として複数の枝刈尺度(PM)の少なくとも一つが低下すると少なくとも一つが上昇する閾値曲面(SC)を生成し、対象データ(CD)の仮説曲面(HC)を閾値空間(SS)に生成して閾値曲面(SC)と交差する位置を枝刈閾値(PS)とし、対象データ(CD)の複数の仮説を枝刈する。これにより、従来と比較して認識速度と認識精度との少なくとも一方が高いデータ処理装置を提供する。

Description

本発明は、入力される対象データから仮説を探索するデータ処理装置に関し、特に、探索の途中において枝刈閾値を超える仮説を枝刈りするデータ処理装置、そのコンピュータプログラムおよびデータ処理方法、に関する。
仮説探索問題に関して、探索の途中において枝刈閾値を超える枝刈尺度を持つ仮説を枝刈りし、計算量を削減するビームサーチが探索の効率化のためにしばしば行われる。ビームサーチの枝刈尺度として、最尤仮説とのスコア差および仮説数の二つの尺度が広く一般に用いられている。
スコア差閾値は、その閾値よりも最尤仮説とスコア差が開いた仮説を枝刈りするために用いられ、仮説数閾値は仮説順位が閾値よりも大きい仮説を枝刈りするために用いられる。
これらの閾値はそれぞれ静的に固定した値としてもよいし、何らかの基準を用いて音声フレームごとに動的に変化させてもよい。例えば、各音声フレームでの音響的な信頼度を算出し、それに応じてスコア差閾値の調整を動的に行う技術が提案されている。
図7に示すように、この従来のデータ処理装置は、データ入力手段101と、特徴量抽出手段102と、仮説スコア計算手段103と、統計モデル104と、動的閾値設定手段105と、仮説枝刈手段106と、結果出力手段107とを備える。
このような構成を有する従来のデータ処理装置は、次のように動作する。すなわち、データ入力手段101は探索が行われるデータの入力を行い、特徴量抽出手段102は対象データから特徴量を抽出し、仮説スコア計算手段103は統計モデル104を用いて特徴量のスコアを計算し、動的閾値設定手段105は枝刈に用いられるそれぞれの尺度での閾値を設定し、仮説枝刈手段106が枝刈閾値を基準として仮説の枝刈を行い、結果出力手段107が最終的に最もスコアの高い仮説を結果として出力する(非特許文献1)。
しかし、例えば仮説数閾値を用いて探索を行う従来のデータ処理装置において、枝刈前の仮説数が仮説数閾値を超えてしまう場合に着目すると、図8に示すように、最尤仮説からのスコア差が大きい仮説で仮説数閾値に達した場合(A)も、最尤仮説からのスコア差が小さい仮説で仮説数閾値に達した場合(B)も、同じ数(n)の仮説を残すことになる。
しかし、前者ではa、後者ではbのスコア差閾値を用いて枝刈りしているのと同等であり、小さいスコア差閾値であるbで枝刈りを行った場合、正解仮説を誤って枝刈りし、探索誤りを引き起こす可能性が高くなってしまう。
複数の枝刈尺度を用いる場合、上述のように一つの枝刈閾値を超えた場合には、他の枝刈尺度について全く閾値に達しない値だろうと、閾値に近い値であろうと、閾値を超えた尺度のみで枝刈を行ってしまい、探索誤りを引き起こしやすいという課題がある。
本発明は上述のような課題に鑑みてなされたものであり、従来と比較して認識速度と認識精度との少なくとも一方が高いデータ処理装置、そのコンピュータプログラムおよびデータ処理方法、を提供するものである。
本発明のデータ処理装置は、学習モードでは正解仮説が確定しているテストデータを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データを入力単位ごとに入力するデータ入力手段と、入力されたテストデータおよび対象データを分析して特徴量を各々抽出する特徴量抽出手段と、抽出された特徴量を用いてテストデータおよび対象データの複数の仮説ごとに複数の枝刈尺度を計算する仮説尺度計算手段と、入力されたテストデータの複数の仮説を各々計算された枝刈尺度に対応して複数の枝刈尺度で規定されている閾値空間にプロットするデータプロット手段と、プロットされた複数の仮説の密度に対応して複数の等密度面を閾値空間に設定する等密度面設定手段と、複数の等密度面から選定された一つの一部を一部として複数の枝刈尺度の少なくとも一つが低下すると少なくとも一つが上昇する複数の枝刈閾値からなる閾値曲面を閾値空間に生成する閾値曲面生成手段と、対象データの複数の仮説からなる仮説曲面を各々計算された枝刈尺度に対応して閾値空間に生成する仮説曲面生成手段と、生成された仮説曲面が閾値曲面と交差する位置を枝刈閾値として対象データの複数の仮説を枝刈する仮説枝刈手段と、を有する。
本発明のコンピュータプログラムは、本発明のデータ処理装置のコンピュータプログラムであって、学習モードでは正解仮説が確定しているテストデータを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データを入力単位ごとに入力するデータ入力処理と、入力されたテストデータおよび対象データを分析して特徴量を各々抽出する特徴量抽出処理と、抽出された特徴量を用いてテストデータおよび対象データの複数の仮説ごとに複数の枝刈尺度を計算する仮説尺度計算処理と、入力されたテストデータの複数の仮説を各々計算された枝刈尺度に対応して複数の枝刈尺度で規定されている閾値空間にプロットするデータプロット処理と、プロットされた複数の仮説の密度に対応して複数の等密度面を閾値空間に設定する等密度面設定処理と、複数の等密度面から選定された一つの一部を一部として複数の枝刈尺度の少なくとも一つが低下すると少なくとも一つが上昇する複数の枝刈閾値からなる閾値曲面を閾値空間に生成する閾値曲面生成処理と、対象データの複数の仮説からなる仮説曲面を各々計算された枝刈尺度に対応して閾値空間に生成する仮説曲面生成処理と、生成された仮説曲面が閾値曲面と交差する位置を枝刈閾値として対象データの複数の仮説を枝刈する仮説枝刈処理と、をデータ処理装置に実行させる。
本発明のデータ処理方法は、本発明のデータ処理装置のデータ処理方法であって、学習モードでは正解仮説が確定しているテストデータを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データを入力単位ごとに入力するデータ入力動作と、入力されたテストデータおよび対象データを分析して特徴量を各々抽出する特徴量抽出動作と、抽出された特徴量を用いてテストデータおよび対象データの複数の仮説ごとに複数の枝刈尺度を計算する仮説尺度計算動作と、入力されたテストデータの複数の仮説を各々計算された枝刈尺度に対応して複数の枝刈尺度で規定されている閾値空間にプロットするデータプロット動作と、プロットされた複数の仮説の密度に対応して複数の等密度面を閾値空間に設定する等密度面設定動作と、複数の等密度面から選定された一つの一部を一部として複数の枝刈尺度の少なくとも一つが低下すると少なくとも一つが上昇する複数の枝刈閾値からなる閾値曲面を閾値空間に生成する閾値曲面生成動作と、対象データの複数の仮説からなる仮説曲面を各々計算された枝刈尺度に対応して閾値空間に生成する仮説曲面生成動作と、生成された仮説曲面が閾値曲面と交差する位置を枝刈閾値として対象データの複数の仮説を枝刈する仮説枝刈動作と、を有する。
なお、本発明の各種の構成要素は、その機能を実現するように形成されていればよく、例えば、所定の機能を発揮する専用のハードウェア、所定の機能がコンピュータプログラムにより付与されたデータ処理装置、コンピュータプログラムによりデータ処理装置に実現された所定の機能、これらの任意の組み合わせ、等として実現することができる。
また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。
また、本発明のコンピュータプログラムおよびデータ処理方法は、複数の処理および動作を順番に記載してあるが、その記載の順番は複数の処理および複数の動作を実行する順番を限定するものではない。
このため、本発明のコンピュータプログラムおよびデータ処理方法を実施するときには、その複数の処理および複数の動作の順番は内容的に支障しない範囲で変更することができる。
さらに、本発明のコンピュータプログラムおよびデータ処理方法は、複数の処理および複数の動作が個々に相違するタイミングで実行されることに限定されない。このため、ある処理および動作の実行中に他の処理および動作が発生すること、ある処理および動作の実行タイミングと他の処理および動作の実行タイミングとの一部ないし全部が重複していること、等でもよい。
また、本発明で云うデータ処理装置は、コンピュータプログラムを読み取って対応する処理動作を実行できるように、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、I/F(Interface)ユニット、等の汎用デバイスで構築されたハードウェア、所定の処理動作を実行するように構築された専用の論理回路、これらの組み合わせ、等として実施することができる。
なお、本発明でコンピュータプログラムに対応した各種動作をデータ処理装置に実行させることは、各種デバイスをデータ処理装置に動作制御させることなども意味している。
例えば、データ処理装置に各種データを記憶させることは、データ処理装置に固定されているHDD(Hard Disc Drive)等の情報記憶媒体にCPUが各種データを格納すること、データ処理装置に交換自在に装填されているCD−R(Compact Disc-Recordable)等の情報記憶媒体にCPUがCDドライブで各種データを格納すること、等を許容する。
本発明のデータ処理装置では、データ入力手段が学習モードでは正解仮説が確定しているテストデータを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データを入力単位ごとに入力する。入力されたテストデータおよび対象データを分析して特徴量を特徴量抽出手段が各々抽出する。抽出された特徴量を用いてテストデータおよび対象データの複数の仮説ごとに複数の枝刈尺度を仮説尺度計算手段が計算する。入力されたテストデータの複数の仮説を各々計算された枝刈尺度に対応して複数の枝刈尺度で規定されている閾値空間にデータプロット手段がプロットする。プロットされた複数の仮説の密度に対応して複数の等密度面を閾値空間に等密度面設定手段が設定する。複数の等密度面から選定された一つの一部を一部として複数の枝刈尺度の少なくとも一つが低下すると少なくとも一つが上昇する複数の枝刈閾値からなる閾値曲面を閾値空間に閾値曲面生成手段が生成する。対象データの複数の仮説からなる仮説曲面を各々計算された枝刈尺度に対応して閾値空間に仮説曲面生成手段が生成する。生成された仮説曲面が閾値曲面と交差する位置を枝刈閾値として対象データの複数の仮説を仮説枝刈手段が枝刈する。このため、探索モードで対象データから一つの仮説を探索するとき、枝刈閾値の複数の枝刈尺度が適正に変化する。従って、従来と比較して認識速度と認識精度との少なくとも一方が高いデータ処理装置を提供することができる。
上述した目的、および、その他の目的、特徴および利点は、以下に述べる好適な実施の形態、および、それに付随する以下の図面によって、さらに明らかになる。
本発明の実施の形態のデータ処理システムの論理構造を示す模式的なブロック図である。 データ処理装置による学習モードのデータ処理方法を示すフローチャートである。 データ処理装置による探索モードのデータ処理方法を示すフローチャートである。 閾値空間である閾値平面にテストデータの仮説がプロットされて等密度面である等密度線が生成された状態を示す模式的な特性図である。 閾値平面に一つの等密度線に対応して閾値曲面である閾値曲線が生成された状態を示す模式的な特性図である。 閾値平面に入力単位である音声フレームごとに仮説曲面である仮説曲線が生成された状態を示す模式的な特性図である。 一従来例のデータ処理システムの論理構造を示す模式的なブロック図である。 一従来例の閾値平面を示す模式的な特性図である。
本発明の実施の一形態を図1ないし図6を参照して以下に説明する。本実施の形態のデータ処理装置200は、図1に示すように、学習モードでは正解仮説が確定しているテストデータTDを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データCDを入力単位ごとに入力するデータ入力部201と、入力されたテストデータTDおよび対象データCDを分析して特徴量CVを各々抽出する特徴量抽出部202と、抽出された特徴量CVを用いてテストデータTDおよび対象データCDの複数の仮説ごとに複数の枝刈尺度PMを計算する仮説尺度計算部203と、入力されたテストデータTDの複数の仮説を各々計算された枝刈尺度PMに対応して複数の枝刈尺度PMで規定されている閾値空間SSにプロットするデータプロット部204と、プロットされた複数の仮説の密度に対応して複数の等密度面ECを閾値空間SSに設定する等密度面設定部205と、複数の等密度面ECから選定された一つの一部を一部として複数の枝刈尺度PMの少なくとも一つが低下すると少なくとも一つが上昇する複数の枝刈閾値PSからなる閾値曲面SCを閾値空間SSに生成する閾値曲面生成部206と、対象データCDの複数の仮説からなる仮説曲面HCを各々計算された枝刈尺度PMに対応して閾値空間SSに生成する仮説曲面生成部207と、生成された仮説曲面HCが閾値曲面SCと交差する位置を枝刈閾値PSとして対象データCDの複数の仮説を枝刈する仮説枝刈部208と、を有する。
さらに、本実施の形態のデータ処理装置200は、対象データのスコアを算出するための統計モデル210と、探索モードで枝刈された複数の仮説から累積されたスコアが最大の一つを探索結果SRとして出力する結果出力部209と、も有する。
より詳細には、閾値空間SSが二つの枝刈尺度PMである仮説の最尤仮説からのスコア差SDと仮説順位HRとで規定されている二次元の閾値平面SSからなる。仮説尺度計算部203は、抽出された特徴量CVを用いてテストデータTDおよび対象データCDの複数の仮説ごとにスコアを算出してスコア差SDと仮説順位HRとを枝刈尺度PMとして計算する。
等密度面設定部205は、プロットされた複数の仮説の密度に対応して複数の等密度面ECである等密度線ECを閾値平面SSに設定する。閾値曲面生成部206は、複数の等密度線ECから選定された一つの一部を一部としてスコア差SDと仮説順位HRとの一方が低下すると他方が上昇する複数の枝刈閾値PSからなる閾値曲線SCを閾値曲面SCとして閾値平面SSに生成する。
仮説曲面生成部207は、対象データCDの複数の仮説からなる仮説曲線を仮説曲面HCとして各々計算されたスコア差SDと仮説順位HRとに対応して閾値平面SSに生成する。
本実施の形態のデータ処理装置200は、例えば、コンピュータプログラムが実装されたコンピュータ装置として実現される。そのコンピュータプログラムは、例えば、学習モードでは正解仮説が確定しているテストデータTDを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データCDを入力単位ごとに入力するデータ入力処理と、入力されたテストデータTDおよび対象データCDを分析して特徴量CVを各々抽出する特徴量抽出処理と、抽出された特徴量CVを用いてテストデータTDおよび対象データCDの複数の仮説ごとに複数の枝刈尺度PMを計算する仮説尺度計算処理と、入力されたテストデータTDの複数の仮説を各々計算された枝刈尺度PMに対応して複数の枝刈尺度PMで規定されている閾値平面SSにプロットするデータプロット処理と、プロットされた複数の仮説の密度に対応して複数の等密度線ECを閾値平面SSに設定する等密度面設定処理と、複数の等密度線ECから選定された一つの一部を一部として複数の枝刈尺度PMの少なくとも一つが低下すると少なくとも一つが上昇する複数の枝刈閾値PSからなる閾値曲線SCを閾値平面SSに生成する閾値曲面生成処理と、対象データCDの複数の仮説からなる仮説曲面HCを各々計算された枝刈尺度PMに対応して閾値平面SSに生成する仮説曲面生成処理と、生成された仮説曲面HCが閾値曲線SCと交差する位置を枝刈閾値PSとして対象データCDの複数の仮説を枝刈する仮説枝刈処理と、探索モードで枝刈された複数の仮説から累積されたスコアが最大の一つを探索結果SRとして出力する結果出力処理と、をデータ処理装置200に実行させるように記述されている。
上述のような構成において、本実施の形態のデータ処理装置によるデータ処理方法を以下に説明する。まず、本実施の形態のデータ処理装置200は、図2および図3に示すように、例えば、学習モードと探索モードとが切換自在な動作モードとして設定されている。
図2に示すように、学習モードでは、入力されるテストデータTDから閾値曲線SCである閾値曲線SCが生成されてデータ処理装置200に設定され、探索モードでは、設定されている閾値曲線SCを利用して、入力される対象データCDから一つの仮説が探索結果として出力される。
なお、以下ではデータ処理装置200がテストデータTDおよび対象データCDを音声データとして、仮説探索を音声認識として実行する場合を例示する。まず、図2に示すように、学習モードでは(ステップS1−Y)、正解仮説が確定しているテストデータTDが所定の入力単位である音声フレームごとに入力される(ステップS2)。このとき、十分な量のテストデータTDを十分に広げたビーム幅のもとで入力する。
入力されたテストデータTDを分析して特徴量CVを抽出する(ステップS3)。この抽出は、例えば、音声フレームごとに入力されるテストデータTDの入力音声のスペクトルからMFCC(Mel Frequency Cepstrum Coefficient)を検出することで実行される。
つぎに、抽出された特徴量CVを用いてテストデータTDの複数の仮説ごとに複数の枝刈尺度PMを計算する(ステップS4)。より詳細には、抽出されたテストデータTDの特徴量CVと統計モデル210とから尤度であるスコアを求め、累積スコアに加算することで、各仮説のスコアを計算する。
このようなスコアの算出は、例えば、音声認識では音響スコアと言語スコアとの加算などで実行される。そして、本実施の形態では、音声認識の枝刈尺度PMとして、前述のように仮説の最尤仮説からのスコア差SDと仮説順位HRとが算出される。
つぎに、入力されたテストデータTDの複数の仮説を、上述のように各々計算された最尤仮説からのスコア差SDと仮説順位HRとに対応して、図4に示すように、これらの枝刈尺度PMで規定されている二次元の閾値空間SSである閾値平面SSにプロットする(ステップS5)。
つぎに、上述のようにプロットされた複数の仮説の密度に対応して、図示するように、等密度面ECの特殊解である複数の等密度線ECを閾値平面SSに設定する(ステップS6)。
ここでデータ処理装置200の性能や仕様や要求される認識精度などに対応して、図5に示すように、複数の等密度線ECから一つが選定される。そして、この選定された一つの等密度線ECの一部を一部として、二つの枝刈尺度PMの一方が低下すると他方が上昇する複数の枝刈閾値PSからなる閾値曲面SCの特殊解である閾値曲線SCが閾値平面SSに生成される(ステップS7)。
この閾値曲線SCの生成は、上述のように等密度線ECの一部を一部として二つの枝刈尺度PMの一方が低下すると他方が上昇するように、例えば、放物線などの特定の曲線を等密度線ECの一部に接続することなどで実行される。
このように生成された閾値曲線SCが仮説枝刈部208に設定されることで(ステップS8)、データ処理装置200の学習モードが完了する。このように学習が完了したデータ処理装置200は、準備された閾値曲線SCを利用して音声認識を実行することができる。
その場合、図3に示すように、データ処理装置200が探索モードとされ(ステップT1−Y)、仮説探索の対象データCDである対象音声を入力単位である音声フレームごとに入力する(ステップT2)。
つぎに、学習モードの場合と同様に、入力されたテストデータTDを分析して特徴量CVを各々抽出する(ステップT3)。つぎに、抽出された特徴量CVを用いて対象データCDの複数の仮説ごとに複数の枝刈尺度PMとして、最尤仮説からのスコア差SDと仮説順位HRとを計算する(ステップT4)。
つぎに、対象データCDの複数の仮説からなる仮説曲面HCの特殊解である仮説曲線HCを、図6に示すように、各々計算された枝刈尺度PMに対応して閾値平面SSに生成する(ステップT6)。
すると、図示するように、音声フレームごとの対象データCDの仮説曲線HCは、閾値曲線SCと交差することになる。そこで、このように仮説曲面HCが閾値曲線SCと交差する位置を枝刈閾値PSとして、対象データCDの複数の仮説を枝刈する(ステップT7)。
そして、音声フレームごとに対象データCDの最終の音声フレームかどうかを判断し(ステップT8)、最終音声フレームでなければ(ステップT8−N)、対象データから次の音声フレームを受け取る(ステップT2)。
最終音声フレームであれば(ステップT8−Y)、上述のように枝刈された複数の仮説の累積スコアが比較され(ステップT9)、累積スコアが最大の仮説を探索結果SRとして出力する(ステップT10)。最大スコアの仮説を結果として出力する。
本実施の形態のデータ処理装置200では、上述のようにデータ入力部201が学習モードでは正解仮説が確定しているテストデータTDを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データCDを入力単位ごとに入力する。
入力されたテストデータTDおよび対象データCDを分析して特徴量CVを特徴量抽出部202が各々抽出する。抽出された特徴量CVを用いてテストデータTDおよび対象データCDの複数の仮説ごとに複数の枝刈尺度PMを仮説尺度計算部203が計算する。
入力されたテストデータTDの複数の仮説を各々計算された枝刈尺度PMに対応して複数の枝刈尺度PMで規定されている閾値平面SSにデータプロット部204がプロットする。
プロットされた複数の仮説の密度に対応して複数の等密度線ECを閾値平面SSに等密度面設定部205が設定する。複数の等密度線ECから選定された一つの一部を一部として複数の枝刈尺度PMの少なくとも一つが低下すると少なくとも一つが上昇する複数の枝刈閾値PSからなる閾値曲線SCを閾値平面SSに閾値曲面生成部206が生成する。
対象データCDの複数の仮説からなる仮説曲線HCを各々計算された枝刈尺度PMに対応して閾値平面SSに仮説曲面生成部207が生成する。生成された仮説曲線HCが閾値曲線SCと交差する位置を枝刈閾値PSとして対象データCDの複数の仮説を仮説枝刈部208が枝刈する。
このため、探索モードで対象データCDから一つの仮説を探索するとき、枝刈閾値PSの複数の枝刈尺度PMが適正に変化する。従って、従来と比較して認識速度と認識精度との少なくとも一方が高いデータ処理装置200を提供することができる。
なお、本発明は本実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で各種の変形を許容する。例えば、上記形態では二つの枝刈尺度PMで規定されている二次元の閾値平面SSに、閾値曲線SCと仮説曲線HCとを生成して仮説枝刈を実行することを例示した。
しかし、三つ以上の枝刈尺度PMで規定されている三次元以上の閾値空間SSに、閾値曲面SCと仮説曲面HCとを生成して仮説枝刈を実行してもよい。閾値空間SSが四次元以上の場合、閾値曲面SCと仮説曲面HCとは数学的な超曲面として表現される(図示せず)。
また、上記形態ではテストデータTDおよび対象データCDが入力音声でデータ処理装置200が音声認識を実行することを例示した。しかし、本実施の形態のデータ処理装置200は、画像認識などにも同様に利用することができる。
さらに、本実施の形態ではデータ処理装置の各部がコンピュータプログラムにより各種機能として論理的に実現されることを例示した。しかし、このような各部の各々を固有のハードウェアとして形成することもでき、ソフトウェアとハードウェアとの組み合わせとして実現することもできる。
なお、当然ながら、上述した実施の形態および複数の変形例は、その内容が相反しない範囲で組み合わせることができる。また、上述した実施の形態および変形例では、各部の構造などを具体的に説明したが、その構造などは本願発明を満足する範囲で各種に変更することができる。
この出願は、2010年01月06日に出願された日本出願特願2010−000940号を基礎とする優先権を主張し、その開示の全てを、ここに取り込む。

Claims (5)

  1. 学習モードでは正解仮説が確定しているテストデータを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データを前記入力単位ごとに入力するデータ入力手段と、
    入力された前記テストデータおよび前記対象データを分析して特徴量を各々抽出する特徴量抽出手段と、
    抽出された前記特徴量を用いて前記テストデータおよび前記対象データの複数の仮説ごとに複数の枝刈尺度を計算する仮説尺度計算手段と、
    入力された前記テストデータの複数の前記仮説を各々計算された前記枝刈尺度に対応して複数の前記枝刈尺度で規定されている閾値空間にプロットするデータプロット手段と、
    プロットされた複数の前記仮説の密度に対応して複数の等密度面を前記閾値空間に設定する等密度面設定手段と、
    複数の前記等密度面から選定された一つの一部を一部として複数の前記枝刈尺度の少なくとも一つが低下すると少なくとも一つが上昇する複数の前記枝刈閾値からなる閾値曲面を前記閾値空間に生成する閾値曲面生成手段と、
    前記対象データの複数の前記仮説からなる仮説曲面を各々計算された前記枝刈尺度に対応して前記閾値空間に生成する仮説曲面生成手段と、
    生成された前記仮説曲面が前記閾値曲面と交差する位置を前記枝刈閾値として前記対象データの複数の前記仮説を枝刈する仮説枝刈手段と、
    を有するデータ処理装置。
  2. 前記閾値空間が二つの前記枝刈尺度である前記仮説の最尤仮説からのスコア差と仮説順位とで規定されている二次元の閾値平面からなり、
    前記仮説尺度計算手段は、抽出された前記特徴量を用いて前記テストデータおよび前記対象データの複数の前記仮説ごとにスコアを算出して前記スコア差と前記仮説順位とを前記枝刈尺度として計算し、
    前記等密度面設定手段は、プロットされた複数の前記仮説の密度に対応して複数の前記等密度面である等密度線を前記閾値平面に設定し、
    前記閾値曲面生成手段は、複数の前記等密度線から選定された一つの一部を一部として前記スコア差と前記仮説順位との一方が低下すると他方が上昇する複数の前記枝刈閾値からなる閾値曲線を前記閾値曲面として前記閾値平面に生成し、
    前記仮説曲面生成手段は、前記対象データの複数の前記仮説からなる仮説曲線を前記仮説曲面として各々計算された前記スコア差と前記仮説順位とに対応して前記閾値平面に生成する請求項1に記載のデータ処理装置。
  3. 前記探索モードで枝刈された複数の前記仮説から累積された前記スコアが最大の一つを探索結果として出力する結果出力手段を、さらに有する請求項2に記載のデータ処理装置。
  4. 請求項1ないし3の何れか一項に記載のデータ処理装置のコンピュータプログラムであって、
    学習モードでは正解仮説が確定しているテストデータを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データを前記入力単位ごとに入力するデータ入力処理と、
    入力された前記テストデータおよび前記対象データを分析して特徴量を各々抽出する特徴量抽出処理と、
    抽出された前記特徴量を用いて前記テストデータおよび前記対象データの複数の仮説ごとに複数の枝刈尺度を計算する仮説尺度計算処理と、
    入力された前記テストデータの複数の前記仮説を各々計算された前記枝刈尺度に対応して複数の前記枝刈尺度で規定されている閾値空間にプロットするデータプロット処理と、
    プロットされた複数の前記仮説の密度に対応して複数の等密度面を前記閾値空間に設定する等密度面設定処理と、
    複数の前記等密度面から選定された一つの一部を一部として複数の前記枝刈尺度の少なくとも一つが低下すると少なくとも一つが上昇する複数の前記枝刈閾値からなる閾値曲面を前記閾値空間に生成する閾値曲面生成処理と、
    前記対象データの複数の前記仮説からなる仮説曲面を各々計算された前記枝刈尺度に対応して前記閾値空間に生成する仮説曲面生成処理と、
    生成された前記仮説曲面が前記閾値曲面と交差する位置を前記枝刈閾値として前記対象データの複数の前記仮説を枝刈する仮説枝刈処理と、
    をデータ処理装置に実行させるコンピュータプログラム。
  5. 請求項1ないし3の何れか一項に記載のデータ処理装置のデータ処理方法であって、
    学習モードでは正解仮説が確定しているテストデータを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データを前記入力単位ごとに入力するデータ入力動作と、
    入力された前記テストデータおよび前記対象データを分析して特徴量を各々抽出する特徴量抽出動作と、
    抽出された前記特徴量を用いて前記テストデータおよび前記対象データの複数の仮説ごとに複数の枝刈尺度を計算する仮説尺度計算動作と、
    入力された前記テストデータの複数の前記仮説を各々計算された前記枝刈尺度に対応して複数の前記枝刈尺度で規定されている閾値空間にプロットするデータプロット動作と、
    プロットされた複数の前記仮説の密度に対応して複数の等密度面を前記閾値空間に設定する等密度面設定動作と、
    複数の前記等密度面から選定された一つの一部を一部として複数の前記枝刈尺度の少なくとも一つが低下すると少なくとも一つが上昇する複数の前記枝刈閾値からなる閾値曲面を前記閾値空間に生成する閾値曲面生成動作と、
    前記対象データの複数の前記仮説からなる仮説曲面を各々計算された前記枝刈尺度に対応して前記閾値空間に生成する仮説曲面生成動作と、
    生成された前記仮説曲面が前記閾値曲面と交差する位置を前記枝刈閾値として前記対象データの複数の前記仮説を枝刈する仮説枝刈動作と、
    を有するデータ処理方法。
JP2011548868A 2010-01-06 2010-12-02 データ処理装置、そのコンピュータプログラムおよびデータ処理方法 Active JP5786717B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011548868A JP5786717B2 (ja) 2010-01-06 2010-12-02 データ処理装置、そのコンピュータプログラムおよびデータ処理方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010000940 2010-01-06
JP2010000940 2010-01-06
PCT/JP2010/007021 WO2011083528A1 (ja) 2010-01-06 2010-12-02 データ処理装置、そのコンピュータプログラムおよびデータ処理方法
JP2011548868A JP5786717B2 (ja) 2010-01-06 2010-12-02 データ処理装置、そのコンピュータプログラムおよびデータ処理方法

Publications (2)

Publication Number Publication Date
JPWO2011083528A1 true JPWO2011083528A1 (ja) 2013-05-13
JP5786717B2 JP5786717B2 (ja) 2015-09-30

Family

ID=44305275

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011548868A Active JP5786717B2 (ja) 2010-01-06 2010-12-02 データ処理装置、そのコンピュータプログラムおよびデータ処理方法

Country Status (3)

Country Link
US (1) US9047562B2 (ja)
JP (1) JP5786717B2 (ja)
WO (1) WO2011083528A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011083528A1 (ja) * 2010-01-06 2011-07-14 日本電気株式会社 データ処理装置、そのコンピュータプログラムおよびデータ処理方法
WO2013125203A1 (ja) * 2012-02-21 2013-08-29 日本電気株式会社 音声認識装置、音声認識方法およびコンピュータプログラム
JP7005463B2 (ja) * 2018-09-27 2022-01-21 株式会社東芝 学習装置、学習方法及びプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0642156B2 (ja) * 1989-05-15 1994-06-01 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識装置におけるビーム制御方式
JP2864775B2 (ja) * 1991-03-28 1999-03-08 日本電気株式会社 音声認識装置
JP2980420B2 (ja) * 1991-07-26 1999-11-22 富士通株式会社 動的計画法照合装置
JPH0782357B2 (ja) * 1993-03-29 1995-09-06 株式会社エイ・ティ・アール自動翻訳電話研究所 適応的探索方法
JP3061114B2 (ja) * 1996-11-25 2000-07-10 日本電気株式会社 音声認識装置
JP4042176B2 (ja) * 1997-03-11 2008-02-06 三菱電機株式会社 音声認識方式
US6285786B1 (en) * 1998-04-30 2001-09-04 Motorola, Inc. Text recognizer and method using non-cumulative character scoring in a forward search
JP3004254B2 (ja) * 1998-06-12 2000-01-31 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
JP3660137B2 (ja) * 1998-09-25 2005-06-15 株式会社東芝 シミュレーション方法、シミュレータ、シミュレーションプログラムを記録した記録媒体および半導体装置の製造方法
JP2001075596A (ja) * 1999-09-03 2001-03-23 Mitsubishi Electric Corp 音声認識装置、音声認識方法及び音声認識プログラムを記録した記録媒体
WO2003005344A1 (en) * 2001-07-03 2003-01-16 Intel Zao Method and apparatus for dynamic beam control in viterbi search
US6788243B2 (en) * 2001-09-06 2004-09-07 Minister Of National Defence Of Her Majestry's Canadian Government The Secretary Of State For Defence Hidden Markov modeling for radar electronic warfare
US7603267B2 (en) * 2003-05-01 2009-10-13 Microsoft Corporation Rules-based grammar for slots and statistical model for preterminals in natural language understanding system
JP2005107743A (ja) * 2003-09-29 2005-04-21 Nec Corp 学習システム
US7946493B2 (en) * 2007-09-27 2011-05-24 Hand Held Products, Inc. Wireless bar code transaction device
WO2010013371A1 (ja) * 2008-07-28 2010-02-04 日本電気株式会社 対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体
US8386401B2 (en) * 2008-09-10 2013-02-26 Digital Infuzion, Inc. Machine learning methods and systems for identifying patterns in data using a plurality of learning machines wherein the learning machine that optimizes a performance function is selected
WO2011083528A1 (ja) * 2010-01-06 2011-07-14 日本電気株式会社 データ処理装置、そのコンピュータプログラムおよびデータ処理方法
US8762009B2 (en) * 2010-11-18 2014-06-24 I.D. Systems, Inc. Impact sensor calibration tool
WO2012093661A1 (ja) * 2011-01-07 2012-07-12 日本電気株式会社 音声認識装置、音声認識方法および音声認識プログラム
WO2012093451A1 (ja) * 2011-01-07 2012-07-12 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム

Also Published As

Publication number Publication date
US9047562B2 (en) 2015-06-02
US20120310866A1 (en) 2012-12-06
JP5786717B2 (ja) 2015-09-30
WO2011083528A1 (ja) 2011-07-14

Similar Documents

Publication Publication Date Title
US10832685B2 (en) Speech processing device, speech processing method, and computer program product
US20160260426A1 (en) Speech recognition apparatus and method
US20140350934A1 (en) Systems and Methods for Voice Identification
KR20140028174A (ko) 음성 인식 방법 및 이를 적용한 전자 장치
US9905224B2 (en) System and method for automatic language model generation
US11227580B2 (en) Speech recognition accuracy deterioration factor estimation device, speech recognition accuracy deterioration factor estimation method, and program
EP2988298B1 (en) Response generation method, response generation apparatus, and response generation program
WO2018232591A1 (en) SEQUENCE RECOGNITION PROCESSING
US20150255090A1 (en) Method and apparatus for detecting speech segment
JP5786717B2 (ja) データ処理装置、そのコンピュータプログラムおよびデータ処理方法
JP6276513B2 (ja) 音声認識装置および音声認識プログラム
US20220270637A1 (en) Utterance section detection device, utterance section detection method, and program
JP2008097130A (ja) タイミング解析方法および装置
CN112259084A (zh) 语音识别方法、装置和存储介质
KR20200102309A (ko) 단어 유사도를 이용한 음성 인식 시스템 및 그 방법
JP6353408B2 (ja) 言語モデル適応装置、言語モデル適応方法、プログラム
CN110210030B (zh) 语句分析的方法及装置
JP4735958B2 (ja) テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
Chen et al. System and keyword dependent fusion for spoken term detection
Kaneko et al. Metric subspace indexing for fast spoken term detection.
KR20220090586A (ko) 오디오-비주얼 매칭을 사용한 자동 음성 인식 가설 재점수화
CN113782008B (zh) 文本音频对齐方法和装置
JP6537996B2 (ja) 未知語検出装置、未知語検出方法、プログラム
KR101472029B1 (ko) 색인요소를 이용한 자연어 분석 방법 및 시스템
JP5980143B2 (ja) ポーズ付与モデル生成装置、ポーズ付与モデル生成方法、ポーズ付与装置、ポーズ付与方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141125

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150630

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150713

R150 Certificate of patent or registration of utility model

Ref document number: 5786717

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150