WO2011083528A1 - データ処理装置、そのコンピュータプログラムおよびデータ処理方法 - Google Patents

データ処理装置、そのコンピュータプログラムおよびデータ処理方法 Download PDF

Info

Publication number
WO2011083528A1
WO2011083528A1 PCT/JP2010/007021 JP2010007021W WO2011083528A1 WO 2011083528 A1 WO2011083528 A1 WO 2011083528A1 JP 2010007021 W JP2010007021 W JP 2010007021W WO 2011083528 A1 WO2011083528 A1 WO 2011083528A1
Authority
WO
WIPO (PCT)
Prior art keywords
pruning
threshold
hypothesis
data
hypotheses
Prior art date
Application number
PCT/JP2010/007021
Other languages
English (en)
French (fr)
Inventor
岡部 浩司
健 花沢
長田 誠也
隆行 荒川
田中 大介
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2011548868A priority Critical patent/JP5786717B2/ja
Priority to US13/520,728 priority patent/US9047562B2/en
Publication of WO2011083528A1 publication Critical patent/WO2011083528A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Definitions

  • the present invention relates to a data processing apparatus that searches for hypotheses from input target data, and more particularly to a data processing apparatus that prunes hypotheses that exceed a pruning threshold during the search, a computer program thereof, and a data processing method.
  • a beam search that reduces the amount of calculation by pruning a hypothesis having a pruning scale exceeding the pruning threshold during the search is often performed to improve the search efficiency.
  • a pruning scale for beam search two scales of a score difference from the maximum likelihood hypothesis and the number of hypotheses are widely used.
  • the score difference threshold is used for pruning a maximum likelihood hypothesis and a hypothesis whose score difference is larger than the threshold
  • the hypothesis number threshold is used for pruning a hypothesis whose hypothesis rank is larger than the threshold.
  • These threshold values may be statically fixed values, or may be dynamically changed for each audio frame using some standard. For example, a technique has been proposed in which the acoustic reliability in each voice frame is calculated and the score difference threshold value is dynamically adjusted according to the calculation.
  • this conventional data processing apparatus includes a data input means 101, a feature quantity extraction means 102, a hypothesis score calculation means 103, a statistical model 104, a dynamic threshold setting means 105, a hypothesis branch.
  • a cutting means 106 and a result output means 107 are provided.
  • the conventional data processing apparatus having such a configuration operates as follows. That is, the data input means 101 inputs the data to be searched, the feature quantity extraction means 102 extracts the feature quantity from the target data, and the hypothesis score calculation means 103 calculates the feature quantity score using the statistical model 104. Then, the dynamic threshold setting means 105 sets the threshold value for each scale used for pruning, the hypothetical pruning means 106 performs hypothesis pruning based on the pruning threshold, and the result output means 107 finally The hypothesis with the highest score is output as a result (Non-patent Document 1).
  • the former is equivalent to pruning using the score difference threshold of a and the latter is b, and when pruning is performed with b, which is a small score difference threshold, the correct hypothesis is pruned incorrectly. The possibility of causing a search error becomes high.
  • the threshold is set to a value that does not reach the threshold at all for other pruning measures or is close to the threshold. There is a problem in that pruning is performed only with a scale that exceeds, and search errors are likely to occur.
  • the present invention has been made in view of the above-described problems, and provides a data processing device, a computer program, and a data processing method thereof, which have at least one of a recognition speed and a recognition accuracy higher than those of the prior art. is there.
  • the data processing apparatus of the present invention the data input means for inputting the test data for which the correct hypothesis is confirmed in the learning mode for each predetermined input unit, and for inputting the target data for the hypothesis search for each input unit in the search mode;
  • a feature quantity extraction unit that analyzes input test data and target data to extract each feature quantity, and uses the extracted feature quantities to calculate multiple pruning measures for each hypothesis of test data and target data
  • a data plotting means for plotting a plurality of hypotheses of the input test data in a threshold space defined by the plurality of pruning scales corresponding to the calculated pruning scales,
  • a uniform density surface setting means for setting a plurality of equal density surfaces in a threshold space corresponding to the density of a plurality of hypotheses, and a part of one selected from the plurality of equal density surfaces.
  • Threshold surface generation means for generating a threshold surface consisting of multiple pruning thresholds, at least one of which increases when at least one of the multiple pruning measures decreases, and a hypothetical surface consisting of multiple hypotheses of the target data, respectively
  • Hypothesis curved surface generation means for generating in the threshold space corresponding to the pruning scale, and hypothesis pruning for pruning multiple hypotheses of the target data with the position where the generated hypothetical surface intersects the threshold curved surface as a pruning threshold Means.
  • the computer program of the present invention is a computer program of the data processing apparatus of the present invention, in which test data in which a correct hypothesis is confirmed is input for each predetermined input unit in the learning mode, and the target data for the hypothesis search in the search mode.
  • Hypothesis scale calculation processing that calculates multiple pruning scales for each of multiple hypotheses, and multiple hypotheses of the input test data are defined by multiple pruning scales corresponding to each calculated pruning scale
  • Data plot processing to plot in the threshold space and equal density to set multiple equal density surfaces in the threshold space corresponding to the density of multiple hypotheses plotted Threshold space is defined as a threshold surface consisting of a plurality of pruning thresholds that rise when at least one of a plurality of pruning scales is reduced, with a part of one selected from a plurality of equal density surfaces as a part.
  • Threshold surface generation processing to be generated, hypothetical surface generation processing to generate a hypothetical surface consisting of a plurality of hypotheses of the target data in the threshold space corresponding to each calculated pruning scale, and the generated hypothetical surface is a threshold surface And a hypothesis pruning process for pruning a plurality of hypotheses of the target data with the position where the crossing is taken as a pruning threshold.
  • the data processing method of the present invention is a data processing method of the data processing apparatus of the present invention, in which test data for which a correct hypothesis is confirmed is input for each predetermined input unit in the learning mode, and hypothesis search is performed in the search mode.
  • Hypothesis scale calculation operation that calculates multiple pruning measures for multiple hypotheses of data, and multiple hypotheses of input test data are defined by multiple pruning scales corresponding to the calculated pruning scales, respectively.
  • a data plotting operation for plotting in a threshold space a uniform density surface setting operation for setting a plurality of isodensity surfaces in the threshold space corresponding to the density of the plotted hypotheses, Threshold surface that generates a threshold surface in the threshold space that includes a plurality of pruning thresholds that increase when at least one of a plurality of pruning scales decreases, with a part selected from a number of equi-density surfaces as a part Generation operation, hypothetical surface generation operation that generates a hypothetical surface consisting of multiple hypotheses of the target data in the threshold space corresponding to each calculated pruning scale, and the position where the generated hypothetical surface intersects the threshold surface And a hypothesis pruning operation for pruning a plurality of hypotheses of the target data as a pruning threshold.
  • the various components of the present invention need only be formed so as to realize their functions.
  • dedicated hardware that exhibits a predetermined function
  • data processing in which a predetermined function is provided by a computer program It can be realized as an apparatus, a predetermined function realized in the data processing apparatus by a computer program, an arbitrary combination thereof, or the like.
  • a plurality of components are formed as a single member, and a single component is formed of a plurality of members. It may be that a certain component is a part of another component, a part of a certain component overlaps with a part of another component, or the like.
  • the order of the plurality of processes and the plurality of operations can be changed within a range that does not hinder the contents.
  • the computer program and the data processing method of the present invention are not limited to being executed at a timing when a plurality of processes and a plurality of operations are individually different. For this reason, other processes and operations occur during execution of certain processes and operations, and the execution timing of certain processes and operations overlaps with the execution timing of other processes and operations. Etc.
  • the data processing apparatus reads a computer program and executes a corresponding processing operation, so that a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), an I / F It can be implemented as hardware constructed by general-purpose devices such as (Interface) units, dedicated logic circuits constructed to execute predetermined processing operations, combinations thereof, and the like.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • I / F I/ F
  • causing the data processing apparatus to execute various operations corresponding to the computer program also means causing the data processing apparatus to control operations of the various devices.
  • storing various data in the data processing device means that the CPU stores various data in an information storage medium such as an HDD (Hard Disc Drive) fixed to the data processing device, and can be exchanged for the data processing device.
  • the CPU allows various data to be stored by the CD drive in an information storage medium such as a CD-R (Compact Disc-Recordable) loaded.
  • the data input means inputs test data for which a correct hypothesis is confirmed in the learning mode for each predetermined input unit, and inputs target data for the hypothesis search for each input unit in the search mode.
  • the feature quantity extraction unit extracts the feature quantity by analyzing the input test data and target data.
  • the hypothesis scale calculation means calculates a plurality of pruning scales for each of a plurality of hypotheses of the test data and the target data using the extracted feature amount.
  • the data plotting means plots a plurality of hypotheses of the input test data in a threshold space defined by a plurality of pruning scales corresponding to each calculated pruning scale. A plurality of equal density surfaces are set in the threshold space corresponding to the plotted densities of the plurality of hypotheses.
  • Threshold surface generation means for generating a threshold curved surface consisting of a plurality of pruning thresholds, at least one of which increases when at least one of a plurality of pruning scales decreases, with a part selected from a plurality of equal density surfaces as a threshold.
  • Hypothesis surface generation means generates a hypothesis surface consisting of a plurality of hypotheses of the target data in the threshold space corresponding to the calculated pruning scale.
  • the hypothesis pruning means prunes a plurality of hypotheses of the target data using the position where the generated hypothesis curved surface intersects the threshold curved surface as a pruning threshold. For this reason, when searching for one hypothesis from the target data in the search mode, a plurality of pruning scales of the pruning threshold changes appropriately. Therefore, it is possible to provide a data processing device having at least one of recognition speed and recognition accuracy higher than the conventional one.
  • the data processing apparatus 200 inputs test data TD in which a correct hypothesis is confirmed in the learning mode for each predetermined input unit, and in the search mode, the target data CD for hypothesis search.
  • Data input unit 201 for each input unit feature amount extraction unit 202 that analyzes input test data TD and target data CD and extracts each feature amount CV, and the extracted feature amount CV.
  • a hypothesis scale calculation unit 203 that calculates a plurality of pruning measures PM for each of a plurality of hypotheses of the test data TD and the target data CD, and a plurality of hypotheses of the input test data TD correspond to the calculated pruning measures PM, respectively.
  • An equal density surface setting unit 205 that sets the density surface EC in the threshold space SS, and at least one of the plurality of pruning scales PM with a part of one selected from the plurality of equal density surfaces EC as a part decreases.
  • a threshold curved surface generating unit 206 that generates a threshold curved surface SC composed of a plurality of pruning thresholds PS that rises in the threshold space SS, and a hypothetical curved surface HC composed of a plurality of hypotheses of the target data CD as calculated pruning measures PM.
  • a hypothesis curved surface generation unit 207 that generates in the threshold space SS, and a hypothesis pruning that prunes a plurality of hypotheses of the target data CD with the position where the generated hypothetical curved surface HC intersects the threshold curved surface SC as a pruning threshold PS.
  • a hypothesis pruning that prunes a plurality of hypotheses of the target data CD with the position where the generated hypothetical curved surface HC intersects the threshold curved surface SC as a pruning threshold PS.
  • the data processing device 200 searches the statistical model 210 for calculating the score of the target data, and the search result having the maximum score accumulated from a plurality of hypotheses pruned in the search mode. And a result output unit 209 that outputs as SR.
  • the threshold space SS is composed of a two-dimensional threshold plane SS defined by a score difference SD from a maximum likelihood hypothesis of a hypothesis having two pruning measures PM and a hypothesis rank HR.
  • the hypothesis scale calculation unit 203 calculates a score for each of a plurality of hypotheses of the test data TD and the target data CD using the extracted feature quantity CV, and calculates the score difference SD and the hypothesis rank HR as a pruning scale PM. .
  • the equal density surface setting unit 205 sets, on the threshold plane SS, equal density lines EC that are a plurality of equal density surfaces EC corresponding to the plotted densities of a plurality of hypotheses.
  • the threshold curved surface generation unit 206 includes a plurality of pruning thresholds PS, one of which is selected from a plurality of isodensity lines EC, and the other is increased when one of the score difference SD and the hypothesis ranking HR decreases.
  • the threshold curve SC is generated on the threshold plane SS as the threshold curved surface SC.
  • the hypothesis curved surface generation unit 207 generates a hypothesis curve composed of a plurality of hypotheses of the target data CD on the threshold plane SS corresponding to the score difference SD and hypothesis rank HR calculated as the hypothesis curved surface HC.
  • the data processing apparatus 200 is realized as a computer apparatus in which a computer program is installed, for example.
  • the computer program includes, for example, a data input process in which test data TD in which a correct hypothesis is confirmed is input for each predetermined input unit in the learning mode and the target data CD for hypothesis search is input for each input unit in the search mode.
  • It is composed of a plurality of pruning threshold values PS that increase when at least one of a plurality of pruning scales PM falls, with a part of one selected from a plurality of isodensity lines EC as a part, and equal density surface setting processing
  • Threshold surface generation processing for generating a threshold curve SC on the threshold plane SS
  • hypothesis curved surface generation for generating a hypothetical surface HC composed of a plurality of hypotheses of the target data CD on the threshold plane SS corresponding to each calculated pruning scale PM
  • hypothesis pruning processing for pruning a plurality of hypotheses of the target data CD using the position at which the generated hypothesis curved surface HC intersects the threshold curve SC as a pruning threshold PS, and a plurality of hypotheses pruned in the search mode
  • a result output process for outputting the one with the largest accumulated score as the search result SR.
  • the data processing apparatus 200 is set as an operation mode in which a learning mode and a search mode can be switched, for example.
  • a threshold curve SC that is a threshold curve SC is generated from the input test data TD and set in the data processing device 200.
  • the set threshold curve SC is displayed. Utilizing this, one hypothesis is output as a search result from the input target data CD.
  • test data TD and target data CD as speech data and hypothesis search as speech recognition
  • step S1-Y test data TD for which a correct hypothesis is confirmed is input for each voice frame as a predetermined input unit. At this time, a sufficient amount of test data TD is input under a sufficiently wide beam width.
  • step S3 Analyze the input test data TD to extract the feature value CV (step S3) This extraction is performed, for example, by detecting MFCC (Mel Frequency Cepstrum Coefficient) from the spectrum of the input voice of the test data TD inputted for each voice frame.
  • MFCC Mel Frequency Cepstrum Coefficient
  • a plurality of pruning scales PM is calculated for each of a plurality of hypotheses of the test data TD using the extracted feature quantity CV (step S4). More specifically, a score that is a likelihood is obtained from the feature quantity CV of the extracted test data TD and the statistical model 210, and the score of each hypothesis is calculated by adding it to the cumulative score.
  • Such calculation of the score is executed by, for example, adding an acoustic score and a language score in speech recognition.
  • the score difference SD from the maximum likelihood hypothesis of the hypothesis and the hypothesis rank HR are calculated as the pruning measure PM for speech recognition as described above.
  • a plurality of hypotheses of the input test data TD are associated with the score difference SD and the hypothesis rank HR from the maximum likelihood hypothesis calculated as described above, as shown in FIG.
  • a plot is made on the threshold plane SS, which is a two-dimensional threshold space SS defined by the pruning scale PM (step S5).
  • a plurality of equal density lines EC which are special solutions of the equal density surface EC, are set in the threshold plane SS as shown (step S6). ).
  • one is selected from a plurality of isodensity lines EC as shown in FIG. 5 in accordance with the performance and specifications of the data processing apparatus 200 and the required recognition accuracy.
  • a certain threshold curve SC is generated on the threshold plane SS (step S7).
  • the threshold curve SC is generated by using a specific curve such as a parabola so that when one of the two pruning scales PM decreases with a part of the isodensity line EC as a part, the other increases. This is executed by connecting to a part of the equal density line EC.
  • the threshold curve SC generated in this way is set in the hypothesis pruning unit 208 (step S8), and the learning mode of the data processing device 200 is completed.
  • the data processing apparatus 200 that has completed learning can perform speech recognition using the prepared threshold curve SC.
  • the data processing device 200 is set to the search mode (step T1-Y), and the target speech that is the target data CD of the hypothesis search is input for each speech frame that is an input unit (step T2). ).
  • the input test data TD is analyzed to extract each feature quantity CV (step T3).
  • the score difference SD and the hypothesis rank HR from the maximum likelihood hypothesis are calculated as a plurality of pruning measures PM for each of a plurality of hypotheses of the target data CD using the extracted feature quantity CV (step T4).
  • a hypothesis curve HC which is a special solution of the hypothesis curved surface HC composed of a plurality of hypotheses of the target data CD, is generated on the threshold plane SS corresponding to each calculated pruning scale PM. (Step T6).
  • the hypothesis curve HC of the target data CD for each audio frame intersects the threshold curve SC. Therefore, a plurality of hypotheses of the target data CD are pruned using the position at which the hypothetical curved surface HC intersects the threshold curve SC as the pruning threshold PS (step T7).
  • step T8 it is determined for each audio frame whether or not it is the final audio frame of the target data CD (step T8). If it is not the final audio frame (step T8-N), the next audio frame is received from the target data (step T2). .
  • step T8-Y If it is the final speech frame (step T8-Y), the cumulative scores of the plurality of hypotheses pruned as described above are compared (step T9), and the hypothesis having the maximum cumulative score is output as the search result SR (step S9). T10). The hypothesis of the maximum score is output as a result.
  • the data input unit 201 inputs test data TD for which a correct hypothesis is confirmed in the learning mode for each predetermined input unit, and in the search mode, the target of the hypothesis search Data CD is input for each input unit.
  • the input test data TD and the target data CD are analyzed, and the feature quantity extraction unit 202 extracts the feature quantity CV.
  • the hypothesis scale calculation unit 203 calculates a plurality of pruning measures PM for each of a plurality of hypotheses of the test data TD and the target data CD using the extracted feature amount CV.
  • the data plotting unit 204 plots a plurality of hypotheses of the input test data TD on the threshold plane SS defined by the plurality of pruning scales PM corresponding to the calculated pruning scales PM.
  • the equal density surface setting unit 205 sets a plurality of equal density lines EC on the threshold plane SS corresponding to the plotted densities of the plurality of hypotheses.
  • a threshold curve SC composed of a plurality of pruning thresholds PS that rises when at least one of the plurality of pruning scales PM decreases with a part of one selected from the plurality of isodensity lines EC as a threshold plane SS. Is generated by the threshold curved surface generation unit 206.
  • the hypothesis curved surface generation unit 207 generates a hypothesis curve HC composed of a plurality of hypotheses of the target data CD on the threshold plane SS corresponding to each calculated pruning scale PM.
  • the hypothesis pruning unit 208 prunes a plurality of hypotheses of the target data CD using the position where the generated hypothesis curve HC intersects the threshold curve SC as a pruning threshold PS.
  • the plurality of pruning scales PM of the pruning threshold PS change appropriately. Therefore, it is possible to provide the data processing device 200 having at least one of the recognition speed and the recognition accuracy higher than the conventional one.
  • the hypothetical pruning is executed by generating the threshold curve SC and the hypothesis curve HC on the two-dimensional threshold plane SS defined by the two pruning scales PM.
  • hypothetical pruning may be executed by generating a threshold curved surface SC and a hypothetical curved surface HC in a three-dimensional or higher threshold space SS defined by three or more pruning scales PM.
  • the threshold space SS is four-dimensional or more
  • the threshold curved surface SC and the hypothetical curved surface HC are expressed as mathematical hypersurfaces (not shown).
  • test data TD and the target data CD are input voices, and the data processing apparatus 200 performs voice recognition.
  • the data processing apparatus 200 of the present embodiment can be used for image recognition and the like as well.
  • each unit of the data processing apparatus is logically realized as various functions by a computer program.
  • each of these units can be formed as unique hardware, or can be realized as a combination of software and hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

 入力されるテストデータ(TD)の特徴量(CV)から複数の枝刈尺度(PM)を計算し、閾値空間(SS)にプロットして複数の等密度面(EC)を設定し、一つの等密度面(EC)の一部を一部として複数の枝刈尺度(PM)の少なくとも一つが低下すると少なくとも一つが上昇する閾値曲面(SC)を生成し、対象データ(CD)の仮説曲面(HC)を閾値空間(SS)に生成して閾値曲面(SC)と交差する位置を枝刈閾値(PS)とし、対象データ(CD)の複数の仮説を枝刈する。これにより、従来と比較して認識速度と認識精度との少なくとも一方が高いデータ処理装置を提供する。

Description

データ処理装置、そのコンピュータプログラムおよびデータ処理方法
 本発明は、入力される対象データから仮説を探索するデータ処理装置に関し、特に、探索の途中において枝刈閾値を超える仮説を枝刈りするデータ処理装置、そのコンピュータプログラムおよびデータ処理方法、に関する。
 仮説探索問題に関して、探索の途中において枝刈閾値を超える枝刈尺度を持つ仮説を枝刈りし、計算量を削減するビームサーチが探索の効率化のためにしばしば行われる。ビームサーチの枝刈尺度として、最尤仮説とのスコア差および仮説数の二つの尺度が広く一般に用いられている。
 スコア差閾値は、その閾値よりも最尤仮説とスコア差が開いた仮説を枝刈りするために用いられ、仮説数閾値は仮説順位が閾値よりも大きい仮説を枝刈りするために用いられる。
 これらの閾値はそれぞれ静的に固定した値としてもよいし、何らかの基準を用いて音声フレームごとに動的に変化させてもよい。例えば、各音声フレームでの音響的な信頼度を算出し、それに応じてスコア差閾値の調整を動的に行う技術が提案されている。
 図7に示すように、この従来のデータ処理装置は、データ入力手段101と、特徴量抽出手段102と、仮説スコア計算手段103と、統計モデル104と、動的閾値設定手段105と、仮説枝刈手段106と、結果出力手段107とを備える。
 このような構成を有する従来のデータ処理装置は、次のように動作する。すなわち、データ入力手段101は探索が行われるデータの入力を行い、特徴量抽出手段102は対象データから特徴量を抽出し、仮説スコア計算手段103は統計モデル104を用いて特徴量のスコアを計算し、動的閾値設定手段105は枝刈に用いられるそれぞれの尺度での閾値を設定し、仮説枝刈手段106が枝刈閾値を基準として仮説の枝刈を行い、結果出力手段107が最終的に最もスコアの高い仮説を結果として出力する(非特許文献1)。
 しかし、例えば仮説数閾値を用いて探索を行う従来のデータ処理装置において、枝刈前の仮説数が仮説数閾値を超えてしまう場合に着目すると、図8に示すように、最尤仮説からのスコア差が大きい仮説で仮説数閾値に達した場合(A)も、最尤仮説からのスコア差が小さい仮説で仮説数閾値に達した場合(B)も、同じ数(n)の仮説を残すことになる。
 しかし、前者ではa、後者ではbのスコア差閾値を用いて枝刈りしているのと同等であり、小さいスコア差閾値であるbで枝刈りを行った場合、正解仮説を誤って枝刈りし、探索誤りを引き起こす可能性が高くなってしまう。
 複数の枝刈尺度を用いる場合、上述のように一つの枝刈閾値を超えた場合には、他の枝刈尺度について全く閾値に達しない値だろうと、閾値に近い値であろうと、閾値を超えた尺度のみで枝刈を行ってしまい、探索誤りを引き起こしやすいという課題がある。
 本発明は上述のような課題に鑑みてなされたものであり、従来と比較して認識速度と認識精度との少なくとも一方が高いデータ処理装置、そのコンピュータプログラムおよびデータ処理方法、を提供するものである。
 本発明のデータ処理装置は、学習モードでは正解仮説が確定しているテストデータを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データを入力単位ごとに入力するデータ入力手段と、入力されたテストデータおよび対象データを分析して特徴量を各々抽出する特徴量抽出手段と、抽出された特徴量を用いてテストデータおよび対象データの複数の仮説ごとに複数の枝刈尺度を計算する仮説尺度計算手段と、入力されたテストデータの複数の仮説を各々計算された枝刈尺度に対応して複数の枝刈尺度で規定されている閾値空間にプロットするデータプロット手段と、プロットされた複数の仮説の密度に対応して複数の等密度面を閾値空間に設定する等密度面設定手段と、複数の等密度面から選定された一つの一部を一部として複数の枝刈尺度の少なくとも一つが低下すると少なくとも一つが上昇する複数の枝刈閾値からなる閾値曲面を閾値空間に生成する閾値曲面生成手段と、対象データの複数の仮説からなる仮説曲面を各々計算された枝刈尺度に対応して閾値空間に生成する仮説曲面生成手段と、生成された仮説曲面が閾値曲面と交差する位置を枝刈閾値として対象データの複数の仮説を枝刈する仮説枝刈手段と、を有する。
 本発明のコンピュータプログラムは、本発明のデータ処理装置のコンピュータプログラムであって、学習モードでは正解仮説が確定しているテストデータを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データを入力単位ごとに入力するデータ入力処理と、入力されたテストデータおよび対象データを分析して特徴量を各々抽出する特徴量抽出処理と、抽出された特徴量を用いてテストデータおよび対象データの複数の仮説ごとに複数の枝刈尺度を計算する仮説尺度計算処理と、入力されたテストデータの複数の仮説を各々計算された枝刈尺度に対応して複数の枝刈尺度で規定されている閾値空間にプロットするデータプロット処理と、プロットされた複数の仮説の密度に対応して複数の等密度面を閾値空間に設定する等密度面設定処理と、複数の等密度面から選定された一つの一部を一部として複数の枝刈尺度の少なくとも一つが低下すると少なくとも一つが上昇する複数の枝刈閾値からなる閾値曲面を閾値空間に生成する閾値曲面生成処理と、対象データの複数の仮説からなる仮説曲面を各々計算された枝刈尺度に対応して閾値空間に生成する仮説曲面生成処理と、生成された仮説曲面が閾値曲面と交差する位置を枝刈閾値として対象データの複数の仮説を枝刈する仮説枝刈処理と、をデータ処理装置に実行させる。
 本発明のデータ処理方法は、本発明のデータ処理装置のデータ処理方法であって、学習モードでは正解仮説が確定しているテストデータを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データを入力単位ごとに入力するデータ入力動作と、入力されたテストデータおよび対象データを分析して特徴量を各々抽出する特徴量抽出動作と、抽出された特徴量を用いてテストデータおよび対象データの複数の仮説ごとに複数の枝刈尺度を計算する仮説尺度計算動作と、入力されたテストデータの複数の仮説を各々計算された枝刈尺度に対応して複数の枝刈尺度で規定されている閾値空間にプロットするデータプロット動作と、プロットされた複数の仮説の密度に対応して複数の等密度面を閾値空間に設定する等密度面設定動作と、複数の等密度面から選定された一つの一部を一部として複数の枝刈尺度の少なくとも一つが低下すると少なくとも一つが上昇する複数の枝刈閾値からなる閾値曲面を閾値空間に生成する閾値曲面生成動作と、対象データの複数の仮説からなる仮説曲面を各々計算された枝刈尺度に対応して閾値空間に生成する仮説曲面生成動作と、生成された仮説曲面が閾値曲面と交差する位置を枝刈閾値として対象データの複数の仮説を枝刈する仮説枝刈動作と、を有する。
 なお、本発明の各種の構成要素は、その機能を実現するように形成されていればよく、例えば、所定の機能を発揮する専用のハードウェア、所定の機能がコンピュータプログラムにより付与されたデータ処理装置、コンピュータプログラムによりデータ処理装置に実現された所定の機能、これらの任意の組み合わせ、等として実現することができる。
 また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。
 また、本発明のコンピュータプログラムおよびデータ処理方法は、複数の処理および動作を順番に記載してあるが、その記載の順番は複数の処理および複数の動作を実行する順番を限定するものではない。
 このため、本発明のコンピュータプログラムおよびデータ処理方法を実施するときには、その複数の処理および複数の動作の順番は内容的に支障しない範囲で変更することができる。
 さらに、本発明のコンピュータプログラムおよびデータ処理方法は、複数の処理および複数の動作が個々に相違するタイミングで実行されることに限定されない。このため、ある処理および動作の実行中に他の処理および動作が発生すること、ある処理および動作の実行タイミングと他の処理および動作の実行タイミングとの一部ないし全部が重複していること、等でもよい。
 また、本発明で云うデータ処理装置は、コンピュータプログラムを読み取って対応する処理動作を実行できるように、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、I/F(Interface)ユニット、等の汎用デバイスで構築されたハードウェア、所定の処理動作を実行するように構築された専用の論理回路、これらの組み合わせ、等として実施することができる。
 なお、本発明でコンピュータプログラムに対応した各種動作をデータ処理装置に実行させることは、各種デバイスをデータ処理装置に動作制御させることなども意味している。
 例えば、データ処理装置に各種データを記憶させることは、データ処理装置に固定されているHDD(Hard Disc Drive)等の情報記憶媒体にCPUが各種データを格納すること、データ処理装置に交換自在に装填されているCD-R(Compact Disc-Recordable)等の情報記憶媒体にCPUがCDドライブで各種データを格納すること、等を許容する。
 本発明のデータ処理装置では、データ入力手段が学習モードでは正解仮説が確定しているテストデータを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データを入力単位ごとに入力する。入力されたテストデータおよび対象データを分析して特徴量を特徴量抽出手段が各々抽出する。抽出された特徴量を用いてテストデータおよび対象データの複数の仮説ごとに複数の枝刈尺度を仮説尺度計算手段が計算する。入力されたテストデータの複数の仮説を各々計算された枝刈尺度に対応して複数の枝刈尺度で規定されている閾値空間にデータプロット手段がプロットする。プロットされた複数の仮説の密度に対応して複数の等密度面を閾値空間に等密度面設定手段が設定する。複数の等密度面から選定された一つの一部を一部として複数の枝刈尺度の少なくとも一つが低下すると少なくとも一つが上昇する複数の枝刈閾値からなる閾値曲面を閾値空間に閾値曲面生成手段が生成する。対象データの複数の仮説からなる仮説曲面を各々計算された枝刈尺度に対応して閾値空間に仮説曲面生成手段が生成する。生成された仮説曲面が閾値曲面と交差する位置を枝刈閾値として対象データの複数の仮説を仮説枝刈手段が枝刈する。このため、探索モードで対象データから一つの仮説を探索するとき、枝刈閾値の複数の枝刈尺度が適正に変化する。従って、従来と比較して認識速度と認識精度との少なくとも一方が高いデータ処理装置を提供することができる。
 上述した目的、および、その他の目的、特徴および利点は、以下に述べる好適な実施の形態、および、それに付随する以下の図面によって、さらに明らかになる。
本発明の実施の形態のデータ処理システムの論理構造を示す模式的なブロック図である。 データ処理装置による学習モードのデータ処理方法を示すフローチャートである。 データ処理装置による探索モードのデータ処理方法を示すフローチャートである。 閾値空間である閾値平面にテストデータの仮説がプロットされて等密度面である等密度線が生成された状態を示す模式的な特性図である。 閾値平面に一つの等密度線に対応して閾値曲面である閾値曲線が生成された状態を示す模式的な特性図である。 閾値平面に入力単位である音声フレームごとに仮説曲面である仮説曲線が生成された状態を示す模式的な特性図である。 一従来例のデータ処理システムの論理構造を示す模式的なブロック図である。 一従来例の閾値平面を示す模式的な特性図である。
 本発明の実施の一形態を図1ないし図6を参照して以下に説明する。本実施の形態のデータ処理装置200は、図1に示すように、学習モードでは正解仮説が確定しているテストデータTDを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データCDを入力単位ごとに入力するデータ入力部201と、入力されたテストデータTDおよび対象データCDを分析して特徴量CVを各々抽出する特徴量抽出部202と、抽出された特徴量CVを用いてテストデータTDおよび対象データCDの複数の仮説ごとに複数の枝刈尺度PMを計算する仮説尺度計算部203と、入力されたテストデータTDの複数の仮説を各々計算された枝刈尺度PMに対応して複数の枝刈尺度PMで規定されている閾値空間SSにプロットするデータプロット部204と、プロットされた複数の仮説の密度に対応して複数の等密度面ECを閾値空間SSに設定する等密度面設定部205と、複数の等密度面ECから選定された一つの一部を一部として複数の枝刈尺度PMの少なくとも一つが低下すると少なくとも一つが上昇する複数の枝刈閾値PSからなる閾値曲面SCを閾値空間SSに生成する閾値曲面生成部206と、対象データCDの複数の仮説からなる仮説曲面HCを各々計算された枝刈尺度PMに対応して閾値空間SSに生成する仮説曲面生成部207と、生成された仮説曲面HCが閾値曲面SCと交差する位置を枝刈閾値PSとして対象データCDの複数の仮説を枝刈する仮説枝刈部208と、を有する。
 さらに、本実施の形態のデータ処理装置200は、対象データのスコアを算出するための統計モデル210と、探索モードで枝刈された複数の仮説から累積されたスコアが最大の一つを探索結果SRとして出力する結果出力部209と、も有する。
 より詳細には、閾値空間SSが二つの枝刈尺度PMである仮説の最尤仮説からのスコア差SDと仮説順位HRとで規定されている二次元の閾値平面SSからなる。仮説尺度計算部203は、抽出された特徴量CVを用いてテストデータTDおよび対象データCDの複数の仮説ごとにスコアを算出してスコア差SDと仮説順位HRとを枝刈尺度PMとして計算する。
 等密度面設定部205は、プロットされた複数の仮説の密度に対応して複数の等密度面ECである等密度線ECを閾値平面SSに設定する。閾値曲面生成部206は、複数の等密度線ECから選定された一つの一部を一部としてスコア差SDと仮説順位HRとの一方が低下すると他方が上昇する複数の枝刈閾値PSからなる閾値曲線SCを閾値曲面SCとして閾値平面SSに生成する。
 仮説曲面生成部207は、対象データCDの複数の仮説からなる仮説曲線を仮説曲面HCとして各々計算されたスコア差SDと仮説順位HRとに対応して閾値平面SSに生成する。
 本実施の形態のデータ処理装置200は、例えば、コンピュータプログラムが実装されたコンピュータ装置として実現される。そのコンピュータプログラムは、例えば、学習モードでは正解仮説が確定しているテストデータTDを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データCDを入力単位ごとに入力するデータ入力処理と、入力されたテストデータTDおよび対象データCDを分析して特徴量CVを各々抽出する特徴量抽出処理と、抽出された特徴量CVを用いてテストデータTDおよび対象データCDの複数の仮説ごとに複数の枝刈尺度PMを計算する仮説尺度計算処理と、入力されたテストデータTDの複数の仮説を各々計算された枝刈尺度PMに対応して複数の枝刈尺度PMで規定されている閾値平面SSにプロットするデータプロット処理と、プロットされた複数の仮説の密度に対応して複数の等密度線ECを閾値平面SSに設定する等密度面設定処理と、複数の等密度線ECから選定された一つの一部を一部として複数の枝刈尺度PMの少なくとも一つが低下すると少なくとも一つが上昇する複数の枝刈閾値PSからなる閾値曲線SCを閾値平面SSに生成する閾値曲面生成処理と、対象データCDの複数の仮説からなる仮説曲面HCを各々計算された枝刈尺度PMに対応して閾値平面SSに生成する仮説曲面生成処理と、生成された仮説曲面HCが閾値曲線SCと交差する位置を枝刈閾値PSとして対象データCDの複数の仮説を枝刈する仮説枝刈処理と、探索モードで枝刈された複数の仮説から累積されたスコアが最大の一つを探索結果SRとして出力する結果出力処理と、をデータ処理装置200に実行させるように記述されている。
 上述のような構成において、本実施の形態のデータ処理装置によるデータ処理方法を以下に説明する。まず、本実施の形態のデータ処理装置200は、図2および図3に示すように、例えば、学習モードと探索モードとが切換自在な動作モードとして設定されている。
 図2に示すように、学習モードでは、入力されるテストデータTDから閾値曲線SCである閾値曲線SCが生成されてデータ処理装置200に設定され、探索モードでは、設定されている閾値曲線SCを利用して、入力される対象データCDから一つの仮説が探索結果として出力される。
 なお、以下ではデータ処理装置200がテストデータTDおよび対象データCDを音声データとして、仮説探索を音声認識として実行する場合を例示する。まず、図2に示すように、学習モードでは(ステップS1-Y)、正解仮説が確定しているテストデータTDが所定の入力単位である音声フレームごとに入力される(ステップS2)。このとき、十分な量のテストデータTDを十分に広げたビーム幅のもとで入力する。
 入力されたテストデータTDを分析して特徴量CVを抽出する(ステップS3)。この抽出は、例えば、音声フレームごとに入力されるテストデータTDの入力音声のスペクトルからMFCC(Mel Frequency Cepstrum Coefficient)を検出することで実行される。
 つぎに、抽出された特徴量CVを用いてテストデータTDの複数の仮説ごとに複数の枝刈尺度PMを計算する(ステップS4)。より詳細には、抽出されたテストデータTDの特徴量CVと統計モデル210とから尤度であるスコアを求め、累積スコアに加算することで、各仮説のスコアを計算する。
 このようなスコアの算出は、例えば、音声認識では音響スコアと言語スコアとの加算などで実行される。そして、本実施の形態では、音声認識の枝刈尺度PMとして、前述のように仮説の最尤仮説からのスコア差SDと仮説順位HRとが算出される。
 つぎに、入力されたテストデータTDの複数の仮説を、上述のように各々計算された最尤仮説からのスコア差SDと仮説順位HRとに対応して、図4に示すように、これらの枝刈尺度PMで規定されている二次元の閾値空間SSである閾値平面SSにプロットする(ステップS5)。
 つぎに、上述のようにプロットされた複数の仮説の密度に対応して、図示するように、等密度面ECの特殊解である複数の等密度線ECを閾値平面SSに設定する(ステップS6)。
 ここでデータ処理装置200の性能や仕様や要求される認識精度などに対応して、図5に示すように、複数の等密度線ECから一つが選定される。そして、この選定された一つの等密度線ECの一部を一部として、二つの枝刈尺度PMの一方が低下すると他方が上昇する複数の枝刈閾値PSからなる閾値曲面SCの特殊解である閾値曲線SCが閾値平面SSに生成される(ステップS7)。
 この閾値曲線SCの生成は、上述のように等密度線ECの一部を一部として二つの枝刈尺度PMの一方が低下すると他方が上昇するように、例えば、放物線などの特定の曲線を等密度線ECの一部に接続することなどで実行される。
 このように生成された閾値曲線SCが仮説枝刈部208に設定されることで(ステップS8)、データ処理装置200の学習モードが完了する。このように学習が完了したデータ処理装置200は、準備された閾値曲線SCを利用して音声認識を実行することができる。
 その場合、図3に示すように、データ処理装置200が探索モードとされ(ステップT1-Y)、仮説探索の対象データCDである対象音声を入力単位である音声フレームごとに入力する(ステップT2)。
 つぎに、学習モードの場合と同様に、入力されたテストデータTDを分析して特徴量CVを各々抽出する(ステップT3)。つぎに、抽出された特徴量CVを用いて対象データCDの複数の仮説ごとに複数の枝刈尺度PMとして、最尤仮説からのスコア差SDと仮説順位HRとを計算する(ステップT4)。
 つぎに、対象データCDの複数の仮説からなる仮説曲面HCの特殊解である仮説曲線HCを、図6に示すように、各々計算された枝刈尺度PMに対応して閾値平面SSに生成する(ステップT6)。
 すると、図示するように、音声フレームごとの対象データCDの仮説曲線HCは、閾値曲線SCと交差することになる。そこで、このように仮説曲面HCが閾値曲線SCと交差する位置を枝刈閾値PSとして、対象データCDの複数の仮説を枝刈する(ステップT7)。
 そして、音声フレームごとに対象データCDの最終の音声フレームかどうかを判断し(ステップT8)、最終音声フレームでなければ(ステップT8-N)、対象データから次の音声フレームを受け取る(ステップT2)。
 最終音声フレームであれば(ステップT8-Y)、上述のように枝刈された複数の仮説の累積スコアが比較され(ステップT9)、累積スコアが最大の仮説を探索結果SRとして出力する(ステップT10)。最大スコアの仮説を結果として出力する。
 本実施の形態のデータ処理装置200では、上述のようにデータ入力部201が学習モードでは正解仮説が確定しているテストデータTDを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データCDを入力単位ごとに入力する。
 入力されたテストデータTDおよび対象データCDを分析して特徴量CVを特徴量抽出部202が各々抽出する。抽出された特徴量CVを用いてテストデータTDおよび対象データCDの複数の仮説ごとに複数の枝刈尺度PMを仮説尺度計算部203が計算する。
 入力されたテストデータTDの複数の仮説を各々計算された枝刈尺度PMに対応して複数の枝刈尺度PMで規定されている閾値平面SSにデータプロット部204がプロットする。
 プロットされた複数の仮説の密度に対応して複数の等密度線ECを閾値平面SSに等密度面設定部205が設定する。複数の等密度線ECから選定された一つの一部を一部として複数の枝刈尺度PMの少なくとも一つが低下すると少なくとも一つが上昇する複数の枝刈閾値PSからなる閾値曲線SCを閾値平面SSに閾値曲面生成部206が生成する。
 対象データCDの複数の仮説からなる仮説曲線HCを各々計算された枝刈尺度PMに対応して閾値平面SSに仮説曲面生成部207が生成する。生成された仮説曲線HCが閾値曲線SCと交差する位置を枝刈閾値PSとして対象データCDの複数の仮説を仮説枝刈部208が枝刈する。
 このため、探索モードで対象データCDから一つの仮説を探索するとき、枝刈閾値PSの複数の枝刈尺度PMが適正に変化する。従って、従来と比較して認識速度と認識精度との少なくとも一方が高いデータ処理装置200を提供することができる。
 なお、本発明は本実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で各種の変形を許容する。例えば、上記形態では二つの枝刈尺度PMで規定されている二次元の閾値平面SSに、閾値曲線SCと仮説曲線HCとを生成して仮説枝刈を実行することを例示した。
 しかし、三つ以上の枝刈尺度PMで規定されている三次元以上の閾値空間SSに、閾値曲面SCと仮説曲面HCとを生成して仮説枝刈を実行してもよい。閾値空間SSが四次元以上の場合、閾値曲面SCと仮説曲面HCとは数学的な超曲面として表現される(図示せず)。
 また、上記形態ではテストデータTDおよび対象データCDが入力音声でデータ処理装置200が音声認識を実行することを例示した。しかし、本実施の形態のデータ処理装置200は、画像認識などにも同様に利用することができる。
 さらに、本実施の形態ではデータ処理装置の各部がコンピュータプログラムにより各種機能として論理的に実現されることを例示した。しかし、このような各部の各々を固有のハードウェアとして形成することもでき、ソフトウェアとハードウェアとの組み合わせとして実現することもできる。
 なお、当然ながら、上述した実施の形態および複数の変形例は、その内容が相反しない範囲で組み合わせることができる。また、上述した実施の形態および変形例では、各部の構造などを具体的に説明したが、その構造などは本願発明を満足する範囲で各種に変更することができる。
 この出願は、2010年01月06日に出願された日本出願特願2010-000940号を基礎とする優先権を主張し、その開示の全てを、ここに取り込む。

Claims (5)

  1.  学習モードでは正解仮説が確定しているテストデータを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データを前記入力単位ごとに入力するデータ入力手段と、
     入力された前記テストデータおよび前記対象データを分析して特徴量を各々抽出する特徴量抽出手段と、
     抽出された前記特徴量を用いて前記テストデータおよび前記対象データの複数の仮説ごとに複数の枝刈尺度を計算する仮説尺度計算手段と、
     入力された前記テストデータの複数の前記仮説を各々計算された前記枝刈尺度に対応して複数の前記枝刈尺度で規定されている閾値空間にプロットするデータプロット手段と、
     プロットされた複数の前記仮説の密度に対応して複数の等密度面を前記閾値空間に設定する等密度面設定手段と、
     複数の前記等密度面から選定された一つの一部を一部として複数の前記枝刈尺度の少なくとも一つが低下すると少なくとも一つが上昇する複数の前記枝刈閾値からなる閾値曲面を前記閾値空間に生成する閾値曲面生成手段と、
     前記対象データの複数の前記仮説からなる仮説曲面を各々計算された前記枝刈尺度に対応して前記閾値空間に生成する仮説曲面生成手段と、
     生成された前記仮説曲面が前記閾値曲面と交差する位置を前記枝刈閾値として前記対象データの複数の前記仮説を枝刈する仮説枝刈手段と、
    を有するデータ処理装置。
  2.  前記閾値空間が二つの前記枝刈尺度である前記仮説の最尤仮説からのスコア差と仮説順位とで規定されている二次元の閾値平面からなり、
     前記仮説尺度計算手段は、抽出された前記特徴量を用いて前記テストデータおよび前記対象データの複数の前記仮説ごとにスコアを算出して前記スコア差と前記仮説順位とを前記枝刈尺度として計算し、
     前記等密度面設定手段は、プロットされた複数の前記仮説の密度に対応して複数の前記等密度面である等密度線を前記閾値平面に設定し、
     前記閾値曲面生成手段は、複数の前記等密度線から選定された一つの一部を一部として前記スコア差と前記仮説順位との一方が低下すると他方が上昇する複数の前記枝刈閾値からなる閾値曲線を前記閾値曲面として前記閾値平面に生成し、
     前記仮説曲面生成手段は、前記対象データの複数の前記仮説からなる仮説曲線を前記仮説曲面として各々計算された前記スコア差と前記仮説順位とに対応して前記閾値平面に生成する請求項1に記載のデータ処理装置。
  3.  前記探索モードで枝刈された複数の前記仮説から累積された前記スコアが最大の一つを探索結果として出力する結果出力手段を、さらに有する請求項2に記載のデータ処理装置。
  4.  請求項1ないし3の何れか一項に記載のデータ処理装置のコンピュータプログラムであって、
     学習モードでは正解仮説が確定しているテストデータを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データを前記入力単位ごとに入力するデータ入力処理と、
     入力された前記テストデータおよび前記対象データを分析して特徴量を各々抽出する特徴量抽出処理と、
     抽出された前記特徴量を用いて前記テストデータおよび前記対象データの複数の仮説ごとに複数の枝刈尺度を計算する仮説尺度計算処理と、
     入力された前記テストデータの複数の前記仮説を各々計算された前記枝刈尺度に対応して複数の前記枝刈尺度で規定されている閾値空間にプロットするデータプロット処理と、
     プロットされた複数の前記仮説の密度に対応して複数の等密度面を前記閾値空間に設定する等密度面設定処理と、
     複数の前記等密度面から選定された一つの一部を一部として複数の前記枝刈尺度の少なくとも一つが低下すると少なくとも一つが上昇する複数の前記枝刈閾値からなる閾値曲面を前記閾値空間に生成する閾値曲面生成処理と、
     前記対象データの複数の前記仮説からなる仮説曲面を各々計算された前記枝刈尺度に対応して前記閾値空間に生成する仮説曲面生成処理と、
     生成された前記仮説曲面が前記閾値曲面と交差する位置を前記枝刈閾値として前記対象データの複数の前記仮説を枝刈する仮説枝刈処理と、
    をデータ処理装置に実行させるコンピュータプログラム。
  5.  請求項1ないし3の何れか一項に記載のデータ処理装置のデータ処理方法であって、
     学習モードでは正解仮説が確定しているテストデータを所定の入力単位ごとに入力して探索モードでは仮説探索の対象データを前記入力単位ごとに入力するデータ入力動作と、
     入力された前記テストデータおよび前記対象データを分析して特徴量を各々抽出する特徴量抽出動作と、
     抽出された前記特徴量を用いて前記テストデータおよび前記対象データの複数の仮説ごとに複数の枝刈尺度を計算する仮説尺度計算動作と、
     入力された前記テストデータの複数の前記仮説を各々計算された前記枝刈尺度に対応して複数の前記枝刈尺度で規定されている閾値空間にプロットするデータプロット動作と、
     プロットされた複数の前記仮説の密度に対応して複数の等密度面を前記閾値空間に設定する等密度面設定動作と、
     複数の前記等密度面から選定された一つの一部を一部として複数の前記枝刈尺度の少なくとも一つが低下すると少なくとも一つが上昇する複数の前記枝刈閾値からなる閾値曲面を前記閾値空間に生成する閾値曲面生成動作と、
     前記対象データの複数の前記仮説からなる仮説曲面を各々計算された前記枝刈尺度に対応して前記閾値空間に生成する仮説曲面生成動作と、
     生成された前記仮説曲面が前記閾値曲面と交差する位置を前記枝刈閾値として前記対象データの複数の前記仮説を枝刈する仮説枝刈動作と、
    を有するデータ処理方法。
PCT/JP2010/007021 2010-01-06 2010-12-02 データ処理装置、そのコンピュータプログラムおよびデータ処理方法 WO2011083528A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011548868A JP5786717B2 (ja) 2010-01-06 2010-12-02 データ処理装置、そのコンピュータプログラムおよびデータ処理方法
US13/520,728 US9047562B2 (en) 2010-01-06 2010-12-02 Data processing device, information storage medium storing computer program therefor and data processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-000940 2010-01-06
JP2010000940 2010-01-06

Publications (1)

Publication Number Publication Date
WO2011083528A1 true WO2011083528A1 (ja) 2011-07-14

Family

ID=44305275

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/007021 WO2011083528A1 (ja) 2010-01-06 2010-12-02 データ処理装置、そのコンピュータプログラムおよびデータ処理方法

Country Status (3)

Country Link
US (1) US9047562B2 (ja)
JP (1) JP5786717B2 (ja)
WO (1) WO2011083528A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013125203A1 (ja) * 2012-02-21 2013-08-29 日本電気株式会社 音声認識装置、音声認識方法およびコンピュータプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5786717B2 (ja) * 2010-01-06 2015-09-30 日本電気株式会社 データ処理装置、そのコンピュータプログラムおよびデータ処理方法
JP7005463B2 (ja) * 2018-09-27 2022-01-21 株式会社東芝 学習装置、学習方法及びプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02300798A (ja) * 1989-05-15 1990-12-12 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識装置におけるビーム制御方式
JPH04298796A (ja) * 1991-03-28 1992-10-22 Nec Corp 音声認識装置
JPH0535292A (ja) * 1991-07-26 1993-02-12 Fujitsu Ltd 動的計画法照合装置
JPH06282295A (ja) * 1993-03-29 1994-10-07 A T R Jido Honyaku Denwa Kenkyusho:Kk 適応的探索方式
JPH10153999A (ja) * 1996-11-25 1998-06-09 Nec Corp 音声認識装置
JPH10254496A (ja) * 1997-03-11 1998-09-25 Mitsubishi Electric Corp 音声認識方式
JP2001075596A (ja) * 1999-09-03 2001-03-23 Mitsubishi Electric Corp 音声認識装置、音声認識方法及び音声認識プログラムを記録した記録媒体

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6285786B1 (en) * 1998-04-30 2001-09-04 Motorola, Inc. Text recognizer and method using non-cumulative character scoring in a forward search
JP3004254B2 (ja) * 1998-06-12 2000-01-31 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
JP3660137B2 (ja) * 1998-09-25 2005-06-15 株式会社東芝 シミュレーション方法、シミュレータ、シミュレーションプログラムを記録した記録媒体および半導体装置の製造方法
WO2003005344A1 (en) * 2001-07-03 2003-01-16 Intel Zao Method and apparatus for dynamic beam control in viterbi search
US6788243B2 (en) * 2001-09-06 2004-09-07 Minister Of National Defence Of Her Majestry's Canadian Government The Secretary Of State For Defence Hidden Markov modeling for radar electronic warfare
US7603267B2 (en) * 2003-05-01 2009-10-13 Microsoft Corporation Rules-based grammar for slots and statistical model for preterminals in natural language understanding system
JP2005107743A (ja) * 2003-09-29 2005-04-21 Nec Corp 学習システム
US7946493B2 (en) * 2007-09-27 2011-05-24 Hand Held Products, Inc. Wireless bar code transaction device
JP5381988B2 (ja) * 2008-07-28 2014-01-08 日本電気株式会社 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム
US8386401B2 (en) * 2008-09-10 2013-02-26 Digital Infuzion, Inc. Machine learning methods and systems for identifying patterns in data using a plurality of learning machines wherein the learning machine that optimizes a performance function is selected
JP5786717B2 (ja) * 2010-01-06 2015-09-30 日本電気株式会社 データ処理装置、そのコンピュータプログラムおよびデータ処理方法
US8762009B2 (en) * 2010-11-18 2014-06-24 I.D. Systems, Inc. Impact sensor calibration tool
US20130268271A1 (en) * 2011-01-07 2013-10-10 Nec Corporation Speech recognition system, speech recognition method, and speech recognition program
JPWO2012093661A1 (ja) * 2011-01-07 2014-06-09 日本電気株式会社 音声認識装置、音声認識方法および音声認識プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02300798A (ja) * 1989-05-15 1990-12-12 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識装置におけるビーム制御方式
JPH04298796A (ja) * 1991-03-28 1992-10-22 Nec Corp 音声認識装置
JPH0535292A (ja) * 1991-07-26 1993-02-12 Fujitsu Ltd 動的計画法照合装置
JPH06282295A (ja) * 1993-03-29 1994-10-07 A T R Jido Honyaku Denwa Kenkyusho:Kk 適応的探索方式
JPH10153999A (ja) * 1996-11-25 1998-06-09 Nec Corp 音声認識装置
JPH10254496A (ja) * 1997-03-11 1998-09-25 Mitsubishi Electric Corp 音声認識方式
JP2001075596A (ja) * 1999-09-03 2001-03-23 Mitsubishi Electric Corp 音声認識装置、音声認識方法及び音声認識プログラムを記録した記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013125203A1 (ja) * 2012-02-21 2013-08-29 日本電気株式会社 音声認識装置、音声認識方法およびコンピュータプログラム

Also Published As

Publication number Publication date
JPWO2011083528A1 (ja) 2013-05-13
US20120310866A1 (en) 2012-12-06
JP5786717B2 (ja) 2015-09-30
US9047562B2 (en) 2015-06-02

Similar Documents

Publication Publication Date Title
KR101805976B1 (ko) 음성 인식 장치 및 방법
US20180254039A1 (en) Speech recognition method and device
US10832685B2 (en) Speech processing device, speech processing method, and computer program product
EP3121810A1 (en) Apparatus and method of acoustic score calculation and speech recognition
JP2017016131A (ja) 音声認識装置及び方法と電子装置
US20150310335A1 (en) Determining a performance prediction model for a target data analytics application
CN104538024A (zh) 语音合成方法、装置及设备
US9905224B2 (en) System and method for automatic language model generation
KR20140028174A (ko) 음성 인식 방법 및 이를 적용한 전자 장치
US11227580B2 (en) Speech recognition accuracy deterioration factor estimation device, speech recognition accuracy deterioration factor estimation method, and program
US20170169009A1 (en) Apparatus and method for amending language analysis error
EP2988298B1 (en) Response generation method, response generation apparatus, and response generation program
WO2018232591A1 (en) SEQUENCE RECOGNITION PROCESSING
US20150255090A1 (en) Method and apparatus for detecting speech segment
Kim et al. Sequential labeling for tracking dynamic dialog states
JP5786717B2 (ja) データ処理装置、そのコンピュータプログラムおよびデータ処理方法
JP6276513B2 (ja) 音声認識装置および音声認識プログラム
US20220270637A1 (en) Utterance section detection device, utterance section detection method, and program
CN109727603B (zh) 语音处理方法、装置、用户设备及存储介质
CN112259084A (zh) 语音识别方法、装置和存储介质
KR20200102309A (ko) 단어 유사도를 이용한 음성 인식 시스템 및 그 방법
KR102144044B1 (ko) 기계학습 기반 소프트웨어 정적 시험 거짓경보 분류 장치 및 방법
McDonough et al. An algorithm for fast composition of weighted finite-state transducers
JP4735958B2 (ja) テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
WO2021101500A1 (en) Rescoring automatic speech recognition hypotheses using audio-visual matching

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10842048

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011548868

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13520728

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 10842048

Country of ref document: EP

Kind code of ref document: A1