WO2009081861A1 - 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 - Google Patents
単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 Download PDFInfo
- Publication number
- WO2009081861A1 WO2009081861A1 PCT/JP2008/073192 JP2008073192W WO2009081861A1 WO 2009081861 A1 WO2009081861 A1 WO 2009081861A1 JP 2008073192 W JP2008073192 W JP 2008073192W WO 2009081861 A1 WO2009081861 A1 WO 2009081861A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- word category
- word
- model
- graph
- speech recognition
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 44
- 238000012545 processing Methods 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000014509 gene expression Effects 0.000 description 23
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Definitions
- the present invention relates to a speech recognition technology for converting speech into electronic data such as text data, and more particularly to a technology for estimating a category of a phrase being uttered.
- an information search apparatus that receives a recognition result of a voice (utterance) uttered by a user, it is important to correctly recognize phrases (keywords) effective for narrowing down information that matches the user's intention. For example, in an apparatus for searching for a television program, the programs are narrowed down using a program name or a performer name as a keyword. At this time, if a keyword included in the user's utterance is misrecognized, the program is narrowed down by the erroneous word / phrase, so that a program different from that which the speaker wants to view may be provided as a search result.
- phrases phrases
- the technology described in Document 1 is a method for identifying a specific expression class using a language model learned from text with a specific expression class.
- the specific expression class identification device As shown in FIG. 11, the specific expression class identification device according to this technique generates a word graph with a specific expression class from a speech recognition result, and uses a morpheme language model with a specific expression class to maximize the overall probability. A morpheme sequence with a proper expression class is output.
- the method described in the above-mentioned document 2 uses various features for identifying whether or not it is a specific expression as a feature of the identification model, it is extracted from the specific expression compared with the method described in the above-mentioned document 1. The accuracy may increase. However, since this method uses only a limited feature of two words before and after each word, there is a problem that it is difficult to extract a specific expression in a section where speech recognition errors continue for several words.
- the present invention has been made in view of the above problems, and when estimating a category of a phrase being uttered, a word category estimation device and a word category estimation method capable of improving robustness against speech recognition errors and estimation accuracy
- An object of the present invention is to provide a voice recognition device, a voice recognition method, a program, and a recording medium.
- a word category estimation device includes a probability model having a plurality of types of information related to a word category as features, and includes information related to the entire word category graph as at least one of the features.
- the word category model and the word category graph of the speech recognition hypothesis to be processed are input, the word category model is referenced to calculate a score for each arc constituting the word category graph, and based on these scores, word category string candidates And a word category estimation unit for outputting.
- the word category estimation method includes a probability model having a plurality of types of information related to word categories as features, and stores a word category model including information related to the entire word category graph as at least one of the features in the storage unit.
- a word category graph of a speech recognition hypothesis to be processed is input by the arithmetic processing unit, a score is calculated for each arc constituting the word category graph with reference to the word category model, and based on these scores
- the speech recognition apparatus includes a speech recognition unit that generates a speech recognition hypothesis corresponding to input speech, and a probability model having a plurality of types of information related to word categories as features, and includes at least one feature.
- a speech recognition unit that generates a speech recognition hypothesis corresponding to input speech
- a probability model having a plurality of types of information related to word categories as features, and includes at least one feature.
- Enter the word category model that contains information about the entire word category graph and the word category graph of the speech recognition hypothesis, calculate the score for each arc that makes up the word category graph by referring to the word category model, and based on these scores
- a word category estimation unit that performs word category estimation
- a re-speech recognition unit that performs speech recognition again using the word category estimation result as a vocabulary constraint.
- the speech recognition method includes a speech recognition step for generating a speech recognition hypothesis corresponding to the input speech by the arithmetic processing unit, and a probability model having a plurality of types of information related to word categories as features, A step of storing a word category model including information on the entire word category graph as at least one feature in the storage unit, and a word category graph of the speech recognition hypothesis is input by the arithmetic processing unit, and the word category model is referred to and the word A word category estimation step for calculating a score for each arc constituting the category graph and estimating a word category based on these scores, and a re-voice recognition for performing speech recognition again using the word category estimation result as a vocabulary constraint by an arithmetic processing unit. And steps.
- FIG. 1 is a block diagram showing the configuration of the word category estimation apparatus according to the first embodiment of the present invention.
- FIG. 2 is a block diagram showing the configuration of the word category estimation apparatus according to the first embodiment of the present invention.
- FIG. 3 is an example of a word graph.
- FIG. 4 is an example of a word category graph.
- FIG. 5 is an example of features relating to word categories.
- FIG. 6 is an example of the features of the word category model.
- FIG. 7 is a flowchart showing word category estimation processing of the word category estimation device according to the first embodiment of the present invention.
- FIG. 8 is a block diagram showing the configuration of the word category estimation apparatus according to the second embodiment of the present invention.
- FIG. 1 is a block diagram showing the configuration of the word category estimation apparatus according to the first embodiment of the present invention.
- FIG. 2 is a block diagram showing the configuration of the word category estimation apparatus according to the first embodiment of the present invention.
- FIG. 3 is an example of a word graph.
- FIG. 9 is a flowchart showing word category estimation processing of the word category estimation device according to the second embodiment of the present invention.
- FIG. 10 is a block diagram showing the configuration of a speech recognition apparatus according to the third embodiment of the present invention.
- FIG. 11 is a block diagram showing a configuration of a conventional class identification device.
- the word category estimation apparatus 100 is composed of an information processing apparatus such as a PC terminal or a server apparatus that processes input data with a computer, and a speech recognition hypothesis output from the speech recognition apparatus or the like. And estimates the category of each word included in the speech recognition hypothesis.
- the word category estimation device 100 includes a word category estimation unit 4 and a word category model 5 as main basic components.
- the word category model 5 is a model that includes a probability model having a plurality of types of information related to the word category as features, and includes information related to the entire word category graph as at least one of the features.
- the word category estimation unit 4 inputs a word category graph of a speech recognition hypothesis to be processed, calculates a score for each arc constituting the word category graph with reference to the word category model, and based on these scores, the word category Output column candidates.
- the word category estimation device 101 includes a speech recognition hypothesis input unit 2, a word category graph generation unit 3, a word category estimation unit 4, and a word category model 5 as main components.
- the speech recognition hypothesis input unit 2, the word category graph generation unit 3, and the word category estimation unit 4 are components corresponding to programs executed by the CPU (not shown) of the word category estimation device 101.
- the word category model 5 is data stored in a storage device (not shown) of the word category estimation apparatus 101.
- Each component of the word category estimation device 101 is centered on an arbitrary computer CPU, memory, a program for realizing each component loaded in the memory, a storage unit such as a hard disk for storing the program, and a network connection interface. Realized by any combination of hardware and software. It will be understood by those skilled in the art that there are various modifications to the implementation method and apparatus. Each drawing described below shows a block in units of functions, not a configuration in units of hardware.
- the speech recognition hypothesis input unit 2 receives a speech recognition hypothesis output from an external speech recognition device (not shown), and provides the speech recognition hypothesis to the word category graph generation unit 3.
- the speech recognition hypothesis is information generated by performing speech recognition processing in which the speech recognition apparatus recognizes a word string from speech.
- the speech recognition hypothesis is a word graph or N best word string (the best N word strings) that is information representing a plurality of word strings.
- the word category graph generation unit 3 receives the speech recognition hypothesis output from the speech recognition hypothesis input unit 2, generates a word category graph, and provides it to the word category estimation unit 4.
- the word category refers to a semantic type of a word such as a person name, place name, time expression, numerical value, and the like, and is set according to the use. For example, for searching TV programs, the names of people (talent names, group names, etc.), program names, program genres (variety, sports, etc.), broadcast station names, time expressions (evening, 8 o'clock, etc.), etc. It is.
- the word category graph has the same network format as that of the speech recognition hypothesis word graph, and is expressed in a format in which each arc label is represented by a word category instead of a word.
- the word category graph can be generated, for example, by replacing each arc of the speech recognition hypothesis word graph with a predetermined word category. Or you may perform the same process about the graph which clustered the arc of the word graph of a speech recognition hypothesis based on the similarity of a word, etc.
- FIG. 3 is a part of the word graph (representing that there are two candidates for "country travel” and “dog travel”).
- FIG. 4 is a word category graph generated by expanding each arc into three categories “person name”, “program name”, and “ ⁇ (other)”.
- the word category estimation unit 4 receives the word category graph from the word category graph generation unit 3, searches the word category graph with reference to the word category model 5, and outputs an optimum word category string based on a predetermined criterion.
- the word category estimation unit 4 includes a path search unit 41 and a score calculation unit 42.
- the path search unit 41 ranks and outputs the word category strings (paths) represented by the input word category graph according to a predetermined criterion, for example, the magnitude of the word category appearance score.
- the word category appearance score of each arc is acquired from the score calculation unit 42, and the score is accumulated for each pass.
- the upper path can be determined by A * search.
- efficiency can be improved by pruning processing or the like.
- post-processing such as combining the same word categories when they are consecutive can be applied.
- the score calculation unit 42 extracts a feature about an arc every time it is referred to from the path search unit 41 in each word category graph, calculates a score of the arc with reference to the word category model 5, and searches for a path. Provided to part 41.
- the score of the word category can be expressed as the conditional probability p (c
- the word category model 5 stores the relationship between the characteristics of the word category and the appearance degree of the word category in the form of a probability model or a rule (rule). For example, when using CRF (Conditional
- CRF Consumer
- the word model 51 stores the relationship between the characteristics of each arc and the appearance level of the word category.
- the features include, for example, linguistic features (surface layer (notation), reading (pronunciation), part of speech, etc.) of the original word corresponding to the arc, and features (reliability, correctness, etc.) as recognition results.
- linguistic features surface layer (notation), reading (pronunciation), part of speech, etc.
- features reliability, correctness, etc.
- the utterance model 52 stores the relationship between the characteristics of the entire word category graph (the entire utterance) and the appearance level of the word category.
- Features of the entire word category graph include, for example, position information in the word category graph (first half, second half, Nth from the beginning, etc.), information on the structure of the word category graph (number of arcs, average number of branches, etc.) ), Combinations of words included in the word category graph (co-occurrence information of a plurality of words, etc.), concatenation information of word categories, and the like.
- the word category model 5 in one embodiment, CRF (Conditional Random Fields), which is a kind of identification model, can be used.
- CRF Consumer Random Fields
- the word category model 5 can be defined as follows.
- Equation 1 “x” is an input to be subjected to category estimation processing, and “y” is a category as an identification result.
- ⁇ (y, x) is information indicating the feature (feature) of the processing target “x”, and “ ⁇ ” is a model parameter (weight value) in the CRF corresponding to each feature.
- Zx is a normalization term.
- Exp () indicates a function for obtaining the power of a numerical value with e as the base. Therefore, the word category model 5 of this example stores the feature ⁇ and the model parameter ⁇ (weight value) in the storage device.
- the word category estimation unit 4 first receives the word category graph input from the word category graph generation unit 3.
- FIG. 4 is an example of a word category graph.
- the word category estimation unit 4 specifies a path that maximizes the left side P (y
- the score at each arc included in the word category graph is the product of the feature (feature) related to each arc and the weight value for each feature whose CRF is also a model parameter.
- FIG. 5 is an illustration of features associated with arc A.
- FIG. 6 is an example in which the features of FIG. 5 are expressed as features of the word category model.
- These features can be expressed as CRF features ( ⁇ ) as shown in FIG.
- the score of arc A is obtained by the product of the value of these features and the weight ( ⁇ ) of the word category “program name” corresponding to arc A among the model parameters. The larger this score is, the more likely the word category is.
- the features of “part of speech (part of speech of the word corresponding to arc A)” and “recognition reliability (recognition reliability of the word corresponding to arc A)” are expressed in the word model 51 and “position (arc in the word category graph)”.
- the features of “position of A” and “co-occurrence (words co-occurring with the word corresponding to arc A in the word category graph)” are included in the utterance model 52, but by using the CRF, both features can be handled simultaneously.
- the score of the word category can be obtained on the same basis.
- the model parameters of the CRF are repeated according to a criterion for maximizing the log likelihood of the above equation 1, using a pair of input (x: speech recognition hypothesis) and output (y: word category) associated in advance as learning data. It may be optimized (learned) by a calculation method or the like.
- a graph search algorithm corresponding to the word category estimation unit 4 a learning algorithm for model parameters when the graph is used as learning data, and multi-class identification in one model are known. This has advantages suitable for identification of word categories.
- the word category estimation device 101 When activated, the word category estimation device 101 reads the word category model 5 from the storage device and performs an initialization process so that it can be referred to from the word category estimation unit 4 (step S11).
- the speech recognition hypothesis input unit 2 acquires a speech recognition hypothesis from an external speech recognition device and inputs it to the word category graph creation unit 3 in response to a notification indicating the end of the speech recognition process (step S12).
- the word category graph creation unit 3 generates a word category graph from the input speech recognition hypothesis and provides it to the word category estimation unit 4 (step S13).
- the word category estimation unit 4 uses the path search unit 41 to trace the arc from the beginning to the end of the word category graph, and the score calculation unit 42 extracts the characteristics of each arc, and refers to the word category model 5. Then, the score of the word category of the arc is obtained (step S14). Thereafter, the path search unit 41 ranks the word category strings (paths) on the word category graph according to a predetermined criterion, and outputs the word category strings as candidates from the highest ranking (step S15). The category estimation process ends.
- the score of the word category corresponding to each arc of the word category graph is obtained by combining the feature of the word related to each arc and the feature of the entire word category graph. Therefore, it is possible to improve the accuracy of searching for a word category string that is optimal for utterance.
- a score of a word category has been conventionally obtained based on recognition error information, but sufficient estimation accuracy has not been obtained. By using, the estimation accuracy of the word category in the section can be increased.
- the configuration of the word category estimation device 102 of this embodiment is obtained by adding the utterance pattern estimation unit 6 to the configuration of the word category estimation device 101 according to the first embodiment shown in FIG.
- the utterance pattern estimation unit 6 receives the speech recognition hypothesis output from the speech recognition hypothesis input unit 2, estimates the utterance pattern in response thereto, and provides the estimation result to the word category estimation unit 4.
- the utterance pattern refers to information characterized by the number and combination of word categories included in the utterance. For example, it is information that the word category included in the utterance is one, or that the utterance includes “person name” and “program name”.
- a method of regular classification based on words included in the speech recognition hypothesis can be used.
- the model adjustment unit 43 to which the result of the utterance pattern estimation unit 6 is input selects one model from a plurality of word category models 5 prepared in advance for each utterance pattern. The score is calculated, and the word category string (path) to be output is searched for in the same manner as in the first embodiment.
- a plurality of models may be weighted.
- a word category model suitable for speech it is possible to improve the estimation accuracy of the word category. For example, if it is found that there is one word category included in the utterance, it is possible to suppress erroneous estimation of two or more word categories.
- step S21, S22, S23 The processing until the word category graph generation unit 3 generates the word category graph (steps S21, S22, S23) is the same as the procedure of steps S11, S12, S13 of FIG. Detailed description here is omitted.
- the utterance pattern estimation unit 6 estimates the word category pattern based on the input speech recognition hypothesis (step S24), and the model adjustment unit 43 of the word category estimation unit 4 uses the result to refer to the word category model 5
- the weight is changed (step S25).
- the score calculation unit 42 extracts the characteristics of each arc, and the word category model 5 via the model adjustment unit 43. , The score of the word category of the arc is obtained (step S26). Then, the path search unit 41 ranks the word category strings (paths) on the word category graph according to a predetermined criterion, and outputs them in descending order (step S27), and ends the series of word category estimation processes.
- the utterance pattern estimation unit 6 can determine a word category based on a rule or estimate a word category based on features not included in the word category model 5. . By adding these pieces of information, the accuracy of the word category estimation unit 4 using the word category model 5 can be improved.
- the speech recognition apparatus 103 is realized as a whole by, for example, an information processing apparatus such as a PC terminal or a server apparatus that processes input data with a computer.
- the speech recognition device 103 is a device that recognizes and outputs a word included in the input speech, and in particular, the word category estimation device 101 of the first embodiment (FIG. 2) or the second embodiment (FIG. 4). ) Is added to the speech recognition result, and speech recognition processing is performed again based on the word category information.
- the speech recognition apparatus 103 includes a speech recognition unit 71, a word category estimation unit 72, and a re-speech recognition unit 73 as main components.
- the voice recognition unit 71 performs voice recognition processing on the voice input to the voice recognition device 103 to obtain word string candidates corresponding to the voice, and outputs, for example, a word graph as a voice recognition hypothesis.
- the speech recognition unit 71 searches for a word string that matches speech data according to the score given by a speech recognition model (including a language model, a word dictionary, and an acoustic model) for speech.
- a recognition process may be performed. For example, a trigram is used as the language model, and a hidden Markov model is used as the acoustic model.
- the word category estimation unit 72 is a processing unit corresponding to the word category estimation device 101 of FIG. 2 or the word category estimation device 102 of FIG. 4, and generates a word category graph from the word graph output by the speech recognition unit 71, Based on the word category model, the type and interval (frame number, etc.) of the word category included in the utterance are estimated and output.
- the re-speech recognition unit 73 uses the estimation result output from the word category estimation unit 72 as a language restriction, for example, restricts the vocabulary of the section to those belonging to the word category of the type and performs speech recognition processing. I do.
- the voice recognition unit 71 performs voice recognition on the input voice, and outputs, for example, a word string candidate “a program appearing in the countryside road”.
- the word category estimation unit 72 inputs the first-stage speech recognition result, and estimates, for example, that the word category of “country”, “travel”, and “road” is “person name”. From this estimation result, the language restriction is obtained that the utterance section (frame number or the like) corresponding to the “country road” that is a part of the word string of the speech recognition hypothesis in the first stage is “person name”.
- the re-speech recognition unit 73 performs a second-stage speech recognition process using this language restriction.
- an utterance section (such as a frame number) corresponding to “country travel” in the first speech recognition result
- words that do not belong to the word category “person name” are included in the speech recognition hypothesis so that candidates are not candidates.
- the recognition process is performed so as to be excluded from the above.
- the speech recognition accuracy can be improved by the speech recognition processing to which the language restriction that the word category belongs to which part of the utterance belongs.
- extremely high recognition accuracy can be obtained for a phrase belonging to a specific word category, such as a keyword to be input to the information search apparatus.
- the word category estimation device, the word category estimation method, the speech recognition device, the speech recognition method, and the program according to the present invention can be widely applied to speech recognition technology that converts speech into electronic data such as text data.
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Description
また、同方法では、固有表現クラスと単語の両者を同時に同定するため、音声認識誤りがある場合はどの単語に誤ったかも言語モデルに含める必要があるが、単語のみの言語モデルと比べて学習すべきパラメタが多いため、そのような言語モデルを高い精度で学習することは難しい。そのため、発話に含まれる固有表現の検出漏れや、発話全体の内容に適合しない種類の固有表現の誤検出が発生するという問題がある。
しかしながら、同方法は、各単語の前後2単語の特徴という限られた特徴のみを用いているため、音声認識誤りが数単語続くような区間では、固有表現の抽出が難しいという問題がある。
[第1の実施形態]
まず、図1を参照して、本発明の第1の実施形態にかかる単語カテゴリ推定装置の基本構成について説明する。
この単語カテゴリ推定装置100は、主な基本構成要素として、単語カテゴリ推定部4、および単語カテゴリモデル5とを備える。
単語カテゴリ推定部4は、処理対象となる音声認識仮説の単語カテゴリグラフを入力し、単語カテゴリモデルを参照して単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ列候補を出力する。
これら構成要素のうち、音声認識仮説入力部2、単語カテゴリグラフ生成部3、単語カテゴリ推定部4は、単語カテゴリ推定装置101のCPU(図示略)が実行するプログラムに対応する構成要素である。また、単語カテゴリモデル5は、単語カテゴリ推定装置101の記憶デバイス(図示略)に記憶されたデータである。
したがって、本例の単語カテゴリモデル5は、素性Φ、および、モデルパラメタΛ(重み値)を記憶装置に記憶させている。
単語カテゴリ推定部4は、まず、単語カテゴリグラフ生成部3より入力された単語カテゴリグラフを受け取る。図4は、単語カテゴリグラフの例示である。
単語カテゴリグラフに含まれる各アークにおけるスコアは、各アークに関する特徴(素性)と、CRFもモデルパラメタである各素性に対する重み値と、の積である。
CRFのモデルパラメタは、あらかじめ対応づけられた入力(x:音声認識仮説)と出力(y:単語カテゴリ)との組を学習データとして、上記数1の対数尤度を最大化する基準に従って、反復計算法などにより最適化(学習)されてもよい。
次に、図7を参照して、本発明の第1の実施形態にかかる単語カテゴリ推定装置の動作について説明する。
一方、音声認識仮説入力部2は、音声認識処理の終了を表す通知に応じて、外部の音声認識装置より音声認識仮説を取得して単語カテゴリグラフ作成部3に入力する(ステップS12)。
続いて、単語カテゴリグラフ作成部3は、入力された音声認識仮説から単語カテゴリグラフを生成して単語カテゴリ推定部4に提供する(ステップS13)。
この後、パス探索部41は、単語カテゴリグラフ上で、所定の基準で単語カテゴリ列(パス)を順位付けし、順位の高いものから単語カテゴリ列候補として出力し(ステップS15)、一連の単語カテゴリ推定処理を終了する。
このように、本実施形態によれば、単語カテゴリグラフの各アークに対応する単語カテゴリのスコアを、各アークに関連する単語の特徴と、単語カテゴリグラフ全体の特徴とをあわせて求めるようにしたので、発話に最適な単語カテゴリ列を探索する精度を高めることができる。特に、音声認識誤り区間については、従来は認識誤りの情報に基づいて単語カテゴリのスコアを求めていたために十分な推定精度が得られていなかったが、当該区間以外の情報として発話全体の特徴を用いることにより、当該区間の単語カテゴリの推定精度を高めることができる。
次に、図8を参照して、本発明の第2の実施形態にかかる単語カテゴリ装置について説明する。
発話パタン推定部6は、音声認識仮説入力部2が出力する音声認識仮説を入力とし、これに対してその発話パタンを推定し、推定結果を単語カテゴリ推定部4に提供する。発話パタンとは、発話に含まれる単語カテゴリの数や組み合わせで特徴づけられる情報を指す。例えば、発話に含まれる単語カテゴリは1つであるとか、発話には「人名」と「番組名」が含まれる、という情報である。発話パタンの推定は、例えば、音声認識仮説に含まれる単語によって規則的に分類する方法を用いることができる。
次に、図9を参照して、本発明の第2の実施形態にかかる単語カテゴリ推定装置の動作について説明する。
発話パタン推定部6は入力された音声認識仮説に基づいて単語カテゴリのパタンを推定し(ステップS24)、単語カテゴリ推定部4のモデル調整部43でその結果を用いて参照する単語カテゴリモデル5の重みを変更する(ステップS25)。
このように、本実施形態によれば、発話パタン推定部6によって、規則(ルール)に基づく単語カテゴリの判定や、単語カテゴリモデル5に含まれない特徴に基づく単語カテゴリの推定を行うことができる。これらの情報を付加することにより、単語カテゴリモデル5を用いた単語カテゴリ推定部4の精度を高めることができる。
次に、図10を参照して、本発明の第3の実施形態にかかる音声認識装置について説明する。
音声認識部71は、音声認識装置103に入力される音声に対して音声認識処理を行って、該音声に対応する単語列候補を求め、音声認識仮説として、例えば単語グラフを出力する。音声認識部71では、発話に対して、音声認識のためのモデル(言語モデルや単語辞書、音響モデルなどを含む)の与えるスコアにしたがって、音声データに適合する単語列を探索するといった通常の音声認識処理を行えばよい。例えば、言語モデルにはトライグラム、音響モデルには隠れマルコフモデルなどを用いる。
再音声認識部73は、単語カテゴリ推定部72の出力する推定結果を用いて、これを言語制約として、例えば、当該区間の語彙を当該種類の単語カテゴリに属するものに限定した上で音声認識処理を行う。
まず、音声認識部71は、入力された音声に対して音声認識を行い、例えば、単語列候補「田舎紀行路のえー出演している番組」を出力する。
次に、単語カテゴリ推定部72は、この1段目の音声認識結果を入力し、例えば、「田舎」「紀行」「路」の単語カテゴリが「人名」であると推定する。この推定結果から、1段目の音声認識仮説の単語列の一部である「田舎紀行路」に相当する発話区間(フレーム番号等)は「人名」であるという言語制約を得る。
続いて、再音声認識部73は、この言語制約を用いて2段目の音声認識処理を行う。例えば、1段目の音声認識結果の「田舎紀行路」に相当する発話区間(フレーム番号等)では、単語カテゴリ「人名」に属する単語のみを音声認識仮説に含めるように、そうでない単語は候補から除くようにして認識処理を行う。
このように、本実施形態によれば、発話のどこからどこまでがどの単語カテゴリに属するかという言語制約を加えた音声認識処理により、音声認識精度を高めることができる。特に、情報検索装置に入力するためのキーワードのような、特定の単語カテゴリに属する語句について極めて高い認識精度を得ることができる。
Claims (24)
- 単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の1つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルと、
処理対象となる音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ列候補を出力する単語カテゴリ推定部と
を備えることを特徴とする単語カテゴリ推定装置。 - 前記音声認識仮説を用いて発話パタンの推定を行う発話パタン推定部をさらに備え、
前記単語カテゴリ推定部は、前記発話パタン推定部での発話パタン推定結果に基づきスコア計算に用いる前記単語カテゴリモデルを変更する
ことを特徴とする請求項1に記載の単語カテゴリ推定装置。 - 前記単語カテゴリモデルはCRFモデルからなることを特徴とする請求項1に記載の単語カテゴリ推定装置。
- 前記単語カテゴリモデルの前記単語カテゴリグラフ全体に関する素性として、前記単語カテゴリグラフにおける位置情報、前記単語カテゴリグラフの構造に関する統計情報、前記単語カテゴリグラフに含まれる単語共起情報、単語カテゴリの連接情報のうち、少なくともいずれか1つを用いることを特徴とする請求項1に記載の単語カテゴリ推定装置。
- 前記単語カテゴリ推定部は、前記発話パタン推定結果によってスコア計算に用いる前記単語カテゴリモデルを変更する際、発話パタンと単語カテゴリモデルの関係度を用いて複数モデルの選択あるいは重み付けを行うことを特徴とする請求項2に記載の単語カテゴリ推定装置。
- 単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の1つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを記憶部で記憶するステップと、
演算処理部により、処理対象となる音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ列候補を出力する単語カテゴリ推定ステップと
を備えることを特徴とする単語カテゴリ推定方法。 - 前記演算処理部により、前記音声認識仮説を用いて発話パタンの推定を行う発話パタン推定ステップをさらに備え、
前記単語カテゴリ推定ステップは、前記発話パタン推定ステップでの発話パタン推定結果に基づきスコア計算に用いる前記単語カテゴリモデルを変更するステップを含む
ことを特徴とする請求項6に記載の単語カテゴリ推定方法。 - 前記単語カテゴリモデルはCRFモデルからなることを特徴とする請求項6に記載の単語カテゴリ推定方法。
- 前記単語カテゴリモデルの前記単語カテゴリグラフ全体に関する素性として、前記単語カテゴリグラフにおける位置情報、前記単語カテゴリグラフの構造に関する統計情報、前記単語カテゴリグラフに含まれる単語共起情報、単語カテゴリの連接情報のうち、少なくともいずれか1つを用いることを特徴とする請求項6に記載の単語カテゴリ推定方法。
- 前記単語カテゴリ推定ステップは、前記発話パタン推定結果によってスコア計算に用いる前記単語カテゴリモデルを変更する際、発話パタンと単語カテゴリモデルの関係度を用いて複数モデルの選択あるいは重み付けを行うステップを含むことを特徴とする請求項7に記載の単語カテゴリ推定方法。
- 記憶部と演算処理部とを備えるコンピュータに、
単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の1つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを前記記憶部で記憶するステップと、
前記演算処理部により、処理対象となる音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ列候補を出力する単語カテゴリ推定ステップと
を実行させるプログラム。 - 前記演算処理部により、前記音声認識仮説を用いて発話パタンの推定を行う発話パタン推定ステップをさらに備え、
前記単語カテゴリ推定ステップは、前記発話パタン推定ステップでの発話パタン推定結果に基づきスコア計算に用いる前記単語カテゴリモデルを変更するステップを含む
ことを特徴とする請求項11に記載のプログラム。 - 前記単語カテゴリモデルはCRFモデルからなることを特徴とする請求項11に記載のプログラム。
- 前記単語カテゴリモデルの前記単語カテゴリグラフ全体に関する素性として、前記単語カテゴリグラフにおける位置情報、前記単語カテゴリグラフの構造に関する統計情報、前記単語カテゴリグラフに含まれる単語共起情報、単語カテゴリの連接情報のうち、少なくともいずれか1つを用いることを特徴とする請求項11に記載のプログラム。
- 前記単語カテゴリ推定ステップは、前記発話パタン推定結果によってスコア計算に用いる前記単語カテゴリモデルを変更する際、発話パタンと単語カテゴリモデルの関係度を用いて複数モデルの選択あるいは重み付けを行うステップを含むことを特徴とする請求項12に記載のプログラム。
- 記憶部と演算処理部とを備えるコンピュータに、
単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の1つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを前記記憶部で記憶するステップと、
前記演算処理部により、処理対象となる音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ列候補を出力する単語カテゴリ推定ステップと
を実行させるプログラム
を記録した記録媒体。 - 前記プログラムにおいて、
前記演算処理部により、前記音声認識仮説を用いて発話パタンの推定を行う発話パタン推定ステップをさらに備え、
前記単語カテゴリ推定ステップは、前記発話パタン推定ステップでの発話パタン推定結果に基づきスコア計算に用いる前記単語カテゴリモデルを変更するステップを含む
ことを特徴とする請求項16に記載の記録媒体。 - 前記プログラムにおいて、前記単語カテゴリモデルはCRFモデルからなることを特徴とする請求項16に記載の記録媒体。
- 前記プログラムにおいて、
前記単語カテゴリモデルの前記単語カテゴリグラフ全体に関する素性として、前記単語カテゴリグラフにおける位置情報、前記単語カテゴリグラフの構造に関する統計情報、前記単語カテゴリグラフに含まれる単語共起情報、単語カテゴリの連接情報のうち、少なくともいずれか1つを用いることを特徴とする請求項16に記載の記録媒体。 - 前記プログラムにおいて、前記単語カテゴリ推定ステップは、前記発話パタン推定結果によってスコア計算に用いる前記単語カテゴリモデルを変更する際、発話パタンと単語カテゴリモデルの関係度を用いて複数モデルの選択あるいは重み付けを行うステップを含むことを特徴とする請求項17に記載の記録媒体。
- 入力された音声に対応する音声認識仮説を生成する音声認識部と、
単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の1つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルと、
前記音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ推定を行う単語カテゴリ推定部と、
前記単語カテゴリ推定結果を語彙制約として再び音声認識を行う再音声認識部と
を備えることを特徴とする音声認識装置。 - 演算処理部により、入力された音声に対応する音声認識仮説を生成する音声認識ステップと、
単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の1つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを記憶部で記憶するステップと、
前記演算処理部により、前記音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ推定を行う単語カテゴリ推定ステップと、
前記演算処理部により、前記単語カテゴリ推定結果を語彙制約として再び音声認識を行う再音声認識ステップと
を備えることを特徴とする音声認識方法。 - 記憶部と演算処理部とを備えるコンピュータに、
演算処理部により、入力された音声に対応する音声認識仮説を生成する音声認識ステップと、
単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の1つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを記憶部で記憶するステップと、
前記演算処理部により、前記音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ推定を行う単語カテゴリ推定ステップと、
前記演算処理部により、前記単語カテゴリ推定結果を語彙制約として再び音声認識を行う再音声認識ステップと
を実行させるプログラム。 - 記憶部と演算処理部とを備えるコンピュータに、
演算処理部により、入力された音声に対応する音声認識仮説を生成する音声認識ステップと、
単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の1つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを記憶部で記憶するステップと、
前記演算処理部により、前記音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ推定を行う単語カテゴリ推定ステップと、
前記演算処理部により、前記単語カテゴリ推定結果を語彙制約として再び音声認識を行う再音声認識ステップと
を実行させるプログラム
を記録した記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/809,199 US8583436B2 (en) | 2007-12-21 | 2008-12-19 | Word category estimation apparatus, word category estimation method, speech recognition apparatus, speech recognition method, program, and recording medium |
JP2009547077A JP5440177B2 (ja) | 2007-12-21 | 2008-12-19 | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007-330154 | 2007-12-21 | ||
JP2007330154 | 2007-12-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2009081861A1 true WO2009081861A1 (ja) | 2009-07-02 |
Family
ID=40801162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2008/073192 WO2009081861A1 (ja) | 2007-12-21 | 2008-12-19 | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8583436B2 (ja) |
JP (1) | JP5440177B2 (ja) |
WO (1) | WO2009081861A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9053182B2 (en) | 2011-01-27 | 2015-06-09 | International Business Machines Corporation | System and method for making user generated audio content on the spoken web navigable by community tagging |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5533042B2 (ja) * | 2010-03-04 | 2014-06-25 | 富士通株式会社 | 音声検索装置、音声検索方法、プログラム及び記録媒体 |
JP2011253374A (ja) * | 2010-06-02 | 2011-12-15 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
CN102682763B (zh) * | 2011-03-10 | 2014-07-16 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
US9202465B2 (en) * | 2011-03-25 | 2015-12-01 | General Motors Llc | Speech recognition dependent on text message content |
US9201862B2 (en) * | 2011-06-16 | 2015-12-01 | Asociacion Instituto Tecnologico De Informatica | Method for symbolic correction in human-machine interfaces |
JP5799733B2 (ja) * | 2011-10-12 | 2015-10-28 | 富士通株式会社 | 認識装置、認識プログラムおよび認識方法 |
US10629186B1 (en) * | 2013-03-11 | 2020-04-21 | Amazon Technologies, Inc. | Domain and intent name feature identification and processing |
US10170114B2 (en) | 2013-05-30 | 2019-01-01 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
US9818401B2 (en) | 2013-05-30 | 2017-11-14 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
EP3005152B1 (en) * | 2013-05-30 | 2024-03-27 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
US9589563B2 (en) * | 2014-06-02 | 2017-03-07 | Robert Bosch Gmbh | Speech recognition of partial proper names by natural language processing |
US9773499B2 (en) * | 2014-06-18 | 2017-09-26 | Google Inc. | Entity name recognition based on entity type |
US10140581B1 (en) * | 2014-12-22 | 2018-11-27 | Amazon Technologies, Inc. | Conditional random field model compression |
US9300801B1 (en) | 2015-01-30 | 2016-03-29 | Mattersight Corporation | Personality analysis of mono-recording system and methods |
CA3036998A1 (en) * | 2016-09-19 | 2018-03-22 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
US10810472B2 (en) | 2017-05-26 | 2020-10-20 | Oracle International Corporation | Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network |
US20190266246A1 (en) * | 2018-02-23 | 2019-08-29 | Microsoft Technology Licensing, Llc | Sequence modeling via segmentations |
WO2020044415A1 (ja) * | 2018-08-27 | 2020-03-05 | 日本電気株式会社 | 仮説推論装置、仮説推論方法、及びコンピュータ読み取り可能な記録媒体 |
US11170170B2 (en) | 2019-05-28 | 2021-11-09 | Fresh Consulting, Inc | System and method for phonetic hashing and named entity linking from output of speech recognition |
CN110956959B (zh) * | 2019-11-25 | 2023-07-25 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0619959A (ja) * | 1992-06-30 | 1994-01-28 | N T T Data Tsushin Kk | 固有名詞特定処理システム |
JP2001318792A (ja) * | 2000-05-10 | 2001-11-16 | Nippon Telegr & Teleph Corp <Ntt> | 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置 |
JP2004094434A (ja) * | 2002-08-30 | 2004-03-25 | Fujitsu Ltd | 言語処理方法、プログラム及び装置 |
JP2004184951A (ja) * | 2002-12-06 | 2004-07-02 | Nippon Telegr & Teleph Corp <Ntt> | クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5613036A (en) * | 1992-12-31 | 1997-03-18 | Apple Computer, Inc. | Dynamic categories for a speech recognition system |
DE10032255A1 (de) * | 2000-07-03 | 2002-01-31 | Siemens Ag | Verfahren zur Sprachanalyse |
DE10196793D2 (de) * | 2000-11-03 | 2004-10-07 | Voicecom Ag | Robuste Spracherkennung mit Datenbankorganisation |
US7103542B2 (en) * | 2001-12-14 | 2006-09-05 | Ben Franklin Patent Holding Llc | Automatically improving a voice recognition system |
TW559783B (en) * | 2002-05-31 | 2003-11-01 | Ind Tech Res Inst | Error-tolerant natural language understanding system and method integrating with confidence measure |
US7302383B2 (en) * | 2002-09-12 | 2007-11-27 | Luis Calixto Valles | Apparatus and methods for developing conversational applications |
US7328155B2 (en) * | 2002-09-25 | 2008-02-05 | Toyota Infotechnology Center Co., Ltd. | Method and system for speech recognition using grammar weighted based upon location information |
JP2005010691A (ja) * | 2003-06-20 | 2005-01-13 | P To Pa:Kk | 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム |
KR100612839B1 (ko) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 도메인 기반 대화 음성인식방법 및 장치 |
JP2007004233A (ja) * | 2005-06-21 | 2007-01-11 | Yamatake Corp | 文章分類装置、文章分類方法、およびプログラム |
KR100755677B1 (ko) * | 2005-11-02 | 2007-09-05 | 삼성전자주식회사 | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 |
US7587308B2 (en) * | 2005-11-21 | 2009-09-08 | Hewlett-Packard Development Company, L.P. | Word recognition using ontologies |
JP4156639B2 (ja) * | 2006-08-14 | 2008-09-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声インターフェースの設計を支援するための装置、方法、プログラム |
JP2008064885A (ja) * | 2006-09-05 | 2008-03-21 | Honda Motor Co Ltd | 音声認識装置、音声認識方法、及び音声認識プログラム |
JP4188989B2 (ja) * | 2006-09-15 | 2008-12-03 | 本田技研工業株式会社 | 音声認識装置、音声認識方法、及び音声認識プログラム |
EP1939860B1 (en) * | 2006-11-30 | 2009-03-18 | Harman Becker Automotive Systems GmbH | Interactive speech recognition system |
-
2008
- 2008-12-19 JP JP2009547077A patent/JP5440177B2/ja active Active
- 2008-12-19 US US12/809,199 patent/US8583436B2/en active Active
- 2008-12-19 WO PCT/JP2008/073192 patent/WO2009081861A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0619959A (ja) * | 1992-06-30 | 1994-01-28 | N T T Data Tsushin Kk | 固有名詞特定処理システム |
JP2001318792A (ja) * | 2000-05-10 | 2001-11-16 | Nippon Telegr & Teleph Corp <Ntt> | 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置 |
JP2004094434A (ja) * | 2002-08-30 | 2004-03-25 | Fujitsu Ltd | 言語処理方法、プログラム及び装置 |
JP2004184951A (ja) * | 2002-12-06 | 2004-07-02 | Nippon Telegr & Teleph Corp <Ntt> | クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム |
Non-Patent Citations (3)
Title |
---|
"Proceedings of the 18th International Conference on Computational Linguistics", 2000, article MASAYUKI ASAHARA ET AL.: "Extended Models and Tools for High-performance Part-of- speech Tagger", pages: 21 - 27 * |
DANIEL M.BIKEL ET AL.: "An Algorithm that Learns What's in a Name", MACHINE LEARNING, vol. 34, February 1999 (1999-02-01), pages 211 - 231, XP002485096, DOI: doi:10.1023/A:1007558221122 * |
TAKU KUDO ET AL.: "Conditional Random Fields o Mochiita Nihongo Keitaiso Kaiseki", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, vol. 2004, no. 47, 13 May 2004 (2004-05-13), pages 89 - 96, XP003019605 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9053182B2 (en) | 2011-01-27 | 2015-06-09 | International Business Machines Corporation | System and method for making user generated audio content on the spoken web navigable by community tagging |
Also Published As
Publication number | Publication date |
---|---|
US20110173000A1 (en) | 2011-07-14 |
US8583436B2 (en) | 2013-11-12 |
JPWO2009081861A1 (ja) | 2011-05-06 |
JP5440177B2 (ja) | 2014-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
US9911413B1 (en) | Neural latent variable model for spoken language understanding | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
US10134388B1 (en) | Word generation for speech recognition | |
US8185376B2 (en) | Identifying language origin of words | |
Zhang et al. | Unsupervised spoken keyword spotting via segmental DTW on Gaussian posteriorgrams | |
US9336769B2 (en) | Relative semantic confidence measure for error detection in ASR | |
US10490182B1 (en) | Initializing and learning rate adjustment for rectifier linear unit based artificial neural networks | |
He et al. | Discriminative learning for speech recognition: theory and practice | |
Metze et al. | The spoken web search task at MediaEval 2012 | |
JP5207642B2 (ja) | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム | |
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
US20110224982A1 (en) | Automatic speech recognition based upon information retrieval methods | |
JP2004005600A (ja) | データベースに格納された文書をインデックス付け及び検索する方法及びシステム | |
CN105981099A (zh) | 语音检索装置和语音检索方法 | |
WO2003010754A1 (fr) | Systeme de recherche a entree vocale | |
JP2011070192A (ja) | 音声検索装置及び音声検索方法 | |
JP4930379B2 (ja) | 類似文検索方法、類似文検索システム及び類似文検索用プログラム | |
JP2004133880A (ja) | インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法 | |
Cui et al. | Multi-view and multi-objective semi-supervised learning for hmm-based automatic speech recognition | |
JP5524138B2 (ja) | 同義語辞書生成装置、その方法、及びプログラム | |
Lugosch et al. | Donut: Ctc-based query-by-example keyword spotting | |
WO2010044123A1 (ja) | 検索装置、検索用索引作成装置、および検索システム | |
WO2008150003A1 (ja) | キーワード抽出モデル学習システム、方法およびプログラム | |
JPH09134192A (ja) | 統計的言語モデル生成装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 08863563 Country of ref document: EP Kind code of ref document: A1 |
|
DPE1 | Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101) | ||
ENP | Entry into the national phase |
Ref document number: 2009547077 Country of ref document: JP Kind code of ref document: A |
|
WWE | Wipo information: entry into national phase |
Ref document number: 12809199 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 08863563 Country of ref document: EP Kind code of ref document: A1 |