WO2008069308A1 - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
WO2008069308A1
WO2008069308A1 PCT/JP2007/073674 JP2007073674W WO2008069308A1 WO 2008069308 A1 WO2008069308 A1 WO 2008069308A1 JP 2007073674 W JP2007073674 W JP 2007073674W WO 2008069308 A1 WO2008069308 A1 WO 2008069308A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
speech
model
data
speech recognition
Prior art date
Application number
PCT/JP2007/073674
Other languages
English (en)
French (fr)
Inventor
Tadashi Emori
Yoshifumi Onishi
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to US12/518,075 priority Critical patent/US8706487B2/en
Priority to JP2008548349A priority patent/JP5240456B2/ja
Priority to EP07850261A priority patent/EP2096630A4/en
Publication of WO2008069308A1 publication Critical patent/WO2008069308A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Definitions

  • the present invention relates to a speech recognition technology, and more particularly to a speech recognition technology using an acoustic model and a language model, and a model learning technology.
  • Non-Patent Document 1 uses a high utterance speed! /, A high utterance speed for voice! /, A dedicated acoustic model learned only by speech, and a dictionary in which utterance deformation is registered. The technology is described. The technology in this document improves recognition performance by using a model dedicated to speech speed.
  • Non-patent literature l Takahiro Shinozaki, Sadaoki Furui, "HIDDEN MODE HMM USING B AYESIAN NETWORK FOR MODELING SPEAKING RATE FLUCTUATION", Auto matic Speech Recognition and Understanding (ASRU) workshop 2003, p.417-422 , "Language Model and Calculation 4: Stochastic Language Model", The University of Tokyo Press, 1999, .57-62
  • Non-Patent Document 3 Steve Young et al., "The HTK Book (for HTK Version 3.3),", University University Engineering Department, April 2005, p.35-40, p.54-64, p.127-130 Disclosure of the invention Problems to be solved by the invention
  • the utterance speed is a characteristic measured based on the utterance content.
  • the utterance content is estimated using the recognition result of the input speech data.
  • the recognition result may contain an error
  • the utterance speed obtained from such a recognition result lacks accuracy. Therefore, there is a problem that it is difficult to improve the recognition accuracy in the speech recognition method by learning the model using the speech rate.
  • the recognition accuracy may be degraded.
  • the above problem is caused by using a feature quantity that is difficult to measure accurately, such as the utterance speed, as a feature quantity that represents a phenomenon of spoken language.
  • the recognition accuracy is significantly improved under ideal conditions where the correct feature value is known.
  • it is difficult to improve the recognition accuracy because the correct answer is unknown.
  • utterance speed is originally an acoustic feature, but utterance content, which is a linguistic feature, is not related to this change in utterance speed. For this reason, the range of improvement in speech recognition using speech rate is limited to acoustic features, so the absolute value of the improvement is not considered large.
  • the present invention has been made in view of the above problems, and an object of the present invention is to provide a speech recognition technology for recognizing speech with high accuracy such as spoken words that is difficult to capture an accurate feature amount. Means to solve
  • the speech recognition apparatus includes a speech recognition unit that performs speech recognition processing using an acoustic model and a language model, and the acoustic model and language model according to a speech length that represents a length of a speech section in speech data. And a model learning unit for learning.
  • FIG. 1 is a block diagram of a model learning unit in a first embodiment of the present invention.
  • FIG. 2 is a block diagram of a speech recognition unit in the first embodiment of the present invention.
  • FIG. 3 is a block diagram of a model learning unit in the second embodiment of the present invention.
  • FIG. 4 is a block diagram of a speech recognition unit in the second embodiment of the present invention.
  • FIG. 5 is a block diagram of a speech recognition apparatus according to an embodiment of the present invention.
  • FIG. 5 shows the configuration of the speech recognition apparatus according to the embodiment of the present invention.
  • the speech recognition apparatus 100 includes a model learning unit 100A that performs learning processing of a model used for speech recognition, and a speech recognition unit 100B that performs recognition processing of input speech and outputs the recognition result.
  • the illustrated configuration is common to the first and second embodiments described later.
  • FIG. 1 shows the configuration of model learning unit 100A_1 in the first embodiment.
  • the model learning unit 100A_1 includes voice data 101, transcription text data 102, section detection means 103, The data selection means 104, the utterance length data 105, the model learning means 106, and the utterance length model 107 are configured.
  • a common element 110 surrounded by a chain line in the drawing is a common element in the present embodiment and a second embodiment described later.
  • the audio data 101 is data for learning an acoustic model.
  • the audio data 101 is A / D-converted at 16 bits per sample with a sampling frequency of 44.1 kHz. Since the voice data 101 includes all the sounds captured during the conversation, a section where the voice is uttered and a section of silence and noise other than the utterance are mixed.
  • the transcription text data 102 is text data in which a person listens to the voice data 101 and writes the contents.
  • the section detecting means 103 analyzes the input voice data 101 to detect a voice section and outputs it as voice section information.
  • a method for detecting a voice segment for example, a method can be used in which a voice segment is calculated and a segment in which the power exceeds a certain threshold is set as a voice segment.
  • the sound power is a value obtained by adding the square of the amplitude of the sound data at regular intervals of about 10 msec, for example.
  • the data selection unit 104 cuts out voice data according to the voice section detected by the section detection unit 103, and selects and outputs the transcription text data 102 corresponding to the section. At that time, the data portion cut out from the voice data and the transcription text is classified according to the length of the voice section, that is, the utterance length, and stored in the storage device. In this embodiment, there are three classification units: “short utterance”, “long utterance”, and “medium utterance”. The voice length data 105 is voice data and transcription text classified into these three units.
  • “Short utterance” corresponds to, for example, an utterance composed of! ⁇ 2 words, such as a response to a question from the other party or a question.
  • the vocabulary is composed of words that indicate responses such as “yes” and “eichi”, and words that answer questions. Since such utterance is normally considered to be about 1 second, in this embodiment, the utterance length of “short utterance” is defined as less than 1 second.
  • “Medium utterance” means, for example, a fixed phrase such as “Thank you” or “Where are you on January 1st?” Responding to simple questions arranged in mind such as In this embodiment, the utterance length of such “medium utterance” is defined as about 1 to 3 seconds. “Long utterance” corresponds to a case where an event is explained or an explanation of matters that are not organized in the head, and in this embodiment, the utterance length is defined as 3 seconds or more.
  • the model learning means 106 uses the utterance length data 105 to learn the acoustic model and language model used for speech recognition for each of the above classifications.
  • the utterance length model 107 is an acoustic model and a language model learned for each utterance length unit.
  • the language model is a model expressed by approximation by N-gram as described in Non-Patent Document 2, and the learning method is mainly performed by maximum likelihood estimation.
  • N-gram is a language model modeling technique that approximates the appearance probability of all words using the appearance probability (conditional probability) of the Nth word on condition that the N-1 word in the history is a condition. Then, this is the technique.
  • the appearance probability can be calculated by counting the frequency of word strings in the learning corpus. For example, the probability of occurrence of a word string of two word chains “I” and “ha” is equivalent to the number of occurrences of “I” and “ha” divided by the total number of two word chains.
  • the acoustic model is a probabilistic model that expresses the acoustic features of speech.
  • an acoustic model for example, the HMM (Hidden Markov Model) toolkit manual, Non-Patent Document 3, page 35 to page 40 is written! HMMs with a triphone as a phoneme are widely used.
  • learning of an acoustic model will be described.
  • Non-Patent Document 3 pages 54 to 64, the acoustic characteristics of speech are cut out from speech data at regular intervals of about 10 msec, and pre-emphasis, FFT, and filter bank processing are performed. Then, it is extracted by performing cosine transformation. In addition to the extracted features, it is also possible to use power and the difference between the previous and next times. [0024] Next, using the label data obtained by using the extracted features and the corresponding transcription text, the forward-back described in pages 127 to 130 of Non-Patent Document 3 Find the word probability. Thereby, the feature is associated with the label data.
  • the label data the aforementioned triphone or the like can be considered.
  • the Labenore data will be “* —w + a w-a + t a-t + a t_a + ka—k + uk—u + s s_i + *”.
  • the model learning means 106 learns an acoustic model and a language model by the process as described above for each of the three units of utterance length.
  • a model for a “short utterance” with an utterance length of 1 second or less a model for a “medium utterance” with an utterance length of 1 to 3 seconds, and a utterance length of 3 seconds or more.
  • Three types of models are learned, such as a model for “long speech”.
  • the learned acoustic model and language model is the model 107 by utterance length.
  • FIG. 2 shows the configuration of the speech recognition unit 100B_1 in the first embodiment.
  • the speech recognition unit 100B_1 includes section detection means 103, utterance length determination means 201, utterance length-specific model 107, model selection means 202, and recognition means 203.
  • the section detection means 103 is basically the same function as that of the model learning unit 100A_1 described above, detects a voice section from the input voice data, and determines the start time and end time of the voice section. Is output as section information.
  • the utterance length determination means 201 calculates the utterance length, which is the length of the section, based on the section information. Then, the calculated utterance length determines the power corresponding to any of the prescribed units such as “1 second or less”, “1 to 3 seconds”, or “3 seconds or more”.
  • the model selection unit 202 selects an acoustic model and a language model corresponding to the unit of the utterance length determined by the utterance length determination unit 201 from the utterance length model 107 described above.
  • the recognition unit 203 recognizes input speech using the acoustic model and language model selected by the model selection unit 202, and outputs the recognition result.
  • the recognition method is roughly divided into acoustic analysis processing and search processing.
  • the acoustic analysis is a process for calculating the above-mentioned voice feature amount.
  • the search calculates the word score using the calculated feature value, the acoustic model, and the language model, and outputs a high score! /, As a recognition candidate. Is.
  • the acoustic model and the language model are learned according to the utterance length as the feature amount of speech, and speech recognition is performed using the model, so that speech recognition is performed. Can improve the accuracy.
  • the learning model may be expressed by conditional probabilities, for example, with the utterance length as a condition, in addition to being created separately for sound and language as in the above embodiment.
  • conditional probabilities for example, with the utterance length as a condition, in addition to being created separately for sound and language as in the above embodiment.
  • speech recognition for example, when the utterance length is 3 seconds, instead of using only the 3 second model, it is also possible to use a linear sum with the 2 or 4 second utterance model! /.
  • model learning and speech recognition focusing on the utterance time which is the time from the beginning of the speech section, is performed in addition to the above-mentioned utterance length as the speech feature amount.
  • FIG. 3 shows the configuration of the model learning unit in the second embodiment.
  • the model learning unit 100A_2 of the present embodiment includes utterance length data 105 obtained by the common element 110 shown in FIG. 1, utterance time determination means 301, utterance length 'speech time data 302, and model learning. Mean 1 06 and utterance length 'speaking time model 303.
  • the utterance time determination means 301 further includes a part for 1 second from the beginning, a part for the last 1 second, and the rest of the voice data and transcription data of the utterance length data 105 classified by utterance length. It is classified into three in the central part. The classified part corresponds to the detailed data part in the present invention. Note that the number of classifications is not limited to three as in the present embodiment, but may be other numbers such as four or five. Also, a combination of multiple parts, such as a combination of the first 1 second and the last 1 second, may be combined into one classification.
  • the utterance length / speech time-specific data 302 is obtained by classifying the speech data and the transcription text separated by the utterance time determination means 301 by utterance length and utterance time.
  • the model learning means 106 learns an acoustic model and a language model for each utterance length and each utterance time by using the utterance length's data utterance time 302.
  • the learned acoustic model and language model is the utterance length 'model 303 by utterance time.
  • FIG. 4 shows the configuration of the speech recognition unit 100B_2 of the present embodiment.
  • the speech recognition unit 100B_2 includes an interval detection unit 103, an utterance length determination unit 201, an utterance time determination unit 301, an utterance length and utterance time model 303, a model selection unit 401, and a recognition unit 203. ing.
  • the section detection means 103 and the utterance length determination means 201 are the same as those of the speech recognition unit 100B_1 shown in FIG. That is, a voice section is detected from the input voice data, and it is determined to which unit the length of the section, that is, the utterance length corresponds.
  • the utterance time determination means 301 recognizes three parts, the 1-second part, the last 1-second part, and the remaining central part from the beginning of the input voice based on the section information.
  • the model selection means 401 selects an acoustic model and a language model corresponding to the speech data to be recognized from the utterance length / utterance time model 303 based on the utterance length and utterance time information.
  • a model for example, if the speech waveform to be recognized is less than 1 second and you want to recognize 1 second from the beginning, the utterance length of the speech data used for learning is less than 1 second and the utterance time is the beginning. Select a model for 1 second.
  • acoustic models and language models are created for each utterance time, and speech recognition is performed using a dedicated model according to the utterance time observed from the input speech. This is considered to improve recognition performance.
  • the beginning of the recognized section is narrowed down to vocabulary such as “Yes” or “Aichi”, and the end of the section is narrowed down to a sentence ending expression such as “ ⁇ ”. Can improve processing efficiency.
  • the utterance time as the voice feature amount is information obtained by measuring the time from the head of the determined utterance length. Therefore, the utterance time is information that is not directly related to the content of the utterance, like the utterance length, and is not information that causes a difference in observation values between learning and recognition, so stable speech recognition can be realized.
  • the learning model using the utterance time may be expressed by a conditional probability with the utterance length and the utterance time as conditions. Also, at the time of speech recognition, it is not necessary to use only the model selected based on the utterance length and utterance time, but also using the adjacent utterance length or utterance time model or a weighted linear sum with other models. Good.
  • the utterance length is classified into three categories of "short utterance", "long utterance", and "medium utterance”.
  • two or four utterance lengths are used. It may be classified into more than one.
  • it is difficult to improve the recognition accuracy because the classification is rough, and the processing becomes more complicated as the number of units increases. Therefore, it is desirable to set the number of utterance lengths in consideration of these trade-offs! /.
  • the present invention is suitable for various speech recognition apparatuses that require highly accurate speech recognition.
  • the present invention may be implemented as a computer program corresponding to the means provided in the speech recognition apparatus in each of the above embodiments.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

 音声データにおける発声区間の長さを表す発声長別に音響モデルおよび言語モデルを学習し、それら音響モデルおよび言語モデルを用いて音声認識処理を行う。音声認識装置は、音声データ(101)における発声区間を検出し該発声区間を表す区間情報を生成する手段(103)と、音声データと該音声データから書き起こされたテキストデータ(102)とにおける区間情報に対応するデータ部分を認識し該データ部分をその発声長に基づき分類する手段(104)と、分類されたデータ部分(105)を用いて音響モデルおよび言語モデル(107)を学習する手段(106)とを有する。

Description

明 細 書
音声認識装置および音声認識方法
技術分野
[0001] 本発明は、音声認識技術に関し、特に、音響モデル及び言語モデルを用いた音声 認識技術、並びに、モデルの学習技術に関する。
背景技術
[0002] 近年、話し言葉の音声認識の研究が盛んに行われている。話し言葉は、発声の怠 けとレ、つた音響的なあ!/、ま!/、性や、単語の並び方の多様性などの様々な要因から、 高精度に認識することが困難である。話し言葉の認識精度を上げる技術として、話し 言葉から捉えた現象を利用する技術が提案されている。その一例として、後述の非 特許文献 1のような発声速度に注目した技術が挙げられる。
[0003] 人間の話し言葉は、機械的な読み上げ発声や単語発声のように、一定の発声速度 で発声されることは少ない。よって、話し言葉の速度は、発声中に大きく揺らぐ。特に 、発声速度が速い場合、発声に口の動きが追随し難いため、音声に変形が生じる。 このような変形は、認識精度の劣化に大きくかかわると考えられる。
[0004] 非特許文献 1には、発声速度の速!/、音声に対し発声速度の速!/、音声だけで学習さ れた専用の音響モデルや、発声変形が登録された辞書を使うという技術が記載され ている。同文献の技術は、発声速度専用のモデルを用いることで、認識性能の改善 を図るものである。
非特許文献 l : Takahiro Shinozaki, Sadaoki Furui、 "HIDDEN MODE HMM USING B AYESIAN NETWORK FOR MODELING SPEAKING RATE FLUCTUATION", Auto matic Speech Recognition and Understanding (ASRU) workshop 2003、 p.417-422 非特許文献 2 :北著、「言語モデルと計算 4 :確率的言語モデル」、東京大学出版会、 1999年、 .57-62
非特許文献 3 : Steve Young et al.、 "The HTK Book (for HTK Version 3.3),,、 Cambri ge University Engineering Department、 April 2005、 p.35-40, p.54-64, p.127-130 発明の開示 発明が解決しょうとする課題
[0005] ところで、上記の発声速度は、発声の内容をもとに測定される特徴である。音声認 識処理において、発声内容は、入力された音声データの認識結果を用いて推定され る。し力、しながら、認識結果には誤りが含まれる可能性があるため、そのような認識結 果から得られた発声速度は精度に欠ける。よって、発声速度を用いてモデルを学習 し、音声認識する手法では、認識精度を向上させ難いという問題がある。また、発声 速度を測定した認識結果に実際に誤りが含まれる場合は、認識精度の劣化を招くお それがある。
[0006] 上記の問題点は、発声速度のように正確に測定し難い特徴量を、話し言葉の現象 を表す特徴量として用いることに起因する。この類の特徴量を用いる音声認識の方 法では、特徴量の正解が既知である理想的な条件下では、認識精度が顕著に改善 する。し力、しながら、実際の場面では、正解が不明であるから認識精度を改善し難い 。また、元来、発声速度は音響的な特徴であるが、この発声速度の変化に、言語的 特徴である発声内容は関係しない。そのため、発声速度を用いた音声認識の改善範 囲は、音響的特徴に限定されることから、改善の絶対値は大きくないと考えられる。
[0007] 本発明は、上記課題に鑑みてなされたものであり、話し言葉のように、正確な特徴 量を捉え難い音声をより高精度に認識する音声認識技術を提供することを目的とす 課題を解決するための手段
[0008] 本発明に係る音声認識装置は、音響モデルおよび言語モデルを用いて音声認識 処理を行う音声認識部と、音声データにおける発声区間の長さを表す発声長別に前 記音響モデルおよび言語モデルを学習するモデル学習部とを備える。
発明の効果
[0009] 本発明によれば、音声認識処理において、話し言葉のように正確な特徴量を捉え 難レ、音声の認識精度を高めることができる。
図面の簡単な説明
[0010] [図 1]本発明の第 1の実施形態におけるモデル学習部のブロック図である。 [図 2]本発明の第 1の実施形態における音声認識部のブロック図である。
[図 3]本発明の第 2の実施形態におけるモデル学習部のブロック図である。
[図 4]本発明の第 2の実施形態における音声認識部のブロック図である。
[図 5]本発明の実施形態の音声認識装置のブロック図である。
符号の説明
[0011] 100 音声認識装置
100A、 100A_1、 100A.2 モデル学習部
100B、 100B_1、 100B.2 音声認識部
101 音声データ
102 書き起こしテキストデータ
103 区間検出手段
104 データ選別手段
105 発声長別データ
106 モデル学習手段
107 発声長別モデル
201 発声長判定手段
202、 401 モデル選択手段
203
301 発声時刻判定手段
302 発声長 ·発声時刻別データ
303 発声長'発声時刻別モデル
発明を実施するための最良の形態
[0012] 図 5に、本発明の実施形態の音声認識装置の構成を示す。音声認識装置 100は、 音声認識に用いるモデルの学習処理を行うモデル学習部 100Aと、入力された音声 の認識処理を行いその認識結果を出力する音声認識部 100Bとを備える。なお、図示 の構成は、後述の第 1及び第 2の各実施形態に共通のものである。
[0013] 図 1に、第 1の実施形態におけるモデル学習部 100A_1の構成を示す。モデル学習 部 100A_1は、音声データ 101と、書き起こしテキストデータ 102と、区間検出手段 103と 、データ選別手段 104と、発声長別データ 105と、モデル学習手段 106と、発声長別モ デル 107とで構成されている。なお、図中に鎖線で囲まれた共通要素 110は、本実施 形態と後述の第 2の実施形態とで共通する構成要素である。
[0014] 音声データ 101は、音響モデルを学習するためのデータであり、例えば、サンプリン グ周波数を 44.1kHzとして、 1サンプルあたり 16ビットで A/D変換されたデータである。 音声データ 101は、会話中に捕捉された音が全て含まれたものであるため、音声が発 声されている区間と、発声以外の無音や雑音の区間とが混合している。
[0015] 書き起こしテキストデータ 102は、音声データ 101を人が聞き取り、その内容を書き起 こしたテキストデータである。
[0016] 区間検出手段 103は、入力される音声データ 101を分析して音声の区間を検出し、 それを音声区間情報として出力する。音声区間の検出方法は、例えば、音声のパヮ 一を計算し、パワーがある閾値を越える区間を音声区間とする方法を用いることがで きる。音声のパワーは、例えば 10msec程度の一定間隔で、音声データの振幅の 2乗 を足し合わせた値である。ここでは、音声区間の検出方法として、単純な方法を挙げ たが、音声区間を検出する方法であれば、他の方法であってもよい。
[0017] データ選別手段 104は、区間検出手段 103により検出された音声区間に応じて音声 データを切り出し、また、その区間に対応する書き起こしテキストデータ 102を選択し て出力する。その際、音声データ及び書き起こしテキストから切り出したデータ部分を 、音声区間の長さ、すなわち発声長別に分類し、記憶装置に格納する。本実施形態 における分類の単位は、「短い発声」、「長い発声」、「中位の発声」の 3つとする。発 声長別データ 105は、これら 3つの単位に分類された音声データ及び書き起こしテキ ストである。
[0018] 発声長の分類に関し、上記の 3つの単位について説明する。 「短い発声」とは、例 えば、相手の問いかけに対しての返答や相槌など、;!〜 2単語で構成される発声に 対応する。また、その語彙は、「はい」や「え一」等の応答を表す単語と、問いに対す る答えの単語とで構成される。このような発声は、通常、 1秒程度であると考えられる ため、本実施形態では「短い発声」の発声長を 1秒未満と定義する。「中位の発声」と は、例えば、「ありがとうございました」などの定型文や、「あなたは 1月 1日にどこにい ました力、」のような頭の中で整理された簡潔な問いかけなどに対応する。本実施形態 では、このような「中位の発声」の発声長を 1秒から 3秒程度と定義する。 「長い発声」 とは、ある事象について説明する場合や、頭で整理されていない事項の説明に対応 し、本実施形態では、その発声長を 3秒以上と定義する。
[0019] モデル学習手段 106は、発声長別データ 105を用いて、音声認識に用いる音響モ デル及び言語モデルを上記の分類別に学習する。発声長別モデル 107は、発声長 の単位別に学習された音響モデル及び言語モデルである。
[0020] ここで、言語モデルとその学習方法につ!/、て説明する。言語モデルは、非特許文 献 2に記載されているような Nグラムによる近似で表されたモデルであり、その学習方 法は、主に最尤推定によって行われる。 Nグラムは、言語モデルのモデル化の手法で あり、履歴の N-1個の単語を条件とした N個目の単語の出現確率(条件付き確率)を 用いて、全単語の出現確率を近似するとレ、う手法である。
[0021] 出現確率は、最尤推定法によると、学習コーパスの単語列の頻度を数えることによ つて計算することが出来る。例えば、「私」「は」という 2単語連鎖の単語列の出現確率 は、「私」「は」の出現数を 2単語連鎖の総数で割ったものに相当する。音声認識の場 合、デコードのプロセスにおいて条件付き確率を用いる。条件付き確率に関し、例え ば、 P (は I私)は、「私」の後に「は」の出現する確率を表す。この P (は I私)は、 P (私,は)の 2単語が連続して出現する同時確率と、「私」が出現する確率とを用いて、 P (は I私) =P( 私,は)/ P (私)と計算することが出来る。
[0022] 一方、音響モデルは、音声の音響的特徴を表現した確率モデルである。音響モデ ノレとしては、例えば、 HMM (Hidden Markov Model :隠れマルコフモデノレ)のツールキ ットのマニュアルである非特許文献 3の 35ページから 40ページに書かれて!/、る、前後 の音素コンテキストを考慮したトライフォンを音素として持つ HMMが広く使われている 。以下、音響モデルの学習について述べる。
[0023] 音声の音響的特徴は、非特許文献 3の 54ページから 64ページに記載されているよ うに、音声データを 10msec程度の一定区間で切り出し、プリエンファシス、 FFT、フィ ルタバンクの処理を行った後、コサイン変換を行うことで抽出される。なお、抽出され た特徴に加え、パワーや、前後の時刻の差分を用いることも出来る。 [0024] 次に、抽出された特徴と、それに対応する書き起こしテキストとを用いて得られたラ ベルデータを用い、非特許文献 3の 127ページから 130ページに記載されているフォ ワード ·バックワード確率を求める。これにより、特徴とラベルデータとを対応付ける。こ こで、ラベルデータとしては、前述のトライフォンなどが考えられる。例えば、「わたくし 」と書き起こされた場合、ラベノレデータは「*— w+a w-a+t a-t+a t_a+k a— k+u k— u+s s_i+ *」のようになる。
[0025] モデル学習手段 106は、発声長の 3つの各単位について、上記のようなプロセスで 音響モデル及び言語モデルを学習する。前述の例の場合、発声長が 1秒以下の「短 い発声」に対するモデル、発声長が 1秒から 3秒の「中位の発声」に対するモデル、及 び、発声長が 3秒以上の「長い発声」に対するモデルといった 3種類のモデルが学習 される。それら学習された音響モデル及び言語モデルが発声長別モデル 107である
[0026] 図 2に、第 1の実施形態における音声認識部 100B_1の構成を示す。音声認識部 10 0B_1は、区間検出手段 103と、発声長判定手段 201と、発声長別モデル 107と、モデ ル選択手段 202と、認識手段 203とで構成されて!/、る。
[0027] 区間検出手段 103は、基本的には前述のモデル学習部 100A_1のものと同様の機能 であり、入力された音声データから音声区間を検出し、その音声区間の開始時刻と 終了時刻とを区間情報として出力する。
[0028] 発声長判定手段 201は、区間情報に基づいて、その区間の長さである発声長を計 算する。そして、算出した発声長が、前述の「1秒以下」、「1秒から 3秒」、「3秒以上」 のような規定の単位のうちの何れに対応する力、を判定する。
[0029] モデル選択手段 202は、発声長判定手段 201で判定された発声長の単位に対応す る音響モデル及び言語モデルを、前述の発声長別モデル 107から選択する。
[0030] 認識手段 203は、モデル選択手段 202が選択した音響モデル及び言語モデルを用 いて、入力音声の認識を行い、その認識結果を出力する。認識する方法は、おおま かには音響分析処理と探索処理とに分けられる。音響分析は、前述の音声の特徴量 を計算する処理である。探索は、算出された特徴量と音響モデル及び言語モデルと を用いて単語のスコアを計算し、スコアの高!/、ものを認識候補として出力するとレ、ぅ処 理である。
[0031] このように、第 1の実施形態によれば、音声の特徴量としての発声長別に音響モデ ル及び言語モデルを学習し、そのモデルを用いて音声認識を行うことから、音声認 識の精度を高めることができる。
[0032] 一般に、話し言葉には、その発声長に応じて異なる現象がみられる。例えば、「短 V、発声」及び「中位の発声」は、「は!/、」や「ありがとうござ!/、ます」と!/、つた事前に頭で 整理された内容であるため、その発声は比較的明確である。一方、「長い発声」の場 合は、考えながら発声されるため、途中で「え一」などのフィラーが揷入される、あるい は口籠るというように、発声があいまいになる現象がみられる。また、 1〜2単語を発声 する「短い発声」と、それ以上の単語を発声する「中位の発声」とでは、後者のほうが より多くの単語を発声しょうとする分、口の動きに怠けが生じる可能性が高い。
[0033] このような現象を勘案すると、発声長とその発声にみられる現象との間には大きな 相関があると考えられる。よって、本実施形態のように音響モデルおよび言語モデル を発声長別に学習し、学習したモデルにより音声認識を行うことで、高精度な音声認 識が可能となる。また、発声長の計算には、パワー情報など、発声の内容に直接関 与しない情報を用いるため、事前に発声内容を把握することは不要である。よって、 学習時と認識時とで同じ精度の安定した音声認識システムを簡易に構築することが できる。
[0034] なお、学習用のモデルとしては、上記実施形態のように、音響及び言語に分けて作 成する以外にも、例えば、発声長を条件とした条件付き確率により表してもよい。また 、音声認識時、例えば発声長が 3秒の場合に、 3秒のモデルだけを用いるのではなく 、発声長が 2秒や 4秒のモデルとの線形和を用いてもよ!/、。
[0035] 次に、本発明の第 2の実施形態について説明する。本実施形態では、音声の特徴 量として、前述の発声長に加え、音声区間の先頭からの時刻である発声時刻に着目 したモデル学習及び音声認識を行う。
[0036] 図 3に、第 2の実施形態におけるモデル学習部の構成を示す。本実施形態のモデ ル学習部 100A_2は、図 1に示す前述の共通要素 110により得られる発声長別データ 1 05と、発声時刻判定手段 301と、発声長'発声時刻別データ 302と、モデル学習手段 1 06と、発声長'発声時刻別モデル 303とで構成されている。
[0037] 発声時刻判定手段 301は、発声長別に分類されている発声長別データ 105の音声 データ及び書き起こしデータについて、さらに、先頭から 1秒間の部分、最後の 1秒 間の部分、残りの中央部分の 3つに分類する。分類された部分は、本発明における 詳細データ部分に対応する。なお、分類の数は、本実施形態のような 3つに限らず、 4つあるいは 5つ等、他の数であってもよい。また、先頭の 1秒間と最後の 1秒間との 組み合わせ等、複数の部分を組み合わせて 1つの分類としてもよい。
[0038] 発声長 ·発声時刻別データ 302は、発声時刻判定手段 301で切り分けられた音声デ ータ及び書き起こしテキストを、発声長及び発声時刻別に分類したものである。モデ ル学習手段 106は、発声長'発声時刻別データ 302を用いて、発声長別及び発声時 刻別に音響モデル及び言語モデルを学習する。学習した音響モデル及び言語モデ ルが、発声長 '発声時刻別モデル 303である。
[0039] 図 4に、本実施形態の音声認識部 100B_2の構成を示す。音声認識部 100B_2は、区 間検出手段 103と、発声長判定手段 201と、発声時刻判定手段 301と、発声長,発声 時刻別モデル 303と、モデル選択手段 401と、認識手段 203とで構成されている。
[0040] 区間検出手段 103及び発声長判定手段 201は、図 2に示す前述の音声認識部 100B _1のものと同様である。すなわち、入力された音声データから音声区間を検出し、そ の区間の長さ、すなわち発声長が、何れの単位に対応するかを判定する。発声時刻 判定手段 301は、区間情報を元に、入力された音声の先頭から 1秒間の部分、最後 の 1秒間の部分、残りの中央部分の 3つを認識する。
[0041] モデル選択手段 401は、発声長と発声時刻の情報とに基づいて、発声長 ·発声時 刻別モデル 303から認識対象の音声データに対応する音響モデル及び言語モデル を選択する。モデルの選択にあたっては、例えば、認識対象の音声波形が 1秒未満 であり、先頭から 1秒間を認識したい場合、学習時に用いた音声データの発声長が 1 秒未満であり、かつ発声時刻が先頭から 1秒間のモデルを選択する。
[0042] 上記第 2の実施形態によれば、発声長に発声時刻を加味したことにより、より高精 度な音声認識が可能となる。
[0043] 話し言葉における発声時刻別の語彙の性質は、次のように考えられる。 1つの音声 区間の先頭から 1秒までに発声される単語は、「はい」などの応答や、「あ一」などのフ イラ一の単語が多い傾向にある。また、区間の終盤に発声される単語としては、 日本 語の性質である「〜です」あるいは「でした」などの文末表現が多レ、。
[0044] このような性質を勘案すると、発声時刻別の音響モデルと言語モデルを作成し、入 力された音声から観測された発声時刻に応じて、専用のモデルを使用して音声認識 を行うことで、認識性能が向上すると考えられる。また、発声長に発声時刻を加味す ることで、認識した区間の冒頭部分は「はい」や「あ一」などの語彙に絞込み、区間の 終盤は「〜です」のような文末表現に絞込むという、処理の効率化を図ることができる
[0045] また、音声の特徴量としての発声時刻は、確定した発声長の先頭からの時刻を計 測することにより得られる情報である。よって、発声時刻は、発声長と同様に、発声の 内容に直接関与しない情報であり、学習時と認識時とで観測値に差が生じる情報で はないため、安定した音声認識が実現できる。
[0046] なお、発声時刻を用いる学習用のモデルとしては、発声長と発声時刻とを条件とし た条件付き確率により表してもよい。また、音声認識時、発声長及び発声時刻に基づ き選択されたモデルだけを用いるのではなぐ隣接する発声長や発声時刻のモデル 、あるいは、その他のモデルとの重み付き線形和を用いてもよい。
[0047] 上記各実施形態では、発声長の分類を「短い発声」、「長い発声」、「中位の発声」 の 3つとした力 本発明を実施するにあたっては、発声長を 2つあるいは 4つ以上に 分類してもよい。ただし、 2つの場合は、分類が粗いことから認識精度を向上させ難く 、また、単位数が増えるほど処理は複雑化する。よって、それらの兼ね合いを考慮し て発声長の分類数を設定することが望まし!/、。
産業上の利用可能性
[0048] 本発明は、高精度な音声認識を必要とされる種々の音声認識装置に好適である。
また、本発明は、上記各実施形態における音声認識装置が備える手段に対応したコ ンピュータプログラムとして実施してもよレ、。

Claims

請求の範囲
[1] 音響モデルおよび言語モデルを用いて音声認識処理を行う音声認識部と、
音声データにおける発声区間の長さを表す発声長別に前記音響モデルおよび言 語モデルを学習するモデル学習部とを備えることを特徴とする音声認識装置。
[2] 前記モデル学習部は、
音声データにおける発声区間を検出し該発声区間を表す区間情報を生成する手 段と、前記音声データと該音声データから書き起こされたテキストデータとにおける区 間情報に対応するデータ部分を認識し該データ部分をその発声長に基づき分類す る手段と、分類されたデータ部分を用いて音響モデルおよび言語モデルを学習する 手段とを有することを特徴とする請求項 1記載の音声認識装置。
[3] 前記音声認識部は、
音声認識処理の対象となる音声データの発声長を算出し該発声長に対応する分 類を認識する手段と、認識した分類に対応する音響モデルおよび言語モデルを用い て前記音声データの音声認識処理を実行する手段とを有することを特徴とする請求 項 2記載の音声認識装置。
[4] 前記モデル学習部は、さらに、区間情報に対応するデータ部分力 当該発声区間 における所定の期間に対応する詳細データ部分を認識し該詳細データ部分を期間 別に分類する手段を有し、
音響モデルおよび言語モデルを学習するとき、さらに、分類された詳細データ部分 を用いて発声区間における所定の期間別に学習を実行することを特徴とする請求項 3記載の音声認識装置。
[5] 前記音声認識部は、さらに、音声認識処理の対象となる音声データの発声長が表 す発声区間における所定の期間を認識する手段を有し、
前記音声データの音声認識処理を実行するとき、さらに、認識した期間に対応する 音響モデルおよび言語モデルを用いることを特徴とする請求項 4記載の音声認識装 置。
[6] 前記モデル学習部は、音声データにおいてパワーが閾値より大きな発声区間の長 さを前記発声長として認識することを特徴とする請求項 1乃至 5のいずれ力、 1項に記 載の音声認識装置。
[7] 前記モデル学習部は、発声長を 1秒未満と 1秒から 3秒未満と 3秒以上とに分類す ることを特徴とする請求項 1乃至 6のいずれか 1項に記載の音声認識装置。
[8] 前記モデル学習部は、発声区間における前記所定の期間を該発声区間の先頭か らの時刻により認識することを特徴とする請求項 4乃至 7のいずれ力、 1項に記載の音 声認識装置。
[9] 前記モデル学習部は、発声区間における前記所定の期間として、発声区間の先頭 から 1秒間の期間と、発声区間の終尾の 1秒間の期間と、前記両期間に挟まれた中 央の期間とのうちの 2つ以上の組み合わせを適用することを特徴とする請求項 8記載 の音声認識装置。
[10] コンピュータを請求項 1乃至 9のいずれ力、 1項に記載の音声認識装置として機能さ せることを特徴とするプログラム。
[11] 音声認識装置が、音声データにおける発声区間の長さを表す発声長別に音響モ デルおよび言語モデルを学習し、前記音響モデルおよび言語モデルを用いて音声 認識処理を行うことを特徴とする音声認識方法。
[12] 前記音声認識装置が、
音響モデルおよび言語モデルを学習するとき、音声データにおける発声区間を検 出し該発声区間を表す区間情報を生成し、前記音声データと該音声データから書き 起こされたテキストデータとにおける区間情報に対応するデータ部分を認識し該デー タ部分をその発声長に基づき分類し、分類されたデータ部分を用いて音響モデルお よび言語モデルを学習することを特徴とする請求項 11記載の音声認識方法。
[13] 前記音声認識装置が、
音声認識処理を行うとき、音声認識処理の対象となる音声データの発声長を算出 し該発声長に対応する分類を認識し、認識した分類に対応する音響モデルおよび言 語モデルを用いて前記音声データの音声認識処理を実行することを特徴とする請求 項 12記載の音声認識方法。
[14] 前記音声認識装置が、
音響モデルおよび言語モデルを学習するとき、さらに、区間情報に対応するデータ 部分から当該発声区間における所定の期間に対応する詳細データ部分を認識し該 詳細データ部分を期間別に分類し、
音響モデルおよび言語モデルを学習するとき、さらに、分類された詳細データ部分 を用いて発声区間における所定の期間別に学習を実行することを特徴とする請求項
13記載の音声認識方法。
[15] 前記音声認識装置が、音声認識処理を行うとき、さらに、音声認識処理の対象とな る音声データの発声長が表す発声区間における所定の期間を認識し、
前記音声データの音声認識処理を実行するとき、さらに、認識した期間に対応する 音響モデルおよび言語モデルを用いることを特徴とする請求項 14記載の音声認識 方法。
[16] 前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、音声データ においてパワーが閾値より大きな発声区間の長さを前記発声長として認識することを 特徴とする請求項 11乃至 15のいずれか 1項に記載の音声認識方法。
[17] 前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、発声長を 1 秒未満と 1秒から 3秒未満と 3秒以上とに分類することを特徴とする請求項 11乃至 16 のいずれか 1項に記載の音声認識方法。
[18] 前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、発声区間に おける前記所定の期間を該発声区間の先頭からの時刻により認識することを特徴と する請求項 14乃至 17のいずれか 1項に記載の音声認識方法。
[19] 前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、発声区間に おける前記所定の期間として、発声区間の先頭から 1秒間の期間と、発声区間の終 尾の 1秒間の期間と、前記両期間に挟まれた中央の期間とのうちの 2つ以上の組み 合わせを適用することを特徴とする請求項 18記載の音声認識方法。
PCT/JP2007/073674 2006-12-08 2007-12-07 音声認識装置および音声認識方法 WO2008069308A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US12/518,075 US8706487B2 (en) 2006-12-08 2007-12-07 Audio recognition apparatus and speech recognition method using acoustic models and language models
JP2008548349A JP5240456B2 (ja) 2006-12-08 2007-12-07 音声認識装置および音声認識方法
EP07850261A EP2096630A4 (en) 2006-12-08 2007-12-07 AUDIO RECOGNITION DEVICE AND AUDIO RECOGNITION METHOD

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-331871 2006-12-08
JP2006331871 2006-12-08

Publications (1)

Publication Number Publication Date
WO2008069308A1 true WO2008069308A1 (ja) 2008-06-12

Family

ID=39492183

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/073674 WO2008069308A1 (ja) 2006-12-08 2007-12-07 音声認識装置および音声認識方法

Country Status (4)

Country Link
US (1) US8706487B2 (ja)
EP (1) EP2096630A4 (ja)
JP (1) JP5240456B2 (ja)
WO (1) WO2008069308A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107314A (ja) * 2009-11-16 2011-06-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音声認識方法及び音声認識プログラム
US9031841B2 (en) 2011-12-28 2015-05-12 Fujitsu Limited Speech recognition apparatus, speech recognition method, and speech recognition program
JP2020187211A (ja) * 2019-05-13 2020-11-19 株式会社日立製作所 対話装置、対話方法、及び対話コンピュータプログラム
JP2021121875A (ja) * 2018-10-19 2021-08-26 ヤフー株式会社 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6341092B2 (ja) * 2012-10-31 2018-06-13 日本電気株式会社 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
US9754607B2 (en) * 2015-08-26 2017-09-05 Apple Inc. Acoustic scene interpretation systems and related methods
US9799327B1 (en) * 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
CN109313900A (zh) * 2016-06-15 2019-02-05 索尼公司 信息处理设备和信息处理方法
US10586529B2 (en) * 2017-09-14 2020-03-10 International Business Machines Corporation Processing of speech signal

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003330485A (ja) * 2002-05-10 2003-11-19 Tokai Rika Co Ltd 音声認識装置、音声認識システム及び音声認識方法
JP2004126143A (ja) * 2002-10-01 2004-04-22 Mitsubishi Electric Corp 音声認識装置および音声認識プログラム
JP2007249051A (ja) * 2006-03-17 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6239900A (ja) 1985-08-15 1987-02-20 キヤノン株式会社 音声認識装置
US5774851A (en) * 1985-08-15 1998-06-30 Canon Kabushiki Kaisha Speech recognition apparatus utilizing utterance length information
JP2829014B2 (ja) 1989-01-12 1998-11-25 株式会社東芝 音声認識装置及び方法
US5444817A (en) * 1991-10-02 1995-08-22 Matsushita Electric Industrial Co., Ltd. Speech recognizing apparatus using the predicted duration of syllables
US5583961A (en) * 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
US5893059A (en) * 1997-04-17 1999-04-06 Nynex Science And Technology, Inc. Speech recoginition methods and apparatus
US6014624A (en) * 1997-04-18 2000-01-11 Nynex Science And Technology, Inc. Method and apparatus for transitioning from one voice recognition system to another
JP3058125B2 (ja) 1997-06-27 2000-07-04 日本電気株式会社 音声認識装置
JP2000099077A (ja) 1998-09-28 2000-04-07 Matsushita Electric Ind Co Ltd 音声認識装置
WO2001026092A2 (en) * 1999-10-06 2001-04-12 Lernout & Hauspie Speech Products N.V. Attribute-based word modeling
EP1189202A1 (en) * 2000-09-18 2002-03-20 Sony International (Europe) GmbH Duration models for speech recognition
US20020087309A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented speech expectation-based probability method and system
JP3893893B2 (ja) 2001-03-30 2007-03-14 セイコーエプソン株式会社 ウエブページの音声検索方法、音声検索装置および音声検索プログラム
JP4124416B2 (ja) 2002-01-28 2008-07-23 独立行政法人情報通信研究機構 半自動型字幕番組制作システム
JP2006039120A (ja) * 2004-07-26 2006-02-09 Sony Corp 対話装置および対話方法、並びにプログラムおよび記録媒体
US20060149544A1 (en) * 2005-01-05 2006-07-06 At&T Corp. Error prediction in spoken dialog systems
JP4906379B2 (ja) * 2006-03-22 2012-03-28 富士通株式会社 音声認識装置、音声認識方法、及びコンピュータプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003330485A (ja) * 2002-05-10 2003-11-19 Tokai Rika Co Ltd 音声認識装置、音声認識システム及び音声認識方法
JP2004126143A (ja) * 2002-10-01 2004-04-22 Mitsubishi Electric Corp 音声認識装置および音声認識プログラム
JP2007249051A (ja) * 2006-03-17 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
FUJIMURA K. ET AL.: "Jitsukankyo ni Okeru SNR-betsu Onkyo Model no Hyoka", IEICE TECHNICAL REPORT, vol. 104, no. 631, 21 January 2005 (2005-01-21), pages 43 - 48 *
KITA: "Language models and calculation 4: stochastic language models", 1999, UNIVERSITY OF TOKYO PRESS, pages: 57 - 62
KUDO I. ET AL.: "Voice Across Japan Database", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. 40, no. 9, 15 September 1999 (1999-09-15), pages 3432 - 3445, XP008109285 *
NISHIDA M. ET AL.: "BIC ni Motozuku Tokeiteki Washa Model Sentaku ni yoru Kyoshi Nashi Washa Indexing", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS D-II, vol. J87-D-II, no. 2, 1 February 2004 (2004-02-01), pages 504 - 512, XP008109283 *
See also references of EP2096630A4
STEVE YOUNG ET AL.: "The HTK Book (for HTK Version 3.3)", April 2005, CAMBRIDGE UNIVERSITY ENGINEERING DEPARTMENT, pages: 55 - 40
TAKAHIRO SHINOZAKI; SADAOKI FURUI: "HIDDEN MODE HMM USING BAYESIAN NETWORK FOR MODELING SPEAKING RATE FLUCTUATION", AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING (ASRU) WORKSHOP, 2003, pages 417 - 422, XP010713323, DOI: doi:10.1109/ASRU.2003.1318477

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107314A (ja) * 2009-11-16 2011-06-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音声認識方法及び音声認識プログラム
US9031841B2 (en) 2011-12-28 2015-05-12 Fujitsu Limited Speech recognition apparatus, speech recognition method, and speech recognition program
JP2021121875A (ja) * 2018-10-19 2021-08-26 ヤフー株式会社 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム
JP7212718B2 (ja) 2018-10-19 2023-01-25 ヤフー株式会社 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム
JP2020187211A (ja) * 2019-05-13 2020-11-19 株式会社日立製作所 対話装置、対話方法、及び対話コンピュータプログラム
JP7229847B2 (ja) 2019-05-13 2023-02-28 株式会社日立製作所 対話装置、対話方法、及び対話コンピュータプログラム

Also Published As

Publication number Publication date
EP2096630A1 (en) 2009-09-02
JP5240456B2 (ja) 2013-07-17
US20100324897A1 (en) 2010-12-23
EP2096630A4 (en) 2012-03-14
US8706487B2 (en) 2014-04-22
JPWO2008069308A1 (ja) 2010-03-25

Similar Documents

Publication Publication Date Title
US11270685B2 (en) Speech based user recognition
JP5240456B2 (ja) 音声認識装置および音声認識方法
CN106463113B (zh) 在语音辨识中预测发音
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
US20040210437A1 (en) Semi-discrete utterance recognizer for carefully articulated speech
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
CN101887725A (zh) 一种基于音素混淆网络的音素后验概率计算方法
Ghai et al. Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study
Hasnat et al. Isolated and continuous bangla speech recognition: implementation, performance and application perspective
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
Gorin et al. Learning spoken language without transcriptions
Jothilakshmi et al. Large scale data enabled evolution of spoken language research and applications
Mary et al. Searching speech databases: features, techniques and evaluation measures
JP2008176202A (ja) 音声認識装置及び音声認識プログラム
Harvill et al. Frame-Level Stutter Detection.
Proença et al. Mispronunciation Detection in Children's Reading of Sentences
Hirschberg et al. Generalizing prosodic prediction of speech recognition errors
JP7098587B2 (ja) 情報処理装置、キーワード検出装置、情報処理方法およびプログラム
Pranjol et al. Bengali speech recognition: An overview
JP6199994B2 (ja) コンテキスト情報を使用した音声認識システムにおける誤警報低減
Pisarn et al. An HMM-based method for Thai spelling speech recognition
Kamath et al. Automatic Speech Recognition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07850261

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 12518075

Country of ref document: US

Ref document number: 2008548349

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

REEP Request for entry into the european phase

Ref document number: 2007850261

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2007850261

Country of ref document: EP

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)