WO2008069308A1

WO2008069308A1 - 音声認識装置および音声認識方法

Info

Publication number: WO2008069308A1
Application number: PCT/JP2007/073674
Authority: WO
Inventors: Tadashi Emori; Yoshifumi Onishi
Original assignee: Nec Corporation
Priority date: 2006-12-08
Filing date: 2007-12-07
Publication date: 2008-06-12
Also published as: EP2096630A1; JP5240456B2; US20100324897A1; EP2096630A4; US8706487B2; JPWO2008069308A1

Abstract

　音声データにおける発声区間の長さを表す発声長別に音響モデルおよび言語モデルを学習し、それら音響モデルおよび言語モデルを用いて音声認識処理を行う。音声認識装置は、音声データ（101）における発声区間を検出し該発声区間を表す区間情報を生成する手段（103）と、音声データと該音声データから書き起こされたテキストデータ（102）とにおける区間情報に対応するデータ部分を認識し該データ部分をその発声長に基づき分類する手段（104）と、分類されたデータ部分（105）を用いて音響モデルおよび言語モデル（107）を学習する手段（106）とを有する。

Description

明細書

音声認識装置および音声認識方法

技術分野

[0001] 本発明は、音声認識技術に関し、特に、音響モデル及び言語モデルを用いた音声認識技術、並びに、モデルの学習技術に関する。

背景技術

[0002] 近年、話し言葉の音声認識の研究が盛んに行われている。話し言葉は、発声の怠けとレ、つた音響的なあ!/、ま!/、性や、単語の並び方の多様性などの様々な要因から、高精度に認識することが困難である。話し言葉の認識精度を上げる技術として、話し言葉から捉えた現象を利用する技術が提案されている。その一例として、後述の非特許文献 1のような発声速度に注目した技術が挙げられる。

[0003] 人間の話し言葉は、機械的な読み上げ発声や単語発声のように、一定の発声速度で発声されることは少ない。よって、話し言葉の速度は、発声中に大きく揺らぐ。特に、発声速度が速い場合、発声に口の動きが追随し難いため、音声に変形が生じる。このような変形は、認識精度の劣化に大きくかかわると考えられる。

[0004] 非特許文献 1には、発声速度の速!/、音声に対し発声速度の速!/、音声だけで学習された専用の音響モデルや、発声変形が登録された辞書を使うという技術が記載されている。同文献の技術は、発声速度専用のモデルを用いることで、認識性能の改善を図るものである。

非特許文献 l : Takahiro Shinozaki, Sadaoki Furui、 "HIDDEN MODE HMM USING B AYESIAN NETWORK FOR MODELING SPEAKING RATE FLUCTUATION", Auto matic Speech Recognition and Understanding (ASRU) workshop 2003、 p.417-422 非特許文献 2 :北著、「言語モデルと計算 4 :確率的言語モデル」、東京大学出版会、 1999年、 .57-62

非特許文献 3 : Steve Young et al.、 "The HTK Book (for HTK Version 3.3)，，、 Cambri ge University Engineering Department、 April 2005、 p.35-40， p.54-64， p.127-130 発明の開示発明が解決しょうとする課題

[0005] ところで、上記の発声速度は、発声の内容をもとに測定される特徴である。音声認識処理において、発声内容は、入力された音声データの認識結果を用いて推定される。し力、しながら、認識結果には誤りが含まれる可能性があるため、そのような認識結果から得られた発声速度は精度に欠ける。よって、発声速度を用いてモデルを学習し、音声認識する手法では、認識精度を向上させ難いという問題がある。また、発声速度を測定した認識結果に実際に誤りが含まれる場合は、認識精度の劣化を招くおそれがある。

[0006] 上記の問題点は、発声速度のように正確に測定し難い特徴量を、話し言葉の現象を表す特徴量として用いることに起因する。この類の特徴量を用いる音声認識の方法では、特徴量の正解が既知である理想的な条件下では、認識精度が顕著に改善する。し力、しながら、実際の場面では、正解が不明であるから認識精度を改善し難い。また、元来、発声速度は音響的な特徴であるが、この発声速度の変化に、言語的特徴である発声内容は関係しない。そのため、発声速度を用いた音声認識の改善範囲は、音響的特徴に限定されることから、改善の絶対値は大きくないと考えられる。

[0007] 本発明は、上記課題に鑑みてなされたものであり、話し言葉のように、正確な特徴量を捉え難い音声をより高精度に認識する音声認識技術を提供することを目的とす課題を解決するための手段

[0008] 本発明に係る音声認識装置は、音響モデルおよび言語モデルを用いて音声認識処理を行う音声認識部と、音声データにおける発声区間の長さを表す発声長別に前記音響モデルおよび言語モデルを学習するモデル学習部とを備える。

発明の効果

[0009] 本発明によれば、音声認識処理において、話し言葉のように正確な特徴量を捉え難レ、音声の認識精度を高めることができる。

図面の簡単な説明

[0010] [図 1]本発明の第 1の実施形態におけるモデル学習部のブロック図である。 [図 2]本発明の第 1の実施形態における音声認識部のブロック図である。

[図 3]本発明の第 2の実施形態におけるモデル学習部のブロック図である。

[図 4]本発明の第 2の実施形態における音声認識部のブロック図である。

[図 5]本発明の実施形態の音声認識装置のブロック図である。

符号の説明

[0011] 100 音声認識装置

100A、 100A_1、 100A.2 モデル学習部

100B、 100B_1、 100B.2 音声認識部

101 音声データ

102 書き起こしテキストデータ

103 区間検出手段

104 データ選別手段

105 発声長別データ

106 モデル学習手段

107 発声長別モデル

201 発声長判定手段

202、 401 モデル選択手段

203

301 発声時刻判定手段

302 発声長 ·発声時刻別データ

303 発声長'発声時刻別モデル

発明を実施するための最良の形態

[0012] 図 5に、本発明の実施形態の音声認識装置の構成を示す。音声認識装置 100は、音声認識に用いるモデルの学習処理を行うモデル学習部 100Aと、入力された音声の認識処理を行いその認識結果を出力する音声認識部 100Bとを備える。なお、図示の構成は、後述の第 1及び第 2の各実施形態に共通のものである。

[0013] 図 1に、第 1の実施形態におけるモデル学習部 100A_1の構成を示す。モデル学習部 100A_1は、音声データ 101と、書き起こしテキストデータ 102と、区間検出手段 103と、データ選別手段 104と、発声長別データ 105と、モデル学習手段 106と、発声長別モデル 107とで構成されている。なお、図中に鎖線で囲まれた共通要素 110は、本実施形態と後述の第 2の実施形態とで共通する構成要素である。

[0014] 音声データ 101は、音響モデルを学習するためのデータであり、例えば、サンプリング周波数を 44.1kHzとして、 1サンプルあたり 16ビットで A/D変換されたデータである。音声データ 101は、会話中に捕捉された音が全て含まれたものであるため、音声が発声されている区間と、発声以外の無音や雑音の区間とが混合している。

[0015] 書き起こしテキストデータ 102は、音声データ 101を人が聞き取り、その内容を書き起こしたテキストデータである。

[0016] 区間検出手段 103は、入力される音声データ 101を分析して音声の区間を検出し、それを音声区間情報として出力する。音声区間の検出方法は、例えば、音声のパヮ一を計算し、パワーがある閾値を越える区間を音声区間とする方法を用いることができる。音声のパワーは、例えば 10msec程度の一定間隔で、音声データの振幅の 2乗を足し合わせた値である。ここでは、音声区間の検出方法として、単純な方法を挙げたが、音声区間を検出する方法であれば、他の方法であってもよい。

[0017] データ選別手段 104は、区間検出手段 103により検出された音声区間に応じて音声データを切り出し、また、その区間に対応する書き起こしテキストデータ 102を選択して出力する。その際、音声データ及び書き起こしテキストから切り出したデータ部分を、音声区間の長さ、すなわち発声長別に分類し、記憶装置に格納する。本実施形態における分類の単位は、「短い発声」、「長い発声」、「中位の発声」の 3つとする。発声長別データ 105は、これら 3つの単位に分類された音声データ及び書き起こしテキストである。

[0018] 発声長の分類に関し、上記の 3つの単位について説明する。「短い発声」とは、例えば、相手の問いかけに対しての返答や相槌など、；!〜 2単語で構成される発声に対応する。また、その語彙は、「はい」や「え一」等の応答を表す単語と、問いに対する答えの単語とで構成される。このような発声は、通常、 1秒程度であると考えられるため、本実施形態では「短い発声」の発声長を 1秒未満と定義する。「中位の発声」とは、例えば、「ありがとうございました」などの定型文や、「あなたは 1月 1日にどこにいました力、」のような頭の中で整理された簡潔な問いかけなどに対応する。本実施形態では、このような「中位の発声」の発声長を 1秒から 3秒程度と定義する。「長い発声」とは、ある事象について説明する場合や、頭で整理されていない事項の説明に対応し、本実施形態では、その発声長を 3秒以上と定義する。

[0019] モデル学習手段 106は、発声長別データ 105を用いて、音声認識に用いる音響モデル及び言語モデルを上記の分類別に学習する。発声長別モデル 107は、発声長の単位別に学習された音響モデル及び言語モデルである。

[0020] ここで、言語モデルとその学習方法につ!/、て説明する。言語モデルは、非特許文献 2に記載されているような Nグラムによる近似で表されたモデルであり、その学習方法は、主に最尤推定によって行われる。 Nグラムは、言語モデルのモデル化の手法であり、履歴の N-1個の単語を条件とした N個目の単語の出現確率（条件付き確率）を用いて、全単語の出現確率を近似するとレ、う手法である。

[0021] 出現確率は、最尤推定法によると、学習コーパスの単語列の頻度を数えることによつて計算することが出来る。例えば、「私」「は」という 2単語連鎖の単語列の出現確率は、「私」「は」の出現数を 2単語連鎖の総数で割ったものに相当する。音声認識の場合、デコードのプロセスにおいて条件付き確率を用いる。条件付き確率に関し、例えば、 P (は I私)は、「私」の後に「は」の出現する確率を表す。この P (は I私)は、 P (私，は)の 2単語が連続して出現する同時確率と、「私」が出現する確率とを用いて、 P (は I私) =P( 私，は)/ P (私)と計算することが出来る。

[0022] 一方、音響モデルは、音声の音響的特徴を表現した確率モデルである。音響モデノレとしては、例えば、 HMM (Hidden Markov Model :隠れマルコフモデノレ）のツールキットのマニュアルである非特許文献 3の 35ページから 40ページに書かれて!/、る、前後の音素コンテキストを考慮したトライフォンを音素として持つ HMMが広く使われている。以下、音響モデルの学習について述べる。

[0023] 音声の音響的特徴は、非特許文献 3の 54ページから 64ページに記載されているように、音声データを 10msec程度の一定区間で切り出し、プリエンファシス、 FFT、フィルタバンクの処理を行った後、コサイン変換を行うことで抽出される。なお、抽出された特徴に加え、パワーや、前後の時刻の差分を用いることも出来る。 [0024] 次に、抽出された特徴と、それに対応する書き起こしテキストとを用いて得られたラベルデータを用い、非特許文献 3の 127ページから 130ページに記載されているフォワード ·バックワード確率を求める。これにより、特徴とラベルデータとを対応付ける。ここで、ラベルデータとしては、前述のトライフォンなどが考えられる。例えば、「わたくし」と書き起こされた場合、ラベノレデータは「*— w+a w-a+t a-t+a t_a+k a— k+u k— u+s s_i+ *」のようになる。

[0025] モデル学習手段 106は、発声長の 3つの各単位について、上記のようなプロセスで音響モデル及び言語モデルを学習する。前述の例の場合、発声長が 1秒以下の「短い発声」に対するモデル、発声長が 1秒から 3秒の「中位の発声」に対するモデル、及び、発声長が 3秒以上の「長い発声」に対するモデルといった 3種類のモデルが学習される。それら学習された音響モデル及び言語モデルが発声長別モデル 107である

[0026] 図 2に、第 1の実施形態における音声認識部 100B_1の構成を示す。音声認識部 10 0B_1は、区間検出手段 103と、発声長判定手段 201と、発声長別モデル 107と、モデル選択手段 202と、認識手段 203とで構成されて!/、る。

[0027] 区間検出手段 103は、基本的には前述のモデル学習部 100A_1のものと同様の機能であり、入力された音声データから音声区間を検出し、その音声区間の開始時刻と終了時刻とを区間情報として出力する。

[0028] 発声長判定手段 201は、区間情報に基づいて、その区間の長さである発声長を計算する。そして、算出した発声長が、前述の「1秒以下」、「1秒から 3秒」、「3秒以上」のような規定の単位のうちの何れに対応する力、を判定する。

[0029] モデル選択手段 202は、発声長判定手段 201で判定された発声長の単位に対応する音響モデル及び言語モデルを、前述の発声長別モデル 107から選択する。

[0030] 認識手段 203は、モデル選択手段 202が選択した音響モデル及び言語モデルを用いて、入力音声の認識を行い、その認識結果を出力する。認識する方法は、おおまかには音響分析処理と探索処理とに分けられる。音響分析は、前述の音声の特徴量を計算する処理である。探索は、算出された特徴量と音響モデル及び言語モデルとを用いて単語のスコアを計算し、スコアの高!/、ものを認識候補として出力するとレ、ぅ処理である。

[0031] このように、第 1の実施形態によれば、音声の特徴量としての発声長別に音響モデル及び言語モデルを学習し、そのモデルを用いて音声認識を行うことから、音声認識の精度を高めることができる。

[0032] 一般に、話し言葉には、その発声長に応じて異なる現象がみられる。例えば、「短 V、発声」及び「中位の発声」は、「は!/、」や「ありがとうござ!/、ます」と!/、つた事前に頭で整理された内容であるため、その発声は比較的明確である。一方、「長い発声」の場合は、考えながら発声されるため、途中で「え一」などのフィラーが揷入される、あるいは口籠るというように、発声があいまいになる現象がみられる。また、 1〜2単語を発声する「短い発声」と、それ以上の単語を発声する「中位の発声」とでは、後者のほうがより多くの単語を発声しょうとする分、口の動きに怠けが生じる可能性が高い。

[0033] このような現象を勘案すると、発声長とその発声にみられる現象との間には大きな相関があると考えられる。よって、本実施形態のように音響モデルおよび言語モデルを発声長別に学習し、学習したモデルにより音声認識を行うことで、高精度な音声認識が可能となる。また、発声長の計算には、パワー情報など、発声の内容に直接関与しない情報を用いるため、事前に発声内容を把握することは不要である。よって、学習時と認識時とで同じ精度の安定した音声認識システムを簡易に構築することができる。

[0034] なお、学習用のモデルとしては、上記実施形態のように、音響及び言語に分けて作成する以外にも、例えば、発声長を条件とした条件付き確率により表してもよい。また、音声認識時、例えば発声長が 3秒の場合に、 3秒のモデルだけを用いるのではなく、発声長が 2秒や 4秒のモデルとの線形和を用いてもよ!/、。

[0035] 次に、本発明の第 2の実施形態について説明する。本実施形態では、音声の特徴量として、前述の発声長に加え、音声区間の先頭からの時刻である発声時刻に着目したモデル学習及び音声認識を行う。

[0036] 図 3に、第 2の実施形態におけるモデル学習部の構成を示す。本実施形態のモデル学習部 100A_2は、図 1に示す前述の共通要素 110により得られる発声長別データ 1 05と、発声時刻判定手段 301と、発声長'発声時刻別データ 302と、モデル学習手段 1 06と、発声長'発声時刻別モデル 303とで構成されている。

[0037] 発声時刻判定手段 301は、発声長別に分類されている発声長別データ 105の音声データ及び書き起こしデータについて、さらに、先頭から 1秒間の部分、最後の 1秒間の部分、残りの中央部分の 3つに分類する。分類された部分は、本発明における詳細データ部分に対応する。なお、分類の数は、本実施形態のような 3つに限らず、 4つあるいは 5つ等、他の数であってもよい。また、先頭の 1秒間と最後の 1秒間との組み合わせ等、複数の部分を組み合わせて 1つの分類としてもよい。

[0038] 発声長 ·発声時刻別データ 302は、発声時刻判定手段 301で切り分けられた音声データ及び書き起こしテキストを、発声長及び発声時刻別に分類したものである。モデル学習手段 106は、発声長'発声時刻別データ 302を用いて、発声長別及び発声時刻別に音響モデル及び言語モデルを学習する。学習した音響モデル及び言語モデルが、発声長 '発声時刻別モデル 303である。

[0039] 図 4に、本実施形態の音声認識部 100B_2の構成を示す。音声認識部 100B_2は、区間検出手段 103と、発声長判定手段 201と、発声時刻判定手段 301と、発声長，発声時刻別モデル 303と、モデル選択手段 401と、認識手段 203とで構成されている。

[0040] 区間検出手段 103及び発声長判定手段 201は、図 2に示す前述の音声認識部 100B _1のものと同様である。すなわち、入力された音声データから音声区間を検出し、その区間の長さ、すなわち発声長が、何れの単位に対応するかを判定する。発声時刻判定手段 301は、区間情報を元に、入力された音声の先頭から 1秒間の部分、最後の 1秒間の部分、残りの中央部分の 3つを認識する。

[0041] モデル選択手段 401は、発声長と発声時刻の情報とに基づいて、発声長 ·発声時刻別モデル 303から認識対象の音声データに対応する音響モデル及び言語モデルを選択する。モデルの選択にあたっては、例えば、認識対象の音声波形が 1秒未満であり、先頭から 1秒間を認識したい場合、学習時に用いた音声データの発声長が 1 秒未満であり、かつ発声時刻が先頭から 1秒間のモデルを選択する。

[0042] 上記第 2の実施形態によれば、発声長に発声時刻を加味したことにより、より高精度な音声認識が可能となる。

[0043] 話し言葉における発声時刻別の語彙の性質は、次のように考えられる。 1つの音声区間の先頭から 1秒までに発声される単語は、「はい」などの応答や、「あ一」などのフイラ一の単語が多い傾向にある。また、区間の終盤に発声される単語としては、日本語の性質である「〜です」あるいは「でした」などの文末表現が多レ、。

[0044] このような性質を勘案すると、発声時刻別の音響モデルと言語モデルを作成し、入力された音声から観測された発声時刻に応じて、専用のモデルを使用して音声認識を行うことで、認識性能が向上すると考えられる。また、発声長に発声時刻を加味することで、認識した区間の冒頭部分は「はい」や「あ一」などの語彙に絞込み、区間の終盤は「〜です」のような文末表現に絞込むという、処理の効率化を図ることができる

[0045] また、音声の特徴量としての発声時刻は、確定した発声長の先頭からの時刻を計測することにより得られる情報である。よって、発声時刻は、発声長と同様に、発声の内容に直接関与しない情報であり、学習時と認識時とで観測値に差が生じる情報ではないため、安定した音声認識が実現できる。

[0046] なお、発声時刻を用いる学習用のモデルとしては、発声長と発声時刻とを条件とした条件付き確率により表してもよい。また、音声認識時、発声長及び発声時刻に基づき選択されたモデルだけを用いるのではなぐ隣接する発声長や発声時刻のモデル、あるいは、その他のモデルとの重み付き線形和を用いてもよい。

[0047] 上記各実施形態では、発声長の分類を「短い発声」、「長い発声」、「中位の発声」の 3つとした力本発明を実施するにあたっては、発声長を 2つあるいは 4つ以上に分類してもよい。ただし、 2つの場合は、分類が粗いことから認識精度を向上させ難く、また、単位数が増えるほど処理は複雑化する。よって、それらの兼ね合いを考慮して発声長の分類数を設定することが望まし!/、。

産業上の利用可能性

[0048] 本発明は、高精度な音声認識を必要とされる種々の音声認識装置に好適である。

また、本発明は、上記各実施形態における音声認識装置が備える手段に対応したコンピュータプログラムとして実施してもよレ、。

Claims

請求の範囲

[1] 音響モデルおよび言語モデルを用いて音声認識処理を行う音声認識部と、

音声データにおける発声区間の長さを表す発声長別に前記音響モデルおよび言語モデルを学習するモデル学習部とを備えることを特徴とする音声認識装置。

[2] 前記モデル学習部は、

音声データにおける発声区間を検出し該発声区間を表す区間情報を生成する手段と、前記音声データと該音声データから書き起こされたテキストデータとにおける区間情報に対応するデータ部分を認識し該データ部分をその発声長に基づき分類する手段と、分類されたデータ部分を用いて音響モデルおよび言語モデルを学習する手段とを有することを特徴とする請求項 1記載の音声認識装置。

[3] 前記音声認識部は、

音声認識処理の対象となる音声データの発声長を算出し該発声長に対応する分類を認識する手段と、認識した分類に対応する音響モデルおよび言語モデルを用いて前記音声データの音声認識処理を実行する手段とを有することを特徴とする請求項 2記載の音声認識装置。

[4] 前記モデル学習部は、さらに、区間情報に対応するデータ部分力当該発声区間における所定の期間に対応する詳細データ部分を認識し該詳細データ部分を期間別に分類する手段を有し、

音響モデルおよび言語モデルを学習するとき、さらに、分類された詳細データ部分を用いて発声区間における所定の期間別に学習を実行することを特徴とする請求項 3記載の音声認識装置。

[5] 前記音声認識部は、さらに、音声認識処理の対象となる音声データの発声長が表す発声区間における所定の期間を認識する手段を有し、

前記音声データの音声認識処理を実行するとき、さらに、認識した期間に対応する音響モデルおよび言語モデルを用いることを特徴とする請求項 4記載の音声認識装置。

[6] 前記モデル学習部は、音声データにおいてパワーが閾値より大きな発声区間の長さを前記発声長として認識することを特徴とする請求項 1乃至 5のいずれ力、 1項に記載の音声認識装置。

[7] 前記モデル学習部は、発声長を 1秒未満と 1秒から 3秒未満と 3秒以上とに分類することを特徴とする請求項 1乃至 6のいずれか 1項に記載の音声認識装置。

[8] 前記モデル学習部は、発声区間における前記所定の期間を該発声区間の先頭からの時刻により認識することを特徴とする請求項 4乃至 7のいずれ力、 1項に記載の音声認識装置。

[9] 前記モデル学習部は、発声区間における前記所定の期間として、発声区間の先頭から 1秒間の期間と、発声区間の終尾の 1秒間の期間と、前記両期間に挟まれた中央の期間とのうちの 2つ以上の組み合わせを適用することを特徴とする請求項 8記載の音声認識装置。

[10] コンピュータを請求項 1乃至 9のいずれ力、 1項に記載の音声認識装置として機能させることを特徴とするプログラム。

[11] 音声認識装置が、音声データにおける発声区間の長さを表す発声長別に音響モデルおよび言語モデルを学習し、前記音響モデルおよび言語モデルを用いて音声認識処理を行うことを特徴とする音声認識方法。

[12] 前記音声認識装置が、

音響モデルおよび言語モデルを学習するとき、音声データにおける発声区間を検出し該発声区間を表す区間情報を生成し、前記音声データと該音声データから書き起こされたテキストデータとにおける区間情報に対応するデータ部分を認識し該データ部分をその発声長に基づき分類し、分類されたデータ部分を用いて音響モデルおよび言語モデルを学習することを特徴とする請求項 11記載の音声認識方法。

[13] 前記音声認識装置が、

音声認識処理を行うとき、音声認識処理の対象となる音声データの発声長を算出し該発声長に対応する分類を認識し、認識した分類に対応する音響モデルおよび言語モデルを用いて前記音声データの音声認識処理を実行することを特徴とする請求項 12記載の音声認識方法。

[14] 前記音声認識装置が、

音響モデルおよび言語モデルを学習するとき、さらに、区間情報に対応するデータ部分から当該発声区間における所定の期間に対応する詳細データ部分を認識し該詳細データ部分を期間別に分類し、

音響モデルおよび言語モデルを学習するとき、さらに、分類された詳細データ部分を用いて発声区間における所定の期間別に学習を実行することを特徴とする請求項

13記載の音声認識方法。

[15] 前記音声認識装置が、音声認識処理を行うとき、さらに、音声認識処理の対象となる音声データの発声長が表す発声区間における所定の期間を認識し、

前記音声データの音声認識処理を実行するとき、さらに、認識した期間に対応する音響モデルおよび言語モデルを用いることを特徴とする請求項 14記載の音声認識方法。

[16] 前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、音声データにおいてパワーが閾値より大きな発声区間の長さを前記発声長として認識することを特徴とする請求項 11乃至 15のいずれか 1項に記載の音声認識方法。

[17] 前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、発声長を 1 秒未満と 1秒から 3秒未満と 3秒以上とに分類することを特徴とする請求項 11乃至 16 のいずれか 1項に記載の音声認識方法。

[18] 前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、発声区間における前記所定の期間を該発声区間の先頭からの時刻により認識することを特徴とする請求項 14乃至 17のいずれか 1項に記載の音声認識方法。

[19] 前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、発声区間における前記所定の期間として、発声区間の先頭から 1秒間の期間と、発声区間の終尾の 1秒間の期間と、前記両期間に挟まれた中央の期間とのうちの 2つ以上の組み合わせを適用することを特徴とする請求項 18記載の音声認識方法。