WO2020162238A1

WO2020162238A1 - 音声認識装置、音声認識方法、プログラム

Info

Publication number: WO2020162238A1
Application number: PCT/JP2020/002648
Authority: WO
Inventors: 亮増村; 智大田中; 隆伸大庭
Original assignee: 日本電信電話株式会社
Priority date: 2019-02-07
Filing date: 2020-01-27
Publication date: 2020-08-13
Also published as: US20220139374A1; JP7028203B2; JP2020129015A

Abstract

文脈を考慮したend-to-end音声認識を実現できる音声認識装置を提供する。注目している単語系列を観測値とし、注目している単語系列よりも過去の単語系列、および注目している単語系列に対応する音響特徴量系列、およびモデルパラメータθをパラメータとし、パラメータの下で観測値が生起する確率の尤度関数について最尤推定を行うことにより、モデルパラメータθを学習するモデルパラメータ学習部と、認識対象である単語系列を観測値とし、認識対象である単語系列よりも過去の、既に認識済みの単語系列、および認識対象である単語系列に対応する音響特徴量系列、および学習済みのモデルパラメータθをパラメータとし、パラメータの下で観測値が生起する確率の尤度関数について最尤基準により、認識対象である単語系列を認識する処理を時系列順に繰り返す発話音声認識部を含む。

Description

音声認識装置、音声認識方法、プログラム

　本発明は、音声認識装置、音声認識方法、プログラムに関する。

　深層学習技術の進展に伴い、入力を音声とし、出力をテキストとするend-to-end音声認識と呼ばれる音声認識のモデル化方法が登場し、技術的な進展が進んでいる。これまで広く用いられてきた音声認識は、音声と音素系列の関係をモデル化した音響モデル、音素系列と単語の関係をモデル化した発音モデル、単語間の関係をモデル化した言語モデルという３つのモデルの組み合わせにより構成され、各モデルをそれぞれ異なるデータを用いて独立に学習しておくことで音声認識アルゴリズム（装置）を構成していた。一方、end-to-end音声認識は、音声とテキストの関係をモデル化したモデル１つのみで音声認識アルゴリズム（装置）を構成することができ、学習に用いるデータも音声とテキストのペアデータのみである。

　従来技術の構成について述べる。end-to-end音声認識の入力となる音声から自動抽出できる音響特徴量系列をX=(x₁,…,x_T)、出力となる単語系列をW=(w₁,…,w_N)とし、P(W|X,θ)をモデル化する。ここで、θはモデルパラメータを表す。P(W|X,θ)のモデル化は次式で表される。

　このモデル化による音声認識アルゴリズム（装置）では、音響特徴量系列Xが入力された時の音声認識結果の単語系列W^を次式に基づき決定する。

　モデルパラメータθは、複数(２つ以上)の単語系列と音響特徴量系列の組の集合からなる学習データD=(W₁,X₁),…,(W_|D|,X_|D|)（ただし、|D|は学習データDの要素数）に基づいて、事前に学習することにより決定される。Dにより最適化されたパラメータθ^は次式に従う。

　詳細なモデル化には、様々な方法を採用することができる。例えば、ニューラルネットワークを用いた方法が代表的であり、非特許文献１や非特許文献２の方法を用いることができる。

Jan Chorowski, Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio, "End-to-end continuous speech recognition using attention-based recurrent NN: first results," in NIPS: Workshop Deep Learning and Representation Learning Workshop, 2014. Jan Chorowski, Dzmitry Bahdanau, Dmitriy Serdyuk, Kyunghyun Cho, and Yoshua Bengio, "Attention-based models for speech recognition," in Advances in Neural Information Processing Systems (NIPS), 2015, pp. 577-585.

　上述の従来技術は単一発話の音声を音声認識する問題をモデル化したものであり、連続した複数発話から構成される音声系列を音声認識する場合においても、複数発話中のそれぞれの音声を音声認識する場合において、複数発話の発話間の関係を全く利用することができない。すなわち、過去の発話の音声入力に対してどのような単語系列を出力してきたかといった情報を、現在の発話の音声認識を行う際に考慮することができないという課題がある。

　具体例を挙げて説明する。例えば、10分程度の講演音声を音声認識する場面において、この講演音声を無音が0.5秒存在するごとに区切り、合計200発話の音声が含まれていた場合を想定する。この200発話は連続した系列であり、連続した発話は互いに関連する情報についての発話である可能性が高いと考えられる。しかしながら、従来技術を適用すると200発話を各発話それぞれ独立に音声認識することになり、文脈情報を音声認識に利用できない。例えば、100発話目が「今期の業績は素晴らしいですね」という発話であったものとし、101発話目が「すばらしいせいかです」という発話であった場合、100発話目を文脈として考慮できれば、101発話目を「素晴らしい成果です」と音声認識できる可能性が高いが、100発話目を文脈として考慮できない場合は、101発話目を「素晴らしい製菓です」や「素晴らしい聖火です」などと誤認識する可能性がある。

　例えば、すべての発話（上述の例では200発話）をまとめて、発話長が長い１発話として扱うことで上記の課題を解決することを想定する。この場合、end-to-end音声認識アルゴリズム（装置）は音声全体をベクトルに変換して扱う仕組みであるために、発話長が長い発話に対してうまく動作しない問題が招来する。すべての発話をまとめて１発話として、end-to-end音声認識アルゴリズム（装置）で扱うことは、非現実的である。従って従来は、文脈を考慮したend-to-end音声認識が実現できない点が課題であった。

　そこで本発明では、文脈を考慮したend-to-end音声認識を実現できる音声認識装置を提供することを目的とする。

　本発明の音声認識装置は、モデルパラメータ学習部と、発話音声認識部を含む。

　モデルパラメータ学習部は、時系列順に取得された単語系列と、対応する音響特徴量系列の組の集合からなる学習データに基づき、注目している単語系列を観測値とし、注目している単語系列よりも過去の単語系列、および注目している単語系列に対応する音響特徴量系列、およびモデルパラメータθをパラメータとし、パラメータの下で観測値が生起する確率の尤度関数について最尤推定を行うことにより、モデルパラメータθを学習する。

　発話音声認識部は、時系列順に取得された音響特徴量系列の集合からなる認識用データに基づき、認識対象である単語系列を観測値とし、認識対象である単語系列よりも過去の、既に認識済みの単語系列、および認識対象である単語系列に対応する音響特徴量系列、および学習済みのモデルパラメータθをパラメータとし、パラメータの下で観測値が生起する確率の尤度関数について最尤基準により、認識対象である単語系列を認識する処理を時系列順に繰り返す。

　本発明の音声認識装置によれば、文脈を考慮したend-to-end音声認識を実現できる。

実施例１の音声認識装置の構成を示すブロック図。実施例１の音声認識装置の動作を示すフローチャート。実施例１の音声認識装置の発話音声認識部の構成を示すブロック図。実施例１の音声認識装置の発話音声認識部の動作を示すフローチャート。

　以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

　以下、本実施例の音声認識装置１（最小構成、図１の破線枠内の構成を参照）を説明する。ここでは、モデルパラメータθを音声認識装置１とは別の装置で予め学習してあるものとする。

　なお、この明細書では、文書作成ソフトの都合上、文字の後ろに「^」を付す場合があるが、この「^」は、当該文字の上に表示されているものとして扱う。例えば、W^L^と表記する場合

を意味するものとする。

＜音声認識装置１（最小構成）の入力、出力、動作の概要＞
入力１：L個の連続した発話の音響特徴量系列の系列X¹,…,X^L
入力２：モデルパラメータθ（別装置で学習し、本装置に入力）
出力：L個の連続した単語系列の系列W¹^,…,W^L^

　本実施例の音声認識装置１は、L個の連続した発話の音響特徴量系列の系列X¹,…,X^Lと、モデルパラメータθを入力とし、モデルパラメータθに従った確率計算により、L個の連続した単語系列の系列W¹^,…,W^L^を出力する。ここでは、end-to-end音声認識の入力となるL個の連続した発話の音声系列から自動抽出できる音響特徴量系列の系列をX¹,…,X^Lとする。ここでX^lはl番目の発話の音響特徴量系列であり、X^l=(x^l ₁,…,x^l _Tl)として表される。出力となる単語系列の系列をW¹^,…,W^L^、ここでW^l^はl番目の発話の単語系列であり、

として表される。

　ここで、音響特徴量系列には、音声から計算できる任意の特徴量系列を利用することができるが、例えばメルフィルタバンクケプストラム係数や、対数メルフィルタバンクといった特徴量系列を用いることができる。メルフィルタバンクケプストラム係数や対数メルフィルタバンクの説明は割愛する。

　単語系列は、英語の場合は例えばスペース区切りの表現、日本語であれば例えば形態素解析により自動分割された表現、または文字単位に区切った表現を単語系列としてもよい。

　次に、図１を参照して実施例１の音声認識装置の一般的な構成について説明する。なお、ここでは、モデルパラメータθを音声認識装置１内で学習するものとする。同図に示すように本実施例の音声認識装置１は、モデルパラメータ学習部１１とモデルパラメータ記憶部１１ａと、発話音声認識部１２と、単語系列記憶部１２ａを含む。ただし上述したように、モデルパラメータ学習部１１とモデルパラメータ記憶部１１ａは別装置の構成要件としてもよい。以下、図２を参照して各構成要件の動作を説明する。

＜モデルパラメータ学習部１１＞
入力：複数(２つ以上)の単語系列の系列と音響特徴量系列の系列の組の集合である学習データD=(A₁,B₁),…,(A_|D|,B_|D|)
出力：モデルパラメータθ

　モデルパラメータ学習部１１は、複数(２つ以上)の時系列順に取得された単語系列と、対応する音響特徴量系列の組の集合からなる学習データD=(A₁,B₁),…,(A_|D|,B_|D|)に基づき、注目している単語系列（次式のW^l）を観測値とし、注目している単語系列よりも過去の単語系列（次式のW¹,...,W^l-1）、および注目している単語系列（次式のW^l）に対応する音響特徴量系列（次式のX^l）、およびモデルパラメータθをパラメータとし、パラメータ（次式のW¹,...,W^l-1,X^l,θ）の下で観測値（次式のW^l）が生起する確率の尤度関数について最尤推定を行うことにより、モデルパラメータθを学習する（Ｓ１１）。なお(A_m,B_m)={(W¹,X¹),…,(W^Lm,X^Lm)}である。Dにより最適化されたパラメータθ^は次式に従う。

ここで学習されたθ^を発話音声認識部１２におけるθとして用いる。

＜モデルパラメータ記憶部１１ａ＞
　モデルパラメータ記憶部１１ａは、学習されたθ^を記憶する。

＜発話音声認識部１２＞
入力１：l番目の発話の音響特徴量系列X^l
入力２：既に音声認識結果として得られた1番目からl-1番目の発話までの単語系列W¹^,…,W^l-1^
入力３：モデルパラメータθ
出力：l番目の発話の単語系列W^l^

　発話音声認識部１２は、時系列順に取得された音響特徴量系列の集合（X¹,...,X^L）からなる認識用データに基づき、認識対象である単語系列（次式のW^l）を観測値とし、認識対象である単語系列（次式のW^l）よりも過去の、既に認識済みの単語系列（次式のW¹^,…,W^l-1^）、および認識対象である単語系列（次式のW^l）に対応する音響特徴量系列（次式のX^l）、および学習済みのモデルパラメータθをパラメータとし、パラメータ（次式のW¹^,…,W^l-1^,X^l,θ）の下で観測値（次式のW^l）が生起する確率の尤度関数について、最尤基準により、認識対象である単語系列（次式のW^l^）を認識する処理を時系列順に繰り返す（Ｓ１２）。

　すなわち、発話音声認識部１２は、l番目の発話の音響特徴量系列X^lと音声認識結果として得られた1番目からl-1番目の発話までの認識済みの単語系列W¹^,…,W^l-1^が入力された時に、モデルパラメータθに従った確率計算により、l番目の発話についての事後確率分布

を得て、最尤基準によりl番目の発話の音声認識結果の単語系列W^l^を決定する。すなわち、最尤基準による決定は次式に従う。

　上述したように、発話音声認識部１２は、ステップＳ１２を時系列順に再帰的に実行する。例えば、l番目の発話の音声認識結果の単語系列W^l^を既知の認識結果とすることにより、l+1番目の発話についての事後確率分布

を得ることができ、同様に以下のようにl+1番目の発話の音声認識結果の単語系列W^l+1^を決定する。

なお、

の詳しい定式化と詳細な計算方法は、この後に述べる。

＜単語系列記憶部１２ａ＞
　単語系列記憶部１２ａは、発話音声認識部１２が再帰的に用いる単語系列を記憶する。例えば、ステップＳ１２において、単語系列W¹^が認識された場合、単語系列記憶部１２ａは、当該単語系列W¹^を記憶し、単語系列W^l^が認識された場合、単語系列記憶部１２ａは、当該単語系列W^l^を記憶し、単語系列W^L^が認識された場合、単語系列記憶部１２ａは、当該単語系列W^L^を記憶する。

＜発話音声認識部１２の詳細な構成＞
　図３に示すように、発話音声認識部１２は、発話ベクトル計算部１２１と、発話系列埋め込みベクトル計算部１２２と、文脈ベクトル計算部１２３と、事後確率計算部１２４を含む。

　発話音声認識部１２は前述のとおり、

を計算する。この詳細な定式化は次式で表される。

なお、

の計算は、発話音声認識部１２内の発話ベクトル計算部１２１と、発話系列埋め込みベクトル計算部１２２と、文脈ベクトル計算部１２３と、事後確率計算部１２４により実現される。以下では、図４を参照し、l番目の発話のn番目の単語についての確率

を計算するための詳細な処理を表す。

＜発話ベクトル計算部１２１＞
入力１：l-1番目の発話の単語系列W^l-1^
入力２：モデルパラメータθ
出力：l-1番目の発話の発話ベクトルu^l-1

　発話ベクトル計算部１２１は、認識対象であるl番目の発話の単語系列W^lよりも過去の、既に認識済みのl-1番目の発話の単語系列W^l-1^をモデルパラメータθに基づく変換関数により、l-1番目の発話の発話ベクトルu^l-1に変換する（Ｓ１２１）。この時、l-1番目の発話の単語系列W^l-1^は1つ以上の単語を含む。発話ベクトルは単語系列に含まれる情報を埋め込んだベクトルを表し、次発話の音声認識に必要な発話の意味的な情報が埋め込まれている。ベクトルの次元数を大きくするほどたくさんの情報を埋め込むことができ、例えば512次元のベクトルとして人手で次元数を決定する。このとき変換関数には、可変長数の記号列を単一ベクトルに変換する関数であれば任意のものを利用できるが、例えば、発話中の単語の頻度ベクトルを構成するような関数を用いることができるし、リカレントニューラルネットワークや双方向リカレントニューラルネットワーク等も用いることができる。

　なお、l=1の場合は入力となる単語系列W⁰は存在しなないため、出力のu⁰はすべての要素が0.0のベクトルとすればよい。

　なお、ステップＳ１２１は、W¹^,…,W^l-1^のそれぞれに対して行われることになる。したがって、発話ベクトル計算部１２１は、u¹,…,u^l-1をそれぞれ出力することなる。

＜発話系列埋め込みベクトル計算部１２２＞
入力１：過去の発話についての発話ベクトルの系列u¹,…,u^l-1
入力２：モデルパラメータθ
出力：l-1番目の発話系列埋め込みベクトルv^l-1

　発話系列埋め込みベクトル計算部１２２は、過去の発話についての発話ベクトルの系列u¹,…,u^l-1をモデルパラメータθに基づく変換関数により、l-1番目の発話系列埋め込みベクトルv^l-1に変換する（Ｓ１２２）。この発話系列埋め込みベクトルは単一のベクトルであり、次発話の音声認識に必要な意味的情報が埋め込まれている。ベクトルの次元数を大きくするほどたくさんの情報を埋め込むことができ、例えば512次元のベクトルとして人手で次元数を決定する。このとき変換関数には、可変長数のベクトル列を単一ベクトルに変換する関数であれば任意のものを利用できるが、例えばリカレントニューラルネットワークや、発話ベクトル系列の各ベクトルを平均化するような関数を用いることができる。なお、平均化する場合は、発話系列埋め込みベクトルの次元数は、発話ベクトル系列の各次元数に依存する。

　なお、l=1の場合は、入力となる過去発話系列についての発話ベクトル系列は存在しないため、出力のv⁰はすべての要素が0.0のベクトルとすればよい。

＜文脈ベクトル計算部１２３＞
入力１：l番目の発話の単語系列W^lの中のn番目の単語w^l _nよりも過去の単語列w^l ₁,…,w^l _n-1
入力２：l番目の発話の音響特徴量系列X^l
入力３：モデルパラメータθ
出力:l番目の発話のn番目の単語向けの文脈ベクトルs^l _n

　文脈ベクトル計算部１２３は、認識対象であるl番目の発話の単語系列W^lの中のn番目の単語w^l _nよりも過去の単語列w^l ₁,…,w^l _n-1（単語系列と意味を区別するため単語列と呼称する）と、認識対象であるl番目の単語系列W^lに対応するl番目の音響特徴量系列X^lをモデルパラメータθに基づく変換関数によりl番目の発話の単語系列W^lの中のn番目の単語w^l _n向けの文脈ベクトルs^l _nに変換する（Ｓ１２３）。この文脈ベクトルは、次の単語の音声認識に必要な意味的情報と音韻的情報を統合した情報が埋め込まれている。このとき変換関数には、２種類の可変長数のベクトル列を単一ベクトルに変換する関数であれば任意のものを利用できるが、例えば非特許文献２のように音響特徴量系列と単語系列のそれぞれにリカレントニューラルネットワークを設けて、注意機構を加えることにより単一の文脈ベクトルとして表現する関数を用いることもできる。また、最も単純なものであれば、l番目の発話のn番目の単語よりも過去の単語系列の頻度ベクトルとl番目の発話の音響特徴量系列を平均化したベクトルの結合ベクトルを構成するような関数を用いることもできる。

＜事後確率計算部１２４＞
入力１：l-1番目の発話系列埋め込みベクトルv^l-1
入力２：l番目の発話のn番目の単語向けの文脈ベクトルs^l _n
入力３：モデルパラメータθ
出力:l番目の発話のn番目の単語についての事後確率

　事後確率計算部１２４は、認識対象である単語系列W^lよりも一つ過去までの発話ベクトル系列u¹,…,u^l-1を変換してなるl-1番目の発話系列埋め込みベクトルv^l-1、および認識対象であるl番目の単語系列W^lのn番目の単語向けの文脈ベクトルs^l _nから、モデルパラメータθに基づく変換関数により、l番目の単語系列W^lのn番目の単語についての事後確率

を計算する（Ｓ１２４）。事後確率は各単語を要素としたベクトルとして表すことができ、ベクトル変換により事後確率分布を表現することが可能である。このとき変換関数には、２種類のベクトルを事後確率分布に変換する関数であれば任意のものを利用できるが、例えば、２つのベクトルの結合ベクトルにソフトマックス関数を用いた変換を行う動作を行う関数により実現することができる。それ以外でも、事後確率分布に相当する出力ベクトルの要素の総和が1.0に変換可能な関数が適用可能である。

　本実施例の音声認識装置１によれば、従来のような単一発話を扱うend-to-end音声認識ではなく、発話系列を扱うend-to-end音声認識のモデル化を導入したため、音声入力が発話系列と表される場合に、文脈を考慮したend-to-end音声認識を実現できる。すなわち発話系列中のある発話を音声認識する際に、発話系列の最初の発話から対象発話の１つ前の発話までの情報を文脈として利用することが可能となる。例えば前述と同様に、１０分程度の講演音声を音声認識することを想定し、この講演音声を無音が0.5秒存在するごとに区切ると、200発話の音声が含まれていた場合を想定する。この場合、本実施例の音声認識装置１によれば、連続した200発話中のある発話より前の全ての関連する文脈情報を現在の音声認識に利用することができる。例えば、音声認識装置１は、100発話目を音声認識する際に、1発話目から99発話目までの音声認識結果を文脈として利用することができる。

　本実施例の音声認識装置１は、例えば講演、電話、会議などの音声認識の認識性能を高めることができる。

＜補記＞
　本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

　ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

　ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

　本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

　既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　時系列順に取得された単語系列と、対応する音響特徴量系列の組の集合からなる学習データに基づき、注目している単語系列を観測値とし、注目している単語系列よりも過去の単語系列、および注目している単語系列に対応する音響特徴量系列、およびモデルパラメータθをパラメータとし、前記パラメータの下で前記観測値が生起する確率の尤度関数について最尤推定を行うことにより、前記モデルパラメータθを学習するモデルパラメータ学習部と、
　時系列順に取得された音響特徴量系列の集合からなる認識用データに基づき、認識対象である単語系列を観測値とし、認識対象である単語系列よりも過去の、既に認識済みの単語系列、および認識対象である単語系列に対応する音響特徴量系列、および学習済みの前記モデルパラメータθをパラメータとし、前記パラメータの下で前記観測値が生起する確率の尤度関数について最尤基準により、認識対象である単語系列を認識する処理を時系列順に繰り返す発話音声認識部
　を含む音声認識装置。
　請求項１に記載の音声認識装置であって、
　前記発話音声認識部は、
　認識対象である単語系列よりも過去の、既に認識済みの単語系列を前記モデルパラメータθに基づく変換関数により、次発話の音声認識に必要な意味的情報を含むベクトルである発話ベクトルに変換する発話ベクトル計算部と、
　前記発話ベクトルの系列を前記モデルパラメータθに基づく変換関数により、次発話の音声認識に必要な意味的情報を含む発話系列埋め込みベクトルに変換する発話系列埋め込みベクトル計算部と、
　認識対象である単語系列中の注目している単語よりも過去の、認識対象である前記単語系列中の単語列と、認識対象である単語系列に対応する音響特徴量系列とを、前記モデルパラメータθに基づく変換関数により、認識対象である単語系列中の単語の音声認識に必要な意味的情報と音韻的情報を統合した情報を含む文脈ベクトルに変換する文脈ベクトル計算部と、
　認識対象である単語系列よりも一つ過去までの発話ベクトル系列を変換してなる前記発話系列埋め込みベクトルと、認識対象である単語系列中の単語向けの文脈ベクトルから、前記モデルパラメータθに基づく変換関数により、認識対象である単語系列の単語についての事後確率を計算する事後確率計算部を含む
　音声認識装置。
　時系列順に取得された単語系列と、対応する音響特徴量系列の組の集合からなる学習データに基づき、注目している単語系列を観測値とし、注目している単語系列よりも過去の単語系列、および注目している単語系列に対応する音響特徴量系列、およびモデルパラメータθをパラメータとし、前記パラメータの下で前記観測値が生起する確率の尤度関数について最尤推定を行うことにより、前記モデルパラメータθを学習するモデルパラメータ学習ステップと、
　時系列順に取得された音響特徴量系列の集合からなる認識用データに基づき、認識対象である単語系列を観測値とし、認識対象である単語系列よりも過去の、既に認識済みの単語系列、および認識対象である単語系列に対応する音響特徴量系列、および学習済みの前記モデルパラメータθをパラメータとし、前記パラメータの下で前記観測値が生起する確率の尤度関数について最尤基準により、認識対象である単語系列を認識する処理を時系列順に繰り返す発話音声認識ステップ
　を含む音声認識方法。
　請求項１に記載の音声認識方法であって、
　前記発話音声認識ステップは、
　認識対象である単語系列よりも過去の、既に認識済みの単語系列を前記モデルパラメータθに基づく変換関数により、次発話の音声認識に必要な意味的情報を含むベクトルである発話ベクトルに変換するステップと、
　前記発話ベクトルの系列を前記モデルパラメータθに基づく変換関数により、次発話の音声認識に必要な意味的情報を含む発話系列埋め込みベクトルに変換するステップと、
　認識対象である単語系列中の注目している単語よりも過去の、認識対象である前記単語系列中の単語列と、認識対象である単語系列に対応する音響特徴量系列とを、前記モデルパラメータθに基づく変換関数により、認識対象である単語系列中の単語の音声認識に必要な意味的情報と音韻的情報を統合した情報を含む文脈ベクトルに変換するステップと、
　認識対象である単語系列よりも一つ過去までの発話ベクトル系列を変換してなる前記発話系列埋め込みベクトルと、認識対象である単語系列中の単語向けの文脈ベクトルから、前記モデルパラメータθに基づく変換関数により、認識対象である単語系列の単語についての事後確率を計算するステップを含む
　音声認識方法。
　コンピュータを請求項１または２に記載の音声認識装置として機能させるプログラム。