WO2009081861A1

WO2009081861A1 - 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体

Info

Publication number: WO2009081861A1
Application number: PCT/JP2008/073192
Authority: WO
Inventors: Hitoshi Yamamoto; Kiyokazu Miki
Original assignee: Nec Corporation
Priority date: 2007-12-21
Filing date: 2008-12-19
Publication date: 2009-07-02
Also published as: US20110173000A1; US8583436B2; JPWO2009081861A1; JP5440177B2

Abstract

　単語カテゴリ推定装置(101)は、単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の１つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデル(5)を備え、単語カテゴリ推定部(4)により、処理対象となる音声認識仮説の単語カテゴリグラフを入力し、単語カテゴリモデルを参照して単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ列候補を出力する。

Description

単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体

　本発明は、音声をテキストデータ等の電子データに変換する音声認識技術に関し、特に、発話中の語句のカテゴリを推定する技術に関する。

　ユーザによって発せられた音声（発話）の認識結果を入力とする情報検索装置では、ユーザの意図に適合する情報の絞り込みに有効な語句（キーワード）を正しく認識することが重要である。例えば、テレビ番組を検索する装置では、番組名や出演者名などをキーワードとして番組を絞り込む。このとき、ユーザの発話に含まれるキーワードを誤認識すると、その誤り語句で番組を絞り込むため、話者の視聴したいものと異なる番組を検索結果として提供するおそれがある。

　このようなキーワードを精度よく認識する方法として、発話に含まれるキーワードの種類を言語制約とする方法がある。従来、発話に含まれるキーワードの種類を同定するために、音声認識結果から固有表現を自動抽出する方法が提案されている。この方式に関する技術として、例えば、文献１「特開２００４－１８４９５１号公報」に記載のものがある。

　文献１に記載の技術は、固有表現クラスつきテキストで学習した言語モデルを用いた固有表現クラス同定方法である。この技術による固有表現クラス同定装置は、図１１に示すように、音声認識結果から固有表現クラス付きの単語グラフを生成し、固有表現クラス付き形態素の言語モデルを用いて、全体の確率が最大となる固有表現クラス付き形態素列を出力する。

　また、音声認識結果に含まれる固有表現を抽出する際に、音声認識誤りの影響による抽出精度低下を軽減する方法がある。例えば、文献２「須藤他、"音声認識の確信度と識別モデルを利用した音声からの固有表現抽出"、第１回音声ドキュメント処理ワークショップ予稿集、豊橋技術科学大学メディア科学リサーチセンター、日本、2007年」は、音声認識の確信度を固有表現抽出のための識別モデルの素性として用いる。

　しかしながら、上記文献１に記載の固有表現クラス同定方法を用いる場合、発話に含まれる固有表現の同定に十分な精度が得られないおそれがある。その理由は、固有表現クラスの推定に用いる尺度として、固有表現クラスつき単語の連接確率（bigram）のみを用いており、固有表現であるかどうかを識別するために有用な特徴の一部のみが考慮されるに過ぎないためである。
　また、同方法では、固有表現クラスと単語の両者を同時に同定するため、音声認識誤りがある場合はどの単語に誤ったかも言語モデルに含める必要があるが、単語のみの言語モデルと比べて学習すべきパラメタが多いため、そのような言語モデルを高い精度で学習することは難しい。そのため、発話に含まれる固有表現の検出漏れや、発話全体の内容に適合しない種類の固有表現の誤検出が発生するという問題がある。

　一方、上記文献２に記載の方法は、固有表現であるかどうかを識別するための多種の特徴を識別モデルの素性として用いているため、上記文献１に記載の方法と比較すると、固有表現抽出精度が高まる可能性がある。
　しかしながら、同方法は、各単語の前後２単語の特徴という限られた特徴のみを用いているため、音声認識誤りが数単語続くような区間では、固有表現の抽出が難しいという問題がある。

　本発明は、上記課題に鑑みてなされたものであり、発話中の語句のカテゴリを推定する際、音声認識誤りに対する頑健性と推定精度を高めることが可能な単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体を提供することを目的としている。

　このような目的を達成するために、本発明にかかる単語カテゴリ推定装置は、単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも素性の１つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルと、処理対象となる音声認識仮説の単語カテゴリグラフを入力し、単語カテゴリモデルを参照して単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ列候補を出力する単語カテゴリ推定部とを備えている。

　また、本発明にかかる単語カテゴリ推定方法は、単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも素性の１つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを記憶部で記憶するステップと、演算処理部により、処理対象となる音声認識仮説の単語カテゴリグラフを入力し、単語カテゴリモデルを参照して単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ列候補を出力する単語カテゴリ推定ステップとを備えている。

　また、本発明にかかる音声認識装置は、入力された音声に対応する音声認識仮説を生成する音声認識部と、単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも素性の１つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルと、音声認識仮説の単語カテゴリグラフを入力し、単語カテゴリモデルを参照して単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ推定を行う単語カテゴリ推定部と、単語カテゴリ推定結果を語彙制約として再び音声認識を行う再音声認識部とを備えている。

　また、本発明にかかる音声認識方法は、演算処理部により、入力された音声に対応する音声認識仮説を生成する音声認識ステップと、単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも素性の１つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを記憶部で記憶するステップと、演算処理部により、音声認識仮説の単語カテゴリグラフを入力し、単語カテゴリモデルを参照して単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ推定を行う単語カテゴリ推定ステップと、演算処理部により、単語カテゴリ推定結果を語彙制約として再び音声認識を行う再音声認識ステップとを備えている。

　本発明によれば、発話中の語句のカテゴリを推定する際、音声認識誤りに対する頑健性と推定精度を高めることができる。

図１は、本発明の第１の実施形態にかかる単語カテゴリ推定装置の構成を示すブロック図である。図２は、本発明の第１の実施形態にかかる単語カテゴリ推定装置の構成を示すブロック図である。図３は、単語グラフの例示である。図４は、単語カテゴリグラフの例示である。図５は、単語カテゴリに関する特徴の例示である。図６は、単語カテゴリモデルの素性の例示である。図７は、本発明の第１の実施形態にかかる単語カテゴリ推定装置の単語カテゴリ推定処理を示すフローチャートである。図８は、本発明の第２の実施形態にかかる単語カテゴリ推定装置の構成を示すブロック図である。図９は、本発明の第２の実施形態にかかる単語カテゴリ推定装置の単語カテゴリ推定処理を示すフローチャートである。図１０は、本発明の第３の実施形態にかかる音声認識装置の構成を示すブロック図である。図１１は、従来のクラス同定装置の構成を示すブロック図である。

　次に、本発明の実施形態について図面を参照して説明する。
［第１の実施形態］
　まず、図１を参照して、本発明の第１の実施形態にかかる単語カテゴリ推定装置の基本構成について説明する。

　本実施形態にかかる単語カテゴリ推定装置１００は、全体として、入力されたデータをコンピュータで情報処理するＰＣ端末やサーバ装置などの情報処理装置からなり、音声認識装置などから出力された音声認識の仮説を取得し、この音声認識仮説に含まれる各単語のカテゴリを推定する装置である。
　この単語カテゴリ推定装置１００は、主な基本構成要素として、単語カテゴリ推定部４、および単語カテゴリモデル５とを備える。

　単語カテゴリモデル５は、単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも素性の１つとして単語カテゴリグラフ全体に関する情報を含むモデルである。
　単語カテゴリ推定部４は、処理対象となる音声認識仮説の単語カテゴリグラフを入力し、単語カテゴリモデルを参照して単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ列候補を出力する。

　次に、図２を参照して、本発明の第１の実施形態にかかる単語カテゴリ推定装置について詳細に説明する。

　この単語カテゴリ推定装置１０１は、主な構成要素として、音声認識仮説入力部２、単語カテゴリグラフ生成部３、単語カテゴリ推定部４、および単語カテゴリモデル５とを備える。
　これら構成要素のうち、音声認識仮説入力部２、単語カテゴリグラフ生成部３、単語カテゴリ推定部４は、単語カテゴリ推定装置１０１のＣＰＵ（図示略）が実行するプログラムに対応する構成要素である。また、単語カテゴリモデル５は、単語カテゴリ推定装置１０１の記憶デバイス（図示略）に記憶されたデータである。

　単語カテゴリ推定装置１０１の各構成要素は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされた各構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心に、ハードウェアとソフトウェアの任意の組み合わせによって実現される。そして、その実現方法と装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウェア単位の構成ではなく、機能単位でのブロックを示している。

　音声認識仮説入力部２は、外部の音声認識装置（図示略）より出力された音声認識仮説を受け取り、その音声認識仮説を単語カテゴリグラフ生成部３に提供する。音声認識仮説は、音声認識装置が音声から単語列を認識する音声認識処理を行うことにより生成された情報である。例えば、音声認識仮説は、複数の単語列を表す情報である単語グラフやＮベスト単語列（最良のＮ個の単語列）である。

　単語カテゴリグラフ生成部３は、音声認識仮説入力部２が出力する音声認識仮説を受け取り、単語カテゴリグラフを生成し、単語カテゴリ推定部４に提供する。ここで、単語カテゴリとは、人名、地名、時間表現、数値などのような、単語の意味的な種類を指し、用途に応じて設定されるものである。例えば、テレビ番組を検索する用途では、人名（タレント名、グループ名、など）、番組名、番組ジャンル（バラエティ、スポーツ、など）、放送局名、時間表現（夕方、８時、など）、などである。

　単語カテゴリグラフは、１つの実施形態では、音声認識仮説の単語グラフと同様のネットワーク形式であり、各アークのラベルを単語ではなく単語カテゴリで表した形式で表現される。単語カテゴリグラフは、例えば、音声認識仮説の単語グラフの各アークを所定の単語カテゴリに置き換えることにより生成できる。あるいは、音声認識仮説の単語グラフのアークを単語の類似度等に基づいてクラスタリングしたグラフについて同様の処理を行ってもよい。

　図３は単語グラフの一部（「田舎紀行」と「犬が紀行」の２つの候補があることを表している）である。また、図４は、その各アークを３つのカテゴリ「人名」「番組名」「φ（その他）」に展開して生成した単語カテゴリグラフである。

　単語カテゴリ推定部４は、単語カテゴリグラフ生成部３より単語カテゴリグラフを受け取り、単語カテゴリモデル５を参照して単語カテゴリグラフを探索し、所定の基準で最適な単語カテゴリ列を出力する。１つの実施形態では、単語カテゴリ推定部４は、パス探索部４１とスコア計算部４２とを備える。

　パス探索部４１は、入力された単語カテゴリグラフが表現する単語カテゴリ列（パス）を所定の基準、例えば、単語カテゴリ出現スコアの大小によって順位付けて出力する。各アークの単語カテゴリ出現スコアをスコア計算部４２から取得し、パスごとにスコアを蓄積する。１つの実施形態では、Ａ＊探索により上位のパスを求めることができる。また、枝刈り処理等により効率化できる。また、単語カテゴリ列を出力する際には、同じ単語カテゴリが連続した場合はそれらをまとめるなどのような後処理も適用できる。

　スコア計算部４２は、単語カテゴリグラフの各アークにおいて、パス探索部４１から参照されるたびに、アークに関する特徴を抽出し、単語カテゴリモデル５を参照して当該アークのスコアを計算し、パス探索部４１に提供する。１つの実施形態において、単語カテゴリのスコアは、特徴量（ｆ）を条件とする単語カテゴリ（ｃ）の条件付き確率ｐ（ｃ｜ｆ）のように表現できる。

　単語カテゴリモデル５は、単語カテゴリの特徴と単語カテゴリの出現度の関係について、確率モデルや規則（ルール）の形式で格納する。例えば、識別モデルの一種であるＣＲＦ（ＣｏｎｉｄｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ）を用いる場合、各単語カテゴリに対する各特徴量（素性）の重み値がモデルのパラメタとして表現される。

　単語モデル５１は各アークの特徴と単語カテゴリの出現度の関係を格納する。特徴としては、例えば、当該アークに対応する元の単語の言語的特徴（表層（表記）、読み（発音）、品詞など）や認識結果としての特徴（信頼度、正誤など）などがあげられる。また、当該アークの特徴として、当該アークの前後のアークや、当該アークと対立するアークの特徴と組み合わせたものを用いることができる。

　発話モデル５２は単語カテゴリグラフ全体（発話全体）の特徴と単語カテゴリの出現度の関係を格納する。単語カテゴリグラフ全体の特徴としては、例えば、単語カテゴリグラフ内での位置情報（前半、後半、先頭からＮ番目、など）や、単語カテゴリグラフの構造に関する情報（アークの数、平均分岐数、など）や、単語カテゴリグラフに含まれる単語の組み合わせ（複数単語の共起情報など）や、単語カテゴリの連接情報などが挙げられる。

　単語カテゴリモデル５として、１つの実施形態では、識別モデルの一種であるＣＲＦ（Conditional Random Fields）を用いることができる。このとき、単語カテゴリモデル５を次の数１のように定義できる。

　数１において、「ｘ」はカテゴリ推定処理の対象となる入力であり、「ｙ」は識別結果としてのカテゴリである。また、「Φ（ｙ，ｘ）」は処理対象「ｘ」の特徴（素性）を表す情報であり、「Λ」は素性のそれぞれに対応するＣＲＦにおけるモデルパラメタ（重み値）である。また、「Ｚｘ」は正規化項である。なお、「ｅｘｐ（）」は、ｅを底とする数値のべき乗を求める関数を示している。
　したがって、本例の単語カテゴリモデル５は、素性Φ、および、モデルパラメタΛ（重み値）を記憶装置に記憶させている。

　いま、音声認識仮説が単語グラフであり、かつ、単語カテゴリモデル５としてＣＲＦを用いる場合に、単語カテゴリ推定部４が音声認識仮説の各単語の表す（属する）カテゴリを推定する方法の一例について説明する。
　単語カテゴリ推定部４は、まず、単語カテゴリグラフ生成部３より入力された単語カテゴリグラフを受け取る。図４は、単語カテゴリグラフの例示である。

　次に、単語カテゴリ推定部４は、上記数１の左辺Ｐ（ｙ｜ｘ）が最大となるパスを、Ｖｉｔｅｒｂｉアルゴリズムを用いる探索により特定する。また、単語カテゴリ推定部４は、順位づけられた上位のパスを、Ａ＊探索により特定する。
　単語カテゴリグラフに含まれる各アークにおけるスコアは、各アークに関する特徴（素性）と、ＣＲＦもモデルパラメタである各素性に対する重み値と、の積である。

　図４の単語カテゴリグラフに含まれるアークＡを例として、当該アークにおけるスコアを求める方法の一例を説明する。図５はアークＡに関する特徴の例示である。図６は、図５の特徴を単語カテゴリモデルの素性として表現した例示である。いま、アークＡには、図５に示すような「品詞＝名詞、認識信頼度＝0.4、位置＝前半、共起＝出演」などの特徴があるとする。これらの特徴は、ＣＲＦの素性（Φ）としては、図６のように表現できる。これらの素性のとる値と、モデルパラメタのうちのアークＡに相当する単語カテゴリ「番組名」の重み（Λ）との積により、アークＡのスコアが求まる。このスコアが大きいほど、その単語カテゴリらしさが高まる。

　このとき、「品詞（アークＡに対応する単語の品詞）」や「認識信頼度（アークＡに対応する単語の認識信頼度）」の特徴は単語モデル５１に、「位置（単語カテゴリグラフにおけるアークＡの位置」や「共起（単語カテゴリグラフにおいて、アークＡに対応する単語と共起する単語）」の特徴は発話モデル５２に含まれるが、ＣＲＦを用いることにより、両者の特徴を同時に扱い、同じ基準で単語カテゴリのスコアを求めることができる。
　ＣＲＦのモデルパラメタは、あらかじめ対応づけられた入力（ｘ：音声認識仮説）と出力（ｙ：単語カテゴリ）との組を学習データとして、上記数１の対数尤度を最大化する基準に従って、反復計算法などにより最適化（学習）されてもよい。

　なお、上述した、ＣＲＦを用いた識別方法、モデルパラメタの学習方法、に関する詳細は、例えば、文献３「Ｊ．Ｌａｆｆｅｒｔｙ，　Ａ．ＭｃＣａｌｌｕｍ，　Ｆ．Ｐｅｒｅｉｒａ，”Ｃｏｎｄｉｔｉｏｎａｌ　Ｒａｎｄｏｍ　Ｆｉｅｌｄｓ：　Ｐｒｏｂａｂｉｌｉｓｔｉｃ　Ｍｏｄｅｌｓ　ｆｏｒ　Ｓｅｇｍｅｎｔｉｎｇ　ａｎｄ　Ｌａｂｅｌｉｎｇ　Ｓｅｑｕｅｎｃｅ　Ｄａｔａ”，　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　１８ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｆ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ，２００１年，ｐ．２８２－２８９」に記載されている。

　このように、ＣＲＦでは、単語カテゴリ推定部４に相当するグラフの探索アルゴリズムや、グラフを学習データとするときのモデルパラメタの学習アルゴリズムが知られていることや、多クラスの識別を１つのモデルで可能であることなど、単語カテゴリの識別に適した利点を有する。

［第１の実施形態の動作］
　次に、図７を参照して、本発明の第１の実施形態にかかる単語カテゴリ推定装置の動作について説明する。

　単語カテゴリ推定装置１０１は、起動されると、記憶デバイスから単語カテゴリモデル５を読み出し、それを単語カテゴリ推定部４から参照できるようにするための初期化処理を行う（ステップＳ１１）。
　一方、音声認識仮説入力部２は、音声認識処理の終了を表す通知に応じて、外部の音声認識装置より音声認識仮説を取得して単語カテゴリグラフ作成部３に入力する（ステップＳ１２）。
　続いて、単語カテゴリグラフ作成部３は、入力された音声認識仮説から単語カテゴリグラフを生成して単語カテゴリ推定部４に提供する（ステップＳ１３）。

　次に、単語カテゴリ推定部４は、パス探索部４１で、単語カテゴリグラフの先頭から終端までアークをたどりながら、スコア計算部４２で、各アークの特徴を抽出し、単語カテゴリモデル５を参照して当該アークの単語カテゴリのスコアを求める（ステップＳ１４）。
　この後、パス探索部４１は、単語カテゴリグラフ上で、所定の基準で単語カテゴリ列（パス）を順位付けし、順位の高いものから単語カテゴリ列候補として出力し（ステップＳ１５）、一連の単語カテゴリ推定処理を終了する。

［第１の実施形態の効果］
　このように、本実施形態によれば、単語カテゴリグラフの各アークに対応する単語カテゴリのスコアを、各アークに関連する単語の特徴と、単語カテゴリグラフ全体の特徴とをあわせて求めるようにしたので、発話に最適な単語カテゴリ列を探索する精度を高めることができる。特に、音声認識誤り区間については、従来は認識誤りの情報に基づいて単語カテゴリのスコアを求めていたために十分な推定精度が得られていなかったが、当該区間以外の情報として発話全体の特徴を用いることにより、当該区間の単語カテゴリの推定精度を高めることができる。

［第２の実施形態］
　次に、図８を参照して、本発明の第２の実施形態にかかる単語カテゴリ装置について説明する。

　本実施形態の単語カテゴリ推定装置１０２の構成は、図２に示した第１の実施形態にかかる単語カテゴリ推定装置１０１の構成に発話パタン推定部６を付加したものである。
　発話パタン推定部６は、音声認識仮説入力部２が出力する音声認識仮説を入力とし、これに対してその発話パタンを推定し、推定結果を単語カテゴリ推定部４に提供する。発話パタンとは、発話に含まれる単語カテゴリの数や組み合わせで特徴づけられる情報を指す。例えば、発話に含まれる単語カテゴリは１つであるとか、発話には「人名」と「番組名」が含まれる、という情報である。発話パタンの推定は、例えば、音声認識仮説に含まれる単語によって規則的に分類する方法を用いることができる。

　単語カテゴリ推定部４では、発話パタン推定部６の結果を入力されたモデル調整部４３において、例えば、あらかじめ発話パタンごとに分けて用意した複数の単語カテゴリモデル５から１つのモデルを選択した上で、スコアの計算を行い、上記第一の実施形態と同様にして出力すべき単語カテゴリ列（パス）を探索する。あるいは、１つのモデルを選択する代わりに、複数のモデルに重みを付与してもよい。このように、発話に適した単語カテゴリモデルを用いることにより、単語カテゴリの推定精度を高めることができる。例えば、発話に含まれる単語カテゴリが１つであるとわかれば、２つ以上の単語カテゴリを誤って推定することを抑制できる。

［第２の実施形態の動作］
　次に、図９を参照して、本発明の第２の実施形態にかかる単語カテゴリ推定装置の動作について説明する。

　単語カテゴリグラフ生成部３が単語カテゴリグラフを生成するまでの処理（ステップＳ２１、Ｓ２２、Ｓ２３）は、単語カテゴリ推定装置１０１について説明した図７のステップＳ１１，Ｓ１２，Ｓ１３の手順と同様であり、ここでの詳細な説明は省略する。
　発話パタン推定部６は入力された音声認識仮説に基づいて単語カテゴリのパタンを推定し（ステップＳ２４）、単語カテゴリ推定部４のモデル調整部４３でその結果を用いて参照する単語カテゴリモデル５の重みを変更する（ステップＳ２５）。

　単語カテゴリ推定部４のパス探索部４１で、単語カテゴリグラフの先頭から終端までアークをたどりながら、スコア計算部４２で、各アークの特徴を抽出し、モデル調整部４３を介して単語カテゴリモデル５を参照し、当該アークの単語カテゴリのスコアを求める（ステップＳ２６）。そして、パス探索部４１は、単語カテゴリグラフ上で、所定の基準で単語カテゴリ列（パス）を順位付け、順位の高いものから出力し（ステップＳ２７）、一連の単語カテゴリ推定処理を終了する。

［第２の実施形態の効果］
　このように、本実施形態によれば、発話パタン推定部６によって、規則（ルール）に基づく単語カテゴリの判定や、単語カテゴリモデル５に含まれない特徴に基づく単語カテゴリの推定を行うことができる。これらの情報を付加することにより、単語カテゴリモデル５を用いた単語カテゴリ推定部４の精度を高めることができる。

［第３の実施形態］
　次に、図１０を参照して、本発明の第３の実施形態にかかる音声認識装置について説明する。

　本実施形態にかかる音声認識装置１０３は、全体として、例えば、入力されたデータをコンピュータで情報処理するＰＣ端末やサーバ装置などの情報処理装置によって実現される。音声認識装置１０３は、入力された音声に含まれる単語を認識して出力する装置であり、特に、第１の実施形態（図２）の単語カテゴリ推定装置１０１または第２の実施形態（図４）の単語カテゴリ推定装置１０２を用いて音声認識結果に単語カテゴリ情報を付与し、それに基づいて再び音声認識処理を行う。

　この音声認識装置１０３は、主な構成要素として、音声認識部７１と、単語カテゴリ推定部７２と、再音声認識部７３とを備える。
　音声認識部７１は、音声認識装置１０３に入力される音声に対して音声認識処理を行って、該音声に対応する単語列候補を求め、音声認識仮説として、例えば単語グラフを出力する。音声認識部７１では、発話に対して、音声認識のためのモデル（言語モデルや単語辞書、音響モデルなどを含む）の与えるスコアにしたがって、音声データに適合する単語列を探索するといった通常の音声認識処理を行えばよい。例えば、言語モデルにはトライグラム、音響モデルには隠れマルコフモデルなどを用いる。

　単語カテゴリ推定部７２は、図２の単語カテゴリ推定装置１０１や図４の単語カテゴリ推定装置１０２に相当する処理部であって、音声認識部７１が出力する単語グラフから単語カテゴリグラフを生成し、単語カテゴリモデルに基づいて発話に含まれる単語カテゴリの種類および区間（フレーム番号等）を推定して出力する。
　再音声認識部７３は、単語カテゴリ推定部７２の出力する推定結果を用いて、これを言語制約として、例えば、当該区間の語彙を当該種類の単語カテゴリに属するものに限定した上で音声認識処理を行う。

　音声認識装置１０３の動作について、図１０の例を用いて説明する。
　まず、音声認識部７１は、入力された音声に対して音声認識を行い、例えば、単語列候補「田舎紀行路のえー出演している番組」を出力する。
　次に、単語カテゴリ推定部７２は、この１段目の音声認識結果を入力し、例えば、「田舎」「紀行」「路」の単語カテゴリが「人名」であると推定する。この推定結果から、１段目の音声認識仮説の単語列の一部である「田舎紀行路」に相当する発話区間（フレーム番号等）は「人名」であるという言語制約を得る。
　続いて、再音声認識部７３は、この言語制約を用いて２段目の音声認識処理を行う。例えば、１段目の音声認識結果の「田舎紀行路」に相当する発話区間（フレーム番号等）では、単語カテゴリ「人名」に属する単語のみを音声認識仮説に含めるように、そうでない単語は候補から除くようにして認識処理を行う。

［第３の実施形態の効果］
　このように、本実施形態によれば、発話のどこからどこまでがどの単語カテゴリに属するかという言語制約を加えた音声認識処理により、音声認識精度を高めることができる。特に、情報検索装置に入力するためのキーワードのような、特定の単語カテゴリに属する語句について極めて高い認識精度を得ることができる。

　以上、本発明を上記実施形態に即して説明したが、本発明は上述の構成のみに制限されるものでなく、本発明の範囲内で当業者によりなし得る各種変形や修正を含むことは勿論である。

　本発明にかかる単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、およびプログラムは、音声をテキストデータ等の電子データに変換する音声認識技術に広く適用することが可能である。

Claims

　単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の１つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルと、
　処理対象となる音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ列候補を出力する単語カテゴリ推定部と
　を備えることを特徴とする単語カテゴリ推定装置。
　前記音声認識仮説を用いて発話パタンの推定を行う発話パタン推定部をさらに備え、
　前記単語カテゴリ推定部は、前記発話パタン推定部での発話パタン推定結果に基づきスコア計算に用いる前記単語カテゴリモデルを変更する
　ことを特徴とする請求項１に記載の単語カテゴリ推定装置。
　前記単語カテゴリモデルはＣＲＦモデルからなることを特徴とする請求項１に記載の単語カテゴリ推定装置。
　前記単語カテゴリモデルの前記単語カテゴリグラフ全体に関する素性として、前記単語カテゴリグラフにおける位置情報、前記単語カテゴリグラフの構造に関する統計情報、前記単語カテゴリグラフに含まれる単語共起情報、単語カテゴリの連接情報のうち、少なくともいずれか１つを用いることを特徴とする請求項１に記載の単語カテゴリ推定装置。
　前記単語カテゴリ推定部は、前記発話パタン推定結果によってスコア計算に用いる前記単語カテゴリモデルを変更する際、発話パタンと単語カテゴリモデルの関係度を用いて複数モデルの選択あるいは重み付けを行うことを特徴とする請求項２に記載の単語カテゴリ推定装置。
　単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の１つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを記憶部で記憶するステップと、
　演算処理部により、処理対象となる音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ列候補を出力する単語カテゴリ推定ステップと
　を備えることを特徴とする単語カテゴリ推定方法。
　前記演算処理部により、前記音声認識仮説を用いて発話パタンの推定を行う発話パタン推定ステップをさらに備え、
　前記単語カテゴリ推定ステップは、前記発話パタン推定ステップでの発話パタン推定結果に基づきスコア計算に用いる前記単語カテゴリモデルを変更するステップを含む
　ことを特徴とする請求項６に記載の単語カテゴリ推定方法。
　前記単語カテゴリモデルはＣＲＦモデルからなることを特徴とする請求項６に記載の単語カテゴリ推定方法。
　前記単語カテゴリモデルの前記単語カテゴリグラフ全体に関する素性として、前記単語カテゴリグラフにおける位置情報、前記単語カテゴリグラフの構造に関する統計情報、前記単語カテゴリグラフに含まれる単語共起情報、単語カテゴリの連接情報のうち、少なくともいずれか１つを用いることを特徴とする請求項６に記載の単語カテゴリ推定方法。
　前記単語カテゴリ推定ステップは、前記発話パタン推定結果によってスコア計算に用いる前記単語カテゴリモデルを変更する際、発話パタンと単語カテゴリモデルの関係度を用いて複数モデルの選択あるいは重み付けを行うステップを含むことを特徴とする請求項７に記載の単語カテゴリ推定方法。
　記憶部と演算処理部とを備えるコンピュータに、
　単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の１つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを前記記憶部で記憶するステップと、
　前記演算処理部により、処理対象となる音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ列候補を出力する単語カテゴリ推定ステップと
　を実行させるプログラム。
　前記演算処理部により、前記音声認識仮説を用いて発話パタンの推定を行う発話パタン推定ステップをさらに備え、
　前記単語カテゴリ推定ステップは、前記発話パタン推定ステップでの発話パタン推定結果に基づきスコア計算に用いる前記単語カテゴリモデルを変更するステップを含む
　ことを特徴とする請求項１１に記載のプログラム。
　前記単語カテゴリモデルはＣＲＦモデルからなることを特徴とする請求項１１に記載のプログラム。
　前記単語カテゴリモデルの前記単語カテゴリグラフ全体に関する素性として、前記単語カテゴリグラフにおける位置情報、前記単語カテゴリグラフの構造に関する統計情報、前記単語カテゴリグラフに含まれる単語共起情報、単語カテゴリの連接情報のうち、少なくともいずれか１つを用いることを特徴とする請求項１１に記載のプログラム。
　前記単語カテゴリ推定ステップは、前記発話パタン推定結果によってスコア計算に用いる前記単語カテゴリモデルを変更する際、発話パタンと単語カテゴリモデルの関係度を用いて複数モデルの選択あるいは重み付けを行うステップを含むことを特徴とする請求項１２に記載のプログラム。
　記憶部と演算処理部とを備えるコンピュータに、
　単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の１つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを前記記憶部で記憶するステップと、
　前記演算処理部により、処理対象となる音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ列候補を出力する単語カテゴリ推定ステップと
　を実行させるプログラム
　を記録した記録媒体。
　前記プログラムにおいて、
　前記演算処理部により、前記音声認識仮説を用いて発話パタンの推定を行う発話パタン推定ステップをさらに備え、
　前記単語カテゴリ推定ステップは、前記発話パタン推定ステップでの発話パタン推定結果に基づきスコア計算に用いる前記単語カテゴリモデルを変更するステップを含む
　ことを特徴とする請求項１６に記載の記録媒体。
　前記プログラムにおいて、前記単語カテゴリモデルはＣＲＦモデルからなることを特徴とする請求項１６に記載の記録媒体。
　前記プログラムにおいて、
　前記単語カテゴリモデルの前記単語カテゴリグラフ全体に関する素性として、前記単語カテゴリグラフにおける位置情報、前記単語カテゴリグラフの構造に関する統計情報、前記単語カテゴリグラフに含まれる単語共起情報、単語カテゴリの連接情報のうち、少なくともいずれか１つを用いることを特徴とする請求項１６に記載の記録媒体。
　前記プログラムにおいて、前記単語カテゴリ推定ステップは、前記発話パタン推定結果によってスコア計算に用いる前記単語カテゴリモデルを変更する際、発話パタンと単語カテゴリモデルの関係度を用いて複数モデルの選択あるいは重み付けを行うステップを含むことを特徴とする請求項１７に記載の記録媒体。
　入力された音声に対応する音声認識仮説を生成する音声認識部と、
　単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の１つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルと、
　前記音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ推定を行う単語カテゴリ推定部と、
　前記単語カテゴリ推定結果を語彙制約として再び音声認識を行う再音声認識部と
　を備えることを特徴とする音声認識装置。
　演算処理部により、入力された音声に対応する音声認識仮説を生成する音声認識ステップと、
　単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の１つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを記憶部で記憶するステップと、
　前記演算処理部により、前記音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ推定を行う単語カテゴリ推定ステップと、
　前記演算処理部により、前記単語カテゴリ推定結果を語彙制約として再び音声認識を行う再音声認識ステップと
　を備えることを特徴とする音声認識方法。
　記憶部と演算処理部とを備えるコンピュータに、
　演算処理部により、入力された音声に対応する音声認識仮説を生成する音声認識ステップと、
　単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の１つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを記憶部で記憶するステップと、
　前記演算処理部により、前記音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ推定を行う単語カテゴリ推定ステップと、
　前記演算処理部により、前記単語カテゴリ推定結果を語彙制約として再び音声認識を行う再音声認識ステップと
　を実行させるプログラム。
　記憶部と演算処理部とを備えるコンピュータに、
　演算処理部により、入力された音声に対応する音声認識仮説を生成する音声認識ステップと、
　単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の１つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを記憶部で記憶するステップと、
　前記演算処理部により、前記音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ推定を行う単語カテゴリ推定ステップと、
　前記演算処理部により、前記単語カテゴリ推定結果を語彙制約として再び音声認識を行う再音声認識ステップと
　を実行させるプログラム
　を記録した記録媒体。