JPWO2010013371A1

JPWO2010013371A1 - 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム

Info

Publication number: JPWO2010013371A1
Application number: JP2010522589A
Authority: JP
Inventors: 長友　健太郎; 健太郎長友
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-07-28
Filing date: 2009-05-12
Publication date: 2012-01-05
Anticipated expiration: 2029-05-12
Also published as: WO2010013371A1; US8818801B2; JP5381988B2; US20110131042A1

Abstract

人間同士の対話音声を音声認識する際に、対話の普遍的な構造を制約として利用することで、適用範囲をより広げることができる対話音声認識システムを提供することを目的とする。音響尤度算出手段７０１は、ある音素列から入力された音声信号が生起する尤度を与える。言語尤度算出手段７０２は、ある単語列が生起する尤度を与える。最尤候補探索手段７０３は、音響尤度算出手段および言語尤度算出手段が与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える。また、言語尤度算出手段７０２は、音声認識手段に入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与える。

Description

本発明は、対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体に関し、特に複数の話者が同時に発話し得る対話での音声認識精度を向上させる機能を有する対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体に関する。

近年、音声認識技術の利用範囲は拡大しつつあり、その中には人間同士の音声対話をテキスト化する「対話音声認識」技術が含まれている。ここで言う「対話」または「音声対話」とは、あくまで人間同士の音声による情報交換のことを指し、人間と機械とが音声を用いて「対話的に」インタラクションする技術とは別のものである。

基盤技術の観点から見ると、対話音声認識と大語彙連続音声認識の間には大きな差は存在しない。すなわち、音声波形を入力とし、そこから音声区間を切り出し、ケプストラム等の音声特徴量を抽出した後、特徴量から音素への変換と音素から文字列（単語列）への変換を同時に行い、最も尤度の高い変換結果をテキストとして出力する。一般に、特徴量から音素への変換尤度の集合を音響モデル、音素から文字列（単語列）への変換尤度の集合を言語モデルと呼ぶ。

入力音声信号Xに対してある単語列Wが生起する尤度は、以下に示す式（１）で与えられる。

P(W|X) = P(X|W) P(W) / P(X) 式（１）

音声認識処理とは入力音声に対して最も尤度の高い単語列W'を求める処理であるので、以下に示す式（２）のように表現できる。

W' = argmax P(W|X)
= P(X|W) P(W) 式（２）

このときP(X|W)を与えるのが音響モデルであり、P(W)を与えるのが言語モデルである。すべての単語列Wの尤度を求めるには膨大な計算量が必要となるので、通常、P(W|X)は音素単位に分割して処理される。また、P(W)についてもさまざまな近似計算が用いられる。代表的なものがN-gram言語モデルである。単語列Wが単語w₁,w₂,w₃,...,w_kからなる場合、その生起確率P(W)は式（３）のようになるので、単語列が長くなるほど尤度計算に作用するパラメータ数が増える。

P(W) = p(w₁) p(w₂|w₁) p(w₃|w1,w₂) ... p(w_k|w₁,w₂,...,w_k-1) 式（３）

これを、ある単語の直近(N-1)単語までを参照するように、以下のように近似する。

P(W) ~ p(w₁) p(w₂|w₁) p(w₃|w₁,w₂) ... p(w_k|w_k-n+1, ... ,w_k-1)

一般に、音声認識プログラムは尤度の低い仮説の計算を行わないことで高速化を達成しようとする。例えば、非特許文献１ではビームサーチアルゴリズムが用いられている。このアルゴリズムは、入力音声の途中までを処理した時点で得られた単語列候補のうち、その時点までの尤度が所与の閾値に満たないものは探索候補から除外する。また、計算対象となる単語列や音響仮説の数を減らすことでも高速化が実現できる。例えば、政治に関する音声が入力されることが分かっているならば政治に関する内容の単語列のみを評価すればよく、マンガに関する単語列は計算から除外してよい。計算から完全に除外しなくても、後者に対する尤度が極めて小さくなるような言語モデルを与えるだけでも同様の効果が得られる。また、別の例としては、発話者が男性であることが分かっているなら、女性の声に対する音響尤度を求める必要はないので、計算量を削減できる。このような計算対象の削減は、適切に行えば、高速化だけでなく、認識精度の向上にも貢献する。本明細書では、以降、このように計算対象の削減を適切に行うことを指して「制約を与える」と表現することがある。

音声認識技術の精度向上のキーポイントは、入力される音声の内容を予測し、これを反映した制約を音声認識プロセスに適切に盛り込むことである。例えば、話者が特定されているなら、その話者に応じた音響モデルを制約として用いればよい。発話内容のトピックが特定されているなら、そのトピックに応じた言語モデルを制約として用いることで認識精度は向上する。複数の話者が発話するなら、何らかの方法で話者の切り替わりを検知して音響モデルを切り替えればよい。複数のトピックが順に表れるような発話であれば、トピックの切り替わりに応じて言語モデルを切り替えればよい。このような技術の例が、例えば、非特許文献２や特許文献１に記載されている。

非特許文献２には、「野球実況中継」における音声を認識するシステムが記載されている。話者であるアナウンサーは、試合の状況に応じて興奮したり平静になったりするため、同一話者であっても音響的な特徴が一定せず、音声認識精度を低下させる原因となる。また、「阪神」と「三振」のように音響的によく似た語彙の混同が起こりやすいという性質が認められた。そこで、非特許文献２に記載の音声認識システムでは、「ツーストライクかどうか」等の試合の進行状況（状態）を用いて野球中継を構造化した。そして、非特許文献２に記載の音声認識システムは、状態の推移を予測し、状態に依存した音響モデル（平常時モデルまたは興奮時モデル）や言語モデル（ストライクカウントごとに別々に用意されたモデル等）を適宜切り替えながら音声認識を行う。

特許文献１には、人間と機械が対話的に相互作用しながら情報を検索する音声対話システムが記載されている。特許文献１に記載されたシステムは、ユーザに次にどのような情報を入力して欲しいのか指示するので、ユーザがこれに従う限り、次の発話内容をある程度予測できる。これを用いて、ユーザに提示した質問に応じて言語モデルを切り替える。

非特許文献２や特許文献１等に記載されている音声認識精度向上技術は対話音声の場合でもある程度流用できる。しかし、対話音声には、例示した音声認識がターゲットとしてきた音声にはない特徴がある。

対話音声の第１の特徴は、対話音声では複数の話者が同時に発話することがあり得るということである。一般的な音声認識技術は話者が一名であることを前提として開発されてきたため、このような音声はそのままでは認識することができない。

例えば、テレビ番組音声の場合、出演者が一人ずつ順に発話するようなシーンでは問題なく認識することができるが、複数の出演者が激しく言い争うようなシーンでは音声を認識することはできない。前者の例としてニュース番組などが挙げられ、後者の例としてバラエティ番組などが挙げられる。今日、ニュース音声認識が実用化しつつある一方でバラエティ番組の認識技術が未成熟な一因はここにある。録音する段階で工夫できる場合は、予め複数のマイクを用意し、原則として１マイクあたり１話者の音声を録音する方法を用いることができる。このように一つのマイクで一人の話者の音声を録音すれば、たとえ複数の話者が同時に発話したとしても、それぞれの録音音声にはそのマイクを用いた話者の音声しか入り込まないため、この問題を回避することができる。

対話音声の第２の特徴は、対話音声の話者は音声認識システムの存在を意識しておらず、聞き手である人間が聞き取れる範囲で発話するという性質があることである。これは対話音声認識システムの認識精度を下げる要因となる。

話者が音声認識システムの存在を意識している場合、発話内容はシステムが認識しやすいようにコントロールされると期待できる。例えば、極端な早口や小声、篭った音声などが入力された場合は再発話を促すことができるし、特許文献１の技術のように、次の発話内容を予測することも比較的容易である。システム側は、このような「システムに合わせた」発話に特化した制約を掛けることで、認識精度を稼ぐことができた。

一方で対話音声のような「人間に対する音声」では、聞き手である人間が理解できさえすればよいので、音声認識システムにとって都合の悪い発話が多く成される。上記の早口、小声等のように聞き手である人間にとっても都合が悪い場合は再発話を促されるが、話者の感情による音韻変形や、主たる意図の伝達に不要な語句の発話の変形・省略などは人間の聞き手にとって問題にならないことが多く、そのままの状態で対話音声認識システムに入力されてしまう。話者の感情による音韻変形の例として、興奮した時の発話では平常時より周波数が高くなること等が挙げられる。また、主たる意図の伝達に不要な語句の発話の変形・省略の例として、「〜です」が「〜す」のように省略されたり、非常に弱く素早く発声されたり、そもそも言語的に省略されたりするといったこと等が挙げられる。

また、言語学の分野では、２名の話者による対話を「参加者A が話し、話し終わり、次に、もう一人の参加者B が話し、話し終わるというような、二人の参加者の間で交わされるA-B-A-B-A-B という話の連続である」と説明する（非特許文献３参照）。つまり、対話は「発話権の移行」または「ターンの受け継ぎ（Turn-Taking ）」を繰り返すという基本的な構造を持っていると考えられている。この構造は、対話参加者が３名以上である場合にもそのまま拡張することが可能である。

音声対話において主に発話を行う者は発話権を持つ話者であるが、発話権を持たない話者も発話を行うことはあり得る。Sacks によれば、「一つのターンから次のターンへ移る移行期には空白と重複が起こらないのが普通であるとし、起こったとしてもそれは短いものであり、基本的に一人の参加者が一つのターンを取って話すという原則がある」と述べられている（非特許文献３参照）。

特開平７−１０４７８６号公報

A. Lee, T. Kawahara and K. Shikano."Julius --- an open source real-time large vocabulary recognition engine."In Proc. European Conference on Speech Communication and Technology (EUROSPEECH),pp. 1691--1694, 2001. 佐古、有木、「知識を用いた音声認識による野球実況中継の構造化」、第６回音声言語シンポジウム、社団法人電子情報通信学会、SP2004-136，pp.85-90，2004-12 中井陽子、「言語・非言語行動によるターンの受け継ぎの表示」、［online］、［平成２０年５月１４日検索］、インターネット＜http://dspace.wul.waseda.ac.jp/dspace/bitstream/2065/3513/1/34029.pdf＞

第１の問題点は、対話音声が持つ何らかの構造を用いて音声認識処理に制約を掛けようとする際、どのような音声対話にも適用できる汎用的な構造を用いた制約方法が存在しなかったということである。その理由は、非特許文献２や特許文献１に記載された技術で用いられる構造は非常に限定的なものであり、その構造が適用可能な音声対話とそうでない音声対話が存在するためである。

対話が何がしかの構造を持つというアイディアはしばしば提唱されるものであるが、その構成要素が何であるかは、その提唱者が着目する問題に特化されて決められる傾向がある。例えば、非特許文献２で開示された技術の場合、提唱者が着目する問題は「野球中継」であり、対話構成要素は「ストライクカウント」等の野球でのみ現れる概念である。従って、この対話構成要素が野球以外のスポーツに適用できないことが明らかである。また、スポーツ以外の中継音声、映像音声に適用不可能であることも明らかである。

また、特許文献１で開示される技術の場合、対話の構造はシステムが次に何を尋ねるかによって決定される。特許文献１には「統計的言語モデルの選択を行なうにあたって、音声対話システムがユーザ発話を予測し得る場面を設定する必要がある。ここで、ユーザの発話を予測可能な場面としては、対話の開始・終了場面や、システムが何らかの質問をした場面、つまり、システムの質問に対応した回答がユーザから得られる場面が考えられる。」と記載され、具体的な場面として「名前を尋ねた場面」、「いつかと尋ねた場面」、「何かと尋ねた場面」、「どこかと尋ねた場面」が挙げられている。当然ながら、システムがこれらとは異なる質問をする場合はそれに合わせた「場面」を想定しなければならない。さらに、システムが対話の流れをコントロールできない用途では、特許文献１に記載の技術は利用できない。対話音声認識の対象となる対話音声は、まさにこの「流れをコントロール」できない用途にあたる。

このように、非特許文献２や特許文献１に記載された技術は、ある限定された条件を満たす用途においては利用可能であるが、他の用途では利用できないような構造や対話構成要素が用いられてきた。このような対話構成要素を用いると、その限定条件に当てはまらないような音声対話に対しては、適切な制約を掛けることができず、音声認識精度の向上には繋がらない。

非特許文献２等に記載の技術を適切に用いるには、音声認識システム設計者は、まず入力される音声発話の内容を分析し、その内容に依存した何らかの構造を見つけなければならなかった。こうした作業は煩雑であるし、常に適当な構造が見つけられるとも限らない。

第２の問題点は、複数の話者が同時に発話しうるという現象（発話のオーバーラップ）を意図的に無視しているということである。その理由は、一人の話者の音声を認識する技術を基盤としたものであるためである。また、話者ごとに異なるチャネル（マイク）を割り当てる方式の場合も、最終的に話者一名の音声を別個に処理するという意味において、発話のオーバーラップを無視していると言える。

そこで、本発明は、人間同士の対話音声を音声認識する際に、対話の普遍的な構造を制約として利用することで、適用範囲をより広げることができる対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体を提供することを目的とする。また、本発明は、対話音声において現れる発話のオーバーラップを適切に用いることによって、より精度を高めることができる対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体を提供することを目的とする。

本発明による対話音声認識システムは、複数の話者による対話での各話者の音声信号と、音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報とが入力され、音声信号に対する音声認識を行う音声認識手段を備え、音声認識手段が、ある音素列から入力された音声信号が生起する尤度を与える音響尤度算出手段と、ある単語列が生起する尤度を与える言語尤度算出手段と、音響尤度算出手段および言語尤度算出手段が与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える最尤候補探索手段とを少なくとも備え、言語尤度算出手段が、音声認識手段に入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与えることを特徴とする。

また、本発明による対話音声認識方法は、複数の話者による対話での各話者の音声信号と、音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報とが入力されると、音声信号に対する音声認識を行う音声認識を行い、音声認識の際には、ある音素列から入力された音声信号が生起する尤度を与える音響尤度算出を行い、ある単語列が生起する尤度を与える言語尤度算出を行い、音響尤度算出および言語尤度算出で与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える最尤候補探索を行い、言語尤度算出の際には、入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与えることを特徴とする。

また、本発明による対話音声認識用プログラムを格納する記憶媒体は、コンピュータに、複数の話者による対話での各話者の音声信号と、音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報とが入力されると、音声信号に対する音声認識を行う音声認識処理を実行させ、音声認識処理で、ある音素列から入力された音声信号が生起する尤度を与える音響尤度算出処理、ある単語列が生起する尤度を与える言語尤度算出処理、および、音響尤度算出処理および言語尤度算出処理で与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える最尤候補探索処理を少なくとも実行させ、言語尤度算出処理では、入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与えさせることを特徴とする。

本発明によれば、対話における普遍的な概念である発話権を利用し、話者が発話権を有する場合の制約と話者が発話権を有さない場合の制約とを用いて音声認識を行うので、様々な分野の対話に適用することができる。また、発話のオーバーラップを利用して、音声認識精度を向上させることができる。

本発明の第１の実施形態の構成例を示すブロック図である。対話における確認の例を示す説明図である。本発明の第２の実施形態の構成例を示すブロック図である。本発明の第３の実施形態の構成例を示すブロック図である。発話権判別手段の処理経過の例を示すフローチャートである。複数の話者の発話開始および終了のタイミングの例を示す説明図である。相槌、確認、発話権要求のいずれにも分類されない発話を含む対話の例を示す説明図である。本発明の第４の実施形態の構成例を示すブロック図である。三人の話者による対話の状況の例を示す説明図である。本発明の実施例を示すブロック図である。本発明の概要を示すブロック図である。

以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
図１は、本発明の第１の実施形態の構成例を示すブロック図である。本発明の対話音声認識システムは、音声認識手段１１０を備える。そして、音声認識手段１１０は、音響尤度計算手段１１２と、発話権あり言語尤度計算手段１１３と、発話権なし言語尤度計算手段１１４と、最尤仮説探索手段１１５と、発話権あり言語モデル記憶手段１１６と、発話権なし言語モデル記憶手段１１７とを備える。音声認識手段１１０には音声信号と発話権情報とが入力され、音声認識手段１１０はその音声信号に対する音声認識結果を出力する。発話権情報については後述する。

音響尤度計算手段１１２には、認識対象となる音声信号が入力される。音響尤度計算手段１１２は、入力された音声信号からフレーム（短時間区間）毎に音声特徴量を抽出する。音響尤度計算手段１１２が抽出する音声特徴量の例として、入力音声（入力された音声信号）のパワーやケプストラムが挙げられるが、他の音声特徴量を抽出してもよい。音響尤度計算手段１１２は、抽出した音声特徴量と、所与の音響モデルとを比較し、各フレームに現れた音声信号が各音素に該当する尤度（音響尤度）を計算する。なお、音声認識手段１１０は、音響モデルを記憶する音響モデル記憶手段（図示せず）を備え、音響尤度計算手段１１２は、その音響モデルを参照すればよい。また、音響モデルは、例えば、音声特徴量と、個々の音素と、音声特徴量がその個々の音素に変換される尤度（音響尤度）とを対応付けた情報である。

最尤仮説探索手段１１５は、音響尤度計算手段１１２が求めた音響尤度と、発話権あり言語尤度計算手段１１３または発話権なし言語尤度計算手段１１４が与える言語尤度とを参照しつつ、入力音声信号の認識結果として最も尤度（音響尤度と言語尤度のトータル）の高いテキストを探索する。言語尤度は、音素列が文字列を形成する尤度である。音素列から変換される文字列は、文字または単語であっても、文字または単語の連鎖であってもよい。そして、言語尤度は、文字や単語の連鎖を成す一部の単語が、出現分布が類似していると定められた単語の集合（後述のクラス）に属する場合の尤度であってもよい。

また、最尤仮説探索手段１１５には、入力された音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報が入力される。発話権とは、原則として他者の割り込みを受けずに、優先的に発話を継続することが可能であることを示す権利である。発話権は、言語学の分野では古典的な概念である。ここでは、話者が発話権を有しているか否かを０／１のような二値で表した発話権情報が入力される場合を例にして説明する。なお、発話権を有する確かさを二値ではなく確率的に表した発話権情報を用いる場合については後述する。

最尤仮説探索手段１１５は、入力された音声信号の話者が発話権を有しているかどうかにより、言語尤度を得る対象を、発話権あり言語尤度計算手段１１３または発話権なし言語尤度計算手段１１４に切り替える。すなわち、入力された音声信号の話者が発話権を有していると発話権情報から判断される場合には、発話権あり言語尤度計算手段１１３から言語尤度を得る。また、入力された音声信号の話者が発話権を有していないと発話権情報から判断される場合には、発話権なし言語尤度計算手段１１４から言語尤度を得る。

最尤仮説探索手段１１５は、尤度（音響尤度と言語尤度のトータル）に基づいて音声認識結果を求め、その音声認識結果を出力する。例えば、最尤仮説探索手段１１５は、尤度が最も高いテキストを出力してもよい。また、尤度が高い順に上位Ｎ位までのテキストをそれぞれ音声認識結果として出力してもよい。また、それらを含む仮説空間の全部または一部からなるグラフ構造（一般にラティスと呼ばれる）を認識結果として出力してもよい。

また、発話権あり言語モデル記憶手段１１６は、発話権あり言語モデル２２を記憶する記憶手段であり、発話権なし言語モデル記憶手段１１７は、発話権なし言語モデル２３を記憶する記憶手段である。各言語モデル２２，２３は、例えば、音素列と、その音素列に該当する文字列と、その音素列がその文字列に変換される尤度とを対応付けた情報として構築されていてもよい。ただし、発話権あり言語モデルは、発話権を有している話者用の言語モデルであり、発話権なし言語モデルは、発話権を有していない話者用の言語モデルである。発話権あり言語モデル２２は、発話権を持つ話者の発話から学習された言語モデルであり、発話権なし言語モデル２３は、発話権を持たない話者の発話（相槌、確認、発話権要求）のみから学習された言語モデルであり、両者は別々に構築される。

なお、各言語モデル２２，２３がそれぞれの記憶手段１１６，１１７に記憶される態様は特に限定されない。例えば、発話権あり言語モデル記憶手段１１６は、発話権あり言語モデル２２を記憶したメモリであってもよい。また、発話権あり言語モデル２２はファイル形式で記憶されていてもよい。発話権なし言語モデル２３に関しても同様である。

発話権あり言語尤度計算手段１１３および発話権なし言語尤度計算手段１１４は、最尤仮説探索手段１１５に指定された音素列に該当する文字列、および、指定された音素列からその文字列に変換される尤度を最尤仮説探索手段１１５に返す。ただし、発話権あり言語尤度計算手段１１３は、発話権あり言語モデル２２を参照して、指定された音素列に該当する文字列の尤度を最尤仮説探索手段１１５に返す。また、発話権なし言語尤度計算手段１１４は、発話権なし言語モデル２３を参照して、指定された音素列に該当する文字列の尤度を最尤仮説探索手段１１５に返す。

音響尤度計算手段１１２と、発話権あり言語尤度計算手段１１３と、発話権なし言語尤度計算手段１１４と、最尤仮説探索手段１１５は、例えば、プログラム（対話音声認識用プログラム）に従って動作するＣＰＵによって実現される。この場合、プログラムは、記憶媒体に記憶して提供することも可能であり、また、インターネットその他の通信媒体を介して伝送することにより提供することも可能である。また、記憶媒体には、例えば、フレキシブルディスク、ハードディスク、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ、ＲＯＭカートリッジ、バッテリバックアップ付きＲＡＭメモリカートリッジ、フラッシュメモリカートリッジ、不揮発性ＲＡＭカートリッジ等が含まれる。また、通信媒体には、電話回線等の有線通信媒体、マイクロ波回線等の無線通信媒体等が含まれる。そして、ＣＰＵが、記憶媒体からプログラムを読み込み、そのプログラムに従って、音響尤度計算手段１１２、発話権あり言語尤度計算手段１１３、発話権なし言語尤度計算手段１１４、および最尤仮説探索手段１１５として動作してもよい。また、音響尤度計算手段１１２、発話権あり言語尤度計算手段１１３、発話権なし言語尤度計算手段１１４、および最尤仮説探索手段１１５がそれぞれ別々の回路によって実現されていてもよい。

次に、動作について説明する。
まず、音声認識手段１１０に、音声信号と、その音声信号に対応する発話権情報とのペアが入力される。音声信号は、音響尤度計算手段１１２に入力され、発話権情報は最尤仮説探索手段１１５に入力される。

音響尤度計算手段１１２は、その音声信号から、定められた手順に従ってフレーム毎に音声特徴量を抽出する。音響尤度計算手段１１２は、抽出した特徴量と、音響モデルとを比較し、その特徴量から個々の音素に変換される尤度（音響尤度）を音素毎に求め、最尤仮説探索手段１１５に出力する。

また、最尤仮説探索手段１１５は、入力された発話権情報に応じて、発話権あり言語尤度計算手段１１３または発話権なし言語尤度計算手段１１４を選択する。すなわち、発話権情報が、音声信号の話者が発話権を有することを示しているならば、発話権あり言語尤度計算手段１１３を選択し、音声信号の話者が発話権を有していないことを示しているならば、発話権なし言語尤度計算手段１１４を選択する。ここでは、発話権あり言語尤度計算手段１１３が選択された場合を例にして説明するが、発話権なし言語尤度計算手段１１４が選択された場合も同様である。最尤仮説探索手段１１５は、フレーム毎に音響尤度が求められたそれぞれの音素を時間順に並べた音素列を指定し、その音素列に該当する文字列およびその言語尤度を、選択した発話権あり言語尤度計算手段１１３に要求する。選択された発話権あり言語尤度計算手段１１３は、この要求に応じて、音素列に該当する各文字列およびその言語尤度を求める。

音素列から変換される文字列の候補は一つとは限らず、発話権あり言語尤度計算手段１１３、発話権なし言語尤度計算手段１１４は、音素列の変換候補となる各文字列毎に言語尤度を求める。

最尤仮説探索手段１１５は、音響尤度計算手段１１２が出力した音響尤度と、発話権あり言語尤度計算手段１１３または発話権なし言語尤度計算手段１１４が与える言語尤度とを参照しつつ、入力音声信号の認識結果として、最も尤度（音響尤度および言語尤度のトータル）の高いテキストを探索する。最尤仮説探索手段１１５は、発話権情報の値に応じて、発話権あり言語尤度計算手段１１３および発話権なし言語尤度計算手段１１４を切り替えながらテキストの探索を継続する。

既に説明したように、最尤仮説探索手段１１５は、尤度の最も高いテキストを音声認識結果として出力しても、あるいは、尤度の高い上位Ｎ位までのテキストを音声認識結果として出力してもよい。あるいは、それらを含む仮説空間の全部または一部からなるグラフ構造（ラティス）を音声認識結果として出力してもよい。

最尤仮説探索手段１１５は、それぞれの音素列において、変換候補毎に音響尤度および言語尤度の合計を求める。そして、例えば、その合計値が最も高い文字列を音声認識結果とすればよい。

言語尤度としては、単語連鎖の出現確率を用いてもよい。すなわち、言語モデルは、単語連鎖の出現確率を言語尤度として用いた統計的言語モデルであってもよい。例えば、単語２連鎖（バイグラム）や単語３連鎖（トライグラム）の言語モデルがよく用いられており、本発明でも、そのような言語モデルを用いてもよい。また、単語１連鎖、すなわち単語そのものの出現確率（ユニグラム確率）を用いてもよいが、表現力の点で、単語２連鎖や単語３連鎖を用いることが好ましい。

また、単語そのものの連鎖ではなく、出現分布の類似した単語の集合の連鎖によって、言語尤度を定めてもよい。すなわち、言語モデルとして、クラスモデルを用いてもよい。また、クラスと同様の集合として、「品詞」や「同一単語の読みや表記の揺れ」等に関する集合を定めてもよい。

また、別の言語尤度の与え方として、想定される入力のみを許容するような文法を文脈自由文法等を用いて記述し、この文法によって許容される単語連鎖であるか否かを０／１で与える方式もよく用いられる（文法ベース言語モデル）。いくつかの定型文のいずれかが発話されることが期待されるケースでは、このような言語モデルを用いた方が便利であり、本発明において、このような言語モデルを用いてもよい。

いずれの方式であるにしても、言語モデルは、認識の対象として予想される音声の発話内容に応じて事前に構築されるものであり、発話権あり言語尤度計算手段１１３や発話権なし言語尤度計算手段１１４に与えられるという点で共通している。

既に述べたように、音声認識プロセスに制約を掛けることで音声認識精度を向上させることができる。言語モデルは、発話内容の言語的な偏りをモデル化することで言語尤度による制約を掛けるために利用される。

発話権の有無に応じた発話内容の偏りは、次のように説明できる。言語学の分野では、発話権を保持する話者が、ある時間において優先的に発話できるという構造を持つとされる。しかしその一方で、発話権を持たない話者も限定的ながら発話することが可能である。そのような発話の代表的な例として相槌、確認、発話権要求が挙げられる。以下、一つずつ具体的に例を挙げて説明する。

相槌は、発話権を持たない対話参加者が、発話権を持つ話者に対して、自分が相手の話を聞いていること、さらに発話権を継続してもよいこと等を表出するために発される発話である。従って、相槌を打つのは発話権を持たない話者だけである。具体的には「うん」、「へえ」、「そう」、「ああ」、「なるほど」などの特定の語彙が用いられる。

確認は、発話権を持たない話者が、発話権を持つ話者に対して、自分の理解に誤りがあれば訂正の発話を行うよう要求するために発する発話であり、通常、発話内容の一部を復唱することで行われる。図２は、対話における確認の例を示す説明図である。図２に示す例では、発話権を持つ話者Ａの発話内容を確認するため、話者Ｂが発話権を持たないまま発話する状況を示している。図２における横軸は時刻の経過を表し、話者Ａの「三月三日でお願いします」という発話や、話者Ｂの「三日」、「はい」という発話のタイミングを示している。

発話権要求とは、発話権を持たない話者が、次の発話権を受け取る意思を表出するために発される発話である。分かりやすい例としては、裁判において検事や弁護士が、相手方の不適切な質問に対して異議を申し立てる場面での発話（「異議あり！」など）が挙げられる。その他に、「議長」、「ちょっと」、「あのー」、「すみません」など、その時点での発話権保持者や発話権を付与する権利を持つ対話参加者への呼びかけの形でなされることがある。

このように、発話権の無い場合にのみ発せられる発話内容と、発話権がある場合に発せられる発話には偏りが見られる。そこで、発話権を持つ話者の発話から学習された言語モデルと、発話権を持たない話者の発話（相槌、確認、発話権要求）のみから学習された言語モデルとを別々に構築しておき、前者を発話権あり言語尤度計算手段１１３が参照し、後者を発話権なし言語尤度計算手段１１４が参照する構成とする。

発話権情報ρが０／１の二値で与えられ、１が発話権あり、０が発話権なしを示しているとする。このとき、発話権なし言語尤度計算手段１１４が返す言語尤度をＰ_１−ρとし、発話権あり言語尤度計算手段１１３が返す言語尤度をＰ_ρとすると、言語尤度Ｐは、以下に示す式（４）で表される。

なお、式（４）では、変換候補となる文字列をｗとし、左辺のＰ（ｗ，ρ）は、与えられた発話権情報の元でのｗに対する言語尤度である。また、右辺のＰ_１−ρ（ｗ）、Ｐ_ρ（ｗ）は、それぞれｗ対する言語尤度である。このように、具体的な文字列や発話権情報等の元での言語尤度を示す場合には、言語尤度を示す記号の後に括弧書きで、文字列ｗや発話権情報ρ等を示す。

また、発話権情報は、０／１のような二値ではなく、話者が発話権を有している確かさを確率的に表していてもよい。話者が発話権を有している確かさを確率的に示す発話権情報が入力される場合、最尤仮説探索手段１１５は、発話権あり言語尤度計算手段１１３と発話権なし言語尤度計算手段１１４に対してそれぞれ言語尤度を要求し、発話権あり言語尤度計算手段１１３および発話権なし言語尤度計算手段１１４が求めた各言語尤度を、発話権情報が示す確率値を用いて併合してもよい。例えば、最尤仮説探索手段１１５は、発話権あり言語モデルから得られた言語尤度と、発話権なし言語モデルから得られた言語尤度とを、発話権情報が示す確率値に応じて線形結合することによって、言語尤度を併合すればよい。

例えば、言語尤度を求めようとしているある音素列が成す単語３連鎖（トライグラム）の各単語をｗ１，ｗ２，ｗ３で表すとする。また、発話権情報をρと表し、発話権を有する確率をλ（ρ）と表すものとする。このとき、最尤仮説探索手段１１５は、発話権あり言語尤度計算手段１１３がｗ_１ｗ_２ｗ_３について求めた言語尤度Ｐ_ρ（ｗ_１ｗ_２ｗ_３）と、発話権なし言語尤度計算手段１１４がｗ_１ｗ_２ｗ_３について求めた言語尤度Ｐ_１−ρ（ｗ_１ｗ_２ｗ_３）を用いて、以下に示す式（５）に示す計算を行い、両者を線形結合し、その結果を、与えられた発話権情報の元でのｗ_１ｗ_２ｗ_３についての言語尤度として求めてもよい。

この言語尤度の導出処理では、発話権あり言語モデルおよび発話権なし言語モデルに基づいて単語連鎖（ｗ_１ｗ_２ｗ_３）に関して求めた言語尤度に対して、発話権情報が示す値λ（ρ）に応じてボーナスやペナルティを与えている（換言すれば、補正している）。このように、単語、単語の集合、またはそれらの連鎖に関する言語尤度に対して、発話権情報に応じてボーナスやペナルティを与えてもよい。

また、確認の発話は発話権が無い場合に成され、確認の際は直近の発話権保持者の発話内容の一部が繰り返されるという性質がある。このような性質を利用して、発話権を持たない話者の音声に対する音声認識の際に、直近の時刻で発話権を有するとされた話者の音声に対する音声認識結果に該当する文字列の言語尤度に対して、発話権情報に応じてボーナスやペナルティを与えてもよい。例えば、直近の発話権を持つ話者の音声に対する音声認識結果を、音素列からの変換候補とする場合、発話権なし言語モデルを参照して得られたその変換候補の言語尤度を高めるように補正してもよい。また、発話権あり言語モデルを参照して得られたその変換候補の言語尤度を低くするように補正してもよい。

例えば、図２に示す例において、話者Ａの音声に対して「三月」、「三日」という音声認識結果を得たとする。次に、それらの言語尤度を求めるときには、発話権が無い確率が高いほど、発話権なし言語モデルを参照して得た、それらの単語の言語尤度Ｐ_１−ρが相対的に高くなるように補正すればよい。

この場合、直近の発話権あり音声認識結果ｈを反映させて、式（５）を拡張すると、トライグラム言語モデルの言語尤度計算式は、以下に示す式（６）のように表せる。

また、「はい」、「ええ」、「なるほど」等の相槌を意味する文字列の言語尤度に関しても同様にボーナスやペナルティを与えてもよい。例えば、同意を示す相槌「なるほど」は発話権の無い場合に現れやすいので、発話権を持たない話者の音声に対しては言語尤度を高く補正してもよい。一方で、発話権を持つ話者の音声に対しては、逆に「なるほど」を含む単語列の言語尤度は低く補正してもよい。発話権の有無に応じた言語モデルの構築はコストが掛かるので、各々に特徴的な語彙に対する言語尤度にボーナスやペナルティを課すようにしてもよい。

以上の説明では主として単語トライグラム言語モデルを例として示したが、それ以外の言語モデル方式でも原則同様である。

また、発話権情報を生成する際には、発話権を有するか否かを自動的に判別して生成してもよい。あるいは、手動で発話権情報を定めてもよい。前者のように発話権情報を自動的に生成する例として、発話の開始時刻および終了時刻を基にして発話権の有無を推定する態様が挙げられる。この処理の具体的な例については、第３の実施形態で説明する。

また、対話参加者の様子を画像認識技術によってトレースし、視線の移動や、指差し等のジェスチャーを検出することによって発話権の有無を推定して、自動的に発話権情報を生成してもよい。

また、例えば会議などのフォーマルな対話では、発話権の授受を司る対話参加者（議長、裁判長など）が存在する。このことを利用して、発話権の授受を司る対話参加者が、特定の話者に発話権を与える際、話者の発話と同時にボタン押下等でシステム（音声認識手段１１０、図１参照）に発話権の異動を通知するようにしてもよい。

次に、本実施形態の効果について説明する。
本実施形態では、発話権の有無によって発話される音声の内容に偏りがあることを利用し、入力された音声信号を発した際に話者が発話権を持っていたかどうかに応じて、その偏りを反映した言語モデルを自動的に選択して言語尤度を算出し、最尤な認識結果を探索する。このため、より強力な制約を用いて仮説を探索することができ、より精度の高い音声認識結果を得られることが期待できる。

また、本発明では、発話権という、およそあらゆる対話においても観測できる汎用的な対話構成要素を用いるため、システム設計者が、想定される入力音声の内容に応じて事前に対話の構成を設定せずとも必ず利用できる。従って、どのような音声対話であっても適応可能な、汎用性の高い音声認識を実現することができる。

非特許文献３に記載されているように、発話権を持たない者による発話は、起こったとしても短い。この発話は、具体的には、相槌、確認、割り込み等である。そして、この発話の内容は非常に限定的であるので、音声認識で用いる言語制約として機能する。

本発明では、対話の構造として発話権に着目し、発話権の有無に応じて制約を切り替える。従って、上記のように、どのような音声対話についても適用することができ、汎用性を向上させることができる。

また、本発明によれば、音声対話に特有の「発話のオーバーラップ」の情報を音声認識精度の向上のために利用できる。発話権を持たない話者による発話は、非特許文献３に引用されているSacks らの定義から見れば例外的とされる「重複が起こる」態様の例の一つである。つまり、発話権を持たない話者が相槌等の発話を行う場合、その発話は、その時点で発話権を持つ話者の発話にオーバーラップする。逆に言えば、発話のオーバーラップが見られる場合、そのいずれかの発話は発話権を持たない話者によってなされたものであると言える。よって、発話権を音声認識の際の制約として導入することによって、「発話のオーバーラップ」の情報を音声認識精度の向上に用いることが可能となる。

実施形態２．
図３は、本発明の第２の実施形態の構成例を示すブロック図である。第２の実施形態の対話音声認識システムは、第１の音声認識手段２１１と、第２の音声認識手段２１２と、発話権あり言語モデル記憶手段１２７と、発話権なし言語モデル記憶手段１２８とを備える。

発話権あり言語モデル記憶手段１２７は、発話権あり言語モデル２２を記憶し、発話権なし言語モデル記憶手段１２８は、発話権なし言語モデル２３を記憶する。

第１の音声認識手段２１１および第２の音声認識手段２１２はいずれも、第１の実施形態で説明した音声認識手段１１０と同様に、音響尤度計算手段１１２と、発話権あり言語尤度計算手段１１３と、発話権なし言語尤度計算手段１１４と、最尤仮説探索手段１１５とを備える（図１参照）。ただし、第２の実施形態では、発話権あり言語モデル記憶手段１２７および発話権なし言語モデル記憶手段１２８は、第１の音声認識手段２１１および第２の音声認識手段２１２の間で共有される。すなわち、各音声認識手段２１１，２１２は、それ自身で発話権あり言語モデル２２および発話権なし言語モデル２３を保持せず、各言語モデル２２，２３を共有する。そして、各音声認識手段２１１，２１２が備える発話権あり言語尤度計算手段１１３（図１参照）は、発話権あり言語モデル記憶手段１２７に記憶された発話権あり言語モデル２２を参照する。同様に、各音声認識手段２１１，２１２が備える発話権なし言語尤度計算手段１１４は、発話権なし言語モデル記憶手段１２８に記憶された発話権なし言語モデル２３を参照する。その他の点に関しては、各音声認識手段２１１，２１２の各構成要素の動作は、第１の実施形態と同様である。

第１の音声認識手段２１１には、第１の実施形態における音声認識手段１１０と同様に、音声信号と、その音声信号に対応する発話権情報のペアが入力される。また、第２の音声認識手段２１２には、第１の音声認識手段２１１に入力されたペアとは別の音声信号および発話権情報のペアが入力される。ここで、第１の音声認識手段２１１および第２の音声認識手段２１２に入力される音声信号は、二人の話者が参加した単一の対話において発せられた音声信号であり、発話権情報は、その対話における発話権を示す。すなわち、一方の話者の音声信号が第１の音声認識手段２１１に入力され、他方の話者の音声信号が第２の音声認識手段２１２に入力される。そして、各音声認識手段２１１、２１２は、それぞれ、入力された音声信号に対する音声認識結果（例えばテキスト等）を出力する。

第２の実施形態の効果について説明する。
第２の実施形態では、対話に参加する話者それぞれに個別のチャネルを割り当てて音声および発話権情報を入力し、発話権に応じて、各音声認識手段２１１，２１２が、発話権あり言語尤度計算手段１１３と発話権なし言語尤度計算手段１１４とを切り替えて音声認識処理を行う。従って、第１の実施の形態と同様に対話音声認識精度を向上させることができる。このとき、発話権あり言語モデル２２および発話権なし言語モデル２３は、二つのチャネル（二つの音声認識手段２１１，２１２）で共有されるため、事前のモデル構築作業を簡略化し、音声認識実行時の使用メモリ量を抑えることが出来る。

実施形態３．
図４は、本発明の第３の実施形態の構成例を示すブロック図である。第３の実施形態の対話音声認識システムは、第１の音声認識手段２１１と、第２の音声認識手段２１２と、発話権あり言語モデル記憶手段１２７と、発話権なし言語モデル記憶手段１２８と、発話権判別手段３４０とを備える。第２の実施形態と同一の要素は、図３と同一の符号を付し、説明を省略する。

発話権判別手段３４０には、各話者の音声信号が入力される。そして、発話権判別手段３４０は、各話者に関する発話権情報を生成し、各話者の発話権情報を各話者に対応する音声認識手段２１１，２１２に出力する。

例えば、発話権判別手段３４０には、各話者の発声に同期して各話者の音声信号が入力される。そして、発話権判別手段３４０は、各話者の音声信号の入力の開始および終了のタイミングに基づいて発話権情報を生成する。そして、発話権判別手段３４０には、第１の話者の発話権情報を第１の音声認識手段２１１に送り、同様に、第２の話者の発話権情報を第２の音声認識手段２１２に送信する。

音声信号および発話権情報が入力された各音声認識手段２１１，２１２の動作は、第２の実施形態と同様である。

なお、発話権判別手段３４０が、いずれかの各音声認識手段に含まれ、発話権判別手段３４０およびその音声認識手段が備える各手段１１２〜１１５（図１参照）が、プログラムに従って動作するＣＰＵによって実現されていてもよい。

また、第３の実施形態において、各音声認識手段２１１，２１２がそれぞれ発話権あり言語モデルおよび発話権なし言語モデルを保持していてもよい。

次に、発話権判別手段３４０の動作について説明する。図５は、発話権判別手段３４０の処理経過の例を示すフローチャートである。発話権判別手段３４０は、初期状態で、何れの話者も発話権を所持していないと定める（ステップＡ１）。そして、発話権判別手段３４０は、各話者の音声信号に対して、有音（音声が発せられている状態）か無音であるかを識別し、全ての話者の音声信号が無音である状態から、いずれかの話者の音声信号が有音となった状態に変化したか否かを判定する（ステップＡ２）。

有音となった音声信号がないとステップＡ２で判定した場合、ステップＡ１以降の処理を繰り返す。いずれかの話者の音声信号が無音から有音となったと判定したときに、発話権判別手段３４０は、その音声信号を発した話者を最初の発話権保持者と判定する（ステップＡ３）。すなわち、有音の音声信号を発した話者をＸとすると、その話者Ｘが発話権保持者であると判定する。また、発話権判別手段３４０は、発話権保持者を特定すると、各音声認識手段２１１，２１２のうち、発話権保持者に対応する音声認識手段（ここでは第１の音声認識手段２１１とする。）に、発話権ありを示す発話権情報を入力し、他の音声認識手段２１２に、発話権なしを示す発話権情報を入力する。

ステップＡ３の後、発話権判別手段３４０は、発話権保持者（Ｘ）の音声信号が有音から無音に切り替わったか否かを判定する（ステップＡ４）。有音のままであるならば（ステップＡ４におけるＮｏ）、ステップＡ３以降の処理を繰り返す。すなわち、話者Ｘがそのまま発話権を保持していると判定する。時間が経過し、ある時点で発話権保持者の音声信号が有音から無音に切り替わると（ステップＡ４におけるＹｅｓ）、発話権判別手段３４０は、話者Ｘの発話権が満了したと見なし、話者Ｘに対応する音声認識手段２１１に対して送る発話権情報を切り替え、音声認識手段２１１に発話権なしを示す発話権情報を送る（ステップＡ５）。

続いて、発話権判別手段３４０は、他のいずれかの話者の音声信号のうち、有音となっている音声信号があるか否かを判定する（ステップＡ７）。ステップＡ７で、他のどの話者の音声信号も有音と識別されていなければ（ステップＡ７におけるＮｏ）、ステップＡ１以降の処理を繰り返す。また、他の話者（ステップＡ５で発話権満了と見なした話者）の音声信号のうち、有音となっている音声信号があれば（ステップＡ７におけるＹｅｓ）、その音声信号に対応する話者（新たなＸ）を発話権保持者としてステップＡ３以降の処理を繰り返す。

図６は、複数の話者の発話開始および終了のタイミングの例を示す説明図である。ここでは、二人の話者Ａ，Ｂが対話に参加しているものとする。図６の横軸は時刻を示し、右側を正方向とする。図６に示すＴａ１，Ｔｂ１等の記号はそれぞれ時刻を示し、Ｔ０，Ｔａ１，Ｔｂ１，Ｔｂ２，Ｔｂ３，Ｔａ２，Ｔａ３，Ｔｂ４は先の時刻から順に並んでいる。図６中の斜線で示した帯状の部分は、その時間帯で話者が発話していることを示す。図６に示す例では、Ｔａ１〜Ｔａ２に話者Ａが何らかの発話を行い、Ｔｂ１〜Ｔｂ２およびＴｂ３〜Ｔｂ４の間に話者Ｂが何らかの発話を行う状況ことを示している。

発話権判別手段３４０は、図５に示すフローチャートに従って動作する場合、以下のように動作する。まず、時刻Ｔ０から時刻Ｔａ１の区間では、話者Ａ，Ｂはいずれも発話していないので、初期状態であると判断する。すなわち、どちらの話者も発話権を有していないと判定する。時刻Ｔａ１に話者Ａが発話を開始すると、発話権判別手段３４０は、話者Ａが最初の発話権保持者であると判定する。また、時刻Ｔ１ｂ〜時刻Ｔｂ２にかけて話者Ｂが何らかの発話を行うが、既に発話権を保持している話者Ａの発話が継続しているので、この期間中に話者Ｂが発話権保持者と判定されることはない。やがて時刻Ｔａ２に話者Ａの発話が完了すると、発話権判別手段３４０は、話者Ａの発話権が満了したと見なし、話者Ａに対応する音声認識手段に入力する発話権情報の内容を「発話権なし」に切り替える。このとき、既に、時刻Ｔｂ３から話者Ｂが発話を開始しているため、発話権はすぐさま話者Ｂに移される。すなわち、発話権判別手段３４０は、話者Ｂに対応する音声認識手段に入力する発話権情報の内容を「発話権あり」に切り替える。話者Ｂの発話が完了する時刻Ｔｂ４まで話者Ｂが発話権を保持し続け、その後、再び初期状態に戻り、どちらの話者も発話権を所持しない状態となる。

図６に例示するケースでは、話者Ｂが時刻Ｔｂ１から時刻Ｔｂ２の間で発話権を持たないことと、話者Ａが時刻Ｔａ２から時刻Ｔｂ４の間で発話権を持たないことは明確である。また、図５に示すフローチャートの通りにそのまま処理を実行した場合、時刻Ｔａ２まで、次の話者の存在を判定しないので、時刻Ｔｂ３から時刻Ｔａ２までの区間では話者Ｂが発話権を持たないこととなるが、時刻Ｔｂ３から時刻Ｔａ２までの区間で話者Ｂが発話権を持つと判断するようにしてもよい。

Sacks らの定義を再び引用すると、「一つのターンから次のターンへ移る移行期には空白と重複が起こらないのが普通であるとし、起こったとしてもそれは短いものであり、基本的に一人の参加者が一つのターンを取って話すという原則がある」とあるから、時刻Ｔｂ３から時刻Ｔａ２までの区間に話者Ａが発話権を持っているとするならば、その区間で話者Ｂは発話権を持たない。この考えに従う場合、図５に示すアルゴリズムの通りに処理を行えばよい。この場合、話者Ｂが新たに発話権を持つと判断された時刻（図６に示す時刻Ｔａ２）まで、話者Ｂは発話権を持たないことになる。このように動作する発話権判別手段３４０を採用する場合、発話権なし言語モデル２３を学習する際には、相槌、確認、発話権要求のいずれかの発話のみを含むような言語モデルとして学習するのがよい。

一方、実際の音声対話では、Sacks らの原理に反するような現象もしばしば観測される。図７は、相槌、確認、発話権要求のいずれにも分類されない発話を含む対話の例を示す説明図である。図７における横軸も、図２と同様に時刻の経過を表し、各話者の発話のタイミングを示している。図７に示す話者Ｂの発話は、相槌、確認、発話権要求のいずれにも分類されない。図７に例示するように、発話権を持たない話者が、発話権を持つ話者の発話に割り込んで、発話権を奪うような状況がしばしば観測される。図６に示す時刻Ｔｂ３から時刻Ｔａ２までの区間は、ちょうどこのようなケースに相当する。この場合、話者Ｂの時刻Ｔｂ３から時刻Ｔａ２までの発話は、発話権を持った者の発話として制限を掛けなければ正しく認識することができにくくなる。すなわち、発話権を持った者の発話として言語モデルを参照しなければ正しく音声認識しづらくなる。

そこで、図５に示すフローチャートにおいて、ステップＡ４で新たな発話権保持者を確定した場合、発話権判別手段３４０は、その話者による現在の発話の開始時刻まで遡ってその発話権保持者に発話権を付与してもよい。図６で「Ｂが発話権を保持（２）」と示した区間は、話者Ｂの発話開始時刻Ｔｂ３から話者Ｂに発話権があるとした場合において、話者Ｂが発話権を保持している期間を示している。このように話者Ｂの発話開始時まで遡って話者Ｂに発話権があるとし、時刻Ｔｂ３〜Ｔａ２では同時に二人に発話権があるとしてもよい。発話開始時刻まで遡って話者に発話権を与える動作は、入力音声に対してオンラインに動作させる場合には適さないが、適当な遅延動作をさせることで実現可能である。

また、さらに、ステップＡ４において、ある話者が発話権を取得した際、その同じ話者の直前の発話の終了時から発話権取得時までの間に所定の短い時間しか経過していない場合、発話権判別手段３４０は、その間も、その話者が発話権を保持し続けているものとして扱ってよい。図６を例にして説明する。仮に、時刻Ｔａ２とＴｂ４の間の時刻Ｔａ３から話者Ａの発話が再開されたとする。このとき、話者Ａの発話終了時から時刻Ｔａ３までの期間が所定の時間以下であるならば、発話権判別手段３４０は、時刻Ｔｂ３（またはＴａ２）から時刻Ｔｂ４までの区間で話者Ｂに与えた発話権をキャンセルし、話者Ａの発話権が時刻Ｔａ１からずっと継続しているを判断してもよい。このように発話権が継続していると判断することで、発話権保持者が息継ぎ等の理由で挿入した僅かなポーズ（無音区間）に発話権が移動されてしまうこと回避できる。

このように、自動的に発話権保持者を判別する方法は、様々に工夫することができる。

また、発話権判別手段３４０は、各音声の発話権を「あり」、「なし」で二値的に判断するのではなく、話者が発話権を有している確かさを確率的に示す情報を発話権情報として出力してもよい。例えば、図７に例示する「割り込み」に該当すると判定し得る場合であっても、実際には割り込みではなく、単に相槌がやや遅れて発せられただけかもしれない。そこで、図６に示す時刻Ｔｂ３からＴａ２までの区間に話者Ｂが発話権を持つ確率が５０％であり、持たない確率が５０％であるとしてもよい。あるいは、発話権を持つことを指示するスコアと持たないことを指示するスコアの両方を出力し、各音声認識手段２１１，２１２が発話権保持者を適宜判断してもよい。発話権情報が０／１のような二値で表されず、確率的に表される場合の音声認識手段の動作については、第１の実施形態において既に説明した。

本実施形態の効果について説明する。
本実施形態でも、第１の実施形態や第２の実施形態と同様の効果が得られる。また、本実施の形態においては、発話権は入力音声から自動的に判断されるため、外部に発話権を識別するための機構を設ける必要が無い。

また、第３の実施形態では、音声信号の有音／無音判定と、各話者の音声信号の時間関係のみを用いて発話権を判定するように構成されているため、限定された利用シーンや高度な自然言語処理的操作を伴うことなく、内容に偏りがあると期待される発話（発話権を有さない話者の発話）を識別することができる。

実施形態４．
図８は、本発明の第４の実施形態の構成例を示すブロック図である。第４の実施形態の対話音声認識システムは、複数の発話検出手段６３０と、複数の音声認識手段６１０と、発話権判別手段６２０とを備える。発話検出手段６３０と音声認識手段６１０とは一対一に対応し、対応する発話検出手段６３０と音声認識手段６１０とが組をなす。また、各発話検出手段６３０には、それぞれ異なる話者の音声信号が入力される。

各音声認識手段６１０は、いずれも第１の実施形態で説明した音声認識手段１１０（図１参照）と同様である。また、発話権判別手段６２０は、第３の実施形態で説明した発話権判別手段３４０（図４参照）と同様である。ただし、発話権判別手段６２０は、有音／無音を判別しなくてよい。

発話検出手段６３０は、音声を所定のアルゴリズムで分析し、話者が実際に発話している区間を求める。この処理は、一般にＶＡＤ（Voice Activity Detection）または発話検出と呼ばれ、さまざまな手法が知られている。発話検出の判断基準には後段の音声認識手段６１０で用いられるのと同様の特徴量が用いられる場合が多いので、発話検出処理と特徴量抽出処理とを同時に行ってもよい。

第４の実施形態の動作について説明する。
各発話検出手段６３０は、それぞれのチャネルの音声信号から実際に発話が行われた区間の音声信号またはその特徴量を、対応する音声認識手段６１０に入力する。また、各発話検出手段６３０は、その音声信号または特徴量を、発話を検出した時刻の時刻情報とともに発話権判別手段６２０にも入力する。

発話権判別手段６２０は、第３の実施形態における発話権判別手段３４０（図４参照）と同様に、入力された音声信号または特徴量から、各発話が発された際にその発話を行った話者が発話権を有していたかどうかを判別する。ただし、話者が３人以上いる場合の動作については後述する。発話権判別手段６２０は、チャネルごとに発話権の有無を判別した結果である発話権情報を、後段の音声認識手段６１０に入力する。

音声認識手段６１０は、第１の実施形態における音声認識手段１１０（図１参照）と同様に、入力される発話権情報が示す発話権の有無に従って適切な言語制約を切り替えながら音声認識処理を行い、チャネルごとに認識結果を出力する。すなわち、発話権の有無に従って、発話権あり言語モデルと発話権なし言語モデルを切り替えて音声認識処理を行う。

発話権判別手段６２０が３チャネル以上の音声から発話権を自動的に判別する場合の動作の例を以下に示す。

図９は、三人の話者Ａ、Ｂ、Ｃが参加している対話の状況の例を示す説明図である。話者Ａは、時刻Ｔａ１から時刻Ｔａ２まで発話を行い、話者Ｂは、時刻Ｔｂ１から時刻Ｔｂ２まで発話を行い、話者Ｃは、時刻Ｔｃ１から時刻Ｔｃ２まで発話を行ったとする。図９に示す横軸の右側が正方向であり、Ｔａ１，Ｔｂ１，Ｔｃ１，Ｔａ２，Ｔｂ２，Ｔｃ２の順に時刻が並んでいる。

発話権判別手段６２０が、第３の実施形態で説明した図５に示すアルゴリズムに従って動作するならば、初期状態の後、最初に発話を開始した話者Ａが時刻Ｔａ１で発話権保持者となると判定する（ステップＡ１〜Ａ３、図５参照）。そして、発話権判別手段６２０は、時刻Ｔａ２で話者Ａの発話権が満了したと判定する（ステップＡ５、図５参照）。続くステップＡ７で、有音となっている音声信号があると判定し、さらにステップＡ３で発話権保持者を判定することになるが、話者Ａが発話を終了した時刻Ｔａ２において、既に話者Ｂ，Ｃがいずれも発話を開始している。この場合、発話権判別手段６２０が、以下に示すように、次の発話権保持者を判定すればよい。

例えば、発話権を有していた話者Ａの発話終了時に発話を開始していた他の各話者のうち、話者Ａの発話終了時において最も発話継続時間が長い話者を発話権保持者とみなしてもよい。図９に示す例では、話者Ａの発話終了時刻Ｔａ２で話者Ｂ，Ｃは既に発話しているが、話者Ｂは話者Ｃよりも先に時刻Ｔｂ１から発話を開始していることにより、話者Ｂを発話権保持者と判定してもよい。

また、例えば、発話権判別手段６２０は、発話権を有していた話者Ａの発話終了後に、最も長く発話を継続している話者を発話権保持者とみなしてもよい。この場合、図９に示す例では、話者Ａの発話終了時刻Ｔａ２の後、話者Ｃが話者Ｂの発話終了後も時刻Ｔｃ２まで発話を継続していることにより、話者Ｃを発話権保持者と判定してもよい。

あるいは、話者Ｂ，Ｃはどちらも同じ程度に発話権を保持している可能性があるとして、話者Ｂが発話権を有する確率が５０％であり、話者Ｃが発話権を有する確率が５０％であると判定してもよい。

また、これらの方法を組み合わせ、発話権を有する確率を各話者毎に変えてもよい。例えば、時刻Ｔｂ１〜Ｔａ２の区間が、時刻Ｔｂ２〜Ｔｃ２の区間よりも１０％長いことにより、話者Ｂが発話権を有する確率を５５％とし、話者Ｃの発話権を４５％と判断してもよい。

次に、本実施の形態の効果について説明する。
本実施形態では、３名以上の話者が参加する音声対話であっても、発話権に基づく言語制約（発話権あり言語モデルおよび発話権なし言語モデル）を用いて音声認識精度を向上することができる。

また、本実施形態では、発話検出手段６３０が発話検出を行ってから発話権判別を行うため、発話権判別手段６２０が有音／無音を判別する必要が無い。そのため、発話権判別手段６２０をよりシンプルに実現することができる。音声認識手段６１０も同様にシンプルにできる上に、発話区間の音声のみをやり取りするため、各手段間の転送データ量を少なくすることができる。加えて、発話検出手段６３０が特徴量抽出（図１に示す音響尤度計算手段１１２の機能の一つ）を行うようにすれば、発話検出手段６３０と音声認識手段６１０で特徴量抽出処理が重複しないため、必要な計算時間が増えることもない。

以下、本発明の実施例を説明する。図１０は、本発明の実施例を示すブロック図である。図１０では、対話音声認識システムが、電話での対話の音声認識を行う電話応対音声認識システムである場合を例示している。図１０に例示する対話音声認識システム（以下、電話応対音声認識システムと記す。）は、マイクロフォン４１０と、受話装置４２０と、発話権判別装置４３０と、第１の音声認識装置４４０と、第２の音声認識装置４５０と、音声認識結果を表示する表示装置４６０と、送話装置４７０とを備える。

マイクロフォン４１０および受話装置４２０は、電話機のマイクロフォンと受話装置であり、電話応対音声認識システムは、マイクロフォン４１０に音声を入力する話者（第１話者と記す。）と、電話回線を介して、他の電話機を用いて第１話者と対話を行う他の話者（第２話者と記す。）の音声を対象に音声認識を行う。

発話権判別装置４３０は、第３の実施形態における発話権判別手段３４０と同様に動作する。

第１の音声認識装置４４０および第２の音声認識装置４５０は、いずれも、第１の実施形態における音声認識手段１１０（図１参照）と同様の構成であり、音声認識手段１１０と同様に動作する。ただし、音響尤度計算手段１１２等の各構成要素については、図１０では図示を省略し、模式的に、発話権あり言語モデルと発話権なし言語モデルを図示している。

第１の音声認識装置４４０は、発話権あり言語モデル４４１と発話権なし言語モデル４４２を保持している。発話権あり言語モデル４４１は、第１話者が発話権を持つ場合に発話する内容に特化した言語モデルであり、発話権なし言語モデル４４２は、第１話者が発話権を持たない場合に発話する内容に特化した言語モデルである。同様に、第２の音声認識装置４５０は、第２話者が発話権を持つ場合に発話する内容に特化した発話権あり言語モデル４５１と、第２話者が発話権を持たない場合に発話する内容に特化した発話権なし言語モデル４５２とを保持する。すなわち、システム全体としては４種類の言語モデルが用意され、話者と、ある時刻にその話者が発話権を保持した上で発話しているかどうかに応じてこれらを組み合わせながら認識処理を行うことになる。

第１の音声認識装置４４０は、マイクロフォン４１０から入力される第１話者の音声を対象に音声認識を行い、第２の音声認識装置４５０は、電話回線を介して第１話者と対話する第２話者の音声を対象に音声認識を行う。以下、第１の音声認識装置４４０を、マイク音声用音声認識装置と記し、第２の音声認識装置４５０を、電話音声用音声認識装置と記す。

マイクロフォン４１０は、第１話者の音声を受け、第１話者の音声信号に対してＡ−Ｄ変換を行い、第１話者のデジタル音声信号をマイク音声用音声認識装置４４０に入力する。また、同時に、マイクロフォン４１０は、第１話者の音声信号を発話権判別装置４３０にも入力する。さらに、マイクロフォン４１０は、マイクロフォン４１０が設けられている電話機の送話装置４７０にも第１話者の音声信号を入力する。送話装置４７０は、電話回線を介して、その第１話者の音声信号を第２話者の電話機に送信する。

受話装置４２０は、電話回線を介して第２話者の音声信号を受信し、第２話者の音声信号をデジタル音声信号として電話音声用音声認識装置４５０に入力する。また、同時に、受話装置４２０は、第２話者の音声信号を発話権判別装置４３０にも入力する。

受話装置４２０は、電話回線（アナログ交換網）からアナログ信号が入力され、デジタル信号としてキャプチャするハードウェアであってもよい。また、受話装置４２０は、ＶｏＩＰ（Voice over IP ）等が適用されたコンピュータネットワーク上を経由して到達したデジタル信号を適切にデコードしてデジタル信号に展開させるためのプログラムに従って動作してもよい。

また、マイクロフォン４１０は、アナログ電話機の受話器であってもよいが、少なくとも、第１話者の音声信号と、受話装置４２０によって得られる第２話者の音声信号とを分離させる構成でなければならない。

発話権判別装置４３０は、所定のアルゴリズムを用いて、入力された二つの音声信号を分析し、一定時間（例えば１００ミリ秒）単位ごとに、第１話者と第２話者のどちらの話者が発話権を保持している可能性が高いかを確率値として推定する。発話権判別装置４３０は、第１話者が発話権を有している確率を示す発話権情報をマイク音声用音声認識装置４４０に入力し、第２話者が発話権を有している確率を示す発話権情報を電話音声用音声認識装置４５０に入力する。

マイク音声用音声認識装置４４０には、マイクロフォン４１０から第１話者の音声信号が入力され、また、その時刻における音声信号に関する発話権情報が発話権判別装置４３０から入力される。マイク音声用音声認識装置４４０は、音声認識処理で言語尤度を求める際に、発話権あり言語モデル４４１と発話権なし言語モデル４４２の両方から言語尤度を求め、発話権判別装置４３０から入力された発話権の有無の確率を重みとして、二つの言語尤度の重み付き和をとり、これを最終的な言語尤度として用いて、音声認識結果を導出する。

同様に、電話音声用音声認識装置４５０には、受話装置４２０から第２話者の音声信号が入力され、また、その時刻における音声信号に関する発話権情報が発話権判別装置４３０から入力される。そして、電話音声用音声認識装置４５０は、マイク音声用音声認識装置４４０と同様に、発話権あり言語モデル４５１と発話権なし言語モデル４５２の両方から言語尤度を求め、発話権判別装置４３０から入力された発話権の有無の確率を重みとして、二つの言語尤度の重み付き和をとり、これを最終的な言語尤度として用いて、音声認識結果を導出する。

マイク音声用音声認識装置４４０および電話音声用音声認識装置４５０は、音声認識結果をテキストに整形し、表示装置４６０に表示させる。

次に、本発明の概要について説明する。図１１は、本発明の概要を示すブロック図である。本発明の対話音声認識システムは、複数の話者による対話での各話者の音声信号と、音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報とが入力され、音声信号に対する音声認識を行う音声認識手段１１０を備える。

音声認識手段１１０は、音響尤度算出手段７０１（例えば、音響尤度計算手段１１２）と、言語尤度算出手段７０２（例えば、発話権あり言語尤度計算手段１１３および発話権なし言語尤度計算手段１１４）と、最尤候補探索手段７０３（たとえば、最尤仮説探索手段１１５）とを少なくとも備える。音響尤度算出手段７０１は、ある音素列から入力された音声信号が生起する尤度を与える。言語尤度算出手段７０２は、ある単語列が生起する尤度を与える。最尤候補探索手段７０３は、音響尤度算出手段７０１および言語尤度算出手段７０２が与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える。また、言語尤度算出手段７０２は、音声認識手段１１０に入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与える。

このような構成により、対話における普遍的な概念である発話権を利用し、話者が発話権を有する場合の制約と話者が発話権を有さない場合の制約とを用いて音声認識を行うので、様々な分野の対話に適用することができる。

また、上記の実施形態には、言語尤度算出手段７０２が、音声信号を発した話者が発話権を有する場合における言語尤度を示す第１の言語モデル（例えば、発話権あり言語モデル）から尤度を特定する第１の言語尤度特定手段（例えば、発話権あり言語尤度計算手段１１３）と、音声信号を発した話者が発話権を有さない場合における言語尤度を示す第２の言語モデル（例えば、発話権なし言語モデル）から尤度を特定する第２の言語尤度特定手段（例えば、発話権なし言語尤度計算手段１１４）とを有し、最尤候補探索手段７０３が、発話権情報に応じて、第１の言語尤度特定手段が特定した言語尤度および第２の言語尤度特定手段が特定した言語尤度の少なくともいずれか一方を用いて、音声認識結果の候補を求める構成が開示されている。

また、上記の実施形態には、最尤候補探索手段７０３が、音声信号から変換される音素列に対して第１の言語尤度特定手段が特定した言語尤度と、第２の言語尤度特定手段が特定した言語尤度とを、発話権情報に応じて補正して併合し、併合後の言語尤度を用いて、音声認識結果の候補を求める構成が開示されている。

また、上記の実施形態には、最尤候補探索手段７０３が、音声信号から変換される音素列に対して第１の言語尤度特定手段が特定した言語尤度と、第２の言語尤度特定手段が特定した言語尤度とを、発話権情報に応じて線形結合し、線形結合後の言語尤度を用いて、音声信号から音声認識結果の候補を求める構成が開示されている。

また、上記の実施形態には、最尤候補探索手段７０３が、発話権を持たない話者の音声信号に対する音声認識を行う際に、第２の言語尤度特定手段が特定した言語尤度のうち、直近の時刻で発話権を有するとされた話者の音声に対する音声認識結果に該当する文字列の言語尤度を補正する構成が開示されている。そのような構成によれば、確認の発話は発話権が無い場合に成され、確認の際は直近の発話権保持者の発話内容の一部が繰り返されるという性質を利用して、音声認識の精度を向上させることができる。

また、第１の言語モデルおよび第２の言語モデルは、例えば、音素列に該当する単語、単語の集合、あるいは、単語または単語の集合の連鎖の言語尤度を定める言語モデルである。

また、上記の実施形態には、各話者の音声信号の開始時刻および終了時刻に基づいて発話権情報を生成する発話権情報生成手段（例えば、発話権判別手段３４０）を備える構成が開示されている。そのような構成によれば、対話音声認識システムの外部に、発話権を識別するための機構を設けなくて済む。

また、上記の実施形態には、発話権情報生成手段が、全ての話者の音声信号が無音である状態からいずれかの話者の音声信号が有音となった時刻から、その話者の音声信号が無音となる時刻までの間に、その話者が発話権を有していることを示す発話権情報を生成するとともに、発話権情報を有しているとされた話者の音声信号が無音となる時刻に別の話者の音声信号が有音となっているならば、その時刻からその別の話者の音声信号が無音となる時刻までの間に、その別の話者が発話権を有していることを示す発話権情報を生成する構成が開示されている。

また、上記の実施形態には、発話権情報生成手段が、全ての話者の音声信号が無音である状態からいずれかの話者の音声信号が有音となった時刻から、その話者の音声信号が無音となる時刻までの間に、その話者が発話権を有していることを示す発話権情報を生成するとともに、発話権情報を有しているとされた話者の音声信号が無音となる時刻に別の話者の音声信号が有音となっているならば、その話者の音声信号が有音となった時刻からその別の話者の音声信号が無音となる時刻までの間に、その別の話者が発話権を有していることを示す発話権情報を生成する構成が開示されている。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２００８年７月２８日に出願された日本出願特願２００８−１９３７５５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、複数の話者が参加する会議を音声認識する議事録作成システムに適用できる。また、コンタクトセンターや電話相談窓口で用いられる、電話応対音声を音声認識する電話応対音声認識システムおよび音声認識内容に基づく電話応対支援システムにも適用可能である。さらに、講演やプレゼンテーションにおける質疑応答や、医者と患者の問診音声などをテキスト化し、ナレッジベースや参考資料を提示する際に用いるプレゼンテーション補助システムなどにも適用可能である。発話権のない話者の反応が重要なケース（例えばコンタクトセンターにおける顧客の反応や問診における患者の反応などを分析するようなシステム）に適用する音声認識システムに、特に有用である。

２２，４４１，４５１発話権あり言語モデル
２３，４４２，４５２発話権なし言語モデル
１１０，２１１，２１２，６１０音声認識手段
１１２，７１０音響尤度計算手段
１１３発話権あり言語尤度計算手段
１１４発話権なし言語尤度計算手段
１１５最尤仮説探索手段
１１６，１２７発話権あり言語モデル記憶手段
１１７，１２８発話権なし言語モデル記憶手段
３４０，６２０，４３０発話権判別手段
４１０マイクロフォン
４２０受話装置
４４０マイク音声用音声認識装置
４５０電話音声用音声認識装置
４６０表示装置
４７０送話装置
６３０発話検出手段
７０２言語尤度算出手段
７０３最尤候補探索手段

本発明は、対話音声認識システム、対話音声認識方法および対話音声認識用プログラムに関し、特に複数の話者が同時に発話し得る対話での音声認識精度を向上させる機能を有する対話音声認識システム、対話音声認識方法および対話音声認識用プログラムに関する。

そこで、本発明は、人間同士の対話音声を音声認識する際に、対話の普遍的な構造を制約として利用することで、適用範囲をより広げることができる対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを提供することを目的とする。また、本発明は、対話音声において現れる発話のオーバーラップを適切に用いることによって、より精度を高めることができる対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを提供することを目的とする。

また、本発明による対話音声認識用プログラムは、コンピュータに、複数の話者による対話での各話者の音声信号と、音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報とが入力されると、音声信号に対する音声認識を行う音声認識処理を実行させ、音声認識処理で、ある音素列から入力された音声信号が生起する尤度を与える音響尤度算出処理、ある単語列が生起する尤度を与える言語尤度算出処理、および、音響尤度算出処理および言語尤度算出処理で与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える最尤候補探索処理を少なくとも実行させ、言語尤度算出処理では、入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与えさせることを特徴とする。

Claims

複数の話者による対話での各話者の音声信号と、音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報とが入力され、音声信号に対する音声認識を行う音声認識手段を備え、
前記音声認識手段は、
ある音素列から入力された音声信号が生起する尤度を与える音響尤度算出手段と、
ある単語列が生起する尤度を与える言語尤度算出手段と、
前記音響尤度算出手段および前記言語尤度算出手段が与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える最尤候補探索手段とを少なくとも備え、
前記言語尤度算出手段は、
前記音声認識手段に入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与える
ことを特徴とする対話音声認識システム。
前記言語尤度算出手段は、
音声信号を発した話者が発話権を有する場合における言語尤度を示す第１の言語モデルから尤度を特定する第１の言語尤度特定手段と、
音声信号を発した話者が発話権を有さない場合における言語尤度を示す第２の言語モデルから尤度を特定する第２の言語尤度特定手段とを有し、
前記最尤候補探索手段は、
発話権情報に応じて、前記第１の言語尤度特定手段が特定した言語尤度および前記第２の言語尤度特定手段が特定した言語尤度の少なくともいずれか一方を用いて、音声認識結果の候補を求める
請求項１に記載の対話音声認識システム。
前記最尤候補探索手段は、
前記第１の言語尤度特定手段が特定した言語尤度と、前記第２の言語尤度特定手段が特定した言語尤度とを、発話権情報に応じて補正して併合し、併合後の言語尤度を用いて、音声認識結果の候補を求める
請求項２に記載の対話音声認識システム。
前記最尤候補探索手段は、
前記第１の言語尤度特定手段が特定した言語尤度と、前記第２の言語尤度特定手段が特定した言語尤度とを、発話権情報に応じて線形結合し、線形結合後の言語尤度を用いて、音声信号から音声認識結果の候補を求める
請求項２または請求項３に記載の対話音声認識システム。
前記最尤候補探索手段は、
発話権を持たない話者の音声信号に対する音声認識を行う際に、前記第２の言語尤度特定手段が特定した言語尤度のうち、直近の時刻で発話権を有するとされた話者の音声に対する音声認識結果に該当する文字列の言語尤度を補正する
請求項２から請求項４のうちのいずれか１項に記載の対話音声認識システム。
前記第１の言語モデルおよび前記第２の言語モデルは、音素列に該当する単語、単語の集合、あるいは、単語または単語の集合の連鎖の言語尤度を定める
請求項２から請求項５のうちのいずれか１項に記載の対話音声認識システム。
各話者の音声信号の開始時刻および終了時刻に基づいて発話権情報を生成する発話権情報生成手段を備える
請求項１から請求項６のうちのいずれか１項に記載の対話音声認識システム。
前記発話権情報生成手段は、
全ての話者の音声信号が無音である状態からいずれかの話者の音声信号が有音となった時刻から、前記話者の音声信号が無音となる時刻までの間に、前記話者が発話権を有していることを示す発話権情報を生成するとともに、発話権情報を有しているとされた話者の音声信号が無音となる時刻に別の話者の音声信号が有音となっているならば、前記時刻から前記別の話者の音声信号が無音となる時刻までの間に、前記別の話者が発話権を有していることを示す発話権情報を生成する
請求項７に記載の対話音声認識システム。
前記発話権情報生成手段は、
全ての話者の音声信号が無音である状態からいずれかの話者の音声信号が有音となった時刻から、前記話者の音声信号が無音となる時刻までの間に、前記話者が発話権を有していることを示す発話権情報を生成するとともに、発話権情報を有しているとされた話者の音声信号が無音となる時刻に別の話者の音声信号が有音となっているならば、前記話者の音声信号が有音となった時刻から前記別の話者の音声信号が無音となる時刻までの間に、前記別の話者が発話権を有していることを示す発話権情報を生成する
請求項７に記載の対話音声認識システム。
複数の話者による対話での各話者の音声信号と、音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報とが入力されると、音声信号に対する音声認識を行い、
前記音声認識の際には、
ある音素列から入力された音声信号が生起する尤度を与える音響尤度算出を行い、
ある単語列が生起する尤度を与える言語尤度算出を行い、
前記音響尤度算出および前記言語尤度算出で与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える最尤候補探索を行い、
前記言語尤度算出の際には、入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与える
ことを特徴とする対話音声認識方法。
前記言語尤度算出の際には、
音声信号を発した話者が発話権を有する場合における言語尤度を示す第１の言語モデルから尤度を特定する第１の言語尤度特定を行い、
音声信号を発した話者が発話権を有さない場合における言語尤度を示す第２の言語モデルから尤度を特定する第２の言語尤度特定を行い、
前記最尤候補探索の際には、発話権情報に応じて、前記第１の言語尤度特定で特定した言語尤度および前記第２の言語尤度特定で特定した言語尤度の少なくともいずれか一方を用いて、音声認識結果の候補を求める
請求項１０に記載の対話音声認識方法。
コンピュータに、
複数の話者による対話での各話者の音声信号と、音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報とが入力されると、音声信号に対する音声認識を行う音声認識処理を実行させ、
音声認識処理で、
ある音素列から入力された音声信号が生起する尤度を与える音響尤度算出処理、
ある単語列が生起する尤度を与える言語尤度算出処理、および、
前記音響尤度算出処理および前記言語尤度算出処理で与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える最尤候補探索処理を少なくとも実行させ、
前記言語尤度算出処理では、入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与えさせる
ことを特徴とする対話音声認識用プログラムを格納する記憶媒体。
コンピュータに、
前記言語尤度算出処理で、
音声信号を発した話者が発話権を有する場合における言語尤度を示す第１の言語モデルから尤度を特定する第１の言語尤度特定処理、および、
音声信号を発した話者が発話権を有さない場合における言語尤度を示す第２の言語モデルから尤度を特定する第２の言語尤度特定処理を実行させ、
前記最尤候補探索処理で、
発話権情報に応じて、前記第１の言語尤度特定ステップで特定した言語尤度および前記第２の言語尤度特定ステップで特定した言語尤度の少なくともいずれか一方を用いて、音声認識結果の候補を求めさせる
請求項１２に記載の対話音声認識用プログラムを格納する記憶媒体。