JPWO2010013371A1 - 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム - Google Patents

対話音声認識システム、対話音声認識方法および対話音声認識用プログラム Download PDF

Info

Publication number
JPWO2010013371A1
JPWO2010013371A1 JP2010522589A JP2010522589A JPWO2010013371A1 JP WO2010013371 A1 JPWO2010013371 A1 JP WO2010013371A1 JP 2010522589 A JP2010522589 A JP 2010522589A JP 2010522589 A JP2010522589 A JP 2010522589A JP WO2010013371 A1 JPWO2010013371 A1 JP WO2010013371A1
Authority
JP
Japan
Prior art keywords
likelihood
language
speech
speaker
speak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010522589A
Other languages
English (en)
Other versions
JP5381988B2 (ja
Inventor
長友 健太郎
健太郎 長友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010522589A priority Critical patent/JP5381988B2/ja
Publication of JPWO2010013371A1 publication Critical patent/JPWO2010013371A1/ja
Application granted granted Critical
Publication of JP5381988B2 publication Critical patent/JP5381988B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

人間同士の対話音声を音声認識する際に、対話の普遍的な構造を制約として利用することで、適用範囲をより広げることができる対話音声認識システムを提供することを目的とする。音響尤度算出手段701は、ある音素列から入力された音声信号が生起する尤度を与える。言語尤度算出手段702は、ある単語列が生起する尤度を与える。最尤候補探索手段703は、音響尤度算出手段および言語尤度算出手段が与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える。また、言語尤度算出手段702は、音声認識手段に入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与える。

Description

本発明は、対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体に関し、特に複数の話者が同時に発話し得る対話での音声認識精度を向上させる機能を有する対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体に関する。
近年、音声認識技術の利用範囲は拡大しつつあり、その中には人間同士の音声対話をテキスト化する「対話音声認識」技術が含まれている。ここで言う「対話」または「音声対話」とは、あくまで人間同士の音声による情報交換のことを指し、人間と機械とが音声を用いて「対話的に」インタラクションする技術とは別のものである。
基盤技術の観点から見ると、対話音声認識と大語彙連続音声認識の間には大きな差は存在しない。すなわち、音声波形を入力とし、そこから音声区間を切り出し、ケプストラム等の音声特徴量を抽出した後、特徴量から音素への変換と音素から文字列(単語列)への変換を同時に行い、最も尤度の高い変換結果をテキストとして出力する。一般に、特徴量から音素への変換尤度の集合を音響モデル、音素から文字列(単語列)への変換尤度の集合を言語モデルと呼ぶ。
入力音声信号Xに対してある単語列Wが生起する尤度は、以下に示す式(1)で与えられる。
P(W|X) = P(X|W) P(W) / P(X) 式(1)
音声認識処理とは入力音声に対して最も尤度の高い単語列W'を求める処理であるので、以下に示す式(2)のように表現できる。
W' = argmax P(W|X)
= P(X|W) P(W) 式(2)
このときP(X|W)を与えるのが音響モデルであり、P(W)を与えるのが言語モデルである。すべての単語列Wの尤度を求めるには膨大な計算量が必要となるので、通常、P(W|X)は音素単位に分割して処理される。また、P(W)についてもさまざまな近似計算が用いられる。代表的なものがN-gram言語モデルである。単語列Wが単語w1,w2,w3,...,wkからなる場合、その生起確率P(W)は式(3)のようになるので、単語列が長くなるほど尤度計算に作用するパラメータ数が増える。
P(W) = p(w1) p(w2|w1) p(w3|w1,w2) ... p(wk|w1,w2,...,wk-1) 式(3)
これを、ある単語の直近(N-1)単語までを参照するように、以下のように近似する。
P(W) ~ p(w1) p(w2|w1) p(w3|w1,w2) ... p(wk|wk-n+1, ... ,wk-1)
一般に、音声認識プログラムは尤度の低い仮説の計算を行わないことで高速化を達成しようとする。例えば、非特許文献1ではビームサーチアルゴリズムが用いられている。このアルゴリズムは、入力音声の途中までを処理した時点で得られた単語列候補のうち、その時点までの尤度が所与の閾値に満たないものは探索候補から除外する。また、計算対象となる単語列や音響仮説の数を減らすことでも高速化が実現できる。例えば、政治に関する音声が入力されることが分かっているならば政治に関する内容の単語列のみを評価すればよく、マンガに関する単語列は計算から除外してよい。計算から完全に除外しなくても、後者に対する尤度が極めて小さくなるような言語モデルを与えるだけでも同様の効果が得られる。また、別の例としては、発話者が男性であることが分かっているなら、女性の声に対する音響尤度を求める必要はないので、計算量を削減できる。このような計算対象の削減は、適切に行えば、高速化だけでなく、認識精度の向上にも貢献する。本明細書では、以降、このように計算対象の削減を適切に行うことを指して「制約を与える」と表現することがある。
音声認識技術の精度向上のキーポイントは、入力される音声の内容を予測し、これを反映した制約を音声認識プロセスに適切に盛り込むことである。例えば、話者が特定されているなら、その話者に応じた音響モデルを制約として用いればよい。発話内容のトピックが特定されているなら、そのトピックに応じた言語モデルを制約として用いることで認識精度は向上する。複数の話者が発話するなら、何らかの方法で話者の切り替わりを検知して音響モデルを切り替えればよい。複数のトピックが順に表れるような発話であれば、トピックの切り替わりに応じて言語モデルを切り替えればよい。このような技術の例が、例えば、非特許文献2や特許文献1に記載されている。
非特許文献2には、「野球実況中継」における音声を認識するシステムが記載されている。話者であるアナウンサーは、試合の状況に応じて興奮したり平静になったりするため、同一話者であっても音響的な特徴が一定せず、音声認識精度を低下させる原因となる。また、「阪神」と「三振」のように音響的によく似た語彙の混同が起こりやすいという性質が認められた。そこで、非特許文献2に記載の音声認識システムでは、「ツーストライクかどうか」等の試合の進行状況(状態)を用いて野球中継を構造化した。そして、非特許文献2に記載の音声認識システムは、状態の推移を予測し、状態に依存した音響モデル(平常時モデルまたは興奮時モデル)や言語モデル(ストライクカウントごとに別々に用意されたモデル等)を適宜切り替えながら音声認識を行う。
特許文献1には、人間と機械が対話的に相互作用しながら情報を検索する音声対話システムが記載されている。特許文献1に記載されたシステムは、ユーザに次にどのような情報を入力して欲しいのか指示するので、ユーザがこれに従う限り、次の発話内容をある程度予測できる。これを用いて、ユーザに提示した質問に応じて言語モデルを切り替える。
非特許文献2や特許文献1等に記載されている音声認識精度向上技術は対話音声の場合でもある程度流用できる。しかし、対話音声には、例示した音声認識がターゲットとしてきた音声にはない特徴がある。
対話音声の第1の特徴は、対話音声では複数の話者が同時に発話することがあり得るということである。一般的な音声認識技術は話者が一名であることを前提として開発されてきたため、このような音声はそのままでは認識することができない。
例えば、テレビ番組音声の場合、出演者が一人ずつ順に発話するようなシーンでは問題なく認識することができるが、複数の出演者が激しく言い争うようなシーンでは音声を認識することはできない。前者の例としてニュース番組などが挙げられ、後者の例としてバラエティ番組などが挙げられる。今日、ニュース音声認識が実用化しつつある一方でバラエティ番組の認識技術が未成熟な一因はここにある。録音する段階で工夫できる場合は、予め複数のマイクを用意し、原則として1マイクあたり1話者の音声を録音する方法を用いることができる。このように一つのマイクで一人の話者の音声を録音すれば、たとえ複数の話者が同時に発話したとしても、それぞれの録音音声にはそのマイクを用いた話者の音声しか入り込まないため、この問題を回避することができる。
対話音声の第2の特徴は、対話音声の話者は音声認識システムの存在を意識しておらず、聞き手である人間が聞き取れる範囲で発話するという性質があることである。これは対話音声認識システムの認識精度を下げる要因となる。
話者が音声認識システムの存在を意識している場合、発話内容はシステムが認識しやすいようにコントロールされると期待できる。例えば、極端な早口や小声、篭った音声などが入力された場合は再発話を促すことができるし、特許文献1の技術のように、次の発話内容を予測することも比較的容易である。システム側は、このような「システムに合わせた」発話に特化した制約を掛けることで、認識精度を稼ぐことができた。
一方で対話音声のような「人間に対する音声」では、聞き手である人間が理解できさえすればよいので、音声認識システムにとって都合の悪い発話が多く成される。上記の早口、小声等のように聞き手である人間にとっても都合が悪い場合は再発話を促されるが、話者の感情による音韻変形や、主たる意図の伝達に不要な語句の発話の変形・省略などは人間の聞き手にとって問題にならないことが多く、そのままの状態で対話音声認識システムに入力されてしまう。話者の感情による音韻変形の例として、興奮した時の発話では平常時より周波数が高くなること等が挙げられる。また、主たる意図の伝達に不要な語句の発話の変形・省略の例として、「〜です」が「〜す」のように省略されたり、非常に弱く素早く発声されたり、そもそも言語的に省略されたりするといったこと等が挙げられる。
また、言語学の分野では、2名の話者による対話を「参加者A が話し、話し終わり、次に、もう一人の参加者B が話し、話し終わるというような、二人の参加者の間で交わされるA-B-A-B-A-B という話の連続である」と説明する(非特許文献3参照)。つまり、対話は「発話権の移行」または「ターンの受け継ぎ(Turn-Taking )」を繰り返すという基本的な構造を持っていると考えられている。この構造は、対話参加者が3名以上である場合にもそのまま拡張することが可能である。
音声対話において主に発話を行う者は発話権を持つ話者であるが、発話権を持たない話者も発話を行うことはあり得る。Sacks によれば、「一つのターンから次のターンへ移る移行期には空白と重複が起こらないのが普通であるとし、起こったとしてもそれは短いものであり、基本的に一人の参加者が一つのターンを取って話すという原則がある」と述べられている(非特許文献3参照)。
特開平7−104786号公報
A. Lee, T. Kawahara and K. Shikano."Julius --- an open source real-time large vocabulary recognition engine."In Proc. European Conference on Speech Communication and Technology (EUROSPEECH),pp. 1691--1694, 2001. 佐古、有木、「知識を用いた音声認識による野球実況中継の構造化」、第6回音声言語シンポジウム、社団法人電子情報通信学会、SP2004-136,pp.85-90,2004-12 中井陽子、「言語・非言語行動によるターンの受け継ぎの表示」、[online]、[平成20年5月14日検索]、インターネット<http://dspace.wul.waseda.ac.jp/dspace/bitstream/2065/3513/1/34029.pdf>
第1の問題点は、対話音声が持つ何らかの構造を用いて音声認識処理に制約を掛けようとする際、どのような音声対話にも適用できる汎用的な構造を用いた制約方法が存在しなかったということである。その理由は、非特許文献2や特許文献1に記載された技術で用いられる構造は非常に限定的なものであり、その構造が適用可能な音声対話とそうでない音声対話が存在するためである。
対話が何がしかの構造を持つというアイディアはしばしば提唱されるものであるが、その構成要素が何であるかは、その提唱者が着目する問題に特化されて決められる傾向がある。例えば、非特許文献2で開示された技術の場合、提唱者が着目する問題は「野球中継」であり、対話構成要素は「ストライクカウント」等の野球でのみ現れる概念である。従って、この対話構成要素が野球以外のスポーツに適用できないことが明らかである。また、スポーツ以外の中継音声、映像音声に適用不可能であることも明らかである。
また、特許文献1で開示される技術の場合、対話の構造はシステムが次に何を尋ねるかによって決定される。特許文献1には「統計的言語モデルの選択を行なうにあたって、音声対話システムがユーザ発話を予測し得る場面を設定する必要がある。ここで、ユーザの発話を予測可能な場面としては、対話の開始・終了場面や、システムが何らかの質問をした場面、つまり、システムの質問に対応した回答がユーザから得られる場面が考えられる。」と記載され、具体的な場面として「名前を尋ねた場面」、「いつかと尋ねた場面」、「何かと尋ねた場面」、「どこかと尋ねた場面」が挙げられている。当然ながら、システムがこれらとは異なる質問をする場合はそれに合わせた「場面」を想定しなければならない。さらに、システムが対話の流れをコントロールできない用途では、特許文献1に記載の技術は利用できない。対話音声認識の対象となる対話音声は、まさにこの「流れをコントロール」できない用途にあたる。
このように、非特許文献2や特許文献1に記載された技術は、ある限定された条件を満たす用途においては利用可能であるが、他の用途では利用できないような構造や対話構成要素が用いられてきた。このような対話構成要素を用いると、その限定条件に当てはまらないような音声対話に対しては、適切な制約を掛けることができず、音声認識精度の向上には繋がらない。
非特許文献2等に記載の技術を適切に用いるには、音声認識システム設計者は、まず入力される音声発話の内容を分析し、その内容に依存した何らかの構造を見つけなければならなかった。こうした作業は煩雑であるし、常に適当な構造が見つけられるとも限らない。
第2の問題点は、複数の話者が同時に発話しうるという現象(発話のオーバーラップ)を意図的に無視しているということである。その理由は、一人の話者の音声を認識する技術を基盤としたものであるためである。また、話者ごとに異なるチャネル(マイク)を割り当てる方式の場合も、最終的に話者一名の音声を別個に処理するという意味において、発話のオーバーラップを無視していると言える。
そこで、本発明は、人間同士の対話音声を音声認識する際に、対話の普遍的な構造を制約として利用することで、適用範囲をより広げることができる対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体を提供することを目的とする。また、本発明は、対話音声において現れる発話のオーバーラップを適切に用いることによって、より精度を高めることができる対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体を提供することを目的とする。
本発明による対話音声認識システムは、複数の話者による対話での各話者の音声信号と、音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報とが入力され、音声信号に対する音声認識を行う音声認識手段を備え、音声認識手段が、ある音素列から入力された音声信号が生起する尤度を与える音響尤度算出手段と、ある単語列が生起する尤度を与える言語尤度算出手段と、音響尤度算出手段および言語尤度算出手段が与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える最尤候補探索手段とを少なくとも備え、言語尤度算出手段が、音声認識手段に入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与えることを特徴とする。
また、本発明による対話音声認識方法は、複数の話者による対話での各話者の音声信号と、音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報とが入力されると、音声信号に対する音声認識を行う音声認識を行い、音声認識の際には、ある音素列から入力された音声信号が生起する尤度を与える音響尤度算出を行い、ある単語列が生起する尤度を与える言語尤度算出を行い、音響尤度算出および言語尤度算出で与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える最尤候補探索を行い、言語尤度算出の際には、入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与えることを特徴とする。
また、本発明による対話音声認識用プログラムを格納する記憶媒体は、コンピュータに、複数の話者による対話での各話者の音声信号と、音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報とが入力されると、音声信号に対する音声認識を行う音声認識処理を実行させ、音声認識処理で、ある音素列から入力された音声信号が生起する尤度を与える音響尤度算出処理、ある単語列が生起する尤度を与える言語尤度算出処理、および、音響尤度算出処理および言語尤度算出処理で与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える最尤候補探索処理を少なくとも実行させ、言語尤度算出処理では、入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与えさせることを特徴とする。
本発明によれば、対話における普遍的な概念である発話権を利用し、話者が発話権を有する場合の制約と話者が発話権を有さない場合の制約とを用いて音声認識を行うので、様々な分野の対話に適用することができる。また、発話のオーバーラップを利用して、音声認識精度を向上させることができる。
本発明の第1の実施形態の構成例を示すブロック図である。 対話における確認の例を示す説明図である。 本発明の第2の実施形態の構成例を示すブロック図である。 本発明の第3の実施形態の構成例を示すブロック図である。 発話権判別手段の処理経過の例を示すフローチャートである。 複数の話者の発話開始および終了のタイミングの例を示す説明図である。 相槌、確認、発話権要求のいずれにも分類されない発話を含む対話の例を示す説明図である。 本発明の第4の実施形態の構成例を示すブロック図である。 三人の話者による対話の状況の例を示す説明図である。 本発明の実施例を示すブロック図である。 本発明の概要を示すブロック図である。
以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
図1は、本発明の第1の実施形態の構成例を示すブロック図である。本発明の対話音声認識システムは、音声認識手段110を備える。そして、音声認識手段110は、音響尤度計算手段112と、発話権あり言語尤度計算手段113と、発話権なし言語尤度計算手段114と、最尤仮説探索手段115と、発話権あり言語モデル記憶手段116と、発話権なし言語モデル記憶手段117とを備える。音声認識手段110には音声信号と発話権情報とが入力され、音声認識手段110はその音声信号に対する音声認識結果を出力する。発話権情報については後述する。
音響尤度計算手段112には、認識対象となる音声信号が入力される。音響尤度計算手段112は、入力された音声信号からフレーム(短時間区間)毎に音声特徴量を抽出する。音響尤度計算手段112が抽出する音声特徴量の例として、入力音声(入力された音声信号)のパワーやケプストラムが挙げられるが、他の音声特徴量を抽出してもよい。音響尤度計算手段112は、抽出した音声特徴量と、所与の音響モデルとを比較し、各フレームに現れた音声信号が各音素に該当する尤度(音響尤度)を計算する。なお、音声認識手段110は、音響モデルを記憶する音響モデル記憶手段(図示せず)を備え、音響尤度計算手段112は、その音響モデルを参照すればよい。また、音響モデルは、例えば、音声特徴量と、個々の音素と、音声特徴量がその個々の音素に変換される尤度(音響尤度)とを対応付けた情報である。
最尤仮説探索手段115は、音響尤度計算手段112が求めた音響尤度と、発話権あり言語尤度計算手段113または発話権なし言語尤度計算手段114が与える言語尤度とを参照しつつ、入力音声信号の認識結果として最も尤度(音響尤度と言語尤度のトータル)の高いテキストを探索する。言語尤度は、音素列が文字列を形成する尤度である。音素列から変換される文字列は、文字または単語であっても、文字または単語の連鎖であってもよい。そして、言語尤度は、文字や単語の連鎖を成す一部の単語が、出現分布が類似していると定められた単語の集合(後述のクラス)に属する場合の尤度であってもよい。
また、最尤仮説探索手段115には、入力された音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報が入力される。発話権とは、原則として他者の割り込みを受けずに、優先的に発話を継続することが可能であることを示す権利である。発話権は、言語学の分野では古典的な概念である。ここでは、話者が発話権を有しているか否かを0/1のような二値で表した発話権情報が入力される場合を例にして説明する。なお、発話権を有する確かさを二値ではなく確率的に表した発話権情報を用いる場合については後述する。
最尤仮説探索手段115は、入力された音声信号の話者が発話権を有しているかどうかにより、言語尤度を得る対象を、発話権あり言語尤度計算手段113または発話権なし言語尤度計算手段114に切り替える。すなわち、入力された音声信号の話者が発話権を有していると発話権情報から判断される場合には、発話権あり言語尤度計算手段113から言語尤度を得る。また、入力された音声信号の話者が発話権を有していないと発話権情報から判断される場合には、発話権なし言語尤度計算手段114から言語尤度を得る。
最尤仮説探索手段115は、尤度(音響尤度と言語尤度のトータル)に基づいて音声認識結果を求め、その音声認識結果を出力する。例えば、最尤仮説探索手段115は、尤度が最も高いテキストを出力してもよい。また、尤度が高い順に上位N位までのテキストをそれぞれ音声認識結果として出力してもよい。また、それらを含む仮説空間の全部または一部からなるグラフ構造(一般にラティスと呼ばれる)を認識結果として出力してもよい。
また、発話権あり言語モデル記憶手段116は、発話権あり言語モデル22を記憶する記憶手段であり、発話権なし言語モデル記憶手段117は、発話権なし言語モデル23を記憶する記憶手段である。各言語モデル22,23は、例えば、音素列と、その音素列に該当する文字列と、その音素列がその文字列に変換される尤度とを対応付けた情報として構築されていてもよい。ただし、発話権あり言語モデルは、発話権を有している話者用の言語モデルであり、発話権なし言語モデルは、発話権を有していない話者用の言語モデルである。発話権あり言語モデル22は、発話権を持つ話者の発話から学習された言語モデルであり、発話権なし言語モデル23は、発話権を持たない話者の発話(相槌、確認、発話権要求)のみから学習された言語モデルであり、両者は別々に構築される。
なお、各言語モデル22,23がそれぞれの記憶手段116,117に記憶される態様は特に限定されない。例えば、発話権あり言語モデル記憶手段116は、発話権あり言語モデル22を記憶したメモリであってもよい。また、発話権あり言語モデル22はファイル形式で記憶されていてもよい。発話権なし言語モデル23に関しても同様である。
発話権あり言語尤度計算手段113および発話権なし言語尤度計算手段114は、最尤仮説探索手段115に指定された音素列に該当する文字列、および、指定された音素列からその文字列に変換される尤度を最尤仮説探索手段115に返す。ただし、発話権あり言語尤度計算手段113は、発話権あり言語モデル22を参照して、指定された音素列に該当する文字列の尤度を最尤仮説探索手段115に返す。また、発話権なし言語尤度計算手段114は、発話権なし言語モデル23を参照して、指定された音素列に該当する文字列の尤度を最尤仮説探索手段115に返す。
音響尤度計算手段112と、発話権あり言語尤度計算手段113と、発話権なし言語尤度計算手段114と、最尤仮説探索手段115は、例えば、プログラム(対話音声認識用プログラム)に従って動作するCPUによって実現される。この場合、プログラムは、記憶媒体に記憶して提供することも可能であり、また、インターネットその他の通信媒体を介して伝送することにより提供することも可能である。また、記憶媒体には、例えば、フレキシブルディスク、ハードディスク、磁気ディスク、光磁気ディスク、CD−ROM、DVD、ROMカートリッジ、バッテリバックアップ付きRAMメモリカートリッジ、フラッシュメモリカートリッジ、不揮発性RAMカートリッジ等が含まれる。また、通信媒体には、電話回線等の有線通信媒体、マイクロ波回線等の無線通信媒体等が含まれる。そして、CPUが、記憶媒体からプログラムを読み込み、そのプログラムに従って、音響尤度計算手段112、発話権あり言語尤度計算手段113、発話権なし言語尤度計算手段114、および最尤仮説探索手段115として動作してもよい。また、音響尤度計算手段112、発話権あり言語尤度計算手段113、発話権なし言語尤度計算手段114、および最尤仮説探索手段115がそれぞれ別々の回路によって実現されていてもよい。
次に、動作について説明する。
まず、音声認識手段110に、音声信号と、その音声信号に対応する発話権情報とのペアが入力される。音声信号は、音響尤度計算手段112に入力され、発話権情報は最尤仮説探索手段115に入力される。
音響尤度計算手段112は、その音声信号から、定められた手順に従ってフレーム毎に音声特徴量を抽出する。音響尤度計算手段112は、抽出した特徴量と、音響モデルとを比較し、その特徴量から個々の音素に変換される尤度(音響尤度)を音素毎に求め、最尤仮説探索手段115に出力する。
また、最尤仮説探索手段115は、入力された発話権情報に応じて、発話権あり言語尤度計算手段113または発話権なし言語尤度計算手段114を選択する。すなわち、発話権情報が、音声信号の話者が発話権を有することを示しているならば、発話権あり言語尤度計算手段113を選択し、音声信号の話者が発話権を有していないことを示しているならば、発話権なし言語尤度計算手段114を選択する。ここでは、発話権あり言語尤度計算手段113が選択された場合を例にして説明するが、発話権なし言語尤度計算手段114が選択された場合も同様である。最尤仮説探索手段115は、フレーム毎に音響尤度が求められたそれぞれの音素を時間順に並べた音素列を指定し、その音素列に該当する文字列およびその言語尤度を、選択した発話権あり言語尤度計算手段113に要求する。選択された発話権あり言語尤度計算手段113は、この要求に応じて、音素列に該当する各文字列およびその言語尤度を求める。
音素列から変換される文字列の候補は一つとは限らず、発話権あり言語尤度計算手段113、発話権なし言語尤度計算手段114は、音素列の変換候補となる各文字列毎に言語尤度を求める。
最尤仮説探索手段115は、音響尤度計算手段112が出力した音響尤度と、発話権あり言語尤度計算手段113または発話権なし言語尤度計算手段114が与える言語尤度とを参照しつつ、入力音声信号の認識結果として、最も尤度(音響尤度および言語尤度のトータル)の高いテキストを探索する。最尤仮説探索手段115は、発話権情報の値に応じて、発話権あり言語尤度計算手段113および発話権なし言語尤度計算手段114を切り替えながらテキストの探索を継続する。
既に説明したように、最尤仮説探索手段115は、尤度の最も高いテキストを音声認識結果として出力しても、あるいは、尤度の高い上位N位までのテキストを音声認識結果として出力してもよい。あるいは、それらを含む仮説空間の全部または一部からなるグラフ構造(ラティス)を音声認識結果として出力してもよい。
最尤仮説探索手段115は、それぞれの音素列において、変換候補毎に音響尤度および言語尤度の合計を求める。そして、例えば、その合計値が最も高い文字列を音声認識結果とすればよい。
言語尤度としては、単語連鎖の出現確率を用いてもよい。すなわち、言語モデルは、単語連鎖の出現確率を言語尤度として用いた統計的言語モデルであってもよい。例えば、単語2連鎖(バイグラム)や単語3連鎖(トライグラム)の言語モデルがよく用いられており、本発明でも、そのような言語モデルを用いてもよい。また、単語1連鎖、すなわち単語そのものの出現確率(ユニグラム確率)を用いてもよいが、表現力の点で、単語2連鎖や単語3連鎖を用いることが好ましい。
また、単語そのものの連鎖ではなく、出現分布の類似した単語の集合の連鎖によって、言語尤度を定めてもよい。すなわち、言語モデルとして、クラスモデルを用いてもよい。また、クラスと同様の集合として、「品詞」や「同一単語の読みや表記の揺れ」等に関する集合を定めてもよい。
また、別の言語尤度の与え方として、想定される入力のみを許容するような文法を文脈自由文法等を用いて記述し、この文法によって許容される単語連鎖であるか否かを0/1で与える方式もよく用いられる(文法ベース言語モデル)。いくつかの定型文のいずれかが発話されることが期待されるケースでは、このような言語モデルを用いた方が便利であり、本発明において、このような言語モデルを用いてもよい。
いずれの方式であるにしても、言語モデルは、認識の対象として予想される音声の発話内容に応じて事前に構築されるものであり、発話権あり言語尤度計算手段113や発話権なし言語尤度計算手段114に与えられるという点で共通している。
既に述べたように、音声認識プロセスに制約を掛けることで音声認識精度を向上させることができる。言語モデルは、発話内容の言語的な偏りをモデル化することで言語尤度による制約を掛けるために利用される。
発話権の有無に応じた発話内容の偏りは、次のように説明できる。言語学の分野では、発話権を保持する話者が、ある時間において優先的に発話できるという構造を持つとされる。しかしその一方で、発話権を持たない話者も限定的ながら発話することが可能である。そのような発話の代表的な例として相槌、確認、発話権要求が挙げられる。以下、一つずつ具体的に例を挙げて説明する。
相槌は、発話権を持たない対話参加者が、発話権を持つ話者に対して、自分が相手の話を聞いていること、さらに発話権を継続してもよいこと等を表出するために発される発話である。従って、相槌を打つのは発話権を持たない話者だけである。具体的には「うん」、「へえ」、「そう」、「ああ」、「なるほど」などの特定の語彙が用いられる。
確認は、発話権を持たない話者が、発話権を持つ話者に対して、自分の理解に誤りがあれば訂正の発話を行うよう要求するために発する発話であり、通常、発話内容の一部を復唱することで行われる。図2は、対話における確認の例を示す説明図である。図2に示す例では、発話権を持つ話者Aの発話内容を確認するため、話者Bが発話権を持たないまま発話する状況を示している。図2における横軸は時刻の経過を表し、話者Aの「三月三日でお願いします」という発話や、話者Bの「三日」、「はい」という発話のタイミングを示している。
発話権要求とは、発話権を持たない話者が、次の発話権を受け取る意思を表出するために発される発話である。分かりやすい例としては、裁判において検事や弁護士が、相手方の不適切な質問に対して異議を申し立てる場面での発話(「異議あり!」など)が挙げられる。その他に、「議長」、「ちょっと」、「あのー」、「すみません」など、その時点での発話権保持者や発話権を付与する権利を持つ対話参加者への呼びかけの形でなされることがある。
このように、発話権の無い場合にのみ発せられる発話内容と、発話権がある場合に発せられる発話には偏りが見られる。そこで、発話権を持つ話者の発話から学習された言語モデルと、発話権を持たない話者の発話(相槌、確認、発話権要求)のみから学習された言語モデルとを別々に構築しておき、前者を発話権あり言語尤度計算手段113が参照し、後者を発話権なし言語尤度計算手段114が参照する構成とする。
発話権情報ρが0/1の二値で与えられ、1が発話権あり、0が発話権なしを示しているとする。このとき、発話権なし言語尤度計算手段114が返す言語尤度をP1−ρとし、発話権あり言語尤度計算手段113が返す言語尤度をPρとすると、言語尤度Pは、以下に示す式(4)で表される。
Figure 2010013371
なお、式(4)では、変換候補となる文字列をwとし、左辺のP(w,ρ)は、与えられた発話権情報の元でのwに対する言語尤度である。また、右辺のP1−ρ(w)、Pρ(w)は、それぞれw対する言語尤度である。このように、具体的な文字列や発話権情報等の元での言語尤度を示す場合には、言語尤度を示す記号の後に括弧書きで、文字列wや発話権情報ρ等を示す。
また、発話権情報は、0/1のような二値ではなく、話者が発話権を有している確かさを確率的に表していてもよい。話者が発話権を有している確かさを確率的に示す発話権情報が入力される場合、最尤仮説探索手段115は、発話権あり言語尤度計算手段113と発話権なし言語尤度計算手段114に対してそれぞれ言語尤度を要求し、発話権あり言語尤度計算手段113および発話権なし言語尤度計算手段114が求めた各言語尤度を、発話権情報が示す確率値を用いて併合してもよい。例えば、最尤仮説探索手段115は、発話権あり言語モデルから得られた言語尤度と、発話権なし言語モデルから得られた言語尤度とを、発話権情報が示す確率値に応じて線形結合することによって、言語尤度を併合すればよい。
例えば、言語尤度を求めようとしているある音素列が成す単語3連鎖(トライグラム)の各単語をw1,w2,w3で表すとする。また、発話権情報をρと表し、発話権を有する確率をλ(ρ)と表すものとする。このとき、最尤仮説探索手段115は、発話権あり言語尤度計算手段113がwについて求めた言語尤度Pρ(w)と、発話権なし言語尤度計算手段114がwについて求めた言語尤度P1−ρ(w)を用いて、以下に示す式(5)に示す計算を行い、両者を線形結合し、その結果を、与えられた発話権情報の元でのwについての言語尤度として求めてもよい。
Figure 2010013371
この言語尤度の導出処理では、発話権あり言語モデルおよび発話権なし言語モデルに基づいて単語連鎖(w)に関して求めた言語尤度に対して、発話権情報が示す値λ(ρ)に応じてボーナスやペナルティを与えている(換言すれば、補正している)。このように、単語、単語の集合、またはそれらの連鎖に関する言語尤度に対して、発話権情報に応じてボーナスやペナルティを与えてもよい。
また、確認の発話は発話権が無い場合に成され、確認の際は直近の発話権保持者の発話内容の一部が繰り返されるという性質がある。このような性質を利用して、発話権を持たない話者の音声に対する音声認識の際に、直近の時刻で発話権を有するとされた話者の音声に対する音声認識結果に該当する文字列の言語尤度に対して、発話権情報に応じてボーナスやペナルティを与えてもよい。例えば、直近の発話権を持つ話者の音声に対する音声認識結果を、音素列からの変換候補とする場合、発話権なし言語モデルを参照して得られたその変換候補の言語尤度を高めるように補正してもよい。また、発話権あり言語モデルを参照して得られたその変換候補の言語尤度を低くするように補正してもよい。
例えば、図2に示す例において、話者Aの音声に対して「三月」、「三日」という音声認識結果を得たとする。次に、それらの言語尤度を求めるときには、発話権が無い確率が高いほど、発話権なし言語モデルを参照して得た、それらの単語の言語尤度P1−ρが相対的に高くなるように補正すればよい。
この場合、直近の発話権あり音声認識結果hを反映させて、式(5)を拡張すると、トライグラム言語モデルの言語尤度計算式は、以下に示す式(6)のように表せる。
Figure 2010013371
また、「はい」、「ええ」、「なるほど」等の相槌を意味する文字列の言語尤度に関しても同様にボーナスやペナルティを与えてもよい。例えば、同意を示す相槌「なるほど」は発話権の無い場合に現れやすいので、発話権を持たない話者の音声に対しては言語尤度を高く補正してもよい。一方で、発話権を持つ話者の音声に対しては、逆に「なるほど」を含む単語列の言語尤度は低く補正してもよい。発話権の有無に応じた言語モデルの構築はコストが掛かるので、各々に特徴的な語彙に対する言語尤度にボーナスやペナルティを課すようにしてもよい。
以上の説明では主として単語トライグラム言語モデルを例として示したが、それ以外の言語モデル方式でも原則同様である。
また、発話権情報を生成する際には、発話権を有するか否かを自動的に判別して生成してもよい。あるいは、手動で発話権情報を定めてもよい。前者のように発話権情報を自動的に生成する例として、発話の開始時刻および終了時刻を基にして発話権の有無を推定する態様が挙げられる。この処理の具体的な例については、第3の実施形態で説明する。
また、対話参加者の様子を画像認識技術によってトレースし、視線の移動や、指差し等のジェスチャーを検出することによって発話権の有無を推定して、自動的に発話権情報を生成してもよい。
また、例えば会議などのフォーマルな対話では、発話権の授受を司る対話参加者(議長、裁判長など)が存在する。このことを利用して、発話権の授受を司る対話参加者が、特定の話者に発話権を与える際、話者の発話と同時にボタン押下等でシステム(音声認識手段110、図1参照)に発話権の異動を通知するようにしてもよい。
次に、本実施形態の効果について説明する。
本実施形態では、発話権の有無によって発話される音声の内容に偏りがあることを利用し、入力された音声信号を発した際に話者が発話権を持っていたかどうかに応じて、その偏りを反映した言語モデルを自動的に選択して言語尤度を算出し、最尤な認識結果を探索する。このため、より強力な制約を用いて仮説を探索することができ、より精度の高い音声認識結果を得られることが期待できる。
また、本発明では、発話権という、およそあらゆる対話においても観測できる汎用的な対話構成要素を用いるため、システム設計者が、想定される入力音声の内容に応じて事前に対話の構成を設定せずとも必ず利用できる。従って、どのような音声対話であっても適応可能な、汎用性の高い音声認識を実現することができる。
非特許文献3に記載されているように、発話権を持たない者による発話は、起こったとしても短い。この発話は、具体的には、相槌、確認、割り込み等である。そして、この発話の内容は非常に限定的であるので、音声認識で用いる言語制約として機能する。
本発明では、対話の構造として発話権に着目し、発話権の有無に応じて制約を切り替える。従って、上記のように、どのような音声対話についても適用することができ、汎用性を向上させることができる。
また、本発明によれば、音声対話に特有の「発話のオーバーラップ」の情報を音声認識精度の向上のために利用できる。発話権を持たない話者による発話は、非特許文献3に引用されているSacks らの定義から見れば例外的とされる「重複が起こる」態様の例の一つである。つまり、発話権を持たない話者が相槌等の発話を行う場合、その発話は、その時点で発話権を持つ話者の発話にオーバーラップする。逆に言えば、発話のオーバーラップが見られる場合、そのいずれかの発話は発話権を持たない話者によってなされたものであると言える。よって、発話権を音声認識の際の制約として導入することによって、「発話のオーバーラップ」の情報を音声認識精度の向上に用いることが可能となる。
実施形態2.
図3は、本発明の第2の実施形態の構成例を示すブロック図である。第2の実施形態の対話音声認識システムは、第1の音声認識手段211と、第2の音声認識手段212と、発話権あり言語モデル記憶手段127と、発話権なし言語モデル記憶手段128とを備える。
発話権あり言語モデル記憶手段127は、発話権あり言語モデル22を記憶し、発話権なし言語モデル記憶手段128は、発話権なし言語モデル23を記憶する。
第1の音声認識手段211および第2の音声認識手段212はいずれも、第1の実施形態で説明した音声認識手段110と同様に、音響尤度計算手段112と、発話権あり言語尤度計算手段113と、発話権なし言語尤度計算手段114と、最尤仮説探索手段115とを備える(図1参照)。ただし、第2の実施形態では、発話権あり言語モデル記憶手段127および発話権なし言語モデル記憶手段128は、第1の音声認識手段211および第2の音声認識手段212の間で共有される。すなわち、各音声認識手段211,212は、それ自身で発話権あり言語モデル22および発話権なし言語モデル23を保持せず、各言語モデル22,23を共有する。そして、各音声認識手段211,212が備える発話権あり言語尤度計算手段113(図1参照)は、発話権あり言語モデル記憶手段127に記憶された発話権あり言語モデル22を参照する。同様に、各音声認識手段211,212が備える発話権なし言語尤度計算手段114は、発話権なし言語モデル記憶手段128に記憶された発話権なし言語モデル23を参照する。その他の点に関しては、各音声認識手段211,212の各構成要素の動作は、第1の実施形態と同様である。
第1の音声認識手段211には、第1の実施形態における音声認識手段110と同様に、音声信号と、その音声信号に対応する発話権情報のペアが入力される。また、第2の音声認識手段212には、第1の音声認識手段211に入力されたペアとは別の音声信号および発話権情報のペアが入力される。ここで、第1の音声認識手段211および第2の音声認識手段212に入力される音声信号は、二人の話者が参加した単一の対話において発せられた音声信号であり、発話権情報は、その対話における発話権を示す。すなわち、一方の話者の音声信号が第1の音声認識手段211に入力され、他方の話者の音声信号が第2の音声認識手段212に入力される。そして、各音声認識手段211、212は、それぞれ、入力された音声信号に対する音声認識結果(例えばテキスト等)を出力する。
第2の実施形態の効果について説明する。
第2の実施形態では、対話に参加する話者それぞれに個別のチャネルを割り当てて音声および発話権情報を入力し、発話権に応じて、各音声認識手段211,212が、発話権あり言語尤度計算手段113と発話権なし言語尤度計算手段114とを切り替えて音声認識処理を行う。従って、第1の実施の形態と同様に対話音声認識精度を向上させることができる。このとき、発話権あり言語モデル22および発話権なし言語モデル23は、二つのチャネル(二つの音声認識手段211,212)で共有されるため、事前のモデル構築作業を簡略化し、音声認識実行時の使用メモリ量を抑えることが出来る。
実施形態3.
図4は、本発明の第3の実施形態の構成例を示すブロック図である。第3の実施形態の対話音声認識システムは、第1の音声認識手段211と、第2の音声認識手段212と、発話権あり言語モデル記憶手段127と、発話権なし言語モデル記憶手段128と、発話権判別手段340とを備える。第2の実施形態と同一の要素は、図3と同一の符号を付し、説明を省略する。
発話権判別手段340には、各話者の音声信号が入力される。そして、発話権判別手段340は、各話者に関する発話権情報を生成し、各話者の発話権情報を各話者に対応する音声認識手段211,212に出力する。
例えば、発話権判別手段340には、各話者の発声に同期して各話者の音声信号が入力される。そして、発話権判別手段340は、各話者の音声信号の入力の開始および終了のタイミングに基づいて発話権情報を生成する。そして、発話権判別手段340には、第1の話者の発話権情報を第1の音声認識手段211に送り、同様に、第2の話者の発話権情報を第2の音声認識手段212に送信する。
音声信号および発話権情報が入力された各音声認識手段211,212の動作は、第2の実施形態と同様である。
なお、発話権判別手段340が、いずれかの各音声認識手段に含まれ、発話権判別手段340およびその音声認識手段が備える各手段112〜115(図1参照)が、プログラムに従って動作するCPUによって実現されていてもよい。
また、第3の実施形態において、各音声認識手段211,212がそれぞれ発話権あり言語モデルおよび発話権なし言語モデルを保持していてもよい。
次に、発話権判別手段340の動作について説明する。図5は、発話権判別手段340の処理経過の例を示すフローチャートである。発話権判別手段340は、初期状態で、何れの話者も発話権を所持していないと定める(ステップA1)。そして、発話権判別手段340は、各話者の音声信号に対して、有音(音声が発せられている状態)か無音であるかを識別し、全ての話者の音声信号が無音である状態から、いずれかの話者の音声信号が有音となった状態に変化したか否かを判定する(ステップA2)。
有音となった音声信号がないとステップA2で判定した場合、ステップA1以降の処理を繰り返す。いずれかの話者の音声信号が無音から有音となったと判定したときに、発話権判別手段340は、その音声信号を発した話者を最初の発話権保持者と判定する(ステップA3)。すなわち、有音の音声信号を発した話者をXとすると、その話者Xが発話権保持者であると判定する。また、発話権判別手段340は、発話権保持者を特定すると、各音声認識手段211,212のうち、発話権保持者に対応する音声認識手段(ここでは第1の音声認識手段211とする。)に、発話権ありを示す発話権情報を入力し、他の音声認識手段212に、発話権なしを示す発話権情報を入力する。
ステップA3の後、発話権判別手段340は、発話権保持者(X)の音声信号が有音から無音に切り替わったか否かを判定する(ステップA4)。有音のままであるならば(ステップA4におけるNo)、ステップA3以降の処理を繰り返す。すなわち、話者Xがそのまま発話権を保持していると判定する。時間が経過し、ある時点で発話権保持者の音声信号が有音から無音に切り替わると(ステップA4におけるYes)、発話権判別手段340は、話者Xの発話権が満了したと見なし、話者Xに対応する音声認識手段211に対して送る発話権情報を切り替え、音声認識手段211に発話権なしを示す発話権情報を送る(ステップA5)。
続いて、発話権判別手段340は、他のいずれかの話者の音声信号のうち、有音となっている音声信号があるか否かを判定する(ステップA7)。ステップA7で、他のどの話者の音声信号も有音と識別されていなければ(ステップA7におけるNo)、ステップA1以降の処理を繰り返す。また、他の話者(ステップA5で発話権満了と見なした話者)の音声信号のうち、有音となっている音声信号があれば(ステップA7におけるYes)、その音声信号に対応する話者(新たなX)を発話権保持者としてステップA3以降の処理を繰り返す。
図6は、複数の話者の発話開始および終了のタイミングの例を示す説明図である。ここでは、二人の話者A,Bが対話に参加しているものとする。図6の横軸は時刻を示し、右側を正方向とする。図6に示すTa1,Tb1等の記号はそれぞれ時刻を示し、T0,Ta1,Tb1,Tb2,Tb3,Ta2,Ta3,Tb4は先の時刻から順に並んでいる。図6中の斜線で示した帯状の部分は、その時間帯で話者が発話していることを示す。図6に示す例では、Ta1〜Ta2に話者Aが何らかの発話を行い、Tb1〜Tb2およびTb3〜Tb4の間に話者Bが何らかの発話を行う状況ことを示している。
発話権判別手段340は、図5に示すフローチャートに従って動作する場合、以下のように動作する。まず、時刻T0から時刻Ta1の区間では、話者A,Bはいずれも発話していないので、初期状態であると判断する。すなわち、どちらの話者も発話権を有していないと判定する。時刻Ta1に話者Aが発話を開始すると、発話権判別手段340は、話者Aが最初の発話権保持者であると判定する。また、時刻T1b〜時刻Tb2にかけて話者Bが何らかの発話を行うが、既に発話権を保持している話者Aの発話が継続しているので、この期間中に話者Bが発話権保持者と判定されることはない。やがて時刻Ta2に話者Aの発話が完了すると、発話権判別手段340は、話者Aの発話権が満了したと見なし、話者Aに対応する音声認識手段に入力する発話権情報の内容を「発話権なし」に切り替える。このとき、既に、時刻Tb3から話者Bが発話を開始しているため、発話権はすぐさま話者Bに移される。すなわち、発話権判別手段340は、話者Bに対応する音声認識手段に入力する発話権情報の内容を「発話権あり」に切り替える。話者Bの発話が完了する時刻Tb4まで話者Bが発話権を保持し続け、その後、再び初期状態に戻り、どちらの話者も発話権を所持しない状態となる。
図6に例示するケースでは、話者Bが時刻Tb1から時刻Tb2の間で発話権を持たないことと、話者Aが時刻Ta2から時刻Tb4の間で発話権を持たないことは明確である。また、図5に示すフローチャートの通りにそのまま処理を実行した場合、時刻Ta2まで、次の話者の存在を判定しないので、時刻Tb3から時刻Ta2までの区間では話者Bが発話権を持たないこととなるが、時刻Tb3から時刻Ta2までの区間で話者Bが発話権を持つと判断するようにしてもよい。
Sacks らの定義を再び引用すると、「一つのターンから次のターンへ移る移行期には空白と重複が起こらないのが普通であるとし、起こったとしてもそれは短いものであり、基本的に一人の参加者が一つのターンを取って話すという原則がある」とあるから、時刻Tb3から時刻Ta2までの区間に話者Aが発話権を持っているとするならば、その区間で話者Bは発話権を持たない。この考えに従う場合、図5に示すアルゴリズムの通りに処理を行えばよい。この場合、話者Bが新たに発話権を持つと判断された時刻(図6に示す時刻Ta2)まで、話者Bは発話権を持たないことになる。このように動作する発話権判別手段340を採用する場合、発話権なし言語モデル23を学習する際には、相槌、確認、発話権要求のいずれかの発話のみを含むような言語モデルとして学習するのがよい。
一方、実際の音声対話では、Sacks らの原理に反するような現象もしばしば観測される。図7は、相槌、確認、発話権要求のいずれにも分類されない発話を含む対話の例を示す説明図である。図7における横軸も、図2と同様に時刻の経過を表し、各話者の発話のタイミングを示している。図7に示す話者Bの発話は、相槌、確認、発話権要求のいずれにも分類されない。図7に例示するように、発話権を持たない話者が、発話権を持つ話者の発話に割り込んで、発話権を奪うような状況がしばしば観測される。図6に示す時刻Tb3から時刻Ta2までの区間は、ちょうどこのようなケースに相当する。この場合、話者Bの時刻Tb3から時刻Ta2までの発話は、発話権を持った者の発話として制限を掛けなければ正しく認識することができにくくなる。すなわち、発話権を持った者の発話として言語モデルを参照しなければ正しく音声認識しづらくなる。
そこで、図5に示すフローチャートにおいて、ステップA4で新たな発話権保持者を確定した場合、発話権判別手段340は、その話者による現在の発話の開始時刻まで遡ってその発話権保持者に発話権を付与してもよい。図6で「Bが発話権を保持(2)」と示した区間は、話者Bの発話開始時刻Tb3から話者Bに発話権があるとした場合において、話者Bが発話権を保持している期間を示している。このように話者Bの発話開始時まで遡って話者Bに発話権があるとし、時刻Tb3〜Ta2では同時に二人に発話権があるとしてもよい。発話開始時刻まで遡って話者に発話権を与える動作は、入力音声に対してオンラインに動作させる場合には適さないが、適当な遅延動作をさせることで実現可能である。
また、さらに、ステップA4において、ある話者が発話権を取得した際、その同じ話者の直前の発話の終了時から発話権取得時までの間に所定の短い時間しか経過していない場合、発話権判別手段340は、その間も、その話者が発話権を保持し続けているものとして扱ってよい。図6を例にして説明する。仮に、時刻Ta2とTb4の間の時刻Ta3から話者Aの発話が再開されたとする。このとき、話者Aの発話終了時から時刻Ta3までの期間が所定の時間以下であるならば、発話権判別手段340は、時刻Tb3(またはTa2)から時刻Tb4までの区間で話者Bに与えた発話権をキャンセルし、話者Aの発話権が時刻Ta1からずっと継続しているを判断してもよい。このように発話権が継続していると判断することで、発話権保持者が息継ぎ等の理由で挿入した僅かなポーズ(無音区間)に発話権が移動されてしまうこと回避できる。
このように、自動的に発話権保持者を判別する方法は、様々に工夫することができる。
また、発話権判別手段340は、各音声の発話権を「あり」、「なし」で二値的に判断するのではなく、話者が発話権を有している確かさを確率的に示す情報を発話権情報として出力してもよい。例えば、図7に例示する「割り込み」に該当すると判定し得る場合であっても、実際には割り込みではなく、単に相槌がやや遅れて発せられただけかもしれない。そこで、図6に示す時刻Tb3からTa2までの区間に話者Bが発話権を持つ確率が50%であり、持たない確率が50%であるとしてもよい。あるいは、発話権を持つことを指示するスコアと持たないことを指示するスコアの両方を出力し、各音声認識手段211,212が発話権保持者を適宜判断してもよい。発話権情報が0/1のような二値で表されず、確率的に表される場合の音声認識手段の動作については、第1の実施形態において既に説明した。
本実施形態の効果について説明する。
本実施形態でも、第1の実施形態や第2の実施形態と同様の効果が得られる。また、本実施の形態においては、発話権は入力音声から自動的に判断されるため、外部に発話権を識別するための機構を設ける必要が無い。
また、第3の実施形態では、音声信号の有音/無音判定と、各話者の音声信号の時間関係のみを用いて発話権を判定するように構成されているため、限定された利用シーンや高度な自然言語処理的操作を伴うことなく、内容に偏りがあると期待される発話(発話権を有さない話者の発話)を識別することができる。
実施形態4.
図8は、本発明の第4の実施形態の構成例を示すブロック図である。第4の実施形態の対話音声認識システムは、複数の発話検出手段630と、複数の音声認識手段610と、発話権判別手段620とを備える。発話検出手段630と音声認識手段610とは一対一に対応し、対応する発話検出手段630と音声認識手段610とが組をなす。また、各発話検出手段630には、それぞれ異なる話者の音声信号が入力される。
各音声認識手段610は、いずれも第1の実施形態で説明した音声認識手段110(図1参照)と同様である。また、発話権判別手段620は、第3の実施形態で説明した発話権判別手段340(図4参照)と同様である。ただし、発話権判別手段620は、有音/無音を判別しなくてよい。
発話検出手段630は、音声を所定のアルゴリズムで分析し、話者が実際に発話している区間を求める。この処理は、一般にVAD(Voice Activity Detection)または発話検出と呼ばれ、さまざまな手法が知られている。発話検出の判断基準には後段の音声認識手段610で用いられるのと同様の特徴量が用いられる場合が多いので、発話検出処理と特徴量抽出処理とを同時に行ってもよい。
第4の実施形態の動作について説明する。
各発話検出手段630は、それぞれのチャネルの音声信号から実際に発話が行われた区間の音声信号またはその特徴量を、対応する音声認識手段610に入力する。また、各発話検出手段630は、その音声信号または特徴量を、発話を検出した時刻の時刻情報とともに発話権判別手段620にも入力する。
発話権判別手段620は、第3の実施形態における発話権判別手段340(図4参照)と同様に、入力された音声信号または特徴量から、各発話が発された際にその発話を行った話者が発話権を有していたかどうかを判別する。ただし、話者が3人以上いる場合の動作については後述する。発話権判別手段620は、チャネルごとに発話権の有無を判別した結果である発話権情報を、後段の音声認識手段610に入力する。
音声認識手段610は、第1の実施形態における音声認識手段110(図1参照)と同様に、入力される発話権情報が示す発話権の有無に従って適切な言語制約を切り替えながら音声認識処理を行い、チャネルごとに認識結果を出力する。すなわち、発話権の有無に従って、発話権あり言語モデルと発話権なし言語モデルを切り替えて音声認識処理を行う。
発話権判別手段620が3チャネル以上の音声から発話権を自動的に判別する場合の動作の例を以下に示す。
図9は、三人の話者A、B、Cが参加している対話の状況の例を示す説明図である。話者Aは、時刻Ta1から時刻Ta2まで発話を行い、話者Bは、時刻Tb1から時刻Tb2まで発話を行い、話者Cは、時刻Tc1から時刻Tc2まで発話を行ったとする。図9に示す横軸の右側が正方向であり、Ta1,Tb1,Tc1,Ta2,Tb2,Tc2の順に時刻が並んでいる。
発話権判別手段620が、第3の実施形態で説明した図5に示すアルゴリズムに従って動作するならば、初期状態の後、最初に発話を開始した話者Aが時刻Ta1で発話権保持者となると判定する(ステップA1〜A3、図5参照)。そして、発話権判別手段620は、時刻Ta2で話者Aの発話権が満了したと判定する(ステップA5、図5参照)。続くステップA7で、有音となっている音声信号があると判定し、さらにステップA3で発話権保持者を判定することになるが、話者Aが発話を終了した時刻Ta2において、既に話者B,Cがいずれも発話を開始している。この場合、発話権判別手段620が、以下に示すように、次の発話権保持者を判定すればよい。
例えば、発話権を有していた話者Aの発話終了時に発話を開始していた他の各話者のうち、話者Aの発話終了時において最も発話継続時間が長い話者を発話権保持者とみなしてもよい。図9に示す例では、話者Aの発話終了時刻Ta2で話者B,Cは既に発話しているが、話者Bは話者Cよりも先に時刻Tb1から発話を開始していることにより、話者Bを発話権保持者と判定してもよい。
また、例えば、発話権判別手段620は、発話権を有していた話者Aの発話終了後に、最も長く発話を継続している話者を発話権保持者とみなしてもよい。この場合、図9に示す例では、話者Aの発話終了時刻Ta2の後、話者Cが話者Bの発話終了後も時刻Tc2まで発話を継続していることにより、話者Cを発話権保持者と判定してもよい。
あるいは、話者B,Cはどちらも同じ程度に発話権を保持している可能性があるとして、話者Bが発話権を有する確率が50%であり、話者Cが発話権を有する確率が50%であると判定してもよい。
また、これらの方法を組み合わせ、発話権を有する確率を各話者毎に変えてもよい。例えば、時刻Tb1〜Ta2の区間が、時刻Tb2〜Tc2の区間よりも10%長いことにより、話者Bが発話権を有する確率を55%とし、話者Cの発話権を45%と判断してもよい。
次に、本実施の形態の効果について説明する。
本実施形態では、3名以上の話者が参加する音声対話であっても、発話権に基づく言語制約(発話権あり言語モデルおよび発話権なし言語モデル)を用いて音声認識精度を向上することができる。
また、本実施形態では、発話検出手段630が発話検出を行ってから発話権判別を行うため、発話権判別手段620が有音/無音を判別する必要が無い。そのため、発話権判別手段620をよりシンプルに実現することができる。音声認識手段610も同様にシンプルにできる上に、発話区間の音声のみをやり取りするため、各手段間の転送データ量を少なくすることができる。加えて、発話検出手段630が特徴量抽出(図1に示す音響尤度計算手段112の機能の一つ)を行うようにすれば、発話検出手段630と音声認識手段610で特徴量抽出処理が重複しないため、必要な計算時間が増えることもない。
以下、本発明の実施例を説明する。図10は、本発明の実施例を示すブロック図である。図10では、対話音声認識システムが、電話での対話の音声認識を行う電話応対音声認識システムである場合を例示している。図10に例示する対話音声認識システム(以下、電話応対音声認識システムと記す。)は、マイクロフォン410と、受話装置420と、発話権判別装置430と、第1の音声認識装置440と、第2の音声認識装置450と、音声認識結果を表示する表示装置460と、送話装置470とを備える。
マイクロフォン410および受話装置420は、電話機のマイクロフォンと受話装置であり、電話応対音声認識システムは、マイクロフォン410に音声を入力する話者(第1話者と記す。)と、電話回線を介して、他の電話機を用いて第1話者と対話を行う他の話者(第2話者と記す。)の音声を対象に音声認識を行う。
発話権判別装置430は、第3の実施形態における発話権判別手段340と同様に動作する。
第1の音声認識装置440および第2の音声認識装置450は、いずれも、第1の実施形態における音声認識手段110(図1参照)と同様の構成であり、音声認識手段110と同様に動作する。ただし、音響尤度計算手段112等の各構成要素については、図10では図示を省略し、模式的に、発話権あり言語モデルと発話権なし言語モデルを図示している。
第1の音声認識装置440は、発話権あり言語モデル441と発話権なし言語モデル442を保持している。発話権あり言語モデル441は、第1話者が発話権を持つ場合に発話する内容に特化した言語モデルであり、発話権なし言語モデル442は、第1話者が発話権を持たない場合に発話する内容に特化した言語モデルである。同様に、第2の音声認識装置450は、第2話者が発話権を持つ場合に発話する内容に特化した発話権あり言語モデル451と、第2話者が発話権を持たない場合に発話する内容に特化した発話権なし言語モデル452とを保持する。すなわち、システム全体としては4種類の言語モデルが用意され、話者と、ある時刻にその話者が発話権を保持した上で発話しているかどうかに応じてこれらを組み合わせながら認識処理を行うことになる。
第1の音声認識装置440は、マイクロフォン410から入力される第1話者の音声を対象に音声認識を行い、第2の音声認識装置450は、電話回線を介して第1話者と対話する第2話者の音声を対象に音声認識を行う。以下、第1の音声認識装置440を、マイク音声用音声認識装置と記し、第2の音声認識装置450を、電話音声用音声認識装置と記す。
マイクロフォン410は、第1話者の音声を受け、第1話者の音声信号に対してA−D変換を行い、第1話者のデジタル音声信号をマイク音声用音声認識装置440に入力する。また、同時に、マイクロフォン410は、第1話者の音声信号を発話権判別装置430にも入力する。さらに、マイクロフォン410は、マイクロフォン410が設けられている電話機の送話装置470にも第1話者の音声信号を入力する。送話装置470は、電話回線を介して、その第1話者の音声信号を第2話者の電話機に送信する。
受話装置420は、電話回線を介して第2話者の音声信号を受信し、第2話者の音声信号をデジタル音声信号として電話音声用音声認識装置450に入力する。また、同時に、受話装置420は、第2話者の音声信号を発話権判別装置430にも入力する。
受話装置420は、電話回線(アナログ交換網)からアナログ信号が入力され、デジタル信号としてキャプチャするハードウェアであってもよい。また、受話装置420は、VoIP(Voice over IP )等が適用されたコンピュータネットワーク上を経由して到達したデジタル信号を適切にデコードしてデジタル信号に展開させるためのプログラムに従って動作してもよい。
また、マイクロフォン410は、アナログ電話機の受話器であってもよいが、少なくとも、第1話者の音声信号と、受話装置420によって得られる第2話者の音声信号とを分離させる構成でなければならない。
発話権判別装置430は、所定のアルゴリズムを用いて、入力された二つの音声信号を分析し、一定時間(例えば100ミリ秒)単位ごとに、第1話者と第2話者のどちらの話者が発話権を保持している可能性が高いかを確率値として推定する。発話権判別装置430は、第1話者が発話権を有している確率を示す発話権情報をマイク音声用音声認識装置440に入力し、第2話者が発話権を有している確率を示す発話権情報を電話音声用音声認識装置450に入力する。
マイク音声用音声認識装置440には、マイクロフォン410から第1話者の音声信号が入力され、また、その時刻における音声信号に関する発話権情報が発話権判別装置430から入力される。マイク音声用音声認識装置440は、音声認識処理で言語尤度を求める際に、発話権あり言語モデル441と発話権なし言語モデル442の両方から言語尤度を求め、発話権判別装置430から入力された発話権の有無の確率を重みとして、二つの言語尤度の重み付き和をとり、これを最終的な言語尤度として用いて、音声認識結果を導出する。
同様に、電話音声用音声認識装置450には、受話装置420から第2話者の音声信号が入力され、また、その時刻における音声信号に関する発話権情報が発話権判別装置430から入力される。そして、電話音声用音声認識装置450は、マイク音声用音声認識装置440と同様に、発話権あり言語モデル451と発話権なし言語モデル452の両方から言語尤度を求め、発話権判別装置430から入力された発話権の有無の確率を重みとして、二つの言語尤度の重み付き和をとり、これを最終的な言語尤度として用いて、音声認識結果を導出する。
マイク音声用音声認識装置440および電話音声用音声認識装置450は、音声認識結果をテキストに整形し、表示装置460に表示させる。
次に、本発明の概要について説明する。図11は、本発明の概要を示すブロック図である。本発明の対話音声認識システムは、複数の話者による対話での各話者の音声信号と、音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報とが入力され、音声信号に対する音声認識を行う音声認識手段110を備える。
音声認識手段110は、音響尤度算出手段701(例えば、音響尤度計算手段112)と、言語尤度算出手段702(例えば、発話権あり言語尤度計算手段113および発話権なし言語尤度計算手段114)と、最尤候補探索手段703(たとえば、最尤仮説探索手段115)とを少なくとも備える。音響尤度算出手段701は、ある音素列から入力された音声信号が生起する尤度を与える。言語尤度算出手段702は、ある単語列が生起する尤度を与える。最尤候補探索手段703は、音響尤度算出手段701および言語尤度算出手段702が与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える。また、言語尤度算出手段702は、音声認識手段110に入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与える。
このような構成により、対話における普遍的な概念である発話権を利用し、話者が発話権を有する場合の制約と話者が発話権を有さない場合の制約とを用いて音声認識を行うので、様々な分野の対話に適用することができる。
また、上記の実施形態には、言語尤度算出手段702が、音声信号を発した話者が発話権を有する場合における言語尤度を示す第1の言語モデル(例えば、発話権あり言語モデル)から尤度を特定する第1の言語尤度特定手段(例えば、発話権あり言語尤度計算手段113)と、音声信号を発した話者が発話権を有さない場合における言語尤度を示す第2の言語モデル(例えば、発話権なし言語モデル)から尤度を特定する第2の言語尤度特定手段(例えば、発話権なし言語尤度計算手段114)とを有し、最尤候補探索手段703が、発話権情報に応じて、第1の言語尤度特定手段が特定した言語尤度および第2の言語尤度特定手段が特定した言語尤度の少なくともいずれか一方を用いて、音声認識結果の候補を求める構成が開示されている。
また、上記の実施形態には、最尤候補探索手段703が、音声信号から変換される音素列に対して第1の言語尤度特定手段が特定した言語尤度と、第2の言語尤度特定手段が特定した言語尤度とを、発話権情報に応じて補正して併合し、併合後の言語尤度を用いて、音声認識結果の候補を求める構成が開示されている。
また、上記の実施形態には、最尤候補探索手段703が、音声信号から変換される音素列に対して第1の言語尤度特定手段が特定した言語尤度と、第2の言語尤度特定手段が特定した言語尤度とを、発話権情報に応じて線形結合し、線形結合後の言語尤度を用いて、音声信号から音声認識結果の候補を求める構成が開示されている。
また、上記の実施形態には、最尤候補探索手段703が、発話権を持たない話者の音声信号に対する音声認識を行う際に、第2の言語尤度特定手段が特定した言語尤度のうち、直近の時刻で発話権を有するとされた話者の音声に対する音声認識結果に該当する文字列の言語尤度を補正する構成が開示されている。そのような構成によれば、確認の発話は発話権が無い場合に成され、確認の際は直近の発話権保持者の発話内容の一部が繰り返されるという性質を利用して、音声認識の精度を向上させることができる。
また、第1の言語モデルおよび第2の言語モデルは、例えば、音素列に該当する単語、単語の集合、あるいは、単語または単語の集合の連鎖の言語尤度を定める言語モデルである。
また、上記の実施形態には、各話者の音声信号の開始時刻および終了時刻に基づいて発話権情報を生成する発話権情報生成手段(例えば、発話権判別手段340)を備える構成が開示されている。そのような構成によれば、対話音声認識システムの外部に、発話権を識別するための機構を設けなくて済む。
また、上記の実施形態には、発話権情報生成手段が、全ての話者の音声信号が無音である状態からいずれかの話者の音声信号が有音となった時刻から、その話者の音声信号が無音となる時刻までの間に、その話者が発話権を有していることを示す発話権情報を生成するとともに、発話権情報を有しているとされた話者の音声信号が無音となる時刻に別の話者の音声信号が有音となっているならば、その時刻からその別の話者の音声信号が無音となる時刻までの間に、その別の話者が発話権を有していることを示す発話権情報を生成する構成が開示されている。
また、上記の実施形態には、発話権情報生成手段が、全ての話者の音声信号が無音である状態からいずれかの話者の音声信号が有音となった時刻から、その話者の音声信号が無音となる時刻までの間に、その話者が発話権を有していることを示す発話権情報を生成するとともに、発話権情報を有しているとされた話者の音声信号が無音となる時刻に別の話者の音声信号が有音となっているならば、その話者の音声信号が有音となった時刻からその別の話者の音声信号が無音となる時刻までの間に、その別の話者が発話権を有していることを示す発話権情報を生成する構成が開示されている。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2008年7月28日に出願された日本出願特願2008−193755を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、複数の話者が参加する会議を音声認識する議事録作成システムに適用できる。また、コンタクトセンターや電話相談窓口で用いられる、電話応対音声を音声認識する電話応対音声認識システムおよび音声認識内容に基づく電話応対支援システムにも適用可能である。さらに、講演やプレゼンテーションにおける質疑応答や、医者と患者の問診音声などをテキスト化し、ナレッジベースや参考資料を提示する際に用いるプレゼンテーション補助システムなどにも適用可能である。発話権のない話者の反応が重要なケース(例えばコンタクトセンターにおける顧客の反応や問診における患者の反応などを分析するようなシステム)に適用する音声認識システムに、特に有用である。
22,441,451 発話権あり言語モデル
23,442,452 発話権なし言語モデル
110,211,212,610 音声認識手段
112,710 音響尤度計算手段
113 発話権あり言語尤度計算手段
114 発話権なし言語尤度計算手段
115 最尤仮説探索手段
116,127 発話権あり言語モデル記憶手段
117,128 発話権なし言語モデル記憶手段
340,620,430 発話権判別手段
410 マイクロフォン
420 受話装置
440 マイク音声用音声認識装置
450 電話音声用音声認識装置
460 表示装置
470 送話装置
630 発話検出手段
702 言語尤度算出手段
703 最尤候補探索手段
本発明は、対話音声認識システム、対話音声認識方法および対話音声認識用プログラムに関し、特に複数の話者が同時に発話し得る対話での音声認識精度を向上させる機能を有する対話音声認識システム、対話音声認識方法および対話音声認識用プログラムに関する。
そこで、本発明は、人間同士の対話音声を音声認識する際に、対話の普遍的な構造を制約として利用することで、適用範囲をより広げることができる対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを提供することを目的とする。また、本発明は、対話音声において現れる発話のオーバーラップを適切に用いることによって、より精度を高めることができる対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを提供することを目的とする。
また、本発明による対話音声認識用プログラムは、コンピュータに、複数の話者による対話での各話者の音声信号と、音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報とが入力されると、音声信号に対する音声認識を行う音声認識処理を実行させ、音声認識処理で、ある音素列から入力された音声信号が生起する尤度を与える音響尤度算出処理、ある単語列が生起する尤度を与える言語尤度算出処理、および、音響尤度算出処理および言語尤度算出処理で与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える最尤候補探索処理を少なくとも実行させ、言語尤度算出処理では、入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与えさせることを特徴とする。

Claims (13)

  1. 複数の話者による対話での各話者の音声信号と、音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報とが入力され、音声信号に対する音声認識を行う音声認識手段を備え、
    前記音声認識手段は、
    ある音素列から入力された音声信号が生起する尤度を与える音響尤度算出手段と、
    ある単語列が生起する尤度を与える言語尤度算出手段と、
    前記音響尤度算出手段および前記言語尤度算出手段が与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える最尤候補探索手段とを少なくとも備え、
    前記言語尤度算出手段は、
    前記音声認識手段に入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与える
    ことを特徴とする対話音声認識システム。
  2. 前記言語尤度算出手段は、
    音声信号を発した話者が発話権を有する場合における言語尤度を示す第1の言語モデルから尤度を特定する第1の言語尤度特定手段と、
    音声信号を発した話者が発話権を有さない場合における言語尤度を示す第2の言語モデルから尤度を特定する第2の言語尤度特定手段とを有し、
    前記最尤候補探索手段は、
    発話権情報に応じて、前記第1の言語尤度特定手段が特定した言語尤度および前記第2の言語尤度特定手段が特定した言語尤度の少なくともいずれか一方を用いて、音声認識結果の候補を求める
    請求項1に記載の対話音声認識システム。
  3. 前記最尤候補探索手段は、
    前記第1の言語尤度特定手段が特定した言語尤度と、前記第2の言語尤度特定手段が特定した言語尤度とを、発話権情報に応じて補正して併合し、併合後の言語尤度を用いて、音声認識結果の候補を求める
    請求項2に記載の対話音声認識システム。
  4. 前記最尤候補探索手段は、
    前記第1の言語尤度特定手段が特定した言語尤度と、前記第2の言語尤度特定手段が特定した言語尤度とを、発話権情報に応じて線形結合し、線形結合後の言語尤度を用いて、音声信号から音声認識結果の候補を求める
    請求項2または請求項3に記載の対話音声認識システム。
  5. 前記最尤候補探索手段は、
    発話権を持たない話者の音声信号に対する音声認識を行う際に、前記第2の言語尤度特定手段が特定した言語尤度のうち、直近の時刻で発話権を有するとされた話者の音声に対する音声認識結果に該当する文字列の言語尤度を補正する
    請求項2から請求項4のうちのいずれか1項に記載の対話音声認識システム。
  6. 前記第1の言語モデルおよび前記第2の言語モデルは、音素列に該当する単語、単語の集合、あるいは、単語または単語の集合の連鎖の言語尤度を定める
    請求項2から請求項5のうちのいずれか1項に記載の対話音声認識システム。
  7. 各話者の音声信号の開始時刻および終了時刻に基づいて発話権情報を生成する発話権情報生成手段を備える
    請求項1から請求項6のうちのいずれか1項に記載の対話音声認識システム。
  8. 前記発話権情報生成手段は、
    全ての話者の音声信号が無音である状態からいずれかの話者の音声信号が有音となった時刻から、前記話者の音声信号が無音となる時刻までの間に、前記話者が発話権を有していることを示す発話権情報を生成するとともに、発話権情報を有しているとされた話者の音声信号が無音となる時刻に別の話者の音声信号が有音となっているならば、前記時刻から前記別の話者の音声信号が無音となる時刻までの間に、前記別の話者が発話権を有していることを示す発話権情報を生成する
    請求項7に記載の対話音声認識システム。
  9. 前記発話権情報生成手段は、
    全ての話者の音声信号が無音である状態からいずれかの話者の音声信号が有音となった時刻から、前記話者の音声信号が無音となる時刻までの間に、前記話者が発話権を有していることを示す発話権情報を生成するとともに、発話権情報を有しているとされた話者の音声信号が無音となる時刻に別の話者の音声信号が有音となっているならば、前記話者の音声信号が有音となった時刻から前記別の話者の音声信号が無音となる時刻までの間に、前記別の話者が発話権を有していることを示す発話権情報を生成する
    請求項7に記載の対話音声認識システム。
  10. 複数の話者による対話での各話者の音声信号と、音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報とが入力されると、音声信号に対する音声認識を行い、
    前記音声認識の際には、
    ある音素列から入力された音声信号が生起する尤度を与える音響尤度算出を行い、
    ある単語列が生起する尤度を与える言語尤度算出を行い、
    前記音響尤度算出および前記言語尤度算出で与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える最尤候補探索を行い、
    前記言語尤度算出の際には、入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与える
    ことを特徴とする対話音声認識方法。
  11. 前記言語尤度算出の際には、
    音声信号を発した話者が発話権を有する場合における言語尤度を示す第1の言語モデルから尤度を特定する第1の言語尤度特定を行い、
    音声信号を発した話者が発話権を有さない場合における言語尤度を示す第2の言語モデルから尤度を特定する第2の言語尤度特定を行い、
    前記最尤候補探索の際には、発話権情報に応じて、前記第1の言語尤度特定で特定した言語尤度および前記第2の言語尤度特定で特定した言語尤度の少なくともいずれか一方を用いて、音声認識結果の候補を求める
    請求項10に記載の対話音声認識方法。
  12. コンピュータに、
    複数の話者による対話での各話者の音声信号と、音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報とが入力されると、音声信号に対する音声認識を行う音声認識処理を実行させ、
    音声認識処理で、
    ある音素列から入力された音声信号が生起する尤度を与える音響尤度算出処理、
    ある単語列が生起する尤度を与える言語尤度算出処理、および、
    前記音響尤度算出処理および前記言語尤度算出処理で与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える最尤候補探索処理を少なくとも実行させ、
    前記言語尤度算出処理では、入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与えさせる
    ことを特徴とする対話音声認識用プログラムを格納する記憶媒体。
  13. コンピュータに、
    前記言語尤度算出処理で、
    音声信号を発した話者が発話権を有する場合における言語尤度を示す第1の言語モデルから尤度を特定する第1の言語尤度特定処理、および、
    音声信号を発した話者が発話権を有さない場合における言語尤度を示す第2の言語モデルから尤度を特定する第2の言語尤度特定処理を実行させ、
    前記最尤候補探索処理で、
    発話権情報に応じて、前記第1の言語尤度特定ステップで特定した言語尤度および前記第2の言語尤度特定ステップで特定した言語尤度の少なくともいずれか一方を用いて、音声認識結果の候補を求めさせる
    請求項12に記載の対話音声認識用プログラムを格納する記憶媒体。
JP2010522589A 2008-07-28 2009-05-12 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム Active JP5381988B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010522589A JP5381988B2 (ja) 2008-07-28 2009-05-12 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008193755 2008-07-28
JP2008193755 2008-07-28
JP2010522589A JP5381988B2 (ja) 2008-07-28 2009-05-12 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム
PCT/JP2009/002062 WO2010013371A1 (ja) 2008-07-28 2009-05-12 対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体

Publications (2)

Publication Number Publication Date
JPWO2010013371A1 true JPWO2010013371A1 (ja) 2012-01-05
JP5381988B2 JP5381988B2 (ja) 2014-01-08

Family

ID=41610087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010522589A Active JP5381988B2 (ja) 2008-07-28 2009-05-12 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム

Country Status (3)

Country Link
US (1) US8818801B2 (ja)
JP (1) JP5381988B2 (ja)
WO (1) WO2010013371A1 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8503635B2 (en) 2009-09-10 2013-08-06 Felix Calls, Llc Media optimization using transcription analysis
JP5786717B2 (ja) * 2010-01-06 2015-09-30 日本電気株式会社 データ処理装置、そのコンピュータプログラムおよびデータ処理方法
US20110218822A1 (en) * 2010-03-04 2011-09-08 Koninklijke Philips Electronics N.V. Remote patient management system adapted for generating a teleconsultation report
US9015043B2 (en) * 2010-10-01 2015-04-21 Google Inc. Choosing recognized text from a background environment
JP5708155B2 (ja) * 2011-03-31 2015-04-30 富士通株式会社 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム
JP5877418B2 (ja) * 2011-12-09 2016-03-08 株式会社国際電気通信基礎技術研究所 シナリオ生成装置およびシナリオ生成方法
KR101961139B1 (ko) * 2012-06-28 2019-03-25 엘지전자 주식회사 이동 단말기 및 그것의 음성 인식 방법
KR101235694B1 (ko) 2012-08-14 2013-03-05 다이알로이드(주) 음성인식 시스템 및 그 음성인식 방법
JP6066471B2 (ja) * 2012-10-12 2017-01-25 本田技研工業株式会社 対話システム及び対話システム向け発話の判別方法
US9460715B2 (en) * 2013-03-04 2016-10-04 Amazon Technologies, Inc. Identification using audio signatures and additional characteristics
US9558743B2 (en) * 2013-03-15 2017-01-31 Google Inc. Integration of semantic context information
JP2014191212A (ja) * 2013-03-27 2014-10-06 Seiko Epson Corp 音声処理装置、集積回路装置、音声処理システム及び音声処理装置の制御方法
US10049656B1 (en) 2013-09-20 2018-08-14 Amazon Technologies, Inc. Generation of predictive natural language processing models
US10199035B2 (en) * 2013-11-22 2019-02-05 Nuance Communications, Inc. Multi-channel speech recognition
KR101559364B1 (ko) * 2014-04-17 2015-10-12 한국과학기술원 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치, 이를 이용하는 인터랙션 모니터링 방법, 이를 포함하는 인터랙션 모니터링 시스템 및 이에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션
KR20160089152A (ko) * 2015-01-19 2016-07-27 주식회사 엔씨소프트 화행 분석을 통한 스티커 추천 방법 및 시스템
KR101583181B1 (ko) * 2015-01-19 2016-01-06 주식회사 엔씨소프트 응답 스티커 추천방법 및 컴퓨터 프로그램
JP6588874B2 (ja) * 2016-08-01 2019-10-09 日本電信電話株式会社 単語予測装置、プログラム
JP6677614B2 (ja) 2016-09-16 2020-04-08 株式会社東芝 会議支援システム、会議支援方法及びプログラム
US11597519B2 (en) 2017-10-17 2023-03-07 The Boeing Company Artificially intelligent flight crew systems and methods
JP7035476B2 (ja) * 2017-11-20 2022-03-15 富士通株式会社 音声処理プログラム、音声処理装置、及び音声処理方法
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
CN109273000B (zh) * 2018-10-11 2023-05-12 河南工学院 一种语音识别方法
US11955120B1 (en) * 2019-01-31 2024-04-09 Alan AI, Inc. Systems and methods for integrating voice controls into applications
CN112820294A (zh) * 2021-01-06 2021-05-18 镁佳(北京)科技有限公司 语音识别方法、装置、存储介质及电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2871420B2 (ja) 1993-10-04 1999-03-17 株式会社エイ・ティ・アール音声翻訳通信研究所 音声対話システム
JP2003228393A (ja) * 2002-01-31 2003-08-15 Nippon Telegr & Teleph Corp <Ntt> 音声対話装置及び方法、音声対話プログラム並びにその記録媒体
US20040117188A1 (en) * 2002-07-03 2004-06-17 Daniel Kiecza Speech based personal information manager
US20040249637A1 (en) * 2003-06-04 2004-12-09 Aurilab, Llc Detecting repeated phrases and inference of dialogue models
JP4558308B2 (ja) * 2003-12-03 2010-10-06 ニュアンス コミュニケーションズ,インコーポレイテッド 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
US7542971B2 (en) * 2004-02-02 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for collaborative note-taking
US20090271195A1 (en) 2006-07-07 2009-10-29 Nec Corporation Speech recognition apparatus, speech recognition method, and speech recognition program

Also Published As

Publication number Publication date
WO2010013371A1 (ja) 2010-02-04
US8818801B2 (en) 2014-08-26
JP5381988B2 (ja) 2014-01-08
US20110131042A1 (en) 2011-06-02

Similar Documents

Publication Publication Date Title
JP5381988B2 (ja) 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム
US11646027B2 (en) Multi-layer keyword detection
US11776540B2 (en) Voice control of remote device
US10600414B1 (en) Voice control of remote device
US10593328B1 (en) Voice control of remote device
US11580991B2 (en) Speaker based anaphora resolution
US10186265B1 (en) Multi-layer keyword detection to avoid detection of keywords in output audio
JP6772198B2 (ja) 言語モデルスピーチエンドポインティング
EP3433855B1 (en) Speaker verification method and system
US11061644B2 (en) Maintaining context for voice processes
US10074369B2 (en) Voice-based communications
US9972318B1 (en) Interpreting voice commands
JP4838351B2 (ja) キーワード抽出装置
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JP2004198831A (ja) 音声認識装置および方法、プログラム、並びに記録媒体
Chang et al. Turn-taking prediction for natural conversational speech
JP2007072331A (ja) 音声対話方法および音声対話システム
JP6070809B1 (ja) 自然言語処理装置及び自然言語処理方法
KR20180127020A (ko) 자연어 대화체 음성 인식 방법 및 장치
JP2009025579A (ja) 音声認識装置および音声認識方法
JP2011053312A (ja) 適応化音響モデル生成装置及びプログラム
US11735178B1 (en) Speech-processing system
KR100622019B1 (ko) 음성 인터페이스 시스템 및 방법
US10854196B1 (en) Functional prerequisites and acknowledgments
Cooke et al. Gaze-contingent automatic speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130916

R150 Certificate of patent or registration of utility model

Ref document number: 5381988

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150