JPWO2011121978A1

JPWO2011121978A1 - 音声認識システム、装置、方法、およびプログラム

Info

Publication number: JPWO2011121978A1
Application number: JP2012508079A
Authority: JP
Inventors: 祐北出
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2010-03-29
Filing date: 2011-03-28
Publication date: 2013-07-04
Also published as: WO2011121978A1

Abstract

音声認識装置（１００）は、話者の発話音声を異なる収録条件で入力した複数の音声データをそれぞれ音声認識する音声認識部（１０２）と、音声認識部（１０２）で音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する認識結果選択部（１０４）と、を備える。

Description

本発明は、音声認識システム、装置、方法、およびプログラムに関し、特に、複数の音声データを利用した音声認識システム、装置、方法、およびプログラムに関する。

複数マイク使用による認識結果選択機能付き音声認識装置の一例が特許文献１（特開平１０−２３２６９１号公報）に記載されている。特許文献１（特開平１０−２３２６９１号公報）の音声認識装置は、話者の音声発生源である口に相対的に固定されない位置の話者の体に装着されたマイクロフォンと、マイクロフォンから入力された音声信号の認識および認識結果の出力を行う認識部と、認識部から出力された認識結果の比較を行い、最も確度の高い認識結果を選択・出力する総合処理部とから構成されている。この構成により、話者の姿勢が変化しても音声入力を行うことができるようになっている。また、認識結果の確度を示す値として、話者の口とマイクとの距離値を、確度を示す値として用いており、認識結果の確度から認識結果を選択している。

特開平１０−２３２６９１号公報

近年、会議や講演会などにおける話者の音声を音声認識して自動的に記録するシステムのニーズが高まっている。ところが、会議や講演会などは、様々な会場で、様々な設備および環境下で行われる。また、音響設備は会場既存のものを使用することも多く、音響機器、たとえば、マイクロフォン、アンプ、ミキサーは多種多様であり、それらの組み合わせも無数である。そして、たとえば、講演会場などで、話者が入れ替わった場合に、一般的には、音響設備等の収録条件を話者毎に変更しない。そのため、設定に対して、話者の声量が大きすぎると誤りを多く含む認識結果が出力されてしまうといった問題点があった。逆に、小さすぎると音声区間を検知できなかったりして、音声の認識精度が低下してしまうといった問題点があった。

本発明の目的は、上述した課題である音声の認識精度の低下を解決する音声認識システム、装置、方法、およびプログラムを提供することにある。

本発明の音声認識装置は、
話者の発話音声を異なる収録条件で入力した複数の音声データをそれぞれ音声認識する音声認識手段と、
前記音声認識手段で音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する認識結果選択手段と、を備える。

本発明の音声認識システムは、
異なる収録条件でそれぞれ音声を入力する複数の音声入力手段と、
前記音声入力手段から入力した複数の音声データをそれぞれ音声認識する音声認識手段と、
前記音声認識手段で音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する認識結果選択手段と、を備える。

本発明の音声認識装置のデータ処理方法は、
音声データを音声認識する音声認識装置のデータ処理方法であって、
前記音声認識装置が、
異なる収録条件で入力した複数の音声データをそれぞれ音声認識し、
音声認識で得られた複数の音声認識結果を比較して、最適なものを選択する。

本発明のコンピュータプログラムは、
音声データを音声認識する音声認識装置を実現するコンピュータプログラムであって、
異なる収録条件で入力した複数の音声データをそれぞれ音声認識する手順と、
音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する手順と、をコンピュータに実行させるためのものである。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。

また、本発明のデータ処理方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明のデータ処理方法およびコンピュータプログラムを実施するときには、その複数の手順の順番は内容的に支障しない範囲で変更することができる。

さらに、本発明のデータ処理方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。

本発明によれば、音声の認識精度を向上する音声認識システム、装置、方法、およびプログラムが提供される。

上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

本発明の実施の形態に係る音声認識システムの構成を示す機能ブロック図である。本発明の実施の形態に係る音声認識システムの構成の一例を示す機能ブロック図である。本発明の実施の形態に係る音声認識システムの動作の一例を示すフローチャートである。本発明の実施の形態に係る音声認識システムの構成の一例を示す機能ブロック図である。本発明の実施の形態に係る音声認識システムの条件記憶部の構造の一例を示す図である。本発明の実施の形態に係る音声認識システムの動作の一例を示すフローチャートである。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

（第１の実施の形態）
図１は、本発明の実施の形態に係る音声認識システムの構成を示す機能ブロック図である。
同図に示すように、本実施形態の音声認識システムにおいて、音声認識装置１００は、話者の発話音声を異なる収録条件で入力した複数の音声データｄ１、ｄ２、．．．、ｄｎ（ここで、ｎは自然数）をそれぞれ音声認識する音声認識部１０２と、音声認識部１０２で音声認識して得られた複数の音声認識結果ｔ１、ｔ２、．．．、ｔｎを比較して、最適なものを選択する認識結果選択部１０４と、を備える。

本実施形態において、音声認識装置１００は、たとえば、図示しないＣＰＵ（Central Processing Unit）やメモリ、ハードディスク、および通信装置を備え、キーボードやマウス等の入力装置やディスプレイやプリンタ等の出力装置と接続されるサーバコンピュータやパーソナルコンピュータ、またはそれらに相当する装置により実現することができる。そして、ＣＰＵが、ハードディスクに記憶されるプログラムをメモリに読み出して実行することにより、上記各ユニットの各機能を実現することができる。

なお、以下の各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
また、音声認識装置１００の各構成要素は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下に説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。

本実施形態の音声認識システムは、会議や講演会などにおける話者の音声を音声認識して自動的に記録するものである。会議や講演会などは、様々な会場で、様々な設備および環境下で行われる。音響設備は会場既存のものを使用することが多い。そのため、音響機器、たとえば、マイクロフォン、アンプ、ミキサーは多種多様であり、それらの組み合わせも無数である。

また、たとえば、講演会場などで、話者が入れ替わった場合に、一般的には、音響設備等の収録条件を話者毎に変更しない。そのため、設定に対して、話者の声量が大きすぎると誤りを多く含む認識結果が出力されてしまうといった問題点があった。逆に、小さすぎると音声区間を検知できなかったりするといった問題点があった。

また、会場や話者の状況によって、たとえば、一時的な騒音の発生や、話者が入れ替わったりした場合等に、音声認識精度が安定しないという問題点があった。あるいは、スタンドマイクやバウンダリマイクなどの固定的に設置されているマイクロフォンを使用する場合に、途中で話者が移動して発話をされると、マイクロフォンとの距離が離れてしまう。そのため、話者の声をひろうことが困難になってしまうといった問題点があった。

話者の移動の問題に対しては、話者の胸元にピンマイクを付けることで解決する構成も考えられる。しかし、衣類や体とマイクが接触して雑音が入ったりすることも考えられる。すなわち、例えば通常の発話では最適な入力デバイスがスタンドマイクであり、話者が移動したときにはピンマイクに変わるといった状況が考えられ、最適なマイクロフォンは動的に変わりうる。
このように、途中で状況が変化した場合に、音声認識精度が安定しないという問題点があった。

本発明の音声認識システムは、このような問題を解決するために、複数の異なる収録条件で入力された音声データから得られた複数の認識結果を比較して、最適なものを選択して認識結果として出力するものである。たとえば、複数の種類のマイクを準備し、また、同じ種類のマイクであれば、入力レベルなどの設定をそれぞれ異なるように予め設定して準備する。あるいは、既存の設備を用いる場合には、元々複数のマイクが異なる設定になっていれば、そのまま適用することもできる。

または、設置場所は、話者の移動を考慮して、予め話者が移動予定の場所、たとえば、講演会の場合、講演者が話をする壇上以外にホワイトボード前等にも設置するのが好ましい。また、会場のリスナーの質問用にハンドマイクなどを準備してもよい。また、複数のマイクを同じ収録条件、たとえば、同じ種類のマイクを同じ入力レベルに設定して準備した場合であっても、途中で、上述したようにマイクの故障や騒音の発生など状況が変化することがある。このような状況の変化に応じて、結果としてマイク毎の収録条件が異なった場合にも、本発明の音声認識システムは適用できる。

本実施形態において、音声データの入力装置は、会場既存のものを用いてもよいし、音声認識システムとして、設けられた入力装置を用いてもよい。すなわち、本発明の音声認識システムによれば、どのような種類の音声入力装置を、どのように組み合わせて準備するかに依存せずに、音声認識の精度を向上させることができる。

収録条件は、マイクを用いて話者の音声を収録するときの各種条件であり、使用前に予め決まっているものと、使用中に状況に応じて変化するものとの２種類ある。前者の例として、マイクの種類、設置場所、入力レベル、感度、補正処理方法、空調などの定常的な雑音など、後者の例として、話者（声量、性別等）、音源や話者とマイクの距離、周囲の騒音レベル、マイクの入力レベルや感度（故障などにより変化したとき）などを含むことができる。

具体的には、図２に示すように、本実施形態の音声認識システムにおいて、音声認識装置１１０は、音声区間調整部１１２と、音声認識部１０２と、認識結果選択統合部１１４と、を備える。以後、本実施形態では、音声認識装置１１０を例に説明する。なお、音声認識装置１１０は、音声認識装置１００とは、音声区間調整部１１２が各音声データの発話区間を検出する点、および認識結果選択統合部１１４が発話区間毎に選択した認識結果を統合して出力する点が異なる。

音声区間調整部１１２は、複数の一連の音声データｄ１、ｄ２、・・・、ｄｎの入力を受け付け、複数の一連の音声データｄ１、ｄ２、・・・、ｄｎについて、それぞれ音声データに対する発話区間を検出する。そして、音声区間調整部１１２は、複数の一連の音声データｄ１、ｄ２、・・・、ｄｎ間で、同じ発話を含むように発話区間を調整する。

ここでいう、「発話区間」とは、入力される一連の音声データの中から、実際に話者が発話した音声データを含む「音声区間調整部１１２が検出した区間」、もしくは、「自動検出された区間」を意味する。そして、後段の音声認識部では、この発話区間を１つの処理単位として音声認識処理が実行される。すなわち、音声区間調整部１１２は、音声認識処理を行う対象の音声データのひと区切りずつが、複数の音声データ間で同じ区間（始点の時刻と終点の時刻がそれぞれ同じ区間を指す。以後、始点の時刻と終点の時刻を「始終端時刻」と呼ぶ。）になるように、調整を行う。

たとえば、音声区間調整部１１２により、第１の一連の音声データｄ１から発話区間として、ＤＳ１１、ＤＳ１２、・・・、ＤＳ１ａ（ここで、ａは自然数）が検出され、第２の一連の音声データｄ２から発話区間として、ＤＳ２１、ＤＳ２２、・・・、ＤＳ２ｂ（ここで、ｂは自然数）が検出され、第ｎの一連の音声データｄｎから発話区間として、ＤＳｎ１、ＤＳｎ２、・・・、ＤＳｎｃ（ここで、ｃは自然数）が検出されたとする。なお、発話区間は図示していない。

そこで、音声区間調整部１１２は、第１の一連の音声データｄ１の第１の発話区間ＤＳ１１、第２の一連の音声データｄ２の第１の発話区間ＤＳ２１、および、第ｎの一連の音声データｄｎの第１の発話区間ＤＳｎ１に、それぞれ含まれる発話が、同じになるように、各発話区間を調整する。同様に、第１の一連の音声データｄ１の第２の発話区間ＤＳ１２、第２の一連の音声データｄ２の第２の発話区間ＤＳ２２、および、第ｎの一連の音声データｄｎの第２の発話区間ＤＳｎ２に、それぞれ含まれる発話が、同じになるように、各発話区間を調整し、認識対象区間を決定する。以後、同様に各発話区間を調整する。

具体的には、たとえば、第１の音声データｄ１、第２の音声データｄ２、第ｎの音声データｄｎの第１の発話区間のうち、第２の音声データｄ２の第１の発話区間ＤＳ２１が、他の音声データの第１の発話区間に比べて、検出された区間が短かったような場合、他の音声データの第１の発話区間に合わせて、区間を長くするように調整する。つまり、収録条件が異なるために、ある音声データの発話区間が他の音声データの発話区間に比べて短く検出され、発話区間にずれが生じた場合には、複数の音声データ間で同期を取り、発話区間の始終端時刻を調整する。

なお、複数の発話区間が他の音声では１つの発話区間となる場合がある。例えば、第１の一連の音声データｄ１の第１の発話区間ＤＳ１１が１秒目から４秒目までで、第２の一連の音声データｄ２の第１の発話区間ＤＳ２１が１秒目から２秒目まで、第２の一連の音声データｄ２の第２の発話区間ＤＳ２２が２秒目から４秒目までであった場合について説明する。この場合には、第１の一連の音声データｄ１の第１の発話区間ＤＳ１１と、第２の一連の音声データｄ２の第１の発話区間ＤＳ２１および第２の発話区間ＤＳ２２を合わせた区間が同じ発話区間となるように調整し、調整後の認識対象区間は１秒目から４秒目までとなる。

音声認識部１０２は、音声区間調整部１１２により同期が取られた複数の一連の音声データｄ１、ｄ２、・・・、ｄｎの同一の認識対象区間（第１の認識対象区間ＤＳ′１１、ＤＳ′２１、ＤＳ′ｎ１や、第ｍの認識対象区間ＤＳ′１ｍ、ＤＳ２′ｍ、ＤＳ′ｎｍ等（ここで、ｍは自然数））毎に、それぞれ音声認識処理を行い、同一の認識対象区間に対応する複数の音声認識結果をそれぞれ出力する。なお、音声認識処理は発話区間単位で行い、認識処理後に認識結果を前記区間調整された認識対象区間に揃えてもよい。

認識結果選択統合部１１４は、音声認識部１０２から出力された、複数の一連の音声データｄ１、ｄ２、・・・、ｄｎの同一の認識対象区間（第１の認識対象区間ＤＳ′１１、ＤＳ′２１、ＤＳ′ｎ１や、第ｍの認識対象区間ＤＳ′１ｍ、ＤＳ２′ｍ、ＤＳ′ｎｍ等）にそれぞれ対応する複数の音声認識結果ｔ１、ｔ２、・・・、ｔｎ毎に比較を行い、認識対象区間毎に最適なものを選択する。そして、認識結果選択統合部１１４は、認識対象区間毎に選択された各認識対象区間の各音声認識結果を複数統合し、一連の音声データの音声認識結果Ｔとして出力する。たとえば、第１の認識対象区間ではＤＳ′１１の音声認識結果が選択され、第２の認識対象区間ではＤＳ′２２の音声認識結果が選択される。

本実施形態において、音声認識部１０２は、複数の音声データｄ１、ｄ２、・・・、ｄｎについて、それぞれ同じ音声認識処理条件で音声認識処理を行うことができる。すなわち、同じ言語モデル、辞書などを用いることができる。

本実施形態では、複数の音声入力部１０（Ｕ１、Ｕ２、・・・、Ｕｎ）で集音され、複数の音声入力部１０から、複数の一連の音声データｄ１、ｄ２、・・・、ｄｎがそれぞれ入力される。音声入力部１０は、様々な種類のマイクロフォンとすることができ、たとえば、スタンドマイク、バウンダリマイク、ピンマイク、ハンドマイクなどとすることができる。

マイクの設置場所は、様々考えられる。たとえば、話者の直ぐ目の前、すなわち、口元や、ピンマイクなどのように話者の胸元に設けたり、あるいは、話者から離れた位置に設けたりすることができる。さらに、話者が移動する可能性のある場所、たとえば、ホワイトボードの前に設けたり、あるいは、ピンマイクやハンドマイクなどワイヤレスで、設置場所を固定せずに移動しながら使用したりすることなど考えられる。

複数の音声入力部１０は、それぞれ異なる収録条件になっている。これらの収録条件は、収録条件設定部２０により設定されてもよい。たとえば、マイクロフォンの種類、設置場所などが異なる場合もあれば、各マイクロフォンの音声入力レベル、感度、補正処理方法等が異なる場合もある。

たとえば、音声入力部１０であるマイクロフォン、アンプ、またはミキサーの調整は、収録条件設定部２０の設定記憶部（不図示）に記憶されている設定値に従って調整してもよく、収録条件設定部２０の設定調整装置（不図示）により自動的に設定を行う構成とすることもできる。マイクロフォン、アンプ、またはミキサーの調整は、上記収録条件および各会場や話者などの状況に応じて、手動でユーザが行うこともできる。

認識結果選択統合部１１４は、音声認識部１０２から出力された複数の一連の音声データｄ１、ｄ２、・・・、ｄｎの同じ発話を含む認識対象区間に対応する複数の音声認識結果毎に比較を行い、認識対象区間毎に最適なものを選択し、認識対象区間毎に選択された各音声認識結果を複数統合し、一連の音声データの音声認識結果Ｔとして出力する。

たとえば、複数の一連の音声データｄ１、ｄ２、・・・、ｄｎの同じ発話を含む第１の認識対象区間ＤＳ′１１、ＤＳ′２１、・・・、ＤＳ′ｎ１に対応する複数の音声認識結果をＴＳ１１、ＴＳ２１、・・・、ＴＳｎ１とし、第２の認識対象区間ＤＳ′１２、ＤＳ′２２、・・・、ＤＳ′ｎ２に対応する複数の音声認識結果をＴＳ１２、ＴＳ２２、・・・、ＴＳｎ２とし、第ｍの認識対象区間ＤＳ′１ｍ、ＤＳ′２ｍ、・・・、ＤＳ′ｎｍに対応する複数の音声認識結果をＴＳ１ｍ、ＴＳ２ｍ、・・・、ＴＳｎｍとする。なお、各認識対象区間に対応する複数の音声認識結果ＴＳ１１〜ＴＳｎｍは、図示されていない。

認識結果選択統合部１１４は、音声認識部１０２から出力された認識対象区間の複数の音声データの認識結果を、認識対象区間毎に互いに比較し、最適なものを選択し、つなぎ合わせて出力する。たとえば、第１の認識対象区間では、第１の音声データｄ１の認識結果ＴＳ１１が選択され、第２の認識対象区間では、第２の音声データｄ２の認識結果ＴＳ２２が選択され、第ｍの認識対象区間では、第ｎの音声データｄｎの認識結果ＴＳｎｍが選択されるといったふうに、それぞれ認識対象区間毎に最適なものを選択する。そして、認識結果選択統合部１１４は、各認識対象区間毎に選択された認識結果を統合し、一連の音声データの認識結果Ｔとして出力することができる。なお、本実施形態では、認識対象区間毎に最適なものを選択しているが、これに限定されない。１発話区間よりも短い単位、たとえば、単語レベル等で認識結果を選択することもできる。

認識結果選択統合部１１４における認識結果の選択方法として、様々なものが考えられる。一例として、ＲＯＶＥＲ法（ジェイ．ジー．フィスカス（J. G. Fiscus）著、「アポストプロセッシングシステムトゥイールドリドゥースドワードエラーレート：ローバー（A post-processing system to yield reduced word error rates: Recognizer Output Voting Error Reduction：ROVER）」、（米国）、プロシーディングスアイトリプルイー（インスティテュートオブエレクトリカルアンドエレクトロニクスエンジニアズ）ワークショップオンオートマティックスピーチリコグニションアンドアンダスタンディング（Proceedings IEEE （Institute of Electrical and Electronics Engineers） Workshop on Automatic Speech Recognition and Understanding（ASRU））、１９９７年、p. 347−354）を用いることが考えられる。

すなわち、音声認識結果のテキストデータをそれぞれ比較し、同一の結果がより多く得られたもの、すなわち、複数の認識結果の中での同様な結果がより多く得られているものを選択する多数決を行い、出力認識結果列を決定する。あるいは、音響スコアや言語スコア、信頼度などの認識結果とともに得られる情報を用いることも可能である。すなわち、前記音声認識結果を多数決する際に、音声認識結果に対する重み付けとして信頼度等の認識結果情報を用いることが考えられる。さらに、音声認識結果の認識結果情報の閾値を基準として認識結果の採用不採用を決定したりすることも考えられる。また、これらを組み合わせてもよい。

本発明の音声認識システムでは、各音声入力部１０の入力条件は、認識結果の選択条件には含まれない。入力条件に関わらず、認識結果から得られる情報のみを用いて比較し、最適なものを選択することで、音声認識結果を精度よく保つことができる。

認識結果選択統合部１１４の認識結果Ｔは、たとえば、テキストデータとして出力され、図示されない記憶部、または記録媒体に記録され、ユーザに提供されることとなる。

本発明の音声認識システムは、ＳａａＳ（Software As A Service）型のサービスとして、ユーザに提供することもできる。ＳａａＳ型システムの場合、ネットワークを介して、ユーザ端末からウェブページを参照することでユーザに認識結果を閲覧可能に提供することができる。さらに、必要に応じてダウンロードしたり、あるいは、ユーザが指定した所定のメールアドレスに配信したりすることで、ユーザに認識結果を提供することができる。これらの提供方法も特に限定されるものではなく、様々な態様が考えられる。

上述したように、本実施形態の音声認識装置１１０は、コンピュータにより実現することができる。
本実施形態のコンピュータプログラムは、音声認識装置１１０を実現させるためのコンピュータに、異なる収録条件で入力した複数の音声データをそれぞれ音声認識する手順と、音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する手順と、を実行させるように記述されている。

さらに、本実施形態のコンピュータプログラムは、音声認識装置１１０を実現されるためのコンピュータに、異なる収録条件で入力した複数の一連の前記音声データの入力を受け付け、複数の一連の音声データについて、それぞれ各発話区間を検出する手順、複数の一連の音声データ間で、同じ発話を含むように認識対象区間を調整する手順、調整された複数の一連の音声データの同じ発話を含む認識対象区間毎に、それぞれ音声認識処理を行い、同じ発話を含む認識対象区間に対応する複数の音声認識結果をそれぞれ出力する手順、出力された複数の一連の音声データの同じ発話を含む認識対象区間に対応する複数の音声認識結果毎に比較を行い、認識対象区間毎に最適なものを選択する手順、認識対象区間毎に選択された各発話区間の各音声認識結果を複数統合し、一連の音声データの音声認識結果として出力する手順を実行させるように記述されている。

本実施形態のコンピュータプログラムは、コンピュータで読み取り可能な記憶媒体に記録されてもよい。記録媒体は特に限定されず、様々に形態のものが考えられる。また、プログラムは、記録媒体からコンピュータのメモリにロードされてもよいし、ネットワークを通じてコンピュータにダウンロードされ、メモリにロードされてもよい。

上述のような構成において、本実施の形態の音声認識装置１１０によるデータ処理方法を以下に説明する。図３は、本実施形態の音声認識システムの動作の一例を示すフローチャートである。

本発明の実施の形態に係る音声認識装置１１０のデータ処理方法は、音声データを音声認識する音声認識装置のデータ処理方法であって、音声認識装置１１０が、異なる収録条件で入力した複数の音声データをそれぞれ音声認識し（ステップＳ１０５）、音声認識で得られた複数の音声認識結果を比較して、最適なものを選択する（ステップＳ１０７）。

より詳細には、まず、音声認識装置１１０の音声区間調整部１１２が複数の音声入力部１０から、それぞれ異なる収録条件で集音された音声データｄ１、ｄ２、・・・、ｄｎをそれぞれ入力する（ステップＳ１０１）。そして、音声区間調整部１１２が、各音声データの発話区間を検出し、それぞれ同じ発話が含まれるように、発話区間を互いに調整する（ステップＳ１０３）。

そして、音声認識部１０２が、音声区間調整部１１２から出力された複数の音声データを、発話区間毎に認識処理する（ステップＳ１０５）。その結果、音声認識部１０２から複数の音声データの各発話区間に対応する認識結果がそれぞれ認識結果選択統合部１１４に出力される。そして、認識結果選択統合部１１４が、発話区間毎に、複数の音声認識結果を比較し、その中から最適なものを選択する（ステップＳ１０７）。そして、認識結果選択統合部１１４が、選択された発話区間毎の認識結果を統合し、一連の音声データの認識結果Ｔとして出力する（ステップＳ１０９）。

以上説明したように、本発明の実施の形態に係る音声認識システムによれば、複数の音声データの中に入力条件が悪いものがあっても、得られた複数の音声認識結果を比較して最適なものを選択することで、音声認識結果を精度よく保つことができる。また、音声入力部１０は、どのような種類でも、どのような設定であってもよいが、互いに異なる設定にすることで、異なる設定の中から一つでも良好な結果が得られれば、その結果を採用することができることとなる。

また、本実施形態の音声認識システムによれば、一連の音声データの中から発話区間毎に最適なものを選択できるので、一連の音声データにおいて、途中で状況が変わった場合にも、途中から他の音声データに対する音声認識結果を採用することができるので、音声認識結果を精度よく保つことができる。たとえば、固定的に設置されているマイクから話者が移動して遠ざかってしまったり、話者自体が入れ替わったために声量が変わったり、また、一部のマイクが不調になったり、騒音が発生したりして、途中で状況が変わった場合にも、同様である。あるいは、固定的に設置されているマイクの位置に話者が戻って来たり、不調だったマイクが復旧したり、騒音が収まったりした場合にも、音声認識結果の精度をよく保つことができる。その理由は、途中から、最適な音声認識結果が得られたものに切り換えることができるからである。

すなわち、複数の異なる収録条件のマイクロフォンを複数準備し、状況に応じて、どのマイクロフォンの音声データによる認識結果がよいかを評価して選び、切り替えることができるので、状況に応じて、各マイクロフォンの特性を効果的に生かすことができるようになる。

また、本実施形態の音声認識システムでは、音声認識部１０２が複数の音声データについて、それぞれ同じ認識処理条件、すなわち、同じ言語モデルもしくは同じ音響モデルを用いて音声認識処理を行うことができる。その際、同じ認識処理条件で認識した結果を評価しているため、認識結果や音声認識処理によって得られる各種特徴量やスコアを用いて収録条件の異なる複数の音声データを比較して、簡便に優劣を付けることができる。

（第２の実施の形態）
図４は、本発明の実施の形態に係る音声認識システムの構成を示す機能ブロック図である。
本実施形態の音声認識システムは、上記実施の形態とは、認識結果選択統合部２１４において複数の認識結果の中から選択された認識結果の音声認識処理時の条件等を記録し、後続の音声データの音声区間調整や認識結果の選択条件としてフィードバックする点で相違する。

さらに、本実施形態の音声認識システムにおいて、音声認識装置２００は、複数の音声認識結果が得られた時の音声認識部１０２の音声認識処理条件を、音声認識部１０２が処理した音声認識処理単位（発話区間もしくは認識処理区間）毎にそれぞれ記憶する処理条件記憶部（条件記憶部２１０）と、認識結果選択統合部２１４で音声認識結果が選択されたとき、または選択されなかったときの、音声認識部１０２における音声認識処理条件を音声認識処理単位（発話区間もしくは認識処理区間）毎にそれぞれ処理条件記憶部（条件記憶部２１０）に記録する処理条件記録部と、をさらに備える。
認識結果選択統合部２１４は、処理条件記憶部（条件記憶部２１０）を参照し、音声認識処理条件を考慮して、音声認識結果を音声認識処理単位（発話区間）毎に選択する。

本実施形態の音声認識システムにおいて、音声認識装置２００は、複数の音声データｄ１、ｄ２、．．．、ｄｎの入力時の入力条件を発話区間（もしくは認識対象区間）毎にそれぞれ記憶する条件記憶部２１０と、認識結果選択統合部２１４で音声認識結果が選択されたとき、または選択されなかったときの、音声データの入力条件を発話区間（もしくは認識対象区間）毎にそれぞれ条件記憶部２１０に記憶する入力条件記録部（不図示）と、をさらに備えることもできる。

音声区間調整部２１２は、条件記憶部２１０を参照し、入力した複数の音声データの入力条件を考慮して、発話区間を調整してもよい。
ここで、入力条件は、たとえば、入力した音声データのパワーレベル、Ｓ／Ｎ比、他の音声データとのパワーレベルの差や比、または、他の音声データとのＳ／Ｎ比の差等を含むことができる。

具体的には、本実施形態の音声認識装置２００は、上記実施形態の音声認識装置１１０と同じ音声認識部１０２と、さらに、条件記憶部２１０と、音声区間調整部２１２と、認識結果選択統合部２１４と、を備える。

条件記憶部２１０は、たとえば、図５に示すように、音声データ毎に、さらに、発話区間（もしくは認識対象区間）毎に、その音声データの、その発話区間（もしくは認識対象区間）の認識結果が採用されたか否かを示す選択フラグと、その音声データの、その発話区間の認識結果が選択されたときの音声認識処理条件と、音声入力部１０の入力条件と、を含むことができる。音声認識処理条件として、その音声データの、その発話区間の認識結果（不図示）およびその音響スコア、言語スコア、信頼度等を含むことができる。また、音声入力部１０の入力条件として、入力パワーレベルおよびＳ／Ｎ比等を含むことができる。

なお、各音声データの発話区間（もしくは認識対象区間）毎に、パワーやＳ／Ｎ比などの音響的な情報、分析時に得られた情報を、音声区間調整部２１２から条件記憶部２１０に送り記憶することができる。また、本実施形態では、発話区間（認識対象区間）毎に選択フラグを付与する構成としているが、上述したように、単語レベルなど、発話区間より短い単位でも選択が可能である。したがって、選択した単位、たとえば、単語レベルでフラグを付与し、条件記憶部２１０に記憶することもできる。

図４に戻り、認識結果選択統合部２１４は、条件記憶部２１０を参照し、条件記憶部２１０に記憶されている入力条件または音声認識処理条件を考慮して、認識結果を選択する。また、音声区間調整部２１２は、条件記憶部２１０を参照し、条件記憶部２１０に記憶されている入力条件を考慮して、発話区間を検出し、調整してもよい。

たとえば、条件記憶部２１０に記憶された当該音声区間より前の結果より、パワーがある一定値以下であった場合には音声区間とみなさないように閾値として用いることが考えられる。また、パワーやＳ／Ｎ比、さらに言語スコアや音響スコアなどの各種スコアから、複数の認識結果の選択処理を行っている注目の単語が選択されやすいか否かの推定を行うことができる。そして、認識結果選択統合部２１４において、その情報を重みとして加味して認識結果を選択することが考えられる。

また別の一例として、条件記憶部２１０に、当該発話区間（もしくは認識対象区間、単語、文節等）や認識結果が選択されたか棄却されたかを識別する識別モデルを記憶しておくことも考えられる。すなわち、予め入力音声とは異なる音声データを用いて（教師として与えて）ベースとなる識別モデルを学習し、条件記憶部２１０に記憶しておく。そして、音声が入力されたときに、音声区間調整部２１２が、条件記憶部２１０に記憶された識別モデルを用いて、入力された音声から得られる各種特徴量に基づいて、当該発話区間（もしくは認識対象区間、単語、文節等）を選択するか棄却するかの判定結果（もしくは識別モデルから得られるスコア）を取得する。そして、音声区間調整部２１２が、その結果を受けて音声区間の調整を行う。

さらに、認識結果選択統合部２１４が、条件記憶部２１０に記憶された識別モデルを用いて、得られる各種特徴量やスコアに基づいて、認識結果を選択するか棄却するかの判定結果（もしくは識別モデルから得られるスコア）を取得する。そして、認識結果選択統合部２１４は、その結果を用いて認識結果の選択および棄却を行う。なお、最終的な音声区間の調整結果や認識結果を追加することにより識別モデルを逐次更新することも考えられる。

ここでは、音声区間調整部２１２および認識結果選択統合部２１４が条件記憶部２１０を参照する構成としたが、これに限定されず、他の判別部（不図示）が、条件記憶部２１０を参照し、音声区間調整部２１２または認識結果選択統合部２１４が条件記憶部２１０に記録されている条件を考慮する必要があるか否かを判別する構成としてもよい。そして、必要がある場合に、音声区間調整部２１２または認識結果選択統合部２１４に必要な条件を通知する構成としてもよい。

上述したように、本実施形態の音声認識装置２００は、コンピュータにより実現することができる。
本実施形態のコンピュータプログラムは、音声認識装置２００を実現させるためのコンピュータに、上記実施形態のコンピュータプログラムの手順に加え、さらに、音声認識結果が選択されたとき、または選択されなかったときの、音声データの入力条件を発話区間（もしくは認識対象区間）毎にそれぞれ条件記憶部２１０に記録する手順、条件記憶部２１０を参照し、入力した複数の音声データの入力条件を考慮して、発話区間を調整する手順を実行させるように記述されている。

また、本実施形態のコンピュータプログラムは、音声認識装置２００を実現させるためのコンピュータに、さらに、音声認識結果が選択されたとき、または選択されなかったときの、音声認識部１０２における音声認識処理条件を認識対象区間毎にそれぞれ条件記憶部２１０に記録する手順、条件記憶部２１０を参照し、音声認識処理条件を考慮して、認識結果を認識対象区間毎に選択する手順を実行させるように記述されている。

このように構成された本実施形態の音声認識システムの動作について、以下に説明する。
図６は、本実施形態の音声認識システムの動作の一例を示すフローチャートである。

本実施形態の音声認識システムにおいて、音声認識装置２００は、図３の上記実施形態のフローチャートと同様なステップＳ１０１、ステップＳ１０５、およびステップＳ１０９に加え、さらに、ステップＳ２０３〜ステップＳ２０８を含む。

まず、音声認識装置２００の音声区間調整部２１２が、複数の音声入力部１０から、それぞれ異なる収録条件で集音された音声データｄ１、ｄ２、・・・、ｄｎをそれぞれ入力する（ステップＳ１０１）。そして、音声区間調整部２１２が、各音声データの発話区間を検出し、それぞれ同じ発話が含まれるように、発話区間を互いに調整する（ステップＳ２０３）。このとき、音声区間調整部２１２は、条件記憶部２１０を参照し、入力条件を考慮して、発話区間を検出および調整する。

そして、音声区間調整部２１２が、音声データ毎かつ発話区間（もしくは認識処理区間）毎に、入力条件を条件記憶部２１０に記録する（ステップＳ２０４）。そして、音声認識部１０２が、音声区間調整部２１２から出力された複数の音声データを、認識処理区間毎に認識処理する（ステップＳ１０５）。その結果、音声認識部１０２から複数の音声データの各認識処理区間に対応する認識結果がそれぞれ認識結果選択統合部２１４に出力される。そして、認識結果選択統合部２１４が、認識処理区間毎に、複数の音声認識結果を比較し、その中から最適なものを選択する（ステップＳ２０７）。このとき、認識結果選択統合部２１４は、条件記憶部２１０を参照し、入力条件または音声認識処理条件を考慮して、認識結果を選択する。

そして、認識結果選択統合部２１４が、各音声データの各発話区間の音声認識処理条件と、その区間の音声データが採用されたか否かを示す選択フラグとを条件記憶部２１０に追記する（ステップＳ２０８）。そして、認識結果選択統合部２１４が、選択された認識処理区間毎の認識結果を統合し、一連の音声データの認識結果Ｔとして出力する（ステップＳ１０９）。

以上、説明したように、本実施形態の音声認識システムによれば、上記実施形態と同様な効果を奏するとともに、音声認識結果を選択する際に、過去に選択されたまたは選択されなかった音声データの音声認識処理条件などを考慮するので、そのとき、その会場の状況に応じて異なる収録条件の傾向を考慮して処理を行うことができ、認識精度を向上させることが可能になる。

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１０年３月２９日に出願された日本出願特願２０１０−０７６１９５号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

話者の発話音声を異なる収録条件で入力した複数の音声データをそれぞれ音声認識する音声認識手段と、
前記音声認識手段で音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する認識結果選択手段と、を備える音声認識装置。
請求項１に記載の音声認識装置において、
複数の一連の前記音声データの入力を受け付け、複数の一連の前記音声データについて、それぞれ各発話区間を検出し、複数の一連の前記音声データ間で、同じ発話を含むように発話区間を調整する音声区間調整手段をさらに備え、
前記音声認識手段は、前記音声区間調整手段により調整された複数の一連の前記音声データの前記同じ発話について、それぞれ音声認識処理を行い、前記同じ発話に対応する複数の音声認識結果をそれぞれ出力し、
前記認識結果選択手段は、前記音声認識手段から出力された複数の一連の前記音声データの前記同じ発話に対応する複数の前記音声認識結果毎に比較、選択を行い、統合して１つの最適な音声認識結果として出力する音声認識装置。
請求項１または２に記載の音声認識装置において、
前記認識結果選択手段は、複数の前記音声認識結果を比較して、同様な結果がより多く得られているものを選択する音声認識装置。
請求項１乃至３いずれかに記載の音声認識装置において、
前記認識結果選択手段は、前記音声認識手段にて前記音声データが音声認識処理された時に得られる認識結果情報に基づいて、最適なものを選択する音声認識装置。
請求項４に記載の音声認識装置において、
前記認識結果情報は、音響スコア、言語スコア、または信頼度である音声認識装置。
請求項５に記載の音声認識装置において、
前記認識結果選択手段が同様な結果がより多く得られているものを選択する多数決を行うとき、前記音声認識結果に対する重み付けとして前記認識結果情報を用いる音声認識装置。
請求項５または６に記載の音声認識装置において、
前記認識結果選択手段が同様な結果がより多く得られているものを選択する多数決を行うとき、前記認識結果情報の閾値により、前記音声認識結果を採用するか否かを決定する音声認識装置。
請求項２乃至７いずれかに記載の音声認識装置において、
複数の前記音声認識結果が得られた時の前記音声認識手段の音声認識処理条件を、前記音声認識手段が処理した音声認識処理単位毎にそれぞれ記憶する処理条件記憶部と、
前記認識結果選択手段で前記音声認識結果が選択されたとき、または選択されなかったときの、前記音声認識手段における音声認識処理条件を前記音声認識処理単位毎にそれぞれ前記処理条件記憶部に記録する処理条件記録手段と、をさらに備え、
前記認識結果選択手段は、前記処理条件記憶部を参照し、前記音声認識処理条件を考慮して、前記音声認識結果を前記音声認識処理単位毎に選択する音声認識装置。
請求項１乃至８いずれかに記載の音声認識装置において、
前記音声認識手段は、複数の前記音声データに対して、同じ音声認識処理条件で音声認識処理を行う音声認識装置。
請求項１乃至９いずれかに記載の音声認識装置において、
複数の前記音声データは、複数の音声入力装置でそれぞれ集音され、入力される音声認識装置。
異なる収録条件でそれぞれ音声を入力する複数の音声入力手段と、
前記音声入力手段から入力した複数の音声データをそれぞれ音声認識する音声認識手段と、
前記音声認識手段で音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する認識結果選択手段と、を備える音声認識システム。
音声データを音声認識する音声認識装置のデータ処理方法であって、
前記音声認識装置が、
異なる収録条件で入力した複数の音声データをそれぞれ音声認識し、
音声認識で得られた複数の音声認識結果を比較して、最適なものを選択する音声認識装置のデータ処理方法。
請求項１２に記載の音声認識装置のデータ処理方法において、
前記音声認識装置が、
複数の一連の前記音声データの入力を受け付け、複数の一連の前記音声データについて、それぞれ各発話区間を検出し、複数の一連の前記音声データ間で、同じ発話を含むように発話区間を調整し、
調整された複数の一連の前記音声データの前記同じ発話について、それぞれ音声認識処理を行い、前記同じ発話に対応する複数の音声認識結果をそれぞれ出力し、
複数の一連の前記音声データの前記同じ発話に対応する複数の前記音声認識結果毎に比較、選択を行い、統合して１つの最適な音声認識結果として出力する音声認識装置のデータ処理方法。
請求項１２または１３に記載の音声認識装置のデータ処理方法において、
前記音声認識装置が、
前記音声データが音声認識処理された時に得られる認識結果情報に基づいて、最適なものを選択する音声認識装置のデータ処理方法。
請求項１２乃至１４いずれかに記載の音声認識装置のデータ処理方法において、
前記音声認識装置が、
複数の前記音声認識結果を比較して、同様な結果がより多く得られているものを選択する音声認識装置のデータ処理方法。
請求項１３乃至１５いずれかに記載の音声認識装置のデータ処理方法において、
前記音声認識装置が、
複数の前記音声認識結果が得られた時の前記音声認識手段の音声認識処理条件を、前記音声認識手段が処理した音声認識処理単位毎にそれぞれ記憶する処理条件記憶部を備え、
前記音声認識結果が選択されたとき、または選択されなかったときの、前記音声認識時の音声認識処理条件を前記音声認識処理単位毎にそれぞれ前記処理条件記憶部に記憶し、
前記処理条件記憶部を参照し、前記音声認識処理条件を考慮して、前記音声認識結果を前記音声認識処理単位毎に選択する音声認識装置のデータ処理方法。
請求項１２乃至１６いずれかに記載の音声認識装置のデータ処理方法において、
前記音声認識装置が、複数の前記音声データに対して、同じ音声認識処理条件で音声認識処理を行う音声認識装置のデータ処理方法。
請求項１２乃至１７いずれかに記載の音声認識装置のデータ処理方法において、
複数の前記音声データは、複数の音声入力装置でそれぞれ集音され、入力される音声認識装置のデータ処理方法。
音声データを音声認識する音声認識装置を実現するコンピュータプログラムであって、
異なる収録条件で入力した複数の音声データをそれぞれ音声認識する手順と、
音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する手順と、をコンピュータに実行させるためのコンピュータプログラム。