JPWO2011121978A1 - 音声認識システム、装置、方法、およびプログラム - Google Patents
音声認識システム、装置、方法、およびプログラム Download PDFInfo
- Publication number
- JPWO2011121978A1 JPWO2011121978A1 JP2012508079A JP2012508079A JPWO2011121978A1 JP WO2011121978 A1 JPWO2011121978 A1 JP WO2011121978A1 JP 2012508079 A JP2012508079 A JP 2012508079A JP 2012508079 A JP2012508079 A JP 2012508079A JP WO2011121978 A1 JPWO2011121978 A1 JP WO2011121978A1
- Authority
- JP
- Japan
- Prior art keywords
- voice
- recognition
- speech recognition
- speech
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 36
- 238000012545 processing Methods 0.000 claims description 67
- 238000003672 processing method Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 14
- 230000010354 integration Effects 0.000 description 29
- 239000008186 active pharmaceutical agent Substances 0.000 description 21
- 238000010586 diagram Methods 0.000 description 5
- 101000608734 Helianthus annuus 11 kDa late embryogenesis abundant protein Proteins 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 102100023927 Asparagine synthetase [glutamine-hydrolyzing] Human genes 0.000 description 3
- 101100380329 Homo sapiens ASNS gene Proteins 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 241001061260 Emmelichthys struhsakeri Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
音声認識装置(100)は、話者の発話音声を異なる収録条件で入力した複数の音声データをそれぞれ音声認識する音声認識部(102)と、音声認識部(102)で音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する認識結果選択部(104)と、を備える。
Description
本発明は、音声認識システム、装置、方法、およびプログラムに関し、特に、複数の音声データを利用した音声認識システム、装置、方法、およびプログラムに関する。
複数マイク使用による認識結果選択機能付き音声認識装置の一例が特許文献1(特開平10−232691号公報)に記載されている。特許文献1(特開平10−232691号公報)の音声認識装置は、話者の音声発生源である口に相対的に固定されない位置の話者の体に装着されたマイクロフォンと、マイクロフォンから入力された音声信号の認識および認識結果の出力を行う認識部と、認識部から出力された認識結果の比較を行い、最も確度の高い認識結果を選択・出力する総合処理部とから構成されている。この構成により、話者の姿勢が変化しても音声入力を行うことができるようになっている。また、認識結果の確度を示す値として、話者の口とマイクとの距離値を、確度を示す値として用いており、認識結果の確度から認識結果を選択している。
近年、会議や講演会などにおける話者の音声を音声認識して自動的に記録するシステムのニーズが高まっている。ところが、会議や講演会などは、様々な会場で、様々な設備および環境下で行われる。また、音響設備は会場既存のものを使用することも多く、音響機器、たとえば、マイクロフォン、アンプ、ミキサーは多種多様であり、それらの組み合わせも無数である。そして、たとえば、講演会場などで、話者が入れ替わった場合に、一般的には、音響設備等の収録条件を話者毎に変更しない。そのため、設定に対して、話者の声量が大きすぎると誤りを多く含む認識結果が出力されてしまうといった問題点があった。逆に、小さすぎると音声区間を検知できなかったりして、音声の認識精度が低下してしまうといった問題点があった。
本発明の目的は、上述した課題である音声の認識精度の低下を解決する音声認識システム、装置、方法、およびプログラムを提供することにある。
本発明の音声認識装置は、
話者の発話音声を異なる収録条件で入力した複数の音声データをそれぞれ音声認識する音声認識手段と、
前記音声認識手段で音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する認識結果選択手段と、を備える。
話者の発話音声を異なる収録条件で入力した複数の音声データをそれぞれ音声認識する音声認識手段と、
前記音声認識手段で音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する認識結果選択手段と、を備える。
本発明の音声認識システムは、
異なる収録条件でそれぞれ音声を入力する複数の音声入力手段と、
前記音声入力手段から入力した複数の音声データをそれぞれ音声認識する音声認識手段と、
前記音声認識手段で音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する認識結果選択手段と、を備える。
異なる収録条件でそれぞれ音声を入力する複数の音声入力手段と、
前記音声入力手段から入力した複数の音声データをそれぞれ音声認識する音声認識手段と、
前記音声認識手段で音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する認識結果選択手段と、を備える。
本発明の音声認識装置のデータ処理方法は、
音声データを音声認識する音声認識装置のデータ処理方法であって、
前記音声認識装置が、
異なる収録条件で入力した複数の音声データをそれぞれ音声認識し、
音声認識で得られた複数の音声認識結果を比較して、最適なものを選択する。
音声データを音声認識する音声認識装置のデータ処理方法であって、
前記音声認識装置が、
異なる収録条件で入力した複数の音声データをそれぞれ音声認識し、
音声認識で得られた複数の音声認識結果を比較して、最適なものを選択する。
本発明のコンピュータプログラムは、
音声データを音声認識する音声認識装置を実現するコンピュータプログラムであって、
異なる収録条件で入力した複数の音声データをそれぞれ音声認識する手順と、
音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する手順と、をコンピュータに実行させるためのものである。
音声データを音声認識する音声認識装置を実現するコンピュータプログラムであって、
異なる収録条件で入力した複数の音声データをそれぞれ音声認識する手順と、
音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する手順と、をコンピュータに実行させるためのものである。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。
また、本発明のデータ処理方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明のデータ処理方法およびコンピュータプログラムを実施するときには、その複数の手順の順番は内容的に支障しない範囲で変更することができる。
さらに、本発明のデータ処理方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。
本発明によれば、音声の認識精度を向上する音声認識システム、装置、方法、およびプログラムが提供される。
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
(第1の実施の形態)
図1は、本発明の実施の形態に係る音声認識システムの構成を示す機能ブロック図である。
同図に示すように、本実施形態の音声認識システムにおいて、音声認識装置100は、話者の発話音声を異なる収録条件で入力した複数の音声データd1、d2、...、dn(ここで、nは自然数)をそれぞれ音声認識する音声認識部102と、音声認識部102で音声認識して得られた複数の音声認識結果t1、t2、...、tnを比較して、最適なものを選択する認識結果選択部104と、を備える。
図1は、本発明の実施の形態に係る音声認識システムの構成を示す機能ブロック図である。
同図に示すように、本実施形態の音声認識システムにおいて、音声認識装置100は、話者の発話音声を異なる収録条件で入力した複数の音声データd1、d2、...、dn(ここで、nは自然数)をそれぞれ音声認識する音声認識部102と、音声認識部102で音声認識して得られた複数の音声認識結果t1、t2、...、tnを比較して、最適なものを選択する認識結果選択部104と、を備える。
本実施形態において、音声認識装置100は、たとえば、図示しないCPU(Central Processing Unit)やメモリ、ハードディスク、および通信装置を備え、キーボードやマウス等の入力装置やディスプレイやプリンタ等の出力装置と接続されるサーバコンピュータやパーソナルコンピュータ、またはそれらに相当する装置により実現することができる。そして、CPUが、ハードディスクに記憶されるプログラムをメモリに読み出して実行することにより、上記各ユニットの各機能を実現することができる。
なお、以下の各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
また、音声認識装置100の各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下に説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。
また、音声認識装置100の各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下に説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。
本実施形態の音声認識システムは、会議や講演会などにおける話者の音声を音声認識して自動的に記録するものである。会議や講演会などは、様々な会場で、様々な設備および環境下で行われる。音響設備は会場既存のものを使用することが多い。そのため、音響機器、たとえば、マイクロフォン、アンプ、ミキサーは多種多様であり、それらの組み合わせも無数である。
また、たとえば、講演会場などで、話者が入れ替わった場合に、一般的には、音響設備等の収録条件を話者毎に変更しない。そのため、設定に対して、話者の声量が大きすぎると誤りを多く含む認識結果が出力されてしまうといった問題点があった。逆に、小さすぎると音声区間を検知できなかったりするといった問題点があった。
また、会場や話者の状況によって、たとえば、一時的な騒音の発生や、話者が入れ替わったりした場合等に、音声認識精度が安定しないという問題点があった。あるいは、スタンドマイクやバウンダリマイクなどの固定的に設置されているマイクロフォンを使用する場合に、途中で話者が移動して発話をされると、マイクロフォンとの距離が離れてしまう。そのため、話者の声をひろうことが困難になってしまうといった問題点があった。
話者の移動の問題に対しては、話者の胸元にピンマイクを付けることで解決する構成も考えられる。しかし、衣類や体とマイクが接触して雑音が入ったりすることも考えられる。すなわち、例えば通常の発話では最適な入力デバイスがスタンドマイクであり、話者が移動したときにはピンマイクに変わるといった状況が考えられ、最適なマイクロフォンは動的に変わりうる。
このように、途中で状況が変化した場合に、音声認識精度が安定しないという問題点があった。
このように、途中で状況が変化した場合に、音声認識精度が安定しないという問題点があった。
本発明の音声認識システムは、このような問題を解決するために、複数の異なる収録条件で入力された音声データから得られた複数の認識結果を比較して、最適なものを選択して認識結果として出力するものである。たとえば、複数の種類のマイクを準備し、また、同じ種類のマイクであれば、入力レベルなどの設定をそれぞれ異なるように予め設定して準備する。あるいは、既存の設備を用いる場合には、元々複数のマイクが異なる設定になっていれば、そのまま適用することもできる。
または、設置場所は、話者の移動を考慮して、予め話者が移動予定の場所、たとえば、講演会の場合、講演者が話をする壇上以外にホワイトボード前等にも設置するのが好ましい。また、会場のリスナーの質問用にハンドマイクなどを準備してもよい。また、複数のマイクを同じ収録条件、たとえば、同じ種類のマイクを同じ入力レベルに設定して準備した場合であっても、途中で、上述したようにマイクの故障や騒音の発生など状況が変化することがある。このような状況の変化に応じて、結果としてマイク毎の収録条件が異なった場合にも、本発明の音声認識システムは適用できる。
本実施形態において、音声データの入力装置は、会場既存のものを用いてもよいし、音声認識システムとして、設けられた入力装置を用いてもよい。すなわち、本発明の音声認識システムによれば、どのような種類の音声入力装置を、どのように組み合わせて準備するかに依存せずに、音声認識の精度を向上させることができる。
収録条件は、マイクを用いて話者の音声を収録するときの各種条件であり、使用前に予め決まっているものと、使用中に状況に応じて変化するものとの2種類ある。前者の例として、マイクの種類、設置場所、入力レベル、感度、補正処理方法、空調などの定常的な雑音など、後者の例として、話者(声量、性別等)、音源や話者とマイクの距離、周囲の騒音レベル、マイクの入力レベルや感度(故障などにより変化したとき)などを含むことができる。
具体的には、図2に示すように、本実施形態の音声認識システムにおいて、音声認識装置110は、音声区間調整部112と、音声認識部102と、認識結果選択統合部114と、を備える。以後、本実施形態では、音声認識装置110を例に説明する。なお、音声認識装置110は、音声認識装置100とは、音声区間調整部112が各音声データの発話区間を検出する点、および認識結果選択統合部114が発話区間毎に選択した認識結果を統合して出力する点が異なる。
音声区間調整部112は、複数の一連の音声データd1、d2、・・・、dnの入力を受け付け、複数の一連の音声データd1、d2、・・・、dnについて、それぞれ音声データに対する発話区間を検出する。そして、音声区間調整部112は、複数の一連の音声データd1、d2、・・・、dn間で、同じ発話を含むように発話区間を調整する。
ここでいう、「発話区間」とは、入力される一連の音声データの中から、実際に話者が発話した音声データを含む「音声区間調整部112が検出した区間」、もしくは、「自動検出された区間」を意味する。そして、後段の音声認識部では、この発話区間を1つの処理単位として音声認識処理が実行される。すなわち、音声区間調整部112は、音声認識処理を行う対象の音声データのひと区切りずつが、複数の音声データ間で同じ区間(始点の時刻と終点の時刻がそれぞれ同じ区間を指す。以後、始点の時刻と終点の時刻を「始終端時刻」と呼ぶ。)になるように、調整を行う。
たとえば、音声区間調整部112により、第1の一連の音声データd1から発話区間として、DS11、DS12、・・・、DS1a(ここで、aは自然数)が検出され、第2の一連の音声データd2から発話区間として、DS21、DS22、・・・、DS2b(ここで、bは自然数)が検出され、第nの一連の音声データdnから発話区間として、DSn1、DSn2、・・・、DSnc(ここで、cは自然数)が検出されたとする。なお、発話区間は図示していない。
そこで、音声区間調整部112は、第1の一連の音声データd1の第1の発話区間DS11、第2の一連の音声データd2の第1の発話区間DS21、および、第nの一連の音声データdnの第1の発話区間DSn1に、それぞれ含まれる発話が、同じになるように、各発話区間を調整する。同様に、第1の一連の音声データd1の第2の発話区間DS12、第2の一連の音声データd2の第2の発話区間DS22、および、第nの一連の音声データdnの第2の発話区間DSn2に、それぞれ含まれる発話が、同じになるように、各発話区間を調整し、認識対象区間を決定する。以後、同様に各発話区間を調整する。
具体的には、たとえば、第1の音声データd1、第2の音声データd2、第nの音声データdnの第1の発話区間のうち、第2の音声データd2の第1の発話区間DS21が、他の音声データの第1の発話区間に比べて、検出された区間が短かったような場合、他の音声データの第1の発話区間に合わせて、区間を長くするように調整する。つまり、収録条件が異なるために、ある音声データの発話区間が他の音声データの発話区間に比べて短く検出され、発話区間にずれが生じた場合には、複数の音声データ間で同期を取り、発話区間の始終端時刻を調整する。
なお、複数の発話区間が他の音声では1つの発話区間となる場合がある。例えば、第1の一連の音声データd1の第1の発話区間DS11が1秒目から4秒目までで、第2の一連の音声データd2の第1の発話区間DS21が1秒目から2秒目まで、第2の一連の音声データd2の第2の発話区間DS22が2秒目から4秒目までであった場合について説明する。この場合には、第1の一連の音声データd1の第1の発話区間DS11と、第2の一連の音声データd2の第1の発話区間DS21および第2の発話区間DS22を合わせた区間が同じ発話区間となるように調整し、調整後の認識対象区間は1秒目から4秒目までとなる。
音声認識部102は、音声区間調整部112により同期が取られた複数の一連の音声データd1、d2、・・・、dnの同一の認識対象区間(第1の認識対象区間DS′11、DS′21、DS′n1や、第mの認識対象区間DS′1m、DS2′m、DS′nm等(ここで、mは自然数))毎に、それぞれ音声認識処理を行い、同一の認識対象区間に対応する複数の音声認識結果をそれぞれ出力する。なお、音声認識処理は発話区間単位で行い、認識処理後に認識結果を前記区間調整された認識対象区間に揃えてもよい。
認識結果選択統合部114は、音声認識部102から出力された、複数の一連の音声データd1、d2、・・・、dnの同一の認識対象区間(第1の認識対象区間DS′11、DS′21、DS′n1や、第mの認識対象区間DS′1m、DS2′m、DS′nm等)にそれぞれ対応する複数の音声認識結果t1、t2、・・・、tn毎に比較を行い、認識対象区間毎に最適なものを選択する。そして、認識結果選択統合部114は、認識対象区間毎に選択された各認識対象区間の各音声認識結果を複数統合し、一連の音声データの音声認識結果Tとして出力する。たとえば、第1の認識対象区間ではDS′11の音声認識結果が選択され、第2の認識対象区間ではDS′22の音声認識結果が選択される。
本実施形態において、音声認識部102は、複数の音声データd1、d2、・・・、dnについて、それぞれ同じ音声認識処理条件で音声認識処理を行うことができる。すなわち、同じ言語モデル、辞書などを用いることができる。
本実施形態では、複数の音声入力部10(U1、U2、・・・、Un)で集音され、複数の音声入力部10から、複数の一連の音声データd1、d2、・・・、dnがそれぞれ入力される。音声入力部10は、様々な種類のマイクロフォンとすることができ、たとえば、スタンドマイク、バウンダリマイク、ピンマイク、ハンドマイクなどとすることができる。
マイクの設置場所は、様々考えられる。たとえば、話者の直ぐ目の前、すなわち、口元や、ピンマイクなどのように話者の胸元に設けたり、あるいは、話者から離れた位置に設けたりすることができる。さらに、話者が移動する可能性のある場所、たとえば、ホワイトボードの前に設けたり、あるいは、ピンマイクやハンドマイクなどワイヤレスで、設置場所を固定せずに移動しながら使用したりすることなど考えられる。
複数の音声入力部10は、それぞれ異なる収録条件になっている。これらの収録条件は、収録条件設定部20により設定されてもよい。たとえば、マイクロフォンの種類、設置場所などが異なる場合もあれば、各マイクロフォンの音声入力レベル、感度、補正処理方法等が異なる場合もある。
たとえば、音声入力部10であるマイクロフォン、アンプ、またはミキサーの調整は、収録条件設定部20の設定記憶部(不図示)に記憶されている設定値に従って調整してもよく、収録条件設定部20の設定調整装置(不図示)により自動的に設定を行う構成とすることもできる。マイクロフォン、アンプ、またはミキサーの調整は、上記収録条件および各会場や話者などの状況に応じて、手動でユーザが行うこともできる。
認識結果選択統合部114は、音声認識部102から出力された複数の一連の音声データd1、d2、・・・、dnの同じ発話を含む認識対象区間に対応する複数の音声認識結果毎に比較を行い、認識対象区間毎に最適なものを選択し、認識対象区間毎に選択された各音声認識結果を複数統合し、一連の音声データの音声認識結果Tとして出力する。
たとえば、複数の一連の音声データd1、d2、・・・、dnの同じ発話を含む第1の認識対象区間DS′11、DS′21、・・・、DS′n1に対応する複数の音声認識結果をTS11、TS21、・・・、TSn1とし、第2の認識対象区間DS′12、DS′22、・・・、DS′n2に対応する複数の音声認識結果をTS12、TS22、・・・、TSn2とし、第mの認識対象区間DS′1m、DS′2m、・・・、DS′nmに対応する複数の音声認識結果をTS1m、TS2m、・・・、TSnmとする。なお、各認識対象区間に対応する複数の音声認識結果TS11〜TSnmは、図示されていない。
認識結果選択統合部114は、音声認識部102から出力された認識対象区間の複数の音声データの認識結果を、認識対象区間毎に互いに比較し、最適なものを選択し、つなぎ合わせて出力する。たとえば、第1の認識対象区間では、第1の音声データd1の認識結果TS11が選択され、第2の認識対象区間では、第2の音声データd2の認識結果TS22が選択され、第mの認識対象区間では、第nの音声データdnの認識結果TSnmが選択されるといったふうに、それぞれ認識対象区間毎に最適なものを選択する。そして、認識結果選択統合部114は、各認識対象区間毎に選択された認識結果を統合し、一連の音声データの認識結果Tとして出力することができる。なお、本実施形態では、認識対象区間毎に最適なものを選択しているが、これに限定されない。1発話区間よりも短い単位、たとえば、単語レベル等で認識結果を選択することもできる。
認識結果選択統合部114における認識結果の選択方法として、様々なものが考えられる。一例として、ROVER法(ジェイ. ジー. フィスカス(J. G. Fiscus)著、「ア ポストプロセッシング システム トゥ イールド リドゥースド ワード エラー レート:ローバー(A post-processing system to yield reduced word error rates: Recognizer Output Voting Error Reduction:ROVER)」、(米国)、プロシーディングス アイトリプルイー(インスティテュート オブ エレクトリカル アンド エレクトロニクス エンジニアズ) ワークショップ オン オートマティック スピーチ リコグニション アンド アンダスタンディング(Proceedings IEEE (Institute of Electrical and Electronics Engineers) Workshop on Automatic Speech Recognition and Understanding(ASRU))、1997年、p. 347−354)を用いることが考えられる。
すなわち、音声認識結果のテキストデータをそれぞれ比較し、同一の結果がより多く得られたもの、すなわち、複数の認識結果の中での同様な結果がより多く得られているものを選択する多数決を行い、出力認識結果列を決定する。あるいは、音響スコアや言語スコア、信頼度などの認識結果とともに得られる情報を用いることも可能である。すなわち、前記音声認識結果を多数決する際に、音声認識結果に対する重み付けとして信頼度等の認識結果情報を用いることが考えられる。さらに、音声認識結果の認識結果情報の閾値を基準として認識結果の採用不採用を決定したりすることも考えられる。また、これらを組み合わせてもよい。
本発明の音声認識システムでは、各音声入力部10の入力条件は、認識結果の選択条件には含まれない。入力条件に関わらず、認識結果から得られる情報のみを用いて比較し、最適なものを選択することで、音声認識結果を精度よく保つことができる。
認識結果選択統合部114の認識結果Tは、たとえば、テキストデータとして出力され、図示されない記憶部、または記録媒体に記録され、ユーザに提供されることとなる。
本発明の音声認識システムは、SaaS(Software As A Service)型のサービスとして、ユーザに提供することもできる。SaaS型システムの場合、ネットワークを介して、ユーザ端末からウェブページを参照することでユーザに認識結果を閲覧可能に提供することができる。さらに、必要に応じてダウンロードしたり、あるいは、ユーザが指定した所定のメールアドレスに配信したりすることで、ユーザに認識結果を提供することができる。これらの提供方法も特に限定されるものではなく、様々な態様が考えられる。
上述したように、本実施形態の音声認識装置110は、コンピュータにより実現することができる。
本実施形態のコンピュータプログラムは、音声認識装置110を実現させるためのコンピュータに、異なる収録条件で入力した複数の音声データをそれぞれ音声認識する手順と、音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する手順と、を実行させるように記述されている。
本実施形態のコンピュータプログラムは、音声認識装置110を実現させるためのコンピュータに、異なる収録条件で入力した複数の音声データをそれぞれ音声認識する手順と、音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する手順と、を実行させるように記述されている。
さらに、本実施形態のコンピュータプログラムは、音声認識装置110を実現されるためのコンピュータに、異なる収録条件で入力した複数の一連の前記音声データの入力を受け付け、複数の一連の音声データについて、それぞれ各発話区間を検出する手順、複数の一連の音声データ間で、同じ発話を含むように認識対象区間を調整する手順、調整された複数の一連の音声データの同じ発話を含む認識対象区間毎に、それぞれ音声認識処理を行い、同じ発話を含む認識対象区間に対応する複数の音声認識結果をそれぞれ出力する手順、出力された複数の一連の音声データの同じ発話を含む認識対象区間に対応する複数の音声認識結果毎に比較を行い、認識対象区間毎に最適なものを選択する手順、認識対象区間毎に選択された各発話区間の各音声認識結果を複数統合し、一連の音声データの音声認識結果として出力する手順を実行させるように記述されている。
本実施形態のコンピュータプログラムは、コンピュータで読み取り可能な記憶媒体に記録されてもよい。記録媒体は特に限定されず、様々に形態のものが考えられる。また、プログラムは、記録媒体からコンピュータのメモリにロードされてもよいし、ネットワークを通じてコンピュータにダウンロードされ、メモリにロードされてもよい。
上述のような構成において、本実施の形態の音声認識装置110によるデータ処理方法を以下に説明する。図3は、本実施形態の音声認識システムの動作の一例を示すフローチャートである。
本発明の実施の形態に係る音声認識装置110のデータ処理方法は、音声データを音声認識する音声認識装置のデータ処理方法であって、音声認識装置110が、異なる収録条件で入力した複数の音声データをそれぞれ音声認識し(ステップS105)、音声認識で得られた複数の音声認識結果を比較して、最適なものを選択する(ステップS107)。
より詳細には、まず、音声認識装置110の音声区間調整部112が複数の音声入力部10から、それぞれ異なる収録条件で集音された音声データd1、d2、・・・、dnをそれぞれ入力する(ステップS101)。そして、音声区間調整部112が、各音声データの発話区間を検出し、それぞれ同じ発話が含まれるように、発話区間を互いに調整する(ステップS103)。
そして、音声認識部102が、音声区間調整部112から出力された複数の音声データを、発話区間毎に認識処理する(ステップS105)。その結果、音声認識部102から複数の音声データの各発話区間に対応する認識結果がそれぞれ認識結果選択統合部114に出力される。そして、認識結果選択統合部114が、発話区間毎に、複数の音声認識結果を比較し、その中から最適なものを選択する(ステップS107)。そして、認識結果選択統合部114が、選択された発話区間毎の認識結果を統合し、一連の音声データの認識結果Tとして出力する(ステップS109)。
以上説明したように、本発明の実施の形態に係る音声認識システムによれば、複数の音声データの中に入力条件が悪いものがあっても、得られた複数の音声認識結果を比較して最適なものを選択することで、音声認識結果を精度よく保つことができる。また、音声入力部10は、どのような種類でも、どのような設定であってもよいが、互いに異なる設定にすることで、異なる設定の中から一つでも良好な結果が得られれば、その結果を採用することができることとなる。
また、本実施形態の音声認識システムによれば、一連の音声データの中から発話区間毎に最適なものを選択できるので、一連の音声データにおいて、途中で状況が変わった場合にも、途中から他の音声データに対する音声認識結果を採用することができるので、音声認識結果を精度よく保つことができる。たとえば、固定的に設置されているマイクから話者が移動して遠ざかってしまったり、話者自体が入れ替わったために声量が変わったり、また、一部のマイクが不調になったり、騒音が発生したりして、途中で状況が変わった場合にも、同様である。あるいは、固定的に設置されているマイクの位置に話者が戻って来たり、不調だったマイクが復旧したり、騒音が収まったりした場合にも、音声認識結果の精度をよく保つことができる。その理由は、途中から、最適な音声認識結果が得られたものに切り換えることができるからである。
すなわち、複数の異なる収録条件のマイクロフォンを複数準備し、状況に応じて、どのマイクロフォンの音声データによる認識結果がよいかを評価して選び、切り替えることができるので、状況に応じて、各マイクロフォンの特性を効果的に生かすことができるようになる。
また、本実施形態の音声認識システムでは、音声認識部102が複数の音声データについて、それぞれ同じ認識処理条件、すなわち、同じ言語モデルもしくは同じ音響モデルを用いて音声認識処理を行うことができる。その際、同じ認識処理条件で認識した結果を評価しているため、認識結果や音声認識処理によって得られる各種特徴量やスコアを用いて収録条件の異なる複数の音声データを比較して、簡便に優劣を付けることができる。
(第2の実施の形態)
図4は、本発明の実施の形態に係る音声認識システムの構成を示す機能ブロック図である。
本実施形態の音声認識システムは、上記実施の形態とは、認識結果選択統合部214において複数の認識結果の中から選択された認識結果の音声認識処理時の条件等を記録し、後続の音声データの音声区間調整や認識結果の選択条件としてフィードバックする点で相違する。
図4は、本発明の実施の形態に係る音声認識システムの構成を示す機能ブロック図である。
本実施形態の音声認識システムは、上記実施の形態とは、認識結果選択統合部214において複数の認識結果の中から選択された認識結果の音声認識処理時の条件等を記録し、後続の音声データの音声区間調整や認識結果の選択条件としてフィードバックする点で相違する。
さらに、本実施形態の音声認識システムにおいて、音声認識装置200は、複数の音声認識結果が得られた時の音声認識部102の音声認識処理条件を、音声認識部102が処理した音声認識処理単位(発話区間もしくは認識処理区間)毎にそれぞれ記憶する処理条件記憶部(条件記憶部210)と、認識結果選択統合部214で音声認識結果が選択されたとき、または選択されなかったときの、音声認識部102における音声認識処理条件を音声認識処理単位(発話区間もしくは認識処理区間)毎にそれぞれ処理条件記憶部(条件記憶部210)に記録する処理条件記録部と、をさらに備える。
認識結果選択統合部214は、処理条件記憶部(条件記憶部210)を参照し、音声認識処理条件を考慮して、音声認識結果を音声認識処理単位(発話区間)毎に選択する。
認識結果選択統合部214は、処理条件記憶部(条件記憶部210)を参照し、音声認識処理条件を考慮して、音声認識結果を音声認識処理単位(発話区間)毎に選択する。
本実施形態の音声認識システムにおいて、音声認識装置200は、複数の音声データd1、d2、...、dnの入力時の入力条件を発話区間(もしくは認識対象区間)毎にそれぞれ記憶する条件記憶部210と、認識結果選択統合部214で音声認識結果が選択されたとき、または選択されなかったときの、音声データの入力条件を発話区間(もしくは認識対象区間)毎にそれぞれ条件記憶部210に記憶する入力条件記録部(不図示)と、をさらに備えることもできる。
音声区間調整部212は、条件記憶部210を参照し、入力した複数の音声データの入力条件を考慮して、発話区間を調整してもよい。
ここで、入力条件は、たとえば、入力した音声データのパワーレベル、S/N比、他の音声データとのパワーレベルの差や比、または、他の音声データとのS/N比の差等を含むことができる。
ここで、入力条件は、たとえば、入力した音声データのパワーレベル、S/N比、他の音声データとのパワーレベルの差や比、または、他の音声データとのS/N比の差等を含むことができる。
具体的には、本実施形態の音声認識装置200は、上記実施形態の音声認識装置110と同じ音声認識部102と、さらに、条件記憶部210と、音声区間調整部212と、認識結果選択統合部214と、を備える。
条件記憶部210は、たとえば、図5に示すように、音声データ毎に、さらに、発話区間(もしくは認識対象区間)毎に、その音声データの、その発話区間(もしくは認識対象区間)の認識結果が採用されたか否かを示す選択フラグと、その音声データの、その発話区間の認識結果が選択されたときの音声認識処理条件と、音声入力部10の入力条件と、を含むことができる。音声認識処理条件として、その音声データの、その発話区間の認識結果(不図示)およびその音響スコア、言語スコア、信頼度等を含むことができる。また、音声入力部10の入力条件として、入力パワーレベルおよびS/N比等を含むことができる。
なお、各音声データの発話区間(もしくは認識対象区間)毎に、パワーやS/N比などの音響的な情報、分析時に得られた情報を、音声区間調整部212から条件記憶部210に送り記憶することができる。また、本実施形態では、発話区間(認識対象区間)毎に選択フラグを付与する構成としているが、上述したように、単語レベルなど、発話区間より短い単位でも選択が可能である。したがって、選択した単位、たとえば、単語レベルでフラグを付与し、条件記憶部210に記憶することもできる。
図4に戻り、認識結果選択統合部214は、条件記憶部210を参照し、条件記憶部210に記憶されている入力条件または音声認識処理条件を考慮して、認識結果を選択する。また、音声区間調整部212は、条件記憶部210を参照し、条件記憶部210に記憶されている入力条件を考慮して、発話区間を検出し、調整してもよい。
たとえば、条件記憶部210に記憶された当該音声区間より前の結果より、パワーがある一定値以下であった場合には音声区間とみなさないように閾値として用いることが考えられる。また、パワーやS/N比、さらに言語スコアや音響スコアなどの各種スコアから、複数の認識結果の選択処理を行っている注目の単語が選択されやすいか否かの推定を行うことができる。そして、認識結果選択統合部214において、その情報を重みとして加味して認識結果を選択することが考えられる。
また別の一例として、条件記憶部210に、当該発話区間(もしくは認識対象区間、単語、文節等)や認識結果が選択されたか棄却されたかを識別する識別モデルを記憶しておくことも考えられる。すなわち、予め入力音声とは異なる音声データを用いて(教師として与えて)ベースとなる識別モデルを学習し、条件記憶部210に記憶しておく。そして、音声が入力されたときに、音声区間調整部212が、条件記憶部210に記憶された識別モデルを用いて、入力された音声から得られる各種特徴量に基づいて、当該発話区間(もしくは認識対象区間、単語、文節等)を選択するか棄却するかの判定結果(もしくは識別モデルから得られるスコア)を取得する。そして、音声区間調整部212が、その結果を受けて音声区間の調整を行う。
さらに、認識結果選択統合部214が、条件記憶部210に記憶された識別モデルを用いて、得られる各種特徴量やスコアに基づいて、認識結果を選択するか棄却するかの判定結果(もしくは識別モデルから得られるスコア)を取得する。そして、認識結果選択統合部214は、その結果を用いて認識結果の選択および棄却を行う。なお、最終的な音声区間の調整結果や認識結果を追加することにより識別モデルを逐次更新することも考えられる。
ここでは、音声区間調整部212および認識結果選択統合部214が条件記憶部210を参照する構成としたが、これに限定されず、他の判別部(不図示)が、条件記憶部210を参照し、音声区間調整部212または認識結果選択統合部214が条件記憶部210に記録されている条件を考慮する必要があるか否かを判別する構成としてもよい。そして、必要がある場合に、音声区間調整部212または認識結果選択統合部214に必要な条件を通知する構成としてもよい。
上述したように、本実施形態の音声認識装置200は、コンピュータにより実現することができる。
本実施形態のコンピュータプログラムは、音声認識装置200を実現させるためのコンピュータに、上記実施形態のコンピュータプログラムの手順に加え、さらに、音声認識結果が選択されたとき、または選択されなかったときの、音声データの入力条件を発話区間(もしくは認識対象区間)毎にそれぞれ条件記憶部210に記録する手順、条件記憶部210を参照し、入力した複数の音声データの入力条件を考慮して、発話区間を調整する手順を実行させるように記述されている。
本実施形態のコンピュータプログラムは、音声認識装置200を実現させるためのコンピュータに、上記実施形態のコンピュータプログラムの手順に加え、さらに、音声認識結果が選択されたとき、または選択されなかったときの、音声データの入力条件を発話区間(もしくは認識対象区間)毎にそれぞれ条件記憶部210に記録する手順、条件記憶部210を参照し、入力した複数の音声データの入力条件を考慮して、発話区間を調整する手順を実行させるように記述されている。
また、本実施形態のコンピュータプログラムは、音声認識装置200を実現させるためのコンピュータに、さらに、音声認識結果が選択されたとき、または選択されなかったときの、音声認識部102における音声認識処理条件を認識対象区間毎にそれぞれ条件記憶部210に記録する手順、条件記憶部210を参照し、音声認識処理条件を考慮して、認識結果を認識対象区間毎に選択する手順を実行させるように記述されている。
このように構成された本実施形態の音声認識システムの動作について、以下に説明する。
図6は、本実施形態の音声認識システムの動作の一例を示すフローチャートである。
図6は、本実施形態の音声認識システムの動作の一例を示すフローチャートである。
本実施形態の音声認識システムにおいて、音声認識装置200は、図3の上記実施形態のフローチャートと同様なステップS101、ステップS105、およびステップS109に加え、さらに、ステップS203〜ステップS208を含む。
まず、音声認識装置200の音声区間調整部212が、複数の音声入力部10から、それぞれ異なる収録条件で集音された音声データd1、d2、・・・、dnをそれぞれ入力する(ステップS101)。そして、音声区間調整部212が、各音声データの発話区間を検出し、それぞれ同じ発話が含まれるように、発話区間を互いに調整する(ステップS203)。このとき、音声区間調整部212は、条件記憶部210を参照し、入力条件を考慮して、発話区間を検出および調整する。
そして、音声区間調整部212が、音声データ毎かつ発話区間(もしくは認識処理区間)毎に、入力条件を条件記憶部210に記録する(ステップS204)。そして、音声認識部102が、音声区間調整部212から出力された複数の音声データを、認識処理区間毎に認識処理する(ステップS105)。その結果、音声認識部102から複数の音声データの各認識処理区間に対応する認識結果がそれぞれ認識結果選択統合部214に出力される。そして、認識結果選択統合部214が、認識処理区間毎に、複数の音声認識結果を比較し、その中から最適なものを選択する(ステップS207)。このとき、認識結果選択統合部214は、条件記憶部210を参照し、入力条件または音声認識処理条件を考慮して、認識結果を選択する。
そして、認識結果選択統合部214が、各音声データの各発話区間の音声認識処理条件と、その区間の音声データが採用されたか否かを示す選択フラグとを条件記憶部210に追記する(ステップS208)。そして、認識結果選択統合部214が、選択された認識処理区間毎の認識結果を統合し、一連の音声データの認識結果Tとして出力する(ステップS109)。
以上、説明したように、本実施形態の音声認識システムによれば、上記実施形態と同様な効果を奏するとともに、音声認識結果を選択する際に、過去に選択されたまたは選択されなかった音声データの音声認識処理条件などを考慮するので、そのとき、その会場の状況に応じて異なる収録条件の傾向を考慮して処理を行うことができ、認識精度を向上させることが可能になる。
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2010年3月29日に出願された日本出願特願2010−076195号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
Claims (19)
- 話者の発話音声を異なる収録条件で入力した複数の音声データをそれぞれ音声認識する音声認識手段と、
前記音声認識手段で音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する認識結果選択手段と、を備える音声認識装置。 - 請求項1に記載の音声認識装置において、
複数の一連の前記音声データの入力を受け付け、複数の一連の前記音声データについて、それぞれ各発話区間を検出し、複数の一連の前記音声データ間で、同じ発話を含むように発話区間を調整する音声区間調整手段をさらに備え、
前記音声認識手段は、前記音声区間調整手段により調整された複数の一連の前記音声データの前記同じ発話について、それぞれ音声認識処理を行い、前記同じ発話に対応する複数の音声認識結果をそれぞれ出力し、
前記認識結果選択手段は、前記音声認識手段から出力された複数の一連の前記音声データの前記同じ発話に対応する複数の前記音声認識結果毎に比較、選択を行い、統合して1つの最適な音声認識結果として出力する音声認識装置。 - 請求項1または2に記載の音声認識装置において、
前記認識結果選択手段は、複数の前記音声認識結果を比較して、同様な結果がより多く得られているものを選択する音声認識装置。 - 請求項1乃至3いずれかに記載の音声認識装置において、
前記認識結果選択手段は、前記音声認識手段にて前記音声データが音声認識処理された時に得られる認識結果情報に基づいて、最適なものを選択する音声認識装置。 - 請求項4に記載の音声認識装置において、
前記認識結果情報は、音響スコア、言語スコア、または信頼度である音声認識装置。 - 請求項5に記載の音声認識装置において、
前記認識結果選択手段が同様な結果がより多く得られているものを選択する多数決を行うとき、前記音声認識結果に対する重み付けとして前記認識結果情報を用いる音声認識装置。 - 請求項5または6に記載の音声認識装置において、
前記認識結果選択手段が同様な結果がより多く得られているものを選択する多数決を行うとき、前記認識結果情報の閾値により、前記音声認識結果を採用するか否かを決定する音声認識装置。 - 請求項2乃至7いずれかに記載の音声認識装置において、
複数の前記音声認識結果が得られた時の前記音声認識手段の音声認識処理条件を、前記音声認識手段が処理した音声認識処理単位毎にそれぞれ記憶する処理条件記憶部と、
前記認識結果選択手段で前記音声認識結果が選択されたとき、または選択されなかったときの、前記音声認識手段における音声認識処理条件を前記音声認識処理単位毎にそれぞれ前記処理条件記憶部に記録する処理条件記録手段と、をさらに備え、
前記認識結果選択手段は、前記処理条件記憶部を参照し、前記音声認識処理条件を考慮して、前記音声認識結果を前記音声認識処理単位毎に選択する音声認識装置。 - 請求項1乃至8いずれかに記載の音声認識装置において、
前記音声認識手段は、複数の前記音声データに対して、同じ音声認識処理条件で音声認識処理を行う音声認識装置。 - 請求項1乃至9いずれかに記載の音声認識装置において、
複数の前記音声データは、複数の音声入力装置でそれぞれ集音され、入力される音声認識装置。 - 異なる収録条件でそれぞれ音声を入力する複数の音声入力手段と、
前記音声入力手段から入力した複数の音声データをそれぞれ音声認識する音声認識手段と、
前記音声認識手段で音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する認識結果選択手段と、を備える音声認識システム。 - 音声データを音声認識する音声認識装置のデータ処理方法であって、
前記音声認識装置が、
異なる収録条件で入力した複数の音声データをそれぞれ音声認識し、
音声認識で得られた複数の音声認識結果を比較して、最適なものを選択する音声認識装置のデータ処理方法。 - 請求項12に記載の音声認識装置のデータ処理方法において、
前記音声認識装置が、
複数の一連の前記音声データの入力を受け付け、複数の一連の前記音声データについて、それぞれ各発話区間を検出し、複数の一連の前記音声データ間で、同じ発話を含むように発話区間を調整し、
調整された複数の一連の前記音声データの前記同じ発話について、それぞれ音声認識処理を行い、前記同じ発話に対応する複数の音声認識結果をそれぞれ出力し、
複数の一連の前記音声データの前記同じ発話に対応する複数の前記音声認識結果毎に比較、選択を行い、統合して1つの最適な音声認識結果として出力する音声認識装置のデータ処理方法。 - 請求項12または13に記載の音声認識装置のデータ処理方法において、
前記音声認識装置が、
前記音声データが音声認識処理された時に得られる認識結果情報に基づいて、最適なものを選択する音声認識装置のデータ処理方法。 - 請求項12乃至14いずれかに記載の音声認識装置のデータ処理方法において、
前記音声認識装置が、
複数の前記音声認識結果を比較して、同様な結果がより多く得られているものを選択する音声認識装置のデータ処理方法。 - 請求項13乃至15いずれかに記載の音声認識装置のデータ処理方法において、
前記音声認識装置が、
複数の前記音声認識結果が得られた時の前記音声認識手段の音声認識処理条件を、前記音声認識手段が処理した音声認識処理単位毎にそれぞれ記憶する処理条件記憶部を備え、
前記音声認識結果が選択されたとき、または選択されなかったときの、前記音声認識時の音声認識処理条件を前記音声認識処理単位毎にそれぞれ前記処理条件記憶部に記憶し、
前記処理条件記憶部を参照し、前記音声認識処理条件を考慮して、前記音声認識結果を前記音声認識処理単位毎に選択する音声認識装置のデータ処理方法。 - 請求項12乃至16いずれかに記載の音声認識装置のデータ処理方法において、
前記音声認識装置が、複数の前記音声データに対して、同じ音声認識処理条件で音声認識処理を行う音声認識装置のデータ処理方法。 - 請求項12乃至17いずれかに記載の音声認識装置のデータ処理方法において、
複数の前記音声データは、複数の音声入力装置でそれぞれ集音され、入力される音声認識装置のデータ処理方法。 - 音声データを音声認識する音声認識装置を実現するコンピュータプログラムであって、
異なる収録条件で入力した複数の音声データをそれぞれ音声認識する手順と、
音声認識して得られた複数の音声認識結果を比較して、最適なものを選択する手順と、をコンピュータに実行させるためのコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010076195 | 2010-03-29 | ||
JP2010076195 | 2010-03-29 | ||
PCT/JP2011/001826 WO2011121978A1 (ja) | 2010-03-29 | 2011-03-28 | 音声認識システム、装置、方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2011121978A1 true JPWO2011121978A1 (ja) | 2013-07-04 |
Family
ID=44711741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012508079A Pending JPWO2011121978A1 (ja) | 2010-03-29 | 2011-03-28 | 音声認識システム、装置、方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2011121978A1 (ja) |
WO (1) | WO2011121978A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5957269B2 (ja) * | 2012-04-09 | 2016-07-27 | クラリオン株式会社 | 音声認識サーバ統合装置および音声認識サーバ統合方法 |
KR101736109B1 (ko) | 2015-08-20 | 2017-05-16 | 현대자동차주식회사 | 음성인식 장치, 이를 포함하는 차량, 및 그 제어방법 |
CN109473096B (zh) * | 2017-09-08 | 2023-07-18 | 北京君林科技股份有限公司 | 一种智能语音设备及其控制方法 |
JP2021156922A (ja) * | 2020-03-25 | 2021-10-07 | 株式会社日立情報通信エンジニアリング | 音声認識方法および音声認識プログラム |
JP2021156921A (ja) * | 2020-03-25 | 2021-10-07 | 株式会社日立情報通信エンジニアリング | 音声認識方法および音声認識プログラム |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6129896A (ja) * | 1984-07-20 | 1986-02-10 | 日本電信電話株式会社 | 単語音声認識装置 |
JPH02178699A (ja) * | 1988-12-28 | 1990-07-11 | Nec Corp | 音声認識装置 |
JPH0683388A (ja) * | 1992-09-04 | 1994-03-25 | Fujitsu Ten Ltd | 音声認識装置 |
JPH10232691A (ja) * | 1997-02-20 | 1998-09-02 | Nec Robotics Eng Ltd | 複数マイク使用による認識結果選択機能付き音声認識装 置 |
JP2000148185A (ja) * | 1998-11-13 | 2000-05-26 | Matsushita Electric Ind Co Ltd | 認識装置及び認識方法 |
JP2002351893A (ja) * | 2001-05-23 | 2002-12-06 | Nec Corp | 情報記録・検索装置、方法、プログラム、および記録媒体 |
JP2003140691A (ja) * | 2001-11-07 | 2003-05-16 | Hitachi Ltd | 音声認識装置 |
WO2008096582A1 (ja) * | 2007-02-06 | 2008-08-14 | Nec Corporation | 認識器重み学習装置および音声認識装置、ならびに、システム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008250059A (ja) * | 2007-03-30 | 2008-10-16 | Advanced Telecommunication Research Institute International | 音声認識装置、音声認識システムおよび音声認識方法 |
-
2011
- 2011-03-28 JP JP2012508079A patent/JPWO2011121978A1/ja active Pending
- 2011-03-28 WO PCT/JP2011/001826 patent/WO2011121978A1/ja active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6129896A (ja) * | 1984-07-20 | 1986-02-10 | 日本電信電話株式会社 | 単語音声認識装置 |
JPH02178699A (ja) * | 1988-12-28 | 1990-07-11 | Nec Corp | 音声認識装置 |
JPH0683388A (ja) * | 1992-09-04 | 1994-03-25 | Fujitsu Ten Ltd | 音声認識装置 |
JPH10232691A (ja) * | 1997-02-20 | 1998-09-02 | Nec Robotics Eng Ltd | 複数マイク使用による認識結果選択機能付き音声認識装 置 |
JP2000148185A (ja) * | 1998-11-13 | 2000-05-26 | Matsushita Electric Ind Co Ltd | 認識装置及び認識方法 |
JP2002351893A (ja) * | 2001-05-23 | 2002-12-06 | Nec Corp | 情報記録・検索装置、方法、プログラム、および記録媒体 |
JP2003140691A (ja) * | 2001-11-07 | 2003-05-16 | Hitachi Ltd | 音声認識装置 |
WO2008096582A1 (ja) * | 2007-02-06 | 2008-08-14 | Nec Corporation | 認識器重み学習装置および音声認識装置、ならびに、システム |
Also Published As
Publication number | Publication date |
---|---|
WO2011121978A1 (ja) | 2011-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10943606B2 (en) | Context-based detection of end-point of utterance | |
US9354687B2 (en) | Methods and apparatus for unsupervised wakeup with time-correlated acoustic events | |
JP2023041843A (ja) | 音声区間検出装置、音声区間検出方法及びプログラム | |
US9514747B1 (en) | Reducing speech recognition latency | |
JP6812843B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
US20180182396A1 (en) | Multi-speaker speech recognition correction system | |
CN112074901A (zh) | 语音识别登入 | |
US8751230B2 (en) | Method and device for generating vocabulary entry from acoustic data | |
JP7171532B2 (ja) | 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法 | |
KR20170032096A (ko) | 전자장치, 전자장치의 구동방법, 음성인식장치, 음성인식장치의 구동 방법 및 컴퓨터 판독가능 기록매체 | |
US9335966B2 (en) | Methods and apparatus for unsupervised wakeup | |
US20130173264A1 (en) | Methods, apparatuses and computer program products for implementing automatic speech recognition and sentiment detection on a device | |
US9031841B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
US9460714B2 (en) | Speech processing apparatus and method | |
WO2011121978A1 (ja) | 音声認識システム、装置、方法、およびプログラム | |
CN104240718A (zh) | 转录支持设备和方法 | |
TW202223877A (zh) | 用戶話音輪廓管理 | |
US11580994B2 (en) | Speech recognition | |
JP2020013034A (ja) | 音声認識装置及び音声認識方法 | |
CN109155128B (zh) | 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法 | |
KR101283271B1 (ko) | 어학 학습 장치 및 어학 학습 방법 | |
EP3195314B1 (en) | Methods and apparatus for unsupervised wakeup | |
US20190147887A1 (en) | Audio processing | |
KR20120046627A (ko) | 화자 적응 방법 및 장치 | |
KR20200041642A (ko) | 차량용 음성인식 시스템 및 그 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140902 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141031 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150317 |