WO2024111387A1 - 処理装置、処理方法、及び記録媒体 - Google Patents
処理装置、処理方法、及び記録媒体 Download PDFInfo
- Publication number
- WO2024111387A1 WO2024111387A1 PCT/JP2023/039839 JP2023039839W WO2024111387A1 WO 2024111387 A1 WO2024111387 A1 WO 2024111387A1 JP 2023039839 W JP2023039839 W JP 2023039839W WO 2024111387 A1 WO2024111387 A1 WO 2024111387A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- data
- text data
- speech
- learning
- recognition result
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 167
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000012937 correction Methods 0.000 claims description 71
- 238000000034 method Methods 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000002093 peripheral effect Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本発明は、認識対象音声データを取得する取得部(11)と、音声認識モデルに認識対象音声データを入力し、認識対象音声データの内容を示す認識結果テキストデータを取得する認識部(12)と、認識結果テキストデータを出力する出力部(13)と、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けるユーザ入力受付部(16)と、訂正テキストデータの内容を発話する合成音データを生成する音データ生成部(15)と、訂正テキストデータと合成音データとを対応付けた学習データで、音声認識モデルを再学習する学習部(14)と、を有する処理装置(10)を提供する。
Description
本発明は、処理装置、処理方法、及びプログラムに関する。
本発明に関連する技術が、特許文献1及び2に開示されている。
特許文献1には、入力音声データに対して音声認識処理を行い、その結果であるテキストデータを表示し、そのテキストデータの中から誤り箇所を指定するとともに正しい内容に訂正するユーザ入力を受付ける技術が開示されている。
また、特許文献1には、訂正後のテキストデータと入力音声データとに基づき音声認識モデルを再学習し、再学習した音声認識モデルに入力音声データを再度入力して音声認識処理を行い、その結果であるテキストデータを表示する技術が開示されている。
特許文献2には、入力音声データに対して音声認識処理を行い、その結果であるテキストデータを表示し、そのテキストデータに含まれる誤り箇所の正しい内容である正解文字列のユーザ入力を受付け、当該正解文字列から音声データを生成し、生成した音声データを用いて上記テキストデータの中から上記誤り箇所を特定する技術が開示されている。
会議議事録作成等の各種用途で、音声認識処理が利用されている。しかし、音声認識処理の精度は100%でないため、音声認識処理で得られたテキストデータに含まれる誤り箇所の修正作業が必要となる。
特許文献1に記載の技術の場合、音声認識結果であるテキストデータの中から誤り箇所を指定する入力、及びその誤り箇所を正しい内容に訂正する入力をユーザから受付ける必要がある。テキストデータの中から誤り箇所を指定する入力を面倒に感じるユーザもいる。
また、特許文献1に記載の技術の場合、入力音声データを学習データとして音声認識モデルを再学習する。この場合、入力音声データの中から誤り箇所の音声データを切り出す等の処理が必要になり、多くの時間を要する。結果、再学習後の認識結果が得られるまでのユーザの待ち時間が長くなるという問題がある。
特許文献2に記載の技術では、今回得られた認識結果自体を修正できるものの、音声認識モデルの修正はなされない。このため、今後も同様の認識ミスが生じ得る。結果、ユーザは、何度もその修正処理を繰り返さなければならなくなる。
本発明の目的の一例は、上述した問題を鑑み、音声認識処理で得られたテキストデータに含まれる誤り箇所の修正作業の作業性を向上するという課題を解決する処理装置、処理方法、及びプログラムを提供することにある。
本発明の一態様によれば、
認識対象音声データを取得する取得手段と、
音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得する認識手段と、
前記認識結果テキストデータを出力する出力手段と、
前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けるユーザ入力受付手段と、
前記訂正テキストデータの内容を発話する合成音データを生成する音データ生成手段と、
前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する学習手段と、
を有する処理装置が提供される。
認識対象音声データを取得する取得手段と、
音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得する認識手段と、
前記認識結果テキストデータを出力する出力手段と、
前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けるユーザ入力受付手段と、
前記訂正テキストデータの内容を発話する合成音データを生成する音データ生成手段と、
前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する学習手段と、
を有する処理装置が提供される。
本発明の一態様によれば、
1つ以上のコンピュータが、
認識対象音声データを取得し、
音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得し、
前記認識結果テキストデータを出力し、
前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付け、
前記訂正テキストデータの内容を発話する合成音データを生成し、
前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する、
処理方法が提供される。
1つ以上のコンピュータが、
認識対象音声データを取得し、
音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得し、
前記認識結果テキストデータを出力し、
前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付け、
前記訂正テキストデータの内容を発話する合成音データを生成し、
前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する、
処理方法が提供される。
本発明の一態様によれば、
コンピュータを、
認識対象音声データを取得する取得手段、
音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得する認識手段、
前記認識結果テキストデータを出力する出力手段、
前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けるユーザ入力受付手段、
前記訂正テキストデータの内容を発話する合成音データを生成する音データ生成手段、
前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する学習手段、
として機能させるプログラムが提供される。
コンピュータを、
認識対象音声データを取得する取得手段、
音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得する認識手段、
前記認識結果テキストデータを出力する出力手段、
前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けるユーザ入力受付手段、
前記訂正テキストデータの内容を発話する合成音データを生成する音データ生成手段、
前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する学習手段、
として機能させるプログラムが提供される。
本発明の一態様によれば、音声認識処理で得られたテキストデータに含まれる誤り箇所の修正作業の作業性を向上するという課題を解決する処理装置、処理方法、及びプログラムが実現される。
上述した目的、及びその他の目的、特徴及び利点は、以下に述べる公的な実施の形態、及びそれに付随する以下の図面によってさらに明らかになる。
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
<第1の実施形態>
図1は、第1の実施形態に係る処理装置10の概要を示す機能ブロック図である。処理装置10は、取得部11と、認識部12と、出力部13と、学習部14と、音データ生成部15と、ユーザ入力受付部16とを有する。
図1は、第1の実施形態に係る処理装置10の概要を示す機能ブロック図である。処理装置10は、取得部11と、認識部12と、出力部13と、学習部14と、音データ生成部15と、ユーザ入力受付部16とを有する。
取得部11は、認識対象音声データを取得する。認識部12は、音声認識モデルに認識対象音声データを入力し、認識対象音声データの内容を示す認識結果テキストデータを取得する。出力部13は、認識結果テキストデータを出力する。ユーザ入力受付部16は、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付ける。音データ生成部15は、訂正テキストデータの内容を発話する合成音データを生成する。学習部14は、訂正テキストデータと合成音データとを対応付けた学習データで、音声認識モデルを再学習する。
このような構成を備える処理装置10によれば、ユーザは、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータを入力すればよく、認識結果テキストデータの中から誤認識箇所を指定する入力を行う必要がない。
また、本実施形態の処理装置10によれば、音声認識モデル自体が正しく再学習されるので、以降、同様の誤認識が起きにくくなる。このため、同様の誤認識に対する修正作業をユーザが繰り返し行う不都合を軽減できる。
また、本実施形態の処理装置10によれば、訂正テキストデータから合成音データを生成し、この合成音データを学習データとして音声認識モデルを再学習する。このため、認識対象音声データから所定箇所を特定し、そこを切り出して学習データとする場合に比べて、再学習が完了するまでの時間を短縮できる。結果、再学習後の認識結果が得られるまでのユーザの待ち時間を短縮することができる。
このように、本実施形態の処理装置10によれば、音声認識処理で得られたテキストデータに含まれる誤り箇所の修正作業の作業性を向上することができる。
<第2の実施形態>
「概要」
第2の実施形態の処理装置10は、第1の実施形態の処理装置10をより具体化したものである。
「概要」
第2の実施形態の処理装置10は、第1の実施形態の処理装置10をより具体化したものである。
図2に示すように、処理装置10は、認識対象音声データを取得すると、音声認識モデルに認識対象音声データを入力し、認識対象音声データの内容を示す認識結果テキストデータを取得する。そして、処理装置10は、認識結果テキストデータを出力する。処理装置10は、例えば図示するような出力画面を生成し、ユーザに向けて出力する。図示する出力画面の「音声認識結果」の欄に、認識結果テキストデータが表示されている。
その後、処理装置10は、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付ける。図示する例の場合、ユーザは、出力画面の「訂正内容」の欄に、誤認識箇所の正しい内容を示す訂正テキストデータを入力する。図示する音声認識結果では、前後の文脈から、「タイ風」、「会場」の2箇所が誤認識であることが分かる。ユーザは、図示するように、その2つの誤認識箇所各々の正しい内容である「台風」、「海上」を訂正内容の欄に入力する。なお、ユーザは、音声認識結果の欄に表示された認識結果テキストデータにおいて、誤認識箇所(タイ風、会場)を指定する入力を行う必要はない。また、ユーザは、訂正内容の欄に入力された2つの訂正テキストデータが、音声認識結果の欄に表示された認識結果テキストデータのどの誤認識箇所に対応する内容なのかを指定する入力を行う必要もない。
その後、処理装置10は、訂正内容の欄に入力された訂正テキストデータの内容を発話する合成音データを生成する。そして、処理装置10は、訂正テキストデータと合成音データを対応付けた学習データで、音声認識モデルを再学習する。この誤認識箇所に特化した再学習により、誤認識箇所を正しく認識できるようになることが期待される。
再学習が終了した後、ユーザは、処理装置10を操作し、再学習された音声認識モデル、すなわち、誤認識箇所を正しく認識できるようになった音声認識モデルを用いた音声認識処理を、認識対象音声データに対して再度実行させることができる。結果、ユーザは、誤認識箇所が正しく訂正された音声認識結果を取得することができる。なお、ここでは、ユーザによる手動操作により、再学習後の音声認識モデルを用いた音声認識処理を実行する例を説明したが、他の実施形態で、再学習後の音声認識モデルを用いた音声認識処理を自動で実行する例を説明する。
以下、処理装置10の構成をより詳細に説明する。
「ハードウエア構成」
次に、処理装置10のハードウエア構成の一例を説明する。処理装置10の各機能部は、ハードウエアとソフトウエアの任意の組合せによって実現される。その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。ソフトウエアは、予め装置を出荷する段階から格納されているプログラムや、CD(Compact Disc)等の記録媒体やインターネット上のサーバ等からダウンロードされたプログラム等を含む。
次に、処理装置10のハードウエア構成の一例を説明する。処理装置10の各機能部は、ハードウエアとソフトウエアの任意の組合せによって実現される。その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。ソフトウエアは、予め装置を出荷する段階から格納されているプログラムや、CD(Compact Disc)等の記録媒体やインターネット上のサーバ等からダウンロードされたプログラム等を含む。
図3は、処理装置10のハードウエア構成を例示するブロック図である。図3に示すように、処理装置10は、プロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。周辺回路4Aには、様々なモジュールが含まれる。処理装置10は周辺回路4Aを有さなくてもよい。なお、処理装置10は物理的及び/又は論理的に分かれた複数の装置で構成されてもよい。この場合、複数の装置各々が上記ハードウエア構成を備えることができる。
バス5Aは、プロセッサ1A、メモリ2A、周辺回路4A及び入出力インターフェイス3Aが相互にデータを送受信するためのデータ伝送路である。プロセッサ1Aは、例えばCPU、GPU(Graphics Processing Unit)等の演算処理装置である。メモリ2Aは、例えばRAM(Random Access Memory)やROM(Read Only Memory)等のメモリである。入出力インターフェイス3Aは、入力装置、外部装置、外部サーバ、外部センサ、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイス等を含む。また、入出力インターフェイス3Aはインターネット等の通信ネットワークに接続するためのインターフェイスを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ1Aは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。
「機能構成」
次に、第2の実施形態の処理装置10の機能構成を詳細に説明する。図1に、処理装置10の機能ブロック図の一例を示す。図示するように、処理装置10は、取得部11と、認識部12と、出力部13と、学習部14と、音データ生成部15と、ユーザ入力受付部16とを有する。
次に、第2の実施形態の処理装置10の機能構成を詳細に説明する。図1に、処理装置10の機能ブロック図の一例を示す。図示するように、処理装置10は、取得部11と、認識部12と、出力部13と、学習部14と、音データ生成部15と、ユーザ入力受付部16とを有する。
取得部11は、認識対象音声データを取得する。認識対象音声データは、音声認識処理の対象となる音声データである。例えば、会議、通話、打ち合わせ、会話等の各種音声を録音した音声データが、認識対象音声データとなる。
実施形態において「取得」とは、自装置が他の装置や記憶媒体に格納されているデータ又は情報を取りに行くこと(能動的な取得)、及び、自装置に他の装置から出力されるデータ又は情報を入力すること(受動的な取得)の少なくとも一方を含む。能動的な取得の例は、他の装置にリクエスト又は問い合わせしてその返信を受信すること、及び、他の装置や記憶媒体にアクセスして読み出すこと等がある。また、受動的な取得の例は、配信(又は、送信、プッシュ通知等)される情報を受信すること等がある。さらに、「取得」とは、受信したデータ又は情報の中から選択して取得すること、又は、配信されたデータ又は情報を選択して受信することであってもよい。
認識部12は、音声認識モデルに認識対象音声データを入力し、認識対象音声データの内容を示す認識結果テキストデータを取得する。
音声認識モデルは、音声データの入力を受付けると、その音声データに対して音声認識処理を実行し、認識結果としてその音声データの内容(発話内容)を示す認識結果テキストデータを出力するよう構成されている。音声認識モデルは、予め、テキストデータと、そのテキストデータを発話する音声データとを対応付けた学習データに基づき学習済みのモデルである。学習の手法は特段制限されず、周知のあらゆる手法を採用できる。
出力部13は、認識結果テキストデータを出力する。例えば、出力部13は、図2に示すような出力画面を生成し、出力する。
図2に示す出力画面は、音声波形を表示する欄と、音声認識結果の欄と、訂正内容の欄とを有する。
出力部13は、音声波形を表示する欄に、認識対象音声データの音声波形を表示する。
また、出力部13は、音声認識結果の欄に、認識結果テキストデータを表示する。
また、出力部13は、訂正内容の欄に、ユーザが入力した文字列、具体的には、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータを表示する。当該ユーザ入力は、以下で説明するユーザ入力受付部16により実現される。
図2の出力画面の場合、「学習」ボタンが押下されると、その時点で訂正内容の欄に入力されている訂正テキストデータに基づく音声認識モデルの再学習が実行される。再学習は、以下で説明する学習部14及び音データ生成部15により実現される。
なお、出力画面はその他の構成をさらに備えてもよい。例えば、「再生」ボタンを備えてもよい。「再生」ボタンが押下されると、認識対象音声データが再生される。この場合、ユーザは、音声を視聴しながら認識結果テキストデータを確認し、誤認識箇所を検出できる。
その他、出力画面は再生箇所を指定するUI(user interface)部品を有してもよい。認識対象音声データが長い場合に当該UI部品があると利便性がよい。このようなUI部品は、例えばスライダーや、冒頭からの経過時間を直接入力可能なUI部品等が例示される。例えば、ユーザは、認識対象音声データの中の音声認識結果を確認したい箇所を再生箇所として指定する。当該指定に応じて、音声認識結果の欄には、その箇所の音声認識結果が表示される。また、上記「再生」ボタンの押下に応じて、認識対象音声データの中の指定された箇所が再生される。
上述のような出力画面の出力形態は様々である。例えば、出力部13は、処理装置10が備えるディスプレイに出力画面を表示してもよい。その他、処理装置10はサーバであってもよい。この場合、処理装置10はクライアント端末から認識対象音声データの入力を受付け、出力画面をそのクライアント端末に返信する。そして、クライアント端末のディスプレイに出力画面が表示される。
図1に戻り、ユーザ入力受付部16は、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付ける。訂正テキストデータは単語でもよいし、文章でもよい。なお、ユーザ入力受付部16は、認識結果テキストデータに含まれる誤認識箇所を指定する入力を受付けない。
訂正テキストデータのユーザ入力を受付ける手段は様々であるが、以下一例を説明する。ユーザ入力受付部16は、例えば図2に示す出力画面の訂正内容の欄を介して、訂正テキストデータのユーザ入力を受付けることができる。ユーザは、出力画面の音声認識結果の欄に表示された認識結果テキストデータにおいて、誤認識箇所がないか確認する。この時、ユーザは、認識対象音声データを再生してもよい。そして、誤認識箇所を見つけると、ユーザは、誤認識箇所の正しい内容を示す訂正テキストデータを訂正内容の欄に入力する。
図2の例の場合、前後の文脈から、「タイ風」、「会場」の2箇所が誤認識であることが分かる。ユーザは、図示するように、その2つの誤認識箇所各々の正しい内容である「台風」、「海上」を訂正内容の欄に入力する。なお、ユーザは、音声認識結果の欄に表示された認識結果テキストデータにおいて、誤認識箇所(タイ風、会場)を指定する入力を行う必要はない。また、ユーザは、訂正内容の欄に入力された2つの訂正テキストデータが、音声認識結果の欄に表示された認識結果テキストデータのどの誤認識箇所に対応する内容なのかを指定する入力を行う必要もない。
また、訂正テキストデータは、誤認識箇所の正しい内容を少なくとも含んでいればよく、その内容にはある程度の自由度がある。例えば、「タイ風」という誤認識に対して入力される訂正テキストデータは、「台風」であってもよいし、「現在台風は鹿児島の南西の海上を北進しています。」という認識結果テキストデータで示される文章であってもよい。その他、「台風のシーズン」、「台風が北進中です。」等のように、誤認識箇所(タイ風)の正しい内容(台風)を含む表現や文章をユーザが自由に作成し、訂正テキストデータとして入力してもよい。
図1に戻り、音データ生成部15は、訂正テキストデータの内容を発話する合成音データを生成する。合成音データの生成手法は特段制限されず、周知のあらゆる技術を利用することができる。訂正テキストデータに含まれる漢字の読みは、辞書データに基づき特定されてもよいし、訂正テキストデータ入力時のユーザ入力の内容に基づき特定されてもよいし、その他の手法で特定されてもよい。
学習部14は、訂正テキストデータと合成音データとを対応付けた学習データで、音声認識モデルを再学習する。再学習の手法は特段制限されず、周知のあらゆる手法を採用できる。この誤認識箇所に特化した再学習により、誤認識箇所を正しく認識できるようになることが期待される。
次に、図4のフローチャートを用いて、処理装置10の処理の流れの一例を説明する。
まず、処理装置10は、認識対象音声データを取得すると(S10)、その認識対象音声データに対して音声認識処理を実行する(S11)。具体的には、処理装置10は、予め用意された音声認識モデルに認識対象音声データを入力し、認識対象音声データの内容を示す認識結果テキストデータを取得する。
次いで、処理装置10は、認識対象音声データに対する音声認識処理の結果を示す認識結果テキストデータを出力する(S12)。例えば、処理装置10は、図2に示す出力画面を出力する。
その後、処理装置10は、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けると(S13のYes)、訂正テキストデータの内容を発話する合成音データを生成する(S14)。そして、処理装置10は、訂正テキストデータと合成音データとを対応付けた学習データで、音声認識モデルを再学習する(S15)。
再学習が終了した後、ユーザは、処理装置10を操作し、再学習された音声認識モデル、すなわち、誤認識箇所を正しく認識できるようになった音声認識モデルを用いた音声認識処理を、認識対象音声データに対して再度実行させることができる。結果、ユーザは、誤認識箇所が正しく訂正された音声認識結果を取得することができる。
ここで、S13でYesと判断する具体例、すなわち「合成音の生成(S14)」及び「再学習(S15)」を開始するトリガについて説明する。
一例として、図2に示すように、出力画面に「学習」ボタンが設けられていてもよい。この場合、処理装置10は、訂正内容の欄に訂正テキストデータが入力されている状態で「学習」ボタンが押下されると、「訂正テキストデータのユーザ入力を受付けた(S13のYes)」と判断することができる。この場合、その時点で訂正内容の欄に入力されている全てのテキストを、訂正テキストデータとして処理することができる。
他の例として、処理装置10は、訂正内容の欄に訂正テキストデータが入力されている状態で、訂正内容の欄において所定の入力操作が行われると、「訂正テキストデータのユーザ入力を受付けた(S13のYes)」と判断することができる。「訂正内容の欄における所定の入力操作」は、例えば改行、句読点の入力、スペースの入力等である。この場合、所定の入力操作で入力された対象(改行、句読点、スペース等)の直前に入力されているテキストを、訂正テキストデータとして処理することができる。
「作用効果」
本実施形態の処理装置10によれば、第1の実施形態と同様の作用効果が実現される。
本実施形態の処理装置10によれば、第1の実施形態と同様の作用効果が実現される。
また、本実施形態の処理装置10によれば、ユーザが入力する訂正テキストデータの内容に自由度があり、誤認識箇所の正しい内容を少なくとも含んでいればよい。このような本実施形態の処理装置10によれば、様々なパターンの表現や文章で、誤認識箇所に関連する再学習を実行することができる。結果、再学習の効果を向上させることができる。
また、本実施形態の処理装置10によれば、様々なタイミングで再学習を開始することができる。例えば、訂正内容の欄に訂正テキストデータが入力されている状態で、訂正内容の欄において所定の入力操作が行われたことをトリガに、再学習を行うことができる。「訂正内容の欄における所定の入力操作」は、例えば改行、句読点の入力、スペースの入力等である。この場合、ユーザによる訂正テキストデータの入力と並行して、リアルタイムに再学習を実行することができる。結果、ユーザの待ち時間を減らすことができる。
<第3の実施形態>
本実施形態の処理装置10は、音声認識モデルを再学習した後、自動的に再学習後の音声認識モデルに認識対象音声データを入力し、その認識結果をユーザに向けて出力する機能を有する。以下、詳細に説明する。
本実施形態の処理装置10は、音声認識モデルを再学習した後、自動的に再学習後の音声認識モデルに認識対象音声データを入力し、その認識結果をユーザに向けて出力する機能を有する。以下、詳細に説明する。
認識部12は、学習部14による音声認識モデルの再学習が終了した後、再学習を実行した後の音声認識モデルに認識対象音声データを入力し、認識対象音声データの内容を示す再学習後認識結果テキストデータを取得する。再学習を実行した後の音声認識モデルに入力される認識対象音声データは、再学習を実行する前の音声認識モデルに入力され、その音声認識結果において誤認識箇所が含まれていた認識対象音声データである。
出力部13は、再学習後認識結果テキストデータを出力する。出力部13は、認識結果テキストデータと再学習後認識結果テキストデータを並べて出力する処理、又は、音声認識結果を表示する欄の内容を、認識結果テキストデータ(再学習を実行する前の音声認識モデルで得られた認識結果)から再学習後認識結果テキストデータ(再学習を実行した後の音声認識モデルで得られた認識結果)に更新する処理を実行する。
例えば、出力部13は、再学習を実行した後の音声認識モデルを用いた音声認識処理に応じて、図5に示すような出力画面を出力することができる。図5の出力画面では、認識結果テキストデータと再学習後認識結果テキストデータを並べて表示している。「音声認識結果(再学習前)」の欄に、認識結果テキストデータが表示されている。そして、「音声認識結果(再学習後)」の欄に、再学習後認識結果テキストデータが表示されている。
図示するように、出力部13は、認識結果テキストデータと再学習後認識結果テキストデータとの相違部分を検出し、再学習後認識結果テキストデータの出力において、検出した相違部分を強調してもよい。相違部分の検出は、認識結果テキストデータと再学習後認識結果テキストデータとの比較処理により実現される。図示する例では、相違部分を枠Wで囲むことで強調しているが、文字の太さを変える、色を変える等の他の手法で強調してもよい。
他の例として、出力部13は、再学習を実行した後の音声認識モデルを用いた音声認識処理に応じて、図6に示すような出力画面を出力することができる。図6の出力画面では、音声認識結果の欄に再学習後認識結果テキストデータが表示されている。すなわち、音声認識結果の欄の表示内容が、再学習前の音声認識モデルを用いた音声認識処理で得られた認識結果テキストデータから、再学習後の音声認識モデルを用いた音声認識処理で得られた再学習後認識結果テキストデータに切り替わっている。
当該例においても、出力部13は、図示するように、認識結果テキストデータと再学習後認識結果テキストデータとの相違部分を検出し、再学習後認識結果テキストデータの出力において、検出した相違部分を強調してもよい。
次に、図7のフローチャートを用いて、処理装置10の処理の流れの一例を説明する。
まず、処理装置10は、認識対象音声データを取得すると(S20)、その認識対象音声データに対して音声認識処理を実行する(S21)。具体的には、処理装置10は、予め用意された音声認識モデルに認識対象音声データを入力し、認識対象音声データの内容を示す認識結果テキストデータを取得する。
次いで、処理装置10は、認識対象音声データに対する音声認識処理の結果を示す認識結果テキストデータを出力する(S22)。例えば、処理装置10は、図2に示す出力画面を出力する。
その後、処理装置10は、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けると(S23のYes)、訂正テキストデータの内容を発話する合成音データを生成する(S24)。そして、処理装置10は、訂正テキストデータと合成音データとを対応付けた学習データで、音声認識モデルを再学習する(S25)。
その後、処理装置10は、再学習を実行した後の音声認識モデルを用いて、S20で取得した認識対象音声データに対して音声認識処理を実行する(S26)。具体的には、処理装置10は、再学習を実行した後の音声認識モデルに、S20で取得した認識対象音声データを入力し、認識対象音声データの内容を示す再学習後認識結果テキストデータを取得する。
次いで、処理装置10は、再学習後認識結果テキストデータを出力する(S27)。例えば、処理装置10は、図5に示すように認識結果テキストデータと再学習後認識結果テキストデータを並べて出力する処理、又は、図6に示すように音声認識結果を表示する欄の内容を、認識結果テキストデータから再学習後認識結果テキストデータに更新する処理を実行する。
本実施形態の処理装置10のその他の構成は、第1及び第2の実施形態と同様である。
本実施形態の処理装置10によれば、第1及び第2の実施形態と同様の作用効果が実現される。
また、本実施形態の処理装置10によれば、音声認識モデルを再学習した後、自動的に再学習後の音声認識モデルに認識対象音声データを入力し、その認識結果をユーザに向けて出力することができる。ユーザは、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータを入力するだけで、その誤認識箇所が正しく訂正された再学習後認識結果テキストデータを取得することができる。
また、本実施形態の処理装置10によれば、再学習後認識結果テキストデータをユーザに向けて表示する際に、再学習前の音声認識モデルで得られた認識結果テキストデータと、再学習後の音声認識モデルで得られた再学習後認識結果テキストデータとの相違点を強調することができる。当該強調により、ユーザは、再学習に応じて変化した箇所を容易に把握することができる。結果、ユーザは、再学習により誤認識箇所が正しく訂正されたか、また、再学習により誤認識箇所と関係ない箇所の内容が変更されていないか等を容易に把握することができる。
<第4の実施形態>
本実施形態の処理装置10は、再学習で誤認識箇所が正しく訂正されなかった場合、音声認識モデルを再度、再学習(再々学習)する機能を有する。そして、処理装置10は、音声認識モデルを再々学習する際には、再学習した際と異なる方法で、音声認識モデルを学習する機能を有する。以下、詳細に説明する。
本実施形態の処理装置10は、再学習で誤認識箇所が正しく訂正されなかった場合、音声認識モデルを再度、再学習(再々学習)する機能を有する。そして、処理装置10は、音声認識モデルを再々学習する際には、再学習した際と異なる方法で、音声認識モデルを学習する機能を有する。以下、詳細に説明する。
「再々学習実行のトリガ」
処理装置10は、再学習後認識結果テキストデータを出力した後の所定のユーザ入力に応じて、再々学習を実行する。
処理装置10は、再学習後認識結果テキストデータを出力した後の所定のユーザ入力に応じて、再々学習を実行する。
「再学習後認識結果テキストデータを出力した後の所定のユーザ入力」は、例えば、再学習時と同じ訂正テキストデータが入力された状態で行われた再学習を開始するユーザ入力であってもよい。一例として、図5及び図6に示す出力画面のように再学習後認識結果テキストデータが表示された場合、訂正内容の欄において再学習時と同じ訂正テキストデータが入力された状態で「学習」ボタンが再度押下されると、処理装置10は再々学習を実行してもよい。
なお、上述の通り、処理装置10は、音声認識モデルを再々学習する際には、再学習した際と異なる方法で、音声認識モデルを学習する。このため、「学習」ボタンが押下された際に、これから行う再学習が「再々学習」か否かを判断する必要がある。
これを実現する一例として、処理装置10は、再学習履歴データとして、これまでの再学習(2回目以降の再学習を含む)で利用した訂正テキストデータ及び学習方法の内容を記憶しておいてもよい。処理装置10は、各認識対象音声データに紐付けて、当該再学習履歴データを記憶することができる。そして、処理装置10は、「学習」ボタンの押下に応じて再学習を実行する際に、今回の再学習に利用する訂正テキストデータが再学習履歴データに登録されていないか確認する。登録されている場合は、処理装置10は「再々学習」と判断し、再学習履歴データに登録されている学習方法と異なる方法で再学習を行う。一方、登録されていない場合は、処理装置10は「再学習」と判断し、任意の方法で再学習を行う。
「再学習後認識結果テキストデータを出力した後の所定のユーザ入力」の他の例として、処理装置10は、図5及び図6に示す出力画面のように再学習後認識結果テキストデータを表示した後、「誤認識箇所は正しく訂正されましたか?Yes or No」等の問い合わせメッセージを出力してもよい。そして、その問い合わせメッセージに対する回答がNoの場合、処理装置10は、前回の再学習時と同じ訂正テキストデータを用いて再々学習を実行してもよい。
「再学習した際と異なる方法で、音声認識モデルを学習する機能」
処理装置10は、再々学習の際には、再学習時と異なる学習データを用いて、音声認識モデルを学習する。より具体的には、処理装置10は、再々学習の際には、再学習時と異なる音声データ(学習データ)を用いて、音声認識モデルを学習する。
処理装置10は、再々学習の際には、再学習時と異なる学習データを用いて、音声認識モデルを学習する。より具体的には、処理装置10は、再々学習の際には、再学習時と異なる音声データ(学習データ)を用いて、音声認識モデルを学習する。
音データ生成部15は、再々学習の際には、再学習時と異なる方法で音声データ(学習データ)を生成する。音データ生成部15は、再学習後認識結果テキストデータを出力した後の上記所定のユーザ入力に応じて、前回(再学習時)と異なる方法で音声データ(学習データ)を生成する。
例えば、音データ生成部15は、再々学習の際には、再学習時と異なる方法で、訂正テキストデータの内容を発話する合成音データを生成してもよい。具体的には、音データ生成部15は、再々学習の際には、再学習の際に生成した合成音の属性(性別、年齢層、環境(屋外、屋内、電話、エコーの有無等)等)と異なる属性の合成音を生成してもよい。
その他、音データ生成部15は、再々学習の際には、取得部11が取得した認識対象音声データから一部を切り出して再学習用音声データとしてもよい。この場合、音データ生成部15は、取得部11が取得した認識対象音声データの中から、訂正テキストデータに対応する箇所を特定する必要がある。これを実現する手段は特段制限されず、あらゆる技術を採用できる。例えば、認識結果テキストデータを平仮名のみ又はカタカナのみで示した文字列データの中から、訂正テキストデータを平仮名のみ又はカタカナのみで示した文字列データをパターンマッチング等で検索し、検索した箇所の発話タイミングを認識対象音声データの中から検出してもよい。
学習部14は、このようにして生成された音声データ(再学習時と異なる方法で生成された合成音データ、又は認識対象音声データから一部を切り出して生成された再学習用音声データ)と訂正テキストデータとを対応付けた学習データで、音声認識モデルを、再度再学習する(再々学習する)。
次に、図8のフローチャートを用いて、処理装置10の処理の流れの一例を説明する。
まず、処理装置10は、認識対象音声データを取得すると(S30)、その認識対象音声データに対して音声認識処理を実行する(S31)。具体的には、処理装置10は、予め用意された音声認識モデルに認識対象音声データを入力し、認識対象音声データの内容を示す認識結果テキストデータを取得する。
次いで、処理装置10は、認識対象音声データに対する音声認識処理の結果を示す認識結果テキストデータを出力する(S32)。例えば、処理装置10は、図2に示す出力画面を出力する。
その後、処理装置10は、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けると(S33のYes)、訂正テキストデータの内容を発話する合成音データを生成する(S34)。そして、処理装置10は、訂正テキストデータと合成音データとを対応付けた学習データで、音声認識モデルを再学習する(S35)。
その後、処理装置10は、再学習を実行した後の音声認識モデルを用いて、S30で取得した認識対象音声データに対して音声認識処理を実行する(S36)。具体的には、処理装置10は、再学習を実行した後の音声認識モデルに、S30で取得した認識対象音声データを入力し、認識対象音声データの内容を示す再学習後認識結果テキストデータを取得する。
次いで、処理装置10は、再学習後認識結果テキストデータを出力する(S37)。例えば、処理装置10は、図5に示すように認識結果テキストデータと再学習後認識結果テキストデータを並べて出力する処理、又は、図6に示すように音声認識結果を表示する欄の内容を、認識結果テキストデータから再学習後認識結果テキストデータに更新する処理を実行する。
処理装置10は、再学習後認識結果テキストデータを出力した後に(S37の後に)、所定のユーザ入力を受付けると(S38のYes)、前回(再学習時)と異なる方法で音声データ(学習データ)を生成する(S39)。そして、処理装置10は、S33で受付けた訂正テキストデータと、S39で生成した音声データ(学習データ)とを対応付けた学習データで、音声認識モデルを再度再学習する(S40)。
その後、処理装置10は、再度再学習を実行した後の音声認識モデルを用いて、S30で取得した認識対象音声データに対して音声認識処理を実行する(S41)。具体的には、処理装置10は、再度再学習を実行した後の音声認識モデルに、S30で取得した認識対象音声データを入力し、認識対象音声データの内容を示す再学習後認識結果テキストデータを取得する。
次いで、処理装置10は、再学習後認識結果テキストデータを出力する(S42)。例えば、処理装置10は、再学習後の音声認識モデルで得られた認識結果と、再々学習後の音声認識モデルで得られた認識結果を並べて出力してもよい。その他、処理装置10は、音声認識結果を表示する欄の内容を、再学習後の音声認識モデルで得られた認識結果から、再々学習後の音声認識モデルで得られた認識結果に更新してもよい。この場合も、処理装置10は、再学習後の音声認識モデルで得られた認識結果と、再々学習後の音声認識モデルで得られた認識結果の相違点を検出し、検出した相違点を強調してもよい。
本実施形態の処理装置10のその他の構成は、第1乃至第3の実施形態と同様である。
本実施形態の処理装置10によれば、第1乃至第3の実施形態と同様の作用効果が実現される。
また、本実施形態の処理装置10によれば、音声認識モデルの再学習で誤認識箇所が正しく訂正されない場合は、再度、音声認識モデルを再学習することができる。音声認識モデルの再学習の繰り返しにより、誤認識箇所が正しく訂正されるようになることが期待される。
また、再々学習の際には、再学習の際と異なる方法で、音声認識モデルを再学習することができる。このため、音声認識モデルの再学習の繰り返しをより効果的なものとすることができる。
<第5の実施形態>
本実施形態の処理装置10は、認識対象音声データの属性を特定し、特定した属性を備える合成音データを生成する機能を有する。以下、詳細に説明する。
本実施形態の処理装置10は、認識対象音声データの属性を特定し、特定した属性を備える合成音データを生成する機能を有する。以下、詳細に説明する。
音データ生成部15は、認識対象音声データの属性を特定し、特定した属性を備える合成音データを生成する。
例えば、音データ生成部15は、認識対象音声データを解析し、話者の属性情報(年齢層、性別等)や、環境の属性情報(屋外、屋内、電話等)等を特定する。音データ生成部15は、周知の技術を利用して、これらの属性を特定することができる。例えば、予め、各属性に対応した特徴量が処理装置10に登録されている。そして、音データ生成部15は、認識対象音声データの中から各属性に対応する特徴量を検出することで、認識対象音声データの属性を特定することができる。
特定した属性を備える合成音データの生成は、周知のあらゆる技術を利用して実現できる。
処理装置10は、例えば図7のS24、図8のS34等において、上述した「認識対象音声データの属性の特定、及び特定した属性を備える合成音データの生成」を行うことができる。なお、処理装置10は、図8のS39において、上述した「認識対象音声データの属性の特定、及び特定した属性を備える合成音データの生成」を行ってもよい。
本実施形態の処理装置10のその他の構成は、第1乃至第4の実施形態と同様である。
本実施形態の処理装置10によれば、第1乃至第4の実施形態と同様の作用効果が実現される。
また、本実施形態の処理装置10によれば、認識対象音声データと同じ属性を備える合成音データを生成し、当該合成音データを用いて音声認識モデルを再学習することができる。結果、その再学習により、その認識対象音声データの音声認識結果に含まれた誤認識箇所を正しく認識できるようになる可能性が高くなる。
<変形例>
ここで、第1乃至第5の実施形態に適用可能な変形例を説明する。
ここで、第1乃至第5の実施形態に適用可能な変形例を説明する。
音データ生成部15は、入力された訂正テキストデータそのものの内容を発話する合成音データを生成してもよいし、入力された訂正テキストデータを修正した修正後の訂正テキストデータの内容を発話する合成音データを生成してもよい。
入力された訂正テキストデータの修正は、音データ生成部15(処理装置10)が行うことができる。例えば、音データ生成部15は、単語が訂正テキストデータとして入力された場合、予め用意されたテンプレート文章を用いて、入力された訂正テキストデータを含む文章を生成してもよい。一例として、「台風」が訂正テキストデータとして入力された場合、音データ生成部15は、「台風が北上中です。」等の文章を生成してもよい。
当該変形例においても、第1乃至第5の実施形態と同様の作用効果が実現される。
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。上述した実施形態の構成は、互いに組み合わせたり、一部の構成を他の構成に入れ替えたりしてもよい。また、上述した実施形態の構成は、趣旨を逸脱しない範囲内において種々の変更を加えてもよい。また、上述した各実施形態や変形例に開示される構成や処理を互いに組み合わせてもよい。
また、上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、各実施の形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施の形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施の形態は、内容が相反しない範囲で組み合わせることができる。
上記の実施の形態の一部又は全部は、以下の付記のようにも記載されうるが、以下に限られない。
1. 認識対象音声データを取得する取得手段と、
音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得する認識手段と、
前記認識結果テキストデータを出力する出力手段と、
前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けるユーザ入力受付手段と、
前記訂正テキストデータの内容を発話する合成音データを生成する音データ生成手段と、
前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する学習手段と、
を有する処理装置。
2. 前記認識手段は、前記再学習を実行した後の前記音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す再学習後認識結果テキストデータを取得し、
前記出力手段は、前記再学習後認識結果テキストデータを出力する1に記載の処理装置。
3. 前記出力手段は、
前記認識結果テキストデータと前記再学習後認識結果テキストデータを並べて出力する処理、又は、
音声認識結果を表示する欄の内容を、前記認識結果テキストデータから前記再学習後認識結果テキストデータに更新する処理、
を実行する2に記載の処理装置。
4. 前記出力手段は、
前記認識結果テキストデータと前記再学習後認識結果テキストデータとの相違部分を検出し、
前記再学習後認識結果テキストデータの出力において、検出した前記相違部分を強調する2又は3に記載の処理装置。
5. 前記音データ生成手段は、
前記再学習後認識結果テキストデータを出力した後の所定のユーザ入力に応じて、前回と異なる方法で、前記訂正テキストデータの内容を発話する合成音データを再度生成し、
前記学習手段は、
前記訂正テキストデータと前記再度生成された合成音データとを対応付けた学習データで、前記音声認識モデルを再度、再学習する2から4のいずれかに記載の処理装置。
6. 前記音データ生成手段は、
前記再学習後認識結果テキストデータを出力した後の所定のユーザ入力に応じて、前記認識対象音声データから一部を切り出して再学習用音声データを生成し、
前記学習手段は、
前記訂正テキストデータと前記再学習用音声データとを対応付けた学習データで、前記音声認識モデルを再度、再学習する2から4のいずれかに記載の処理装置。
7. 前記音データ生成手段は、
前記認識対象音声データの属性を特定し、
特定した前記属性を備える前記合成音データを生成する1から6のいずれかに記載の処理装置。
8. 前記ユーザ入力受付手段は、
前記認識結果テキストデータに含まれる前記誤認識箇所を指定する入力を受付けない1から7のいずれかに記載の処理装置。
9. 1つ以上のコンピュータが、
認識対象音声データを取得し、
音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得し、
前記認識結果テキストデータを出力し、
前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付け、
前記訂正テキストデータの内容を発話する合成音データを生成し、
前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する、
処理方法。
10. コンピュータを、
認識対象音声データを取得する取得手段、
音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得する認識手段、
前記認識結果テキストデータを出力する出力手段、
前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けるユーザ入力受付手段、
前記訂正テキストデータの内容を発話する合成音データを生成する音データ生成手段、
前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する学習手段、
として機能させるプログラム。
1. 認識対象音声データを取得する取得手段と、
音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得する認識手段と、
前記認識結果テキストデータを出力する出力手段と、
前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けるユーザ入力受付手段と、
前記訂正テキストデータの内容を発話する合成音データを生成する音データ生成手段と、
前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する学習手段と、
を有する処理装置。
2. 前記認識手段は、前記再学習を実行した後の前記音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す再学習後認識結果テキストデータを取得し、
前記出力手段は、前記再学習後認識結果テキストデータを出力する1に記載の処理装置。
3. 前記出力手段は、
前記認識結果テキストデータと前記再学習後認識結果テキストデータを並べて出力する処理、又は、
音声認識結果を表示する欄の内容を、前記認識結果テキストデータから前記再学習後認識結果テキストデータに更新する処理、
を実行する2に記載の処理装置。
4. 前記出力手段は、
前記認識結果テキストデータと前記再学習後認識結果テキストデータとの相違部分を検出し、
前記再学習後認識結果テキストデータの出力において、検出した前記相違部分を強調する2又は3に記載の処理装置。
5. 前記音データ生成手段は、
前記再学習後認識結果テキストデータを出力した後の所定のユーザ入力に応じて、前回と異なる方法で、前記訂正テキストデータの内容を発話する合成音データを再度生成し、
前記学習手段は、
前記訂正テキストデータと前記再度生成された合成音データとを対応付けた学習データで、前記音声認識モデルを再度、再学習する2から4のいずれかに記載の処理装置。
6. 前記音データ生成手段は、
前記再学習後認識結果テキストデータを出力した後の所定のユーザ入力に応じて、前記認識対象音声データから一部を切り出して再学習用音声データを生成し、
前記学習手段は、
前記訂正テキストデータと前記再学習用音声データとを対応付けた学習データで、前記音声認識モデルを再度、再学習する2から4のいずれかに記載の処理装置。
7. 前記音データ生成手段は、
前記認識対象音声データの属性を特定し、
特定した前記属性を備える前記合成音データを生成する1から6のいずれかに記載の処理装置。
8. 前記ユーザ入力受付手段は、
前記認識結果テキストデータに含まれる前記誤認識箇所を指定する入力を受付けない1から7のいずれかに記載の処理装置。
9. 1つ以上のコンピュータが、
認識対象音声データを取得し、
音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得し、
前記認識結果テキストデータを出力し、
前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付け、
前記訂正テキストデータの内容を発話する合成音データを生成し、
前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する、
処理方法。
10. コンピュータを、
認識対象音声データを取得する取得手段、
音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得する認識手段、
前記認識結果テキストデータを出力する出力手段、
前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けるユーザ入力受付手段、
前記訂正テキストデータの内容を発話する合成音データを生成する音データ生成手段、
前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する学習手段、
として機能させるプログラム。
この出願は、2022年11月24日に出願された日本出願特願2022-187196号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
10 処理装置
11 取得部
12 認識部
13 出力部
14 学習部
15 音データ生成部
16 ユーザ入力受付部
1A プロセッサ
2A メモリ
3A 入出力I/F
4A 周辺回路
5A バス
11 取得部
12 認識部
13 出力部
14 学習部
15 音データ生成部
16 ユーザ入力受付部
1A プロセッサ
2A メモリ
3A 入出力I/F
4A 周辺回路
5A バス
Claims (10)
- 認識対象音声データを取得する取得手段と、
音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得する認識手段と、
前記認識結果テキストデータを出力する出力手段と、
前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けるユーザ入力受付手段と、
前記訂正テキストデータの内容を発話する合成音データを生成する音データ生成手段と、
前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する学習手段と、
を有する処理装置。 - 前記認識手段は、前記再学習を実行した後の前記音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す再学習後認識結果テキストデータを取得し、
前記出力手段は、前記再学習後認識結果テキストデータを出力する請求項1に記載の処理装置。 - 前記出力手段は、
前記認識結果テキストデータと前記再学習後認識結果テキストデータを並べて出力する処理、又は、
音声認識結果を表示する欄の内容を、前記認識結果テキストデータから前記再学習後認識結果テキストデータに更新する処理、
を実行する請求項2に記載の処理装置。 - 前記出力手段は、
前記認識結果テキストデータと前記再学習後認識結果テキストデータとの相違部分を検出し、
前記再学習後認識結果テキストデータの出力において、検出した前記相違部分を強調する請求項2又は3に記載の処理装置。 - 前記音データ生成手段は、
前記再学習後認識結果テキストデータを出力した後の所定のユーザ入力に応じて、前回と異なる方法で、前記訂正テキストデータの内容を発話する合成音データを再度生成し、
前記学習手段は、
前記訂正テキストデータと前記再度生成された合成音データとを対応付けた学習データで、前記音声認識モデルを再度、再学習する請求項2から4のいずれか1項に記載の処理装置。 - 前記音データ生成手段は、
前記再学習後認識結果テキストデータを出力した後の所定のユーザ入力に応じて、前記認識対象音声データから一部を切り出して再学習用音声データを生成し、
前記学習手段は、
前記訂正テキストデータと前記再学習用音声データとを対応付けた学習データで、前記音声認識モデルを再度、再学習する請求項2から4のいずれか1項に記載の処理装置。 - 前記音データ生成手段は、
前記認識対象音声データの属性を特定し、
特定した前記属性を備える前記合成音データを生成する請求項1から6のいずれか1項に記載の処理装置。 - 前記ユーザ入力受付手段は、
前記認識結果テキストデータに含まれる前記誤認識箇所を指定する入力を受付けない請求項1から7のいずれか1項に記載の処理装置。 - 1つ以上のコンピュータが、
認識対象音声データを取得し、
音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得し、
前記認識結果テキストデータを出力し、
前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付け、
前記訂正テキストデータの内容を発話する合成音データを生成し、
前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する、
処理方法。 - コンピュータを、
認識対象音声データを取得する取得手段、
音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得する認識手段、
前記認識結果テキストデータを出力する出力手段、
前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けるユーザ入力受付手段、
前記訂正テキストデータの内容を発話する合成音データを生成する音データ生成手段、
前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する学習手段、
として機能させるプログラムを記憶する記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022187196 | 2022-11-24 | ||
JP2022-187196 | 2022-11-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2024111387A1 true WO2024111387A1 (ja) | 2024-05-30 |
Family
ID=91195531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2023/039839 WO2024111387A1 (ja) | 2022-11-24 | 2023-11-06 | 処理装置、処理方法、及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2024111387A1 (ja) |
-
2023
- 2023-11-06 WO PCT/JP2023/039839 patent/WO2024111387A1/ja unknown
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11495224B2 (en) | Contact resolution for communications systems | |
US10089981B1 (en) | Messaging account disambiguation | |
US20200279555A1 (en) | Intent re-ranker | |
EP3469592B1 (en) | Emotional text-to-speech learning system | |
US9947317B2 (en) | Pronunciation learning through correction logs | |
JP6588637B2 (ja) | 個別化されたエンティティ発音の学習 | |
JP6251958B2 (ja) | 発話解析装置、音声対話制御装置、方法、及びプログラム | |
KR101418163B1 (ko) | 컨텍스트 정보를 이용한 음성 인식 복구 | |
US10672379B1 (en) | Systems and methods for selecting a recipient device for communications | |
US11043213B2 (en) | System and method for detection and correction of incorrectly pronounced words | |
US11501764B2 (en) | Apparatus for media entity pronunciation using deep learning | |
JP2011002656A (ja) | 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム | |
US11676572B2 (en) | Instantaneous learning in text-to-speech during dialog | |
CN111899576A (zh) | 发音测试应用的控制方法、装置、存储介质和电子设备 | |
WO2024111387A1 (ja) | 処理装置、処理方法、及び記録媒体 | |
US11455990B2 (en) | Electronic device and control method therefor | |
JP2003162524A (ja) | 言語処理装置 | |
CN113393831B (zh) | 基于至少双音素的语音输入操作方法及计算机可读介质 | |
JP7297266B2 (ja) | 検索支援サーバ、検索支援方法及びコンピュータプログラム | |
WO2020014730A1 (en) | Learning aid | |
KR20130137367A (ko) | 이미지 기반 도서 관련 서비스 제공 시스템 및 방법 | |
JP2022139052A (ja) | 検索支援サーバ、検索支援方法及びコンピュータプログラム | |
JP2021135312A (ja) | 情報処理装置、情報処理方法、情報処理システム、情報処理プログラム | |
CN116430999A (zh) | 一种语音助手实现指尖视觉交互技术的方法和系统 | |
CN118155604A (zh) | 语音识别方法、系统、装置、车辆、电子设备和存储介质 |