WO2024111387A1

WO2024111387A1 - 処理装置、処理方法、及び記録媒体

Info

Publication number: WO2024111387A1
Application number: PCT/JP2023/039839
Authority: WO
Inventors: 秀治古明地; 晃後藤; 優香久我; 裕子中西
Original assignee: 日本電気株式会社
Priority date: 2022-11-24
Filing date: 2023-11-06
Publication date: 2024-05-30

Abstract

本発明は、認識対象音声データを取得する取得部（１１）と、音声認識モデルに認識対象音声データを入力し、認識対象音声データの内容を示す認識結果テキストデータを取得する認識部（１２）と、認識結果テキストデータを出力する出力部（１３）と、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けるユーザ入力受付部（１６）と、訂正テキストデータの内容を発話する合成音データを生成する音データ生成部（１５）と、訂正テキストデータと合成音データとを対応付けた学習データで、音声認識モデルを再学習する学習部（１４）と、を有する処理装置（１０）を提供する。

Description

処理装置、処理方法、及び記録媒体

　本発明は、処理装置、処理方法、及びプログラムに関する。

　本発明に関連する技術が、特許文献１及び２に開示されている。

　特許文献１には、入力音声データに対して音声認識処理を行い、その結果であるテキストデータを表示し、そのテキストデータの中から誤り箇所を指定するとともに正しい内容に訂正するユーザ入力を受付ける技術が開示されている。

　また、特許文献１には、訂正後のテキストデータと入力音声データとに基づき音声認識モデルを再学習し、再学習した音声認識モデルに入力音声データを再度入力して音声認識処理を行い、その結果であるテキストデータを表示する技術が開示されている。

　特許文献２には、入力音声データに対して音声認識処理を行い、その結果であるテキストデータを表示し、そのテキストデータに含まれる誤り箇所の正しい内容である正解文字列のユーザ入力を受付け、当該正解文字列から音声データを生成し、生成した音声データを用いて上記テキストデータの中から上記誤り箇所を特定する技術が開示されている。

特開２０１４－１３４６４０号公報特開２００６－２６７３１９号公報

　会議議事録作成等の各種用途で、音声認識処理が利用されている。しかし、音声認識処理の精度は１００％でないため、音声認識処理で得られたテキストデータに含まれる誤り箇所の修正作業が必要となる。

　特許文献１に記載の技術の場合、音声認識結果であるテキストデータの中から誤り箇所を指定する入力、及びその誤り箇所を正しい内容に訂正する入力をユーザから受付ける必要がある。テキストデータの中から誤り箇所を指定する入力を面倒に感じるユーザもいる。

　また、特許文献１に記載の技術の場合、入力音声データを学習データとして音声認識モデルを再学習する。この場合、入力音声データの中から誤り箇所の音声データを切り出す等の処理が必要になり、多くの時間を要する。結果、再学習後の認識結果が得られるまでのユーザの待ち時間が長くなるという問題がある。

　特許文献２に記載の技術では、今回得られた認識結果自体を修正できるものの、音声認識モデルの修正はなされない。このため、今後も同様の認識ミスが生じ得る。結果、ユーザは、何度もその修正処理を繰り返さなければならなくなる。

　本発明の目的の一例は、上述した問題を鑑み、音声認識処理で得られたテキストデータに含まれる誤り箇所の修正作業の作業性を向上するという課題を解決する処理装置、処理方法、及びプログラムを提供することにある。

　本発明の一態様によれば、
　認識対象音声データを取得する取得手段と、
　音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得する認識手段と、
　前記認識結果テキストデータを出力する出力手段と、
　前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けるユーザ入力受付手段と、
　前記訂正テキストデータの内容を発話する合成音データを生成する音データ生成手段と、
　前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する学習手段と、
を有する処理装置が提供される。

　本発明の一態様によれば、
　１つ以上のコンピュータが、
　　認識対象音声データを取得し、
　　音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得し、
　　前記認識結果テキストデータを出力し、
　　前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付け、
　　前記訂正テキストデータの内容を発話する合成音データを生成し、
　　前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する、
処理方法が提供される。

　本発明の一態様によれば、
　コンピュータを、
　　認識対象音声データを取得する取得手段、
　　音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得する認識手段、
　　前記認識結果テキストデータを出力する出力手段、
　　前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けるユーザ入力受付手段、
　　前記訂正テキストデータの内容を発話する合成音データを生成する音データ生成手段、
　　前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する学習手段、
として機能させるプログラムが提供される。

　本発明の一態様によれば、音声認識処理で得られたテキストデータに含まれる誤り箇所の修正作業の作業性を向上するという課題を解決する処理装置、処理方法、及びプログラムが実現される。

　上述した目的、及びその他の目的、特徴及び利点は、以下に述べる公的な実施の形態、及びそれに付随する以下の図面によってさらに明らかになる。

処理装置の機能ブロック図の一例を示す図である。処理装置の処理内容の一例を説明するための図である。処理装置のハードウエア構成の一例を示す図である。処理装置の処理の流れの一例を示すフローチャートである。処理装置が出力する画面の一例を示す図である。処理装置が出力する画面の一例を示す図である。処理装置の処理の流れの一例を示すフローチャートである。処理装置の処理の流れの一例を示すフローチャートである。

　以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

＜第１の実施形態＞
　図１は、第１の実施形態に係る処理装置１０の概要を示す機能ブロック図である。処理装置１０は、取得部１１と、認識部１２と、出力部１３と、学習部１４と、音データ生成部１５と、ユーザ入力受付部１６とを有する。

　取得部１１は、認識対象音声データを取得する。認識部１２は、音声認識モデルに認識対象音声データを入力し、認識対象音声データの内容を示す認識結果テキストデータを取得する。出力部１３は、認識結果テキストデータを出力する。ユーザ入力受付部１６は、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付ける。音データ生成部１５は、訂正テキストデータの内容を発話する合成音データを生成する。学習部１４は、訂正テキストデータと合成音データとを対応付けた学習データで、音声認識モデルを再学習する。

　このような構成を備える処理装置１０によれば、ユーザは、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータを入力すればよく、認識結果テキストデータの中から誤認識箇所を指定する入力を行う必要がない。

　また、本実施形態の処理装置１０によれば、音声認識モデル自体が正しく再学習されるので、以降、同様の誤認識が起きにくくなる。このため、同様の誤認識に対する修正作業をユーザが繰り返し行う不都合を軽減できる。

　また、本実施形態の処理装置１０によれば、訂正テキストデータから合成音データを生成し、この合成音データを学習データとして音声認識モデルを再学習する。このため、認識対象音声データから所定箇所を特定し、そこを切り出して学習データとする場合に比べて、再学習が完了するまでの時間を短縮できる。結果、再学習後の認識結果が得られるまでのユーザの待ち時間を短縮することができる。

　このように、本実施形態の処理装置１０によれば、音声認識処理で得られたテキストデータに含まれる誤り箇所の修正作業の作業性を向上することができる。

＜第２の実施形態＞
「概要」
　第２の実施形態の処理装置１０は、第１の実施形態の処理装置１０をより具体化したものである。

　図２に示すように、処理装置１０は、認識対象音声データを取得すると、音声認識モデルに認識対象音声データを入力し、認識対象音声データの内容を示す認識結果テキストデータを取得する。そして、処理装置１０は、認識結果テキストデータを出力する。処理装置１０は、例えば図示するような出力画面を生成し、ユーザに向けて出力する。図示する出力画面の「音声認識結果」の欄に、認識結果テキストデータが表示されている。

　その後、処理装置１０は、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付ける。図示する例の場合、ユーザは、出力画面の「訂正内容」の欄に、誤認識箇所の正しい内容を示す訂正テキストデータを入力する。図示する音声認識結果では、前後の文脈から、「タイ風」、「会場」の２箇所が誤認識であることが分かる。ユーザは、図示するように、その２つの誤認識箇所各々の正しい内容である「台風」、「海上」を訂正内容の欄に入力する。なお、ユーザは、音声認識結果の欄に表示された認識結果テキストデータにおいて、誤認識箇所（タイ風、会場）を指定する入力を行う必要はない。また、ユーザは、訂正内容の欄に入力された２つの訂正テキストデータが、音声認識結果の欄に表示された認識結果テキストデータのどの誤認識箇所に対応する内容なのかを指定する入力を行う必要もない。

　その後、処理装置１０は、訂正内容の欄に入力された訂正テキストデータの内容を発話する合成音データを生成する。そして、処理装置１０は、訂正テキストデータと合成音データを対応付けた学習データで、音声認識モデルを再学習する。この誤認識箇所に特化した再学習により、誤認識箇所を正しく認識できるようになることが期待される。

　再学習が終了した後、ユーザは、処理装置１０を操作し、再学習された音声認識モデル、すなわち、誤認識箇所を正しく認識できるようになった音声認識モデルを用いた音声認識処理を、認識対象音声データに対して再度実行させることができる。結果、ユーザは、誤認識箇所が正しく訂正された音声認識結果を取得することができる。なお、ここでは、ユーザによる手動操作により、再学習後の音声認識モデルを用いた音声認識処理を実行する例を説明したが、他の実施形態で、再学習後の音声認識モデルを用いた音声認識処理を自動で実行する例を説明する。

　以下、処理装置１０の構成をより詳細に説明する。

「ハードウエア構成」
　次に、処理装置１０のハードウエア構成の一例を説明する。処理装置１０の各機能部は、ハードウエアとソフトウエアの任意の組合せによって実現される。その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。ソフトウエアは、予め装置を出荷する段階から格納されているプログラムや、ＣＤ（Compact Disc）等の記録媒体やインターネット上のサーバ等からダウンロードされたプログラム等を含む。

　図３は、処理装置１０のハードウエア構成を例示するブロック図である。図３に示すように、処理装置１０は、プロセッサ１Ａ、メモリ２Ａ、入出力インターフェイス３Ａ、周辺回路４Ａ、バス５Ａを有する。周辺回路４Ａには、様々なモジュールが含まれる。処理装置１０は周辺回路４Ａを有さなくてもよい。なお、処理装置１０は物理的及び／又は論理的に分かれた複数の装置で構成されてもよい。この場合、複数の装置各々が上記ハードウエア構成を備えることができる。

　バス５Ａは、プロセッサ１Ａ、メモリ２Ａ、周辺回路４Ａ及び入出力インターフェイス３Ａが相互にデータを送受信するためのデータ伝送路である。プロセッサ１Ａは、例えばＣＰＵ、ＧＰＵ（Graphics Processing Unit）等の演算処理装置である。メモリ２Ａは、例えばＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）等のメモリである。入出力インターフェイス３Ａは、入力装置、外部装置、外部サーバ、外部センサ、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイス等を含む。また、入出力インターフェイス３Ａはインターネット等の通信ネットワークに接続するためのインターフェイスを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ１Ａは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。

「機能構成」
　次に、第２の実施形態の処理装置１０の機能構成を詳細に説明する。図１に、処理装置１０の機能ブロック図の一例を示す。図示するように、処理装置１０は、取得部１１と、認識部１２と、出力部１３と、学習部１４と、音データ生成部１５と、ユーザ入力受付部１６とを有する。

　取得部１１は、認識対象音声データを取得する。認識対象音声データは、音声認識処理の対象となる音声データである。例えば、会議、通話、打ち合わせ、会話等の各種音声を録音した音声データが、認識対象音声データとなる。

　実施形態において「取得」とは、自装置が他の装置や記憶媒体に格納されているデータ又は情報を取りに行くこと（能動的な取得）、及び、自装置に他の装置から出力されるデータ又は情報を入力すること（受動的な取得）の少なくとも一方を含む。能動的な取得の例は、他の装置にリクエスト又は問い合わせしてその返信を受信すること、及び、他の装置や記憶媒体にアクセスして読み出すこと等がある。また、受動的な取得の例は、配信（又は、送信、プッシュ通知等）される情報を受信すること等がある。さらに、「取得」とは、受信したデータ又は情報の中から選択して取得すること、又は、配信されたデータ又は情報を選択して受信することであってもよい。

　認識部１２は、音声認識モデルに認識対象音声データを入力し、認識対象音声データの内容を示す認識結果テキストデータを取得する。

　音声認識モデルは、音声データの入力を受付けると、その音声データに対して音声認識処理を実行し、認識結果としてその音声データの内容（発話内容）を示す認識結果テキストデータを出力するよう構成されている。音声認識モデルは、予め、テキストデータと、そのテキストデータを発話する音声データとを対応付けた学習データに基づき学習済みのモデルである。学習の手法は特段制限されず、周知のあらゆる手法を採用できる。

　出力部１３は、認識結果テキストデータを出力する。例えば、出力部１３は、図２に示すような出力画面を生成し、出力する。

　図２に示す出力画面は、音声波形を表示する欄と、音声認識結果の欄と、訂正内容の欄とを有する。

　出力部１３は、音声波形を表示する欄に、認識対象音声データの音声波形を表示する。

　また、出力部１３は、音声認識結果の欄に、認識結果テキストデータを表示する。

　また、出力部１３は、訂正内容の欄に、ユーザが入力した文字列、具体的には、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータを表示する。当該ユーザ入力は、以下で説明するユーザ入力受付部１６により実現される。

　図２の出力画面の場合、「学習」ボタンが押下されると、その時点で訂正内容の欄に入力されている訂正テキストデータに基づく音声認識モデルの再学習が実行される。再学習は、以下で説明する学習部１４及び音データ生成部１５により実現される。

　なお、出力画面はその他の構成をさらに備えてもよい。例えば、「再生」ボタンを備えてもよい。「再生」ボタンが押下されると、認識対象音声データが再生される。この場合、ユーザは、音声を視聴しながら認識結果テキストデータを確認し、誤認識箇所を検出できる。

　その他、出力画面は再生箇所を指定するＵＩ（user interface）部品を有してもよい。認識対象音声データが長い場合に当該ＵＩ部品があると利便性がよい。このようなＵＩ部品は、例えばスライダーや、冒頭からの経過時間を直接入力可能なＵＩ部品等が例示される。例えば、ユーザは、認識対象音声データの中の音声認識結果を確認したい箇所を再生箇所として指定する。当該指定に応じて、音声認識結果の欄には、その箇所の音声認識結果が表示される。また、上記「再生」ボタンの押下に応じて、認識対象音声データの中の指定された箇所が再生される。

　上述のような出力画面の出力形態は様々である。例えば、出力部１３は、処理装置１０が備えるディスプレイに出力画面を表示してもよい。その他、処理装置１０はサーバであってもよい。この場合、処理装置１０はクライアント端末から認識対象音声データの入力を受付け、出力画面をそのクライアント端末に返信する。そして、クライアント端末のディスプレイに出力画面が表示される。

　図１に戻り、ユーザ入力受付部１６は、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付ける。訂正テキストデータは単語でもよいし、文章でもよい。なお、ユーザ入力受付部１６は、認識結果テキストデータに含まれる誤認識箇所を指定する入力を受付けない。

　訂正テキストデータのユーザ入力を受付ける手段は様々であるが、以下一例を説明する。ユーザ入力受付部１６は、例えば図２に示す出力画面の訂正内容の欄を介して、訂正テキストデータのユーザ入力を受付けることができる。ユーザは、出力画面の音声認識結果の欄に表示された認識結果テキストデータにおいて、誤認識箇所がないか確認する。この時、ユーザは、認識対象音声データを再生してもよい。そして、誤認識箇所を見つけると、ユーザは、誤認識箇所の正しい内容を示す訂正テキストデータを訂正内容の欄に入力する。

　図２の例の場合、前後の文脈から、「タイ風」、「会場」の２箇所が誤認識であることが分かる。ユーザは、図示するように、その２つの誤認識箇所各々の正しい内容である「台風」、「海上」を訂正内容の欄に入力する。なお、ユーザは、音声認識結果の欄に表示された認識結果テキストデータにおいて、誤認識箇所（タイ風、会場）を指定する入力を行う必要はない。また、ユーザは、訂正内容の欄に入力された２つの訂正テキストデータが、音声認識結果の欄に表示された認識結果テキストデータのどの誤認識箇所に対応する内容なのかを指定する入力を行う必要もない。

　また、訂正テキストデータは、誤認識箇所の正しい内容を少なくとも含んでいればよく、その内容にはある程度の自由度がある。例えば、「タイ風」という誤認識に対して入力される訂正テキストデータは、「台風」であってもよいし、「現在台風は鹿児島の南西の海上を北進しています。」という認識結果テキストデータで示される文章であってもよい。その他、「台風のシーズン」、「台風が北進中です。」等のように、誤認識箇所（タイ風）の正しい内容（台風）を含む表現や文章をユーザが自由に作成し、訂正テキストデータとして入力してもよい。

　図１に戻り、音データ生成部１５は、訂正テキストデータの内容を発話する合成音データを生成する。合成音データの生成手法は特段制限されず、周知のあらゆる技術を利用することができる。訂正テキストデータに含まれる漢字の読みは、辞書データに基づき特定されてもよいし、訂正テキストデータ入力時のユーザ入力の内容に基づき特定されてもよいし、その他の手法で特定されてもよい。

　学習部１４は、訂正テキストデータと合成音データとを対応付けた学習データで、音声認識モデルを再学習する。再学習の手法は特段制限されず、周知のあらゆる手法を採用できる。この誤認識箇所に特化した再学習により、誤認識箇所を正しく認識できるようになることが期待される。

　次に、図４のフローチャートを用いて、処理装置１０の処理の流れの一例を説明する。

　まず、処理装置１０は、認識対象音声データを取得すると（Ｓ１０）、その認識対象音声データに対して音声認識処理を実行する（Ｓ１１）。具体的には、処理装置１０は、予め用意された音声認識モデルに認識対象音声データを入力し、認識対象音声データの内容を示す認識結果テキストデータを取得する。

　次いで、処理装置１０は、認識対象音声データに対する音声認識処理の結果を示す認識結果テキストデータを出力する（Ｓ１２）。例えば、処理装置１０は、図２に示す出力画面を出力する。

　その後、処理装置１０は、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けると（Ｓ１３のＹｅｓ）、訂正テキストデータの内容を発話する合成音データを生成する（Ｓ１４）。そして、処理装置１０は、訂正テキストデータと合成音データとを対応付けた学習データで、音声認識モデルを再学習する（Ｓ１５）。

　再学習が終了した後、ユーザは、処理装置１０を操作し、再学習された音声認識モデル、すなわち、誤認識箇所を正しく認識できるようになった音声認識モデルを用いた音声認識処理を、認識対象音声データに対して再度実行させることができる。結果、ユーザは、誤認識箇所が正しく訂正された音声認識結果を取得することができる。

　ここで、Ｓ１３でＹｅｓと判断する具体例、すなわち「合成音の生成（Ｓ１４）」及び「再学習（Ｓ１５）」を開始するトリガについて説明する。

　一例として、図２に示すように、出力画面に「学習」ボタンが設けられていてもよい。この場合、処理装置１０は、訂正内容の欄に訂正テキストデータが入力されている状態で「学習」ボタンが押下されると、「訂正テキストデータのユーザ入力を受付けた（Ｓ１３のＹｅｓ）」と判断することができる。この場合、その時点で訂正内容の欄に入力されている全てのテキストを、訂正テキストデータとして処理することができる。

　他の例として、処理装置１０は、訂正内容の欄に訂正テキストデータが入力されている状態で、訂正内容の欄において所定の入力操作が行われると、「訂正テキストデータのユーザ入力を受付けた（Ｓ１３のＹｅｓ）」と判断することができる。「訂正内容の欄における所定の入力操作」は、例えば改行、句読点の入力、スペースの入力等である。この場合、所定の入力操作で入力された対象（改行、句読点、スペース等）の直前に入力されているテキストを、訂正テキストデータとして処理することができる。

「作用効果」
　本実施形態の処理装置１０によれば、第１の実施形態と同様の作用効果が実現される。

　また、本実施形態の処理装置１０によれば、ユーザが入力する訂正テキストデータの内容に自由度があり、誤認識箇所の正しい内容を少なくとも含んでいればよい。このような本実施形態の処理装置１０によれば、様々なパターンの表現や文章で、誤認識箇所に関連する再学習を実行することができる。結果、再学習の効果を向上させることができる。

　また、本実施形態の処理装置１０によれば、様々なタイミングで再学習を開始することができる。例えば、訂正内容の欄に訂正テキストデータが入力されている状態で、訂正内容の欄において所定の入力操作が行われたことをトリガに、再学習を行うことができる。「訂正内容の欄における所定の入力操作」は、例えば改行、句読点の入力、スペースの入力等である。この場合、ユーザによる訂正テキストデータの入力と並行して、リアルタイムに再学習を実行することができる。結果、ユーザの待ち時間を減らすことができる。

＜第３の実施形態＞
　本実施形態の処理装置１０は、音声認識モデルを再学習した後、自動的に再学習後の音声認識モデルに認識対象音声データを入力し、その認識結果をユーザに向けて出力する機能を有する。以下、詳細に説明する。

　認識部１２は、学習部１４による音声認識モデルの再学習が終了した後、再学習を実行した後の音声認識モデルに認識対象音声データを入力し、認識対象音声データの内容を示す再学習後認識結果テキストデータを取得する。再学習を実行した後の音声認識モデルに入力される認識対象音声データは、再学習を実行する前の音声認識モデルに入力され、その音声認識結果において誤認識箇所が含まれていた認識対象音声データである。

　出力部１３は、再学習後認識結果テキストデータを出力する。出力部１３は、認識結果テキストデータと再学習後認識結果テキストデータを並べて出力する処理、又は、音声認識結果を表示する欄の内容を、認識結果テキストデータ（再学習を実行する前の音声認識モデルで得られた認識結果）から再学習後認識結果テキストデータ（再学習を実行した後の音声認識モデルで得られた認識結果）に更新する処理を実行する。

　例えば、出力部１３は、再学習を実行した後の音声認識モデルを用いた音声認識処理に応じて、図５に示すような出力画面を出力することができる。図５の出力画面では、認識結果テキストデータと再学習後認識結果テキストデータを並べて表示している。「音声認識結果（再学習前）」の欄に、認識結果テキストデータが表示されている。そして、「音声認識結果（再学習後）」の欄に、再学習後認識結果テキストデータが表示されている。

　図示するように、出力部１３は、認識結果テキストデータと再学習後認識結果テキストデータとの相違部分を検出し、再学習後認識結果テキストデータの出力において、検出した相違部分を強調してもよい。相違部分の検出は、認識結果テキストデータと再学習後認識結果テキストデータとの比較処理により実現される。図示する例では、相違部分を枠Ｗで囲むことで強調しているが、文字の太さを変える、色を変える等の他の手法で強調してもよい。

　他の例として、出力部１３は、再学習を実行した後の音声認識モデルを用いた音声認識処理に応じて、図６に示すような出力画面を出力することができる。図６の出力画面では、音声認識結果の欄に再学習後認識結果テキストデータが表示されている。すなわち、音声認識結果の欄の表示内容が、再学習前の音声認識モデルを用いた音声認識処理で得られた認識結果テキストデータから、再学習後の音声認識モデルを用いた音声認識処理で得られた再学習後認識結果テキストデータに切り替わっている。

　当該例においても、出力部１３は、図示するように、認識結果テキストデータと再学習後認識結果テキストデータとの相違部分を検出し、再学習後認識結果テキストデータの出力において、検出した相違部分を強調してもよい。

　次に、図７のフローチャートを用いて、処理装置１０の処理の流れの一例を説明する。

　まず、処理装置１０は、認識対象音声データを取得すると（Ｓ２０）、その認識対象音声データに対して音声認識処理を実行する（Ｓ２１）。具体的には、処理装置１０は、予め用意された音声認識モデルに認識対象音声データを入力し、認識対象音声データの内容を示す認識結果テキストデータを取得する。

　次いで、処理装置１０は、認識対象音声データに対する音声認識処理の結果を示す認識結果テキストデータを出力する（Ｓ２２）。例えば、処理装置１０は、図２に示す出力画面を出力する。

　その後、処理装置１０は、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けると（Ｓ２３のＹｅｓ）、訂正テキストデータの内容を発話する合成音データを生成する（Ｓ２４）。そして、処理装置１０は、訂正テキストデータと合成音データとを対応付けた学習データで、音声認識モデルを再学習する（Ｓ２５）。

　その後、処理装置１０は、再学習を実行した後の音声認識モデルを用いて、Ｓ２０で取得した認識対象音声データに対して音声認識処理を実行する（Ｓ２６）。具体的には、処理装置１０は、再学習を実行した後の音声認識モデルに、Ｓ２０で取得した認識対象音声データを入力し、認識対象音声データの内容を示す再学習後認識結果テキストデータを取得する。

　次いで、処理装置１０は、再学習後認識結果テキストデータを出力する（Ｓ２７）。例えば、処理装置１０は、図５に示すように認識結果テキストデータと再学習後認識結果テキストデータを並べて出力する処理、又は、図６に示すように音声認識結果を表示する欄の内容を、認識結果テキストデータから再学習後認識結果テキストデータに更新する処理を実行する。

　本実施形態の処理装置１０のその他の構成は、第１及び第２の実施形態と同様である。

　本実施形態の処理装置１０によれば、第１及び第２の実施形態と同様の作用効果が実現される。

　また、本実施形態の処理装置１０によれば、音声認識モデルを再学習した後、自動的に再学習後の音声認識モデルに認識対象音声データを入力し、その認識結果をユーザに向けて出力することができる。ユーザは、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータを入力するだけで、その誤認識箇所が正しく訂正された再学習後認識結果テキストデータを取得することができる。

　また、本実施形態の処理装置１０によれば、再学習後認識結果テキストデータをユーザに向けて表示する際に、再学習前の音声認識モデルで得られた認識結果テキストデータと、再学習後の音声認識モデルで得られた再学習後認識結果テキストデータとの相違点を強調することができる。当該強調により、ユーザは、再学習に応じて変化した箇所を容易に把握することができる。結果、ユーザは、再学習により誤認識箇所が正しく訂正されたか、また、再学習により誤認識箇所と関係ない箇所の内容が変更されていないか等を容易に把握することができる。

＜第４の実施形態＞
　本実施形態の処理装置１０は、再学習で誤認識箇所が正しく訂正されなかった場合、音声認識モデルを再度、再学習（再々学習）する機能を有する。そして、処理装置１０は、音声認識モデルを再々学習する際には、再学習した際と異なる方法で、音声認識モデルを学習する機能を有する。以下、詳細に説明する。

「再々学習実行のトリガ」
　処理装置１０は、再学習後認識結果テキストデータを出力した後の所定のユーザ入力に応じて、再々学習を実行する。

　「再学習後認識結果テキストデータを出力した後の所定のユーザ入力」は、例えば、再学習時と同じ訂正テキストデータが入力された状態で行われた再学習を開始するユーザ入力であってもよい。一例として、図５及び図６に示す出力画面のように再学習後認識結果テキストデータが表示された場合、訂正内容の欄において再学習時と同じ訂正テキストデータが入力された状態で「学習」ボタンが再度押下されると、処理装置１０は再々学習を実行してもよい。

　なお、上述の通り、処理装置１０は、音声認識モデルを再々学習する際には、再学習した際と異なる方法で、音声認識モデルを学習する。このため、「学習」ボタンが押下された際に、これから行う再学習が「再々学習」か否かを判断する必要がある。

　これを実現する一例として、処理装置１０は、再学習履歴データとして、これまでの再学習（２回目以降の再学習を含む）で利用した訂正テキストデータ及び学習方法の内容を記憶しておいてもよい。処理装置１０は、各認識対象音声データに紐付けて、当該再学習履歴データを記憶することができる。そして、処理装置１０は、「学習」ボタンの押下に応じて再学習を実行する際に、今回の再学習に利用する訂正テキストデータが再学習履歴データに登録されていないか確認する。登録されている場合は、処理装置１０は「再々学習」と判断し、再学習履歴データに登録されている学習方法と異なる方法で再学習を行う。一方、登録されていない場合は、処理装置１０は「再学習」と判断し、任意の方法で再学習を行う。

　「再学習後認識結果テキストデータを出力した後の所定のユーザ入力」の他の例として、処理装置１０は、図５及び図６に示す出力画面のように再学習後認識結果テキストデータを表示した後、「誤認識箇所は正しく訂正されましたか？Yes　or No」等の問い合わせメッセージを出力してもよい。そして、その問い合わせメッセージに対する回答がNoの場合、処理装置１０は、前回の再学習時と同じ訂正テキストデータを用いて再々学習を実行してもよい。

「再学習した際と異なる方法で、音声認識モデルを学習する機能」
　処理装置１０は、再々学習の際には、再学習時と異なる学習データを用いて、音声認識モデルを学習する。より具体的には、処理装置１０は、再々学習の際には、再学習時と異なる音声データ（学習データ）を用いて、音声認識モデルを学習する。

　音データ生成部１５は、再々学習の際には、再学習時と異なる方法で音声データ（学習データ）を生成する。音データ生成部１５は、再学習後認識結果テキストデータを出力した後の上記所定のユーザ入力に応じて、前回（再学習時）と異なる方法で音声データ（学習データ）を生成する。

　例えば、音データ生成部１５は、再々学習の際には、再学習時と異なる方法で、訂正テキストデータの内容を発話する合成音データを生成してもよい。具体的には、音データ生成部１５は、再々学習の際には、再学習の際に生成した合成音の属性（性別、年齢層、環境（屋外、屋内、電話、エコーの有無等）等）と異なる属性の合成音を生成してもよい。

　その他、音データ生成部１５は、再々学習の際には、取得部１１が取得した認識対象音声データから一部を切り出して再学習用音声データとしてもよい。この場合、音データ生成部１５は、取得部１１が取得した認識対象音声データの中から、訂正テキストデータに対応する箇所を特定する必要がある。これを実現する手段は特段制限されず、あらゆる技術を採用できる。例えば、認識結果テキストデータを平仮名のみ又はカタカナのみで示した文字列データの中から、訂正テキストデータを平仮名のみ又はカタカナのみで示した文字列データをパターンマッチング等で検索し、検索した箇所の発話タイミングを認識対象音声データの中から検出してもよい。

　学習部１４は、このようにして生成された音声データ（再学習時と異なる方法で生成された合成音データ、又は認識対象音声データから一部を切り出して生成された再学習用音声データ）と訂正テキストデータとを対応付けた学習データで、音声認識モデルを、再度再学習する（再々学習する）。

　次に、図８のフローチャートを用いて、処理装置１０の処理の流れの一例を説明する。

　まず、処理装置１０は、認識対象音声データを取得すると（Ｓ３０）、その認識対象音声データに対して音声認識処理を実行する（Ｓ３１）。具体的には、処理装置１０は、予め用意された音声認識モデルに認識対象音声データを入力し、認識対象音声データの内容を示す認識結果テキストデータを取得する。

　次いで、処理装置１０は、認識対象音声データに対する音声認識処理の結果を示す認識結果テキストデータを出力する（Ｓ３２）。例えば、処理装置１０は、図２に示す出力画面を出力する。

　その後、処理装置１０は、認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けると（Ｓ３３のＹｅｓ）、訂正テキストデータの内容を発話する合成音データを生成する（Ｓ３４）。そして、処理装置１０は、訂正テキストデータと合成音データとを対応付けた学習データで、音声認識モデルを再学習する（Ｓ３５）。

　その後、処理装置１０は、再学習を実行した後の音声認識モデルを用いて、Ｓ３０で取得した認識対象音声データに対して音声認識処理を実行する（Ｓ３６）。具体的には、処理装置１０は、再学習を実行した後の音声認識モデルに、Ｓ３０で取得した認識対象音声データを入力し、認識対象音声データの内容を示す再学習後認識結果テキストデータを取得する。

　次いで、処理装置１０は、再学習後認識結果テキストデータを出力する（Ｓ３７）。例えば、処理装置１０は、図５に示すように認識結果テキストデータと再学習後認識結果テキストデータを並べて出力する処理、又は、図６に示すように音声認識結果を表示する欄の内容を、認識結果テキストデータから再学習後認識結果テキストデータに更新する処理を実行する。

　処理装置１０は、再学習後認識結果テキストデータを出力した後に（Ｓ３７の後に）、所定のユーザ入力を受付けると（Ｓ３８のＹｅｓ）、前回（再学習時）と異なる方法で音声データ（学習データ）を生成する（Ｓ３９）。そして、処理装置１０は、Ｓ３３で受付けた訂正テキストデータと、Ｓ３９で生成した音声データ（学習データ）とを対応付けた学習データで、音声認識モデルを再度再学習する（Ｓ４０）。

　その後、処理装置１０は、再度再学習を実行した後の音声認識モデルを用いて、Ｓ３０で取得した認識対象音声データに対して音声認識処理を実行する（Ｓ４１）。具体的には、処理装置１０は、再度再学習を実行した後の音声認識モデルに、Ｓ３０で取得した認識対象音声データを入力し、認識対象音声データの内容を示す再学習後認識結果テキストデータを取得する。

　次いで、処理装置１０は、再学習後認識結果テキストデータを出力する（Ｓ４２）。例えば、処理装置１０は、再学習後の音声認識モデルで得られた認識結果と、再々学習後の音声認識モデルで得られた認識結果を並べて出力してもよい。その他、処理装置１０は、音声認識結果を表示する欄の内容を、再学習後の音声認識モデルで得られた認識結果から、再々学習後の音声認識モデルで得られた認識結果に更新してもよい。この場合も、処理装置１０は、再学習後の音声認識モデルで得られた認識結果と、再々学習後の音声認識モデルで得られた認識結果の相違点を検出し、検出した相違点を強調してもよい。

　本実施形態の処理装置１０のその他の構成は、第１乃至第３の実施形態と同様である。

　本実施形態の処理装置１０によれば、第１乃至第３の実施形態と同様の作用効果が実現される。

　また、本実施形態の処理装置１０によれば、音声認識モデルの再学習で誤認識箇所が正しく訂正されない場合は、再度、音声認識モデルを再学習することができる。音声認識モデルの再学習の繰り返しにより、誤認識箇所が正しく訂正されるようになることが期待される。

　また、再々学習の際には、再学習の際と異なる方法で、音声認識モデルを再学習することができる。このため、音声認識モデルの再学習の繰り返しをより効果的なものとすることができる。

＜第５の実施形態＞
　本実施形態の処理装置１０は、認識対象音声データの属性を特定し、特定した属性を備える合成音データを生成する機能を有する。以下、詳細に説明する。

　音データ生成部１５は、認識対象音声データの属性を特定し、特定した属性を備える合成音データを生成する。

　例えば、音データ生成部１５は、認識対象音声データを解析し、話者の属性情報（年齢層、性別等）や、環境の属性情報（屋外、屋内、電話等）等を特定する。音データ生成部１５は、周知の技術を利用して、これらの属性を特定することができる。例えば、予め、各属性に対応した特徴量が処理装置１０に登録されている。そして、音データ生成部１５は、認識対象音声データの中から各属性に対応する特徴量を検出することで、認識対象音声データの属性を特定することができる。

　特定した属性を備える合成音データの生成は、周知のあらゆる技術を利用して実現できる。

　処理装置１０は、例えば図７のＳ２４、図８のＳ３４等において、上述した「認識対象音声データの属性の特定、及び特定した属性を備える合成音データの生成」を行うことができる。なお、処理装置１０は、図８のＳ３９において、上述した「認識対象音声データの属性の特定、及び特定した属性を備える合成音データの生成」を行ってもよい。

　本実施形態の処理装置１０のその他の構成は、第１乃至第４の実施形態と同様である。

　本実施形態の処理装置１０によれば、第１乃至第４の実施形態と同様の作用効果が実現される。

　また、本実施形態の処理装置１０によれば、認識対象音声データと同じ属性を備える合成音データを生成し、当該合成音データを用いて音声認識モデルを再学習することができる。結果、その再学習により、その認識対象音声データの音声認識結果に含まれた誤認識箇所を正しく認識できるようになる可能性が高くなる。

＜変形例＞
　ここで、第１乃至第５の実施形態に適用可能な変形例を説明する。

　音データ生成部１５は、入力された訂正テキストデータそのものの内容を発話する合成音データを生成してもよいし、入力された訂正テキストデータを修正した修正後の訂正テキストデータの内容を発話する合成音データを生成してもよい。

　入力された訂正テキストデータの修正は、音データ生成部１５（処理装置１０）が行うことができる。例えば、音データ生成部１５は、単語が訂正テキストデータとして入力された場合、予め用意されたテンプレート文章を用いて、入力された訂正テキストデータを含む文章を生成してもよい。一例として、「台風」が訂正テキストデータとして入力された場合、音データ生成部１５は、「台風が北上中です。」等の文章を生成してもよい。

　当該変形例においても、第１乃至第５の実施形態と同様の作用効果が実現される。

　以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。上述した実施形態の構成は、互いに組み合わせたり、一部の構成を他の構成に入れ替えたりしてもよい。また、上述した実施形態の構成は、趣旨を逸脱しない範囲内において種々の変更を加えてもよい。また、上述した各実施形態や変形例に開示される構成や処理を互いに組み合わせてもよい。

　また、上述の説明で用いた複数のフローチャートでは、複数の工程（処理）が順番に記載されているが、各実施の形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施の形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施の形態は、内容が相反しない範囲で組み合わせることができる。

　上記の実施の形態の一部又は全部は、以下の付記のようにも記載されうるが、以下に限られない。
１．　認識対象音声データを取得する取得手段と、
　音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得する認識手段と、
　前記認識結果テキストデータを出力する出力手段と、
　前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けるユーザ入力受付手段と、
　前記訂正テキストデータの内容を発話する合成音データを生成する音データ生成手段と、
　前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する学習手段と、
を有する処理装置。
２．　前記認識手段は、前記再学習を実行した後の前記音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す再学習後認識結果テキストデータを取得し、
　前記出力手段は、前記再学習後認識結果テキストデータを出力する１に記載の処理装置。
３．　前記出力手段は、
　　前記認識結果テキストデータと前記再学習後認識結果テキストデータを並べて出力する処理、又は、
　　音声認識結果を表示する欄の内容を、前記認識結果テキストデータから前記再学習後認識結果テキストデータに更新する処理、
を実行する２に記載の処理装置。
４．　前記出力手段は、
　　前記認識結果テキストデータと前記再学習後認識結果テキストデータとの相違部分を検出し、
　　前記再学習後認識結果テキストデータの出力において、検出した前記相違部分を強調する２又は３に記載の処理装置。
５．　前記音データ生成手段は、
　　前記再学習後認識結果テキストデータを出力した後の所定のユーザ入力に応じて、前回と異なる方法で、前記訂正テキストデータの内容を発話する合成音データを再度生成し、
　前記学習手段は、
　　前記訂正テキストデータと前記再度生成された合成音データとを対応付けた学習データで、前記音声認識モデルを再度、再学習する２から４のいずれかに記載の処理装置。
６．　前記音データ生成手段は、
　　前記再学習後認識結果テキストデータを出力した後の所定のユーザ入力に応じて、前記認識対象音声データから一部を切り出して再学習用音声データを生成し、
　前記学習手段は、
　　前記訂正テキストデータと前記再学習用音声データとを対応付けた学習データで、前記音声認識モデルを再度、再学習する２から４のいずれかに記載の処理装置。
７．　前記音データ生成手段は、
　　前記認識対象音声データの属性を特定し、
　　特定した前記属性を備える前記合成音データを生成する１から６のいずれかに記載の処理装置。
８．　前記ユーザ入力受付手段は、
　　前記認識結果テキストデータに含まれる前記誤認識箇所を指定する入力を受付けない１から７のいずれかに記載の処理装置。
９．　１つ以上のコンピュータが、
　　認識対象音声データを取得し、
　　音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得し、
　　前記認識結果テキストデータを出力し、
　　前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付け、
　　前記訂正テキストデータの内容を発話する合成音データを生成し、
　　前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する、
処理方法。
１０．　コンピュータを、
　　認識対象音声データを取得する取得手段、
　　音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得する認識手段、
　　前記認識結果テキストデータを出力する出力手段、
　　前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けるユーザ入力受付手段、
　　前記訂正テキストデータの内容を発話する合成音データを生成する音データ生成手段、
　　前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する学習手段、
として機能させるプログラム。

　この出願は、２０２２年１１月２４日に出願された日本出願特願２０２２－１８７１９６号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１０　　処理装置
　１１　　取得部
　１２　　認識部
　１３　　出力部
　１４　　学習部
　１５　　音データ生成部
　１６　　ユーザ入力受付部
　１Ａ　　プロセッサ
　２Ａ　　メモリ
　３Ａ　　入出力Ｉ／Ｆ
　４Ａ　　周辺回路
　５Ａ　　バス

Claims

　認識対象音声データを取得する取得手段と、
　音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得する認識手段と、
　前記認識結果テキストデータを出力する出力手段と、
　前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けるユーザ入力受付手段と、
　前記訂正テキストデータの内容を発話する合成音データを生成する音データ生成手段と、
　前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する学習手段と、
を有する処理装置。
　前記認識手段は、前記再学習を実行した後の前記音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す再学習後認識結果テキストデータを取得し、
　前記出力手段は、前記再学習後認識結果テキストデータを出力する請求項１に記載の処理装置。
　前記出力手段は、
　　前記認識結果テキストデータと前記再学習後認識結果テキストデータを並べて出力する処理、又は、
　　音声認識結果を表示する欄の内容を、前記認識結果テキストデータから前記再学習後認識結果テキストデータに更新する処理、
を実行する請求項２に記載の処理装置。
　前記出力手段は、
　　前記認識結果テキストデータと前記再学習後認識結果テキストデータとの相違部分を検出し、
　　前記再学習後認識結果テキストデータの出力において、検出した前記相違部分を強調する請求項２又は３に記載の処理装置。
　前記音データ生成手段は、
　　前記再学習後認識結果テキストデータを出力した後の所定のユーザ入力に応じて、前回と異なる方法で、前記訂正テキストデータの内容を発話する合成音データを再度生成し、
　前記学習手段は、
　　前記訂正テキストデータと前記再度生成された合成音データとを対応付けた学習データで、前記音声認識モデルを再度、再学習する請求項２から４のいずれか１項に記載の処理装置。
　前記音データ生成手段は、
　　前記再学習後認識結果テキストデータを出力した後の所定のユーザ入力に応じて、前記認識対象音声データから一部を切り出して再学習用音声データを生成し、
　前記学習手段は、
　　前記訂正テキストデータと前記再学習用音声データとを対応付けた学習データで、前記音声認識モデルを再度、再学習する請求項２から４のいずれか１項に記載の処理装置。
　前記音データ生成手段は、
　　前記認識対象音声データの属性を特定し、
　　特定した前記属性を備える前記合成音データを生成する請求項１から６のいずれか１項に記載の処理装置。
　前記ユーザ入力受付手段は、
　　前記認識結果テキストデータに含まれる前記誤認識箇所を指定する入力を受付けない請求項１から７のいずれか１項に記載の処理装置。
　１つ以上のコンピュータが、
　　認識対象音声データを取得し、
　　音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得し、
　　前記認識結果テキストデータを出力し、
　　前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付け、
　　前記訂正テキストデータの内容を発話する合成音データを生成し、
　　前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する、
処理方法。
　コンピュータを、
　　認識対象音声データを取得する取得手段、
　　音声認識モデルに前記認識対象音声データを入力し、前記認識対象音声データの内容を示す認識結果テキストデータを取得する認識手段、
　　前記認識結果テキストデータを出力する出力手段、
　　前記認識結果テキストデータに含まれる誤認識箇所の正しい内容を示す訂正テキストデータのユーザ入力を受付けるユーザ入力受付手段、
　　前記訂正テキストデータの内容を発話する合成音データを生成する音データ生成手段、
　　前記訂正テキストデータと前記合成音データとを対応付けた学習データで、前記音声認識モデルを再学習する学習手段、
として機能させるプログラムを記憶する記録媒体。