JPWO2023013060A5

JPWO2023013060A5 -

Info

Publication number: JPWO2023013060A5
Application number: JP2023539570A
Authority: JP
Publication date: 2024-04-08

Description

会話データ取得部１１０は、複数人の音声情報を含む会話データを取得する。会話データ取得部１１０は、例えばマイク等から直接会話データを取得してもよいし、他の装置等で生成された会話データを取得してもよい。会話データの一例としては、会議の音声を録音した会議データ等が挙げられる。また、会話データ取得部１１０は、取得した会話データに対して各種処理を実行可能に構成されてよい。例えば、会話データ取得部１１０は、会話データにおいて話者が発話している区間を検出する処理、会話データを音声認識してテキスト化する処理、及び発話している話者を分類する処理等を実行可能に構成されてよい。

（情報生成動作）
次に、図３を参照しながら、第１実施形態に係る情報処理システム１０による照合用情報を生成する際の動作（以下、適宜「情報生成動作」と称する）の流れについて説明する。図３は、第１実施形態に係る情報処理システムによる情報生成動作の流れを示すフローチャートである。

図３に示すように、第１実施形態に係る情報処理システム１０による情報生成動作では、まず会話データ取得部１１０が、複数人の音声情報を含む会話データを取得する（ステップＳ１０１）。そして、会話データ取得部１１０は、会話データにおいて話者が発話している区間を検出する処理（以下、適宜「区間検出処理」と称する）を実行する（ステップＳ１０２）。区間検出処理は、例えば無音区間を検出してトリミングする処理であってよい。

（情報生成動作）
次に、図５を参照しながら、第２実施形態に係る情報処理システム１０による情報生成動作の流れについて説明する。図５は、第２実施形態に係る情報処理システムによる情報生成動作の流れを示すフローチャートである。なお、図５では、図３で説明した処理と同様の処理に同一の符号を付している。

図５に示すように、第２実施形態に係る情報処理システム１０による情報生成動作では、まず会話データ取得部１１０が、複数人の音声情報を含む会話データを取得する（ステップＳ１０１）。そして、会話データ取得部１１０は、区間検出処理を実行する（ステップＳ１０２）。

Claims

複数人の音声情報を含む会話データを取得する取得手段と、
前記音声情報からキーワードを抽出するキーワード抽出手段と、
前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第１特徴量を抽出する特徴量抽出手段と、
前記キーワードと前記第１特徴量とを関連付けた照合用情報を生成する生成手段と、
を備える情報処理システム。
前記複数人のうち少なくとも１人の音声に関する特徴量である第２特徴量を取得する特徴量取得手段と、
前記第１特徴量と前記第２特徴量とを比較することで、前記第１特徴量から前記キーワードを発話した話者を特定できるか否かを判定する判定手段と、
を更に備える請求項１に記載の情報処理システム。
前記会話データに対する所定処理を要求するユーザに対して、前記照合用情報が生成された前記キーワードの発話を促す情報を提示する提示手段と、
前記ユーザの発話内容から、前記ユーザの音声に関する特徴量である第３特徴量を抽出する認証用特徴量抽出手段と、
発話を促した前記キーワードに関連付いた前記第１特徴量と、前記第３特徴量との比較結果に基づいて、前記ユーザによる前記所定処理の実行を許可するか否かを判定する許可判定手段と、
を更に備える請求項１又は２に記載の情報処理システム。
前記照合用情報は複数の前記キーワードについて生成されており、
前記提示手段は、一部の前記キーワードの発話を促す情報を提示して、前記ユーザによる前記所定処理の実行を許可しないと判定された場合に、他の前記キーワードの発話を促す情報を提示する、
請求項３に記載の情報処理システム。
複数人の音声情報を含む会話データを取得する取得手段と、
前記音声情報からキーワードを抽出するキーワード抽出手段と、
前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第１特徴量を抽出する特徴量抽出手段と、
前記キーワードと前記第１特徴量とを関連付けた照合用情報を生成する生成手段と、
を備える情報処理装置。
少なくとも１つのコンピュータが実行する情報処理方法であって、
複数人の音声情報を含む会話データを取得し、
前記音声情報からキーワードを抽出し、
前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第１特徴量を抽出し、
前記キーワードと前記第１特徴量とを関連付けた照合用情報を生成する、
情報処理方法。
少なくとも１つのコンピュータに、
複数人の音声情報を含む会話データを取得し、
前記音声情報からキーワードを抽出し、
前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第１特徴量を抽出し、
前記キーワードと前記第１特徴量とを関連付けた照合用情報を生成する、
情報処理方法を実行させるコンピュータプログラム。