WO2023013060A1

WO2023013060A1 - 情報処理システム、情報処理装置、情報処理方法、及び記録媒体

Info

Publication number: WO2023013060A1
Application number: PCT/JP2021/029412
Authority: WO
Inventors: 芳紀幸田
Original assignee: 日本電気株式会社
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2023-02-09
Also published as: JPWO2023013060A1

Abstract

情報処理システム（１０）は、複数人の音声情報を含む会話データを取得する取得手段（１１０）と、音声情報からキーワードを抽出するキーワード抽出手段（１２０）と、音声情報からキーワードを発話した際の音声に関する特徴量である第１特徴量を抽出する特徴量抽出手段（１３０）と、キーワードと第１特徴量とを関連付けた照合用情報を生成する生成手段（１４０）と、を備える。このような情報処理システムによれば、会話データから照合用の情報を適切に生成することができる。

Description

情報処理システム、情報処理装置、情報処理方法、及び記録媒体

　この開示は、情報処理システム、情報処理装置、情報処理方法、及び記録媒体の技術分野に関する。

　この種のシステムとして、音声認識技術にキーワードを利用するものが知られている。例えば特許文献１では、入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する技術が開示されている。特許文献２では、キーワードリストを作成して、音声情報から重要語を抽出する技術が開示されている。特許文献３では、音声認識された入力内容からユーザの興味特定に使用するキーワードを抽出する技術が開示されている。特許文献４では、音声認識によって生成した文字情報からキーワードを生成する技術が開示されている。

　その他の関連する技術として、特許文献５では、ユーザの声道及びユーザの話し方のパターンの挙動に関する情報に基づいて、ユーザのボイスプリントを生成する技術が開示されている。

特開２０２０－０８６０１１号公報特開２０１５－０９９２９０号公報特開２００９－２９４７９０号公報特開２００７－２５７１３４号公報特表２０１４－５１７３６６号公報

　この開示は、先行技術文献に開示された技術を改善することを目的とする。

　この開示の情報処理システムの一の態様は、複数人の音声情報を含む会話データを取得する取得手段と、前記音声情報からキーワードを抽出するキーワード抽出手段と、前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第１特徴量を抽出する特徴量抽出手段と、前記キーワードと前記第１特徴量とを関連付けた照合用情報を生成する生成手段と、を備える。

　この開示の情報処理装置の一の態様は、複数人の音声情報を含む会話データを取得する取得手段と、前記音声情報からキーワードを抽出するキーワード抽出手段と、前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第１特徴量を抽出する特徴量抽出手段と、前記キーワードと前記第１特徴量とを関連付けた照合用情報を生成する生成手段と、を備える。

　この開示の情報処理方法の一の態様は、少なくとも１つのコンピュータが実行する情報処理方法であって、複数人の音声情報を含む会話データを取得し、前記音声情報からキーワードを抽出し、前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第１特徴量を抽出し、前記キーワードと前記第１特徴量とを関連付けた照合用情報を生成する。

　この開示の記録媒体の一の態様は、少なくとも１つのコンピュータに、複数人の音声情報を含む会話データを取得し、前記音声情報からキーワードを抽出し、前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第１特徴量を抽出し、前記キーワードと前記第１特徴量とを関連付けた照合用情報を生成する、情報処理方法を実行させるコンピュータプログラムが記録されている。

第１実施形態に係る情報処理システムのハードウェア構成を示すブロック図である。第１実施形態に係る情報処理システムの機能的構成を示すブロック図である。第１実施形態に係る情報処理システムによる情報生成動作の流れを示すフローチャートである。第２実施形態に係る情報処理システムの機能的構成を示すブロック図である。第２実施形態に係る情報処理システムによる情報生成動作の流れを示すフローチャートである。第３実施形態に係る情報処理システムによる話者分類の具体例を示す概念図であるである。第３実施形態に係る情報処理システムによる話者集約の具体例を示す概念図であるである。第３実施形態に係る情報処理システムによるキーワード抽出の具体例を示す概念図であるである。第３実施形態に係る情報処理システムにおけるキーワードの記憶態様の一例を示す表である。第４実施形態に係る情報処理システムの機能的構成を示すブロック図である。第４実施形態に係る情報処理システムによる許可判定動作の流れを示すフローチャートである。第４実施形態に係る情報処理システムによる提示例を示す平面図である。第４実施形態に係る情報処理システムが扱うファイルの表示例を示す平面図である。第５実施形態に係る情報処理システムの機能的構成を示すブロック図である。第５実施形態に係る情報処理システムの許可判定動作の流れを示すフローチャートである。第５実施形態に係る情報処理システムによるキーワード表示変更の一例を示す平面図である。第６実施形態に係る情報処理システムのアプリケーション適用例を示すブロック図（その１）である。第６実施形態に係る情報処理システムのアプリケーション適用例を示すブロック図（その２）である。第６実施形態に係る情報処理システムのアプリケーション適用例を示すブロック図（その３）である。第７実施形態に係る情報処理システム１０による表示例を示す平面図である。

　以下、図面を参照しながら、情報処理システム、情報処理方法、及び記録媒体の実施形態について説明する。

　＜第１実施形態＞
　第１実施形態に係る情報処理システムについて、図１から図３を参照して説明する。

　（ハードウェア構成）
　まず、図１を参照しながら、第１実施形態に係る情報処理システムのハードウェア構成について説明する。図１は、第１実施形態に係る情報処理システムのハードウェア構成を示すブロック図である。

　図１に示すように、第１実施形態に係る情報処理システム１０は、プロセッサ１１と、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１２と、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１３と、記憶装置１４とを備えている。情報処理システム１０は更に、入力装置１５と、出力装置１６と、を備えていてもよい。上述したプロセッサ１１と、ＲＡＭ１２と、ＲＯＭ１３と、記憶装置１４と、入力装置１５と、出力装置１６とは、データバス１７を介して接続されている。

　プロセッサ１１は、コンピュータプログラムを読み込む。例えば、プロセッサ１１は、ＲＡＭ１２、ＲＯＭ１３及び記憶装置１４のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、プロセッサ１１は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。プロセッサ１１は、ネットワークインタフェースを介して、情報処理システム１０の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい（つまり、読み込んでもよい）。プロセッサ１１は、読み込んだコンピュータプログラムを実行することで、ＲＡＭ１２、記憶装置１４、入力装置１５及び出力装置１６を制御する。本実施形態では特に、プロセッサ１１が読み込んだコンピュータプログラムを実行すると、プロセッサ１１内には、会話データからキーワードを抽出して情報を生成するための機能ブロックが実現される。

　プロセッサ１１は、例えばＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＦＰＧＡ（ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅ　ｇａｔｅ　ａｒｒａｙ）、ＤＳＰ（Ｄｅｍａｎｄ－Ｓｉｄｅ　Ｐｌａｔｆｏｒｍ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）として構成されてよい。プロセッサ１１は、これらのうち一つで構成されてもよいし、複数を並列で用いるように構成されてもよい。

　ＲＡＭ１２は、プロセッサ１１が実行するコンピュータプログラムを一時的に記憶する。ＲＡＭ１２は、プロセッサ１１がコンピュータプログラムを実行している際にプロセッサ１１が一時的に使用するデータを一時的に記憶する。ＲＡＭ１２は、例えば、Ｄ－ＲＡＭ（Ｄｙｎａｍｉｃ　ＲＡＭ）であってもよい。

　ＲＯＭ１３は、プロセッサ１１が実行するコンピュータプログラムを記憶する。ＲＯＭ１３は、その他に固定的なデータを記憶していてもよい。ＲＯＭ１３は、例えば、Ｐ－ＲＯＭ（Ｐｒｏｇｒａｍｍａｂｌｅ　ＲＯＭ）であってもよい。

　記憶装置１４は、情報処理システム１０が長期的に保存するデータを記憶する。記憶装置１４は、プロセッサ１１の一時記憶装置として動作してもよい。記憶装置１４は、例えば、ハードディスク装置、光磁気ディスク装置、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。

　入力装置１５は、情報処理システム１０のユーザからの入力指示を受け取る装置である。入力装置１５は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。入力装置１５は、スマートフォンやタブレット等の携帯端末として構成されていてもよい。

　出力装置１６は、情報処理システム１０に関する情報を外部に対して出力する装置である。例えば、出力装置１６は、情報処理システム１０に関する情報を表示可能な表示装置（例えば、ディスプレイ）であってもよい。また、出力装置１６は、情報処理システム１０に関する情報を音声出力可能なスピーカ等であってもよい。出力装置１６は、スマートフォンやタブレット等の携帯端末として構成されていてもよい。

　なお、図１では、複数の装置を含んで構成される情報処理システム１０の例を挙げたが、これらの全部又は一部の機能を、１つの装置（情報処理装置）で実現してもよい。この情報処理装置は、例えば、上述したプロセッサ１１、ＲＡＭ１２、ＲＯＭ１３のみを備えて構成され、その他の構成要素（即ち、記憶装置１４、入力装置１５、出力装置１６）については、例えば情報処理装置に接続される外部の装置が備えるようにしてもよい。また、情報処理装置は、一部の演算機能を外部の装置（例えば、外部サーバやクラウド等）によって実現するものであってもよい。

　（機能的構成）
　次に、図２を参照しながら、第１実施形態に係る情報処理システム１０の機能的構成について説明する。図２は、第１実施形態に係る情報処理システムの機能的構成を示すブロック図である。

　図２に示すように、第１実施形態に係る情報処理システム１０は、その機能を実現するための構成要素として、会話データ取得部１１０と、キーワード抽出部１２０と、特徴量抽出部１３０と、照合用情報生成部１４０と、を備えて構成されている。会話データ取得部１１０、キーワード抽出部１２０、特徴量抽出部１３０、及び照合用情報生成部１４０の各々は、例えば上述したプロセッサ１１（図１参照）によって実現される処理ブロックであってよい。

　会話データ取得部１１０は、複数人の音声情報を含む会話データを取得する。会話データ取得部１１０は、例えばマイク等から直接音会話データを取得してもよいし、他の装置等で生成された会話データを取得してもよい。会話データの一例としては、会議の音声を録音した会議データ等が挙げられる。また、会話データ取得部１１０は、取得した会話データに対して各種処理を実行可能に構成されてよい。例えば、会話データ取得部１１０は、会話データにおいて話者が発話している区間を検出する処理、会話データを音声認識してテキスト化する処理、及び発話している話者を分類する処理等を実行可能に構成されてよい。

　キーワード抽出部１２０は、会話データ取得部１１０で取得された会話データの音声情報から、発話内容に含まれているキーワードを抽出する。キーワード抽出部１２０は、音声情報に含まれている単語の中からランダムにキーワードを抽出するようにしてもよいし、予め定められた単語をキーワードとして抽出するようにしてもよい。また、キーワード抽出部１２０は、会話データの内容に応じて抽出するキーワードを決定してもよい。例えば、キーワード抽出部１２０は、会話データにおいて出現頻度の高い単語（例えば、所定回数以上発話された単語）をキーワードとして抽出するようにしてもよい。キーワード抽出部１２０は、１つの会話データから複数のキーワードを抽出するようにしてもよい。キーワード抽出部１２０は、複数人の各々について少なくとも１つのキーワードを抽出するようにしてもよい。

　特徴量抽出部１３０は、キーワード抽出部１２０において抽出されたキーワードを発話した際の音声に関する特徴量（以下、適宜「第１特徴量」と称する）を抽出可能に構成されている。キーワード抽出部１２０において複数のキーワードが抽出されている場合、特徴量抽出部１３０は、全てのキーワードについて特徴量を抽出してもよいし、一部のキーワードについてのみ特徴量を抽出してもよい。なお、音声に関する特徴量の抽出手法については、既存の技術を適宜採用することができるため、ここでの詳細な説明は省略する。

　照合用情報生成部１４０は、キーワード抽出部１２０で抽出されたキーワードと、特徴量抽出部１３０で抽出された第１特徴量とを関連付けることで、照合用情報を生成可能に構成されている。例えば、照合用情報生成部１４０は、第１のキーワードと、第１のキーワードを発話した際の音声に関する特徴量とを互いに関連付け、第２のキーワードと、第２のキーワードを発話した際の音声に関する特徴量とを互いに関連付けてよい。照合用情報生成部１４０で生成された照合用情報は、会話に参加した複数人の音声照合に用いられる。照合用情報の具体的な利用方法については、後述する他の実施形態において詳しく説明する。

　（情報生成動作）
　次に、図３を参照しながら、第１実施形態に係る情報処理システム１０による照合用情報を生成する際の動作（以下、適宜「情報生成動作」と称する）の流れについて説明する。図３は、第１実施形態に係る情報処理システムによる情報処理動作の流れを示すフローチャートである。

　図３に示すように、第１実施形態に係る情報処理システム１０による情報処理動作では、まず会話データ取得部１１０が、複数人の音声情報を含む会話データを取得する（ステップＳ１０１）。そして、会話データ取得部１１０は、会話データにおいて話者が発話している区間を検出する処理（以下、適宜「区間検出処理」と称する）を実行する（ステップＳ１０２）。区間検出処理は、例えば無音区間を検出してトリミングする処理であってよい。

　続いて、会話データ取得部１１０は、区間検出処理が実行された会話データ（即ち、発話している区間の音声情報）から、話者を分類する処理（以下、適宜「話者分類処理」と称する）を実行する（ステップＳ１０３）。話者分類処理は、例えば会話データの各区間に話者に応じたラベルを付与する処理であってよい。

　他方で、会話データ取得部１１０は、区間検出処理が実行された会話データに対して音声認識を行ってテキスト化する処理（以下、適宜「音声認識処理」と称する）を実行する（ステップＳ１０４）。音声認識処理の具体的な手法については、既存の技術を適宜採用できるため、ここでの詳細な説明は省略する。なお、音声認識処理と、上述した話者分類処理とは、並行して同時に実行されてもよいし、相前後して順次実行されてもよい。

　続いて、キーワード抽出部１２０が、音声認識処理が実行された会話データ（即ち、テキストデータ）からキーワードを抽出する（ステップＳ１０５）。この際、キーワード抽出部１２０は、話者分類処理の結果を用いて（例えば、話者を区別して）キーワードを抽出してよい。なお、キーワード抽出部１２０は、同じ漢字の単語であっても異なる読み方をするものについては、それらを区別して抽出してよい。例えば、「一」という漢字の場合、「いち」と読むものと、「ひとつ」と読むものとで別々に抽出してよい。

　続いて、特徴量抽出部１３０が、キーワード抽出部１２０で抽出されたキーワードを発話した際の音声に関する特徴量（即ち、第１特徴量）を抽出する（ステップＳ１０６）。そして、照合用情報生成部１４０は、キーワード抽出部１２０で抽出されたキーワードと、特徴量抽出部１３０で抽出された第１特徴量とを関連付けて、照合用情報を生成する（ステップＳ１０７）。

　（技術的効果）
　次に、第１実施形態に係る情報処理システム１０によって得られる技術的効果について説明する。

　図１から図３で説明したように、第１実施形態に係る情報処理システム１０では、会話データから抽出されたキーワードと、その音声に関する特徴量（即ち、第１特徴量）とを関連付けて照合用情報が生成される。このようにすれば、複数人の音声情報を含む会話データから、照合用情報を適切に生成することができる。よって、会話に参加した複数人に対して、キーワードを用いた音声照合処理を適切に実行することが可能となる。また、本実施形態では、会話データからキーワードが抽出されるため、音声照合処理に用いるキーワードを別途用意する必要がない。よって、照合用情報を生成するのに要する手間を削減することが可能である。

　事前に決めた音声のキーワードを使い回す場合、悪意により録音された音声や音声合成で対応されてしまうおそれがある。しかしながら本実施形態では、事前に決めたキーワードを用いない（会話データからキーワードを生成できる）ため、悪意への堅牢性を高めることが可能である。また、会話データから自動的にキーワードが生成されるため、事前登録が不要となり、ユーザに意識してキーワードを用意させる必要もない。更に、キーワードを失念してしまうことを回避できる。例えば、複数の会議で異なるキーワードを用意しておけば、精度を高めることができる一方で、キーワードを失念する可能性も高くなってしまう。しかしながら本実施形態では、複数キーワードを用意する場合と同様の精度を実現しつつ、キーワードを失念してしまうような状況も回避できる。

　＜第２実施形態＞
　第２実施形態に係る情報処理システム１０について、図４及び図５を参照して説明する。なお、第２実施形態は、上述した第１実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第１実施形態と同一であってよい。このため、以下では、すでに説明した第１実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図４を参照しながら、第２実施形態に係る情報処理システム１０の機能的構成について説明する。図４は、第２実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図４では、図２で示した構成要素と同様の要素に同一の符号を付している。

　図４に示すように、第２実施形態に係る情報処理システム１０は、その機能を実現するための構成要素として、会話データ取得部１１０と、キーワード抽出部１２０と、特徴量抽出部１３０と、照合用情報生成部１４０と、特徴量取得部１５０と、利用可否判定部１６０と、を備えて構成されている。即ち、第２実施形態に係る情報処理システム１０は、第１実施形態の構成（図２参照）に加えて、特徴量取得部１５０と、利用可否判定部１６０と、を更に備えて構成されている。なお、特徴量取得部１５０及び利用可否判定部１６０の各々は、例えば上述したプロセッサ１１（図１参照）によって実現される処理ブロックであってよい。

　特徴量取得部１５０は、会話に参加した複数人の少なくとも１人の音声に関する特徴量（以下、適宜「第２特徴量」と称する）を取得可能に構成されている。特徴量取得部１５０は、会話データ取得部１１０が取得した会話データから第２特徴量を取得してよい。例えば、特徴量取得部１５０は、話者分類処理が実行された会話データから第２特徴量を抽出してよい。或いは、特徴量取得部１５０は、予め用意された第２特徴量を取得してもよい。例えば、会話に参加した複数人の各々の個人ＩＤや保有端末と紐付けて記憶されている第２特徴量を取得してもよい。

　利用可否判定部１６０は、特徴量抽出部１３０で抽出された第１特徴量と、特徴量取得部１５０で取得された第２特徴量とを比較することで、第１特徴量からキーワードを発話した話者を特定できるか否かを判定可能に構成されている。即ち、利用可否判定部１６０は、キーワードに対応する第１特徴量が、音声照合に利用可能であるかを判定可能に構成されている。利用可否判定部１６０は、同一の話者から抽出した第１特徴量と第２特徴量とを照合して、それらの話者が同一人物であると判定できた場合に、その第１特徴量は音声照合に利用可能であると判定してよい。また、利用可否判定部１６０は、同一の話者から抽出した第１特徴量と第２特徴量とを照合して、それらの話者が同一人物でないと判定された場合に、その第１特徴量は音声照合に利用可能でないと判定してよい。

　（情報生成動作）
　次に、図５を参照しながら、第２実施形態に係る情報処理システム１０による情報生成動作の流れについて説明する。図５は、第２実施形態に係る情報処理システムによる情報処理動作の流れを示すフローチャートである。なお、図５では、図３で説明した処理と同様の処理に同一の符号を付している。

　図５に示すように、第２実施形態に係る情報処理システム１０による情報処理動作では、まず会話データ取得部１１０が、複数人の音声情報を含む会話データを取得する（ステップＳ１０１）。そして、会話データ取得部１１０は、区間検出処理を実行する（ステップＳ１０２）。

　続いて、会話データ取得部１１０は、区間検出処理が実行された会話データに対して、話者分類処理を実行する（ステップＳ１０３）。そして、第２実施形態では、特徴量取得部１５０が、話者分類処理を実行した会話データから第２特徴量を取得する（ステップＳ２０１）。なお、既に説明したように、特徴量取得部１５０は、会話データ以外から第２特徴量を取得してもよい。

　他方、会話データ取得部１１０は、区間検出処理が実行された会話データに対して、音声認識処理を実行する（ステップＳ１０４）。そして、キーワード抽出部１２０が、音声認識処理が実行された会話データからキーワードを抽出する（ステップＳ１０５）。この際、キーワード抽出部１２０は、話者分類処理の結果を用いて（例えば、話者を区別して）キーワードを抽出してよい。その後、特徴量抽出部１３０が、キーワード抽出部１２０で抽出されたキーワードに対応する第１特徴量を抽出する（ステップＳ１０６）。

　なお、上述したステップＳ１０３及びＳ２０１の処理（即ち、フロー左側の処理）と、ステップＳ１０４、Ｓ１０５及びＳ１０６の処理（即ち、フロー右側の処理）とは、並行して同時に実行されてもよいし、相前後して順次実行されてもよい。

　続いて、第２実施形態では、利用可否判定部１６０が、特徴量抽出部１３０で抽出された第１特徴量と、特徴量取得部１５０で取得された第２特徴量とを比較して、第１特徴量からキーワードを発話した話者を特定できるか否かを判定する（ステップＳ２０２）。ここで、第１特徴量からキーワードを発話した話者を特定できると判定された場合（ステップＳ２０２：ＹＥＳ）、照合用情報生成部１４０は、キーワード抽出部１２０で抽出されたキーワードと、特徴量抽出部１３０で抽出された第１特徴量とを関連付けて、照合用情報を生成する（ステップＳ１０７）。一方、第１特徴量からキーワードを発話した話者を特定できないと判定された場合（ステップＳ２０２：ＮＯ）、上述したステップＳ１０７の処理は省略される。即ち、話者を特定できないと判定されたキーワードについては、照合用情報は生成されない。

　（技術的効果）
　次に、第２実施形態に係る情報処理システム１０によって得られる技術的効果について説明する。

　図４及び図５で説明したように、第２実施形態に係る情報処理システム１０では、第１特徴量と第２特徴量を比較して、キーワードによる音声照合が可能であるか否かが判定される。このようにすれば、音声照合に適さないキーワードについて照合用情報が生成されてしまうことを防止できる。よって、照合用情報を用いた音声照合の精度を高めることが可能である。

　＜第３実施形態＞
　第３実施形態に係る情報処理システム１０について、図６から図９を参照して説明する。なお、第３実施形態は、上述した第１及び第２実施形態で実行される処理の具体例等を説明するものであり、その構成や動作については第１及び第２実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。

　（話者分類処理）
　まず、図６を参照しながら、第３実施形態に係る情報処理システム１０が実行する話者分類処理（即ち、図３及び図５のステップＳ１０３の処理）の具体例について説明する。図６は、第３実施形態に係る情報処理システムによる話者分類の具体例を示す概念図である。

　図６に示すような音声認識データ（即ち、会話データをテキスト化したデータ）が、第３実施形態に係る情報処理システム１０で取得されているとする。この場合、話者分類処理では、音声認識データの各区間に、話者に対応するラベルが付与されてよい。図６に示す例では、音声認識データの各区間に対して、話者Ａ、話者Ｂ、及び話者Ｃに対応するラベルが付与されている。これにより、どの区間を、どの話者が発話したものか認識できるようになる。

　（話者集約処理）
　次に、図７を参照しながら、第３実施形態に係る情報処理システム１０が実行する話者集約処理（即ち、話者分類データから話者を絞り込む処理）の具体例について説明する。図７は、第３実施形態に係る情報処理システムによる話者集約の具体例を示す概念図である。

　図７に示すような話者分類データ（即ち、話者分類されたデータ）が、第３実施形態に係る情報処理システム１０で取得されているとする。この場合、話者集約する処理では、話者分類データから、いずれか１人の話者が発話した区間が抽出されてよい。なお、図７に示す例では、話者Ａの発話した区間を抽出する例を挙げているが、これらに加えて又は代えて、他の話者が発話した区間を抽出する処理が実行されてよい。

　（キーワード抽出処理）
　次に、図８を参照しながら、第３実施形態に係る情報処理システム１０が実行するキーワード抽出処理（即ち、話者集約データからキーワードを抽出する処理）の具体例について説明する。図８は、第３実施形態に係る情報処理システムによるキーワード抽出の具体例を示す概念図である。

　図８に示すような話者集約データが、第３実施形態に係る情報処理システム１０で取得されているとする。この場合、キーワード抽出処理では、話者集約データにおいて複数回発話されている単語がキーワードとして抽出される。図８に示す例では、太字で示す「本日」、「会議」、「保存」の３つの単語が複数回発話されている。このため、これら３つの単語がキーワードとして抽出される。なお、話者集約データが複数の話者に対して取得されている場合（例えば、話者Ｂや話者Ｃについても話者集約データが取得されている場合）、複数の話者について、それぞれキーワードを抽出する処理が実行されてよい。

　（キーワード記憶）
　次に、図９を参照しながら、第３実施形態に係る情報処理システム１０におけるキーワードの記憶態様の具体例について説明する。図９は、第３実施形態に係る情報処理システムにおけるキーワードの記憶態様の一例を示す表である。

　図９に示すように、キーワード抽出処理で抽出されたキーワードは、話者ごとに別々に記憶されてよい。例えば、話者Ａ、話者Ｂ、話者Ｃ、話者Ｄが存在する場合、話者Ａの発話区間から抽出されたキーワードは話者Ａに対応するキーワードとして記憶される。話者Ｂの発話区間から抽出されたキーワードは話者Ｂに対応するキーワードとして記憶される。話者Ｃの発話区間から抽出されたキーワードは話者Ｃに対応するキーワードとして記憶される。話者Ｄの発話区間から抽出されたキーワードは話者Ｄに対応するキーワードとして記憶される。なお、これらのキーワードから照合用情報が生成された場合、照合用情報についても話者ごとに記憶されてよい。

　（技術的効果）
　次に、第３実施形態に係る情報処理システム１０によって得られる技術的効果について説明する。

　図６から図９で説明したように、第３実施形態に係る情報処理システム１０によれば、照合用情報を生成する各種処理を適切な態様で実行することが可能である。ただし、上述した各種処理は上記態様に限定されるものではなく、各種処理をここで説明した態様とは異なる態様で実行するようにしてもよい。

　＜第４実施形態＞
　第４実施形態に係る情報処理システム１０について、図１０から図１３を参照して説明する。なお、第４実施形態は、上述した第１から第３実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第１から第３実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図１０を参照しながら、第４実施形態に係る情報処理システム１０の機能的構成について説明する。図１０は、第４実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図１０では、図２で示した構成要素と同様の要素に同一の符号を付している。

　図１０に示すように、第４実施形態に係る情報処理システム１０は、その機能を実現するための構成要素として、会話データ取得部１１０と、キーワード抽出部１２０と、特徴量抽出部１３０と、照合用情報生成部１４０と、照合用情報記憶部２１０と、キーワード提示部２２０と、認証用特徴量抽出部２３０と、許可判定部２４０と、を備えて構成されている。即ち、第４実施形態に係る情報処理システム１０は、第１実施形態の構成（図２参照）に加えて、照合用情報記憶部２１０と、キーワード提示部２２０と、認証用特徴量抽出部２３０と、許可判定部２４０と、を更に備えて構成されている。照合用情報記憶部２１０は、例えば上述した記憶装置１４によって実現されてよい。また、キーワード提示部２２０、認証用特徴量抽出部２３０、許可判定部２４０の各々は、例えば上述したプロセッサ１１（図１参照）によって実現される処理ブロックであってよい。

　照合用情報記憶部２１０は、照合用情報生成部１４０で生成された照合用情報を記憶可能に構成されている。照合用情報記憶部２１０は、既に説明したように、会話に参加していた話者ごとに照合用情報を記憶可能に構成されてよい（図９参照）。照合用情報記憶部２１０が記憶している照合用情報は、キーワード提示部２２０によって適宜読み出し可能とされている。

　キーワード提示部２２０は、会話データに対する所定処理を要求するユーザに対して、照合用情報記憶部２１０に記憶されている照合用情報に含まれるキーワードを提示可能に構成されている。キーワード提示部２２０は、例えば出力装置１６（図１参照）を用いてキーワードを提示してよい。キーワード提示部２２０は、ユーザが所定処理を実行するための操作（例えば、右クリックやダブルクリック等）を行ったタイミングで、キーワードを提示するようにしてもよい。なお、所定処理の一例としては、会話データのファイルを開く処理、暗号化された会話データのファイルを復号化する処理、及び会話データのファイルを編集する処理等が挙げられる。

　照合用情報が話者ごとに記憶されている場合、キーワード提示部２２０は、ユーザがどの話者であるかを判別してから、その話者に対応するキーワードを提示するようにしてもよい。キーワード提示部２２０は、例えばユーザの入力（例えば、氏名や個人ＩＤ等の入力）から話者を判別し、その話者に対応するキーワードを提示してよい。或いは、キーワード提示部２２０は、顔認証等を用いてどの話者であるかを判別し、その話者に対応するキーワードを提示してよい。

　また、照合用情報記憶部２１０が複数のキーワードを記憶している場合、キーワード提示部２２０は、記憶されている複数のキーワードの中から、提示するキーワードを選択して提示するようにしてもよい。また、キーワード提示部２２０は、複数のキーワードを接合して提示してもよい。この場合、キーワード提示部２２０は、予め定められた個数のキーワードを接合して提示してもよい。或いは、キーワード提示部２２０は、接合したキーワードの長さが話者を特定するために十分な長さとなるように（即ち、適切な音声照合が行える長さとなるように）、キーワードを選択してもよい。例えば、話者を特定するのに１．５秒の発話が必要となる場合、０．５秒に相当するワードを３つ接合したものを選択して提示すればよい。

　認証用特徴量抽出部２３０は、キーワードを提示した後にユーザが発話した内容（即ち、提示したキーワードに対応する発話内容）から、その音声に関する特徴量（以下、適宜「第３特徴量」と称する）を抽出可能に構成されている。第３特徴量は、第１特徴量（即ち、照合用情報としてキーワードと関連付けて記憶されている特徴量）と照合可能な特徴量である。

　許可判定部２４０は、キーワード提示部２２０で提示したキーワードに関連付いた第１特徴量と、認証用特徴量抽出部２３０で抽出した第３特徴量を比較して、ユーザによる所定処理の実行を許可するか否かを判定する。具体的には、許可判定部２４０は、第１特徴量と第３特徴量の照合の結果、会話データにおいてキーワードを発話している人物と、会話データに対する所定処理を要求しているユーザとが同一人物であると判定された場合に、ユーザによる所定処理の実行を許可してよい。また、会話データにおいてキーワードを発話している人物と、会話データに対する所定処理を要求しているユーザとが同一人物でないと判定された場合に、ユーザによる所定処理の実行を禁止してよい。

　（許可判定動作）
　次に、図１１を参照しながら、第４実施形態に係る情報処理システム１０による所定処理を許可するか否かを判定する動作（以下、適宜「許可判定動作」と称する）の流れについて説明する。図１１は、第４実施形態に係る情報処理システムによる許可判定動作の流れを示すフローチャートである。なお、図１１で示す許可判定動作は、第１及び第２実施形態で説明した情報生成動作が実行された後に（言い換えれば、照合用情報が生成された状態で）行われるものとする。

　図１１に示すように、第４実施形態に係る情報処理システム１０による許可判定動作では、まずキーワード提示部２２０が、照合用情報記憶部２１０が記憶している照合用情報を読み出して、ユーザに提示するキーワードを生成する（ステップＳ４０１）。そして、キーワード提示部２２０は、生成したキーワードをユーザに対して提示する（ステップＳ４０２）。

　なお、ユーザに提示するキーワードが１つである場合、キーワード提示部２２０は、読み出した照合用情報に含まれるキーワードをそのまま提示すればよい。また、ユーザに提示するキーワードが複数である場合、キーワード提示部２２０は、読み出した照合用情報に含まれるキーワードを接合して提示すればよい。なお、キーワードの具体的な提示例については後に詳しく説明する。

　続いて、認証用特徴量抽出部２３０が、ユーザの発話データ（具体的には、キーワードの提示を受けたユーザの発話によって取得された音声情報）を取得する（ステップＳ４０３）。そして、認証用特徴量抽出部２３０は、取得した発話データから、第３特徴量を抽出する（ステップＳ４０４）。

　続いて、許可判定部２４０が、提示したキーワードに対応する第１特徴量と、認証用特徴量抽出部２３０で抽出した第３特徴量と、を照合して認証処理を実行する（ステップＳ４０５）。ここで、認証が成功した場合（ステップＳ４０５：ＹＥＳ）、許可判定部２４０は、ユーザに対して所定処理の実行を許可する（ステップＳ４０６）。一方、認証が成功しなかった場合（ステップＳ４０５：ＮＯ）、許可判定部２４０は、ユーザに対して所定処理の実行を許可しない（ステップＳ４０７）。

　（キーワードの提示例）
　次に、図１２を参照しながら、第４実施形態に係るキーワード提示部２２０によるキーワードの提示例について説明する。図１２は、第４実施形態に係る情報処理システムによる提示例を示す平面図である。

　図１２に示すように、キーワード提示部２２０は、ディスプレイにキーワードを表示することで、ユーザにキーワードを提示してよい。この例では、「本日」、「会議」、「保存」の３つのキーワードがユーザに提示されている。また、キーワードに加えて、「以下の言葉を発話してください。」のようなメッセージを表示することで、ユーザがキーワードを発話することを促してもよい。なお、キーワードの提示は、音声で行われてもよい。具体的には、図１２で表示されているキーワードやメッセージを、スピーカ等を用いて音声出力してもよい。

　なお、ここでは提示した３つのキーワードをすべて発話するように促しているが、提示した複数のキーワードの中から一部のキーワードを選択して発話させるように促してもよい。この場合、「下記のキーワードから１つのキーワードを選択して発話してください。」のようなメッセージを表示してもよい。また、複数のキーワードを発話させる場合、その順序を固定してもよいし、固定しなくてもよい。具体的には、「本日」、「会議」、「保存」の３つのキーワードをユーザに提示した場合、「本日」、「会議」、「保存」の順番（即ち、表示された順番）で発話した場合にのみ認証が成功するようにしてもよいし、「会議」、「保存」、「本日」の順番（即ち、表示された順番とは異なる順番）で発話した場合でも認証が成功するようにしてもよい。

　（ファイルの表示例）
　次に、図１３を参照しながら、第４実施形態に係る情報処理システム１０で扱われるデータファイル（即ち、所定処理の対象となるファイル）の表示例について説明する。図１３は、第４実施形態に係る情報処理システムが扱うファイルの表示例を示す平面図である。

　図１３に示すように、第４実施形態に係る情報処理システム１０で扱われるデータファイルは、音声アイコンを付して表示されてもよい。このようにすれば、会話データに対して所定処理を要求するユーザが、直感的に認証方法を把握することができる。即ち、キーワードの発話によって認証可能なデータファイルであることを、ユーザに対して視覚的に知らせることができる。

　（技術的効果）
　次に、第４実施形態に係る情報処理システム１０によって得られる技術的効果について説明する。

　図１０から図１３で説明したように、第４実施形態に係る情報処理システム１０では、キーワードを提示した際のユーザの発話内容に基づいて、会話データに対する所定処理の実行可否が判定される。このようにすれば、所定処理を要求するユーザについて、所定処理を実行する権限があるか否かを適切に判定することができる。言い換えれば、ユーザが会話に参加していた人物か否かを適切に判定できる。よって、会話に参加していない第三者によって所定処理が実行されてしまうことを防止できる。なお、発話によって所定処理を許可する手法として、例えば予め定型句を用意しておく方法も考えられるが、発話する際に盗聴されるおそれがある。また、キーワードを毎回変えてもよいが、手間がかかり、キーワードを忘れてしまうおそれもある。しかるに本実施形態に係る情報処理システム１０によれば、会話データから抽出されるキーワードを提示し、そのキーワードの発話によって所定処理を許可できるため、上述した問題点をすべて解消することが可能である。

　＜第５実施形態＞
　第５実施形態に係る情報処理システム１０について、図１４から図１６を参照して説明する。なお、第５実施形態は、上述した第４実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第１から第４実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図１４を参照しながら、第５実施形態に係る情報処理システム１０の機能的構成について説明する。図１４は、第５実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図１４では、図１０で示した構成要素と同様の要素に同一の符号を付している。

　図１４に示すように、第５実施形態に係る情報処理システム１０は、その機能を実現するための構成要素として、会話データ取得部１１０と、キーワード抽出部１２０と、特徴量抽出部１３０と、照合用情報生成部１４０と、照合用情報記憶部２１０と、キーワード提示部２２０と、認証用特徴量抽出部２３０と、許可判定部２４０と、キーワード変更部２５０と、を備えて構成されている。即ち、第５実施形態に係る情報処理システム１０は、第４実施形態の構成（図１０参照）に加えて、キーワード変更部２５０を更に備えて構成されている。なお、キーワード変更部２５０は、例えば上述したプロセッサ１１（図１参照）によって実現される処理ブロックであってよい。

　キーワード変更部２５０は、キーワード提示部２２０が提示するキーワードを変更可能に構成されている。具体的には、キーワード変更部２５０は、許可判定部２４０において会話データに対する所定処理の実行が許可されなかった場合に、キーワード提示部２２０が提示するキーワードを変更可能に構成されている。

　（許可判定動作）
　次に、図１５を参照しながら、第５実施形態に係る情報処理システム１０による許可判定動作の流れについて説明する。図１５は、第５実施形態に係る情報処理システムによる許可判定動作の流れを示すフローチャートである。なお、図１５では、図１１で示した処理と同様の処理に同一の符号を付している。

　図１５に示すように、第５実施形態に係る情報処理システム１０による許可判定動作では、まずキーワード提示部２２０が、照合用情報記憶部２１０が記憶している照合用情報を読み出して、ユーザに提示するキーワードを生成する（ステップＳ４０１）。そして、キーワード提示部２２０は、生成したキーワードをユーザに対して提示する（ステップＳ４０２）。

　続いて、認証用特徴量抽出部２３０が、ユーザの発話データ（即ち、ユーザの発話に応じた音声情報）を取得する（ステップＳ４０３）。そして、認証用特徴量抽出部２３０は、取得した発話データから、第３特徴量を抽出する（ステップＳ４０４）。

　続いて、許可判定部２４０が、提示したキーワードに対応する第１特徴量と、認証用特徴量抽出部２３０で抽出した第３特徴量とを照合して認証処理を実行する（ステップＳ４０５）。ここで、認証が成功した場合（ステップＳ４０５：ＹＥＳ）、許可判定部２４０は、ユーザに対して所定処理の実行を許可する（ステップＳ４０６）。一方、認証が成功しなかった場合（ステップＳ４０５：ＮＯ）、許可判定部２４０は、ユーザに対して所定処理の実行を許可しない（ステップＳ４０７）。

　そして本実施形態では特に、ユーザに対して所定処理の実行が許可されなかった場合に、キーワード変更部２５０が、他のキーワード（即ち、まだ提示していない別のキーワード）が残っているか否かを判定する（ステップＳ５０１）。そして、他のキーワードが残っている場合（ステップＳ５０１：ＹＥＳ）、キーワード変更部２５０は、キーワード提示部２２０が提示するキーワードを他のキーワードに変更する（ステップＳ５０２）。この場合、ステップＳ４０２から処理が再開される。即ち、変更されたキーワードの発話に基づいて、再び同様の判定が行われることになる。なお、他のキーワードが残っていない場合（ステップＳ５０１：ＮＯ）、所定処理の実行が許可されないまま一連の処理が終了する。

　（キーワードの変更例）
　次に、図１６を参照しながら、第５実施形態に係るキーワード変更部２５０によるキーワードの変更例について説明する。図１６は、第５実施形態に係る情報処理システムによるキーワード表示変更の一例を示す平面図である。

　図１６に示すように、最初に「本日」、「会議」、「保存」の３つのキーワードが提示されていたとする。そして、所定処理の実行を許可しないと判定された場合、キーワード変更部２５０は、提示するキーワードを「会議」、「予算」、「機能」の３つに変更する。このように、キーワード変更部２５０は、一部のキーワードのみを変更してもよい。即ち、複数のキーワードを接合して提示する場合には、変更前後において一部重複したキーワードが提示されてもよい。また、キーワード変更部２５０は、すべてのキーワードを変更するようにしてもよい。更に、キーワード変更部２５０は、表示するキーワードの数を変更するようにしてもよい。

　なお、キーワード提示部２２０は、キーワードを変更した際に、キーワードと共に表示していたメッセージを変更してもよい。例えば、図１６で示すように「認証に失敗しました。再認証する場合は以下の言葉を発話してください。」というメッセージを表示するようにしてもよい。このようにすれば、ユーザに対して再度キーワードの発話を促すことができる。

　（技術的効果）
　次に、第５実施形態に係る情報処理システム１０によって得られる技術的効果について説明する。

　図１４から図１６で説明したように、第５実施形態に係る情報処理システム１０では、キーワードを用いた認証処理が失敗した場合に、ユーザに提示されるキーワードが変更される。通常の生体認証やパスワード照合では、照合用の情報を変更することはできないが、第５実施形態に係る複数のキーワードは本人性を示すもののため、変更が可能である。このようにすれば、認証処理によって本人拒否が発生した場合でも、再び認証処理を行うことが可能である。本実施形態は特に、再認証の際にキーワードが変更されるため、キーワードが照合に不適切なものであった場合であっても、変更後に適切な認証処理が行われることになる。

　＜第６実施形態＞
　第６実施形態に係る情報処理システム１０について、図１７から図１９を参照して説明する。なお、第６実施形態は、上述した第１から第５実施形態に係る情報処理システムの具体的な適用例を説明するものであり、その構成や動作については第１から第５実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。

　（会議アプリと共通のアプリに適用）
　まず、図１７を参照しながら、第６実施形態に係る情報処理システム１０が、会話データを生成する会議アプリと共通のアプリに適用される例について説明する。図１７は、第６実施形態に係る情報処理システムのアプリケーション適用例を示すブロック図（その１）である。なお、図１７では、説明の便宜上、第６実施形態に係る情報処理システム１０が備える構成要素として、会話データ取得部１１０、キーワード抽出部１２０、特徴量抽出部１３０、及び照合用情報生成部１４０（即ち、第１実施形態（図２参照）の構成要素）のみを図示しているが、第６実施形態に係る情報処理システム１０は、第２から第５実施形態で説明した構成要素を備えていてもよい。

　図１７に示すように、第６実施形態に係る情報処理システム１０は、端末５００にインストールされている会議アプリＡｐｐ１の一部の機能として実現されてもよい。この場合、会話データ取得部１１０は、会議アプリＡｐｐ１が有する会話データ生成部５０において生成される会話データを取得するように構成されればよい。

　（会議アプリと別のアプリに適用）
　次に、図１８を参照しながら、第６実施形態に係る情報処理システム１０が、会話データを生成する会議アプリと別のアプリに適用される例について説明する。図１８は、第６実施形態に係る情報処理システムのアプリケーション適用例を示すブロック図（その２）である。なお、図１８では、図１７で示した構成要素と同様の要素に同一の符号を付している。

　図１８に示すように、第６実施形態に係る情報処理システム１０は、端末５００にインストールされている会議アプリＡｐｐ２とは別のアプリ（情報生成アプリＡｐｐ３）の機能として実現されてもよい。この場合、会議アプリＡｐｐ２と、情報生成アプリＡｐｐ３を連携させることで、会話データ生成部５０において生成される会話データが、会話データ取得部１１０によって取得される。

　（会議アプリと別端末のアプリに適用）
　次に、図１９を参照しながら、第６実施形態に係る情報処理システム１０が、会話データを生成する会議アプリと別端末のアプリに適用される例について説明する。図１９は、第６実施形態に係る情報処理システムのアプリケーション適用例を示すブロック図（その３）である。なお、図１９では、図１８で示した構成要素と同様の要素に同一の符号を付している。

　図１９に示すように、第６実施形態に係る情報処理システム１０は、会議アプリＡｐｐ２がインストールされている端末５０１とは別の端末（即ち、端末５０２）にインストールされた情報生成アプリＡｐｐ３の機能として実現されてもよい。この場合、会議アプリＡｐｐ２がインストールされた端末５０１と、情報生成アプリＡｐｐ３がインストールされた端末５０２とがデータ通信を行うことで、会話データ生成部５０において生成される会話データが、会話データ取得部１１０によって取得される。

　なお、上述したアプリＡｐｐ１～Ａｐｐ３で使用する各種情報（例えば、会話データ、キーワード及び特徴量等）等については、端末５００、５０１及び端末５０２のストレージではなく、外部サーバの記憶装置等に記憶されていてもよい。この場合、端末５００、５０１及び５０２は、必要に応じて外部サーバと通信を行い、利用する情報を適宜送受信すればよい。

　（技術的効果）
　次に、第６実施形態に係る情報処理システム１０によって得られる技術的効果について説明する。

　図１６から図１９で説明したように、第６実施形態に係る情報処理システム１０によれば、上述した第１から第５実施形態の各種機能を、適切な態様で実現することができる。なお、ここで挙げた適用例はあくまで一例であり、本実施形態に係る情報処理システム１０の機能は、ここで挙げていない態様によって実現することもできる。また、第６実施形態では、会話データを生成するアプリの一例として会議アプリ（会議の録画や録音を行うアプリ）を挙げているが、会議アプリを他のアプリに置き換えても同様に適用可能である。

　＜第７実施形態＞
　第７実施形態に係る情報処理システム１０について、図２０を参照して説明する。なお、第７実施形態は、上述した第１から第６実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第１から第６実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。

　（管理画面の表示）
　まず、図２０を参照しながら、第７実施形態に係る情報処理システム１０による表示例（特に、管理画面の表示例）について説明する。図２０は、第７実施形態に係る情報処理システム１０による表示例を示す平面図である。

　図２０に示すように、第７実施形態に係る情報処理システム１０は、管理画面（例えば、システム管理者等が見る画面）に、会話データのファイル名と、会話データから生成されたキーワード（即ち、照合用情報として紐付けられているキーワード）と、が一覧表示される。なお、管理画面は、例えば上述した出力装置１６を用いて表示されるものであってよい。

　図２０の例では、１つ目の「20210115_meeting.txt」というファイルに、「会議」、「予算」、「新規」というキーワードが紐付けられている。２つ目の「20210303_meeting.txt」というファイルに、「来季、「年度」、「実行」というキーワードが紐付けられている。３つ目の「20210310_meeting.txt」というファイルに、「指示」、「予算」、「決定」というキーワードが紐付けられている。なお、図２０では、３つのファイルについて一覧表示する例を挙げているが、より多くのファイルについて一覧表示されてもよい。また、すべてのファイルが画面に収まらない場合には、スクロール可能な態様で表示されてもよいし、複数のページに分けて表示されてもよい。

　（技術的効果）
　次に、第７実施形態に係る情報処理システム１０によって得られる技術的効果について説明する。

　図２０で説明したように、第７実施形態に係る情報処理システム１０によれば、管理画面において、ファイル名とキーワードが一覧形式で表示される。このようにすれば、システム管理者等に対して、どの会話データにどのようなキーワードが紐付けられているかを分かりやすく提示することが可能である。

　上述した各実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。

　記録媒体としては例えばフロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、磁気テープ、不揮発性メモリカード、ＲＯＭを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、ＯＳ上で動作して処理を実行するものも各実施形態の範疇に含まれる。更に、プログラム自体がサーバに記憶され、ユーザ端末にサーバからプログラムの一部または全てをダウンロード可能なようにしてもよい。

　＜付記＞
　以上説明した実施形態に関して、更に以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　付記１に記載の情報処理システムは、複数人の音声情報を含む会話データを取得する取得手段と、前記音声情報からキーワードを抽出するキーワード抽出手段と、前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第１特徴量を抽出する特徴量抽出手段と、前記キーワードと前記第１特徴量とを関連付けた照合用情報を生成する生成手段と、を備える情報処理システムである。

　（付記２）
　付記２に記載の情報処理システムは、前記複数人のうち少なくとも１人の音声に関する特徴量である第２特徴量を取得する特徴量取得手段と、前記第１特徴量と前記第２特徴量とを比較することで、前記第１特徴量から前記キーワードを発話した話者を特定できるか否かを判定する判定手段と、を更に備える付記１に記載の情報処理システムである。

　（付記３）
　付記３に記載の情報処理システムは、前記会話データに対する所定処理を要求するユーザに対して、前記照合用情報が生成された前記キーワードの発話を促す情報を提示する提示手段と、前記ユーザの発話内容から、前記ユーザの音声に関する特徴量である第３特徴量を抽出する認証用特徴量抽出手段と、発話を促した前記キーワードに関連付いた前記第１特徴量と、前記第３特徴量との比較結果に基づいて、前記ユーザによる前記所定処理の実行を許可するか否かを判定する許可判定手段と、を更に備える付記１又は２に記載の情報処理システムである。

　（付記４）
　付記４に記載の情報処理システムは、前記照合用情報は複数の前記キーワードについて生成されており、前記提示手段は、一部の前記キーワードの発話を促す情報を提示して、前記ユーザによる前記所定処理の実行を許可しないと判定された場合に、他の前記キーワードの発話を促す情報を提示する、付記３に記載の情報処理システムである。

　（付記５）
　付記５に記載の情報処理装置は、複数人の音声情報を含む会話データを取得する取得手段と、前記音声情報からキーワードを抽出するキーワード抽出手段と、前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第１特徴量を抽出する特徴量抽出手段と、前記キーワードと前記第１特徴量とを関連付けた照合用情報を生成する生成手段と、を備える情報処理装置である。

　（付記６）
　付記６に記載の情報処理方法は、少なくとも１つのコンピュータが実行する情報処理方法であって、複数人の音声情報を含む会話データを取得し、前記音声情報からキーワードを抽出し、前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第１特徴量を抽出し、前記キーワードと前記第１特徴量とを関連付けた照合用情報を生成する、情報処理方法である。

　（付記７）
　付記７に記載の記録媒体は、少なくとも１つのコンピュータに、複数人の音声情報を含む会話データを取得し、前記音声情報からキーワードを抽出し、前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第１特徴量を抽出し、前記キーワードと前記第１特徴量とを関連付けた照合用情報を生成する、情報処理方法を実行させるコンピュータプログラムが記録された記録媒体である。

　（付記８）
　付記８に記載のコンピュータプログラムは、少なくとも１つのコンピュータに、複数人の音声情報を含む会話データを取得し、前記音声情報からキーワードを抽出し、前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第１特徴量を抽出し、前記キーワードと前記第１特徴量とを関連付けた照合用情報を生成する、情報処理方法を実行させるコンピュータプログラムである。

　この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う情報処理システム、情報処理装置、情報処理方法、及び記録媒体もまたこの開示の技術思想に含まれる。

　１０　情報処理システム
　１１　プロセッサ
　１１０　会話データ取得部
　１２０　キーワード抽出部
　１３０　特徴量抽出部
　１４０　照合用情報生成部
　１５０　特徴量取得部
　１６０　利用可否判定部
　２１０　照合用情報記憶部
　２２０　キーワード提示部
　２３０　認証用特徴量抽出部
　２４０　許可判定部
　２５０　キーワード変更部
　５００　端末

Claims

　複数人の音声情報を含む会話データを取得する取得手段と、
　前記音声情報からキーワードを抽出するキーワード抽出手段と、
　前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第１特徴量を抽出する特徴量抽出手段と、
　前記キーワードと前記第１特徴量とを関連付けた照合用情報を生成する生成手段と、
　を備える情報処理システム。
　前記複数人のうち少なくとも１人の音声に関する特徴量である第２特徴量を取得する特徴量取得手段と、
　前記第１特徴量と前記第２特徴量とを比較することで、前記第１特徴量から前記キーワードを発話した話者を特定できるか否かを判定する判定手段と、
　を更に備える請求項１に記載の情報処理システム。
　前記会話データに対する所定処理を要求するユーザに対して、前記照合用情報が生成された前記キーワードの発話を促す情報を提示する提示手段と、
　前記ユーザの発話内容から、前記ユーザの音声に関する特徴量である第３特徴量を抽出する認証用特徴量抽出手段と、
　発話を促した前記キーワードに関連付いた前記第１特徴量と、前記第３特徴量との比較結果に基づいて、前記ユーザによる前記所定処理の実行を許可するか否かを判定する許可判定手段と、
　を更に備える請求項１又は２に記載の情報処理システム。
　前記照合用情報は複数の前記キーワードについて生成されており、
　前記提示手段は、一部の前記キーワードの発話を促す情報を提示して、前記ユーザによる前記所定処理の実行を許可しないと判定された場合に、他の前記キーワードの発話を促す情報を提示する、
　請求項３に記載の情報処理システム。
　複数人の音声情報を含む会話データを取得する取得手段と、
　前記音声情報からキーワードを抽出するキーワード抽出手段と、
　前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第１特徴量を抽出する特徴量抽出手段と、
　前記キーワードと前記第１特徴量とを関連付けた照合用情報を生成する生成手段と、
　を備える情報処理装置。
　少なくとも１つのコンピュータが実行する情報処理方法であって、
　複数人の音声情報を含む会話データを取得し、
　前記音声情報からキーワードを抽出し、
　前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第１特徴量を抽出し、
　前記キーワードと前記第１特徴量とを関連付けた照合用情報を生成する、
　情報処理方法。
　少なくとも１つのコンピュータに、
　複数人の音声情報を含む会話データを取得し、
　前記音声情報からキーワードを抽出し、
　前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第１特徴量を抽出し、
　前記キーワードと前記第１特徴量とを関連付けた照合用情報を生成する、
　情報処理方法を実行させるコンピュータプログラムが記録された記録媒体。