WO2022059446A1

WO2022059446A1 - 情報処理装置、プログラム及び情報処理方法

Info

Publication number: WO2022059446A1
Application number: PCT/JP2021/031234
Authority: WO
Inventors: 昭宏小林; 大加地
Original assignee: ベルフェイス株式会社
Priority date: 2020-09-17
Filing date: 2021-08-25
Publication date: 2022-03-24
Also published as: JP6953597B1; JP2022050312A; JP2022049784A; US20230334260A1

Abstract

面談音声に含まれる特定のキーワードの再生時点を容易に把握可能とする技術を提供する。このため情報処理装置は、文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを実行するように構成される。文字情報生成ステップでは、面談の音声データから面談のトークスクリプトを含む文字情報を生成する。抽出ステップでは、文字情報から、キーワードを抽出する。視覚情報生成ステップでは、抽出されたキーワードと、音声データにおけるキーワードが出現した再生時点とが対応付けられた視覚情報を生成する。

Description

情報処理装置、プログラム及び情報処理方法

　本発明は、情報処理装置、プログラム及び情報処理方法に関する。

　近年、オンライン上で面談を行いたいという要求がある。また、面談後に面談内容を確認したい場合には、面談内容を録音して記録に残しておくことがある。特許文献１には、面談内容を録音することができる遠隔会議支援システムが開示されている。

特開２０１３－２６７０６号公報

　ところで、面談音声を再生する際、ユーザは、参加者が特定のキーワードを用いて会話していた再生時点を確認したい場合がある。しかしながら、ユーザが面談時の会話内容を覚えていない場合、特定のキーワードが用いられた再生時点を即座に把握することは困難である。

　本発明では上記事情を鑑み、面談音声に含まれる特定のキーワードの再生時点を容易に把握可能とする技術を提供することとした。

　本発明の一態様によれば、情報処理装置が提供される。この情報処理装置は、文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを実行するように構成される。文字情報生成ステップでは、面談の音声データから面談のトークスクリプトを含む文字情報を生成する。抽出ステップでは、文字情報から、キーワードを抽出する。視覚情報生成ステップでは、抽出されたキーワードと、音声データにおけるキーワードが出現した再生時点とが対応付けられた視覚情報を生成する。

　これにより、ユーザは、面談音声に含まれる特定のキーワードの再生時点を容易に把握することができる。

本実施形態に係るシステム１の構成概要を示す図である。情報処理装置３のハードウェア構成を示すブロック図である。情報処理装置３の機能を示す機能ブロック図である。情報処理装置３による情報処理の一例を示すアクティビティ図である。音声再生端末２の表示部に表示されるＧＵＩの一例を示す図である。情報処理装置３による情報処理の一例を示すアクティビティ図である。

　以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。

　ところで、本実施形態に登場するソフトウェアを実現するためのプログラムは、コンピュータが読み取り可能な非一時的な記録媒体として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、外部のコンピュータで当該プログラムを起動させてクライアント端末でその機能を実現（いわゆるクラウドコンピューティング）するように提供されてもよい。

　また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、例えば電圧・電流を表す信号値の物理的な値、０又は１で構成される２進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ（いわゆる量子ビット）によって表され、広義の回路上で通信・演算が実行されうる。

　また、広義の回路とは、回路（Ｃｉｒｃｕｉｔ）、回路類（Ｃｉｒｃｕｉｔｒｙ）、プロセッサ（Ｐｒｏｃｅｓｓｏｒ）、及びメモリ（Ｍｅｍｏｒｙ）等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回路（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ：ＡＳＩＣ）、プログラマブル論理デバイス（例えば、単純プログラマブル論理デバイス（Ｓｉｍｐｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ：ＳＰＬＤ）、複合プログラマブル論理デバイス（Ｃｏｍｐｌｅｘ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ：ＣＰＬＤ）、及びフィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ：ＦＰＧＡ））等を含むものである。

１．ハードウェア構成
　本節では、本実施形態のハードウェア構成について説明する。図１は、本実施形態に係るシステム１の構成概要を示す図である。

１．１　システム１
　システム１は、音声再生端末２と、情報処理装置３と、第１のユーザ端末４と、第２のユーザ端末５とを備え、これらが電気通信回線を通じて通信可能に構成される。

１．２　音声再生端末２
　音声再生端末２は、面談の音声データを再生する者が操作するものであり、スマートフォン、タブレット端末、コンピュータ、その他電気通信回線を通じて情報処理装置３にアクセス可能なものであれば、その形態は問わない。

　音声再生端末２は、表示部と、入力部と、通信部と、記憶部と、制御部とを有し、これらの構成要素が音声再生端末２の内部において通信バスを介して電気的に接続されている。

　表示部及び入力部は、例えば、音声再生端末２の筐体に含まれるものであってもよいし、外付けされるものであってもよい。表示部は、ユーザが操作可能なグラフィカルユーザインターフェース（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ：ＧＵＩ）の画面を表示する。入力部は、表示部と一体となってタッチパネルとして実施されてもよい。タッチパネルであれば、ユーザは、タップ操作、スワイプ操作等を入力することができる。もちろん、タッチパネルに代えて、スイッチボタン、マウス、ＱＷＥＲＴＹキーボード等を採用してもよい。

　通信部、記憶部及び制御部の具体的な説明については、次に説明する情報処理装置３における通信部３１、記憶部３２及び制御部３３の記載を参照されたい。

１．３　情報処理装置３
　図２は、情報処理装置３のハードウェア構成を示すブロック図である。情報処理装置３は、通信部３１と、記憶部３２と、制御部３３とを有し、これらの構成要素が情報処理装置３の内部において通信バス３０を介して電気的に接続されている。各構成要素についてさらに説明する。

（通信部３１）
　通信部３１は、ＵＳＢ、ＩＥＥＥ１３９４、Ｔｈｕｎｄｅｒｂｏｌｔ、有線ＬＡＮネットワーク通信等といった有線型の通信手段が好ましいものの、無線ＬＡＮネットワーク通信、ＬＴＥ／３Ｇ等のモバイル通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）通信等を必要に応じて含めてもよい。すなわち、これら複数の通信手段の集合として実施することがより好ましい。

（記憶部３２）
　記憶部３２は、前述の記載により定義される様々な情報を記憶する。これは、例えば、制御部３３によって実行される情報処理装置３に係る種々のプログラム等を記憶するソリッドステートドライブ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ：ＳＳＤ）等のストレージデバイスとして、あるいは、プログラムの演算に係る一時的に必要な情報（引数、配列等）を記憶するランダムアクセスメモリ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ：ＲＡＭ）等のメモリとして実施されうる。また、これらの組合せであってもよい。

　特に、記憶部３２は、面談の音声データ、文字情報６、抽出部３３５に抽出されたキーワード６０等を記憶する。面談の音声データとは、複数の者（例えば、第１のユーザ４ａと、第２のユーザ５ａ）によって実施された面談に係る音声データである。ここで、面談とは、例えば、ネットワークを介して行われた商談、打ち合わせ、面接、会議、講習会、授業等であるが、これらに限られず、インターネットを介して複数のユーザが画面及び音声を介してやり取りを行うものは面談に含まれる。面談は、１対１に限らず、１対多、多対１、多対多であってもよい。なお、音声データは、動画データに含まれるものであってもよく、音声データは、動画データとして記憶部３２に記憶されていてもよい。本実施形態では、音声データは、営業担当者である第１のユーザ４ａと、顧客である第２のユーザ５ａとの商談に係るものである場合を例に説明するが、これに限定されるものではない。商談以外にも、面談を行うものであれば適用可能である。

（制御部３３）
　制御部３３は、情報処理装置３に関連する全体動作の処理・制御を行う。制御部３３は、例えば不図示の中央処理装置（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ：ＣＰＵ）である。制御部３３は、記憶部３２に記憶された所定のプログラムを読み出すことによって、情報処理装置３に係る種々の機能を実現する。すなわち、ソフトウェア（記憶部３２に記憶されている）による情報処理がハードウェア（制御部３３）によって具体的に実現されることで、制御部３３に含まれる各機能部（図３参照）として実行されうる。これらについては、次節においてさらに詳述する。なお、制御部３３は単一であることに限定されず、機能ごとに複数の制御部３３を有するように実施してもよい。またそれらの組合せであってもよい。

１．４　第１のユーザ端末４
　第１のユーザ端末４は、第１のユーザ４ａが操作するものであり、スマートフォン、タブレット端末、コンピュータ、その他電気通信回線を通じて情報処理装置３にアクセス可能なものであれば、その形態は問わない。第１のユーザ４ａは、面談の参加者であり、例えば、商品又はサービスを販売する営業担当者、採用面接を受ける者、講習会又は授業を行う講師等である。なお、第１のユーザ端末４及び第１のユーザ端末４を操作する第１のユーザ４ａは複数でもよい。

　第１のユーザ端末４は、表示部と、入力部と、通信部と、記憶部と、制御部とを有し、これらの構成要素が外部の第１のユーザ端末４の内部において通信バスを介して電気的に接続されている。各構成要素の説明は音声再生端末２及び情報処理装置３の記載を参照されたい。

１．５　第２のユーザ端末５
　第２のユーザ端末５は、第２のユーザ５ａが操作するものであり、スマートフォン、タブレット端末、コンピュータ、その他電気通信回線を通じて情報処理装置３にアクセス可能なものであれば、その形態は問わない。第２のユーザ５ａは、面談の参加者であり、例えば、第１のユーザ４ａの顧客、採用面接官、講習会又は講義の受講者等である。なお、第２のユーザ端末５及び第２のユーザ端末５を操作する第２のユーザ５ａは複数でもよい。

　第２のユーザ端末５は、表示部と、入力部と、通信部と、記憶部と、制御部とを有し、これらの構成要素が第２のユーザ端末５の内部において通信バスを介して電気的に接続されている。各構成要素の説明は音声再生端末２及び情報処理装置３の記載を参照されたい。

２．機能構成
　本節では、本実施形態の機能構成について説明する。図３は、情報処理装置３の機能を示す機能ブロック図である。前述の通り、ソフトウェア（記憶部３２に記憶されている）による情報処理がハードウェア（制御部３３）によって具体的に実現されることで、制御部３３に含まれる各機能部として実行されうる。

　具体的には、情報処理装置３（制御部３３）は、各機能部として、受付部３３１と、識別部３３２と、面談音声生成部３３３と、文字情報生成部３３４、抽出部３３５と、視覚情報生成部３３６とを備える。

（受付部３３１）
　受付部３３１は、受付ステップを実行する。受付部３３１は、通信部３１又は記憶部３２を介して情報を受け付け、これを作業メモリに読出可能に構成される。特に、受付部３３１は、第１のユーザ端末４と、第２のユーザ端末５とからネットワーク及び通信部３１を介して種々の情報（例えば、音声データ又は音声データを含む動画データ）を受け付けるように構成される。本実施形態では、受付部３３１が受け付けた種々の情報は、記憶部３２に記憶され、作業メモリに読出可能に構成される例を説明する。

（識別部３３２）
　識別部３３２は、識別ステップを実行する。識別部３３２は、音声データに対して音声認識処理を実行し、音声データに含まれる第１のユーザ４ａによる音声と、第２のユーザ５ａによる音声とを識別する。識別された第１のユーザ４ａによる音声及び第２のユーザ５ａによる音声は、それぞれ記憶部３２に記憶され、作業メモリに読出可能に構成される。認識のアルゴリズムは特に限定されず、例えば、機械学習ベースの自然言語処理を用いたアルゴリズム等が適宜採用されうる。

（面談音声生成部３３３）
　面談音声生成部３３３は、面談音声生成ステップを実行する。面談音声生成部３３３は、第１の音声データと、第２の音声データとを識別可能に含む音声データを生成する。面談音声生成部３３３により生成された音声データは、記憶部３２に記憶され、作業メモリに読出可能に構成される。

（文字情報生成部３３４）
　文字情報生成部３３４は、文字情報生成ステップを実行する。文字情報生成部３３４は、記憶部３２に記憶された音声データから文字情報６を生成し、音声再生端末２等の表示部に文字情報６を表示させるように制御する。あるいは、文字情報生成部３３４は、文字情報６を音声再生端末２等の表示部に表示させるためのレンダリング情報だけを生成してもよい。文字情報生成部３３４によって生成された文字情報６は、音声データと関連付けられて記憶部３２に記憶され、作業メモリに読出可能に構成される。

（抽出部３３５）
　抽出部３３５は、抽出ステップを実行する。抽出部３３５は、文字情報６から、キーワード６０を抽出する。なお、抽出部３３５が抽出するキーワード６０は、予め設定可能であり、かかる設定は記憶部３２に記憶される。

（視覚情報生成部３３６）
　視覚情報生成部３３６は、視覚情報７生成ステップを実行する。視覚情報生成部３３６は、記憶部３２に記憶された種々の情報（例えば、アイコン７０）又はこれらを含む画面、画像、等の視覚情報７を生成し、音声再生端末２等の表示部に視覚情報７を表示させるように制御する。あるいは、視覚情報生成部３３６は、前記視覚情報７を音声再生端末２等の表示部に表示させるためのレンダリング情報だけを生成してもよい。視覚情報生成部３３６によって生成された視覚情報７は、記憶部３２に記憶され、作業メモリに読出可能に構成される。

３．情報処理の詳細
　本節では、アクティビティ図を参照しながら、前述した情報処理装置３の情報処理について説明する。図４は、情報処理装置３による情報処理の一例を示すアクティビティ図である。

３．１　音声データが情報処理装置３に予め記憶されている場合
　本節では、音声データが情報処理装置３に予め記憶されている場合の情報処理を説明する。

　まず、受付部３３１は、情報処理装置３の記憶部３２に記憶された音声データを作業メモリに読み出す（Ａ１０１）。第１のユーザ４ａによる第１の音声データと、第２のユーザ５ａによる第２の音声データとを識別する場合、Ａ１０２に進み、前記識別を行わない場合、Ａ１０３に進む。

　Ａ１０２では、識別部３３２は、音声データに対して音声認識処理を実行し、音声データに含まれる第１のユーザ４ａによる音声と、第２のユーザ５ａによる音声とを識別する。ここで、識別部３３２は、音声データの波形に基づき、面談における話者（例えば、営業担当者である第１のユーザ４ａか、顧客である第２のユーザ５ａか）を識別する。さらに、識別部３３２は、第１のユーザ４ａ及び／又は第２のユーザ５ａの声の周波数等の物理量を記憶しておき、記憶されているデータと、音声データとを比較し、第１のユーザ４ａ及び／又は第２のユーザ５ａを特定し、話者を識別してもよい。さらに他の例として、識別部３３２は、第１のユーザ４ａ及び／又は第２のユーザ５ａが面談にて話しそうな内容を予め学習させた学習済みモデルに音声データを入力し、その音声データが第１のユーザ４ａか、第２のユーザ５ａかの出力に基づき、話者を識別してもよい。識別された音声は、それぞれ記憶部３２に記憶される。

　続いて、文字情報生成部３３４は、面談の音声データから面談のトークスクリプトを含む文字情報６を生成する（Ａ１０３）。図５は、音声再生端末２の表示部に表示されるＧＵＩの一例を示す図である。図５に示されるように、文字情報生成部３３４は、第１のユーザ４ａ及び第２のユーザ５ａによる面談の音声データから、それぞれのユーザが話した内容を示すトークスクリプトを含む文字情報６を生成する。

　音声データ又は音声データに含まれる音声が識別されることにより、第１の文字情報６１及び第２の文字情報６２が生成された場合、第１の文字情報６１及び第２の文字情報６２が区別可能な態様で音声再生端末２の表示部に表示される。具体的には、読み出された音声データが、第１の音声データと、第２の音声データとを識別可能なデータ構造を有している場合、文字情報生成部３３４は、第１のユーザ４ａによる音声に係る音声データから第１のユーザ４ａのトークスクリプトを含む第１の文字情報６１を生成する。また、文字情報生成部３３４は、第２のユーザ５ａによる音声に係る音声データから第２のユーザ５ａのトークスクリプトを含む第２の文字情報６２を生成する。

　また、識別部３３２によって音声データが第１のユーザ４ａによる音声と、第２のユーザ５ａによる音声とに識別されている場合、文字情報生成部３３４は、第１のユーザ４ａによる音声から、第１のユーザ４ａのトークスクリプトを含む第１の文字情報６１を生成し、文字情報生成部３３４は、第２のユーザ５ａによる音声から、第２のユーザ５ａのトークスクリプトを含む第２の文字情報６２を生成する。

　次に、抽出部３３５は、文字情報６から、キーワード６０を抽出する（Ａ１０４）。ここで、キーワード６０は、例えば、日時情報、顧客情報（氏名、会社名、部署名、年齢、性別等）、商品又はサービスに関する情報等（商品名、商品の金額、商品数等）である。また、例えば、キーワード６０は、単位であり、通貨であることが好ましいが、これに限定されない。また、抽出部３３５が抽出するキーワード６０は、複数のキーワード６０であってもよい。図５の例によれば、第１のユーザ４ａのトークスクリプトに含まれる日本通貨の「円」がキーワード６０として抽出される。なお、金額を含む「４０００円」がキーワード６０として抽出されてもよい。また、予め定められた設定により、一定金額以上のみが抽出されてもよく、抽出するキーワード６０は、複数種類でもよい。抽出されたキーワード６０は、記憶部３２に記憶される。

　特に、音声データの識別が行われた場合、抽出部３３５は、第１の文字情報６１から、キーワード６０のみを抽出することが好ましい。このような構成により、第１のユーザ４ａに係る音声データに含まれるキーワード６０のみが抽出され、後述する視覚情報７が表示された際、面談音声を再生する者は、営業担当者の発言に係るキーワード６０と、そのキーワード６０が出現した再生時点のみを把握することができる。

　次に、Ａ１０５において、視覚情報生成部３３６は、抽出されたキーワード６０と、音声データにおけるキーワード６０が出現した再生時点とが対応付けられた視覚情報７を生成する。具体的には、視覚情報生成部３３６は、抽出されたキーワード６０と、音声データの再生箇所を示すシークバー７１とが対応付けられた視覚情報７を生成する。このとき、第１の文字情報６１に含まれるキーワード６０のみが抽出されている場合、第１のユーザ４ａの発言に含まれる特定のキーワード６０に係る視覚情報７のみが生成されることとなる。このように、キーワード６０と、シークバー７１におけるキーワード６０が出現した再生時点とが紐付けられた態様の視覚情報７が生成されことで、音声データを再生する者は、面談音声における特定のキーワード６０の再生時点を即座に把握可能となる。

　ここで、視覚情報７は、例えば、キーワード６０に紐付けられたものであることが識別可能なアイコン７０である。例えば、視覚情報生成部３３６は、シークバー７１におけるキーワード６０が出現した再生時点を把握可能な位置に、再生時点に対応するキーワード６０を含むアイコン７０を生成する。図５に示されるように、視覚情報生成部３３６は、アイコン７０の中に、抽出したキーワード６０が含まれるように視覚情報７を生成する。ここで、アイコン７０の把握可能な位置とは、例えば、シークバー７１におけるキーワード６０が出現した再生時点の上下左右の少なくともいずれかであることが好ましい。ここで、前記上下左右には、前記再生時点の右上、右下、左上、左下が含まれる。このような位置に併記されていることで、音声データを再生する者は、キーワード６０が出現する再生時点を直感的に把握することができる。図５に示される例では、アイコン７０は、第１の文字情報６１から抽出されたキーワード６０である「円」を含む。なお、アイコン７０にキーワード６０が含まれなくてもよい。

　また、視覚情報生成部３３６は、複数のキーワード６０の登場順を識別可能な視覚情報７を生成することが好ましい。図５に示されるように、複数のキーワード６０が抽出された場合、キーワード６０が出現した音声データの再生時点の早い順番で、アイコン７０１と、アイコン７０２と、アイコン７０３とが並べて表示されるように、視覚情報生成部３３６は、それぞれのアイコン７０を生成することが好ましい。このような構成により、面談音声を再生する者が、面談音声に含まれる特定のキーワード６０を確認する際、面談音声中のどんなタイミングで、どれくらい数の特定のキーワード６０が出現したのかを直感的に把握可能となる。

３．２　第１のユーザ端末４及び第２のユーザ端末５から音声データを受け付ける場合
　本節では、音声データを第１のユーザ端末４及び第２のユーザ端末５から受け付ける場合の情報処理を説明する。図６は、情報処理装置３による情報処理の一例を示すアクティビティ図である。

　受付部３３１は、第１のユーザ４ａによる第１の音声データと、第２のユーザ５ａによる第２の音声データとをそれぞれ受け付ける（Ａ２０１）。具体的には、受付部３３１は、通信部３１を介して、第１のユーザ端末４から送信された第１の音声データ及び第２のユーザ端末５から送信された第２の音声データを区別して受け付け、これらが記憶部３２に記憶される。発信元である端末が既知であるため、このように、はじめから第１の音声データと、第２の音声データとを区別して受け付けることができる。

　続いて、Ａ２０２において、面談音声生成部３３３は、第１の音声データと、第２の音声データとを識別可能に含む音声データを生成する。具体的には例えば、音声データのヘッダ情報等に、再生時間と第１の音声データ又は第２の音声データである旨とを紐付けた記載を含むように実施すればよい。

　Ａ２０３において、文字情報生成部３３４は、第１の音声データから第１のユーザ４ａのトークスクリプトを含む第１の文字情報６１を生成し、第２の音声データに係る音声データから第２のユーザ５ａのトークスクリプトを含む第２の文字情報６２を生成する。

　続いて、抽出部３３５は、第１の文字情報６１から、キーワード６０を抽出する（Ａ２０４）。

　その後、視覚情報生成部３３６は、抽出されたキーワード６０と、音声データにおけるキーワード６０が出現した再生時点とが対応付けられた視覚情報７を生成する（Ａ２０５）。なお、視覚情報７に係る説明は、３．１節における記載を参照されたい。

　このような情報処理により、第１のユーザ４ａによる音声と、第２のユーザ５ａによる音声とを識別可能な形式の音声データであっても、音声データが情報処理装置３に予め記憶されている場合と同様、視覚情報７が生成される。

　上記に示されるように、本実施形態によれば、営業担当者と顧客とで行われた面談において、面談音声におけるどの再生時点で、特定のキーワード６０が、使用されているのかを表示させることができる。これにより、面談音声を再生する者は、営業成績がよい担当者がどのようなキーワード６０をどんなタイミングで使っているのか把握することが可能となる等、面談音声を他の営業担当者の教育等に用いることができる。

４．その他
　本実施形態に係るシステム１に関して、以下のような態様を採用してもよい。

（１－１）視覚情報生成部３３６は、抽出されたキーワード６０によって、表示態様が異なるように視覚情報７を生成してもよい。例えば、抽出されたキーワード６０が通貨である場合、キーワード６０の金額によって、色又は大きさが異なる視覚情報７を生成してもよい。また、例えば、抽出されたキーワード６０が、顧客情報であるか、商品の金額であるかによって、表示態様が異なるように視覚情報７を生成してもよい。
（１－２）抽出されたキーワード６０が通貨である場合、視覚情報生成部３３６は、金額の大きいキーワード６０に係るアイコン７０は、他のアイコン７０とは異なる表示態様となるように生成してもよい。例えば、視覚情報生成部３３６は、抽出されたキーワード６０の中で、最も大きな金額に係るアイコン７０については、最も大きく表示させるように制御し、他のアイコン７０とは異なる色で表示させるように制御する。また、例えば、視覚情報生成部３３６は、キーワード６０の金額が大きいほど、目立つようにアイコン７０を生成する。具体的には、抽出したキーワード６０に、１，０００円と、１０，０００円とが含まれる場合、１０，０００円に係る視覚情報７の方が、より大きくなるように視覚情報７を生成する。例えば、アイコン７０２が１０，０００円に係る視覚情報７であり、アイコン７０３が１，０００円に係る視覚情報７である場合、図５で示されるように、アイコン７０２が、アイコン７０３よりも大きく表示される。
（１－３）アイコン７０の中に、抽出したキーワード６０が含まれる場合、視覚情報生成部３３６は、金額の大きなキーワード６０については、アイコン７０に含まれる他のキーワード６０よりも大きい文字又は太字で表示させるように制御する。図５の例では、アイコン７０２が、アイコン７０３よりも大きい文字で表示される。
（１－４）視覚情報生成部３３６は、第１の文字情報６１及び第２の文字情報６２からキーワード６０が抽出されている場合、第１の文字情報６１から抽出されたものであるか、第２の文字情報６２から抽出されたものであるかによって、表示態様が異なるように視覚情報７を生成してもよい。例えば、第１の文字情報６１から抽出されたキーワード６０に係る視覚情報７は青色で表示させ、第２の文字情報６２から抽出されたキーワード６０に係る視覚情報７は赤色で表示させるように制御してもよい。
（２）第１の文字情報６１と、第２の文字情報６２とが識別されている場合、第２の文字情報６２から、キーワード６０のみが抽出されてもよい。これにより、第２のユーザ５ａによる発言に含まれるキーワード６０と、前記キーワード６０に対応する音声データの再生時点のみが把握可能となり、面談音声を再生する者は、顧客がどのようなキーワード６０をどんなタイミングで使っているのか把握することが可能となる等、面談音声を他の営業担当者の教育等に用いることができる。
（３）情報処理装置３は、コンピュータに専用プログラムがインストールされることによって実施されてもよい。
（４）本実施形態の態様は、プログラムであってもよい。プログラムは、コンピュータに、情報処理装置３の各ステップを実行させる。
（５）本実施形態の態様は、情報処理方法であってもよい。情報処理方法は、文字情報生成ステップ、抽出ステップと、視覚情報生成ステップとを備える。文字情報生成ステップでは、面談の音声データから面談のトークスクリプトを含む文字情報６を生成する。抽出ステップでは、文字情報６から、キーワード６０を抽出する。視覚情報生成ステップでは、抽出されたキーワード６０と、音声データにおけるキーワード６０が出現した再生時点とが対応付けられた視覚情報７を生成する。

　さらに、次に記載の各態様で提供されてもよい。
　前記情報処理装置において、前記キーワードは、複数のキーワードであり、前記視覚情報生成ステップでは、前記複数のキーワードの登場順を識別可能な視覚情報を生成する、もの。
　前記情報処理装置において、前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データの再生箇所を示すシークバーとが対応付けられた視覚情報を生成する、もの。
　前記情報処理装置において、前記視覚情報生成ステップでは、前記シークバーにおける前記キーワードが出現した再生時点を把握可能な位置に、前記再生時点に対応する前記キーワードを含むアイコンを生成する、もの。
　前記情報処理装置において、前記アイコンの前記把握可能な位置は、前記シークバーにおける前記キーワードが出現した前記再生時点の上下左右の少なくともいずれかである、もの。
　前記情報処理装置において、前記面談は、第１のユーザと、第２のユーザとによって実施され、前記文字情報生成ステップでは、前記音声データから前記第１のユーザのトークスクリプトを含む第１の文字情報と、前記第２のユーザのトークスクリプトを含む第２の文字情報とを生成し、前記抽出ステップでは、前記第１の文字情報から、前記キーワードを抽出する、もの。
　前記情報処理装置において、識別ステップをさらに実行するように構成され、前記識別ステップでは、前記音声データに対して音声認識処理を実行し、前記音声データに含まれる前記第１のユーザによる音声と、前記第２のユーザによる音声とを識別し、前記文字情報生成ステップでは、前記第１のユーザによる音声から、前記第１の文字情報を生成し、前記第２のユーザによる音声から、前記第２の文字情報を生成する、もの。
　前記情報処理装置において、受付ステップと、面談音声生成ステップとをさらに実行するように構成され、前記受付ステップでは、前記第１のユーザによる第１の音声データと、前記第２のユーザによる第２の音声データとをそれぞれ受け付け、前記面談音声生成ステップでは、前記第１の音声データと、前記第２の音声データとを識別可能に含む前記音声データを生成する、もの。
　前記情報処理装置において、前記第１のユーザは営業担当者であり、前記第２のユーザは顧客であり、前記音声データは、前記営業担当者と前記顧客との商談を含む、もの。
　前記情報処理装置において、前記キーワードは、単位である、もの。
　前記情報処理装置において、前記キーワードは、通貨である、もの。
　プログラムであって、コンピュータに、前記情報処理装置の各ステップを実行させる、もの。
　情報処理方法であって、文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを備え、前記文字情報生成ステップでは、面談の音声データから前記面談のトークスクリプトを含む文字情報を生成し、前記抽出ステップでは、前記文字情報から、キーワードを抽出し、前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データにおける前記キーワードが出現した再生時点とが対応付けられた視覚情報を生成する、方法。
　もちろん、この限りではない。

　最後に、本発明に係る種々の実施形態を説明したが、これらは、例として提示したものであり、発明の範囲を限定することは意図していない。当該新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。当該実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１　　　：システム
２　　　：音声再生端末
３　　　：情報処理装置
３０　　：通信バス
３１　　：通信部
３２　　：記憶部
３３　　：制御部
３３１　：受付部
３３２　：識別部
３３３　：面談音声生成部
３３４　：文字情報生成部
３３５　：抽出部
３３６　：視覚情報生成部
４　　　：第１のユーザ端末
４ａ　　：第１のユーザ
５　　　：第２のユーザ端末
５ａ　　：第２のユーザ
６　　　：文字情報
６０　　：キーワード
６１　　：第１の文字情報
６２　　：第２の文字情報
７　　　：視覚情報
７０　　：アイコン
７１　　：シークバー
７０１　：アイコン
７０２　：アイコン
７０３　：アイコン

Claims

　文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを実行するように構成され、
　前記文字情報生成ステップでは、面談の音声データから前記面談のトークスクリプトを含む文字情報を生成し、
　前記抽出ステップでは、前記文字情報から、キーワードを抽出し、
　前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データにおける前記キーワードが出現した再生時点とが対応付けられた視覚情報を生成する、
　情報処理装置。
　前記キーワードは、複数のキーワードであり、
　前記視覚情報生成ステップでは、前記複数のキーワードの登場順を識別可能な視覚情報を生成する、
　請求項１に記載の情報処理装置。
　前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データの再生箇所を示すシークバーとが対応付けられた視覚情報を生成する、
　請求項１に記載の情報処理装置。
　前記視覚情報生成ステップでは、前記シークバーにおける前記キーワードが出現した再生時点を把握可能な位置に、前記再生時点に対応する前記キーワードを含むアイコンを生成する、
　請求項３に記載の情報処理装置。
　前記アイコンの前記把握可能な位置は、前記シークバーにおける前記キーワードが出現した前記再生時点の上下左右の少なくともいずれかである、
　請求項４に記載の情報処理装置。
　前記抽出ステップでは、前記文字情報から、金額に関するキーワードを抽出し、
　前記視覚情報生成ステップでは、前記金額に応じて表示態様が異なるように、前記キーワードを示すアイコンを含む視覚情報を生成する、
　請求項１に記載の情報処理装置。
　前記視覚情報生成ステップでは、前記金額が一定以上の場合に前記アイコンを生成する、
　請求項６に記載の情報処理装置。
　前記視覚情報生成ステップでは、前記金額に応じて表示の大きさ又は色が異なるように前記アイコンを生成する、
　請求項６に記載の情報処理装置。
　前記面談は、２人以上のユーザによって実施され、
　前記視覚情報生成ステップでは、前記キーワードを示すアイコンの表示態様が前記ユーザ毎に異なるようにした視覚情報を生成する、
　請求項１に記載の情報処理装置。
　前記面談は、第１のユーザと、第２のユーザとによって実施され、
　前記文字情報生成ステップでは、前記音声データから前記第１のユーザのトークスクリプトを含む第１の文字情報と、前記第２のユーザのトークスクリプトを含む第２の文字情報とを生成し、
　前記抽出ステップでは、前記第１の文字情報から、前記キーワードを抽出する、
　請求項１に記載の情報処理装置。
　識別ステップをさらに実行するように構成され、
　前記識別ステップでは、前記音声データに対して音声認識処理を実行し、前記音声データに含まれる前記第１のユーザによる音声と、前記第２のユーザによる音声とを識別し、
　前記文字情報生成ステップでは、
　前記第１のユーザによる音声から、前記第１の文字情報を生成し、
　前記第２のユーザによる音声から、前記第２の文字情報を生成する、
　請求項１０に記載の情報処理装置。
　受付ステップと、面談音声生成ステップとをさらに実行するように構成され、
　前記受付ステップでは、前記第１のユーザによる第１の音声データと、前記第２のユーザによる第２の音声データとをそれぞれ受け付け、
　前記面談音声生成ステップでは、前記第１の音声データと、前記第２の音声データとを識別可能に含む前記音声データを生成する、
　請求項１０に記載の情報処理装置。
　前記第１のユーザは営業担当者であり、前記第２のユーザは顧客であり、
　前記音声データは、前記営業担当者と前記顧客との商談を含む、
　請求項１０に記載の情報処理装置。
　前記キーワードは、単位を含む、
　請求項１に記載の情報処理装置。
　前記キーワードは、通貨を含む、
　請求項１に記載の情報処理装置。
　コンピュータに、請求項１に記載の情報処理装置の各ステップを実行させる、
　プログラム。
　文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを備え、
　前記文字情報生成ステップでは、面談の音声データから前記面談のトークスクリプトを含む文字情報を生成し、
　前記抽出ステップでは、前記文字情報から、キーワードを抽出し、
　前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データにおける前記キーワードが出現した再生時点とが対応付けられた視覚情報を生成する、
　情報処理装置の情報処理方法。