WO2022019157A1

WO2022019157A1 - 議事録生成装置、方法、コンピュータプログラム、及び、記録媒体

Info

Publication number: WO2022019157A1
Application number: PCT/JP2021/026077
Authority: WO
Inventors: 智高橋; 響子大田和; 國泰兵江
Original assignee: ラトナ株式会社
Priority date: 2020-07-20
Filing date: 2021-07-12
Publication date: 2022-01-27
Also published as: JP2022020499A

Abstract

議事録生成装置は、所定のネットワークと接続して通信を行う、通信手段と、外部音声入力手段と接続され、音声情報を取得する、第１の接続手段と、音声情報に基づき議事録データを生成する、議事録データ生成部と、外部出力手段と接続され、外部出力手段へと議事録データを出力する、第２の接続手段と、を備える。議事録データ生成部は、ネットワークを介して提供されるテキスト化処理を利用して、音声情報をテキスト化して対応する文字データを生成する、文字データ生成部と、ネットワークを介して提供される話者認識処理を利用して、音声情報に含まれる話者を認識して話者情報を生成する、話者認識部と、文字データと話者情報に基づいて議事録データを生成する、統合処理部と、を備える。

Description

議事録生成装置、方法、コンピュータプログラム、及び、記録媒体

　本発明は、議事録生成装置、議事録生成装置の制御方法、議事録生成装置の制御に用いるコンピュータプログラム、及び、その記録媒体に関する。

　近年の音声解析技術の向上に伴って、会議において議事録を自動的に作成するための機器やソフトウェアが開発されている。さらに、議事録作成の関連技術の開発も進んでおり、例えば、ＪＰ２００８－２２５１９１Ａには、音声認識技術と機械翻訳技術とを用いた議事録作成システムが開示されている。

　また、近年、一つのシステムを互いに独立な小単位のコンポーネントの集合として設計するマイクロサービスアーキテクチャが注目を集めつつある。マイクロサービスアーキテクチャによれば、処理速度の向上や各コンポーネント単位での変更の容易化等のメリットが得られる。なお、マイクロサービスアーキテクチャは、例えばkubernates等のコンテナオーケストレーション技術を利用して実装されることがある。

　しかしながら、ＪＰ２００８－２２５１９１Ａに開示された議事録作成システムによれば、専用機器や専用ソフトを動作させるパソコン等の環境が必要であり、これらのシステム負荷が高く、簡易に利用することが難しかった。

　そのため、従来の議事録作成システムを会議において利用しようとする場合、利用者は、予め議事録作成ソフトウェアをダウンロードし、会議前に当該ソフトウェアを起動すると共にパソコンをマイクやディスプレイ等に接続し、さらに、会議中に当該ソフトウェアをパソコン上で実行し続ける必要があった。

　しかしながら、この一連の工程は、議事録作成システムの利用者にとって手間であり、また、一定の情報技術に対する知識を要求するため、場合によっては導入の妨げの一因となっていた。また、参加者のパソコンの一部資源を会議の間占有することもあり、参加者のパソコンへの一定の負荷となっていた。特に、音声に対して話者認識処理や高度の自然言語処理等を行う高度な議事録生成処理を行う場合には、この負荷は軽視できないものであった。

　本発明は、上述の課題を解決するためになされたものであり、その目的とするところは、手間なく容易に利用することができ、会議参加者のパソコン等を占有せず、かつ、話者認識等の高度な処理を伴う議事録生成が可能なシステム等を提供することにある。

　上述の課題は、以下の構成を有する議事録生成装置等により解決することができる。

　すなわち、本発明の一態様に係る議事録生成装置は、所定のネットワークと接続して通信を行う、通信手段と、外部音声入力手段と接続され、音声情報を取得する、第１の接続手段と、音声情報に基づき議事録データを生成する、議事録データ生成部と、外部出力手段と接続され、外部出力手段へと議事録データを出力する、第２の接続手段と、を備える。議事録データ生成部は、ネットワークを介して提供されるテキスト化処理を利用して、音声情報をテキスト化して対応する文字データを生成する、文字データ生成部と、ネットワークを介して提供される話者認識処理を利用して、音声情報に含まれる話者を認識して話者情報を生成する、話者認識部と、文字データと話者情報に基づいて議事録データを生成する、統合処理部と、を備える。

　本発明の一態様によれば、議事録生成装置は、外部音声入力手段（マイク）から音声情報を取得する第１の接続手段、及び、外部出力手段（ディスプレイ）へと議事録データを出力する第２の接続手段に加えて、取得された音声情報から議事録データを生成する議事録データ生成部を備える。このように外部音声入力手段や外部出力手段を備えないため、議事録生成装置のハードウェア構成を簡略化することができる。また、議事録生成装置が、音声情報に基づいて議事録データを生成し外部出力手段へと出力するまでを行うことから、会議参加者のパソコンの一部資源等を会議の間占有することがない。

　さらに、議事録データ生成部においては、ネットワークを介して提供される処理を用いた文字データ生成部及び話者認識部によって、文字データ及び話者情報が生成され、統合処理部は、文字データ及び話者情報の統合を行う。そのため、文字データ生成や話者認識のような処理はネットワークを介した処理により行われるため、議事録生成装置において負荷の高い処理は行われない。

　したがって、ハードウェア構成が簡略化されているのに加えて、負荷の高い処理が行われない議事録生成装置を用いることによって、装置コストが下がり、議事録生成装置の導入が容易となる。また、会議参加者のパソコン等を占有せず、かつ、話者認識等の高度な処理を伴う議事録生成が可能なシステム等を提供することができる。

図１は、本実施形態の議事録生成装置を備えるシステムの斜視図である。図２は、議事録生成装置に関連するシステム構成を示すブロック図である。図３は、議事録生成装置のハードウェア構成図である。図４は、一般的なプログラム構成を示す図である。図５は、本実施形態のプログラム構成を示す図である。図６は、ネットワークの設定制御を示すフローチャートである。図７は、マイクの接続制御を示すフローチャートである。図８は、ディスプレイの接続制御を示すフローチャートである。図９は、話者設定制御を示すフローチャートである。図１０は、話者テーブルの一例を示す図である。図１１は、議事録データの生成制御を示すフローチャートである。図１２は、音声解析テーブルの一例を示す図である。図１３は、議事録データに対する追加処理を示すフローチャートである。図１４は、変形例における議事録データの生成制御を示すフローチャートである。図１５Ａは、文字データテーブルの一例を示す図である。図１５Ｂは、識別ＩＤテーブルの一例を示す図である。図１５Ｃは、文字データテーブルの他の一例を示す図である。図１６は、議事録データの表示形式の例を示す図である。図１７は、議事録データの表示形式の他の例を示す図である。図１８は、他の実施形態における議事録生成装置に関連するシステム構成を示すブロック図である。

　以下、図面を参照して、本発明の実施形態について説明する。

　図１は、本実施形態の議事録生成装置を備えるシステムを示す斜視図である。また、図２は、議事録生成装置に関連するシステムの構成を示すブロック図である。

　図１に示されるように、会議室などのローカル環境１０に配置された議事録生成装置１１は、取得した音声を解析して議事録を生成する機器である。議事録生成装置１１は、無線で接続されたＬＡＮ１２を介してローカル環境１０の外部と通信可能に構成される。また、議事録生成装置１１は、外部機器であるマイク１３及びディスプレイ１４と接続されている。なお、マイク１３は、スピーカーと一体となったものであってもよい。また、議事録生成装置１１と、マイク１３、及び、ディスプレイ１４との接続は、有線に限らず無線を介して接続されてもよく、有線を介した接続は安定性が高く、無線を介した接続はユーザの利便性が高い。

　さらに、議事録生成装置１１は、入力機器１５と接続されている。入力機器１５は、ユーザの入力を受け付ける機器であって、図示された例においてはキーボードであるが、他の例として、マウスやコントローラであってもよく、種々の形態であってもよい。議事録生成装置１１は、例えば、初期設定時等において入力機器１５からの入力情報に基づいた設定を行うことができる。

　図２に示されるように、ローカル環境１０に設けられるＬＡＮ１２はローカル環境１０外のＷＡＮ２０と接続されている。これにより、議事録生成装置１１は、ＬＡＮ１２及びＷＡＮ２０を介してクラウド上のサーバ２１にアクセス可能に構成されている。

　議事録生成装置１１は、サーバ２１により提供される処理を用いて、マイク１３により取得される音声データを解析して文字データの作成（文字起し）を行う。このように、負荷の高い処理等は、議事録生成装置１１ではなくサーバ２１の資源を用いて行われる。

　議事録生成装置１１は、マイク１３、ディスプレイ１４及び入力機器１５が外付けされるとともに、負荷の高い処理をサーバ２１にて行う極めて簡易な構成である。なお、議事録生成装置１１と、マイク１３、ディスプレイ１４及び入力機器１５との接続は、HDMI（登録商標）、USB、WiFi、Bluetooth等の種々の方式によって接続されてもよい。

　図３は、議事録生成装置１１のハードウェア構成図である。

　議事録生成装置１１は、全体を制御するＣＰＵ（Central Processing Unit）及びＧＰＵ（Graphics Processing Unit）により構成される制御部３１と、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、及び／又はハードディスク等により構成され、プログラムや各種のデータ等を記憶する記憶部３２と、外部機器とのデータの入出力を行う入出力ポート３３と、ＬＡＮ１２等を介して通信を行う通信部３４と、入力機器１５からの入力を受け付ける入力部３５と、を備える。制御部３１、記憶部３２、入出力ポート３３、通信部３４、及び、入力部３５は、バス接続により互いに通信可能に構成されている。なお、図１に示される例では、マイク１３及びディスプレイ１４は、入出力ポート３３と接続されることで、議事録生成装置１１との間でデータのやりとりを行うことができるが、これらの機器が無線を介して接続される場合でも仮想的に構成される入出力ポート３３と論理的に接続される。

　図４、５は、議事録生成装置１１のソフトウェア構成図である。本実施形態においては、コンテナ技術によりそれぞれのアプリケーションがコンテナ化されるとともに、オーケストレーションツールによりハードウェアリソースの管理がされている。図４には、このような構成における一般的なプログラム構成が示されている。図５には、本実施形態の具体的なプログラム構成が示されている。なお、これらのソフトウェア構成は、議事録生成装置１１の記憶部３２にプログラムが記憶されることで、実現されている。

　図４に示されるように、議事録生成装置１１には、オペレーションシステム（ＯＳ）４１がインストールされている。さらに、ＯＳ４１には、コンテナ環境の構築及びコンテナ環境におけるアプリケーションの実行を行うコンテナエンジン４２、及び、コンテナ環境のハードウェアリソースを管理するオーケストレーションツール４３が設けられている。

　コンテナエンジン４２は、ハードウェアリソース等を仮想化することで論理的なコンテナ領域を形成する。そして、アプリケーションは、コンテナ環境での動作に用いるライブラリと一体的に構成されている。その結果、コンテナ化されたアプリケーションは、コンテナ領域で動作する。

　なお、このようなアプリケーションとライブラリとを一体的に構成することを、コンテナ化と称することがある。また、コンテナ化されたアプリケーションは、単にコンテナと称されることもある。このように、コンテナエンジン４２を導入することでコンテナ環境が構築され、このコンテナ環境においてコンテナ化されたアプリケーションの実行が可能となる。

　オーケストレーションツール４３は、コンテナエンジン４２によって仮想化されたハードウェアリソースを管理（オーケストレーション）する。

　詳細には、オーケストレーションツール４３は、コンテナ化されたアプリケーションが実行される環境として、クラスタ４４と称される論理領域を構築する。クラスタ４４には、クラスタ４４の全体を管理するマスタ４５と、アプリケーションの実行環境であるノード４６とが設けられる。マスタ４５は、コンテナ４７の実行環境であるノード４６のハードウェアリソースの管理を行う。

　ノード４６においては、アプリケーションがライブラリと一体となって構成されるコンテナ４７が設けられ、１以上のコンテナ４７（図４においては２つのコンテナ４７）が、ポッド４８という単位で管理されている。なお、ポッド４８は、１または２以上のコンテナ４７により構成される。ポッド４８は、ノード４６内においてポッド管理ブロック４９によって管理される。なお、ポッド管理ブロック４９は、マスタ４５からの指示に従って、ノード４６におけるリソース管理を行う。

　このように、コンテナエンジン４２及びオーケストレーションツール４３が導入された環境においては、コンテナ化されたアプリケーションはポッド４８の単位で管理される。そして、ポッド４８は、クラスタ４４内のノード４６において実行される。なお、コンテナ化されていないアプリケーション（図４において不図示）は、クラスタ４４のリソースを用いずに動作されてもよい。このようなコンテナ化されていないアプリケーションは、クラスタ４４内のポッド４８と双方向に通信することができる。なお、本実施形態においては、クラスタ４４内に１つのノード４６が設けられる例について説明したが、これに限らない。クラスタ４４内に複数のノード４６が設けられてもよい。

　図５は、本実施形態におけるソフトウェア構成の詳細を示す図である。

　この図においては、ノード４６内に、所定の機能を有するポッド４８として、外部機器検出サービス５１、音声入力サービス５２、映像出力サービス５３、設定サービス５４、文字データ生成サービス５５、話者識別サービス５６、統合サービス５７、自然言語処理サービス５８、及び、感情解析サービス５９が設けられている。外部機器検出サービス５１～感情解析サービス５９は、図４に示されるようなコンテナ４７がオーケストレーションされながら実行する環境において、提供されるアプリケーションの単位であって、マイクロサービスと称されることもある。

　また、機械学習に関するプログラムは、クラスタ４４の外に設けられる。詳細には、ニューラルネットワークライブラリ６０は、コンテナ化されずにＯＳ４１上に配置されて、コンテナ化された外部機器検出サービス５１～感情解析サービス５９と相互に通信することができる。

　以下では、外部機器検出サービス５１～感情解析サービス５９の詳細な構成について説明する。なお、これらの処理において、文字データ生成サービス５５、話者識別サービス５６、自然言語処理サービス５８、及び、感情解析サービス５９は、その処理をサーバ２１におけるエンジンを用いて行うものとする。

　外部機器検出サービス５１は、予め入出力ポート３３と接続されうる外部機器をリスト化して記憶している。そして、外部機器検出サービス５１は、入出力ポート３３に接続された機器を識別すると、接続された機器の種類、すなわち、音声入力デバイス、及び、表示デバイスであるか否かを判定する。そして、外部機器検出サービス５１は、接続された機器が音声入力デバイスである場合にはマイク１３が接続されたと判定し、接続された機器が映像出力デバイスである場合にはディスプレイ１４が接続されたと判定する。

　音声入力サービス５２は、外部機器検出サービス５１によってマイク１３が接続されたと判定された場合に、マイク１３の種類や性能等の判定を行う。そして、音声入力サービス５２は、予め記憶されているドライバソフトの一覧から適切なドライバソフトを選択して設定し、接続されたマイク１３からの音声データの入力を受け付ける。なお、音声入力サービス５２は、マイク１３の種類に応じてサンプルレートの検出を行ってもよい。

　映像出力サービス５３は、外部機器検出サービス５１によってディスプレイ１４が接続されたと判定された場合に、ディスプレイ１４の種類や性能等の判定を行う。そして、映像出力サービス５３は、予め記憶されているドライバソフトの一覧から適切なドライバソフトを選択し、接続されたディスプレイ１４へと映像データを出力する。

　設定サービス５４は、議事録生成装置１１の起動時に初期設定を行う。詳細には、設定サービス５４は、ユーザに対して初期設定を促し、入力機器１５からの入力に応じて議事録生成装置１１の初期設定を行う。

　文字データ生成サービス５５は、マイク１３から取得した音声データに対して、サーバ２１における音声解析エンジンを用いて、文字データを生成する。

　話者識別サービス５６は、マイク１３から取得した音声データに対して、サーバ２１における音声解析エンジンンを用いて、話者情報を生成する。なお、文字データ生成サービス５５及び話者識別サービス５６は、協働してサーバ２１の音声処理エンジンに処理を行わせることにより、議事録生成装置１１とサーバ２１との間の通信量の低減を図ることができる。

　統合サービス５７は、文字データ生成サービス５５及び話者識別サービス５６によりサーバ２１の音声解析エンジンによる処理結果を統合することで、議事録データを作成する。なお、文字データ生成サービス５５、話者識別サービス５６、及び、統合サービス５７の処理の詳細は、後に、図１１、１４を用いて説明する。

　自然言語処理サービス５８は、統合サービス５７により生成された議事録データに対して、サーバ２１における自然言語処理を行うことによって、最終議事録データを生成する。自然言語処理によって、統合サービス５７において生成された議事録データにおける誤りの修正や禁止ワードの削除が行われる。

　感情解析サービス５９は、自然言語処理サービス５８により生成された最終議事録データに対して、サーバ２１における感情解析処理を行うことによって、感情解析結果を生成する。

　なお、言語により感情解析の処理精度が異なる等の場合には、翻訳処理を介在させてもよい。例えば、日本語で議事録が生成される場合であっても、日本語よりも英語の方が感情解析の処理精度が高い場合には、感情解析サービス５９は、最終議事録データを英訳した後にサーバ２１に送信し、サーバ２１によって得られる英語の感情解析結果を日本語に再翻訳することで、感情解析結果を得る。

　また、議事録生成装置１１を店頭などに配置し店員と顧客との間の会話を収集することにより、感情解析結果を、例えば、販売戦略の立案等に用いることができる。なお、感情解析結果はネットワーク上には保存されずに、ローカル環境１０において記録されるため、セキュリティやプライバシーの問題が発生しにくい。

　このように、議事録生成装置１１においては、コンテナ化されたマイクロサービスによって種々の処理が実行可能なように構成されている。さらに、オーケストレーションツール４３によってコンテナ４７の実行環境が管理されている状況においては、初期設定時やシステム更新時などにおいて、マイクロサービスを任意にサーバ２１からダウンロードする（デプロイする）ことによって、議事録生成装置１１に所定のマイクロサービスを配置することができる。そのため、簡易なハードウェア構成で、議事録生成装置１１を容易に構成することができる。

　ここで、サーバ２１において文字データ生成及び話者識別を行う音声解析エンジンについて説明する。このエンジンを用いた音声解析によって、文字データ生成及び話者識別の両者または一方の処理を行うことができるため、議事録生成装置１１は、サーバ２１に対して、音声データの送信とあわせて所望の処理を指示してもよい。

　話者識別処理においては、議事録生成装置１１から受け付けた音声データを解析し、その周波数、声調、音色などの特徴に基づいて処理識別子（識別ＩＤ）を付与し、議事録生成装置１１に対して識別ＩＤを送信する。

　文字データ作成処理においては、議事録生成装置１１から受け付けた音声データに示される文字データを作成する。例えば、会議の参加者が限られており、音声データに含まれる話者が限定される場合には、特定の識別ＩＤに限定して処理を行うことで、音声解析処理の高速化を図ることができる。

　サーバ２１から議事録生成装置１１への出力には、時間情報とともに、生成された文字データ及び／または話者の識別ＩＤが含まれる。詳細については、後に図１２等を用いて説明する。

　以下、図６～図１３を用いて、議事録生成装置１１内の外部機器検出サービス５１～感情解析サービス５９の処理について説明する。

　図６は、議事録生成装置１１の初期設定時のネットワーク設定制御を示すフローチャートである。

　ステップＳ６０１において、設定サービス５４は、初回起動時における設定の一つとして、ネットワーク設定（無線ＬＡＮ設定）を開始する。この初期設定処理により、議事録生成装置１１はＬＡＮ１２と接続されて、ＷＡＮ２０を介してサーバ２１と通信することができる。なお、設定サービス５４は、入力機器１５からの入力に応じてネットワーク設定を開始してもよい。

　ステップＳ６０２において、設定サービス５４は映像出力サービス５３に対して設定画面データを送信する。ステップＳ６０３において、映像出力サービス５３は、入力された設定画面データに応じてディスプレイ１４に設定画面を表示する。設定画面にはユーザに対して無線を介したＬＡＮ１２との接続に必要なパスワード等の情報の入力を促す旨が示される。

　ステップＳ６０４において、入力部３５はユーザによる入力機器１５の操作情報を受け付けると、受け付けた操作情報に示される入力情報（例えば、パスワード）を設定サービス５４へ出力する。このようにすることで、ユーザにより入力された無線ＬＡＮへの接続に必要な情報が設定サービス５４へと入力される。

　ステップＳ６０５において、設定サービス５４は、入力された設定情報を用いて通信部３４を介したＬＡＮ１２への接続設定を完了させる。そして、ステップＳ６０６において、設定サービス５４は映像出力サービス５３に対して設定完了画面データを送信する。ステップＳ６０７において、映像出力サービス５３は、入力された設定終了画面データに応じた、設定完了の画面をディスプレイ１４に表示する。これにより、議事録生成装置１１のネットワーク設定制御が完了される。

　次に、図７は、マイク１３の接続制御を示すフローチャートである。

　ステップＳ７０１において、議事録生成装置１１は、自律的にBluetooth等を介して周辺にあるマイク１３を検出すると、マイク１３と入出力ポート３３との間の接続を確立する。議事録生成装置１１に対して有線でマイク１３が入出力ポート３３に接続されてもよい。そして、ステップＳ７０２において、入出力ポート３３はマイク１３の接続を検出すると、接続通知を外部機器検出サービス５１へと送信する。この接続通知には、マイク１３の種類に加えてサンプルレート等の動作仕様に関する情報が含まれる。

　ステップＳ７０３において、外部機器検出サービス５１は、接続通知を参照して外部機器（マイク１３）の情報を取得する。ステップＳ７０４において、外部機器検出サービス５１は、接続通知を参照して外部機器の接続状態が正しいか否かを判定する。例えば、外部機器検出サービス５１は、接続通知において設定不能なサンプルレートが示されている場合などには、接続状態が正しくないと判定する。

　外部機器（マイク１３）の接続状態が正しいと判定される場合には（Ｓ７０４：Ｙｅｓ）、接続機器の種類を判定するため、次にステップＳ７０５の処理が行われる。外部機器の接続状態が正しいと判定されない場合には（Ｓ７０４：Ｎｏ）、エラー通知をするために次にステップＳ７１２の処理が行われる。ステップＳ７１２において、外部機器検出サービス５１は、マイク１３の接続状態が正しくないためエラー通知を行い、ユーザに対して再接続を求めることができる。

　ステップＳ７０５において、外部機器検出サービス５１は、外部機器が音声入力を受け付け可能なマイク１３であるか否かを判定する。外部機器がマイク１３であると判定されると（Ｓ７０５：Ｙｅｓ）、ステップＳ７０６において、外部機器検出サービス５１は、音声入力サービス５２に対して接続された外部機器の登録要求を送信する。登録要求には、ステップＳ７０２において取得したマイク１３の情報が含まれる。なお、外部機器がマイク１３でないと判定されると（Ｓ７０５：Ｎｏ）、接続制御が終了される。

　ステップＳ７０７において、音声入力サービス５２は、受信した登録要求に含まれるマイク１３の接続情報を用いて、マイク１３の機器名称を取得する。音声入力サービス５２は、予め、機器名称とマイク１３の性能とを対応付けたテーブルを有しており、テーブルを参照して接続されたマイク１３に応じた処理を行うことができる。

　ステップＳ７０８において、音声入力サービス５２は、予め記憶しているドライバの一覧から、取得したマイク１３の機器に対応するドライバを検出し、そのドライバを用いてマイク１３が動作するように設定する。

　ステップＳ７０９において、音声入力サービス５２は、マイク１３のサンプルレートを取得する。これにより、音声入力サービス５２は、所定のサンプルレートに応じた設定を行い、マイク１３から音声データが取得可能となる。

　ステップＳ７１０において、音声入力サービス５２は、接続完了処理を終える。そして。ステップＳ７１１において、入出力ポート３３に対して接続完了を通知する。これにより、マイク１３の議事録生成装置１１への接続処理が終了する。

　このようなマイク１３の接続制御によって、議事録生成装置１１は接続されたマイク１３からの音声データの入力を受け付けることができる。

　次に、図８は、ディスプレイ１４の接続制御を示すフローチャートである。なお、この制御のうちのステップＳ８０２～Ｓ８０５の処理は、図７に示されたマイク１３の接続制御におけるステップＳ７０２～Ｓ７０５の処理と同じであるため、説明を簡略化する。また、ステップＳ８０６～Ｓ８１２の処理は、図７に示されたマイク１３の接続制御におけるステップＳ７０５～Ｓ７１１の処理と同等である。

　ステップＳ８０１において、議事録生成装置１１は、自律的にBluetooth等を介して周辺にあるディスプレイ１４を検出すると、ディスプレイ１４と入出力ポート３３との間の接続を確立する。議事録生成装置１１に対して有線でディスプレイ１４が入出力ポート３３に接続されてもよい。そして、ステップＳ８０２において、入出力ポート３３はディスプレイ１４の接続を検出すると、接続通知を外部機器検出サービス５１へと送信する。この接続通知には、ディスプレイ１４の種類に加えて表示の際のリフレッシュ周期を示す駆動レート等の動作仕様に関する情報が含まれる。

　ステップＳ８０３において、外部機器検出サービス５１は、接続通知を参照して外部機器（ディスプレイ１４）の情報を取得する。ステップＳ８０４において、外部機器検出サービス５１は、接続通知を参照して外部機器の接続状態が正しいか否かを判定する。例えば、外部機器検出サービス５１は、接続通知において設定不能な駆動レートが示されている場合などには、接続状態が正しくないと判定する。

　外部機器の接続状態が正しいと判定される場合には（Ｓ８０４：Ｙｅｓ）、接続機器の種類を判定するため、次にステップＳ８０５の処理が行われる。外部機器（ディスプレイ１４）の接続状態が正しくないと判定されない場合には（Ｓ８０４：Ｎｏ）、エラー通知をするために次にステップＳ８１３の処理が行われる。ステップＳ８１３において、外部機器検出サービス５１は、ディスプレイ１４の接続状態が正しくないためエラー通知を行う。

　ステップＳ８０５において、外部機器検出サービス５１は外部機器がマイク１３であるか否かを判定し、ステップＳ８０６において外部機器検出サービス５１は外部機器がディスプレイ１４であるか否かを判定する。外部機器はマイク１３ではなく（Ｓ８０５：Ｎｏ）、ディスプレイ１４である（Ｓ８０６：Ｙｅｓ）ことが判定さると、ステップＳ８０７において、外部機器検出サービス５１は、映像出力サービス５３に対して登録要求を送信する。登録要求には、ステップＳ８０２において取得したディスプレイ１４の情報が含まれる。なお、外部機器がディスプレイ１４でないと判定されると（Ｓ８０６：Ｎｏ）、接続制御が終了される。

　ステップＳ８０８において、映像出力サービス５３は、受信した登録要求に含まれるディスプレイ１４の接続情報を用いて、ディスプレイ１４の機器名称を取得する。映像出力サービス５３は、予め、機器名称とディスプレイ１４との性能とを対応付けたテーブルを有しており、テーブルを参照して接続されたディスプレイ１４に応じた処理を行うことができる。

　ステップＳ８０９において、映像出力サービス５３は、取得したディスプレイ１４の機器に対応するドライバを検出し、そのドライバを用いてディスプレイ１４を動作可能なように設定する。

　ステップＳ８１０において、映像出力サービス５３は、ディスプレイ１４の駆動レートを取得する。これにより、映像出力サービス５３は、所定の駆動レートに応じた設定を行い、マイク１３から音声データが取得可能となる。

　ステップＳ８１１において、映像出力サービス５３は、接続完了を終える。そして。ステップＳ８１２において、入出力ポート３３に対して接続完了を通知する。これにより、ディスプレイ１４は議事録生成装置１１への接続完了を検出する。

　このようにして、議事録生成装置１１は接続されたディスプレイ１４に対して映像を出力することができる。

　なお、本実施形態においては、議事録生成装置１１に対して１つのマイク１３及び１つのディスプレイ１４が接続される例を用いたが、これに限らない。複数のマイク１３が接続されてもよいし、複数のディスプレイ１４が接続されてもよい。外部機器検出サービス５１は、複数のデバイスの接続を管理して、それらのデバイスに対して最適な設定を行うことができる。

　図９は、話者設定制御を示すフローチャートである。話者設定制御において予め複数の話者の音声データを話者情報として設定しておくことで、最終的に生成される議事録において発言内容と対応する発言者を示すことができる。

　ステップＳ９０１において、話者識別サービス５６は、第１話者の設定を開始する。ステップＳ９０２において、話者識別サービス５６は、映像出力サービス５３に対して、第１話者の設定画面を表示させることで、ユーザに対して第１話者の発声と議事録における表示氏名の入力を促す。そして、ステップＳ９０３において、話者識別サービス５６は、入力部３５から第１話者の名称の入力を受け付ける。なお、話者識別サービス５６は、入力部３５から第１話者の所属部署を受け付けて、所属部署と名称とを対応付けて記憶してもよい。そして、ステップＳ９０４において、音声入力サービス５２から第１話者の音声の入力を受け付ける。ステップＳ９０５において、話者識別サービス５６は、サーバ２１に対して、第１話者の音声データを送信するとともに、話者識別処理を行うように指示する。

　ステップＳ９０６において、サーバ２１は、第１話者の音声データの入力を受け付けると、音声データを解析して第１話者設定を開始する。なお、この解析処理において、話者識別サービス５６からの指示に応じて、文字データ作成処理は行わず話者識別処理のみを行う。サーバ２１は、第１話者の音声データを解析し、その周波数、声調、音色などの特徴を抽出して、第１話者に特化した処理に用いる識別ＩＤを付与する。そして、ステップＳ９０７において、サーバ２１は、付与した識別ＩＤを話者識別サービス５６へ送信する。

　ステップＳ９０８において、話者識別サービス５６は、ステップＳ９０３において入力部３５から受け付けた第１話者の名称と、ステップＳ９０６において受信した識別ＩＤとを対応付けて話者テーブルを有しており、ユーザの入力及びサーバ２１から受信する識別ＩＤを対応付けて話者テーブルを更新する。

　そして、ステップＳ９０９において、話者識別サービス５６は、映像出力サービス５３に対して、第１話者の登録の終了画面を表示させる。同時に、ステップＳ９１０において、話者識別サービス５６は、映像出力サービス５３に対して、話者登録の継続の要否、すなわち、次の話者登録を行うか否かを表示し、ユーザに対して継続／終了の入力を促す。そして、ステップＳ９１１において、話者識別サービス５６は、入力部３５からの話者登録の継続／終了の入力を受け付ける。以降、話者識別サービス５６は、話者登録を継続する入力を受け付けた場合は第２話者の登録を行うためにステップＳ９０１～Ｓ９０９の処理を繰り返し行い、話者登録を終了する入力を受け付けた場合は、話者登録を終了する。

　図１０は、話者識別サービス５６で記憶しているテーブルの一例である。この例によれば、ユーザにより入力される話者名及びその所属と、サーバ２１の話者識別処理によって付与される識別ＩＤとが対応付けて記憶されている。このようなテーブルを議事録生成装置１１側に備えることによって、サーバ２１に個人情報が記憶されないためセキュリティの向上を図ることができる。

　図１１は、議事録データの生成制御を示すフローチャートである。なお、本フローチャートにおいて議事録データの生成制御に用いられるサービス、すなわち、文字データ生成サービス５５、話者識別サービス５６、及び、統合サービス５７は互いに連携しで動作するものとし、まとめて議事録データ生成部と称するものとする。

　ステップＳ１１０１において、話者識別サービス５６は、会議の参加者の確認を行う。このような確認は、入力機器１５を用いて会議に参加中の話者がディスプレイ１４に表示されているユーザ名を選択することによって行われるものとする。そして、ステップＳ１１０２において、話者識別サービス５６は、話者テーブルを参照してステップＳ１１０１において確認された会議参加中のメンバーの識別ＩＤをサーバ２１へと送信すると、ステップＳ１１０３において、サーバ２１の音声解析エンジンは、受信した識別ＩＤを会議参加者として登録する。同時に、ステップＳ１１０４において、話者識別サービス５６は、会議の参加者に関連する話者テーブルを統合サービス５７へと送信する。

　ステップＳ１１０５において、音声入力サービス５２が音声データを取得すると、ステップＳ１１０６において、取得された音声データが文字データ生成サービス５５へと送信される。ステップＳ１１０７において、話者識別サービス５６は、受信した音声データを所定の時間毎（例えば、１０秒毎）に分割して分割音声データを生成し、ステップＳ１１０８において、文字データ生成サービス５５は、分割音声データをサーバ２１の音声解析エンジンへと送信する。同時に、文字データ生成サービス５５は、音声解析エンジンに対して文字データ生成、及び、話者識別の両者を行うようにサーバ２１に指示する。

　なお、ステップＳ１１０７の分割処理の前段において、取得した音声データに対して雑音の除去やサンプリングレートの調整等の補正を行ってもよい。このようにすることで、音声解析の精度を向上させることができる。また、ステップＳ１１０７の分割処理において、分割音声データにおいて最初と最後の部分に前後の分割音声データと重複するマージンが設けられてもよい。このようなマージンが設けられることにより、音声データが分割されるタイミングの前後の音声は、隣接する分割音声データの両者に記録されることとなるため、分割に起因する文字データの生成精度の低下を抑制できる。分割音声データは、時刻情報と対応付けられているので、後述の統合処理においてマージン箇所の削除を行うことができる。

　ステップＳ１１０９において、サーバ２１は、受信した分割音声データに対して音声解析を行う。ここで、サーバ２１は、ステップＳ１１０２において参加者の識別ＩＤを受信しており、図９のステップＳ９０６において識別ＩＤが付与される際に抽出された周波数、声調、音色などの特徴を優先的に用いて音声解析が行われる。そして、ステップＳ１１１０において、サーバ２１は、受信した分割音声データの音声解析結果を統合サービス５７に送信する。

　図１２には、サーバ２１の音声解析エンジンによって生成される音声解析テーブルの一例が示されている。音声解析テーブルにおいては、時間帯、及び、文字データが組み合わされて時間帯毎に示されている。詳細には、09時10分00秒～03秒の3F2Dの識別IDの話者による〇〇〇〇〇〇〇〇〇の発言、09時10分03秒～07秒の2A80の識別IDの話者による△△△△△△の発言、及び、09時10分07秒～10秒の3F2Dの識別IDの話者による××××××××××××の発言が示されている。

　再び、図１１を参照すれば、ステップＳ１１１１において、統合サービス５７は、サーバ２１から受信した複数の音声解析テーブルを統合する。なお、前後に隣接する分割音声データに時間的重なりがあるため、音声解析結果にも時間的重なりが存在する。そこで、統合サービス５７は複数の音声解析テーブルを統合する際に、隣接する音声解析テーブルとの重複時間部分を削除して、１つの音声解析結果を生成する。

　ステップＳ１１１２において、統合サービス５７は、ステップＳ１１０４において受信した話者テーブルを用いて、生成した音声解析結果における識別ＩＤを登録されている話者名称に変換する。このようにして、ステップＳ１１１３において、最終的に、統合サービス５７は議事録データを生成する。

　なお、図１１の例においては、識別ＩＤをステップＳ１１０２において予め送信したが、これに限らない。ステップＳ１１０８において、都度、分割音声データとともに参加者の識別ＩＤを送信してもよい。

　図１３は、生成された議事録データに対する追加処理を示すフローチャートである。

　ステップＳ１３０１において、統合サービス５７は議事録データを生成する。なお、この処理は、図１１のステップＳ１１１３の処理に相当する。そして、ステップＳ１３０２において、生成した議事録データを自然言語処理サービス５８へと送信する。

　ステップＳ１３０３において、自然言語処理サービス５８は、入力された議事録データに対して自然言語処理を行うことで最終議事録データを生成する。なお、ステップＳ１３０３の処理の詳細であるステップＳ１３０３１～Ｓ１３０３６の処理は以下の通りである。

　ステップＳ１３０３１において、自然言語処理サービス５８は、統合サービス５７から入力された議事録データを話者毎に分割して分割議事録データを生成する。なお、議事録データは、話者毎に加えて、さらに、文節毎に分割されてもよい。

　ステップＳ１３０３２において、自然言語処理サービス５８は、ステップＳ１３０３１において生成した分割議事録データをサーバ２１に送信する。ステップＳ１３０３３において、サーバ２１は自然言語処理エンジンによって分割議事録データに対して自然言語処理を行う。サーバ２１においては、話者の使用言語（例えば日本語）を判定した上で、その言語に応じた自然言語となるような補正や、事前に設定された禁止ワードの削除等が行われる。そして、ステップＳ１３０３４において、自然言語処理サービス５８は、自然言語処理済の分割議事録データを自然言語処理サービス５８へと送信する。

　ステップＳ１３０３５において、自然言語処理サービス５８は、サーバ２１から受信した自然言語処理済の分割議事録データを統合する。そして、ステップＳ１３０３６において、自然言語処理サービス５８は、自然言語処理による修正がなされた議事録データを生成する。

　そして、ステップＳ１３０４において、自然言語処理サービス５８は、生成した最終議事録データを感情解析サービス５９及び映像出力サービス５３へと出力する。映像出力サービス５３は、最終議事録データに示される情報を、後述の図１６又は図１７に示されるような形式のユーザインターフェースを用いてディスプレイ１４に表示する。

　ステップＳ１３０５において、感情解析サービス５９は、入力された最終議事録データに対して感情解析を行い、感情解析結果を生成する。ステップＳ１３０５の処理の詳細であるステップＳ１３０５１～Ｓ１３０５７の処理以下の通りである。なお、感情解析処理を、特定の応用場面、例えば、議事録生成装置１１がデパート等の小売りの現場に用いられる場合において、選択的に行ってもよい。

　ステップＳ１３０５１において、感情解析サービス５９は、統合サービス５７から入力された議事録データを話者毎に分割して分割議事録データを生成する。なお、議事録データは、話者毎に加えて、さらに、文節毎に分割されてもよい。そして、ステップＳ１３０５２において、分割した最終議事録データを他言語に翻訳する。

　感情解析は、言語の種類に応じてその精度が異なる場合がある。例えば、日本語よりも英語の方が感情解析の精度が高い場合には、感情解析サービス５９は、最終議事録データを英語に翻訳した後にサーバ２１へ送信する。なお、翻訳をサーバ２１に行わせてもよい。

　ステップＳ１３０５３において、感情解析サービス５９は、ステップＳ１３０５２において生成された翻訳データをサーバ２１に送信する。ステップＳ１３０５４において、サーバ２１は翻訳データに対して感情解析処理を行い、感情解析データを生成すると、ステップＳ１３０５５において、感情解析データを感情解析サービス５９へと送信する。

　ステップＳ１３０５６において、感情解析サービス５９は、サーバ２１から受信した感情解析結果を再翻訳する。これは、ステップＳ１３０５３においてサーバ２１に送信された言語によって、感情解析結果が生成されるため、再度日本語への翻訳が必要となるためである。そして、ステップＳ１３０５７において、感情解析サービス５９は、感情解析結果を生成することで話者毎の感情解析結果を示すことができる。

　例えば、議事録生成装置１１が店舗等に配置される場合に、感情解析結果を積極的に用いることができる。すなわち、店員と顧客との間の会話に対して文字起しした議事録データを生成し、その議事録データに対して感情解析を行うことにより、顧客の反応が肯定的であるか等を把握でき、顧客サービスの向上を図ることができる。

　ステップＳ１３０６において、感情解析サービス５９は、生成した感情解析結果を映像出力サービス５３へと送信し、ディスプレイ１４に感情解析結果を出力してもよい。なお、感情解析サービス５９は、自然言語処理サービス５８から出力される最終議事録データに替えて、統合サービス５７により生成される議事録データに対して感情解析を行ってもよい。このようにすることで、感情解析結果の生成までの要する時間を、自然言語の処理時間だけ短縮化することができる。

　このようにして、映像出力サービス５３は、最終議事録データと感情解析結果とを受け付けると、それらのデータが示す情報をディスプレイ１４に表示する。なお、最終議事録データと感解析情結果とは、議事録生成装置１１内のストレージやネットワーク上にあるサーバ２１に保存されてもよい。

　（変形例）
上記実施形態においては、図１１に示される音声解析において、文字データ生成サービス５５、話者識別サービス５６、及び、統合サービス５７により構成される議事録生成部が密接に協働して動作し、１つのサーバ２１に対して文字データ生成と話者識別との両者を含む音声解析を行わせる例を説明したが、これに限らない。

　本変形例においては、文字データ生成サービス５５、及び、話者識別サービス５６が、それぞれ文字データ作成と話者識別とを行うとともに、文字データ生成と話者識別とが別々の第１サーバ２１Ａ、及び、第２サーバ２１Ｂにおいて行われる例について説明する。なお、以下では、第１サーバ２１Ａには文字データ生成エンジンが、第２サーバ２１Ｂに話者識別エンジンが設けられているものとする。

　図１４は、変形例における議事録データの生成制御を示すフローチャートである。

　ステップＳ１４０１において、話者識別サービス５６は、会議の参加者の確認を行う。そして、ステップＳ１４０２において、話者識別サービス５６は、話者テーブルを参照してステップＳ１４０１において確認された会議の参加中のメンバーの識別ＩＤを第１サーバ２１Ａ、及び、第２サーバ２１Ｂへと送信する。ステップＳ１４０３において、第１サーバ２１Ａの文字データ生成エンジンは、受信した識別ＩＤを会議参加者として登録し、ステップＳ１４０４において、第２サーバ２１Ｂの話者識別エンジンは、受信した識別ＩＤを会議参加者として登録する。

　ステップＳ１４０５において、音声入力サービス５２が音声データを取得すると、ステップＳ１４０６において、取得された音声データが文字データ生成サービス５５及び話者識別サービス５６へと送信される。そして、ステップＳ１４０７において文字データ生成制御が行われ、ステップＳ１４０８において話者識別制御が行われる。

　ステップＳ１４０７の文字データ生成制御の詳細は以下のとおりである。

　ステップＳ１４０７１において、文字データ生成サービス５５は、受信した音声データを所定の時間毎に分割して分割音声データを生成し、ステップＳ１４０７２において、文字データ生成サービス５５は、分割音声データを第１サーバ２１Ａの文字データ生成エンジンへと送信する。なお、分割音声データには隣接する分割音声データと時間的重なりが存在するようにマージンが設けられていてもよい。

　ステップＳ１４０７３において、第１サーバ２１Ａの文字データ生成エンジンは受信した分割音声データを解析して文字データを生成すると、ステップＳ１４０７４において、第１サーバ２１Ａは生成した文字データテーブルを文字データ生成サービス５５へと送信する。

　図１５Ａには、サーバ２１の文字データ生成エンジンによって生成される文字データテーブルの一例が示されている。文字データテーブルにおいては、文字データが時間帯毎に示されている。詳細には、09時10分00秒～03秒の〇〇〇〇〇〇〇〇〇の発言、09時10分03秒～07秒の△△△△△△の発言、及び、09時10分07秒～10秒の××××××××××××の発言を示す文字データが示されている。

　再び図１４を参照すれば、ステップＳ１４０７５において、文字データ生成サービス５５は、受信した複数の文字データテーブルを時間的に結合することで文字データ結合テーブルを作成する。なお、この結合処理において、時間的に前後に隣接するテーブルにおける重複時間部分が削除される。そして、ステップＳ１４０７６において、文字データ生成サービス５５は、生成した文字データ結合テーブルを統合サービス５７へと送信する。このようにして、文字データ生成制御による文字データの生成が行われる。

　ステップＳ１４０８の話者識別制御の詳細は以下のとおりである。

　ステップＳ１４０８１において、話者識別サービス５６は、受信した音声データを所定の時間毎に分割して分割音声データを生成し、ステップＳ１４０８２において、話者識別サービス５６は、分割音声データを第２サーバ２１Ｂの話者識別エンジンへと送信する。なお、分割音声データには隣接する分割音声データと時間的重なりが存在するようにマージンが設けられていてもよい。

　ステップＳ１４０８３において、第２サーバ２１Ｂの話者識別エンジンは受信した分割音声データを解析して話者ＩＤテーブルを生成すると、ステップＳ１４０８４において、第１サーバ２１Ａは生成した話者ＩＤテーブルを話者識別サービス５６へと送信する。

　図１５Ｂには、第２サーバ２１Ｂの話者識別エンジンによって生成される識別ＩＤテーブルの一例が示されている。識別ＩＤテーブルにおいては、話者の識別ＩＤが時間帯毎に示されている。詳細には、09時10分00秒～03秒の3F2Dの識別IDの話者による発言、09時10分03秒～07秒の2A80の識別IDの話者による発言、及び、09時10分07秒～10秒の3F2Dの識別IDの話者による発言があったことが示されている。

　再び図１４を参照すれば、ステップＳ１４０８５において、文字データ生成サービス５５は、受信した複数の識別ＩＤテーブルを結合することで識別ＩＤ結合テーブルを作成する。なお、この結合処理において、隣接するテーブルにおける重複時間部分が削除される。そして、ステップＳ１４０８６において、話者テーブルを用いて、生成した識別ＩＤ結合テーブルにおける識別ＩＤを登録されている話者名称に変換する。ステップＳ１４０８７において、文字データ生成サービス５５は、識別ＩＤ結合テーブルを統合サービス５７へと送信する。このようにして、話者識別制御による話者データの生成が行われる。

　ステップＳ１４０７の文字データ生成制御及びステップＳ１４０８の話者識別制御を終えると、ステップＳ１４０９において、統合サービス５７は文字データ結合テーブルと、話者データ結合テーブルとを時刻情報を用いて対応付けて統合する。ステップＳ１４１０において、統合サービス５７は、識別ＩＤを話者名称に変換した後に、最終的に、議事録データを生成する。

　なお、ステップＳ１４０７の文字データ生成制御により生成される文字データテーブルは、図１５Ｃに示されるように、話者に応じず、文字データのみが時刻情報とともに記載されていてもよい。このような文字データテーブルであっても、識別ＩＤテーブルにおいて識別ＩＤが時刻情報とともに記載されている場合には、統合サービス５７によって時刻情報を用い文字データテーブルと識別ＩＤテーブルとを統合することで、識別ＩＤ（話者）毎の発言内容を示す議事録データを生成することができる。

　図１６及び図１７は、映像出力サービス５３がディスプレイ１４に出力する議事録データの表示形式の一例を示す図である。

　図１６に示されるように、自然言語処理を経た最終議事録データに基づいて、話者と発言内容とが対応して表示される。なお、予め登録された話者についてはその名前を表示することができる。例えば、図示されるように、田中太郎と佐藤花子の２名が話者登録されている場合には、その２名の発言内容は登録された名称とともに表示される。一方、登録されていない話者Ｃの発言内容については、話者名が特定されることなく表示される。後に、Ｃが話者登録されると、最終議事録データの表示形式においてＣの名称が記載される。

　また、別の例として、図１７に示されるように、左右に２名の話者（田中太郎、佐藤花子）が示され、いずれか一方から吹き出しの枠内に発言内容が示されるようにしてもよい。これらの議事録データを表示するユーザインターフェースは、映像出力サービス５３によって生成される。

　なお、複数のマイク１３が議事録生成装置１１に接続される場合には、マイク１３毎に音声入力サービス５２が設けられ、それぞれの音声入力サービス５２から時刻データと共に音声データが議事録データ生成部へと入力される。議事録データ生成部は、時刻情報を用いて入力される音声データを統合し、結合した音声データをサーバ２１へと送信する。

　また、話者テーブルの更新は任意のタイミングで行うことができ、例えば、最終議事録データが生成された後において、名称が未登録の話者が存在する場合には、新たに話者登録を行い話者テーブルの更新を行うことで、議事録データ内において話者名称へと変換することができる。

　上記実施形態においては、サーバ２１はＬＡＮ１２及びＷＡＮ２０を介して議事録生成装置１１と接続される例について説明したが、これに限らない。図１８に示されるように、サーバ２１は、ローカル環境１０に設けられ、ＬＡＮ１２を介して議事録生成装置１１と接続されてもよい。このような構成となることにより、ＷＡＮ２０との接続がない環境であっても、議事録生成装置１１を動作させることができる。

　また、議事録生成装置１１は、サーバ２１において行われる処理の一部または全部を装置内で行ってもよい。例えば、話者識別サービス５６は、サーバ２１において行われる話者識別処理の一部または全部を担ってもよい。このような構成となることで、議事録生成装置１１とサーバ２１との間の通信負荷を軽減でき、処理の高速化を図ることができる。

　本実施形態によれば、以下の効果を得ることができる。

　本実施形態の議事録生成装置１１は、ネットワークと接続して通信を行う通信手段であるＬＡＮ１２と、外部音声入力手段であるマイク１３と接続されて音声データを取得する音声入力サービス５２と、音声情報に基づき議事録データを生成する議事録データ生成部（文字データ生成サービス５５、話者識別サービス５６、及び、統合サービス５７）と、外部出力手段であるディスプレイ１４と接続されてディスプレイ１４へと議事録データを出力する映像出力サービス５３と、を備える。

　議事録データ生成部のうち、文字データ生成サービス５５は、ネットワークを介して提供される文字データ生成処理を利用して、音声情報をテキスト化して対応する文字データを生成し、話者識別サービス５６は、ネットワークを介して提供される話者認識処理を利用して、音声情報に含まれる話者を認識して話者情報を生成する。そして、統合サービス５７は、文字データ及び話者情報に基づいて議事録データを生成する。

　このように、議事録生成装置１１は、外部音声入力手段であるマイク１３と接続可能な音声入力サービス５２、及び、外部出力手段であるディスプレイ１４と接続可能な映像出力サービス５３を備えるため、議事録生成装置１１自身において入出力装置を備えない簡易な構成となる。

　さらに、議事録生成装置１１が備える議事録データ生成部においては、文字データ生成サービス５５、及び、話者識別サービス５６が、ネットワーク上のサーバ２１によって提供される機能を用いて、文字データ及び話者情報が生成される。そして、統合サービス５７において、文字データ及び話者情報を統合することで議事録情報が生成される。このように、議事録生成装置１１における処理負荷が低減されている。

　したがって、簡易な構成の議事録生成装置１１を用いることによって、議事録を手間なく容易に生成することができるだけでなく、話者認識等の高度な処理を伴う議事録データの生成が可能となる。

　本実施形態の議事録生成装置１１によれば、音声入力サービス５２とマイク１３との接続は自律的に確立され、映像出力サービス５３はディスプレイ１４との接続は自律的に確立される。このように、外部機器との接続が自動的に行われることにより、ユーザによる接続処理を省略できるため、議事録生成装置１１の利便性の向上を図ることができる。

　本実施形態の議事録生成装置１１によれば、話者識別サービス５６は、話者認識処理において用いられる話者毎の識別ＩＤを記憶する話者テーブルを有し、議事録生成装置１１の近傍に存在しマイク１３により音声が入力されうる話者と対応する識別ＩＤをサーバ２１へと送信する。このようにすることで、サーバ２１における音声解析処理（文字データ生成／話者識別）において、特定の話者に応じた処理に限定することができるので、サーバ２１における音声解析処理の精度及び速度向上を図ることができる。

　本実施形態の議事録生成装置１１によれば、サーバ２１においては識別ＩＤを用いた処理が行われ、議事録生成装置１１の統合サービス５７において、識別ＩＤから話者名称への変換を行って議事録データを生成する。このようにすることで、話者名称がサーバ２１へと送信されないので、プライバシー及びセキュリティ機能の向上を図ることができる。

　本実施形態の議事録生成装置１１によれば、話者識別サービス５６は、予め、話者認識処理において用いられる話者毎の音声情報を記憶する初期設定処理を行う。このように、初期設定において、話者毎の音声情報を記録することによって、話者識別処理における識別率の向上が図られるとともに、最終的に生成される議事録データにおいて話者が記録することができるので利便性の向上を図ることができる。

　本実施形態の議事録生成装置１１によれば、音声入力サービス５２は、取得した音声データに対して雑音の除去やサンプリングレートの調整等の補正を行い、補正後の音声データが文字データ生成サービス５５及び話者識別サービス５６において処理される。このように、サーバ２１において行われる処理の前段において音声データに対して補正を行うことにより、処理結果の精度の向上を図ることができる。

　また、議事録生成装置１１で取得した音声データに補正を行うことによって、より議事録生成装置１１の設けられている環境に応じた適切な補正ができる。さらに、補正をサーバ２１側で行う必要がないので、サーバ２１においては汎用的な制御処理を利用することができるため、サーバ２１における処理に関する運用コストの低減を図ることができる。

　本実施形態の議事録生成装置１１によれば、さらに、自然言語処理サービス５８を備え、自然言語処理サービス５８は、統合サービス５７によって生成された議事録データに対して自然言語処理を行う。自然言語処理においては、文字認識処理において発生しうる誤りを訂正することが可能であるため、議事録データの精度の向上を図ることができる。

　本実施形態の議事録生成装置１１によれば、さらに、感情解析サービス５９を備え、感情解析サービス５９は、統合サービス５７によって生成された議事録データに対して、サーバ２１において実行される感情解析を行う。このように議事録生成装置１１が感情解析を行うことにより、例えば、議事録生成装置１１がデパート等の小売りの現場に用いられる場合には、顧客と店員との会話に基づいた感情解析を行うことができるため、商品の販売戦略に用いることができる。

　本実施形態の議事録生成装置１１によれば、音声入力サービス５２は、入出力ポート３３に接続されるマイク１３のサンプリングレート等の動作仕様を取得し、予め記憶された当該動作仕様に応じたマイク１３の設定を用いて、音声データを取得する。このように、マイク１３をその動作仕様に応じて動作させることにより、マイク１３により取得される音声データの正確性を向上させることができるので、最終的な議事録データの精度の向上を図ることができる。

　本実施形態の議事録生成装置１１によれば、映像出力サービス５３は、入出力ポート３３に接続されるディスプレイ１４の表示レート等の動作仕様を取得し、予め記憶された当該動作仕様に応じたディスプレイ１４の設定を用いて、映像を出力する。このように、ディスプレイ１４をその動作仕様に応じて動作させることにより、ディスプレイ１４による映像出力の精度を向上させることができる。

　本実施形態の議事録生成装置１１によれば、外部機器検出サービス５１は、入出力ポート３３に接続されるマイク１３又はディスプレイ１４の接続が正しいか否かを判定することができる。このような判定処理を含むことにより、接続が正しくない場合には、ユーザに対して再接続を求める等を行うことができる。

　本実施形態の議事録生成装置１１によれば、音声入力サービス５２は、１又は複数のマイク１３と接続可能に構成される。例えば、音声入力サービス５２が複数のマイク１３と接続される場合には、複数のマイク１３により取得された音声データを時刻情報に基づいて統合することで、以降の音声解析を行うことができる。このように、複数のマイク１３を用いることにより、入力される音声データの品質向上を図ることができる。

　本実施形態の議事録生成装置１１によれば、コンテナエンジン４２が導入されたコンテナ環境においてマイクロサービスがコンテナ化されとともに、コンテナ環境のハードウェアリソースがオーケストレーションツール４３により管理されている。このように、それぞれの処理部がコンテナ化されることによって、議事録生成装置１１の処理速度が高速化させることができるので、それぞれの処理がサーバ２１により提供される機能を用いても、遅延なく議事録を生成することができる。

　本実施形態の議事録生成装置１１によれば、コンテナ化されたマイクロサービスは、議事録生成装置１１の初期設定時、又は、システム更新時において、ネットワークから取得されて議事録生成装置１１内にデプロイされる。このような構成となることで、議事録生成装置１１の初期設定やシステム更新を容易に行うことができる。

　以上、本発明の実施形態について説明したが、上記実施形態は本発明の適用例の一部を示したに過ぎず、本発明の技術的範囲を上記実施形態の具体的構成に限定する趣旨ではない。

　本願は、２０２０年７月２０日に日本国特許庁に出願された特許出願２０２０－１２４０２９に基づく優先権を主張し、この出願の全ての内容は参照により本明細書に組み込まれる。

Claims

　所定のネットワークと接続して通信を行う、通信手段と、
　外部音声入力手段と接続され、音声情報を取得する、第１の接続手段と、
　前記音声情報に基づき議事録データを生成する、議事録データ生成部と、
　外部出力手段と接続され、前記外部出力手段へと前記議事録データを出力する、第２の接続手段と、を備え、
　前記議事録データ生成部は、
　　前記ネットワークを介して提供されるテキスト化処理を利用して、前記音声情報をテキスト化して対応する文字データを生成する、文字データ生成部と、
　　前記ネットワークを介して提供される話者認識処理を利用して、前記音声情報に含まれる話者を認識して話者情報を生成する、話者認識部と、
　　前記文字データと前記話者情報に基づいて前記議事録データを生成する、統合処理部と、を備える、議事録生成装置。
　請求項１に記載の議事録生成装置であって、
　前記第１の接続手段と前記外部音声入力手段との接続は自律的に行われ、及び／または、
　前記第２の接続手段と前記外部出力手段との接続は自律的に行われる、議事録生成装置。
　請求項１または２に記載の議事録生成装置であって、
　前記話者認識部は、
　　前記話者認識処理において用いられる話者毎の識別子を記憶し、
　　前記外部音声入力手段により音声が入力されうる話者と対応する識別子を前記ネットワークに対して通知する、議事録生成装置。
　請求項３に記載の議事録生成装置であって、
　前記ネットワークを介して提供される話者認識処理において前記識別子と対応付けられた話者情報が生成され、
　前記統合処理部は、前記話者情報において前記識別子を対応する話者名へ変換し、前記変換された話者名を用いて前記議事録データを生成する、議事録生成装置。
　請求項１から４のいずれか１項に記載の議事録生成装置であって、
　前記文字データ生成部は、前記ネットワークを介して提供される前記テキスト化処理の前段に、補正処理を行う、議事録生成装置。
　請求項１から５のいずれか１項に記載の議事録生成装置であって、
　前記議事録データ生成部は、さらに、
　前記統合処理部によって生成された議事録データに対して、前記ネットワークを介して提供される自然言語処理を利用して自然言語処理を行う、自然言語処理部を、備える、議事録生成装置。
　請求項１から６のいずれか１項に記載の議事録生成装置であって、
　前記議事録データ生成部は、さらに、
　前記統合処理部によって生成された議事録データに対して、前記ネットワークを介して提供される感情解析を利用して感情解析処理を行う、感情解析処理部を、備える、議事録生成装置。
　請求項１から７のいずれか１項に記載の議事録生成装置であって、
　前記第１の接続手段は、前記外部音声入力手段と接続される時に前記外部音声入力手段の動作仕様を取得し、当該動作仕様に応じて前記外部音声入力手段から前記音声情報を取得する、議事録生成装置。
　請求項１から８のいずれか１項に記載の議事録生成装置であって、
　前記第２の接続手段は、前記外部出力手段と接続される時に前記外部出力手段の動作仕様を取得し、当該動作仕様に応じて前記外部出力手段へと出力制御を行う、議事録生成装置。
　請求項１から９のいずれか１項に記載の議事録生成装置であって、
　前記第１の接続手段と前記外部音声入力手段との接続、又は、前記第２の接続手段と前記外部出力手段との接続が正しいか否かを判定する判定部を、さらに備える、議事録生成装置。
　請求項１から１０のいずれか１項に記載の議事録生成装置であって、
　前記第１の接続手段は、１又は複数の前記外部音声入力手段と接続可能に構成され、
　複数の前記外部音声入力手段から受け付ける音声は、時刻に応じて統合される、議事録生成装置。
　請求項１から１１のいずれか１項に記載の議事録生成装置であって、
　前記文字データ生成部、前記話者認識部、及び、前記話者情報の少なくとも１つの処理部はコンテナ化され、当該コンテナ化された処理部を動作させるハードウェアリソースはオーケストレーションツールにより管理される、議事録生成装置。
　請求項１２に記載の議事録生成装置であって、
　前記コンテナ化された処理部は、前記議事録生成装置の初期設定時、又は、システム更新時において、ネットワークから取得されて前記議事録生成装置内にデプロイされる、議事録生成装置。
　所定のネットワークと接続して通信を行う、通信手段と、
　外部音声入力手段と接続され、音声情報を取得する、第１の接続手段と、
　前記音声情報に基づき議事録データを生成する、議事録データ生成部と、
　外部出力手段と接続され、前記外部出力手段へと前記議事録データを出力する、第２の接続手段と、を備える議事録生成装置の制御方法であって、
　前記議事録データ生成部は、
　　前記ネットワークを介して提供されるテキスト化処理を利用して、前記音声情報をテキスト化して対応する文字データを生成し、
　　前記ネットワークを介して提供される話者認識処理を利用して、前記音声情報に含まれる話者を認識して話者情報を生成し、
　　前記文字データと前記話者情報に基づいて前記議事録データを生成する、議事録生成装置の制御方法。
　所定のネットワークと接続して通信を行う、通信手段と、
　外部音声入力手段と接続され、音声情報を取得する、第１の接続手段と、
　外部出力手段と接続され、前記音声情報に基づいた議事録データを出力する、第２の接続手段と、を備える議事録生成装置の制御に用いられるコンピュータプログラムであって、
　前記コンピュータプログラムは、
　　前記ネットワークを介して提供されるテキスト化処理を利用して、前記音声情報をテキスト化して対応する文字データを生成し、
　　前記ネットワークを介して提供される話者認識処理を利用して、前記音声情報に含まれる話者を認識して話者情報を生成し、
　　前記文字データと前記話者情報に基づいて前記議事録データを生成する、コンピュータプログラム。
　所定のネットワークと接続して通信を行う、通信手段と、
　外部音声入力手段と接続され、音声情報を取得する、第１の接続手段と、
　外部出力手段と接続され、前記音声情報に基づいた議事録データを出力する、第２の接続手段と、を備える議事録生成装置の制御に用いられるコンピュータプログラムを格納した記録媒体であって、
　前記コンピュータプログラムは、
　　前記ネットワークを介して提供されるテキスト化処理を利用して、前記音声情報をテキスト化して対応する文字データを生成し、
　　前記ネットワークを介して提供される話者認識処理を利用して、前記音声情報に含まれる話者を認識して話者情報を生成し、
　　前記文字データと前記話者情報に基づいて前記議事録データを生成する、コンピュータプログラムを格納した記録媒体。