WO2024023930A1

WO2024023930A1 - 変換装置、変換方法、及びプログラム

Info

Publication number: WO2024023930A1
Application number: PCT/JP2022/028792
Authority: WO
Inventors: 陽子石井; 桃子中谷; 晴美齋藤
Original assignee: 日本電信電話株式会社
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2024-02-01

Abstract

変換装置において、入力情報を文字情報に変換する文字変換部と、前記文字変換部により得られた１以上の文字情報から、表示する文字情報を選択する選択部と、前記選択部により選択された文字情報を、その表示位置に対応する座標に変換する座標変換部とを備える。

Description

変換装置、変換方法、及びプログラム

　本発明は、文字情報を表示する技術に関連するものである。

　２名以上の参加者がある対話において、参加者間の対話を円滑に進める役割を持つファシリテータが存在する場合が多い。ファシリテータが存在する対話では、ファシリテータが付箋紙に発話内容をメモしつつ、付箋紙をグルーピングしながら掲示して、対話を進めることが多い。このようなグルーピングをすることで、発話内容の関連性を容易に把握できるので、スムーズに対話を進めることが可能となる。

H. Masataki, D. Shibata, Y. Nakazawa, S. Kobashikawa, A. Ogawa, K.Ohtsuki, VoiceRex - Spontaneous speech recognition technology for contact-center conversations, NTT Tech. Rev., 5 (2007) 22-27.

　しかし、付箋紙をグルーピングしながら対話を進めるには高いスキルを必要とし、特に初心者には難しい。

　人物の発話内容の表示に関する従来技術として、人物の発話内容をリアルタイムで自動的にテキスト化する音声認識システムが非特許文献１に開示されている。しかし、非特許文献１等に開示されている一般的な音声認識システムでは、発話内容を文字情報で表示するだけなので、複数の発話内容の間の関連性を文字情報から読み取ることが難しい。

　なお、上記の課題は、ファシリテータが存在する対話に限らずに、音声や文字入力等で発話が行われる対話の場面全般に生じ得る課題である。

　本発明は上記の点に鑑みてなされたものであり、複数の発話内容の間の関連性を文字情報から容易に読み取ることができるように、文字情報を表示することを可能とする技術を提供することを目的とする。

　開示の技術によれば、入力情報を文字情報に変換する文字変換部と、
　前記文字変換部により得られた１以上の文字情報から、表示する文字情報を選択する選択部と、
　前記選択部により選択された文字情報を、その表示位置に対応する座標に変換する座標変換部と
　を備える変換装置が提供される。

　開示の技術によれば、複数の発話内容の間の関連性を文字情報から容易に読み取ることができるように、文字情報を表示することを可能とする技術が提供される。

可視化システムの全体構成例を示す図である。変換装置の動作を説明するためのフローチャートである。表示画面上の座標を説明するための図である。表示例を示す図である。変形例１の変換装置を示す図である。変形例１の変換装置を示す図である。装置のハードウェア構成例を示す図である。

　以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

　以下の実施の形態では、２名以上の参加者があり、参加者間での対話を円滑に進めるためにファシリテータが存在している対話を想定し、ファシリテータの発話内容が要約されて、お題とともに表示されることを想定している。

　ただし、本発明に係る技術は、このような想定に限定されない広く一般の対話の場面に適用可能である。例えば、本発明に係る技術により、ファシリテータが存在しない対話において、任意の人物の発話内容を、発話内容の関連性が分かり易いように表示できる。

　また、以下で説明する実施の形態では、表示する文字情報の例として「文章」を使用しているが、表示する文字情報は「文章」に限らない。表示する文字情報は、文であってもよいし、単語であってもよいし、記号であってもよいし、これら以外の情報であってもよい。

　（実施の形態の概要）
　前述したように、２名以上の参加者があり、参加者間での対話を円滑に進めるためにファシリテータが存在している対話において、ファシリテータが重要なポイントのみを書き出すことがよく行われるが、対話の場を調整しつつ、ポイントを書き出すには高いファシリテータのスキルを要する。

　この問題に対して、例えば従来の音声認識システムを用いて、発話内容を全て自動的に文字で表示させることが考えられる。しかし、この方法では、参加者にとってはどこが重要なポイントなのか読み取ることが難しい。特に長い時間をかけて対話を行う場合、参加者は頭の中で発話内容を整理しつつ、発話内容を確認することが難しい。

　そこで本実施の形態では、音声入力、もしくはキーボード等により、ファシリテータが発話内容（文章）を変換装置１００に順次入力するだけで、変換装置１００が、文章間の意味の近さに合わせるように（つまり、文章間の関連性が分かり良いように）、要約された文章を配置すべき二次元座標を自動的に算出する。

　また、その場の議論の内容を分かり易く抽出するには高いファシリテータのスキルを要するという課題に対して、本実施の形態では、変換装置１００が、ファシリテータの発した発話内容（文章）に対する他者の反応を判断し、特徴的な反応のあった文章を優先的に残して表示させることが可能である。つまり、特徴的な反応のあった文章は、その場の議論の内容を表していると考えられるので、変換装置１００は、その場の議論の内容を分かり易く抽出することができるといえる。

　（システム構成例）
　図１に、本実施の形態の可視化システムの構成例を示す。本実施の形態の可視化システムは、２名以上の人物が対話を行なっている場面において使用される。図１に示す例では、３名の人物１～３が対話に参加している状況を示す。なお、図１に示す構成を「基本例」と呼ぶことにする。

　３名のうちの１名（人物１）は、参加者間での対話を円滑に進める役割を持つファシリテータである。

　図１に示す可視化システムは、変換装置１００、ビデオカメラ１０、マイク２０、３０、５０、センシング機器４０、６０を有する。

　変換装置１００は、例えばＰＣ（パーナルコンピュータ）等のコンピュータである。図１には、例として、キーボード１８０、及び表示部１９０（ディスプレイを含む情報表示機能）が変換装置１００に接続されている。なお、表示部１９０を、変換装置１００を構成する機能部であるとしてもよい。

　また、キーボード１８０、ビデオカメラ１０、マイク２０、３０、５０、センシング機器４０、６０は、いずれも、変換装置１０に情報を入力する入力部の例である。いずれの入力部についても、変換装置１００を構成する機能部であるとしてもよい。

　図１に示すように、変換装置１００は、文字変換部１１０、選択部１２０、初期値設定部１３０、他者反応判断部１４０、お題内容送信部１５０、座標変換部１６０、記憶部１７０を有する。

　（変換装置１００の動作例）
　続いて、上述した構成を備える変換装置１００の動作例を、図２のフローチャートの手順に沿って説明する。なお、図２の示す手順は例であり、変換装置１００の動作が図２の手順に限定されるわけではない。

　下記の動作の前提として、初期値設定部１３０は、事前に、期間Ｔ（１秒以上の期間）と数値ａ（１以上の整数）、及び、発話内容を表示部１７０に表示するエリアのサイズ（displayX, displayY）、の入力を受け付け、受け付けた情報を保持する。ここでの入力には例えばキーボード１８０が使用される。なお、displayXとdisplayYのそれぞれの単位はピクセルであるとする。

　＜Ｓ１０１：入力＞
　ファシリテータが音声で発話を行うことにより、発話情報がマイク２０から文字変換部１１０に入力される。また、ファシリテータがキーボード１８０により情報を入力した場合、入力情報は文字変換部１１０に入力される。

　＜Ｓ１０２：文章の取得及び要約＞
　Ｓ１０２において、文字変換部１１０は、マイク２０から入力された音声を文字情報に変換することで、文章を取得する。また、文字変換部１１０は、キーボード１８０から入力された情報（具体的にはコード等の信号の列）を文章に変換する。

　更に、文字変換部１１０は、変換により取得した文章に対して要約処理を行って、文章の要約（要約された文章）を取得する。文章の要約については任意の従来技術を使用することが可能である。一例として、特開2011-28638号に開示された技術を使用して文章の要約を行うことができる。

　文字変換部１１０は、上記の要約処理において、文章の文字数をカウントし、文字数がある閾値以下になるように要約を行って、要約された文章（これを「要約」と呼んでもよい）を選択部１２０へ送る。

　＜Ｓ１０３：他者の反応の判断＞
　次に、他者反応判断部１４０に関する処理について説明する。他者反応判断部１４０は、発話を行なっている人物以外の人物の反応を判断する機能部である。本実施の形態では、要約表示の対象とする発話を行なっている人物はファシリテータ（人物１）であるものとし、他者反応判断部１４０は、ファシリテータの発話に対する、ファシリテータ以外の人物の反応を判断する。

　他者反応判断部１４０には、対話を行なっている人々の様子を撮影するビデオカメラ、対話を行なっている人々の発話を収集するマイク、対話を行なっている人々をセンシングするセンシング機器の３種の機器のうちの少なくとも１種の機器が接続される。例えば、マイクとセンシング機器はそれぞれ、対話に参加する人物（ファシリテータを除く）の数だけ用意される。

　図１に示す例では、ビデオカメラ１０が備えられるとともに、人物２用のマイク３０とセンシング機器４０、及び、人物３用のマイク５０とセンシング機器６０が備えられている。

　本実施の形態に係る可視化システムにおいて、変換装置１００、ビデオカメラ１０、マイク２０、３０、５０、センシング機器４０、６０は全て時刻の同期がとられているものとする。以下では、ビデオカメラを備える場合の動作、マイクを備える場合の動作、センシング機器を備える場合の動作それぞれについて説明する。

　なお、マイク２０、３０、５０の種類に関してはどのような種類であってもよいが、例えば、ヘッドセットマイク、ラベリアマイク、グースネックマイク等を使用できる。

　また、センシング機器４０、６０の種類に関してもどのような種類であってもよいが、例えば、センシング機器として、ジャイロセンサ、心拍計測機、脳波センサのうちの少なくともいずれか１つが内蔵されている機器を使用することができる。

　　＜ビデオカメラについての動作＞
　ビデオカメラにより取得された映像は他者反応判断部１４０に入力され、他者反応判断部１４０は、例えば姿勢推定サービス（例：OpenPose）のＡＰＩを用いることで、当該映像からリアルタイムで人物それぞれの骨格の位置情報を取得する。

　他者反応判断部１４０は、人物の骨格の位置情報の時系列変化から、人物のうなずく動作や、首を振る動作、前のめりになる動作等の動作を検出する。他者反応判断部１４０による人物の動作の検出は、ある骨格間の位置関係に基づき行ってもよいし、１つ以上の骨格の時系列変化の動きに基づき行ってもよい。

　他者反応判断部１４０に対し、検出するべき動作として、複数の動作が設定される。また、それぞれの動作に対してある数値が設定される。他者反応判断部１４０は、ある人物に対してある動作を検出したときに、その動作に対して設定されているその数値を、重みαとして取得する。他者反応判断部１４０は、動作の検出により取得した重みαを、当該動作が発生した時刻情報ｔとともに選択部１２０に送る。

　他者反応判断部１４０が同一時刻ｔに複数の動作を検出した場合、当該複数の動作に対するそれぞれの重みを選択部１２０に送ることとしてもよいし、予め定めたルールに基づき、複数の動作からどれか１つの動作を選択して、選択した動作の重みを選択部１２０に送ることとしてもよいし、当該複数の動作に対するそれぞれの重みを合算した値を選択部１２０に送ることとしてもよい。

　　＜マイクについての動作＞
　対話参加者一人ずつに備えられたマイクにより、対話参加者一人ずつの発話の音声がリアルタイムに他者反応判断部１４０に入力される。各人物の音声に対し、他者反応判断部１４０は下記の処理を行う。

　他者反応判断部１４０は、例えば既存技術の感情理解エンジンを用いることにより、取得された発話の音声を、感情の強度を表す数値に対応付ける。

　他者反応判断部１４０には、ある閾値と、感情の強度を表す数値がその閾値を超えた（又はその閾値を下回った）場合に対応する数値が予め設定されている。他者反応判断部１４０は、マイクから入力された音声に基づき検知された感情の強度に対する当該数値を重みαとする。他者反応判断部１４０は、音声に基づく感情の強度の検出により得られた重みαを、その重みαに対応する発話が発生した時刻情報ｔとともに選択部１２０に送る。

　また、他者反応判断部１４０は、上記のような感情認識に基づく重みαの取得及び送信に代えて、又は、感情認識に基づく重みαの取得及び送信に加えて、下記の処理により重みαを取得し、送信してもよい。

　他者反応判断部１４０に、予め「わかる」、「へー」などの決められたフレーズを１つ以上設定しておく。また、各フレーズに対して数値が設定され、その数値を重みαとする。つまり、他者反応判断部１４０は、発話音声から予め設定したフレーズを検出した場合に、その発話音声に対応する数値を重みαとして、時刻情報ｔとともに選択部１２０に送る。

　他者反応判断部１４０は、感情の強度の数値に基づく重み算出、フレーズに基づく重み算出のうちのいずれを行ってもよいし、両方を行ってもよい。両方を行う場合、それぞれの重みαを時刻情報ｔとともに選択部１２０に送ることとしてもよいし、予め定めたルールに基づきどれか一方の重みを選択して時刻情報ｔとともに選択部１２０に送ることとしてもよいし、両方の重みを合算した値を重みαとして時刻情報ｔとともに選択部１２０に送ることとしてもよい。

　　＜センシング機器についての動作＞
　対話参加者一人ずつに備えられたセンシング機器により、対話参加者一人ずつのセンシング情報（センシング機器の出力データ）がリアルタイムに他者反応判断部１４０に入力される。各人物のセンシング情報に対し、他者反応判断部１４０は下記の処理を行う。

　各人物に対して、１つのセンシング機器が備えられてもよいし、違う種類のセンシング機器が複数個備えられてもよい。他者反応判断部１４０は、それぞれのセンシング機器の出力データから、予め設定されたある特徴を検出する。

　他者反応判断部１４０には、複数の特徴と、それぞれの特徴に対する数値が予め設定されている。他者反応判断部１４０は、検出した特徴に対応する数値を重みαとして取得する。他者反応判断部１４０は、ある特徴の検出に基づき取得した重みαを、当該特徴が発生した時刻情報ｔとともに選択部１２０に送る。

　上記の「特徴」はどのようなものであってもよいが、例えば、センシング情報の値が、予め設定した閾値を超えた状態（又は下回った状態）を検出したことを、特徴を検出したこととしてもよいし、センシングデータの時系列変化から予め定めた変化を検出したことを、特徴を検出したこととしてもよい。

　他者反応判断部１４０が複数の特徴を検出した場合、当該複数の特徴に対するそれぞれの重みを選択部１２０に送ることとしてもよいし、予め定めたルールに基づき、複数の特徴からどれか１つの特徴を選択して、選択した特徴の重みを選択部１２０に送ることとしてもよいし、当該複数の特徴に対するそれぞれの重みを合算した値を選択部１２０に送ることとしてもよい。

　＜Ｓ１０４：お題に関する情報の送信＞
　Ｓ１０４において、お題内容送信部１５０は、予め記憶部１７０に登録していたお題の文章と、そのお題についてファシリテータが話す時間ｓを座標変換部１６０及び選択部１２０へ送信する。お題内容送信部１５０は、記憶部１７０に新たにお題が追加されると、追加されたお題の文章とそのお題について話す時間ｓを座標変換部１６０及び選択部１２０へ送信する。なお、「お題」を、「話題」、「テーマ」、「トピック」等に言い換えてもよい。

　なお、記憶部１７０にお題と時間ｓが格納される際には、当該お題を識別する番号とともに格納される。また、選択部１２０へ送信されるお題に関して、送信される情報は、お題の文章とお題を識別する番号であってもよいし、お題を識別する番号のみであってもよい。

　なお、お題の文章等と、そのお題についてファシリテータが話す時間ｓは、座標変換部１６０のみに送り、選択部１２０へは送らないこととしてもよい。

　＜Ｓ１０５：要約の選択＞
　Ｓ１０５において、選択部１２０は、文字変換部１１０から文章の要約を受け取る。前述したとおり、当該要約は、ファシリテータにより音声又は文字として入力された文章の要約である。当該要約には、その要約に対応する発話の開始時刻と終了時刻がセットされる。なお、「発話」の意味には、音声の発声のみならず、キーボードでの入力も含まれる。

　選択部１２０は、文字変換部１１０から要約を順次受け取る。つまり、ある期間の間には、選択部１２０は、文字変換部１１０から複数の要約を受け取る。ただし、ある期間の間に、選択部１２０は、文字変換部１１０から１つのみの要約を受け取ることがあってもよい。

　選択部１２０は、他者反応判断部１４０から重みαと時刻情報ｔを受信すると、受信した時刻情報ｔを含む時間に対応する要約がある場合、その要約に、時刻情報ｔとともに受信した重みαの値を対応づける。例えば、要約の開示時刻～終了時刻がＴ～Ｔ＋１０であるとして、重みαとともに受信した時刻情報ｔがＴ＋５であるとすると、当該要約に重みαが対応付けられる。

　なお、要約の「開示時刻～終了時刻」の期間の終了時刻に後述の時間ｎｔを加えた期間「開示時刻～終了時刻＋ｎｔ」を判断に用いてもよい。この場合、選択部１２０は、他者反応判断部１２０から重みαと時刻情報ｔを受信すると、受信した時刻情報ｔが「開示時刻～終了時刻＋ｎｔ」に含まれる場合に、その要約に、時刻情報ｔとともに受信した重みαの値を対応づける。

　同じ要約に対して複数の重みαが対応する場合、選択部１２０は、全ての重みαを合算したものをその要約の重みとする。

　選択部１２０は、要約の終了時刻後の時刻に関して、他者反応判断部１４０からの情報を、要約の終了時刻から、予め定めた時間ｎｔの間だけ受け付け、それ以降の時刻に受信した情報については破棄する。

　時間ｎｔは選択部１２が管理するものとし、他者反応判断部１４０から送られた時刻情報ｔが実際には「開示時刻～終了時刻＋ｎｔ」内であったとしても、それを受け取った時点で「終了時刻＋ｎｔ」が経過している場合には受信した情報は破棄される。ただし、このような処理は一例である。

　また、選択部１２は、「終了時刻＋ｎｔ」を経過しても該当する要約に対する情報を他者反応判断部１４０から受信しない場合は、その要約の重みを０とする。

　選択部１２０は、初期値設定部１３０から期間Ｔと数値ａの値を受け取り、予め定めたルールに基づいて、その期間Ｔの間に要約された要約を、表示の候補となる要約として、ａ個選択する。選択のルールの例は下記のとおりである。なお、期間Ｔの間に要約された要約とは、例えば、「開始時刻～終了時刻」が期間Ｔに含まれる要約である。なお、期間Ｔの間に要約された要約として、ａ個の要約が存在しない場合には、期間Ｔの間に要約された要約を全て選択すればよい。

　選択部１２０は、まず、要約に設定された重みの数値が大きいものから順番に、要約を選択し、次に発話の開始時刻の早いものから順にａ個の要約を選択する。例えば、要約１（開始時刻ｔ、重み５）、要約２（開始時刻ｔ－１、重み４）、要約３（開始時刻ｔ＋１、重み６）、要約４（開始時刻ｔ－１、重み３）があるとして、ａ＝３であるとする。

　このとき、選択部１２０は、重みに基づき、要約３（開始時刻ｔ＋１、重み６）、要約１（開始時刻ｔ、重み５）、要約２（開始時刻ｔ－１、重み４）を選択する。

　また、要約１（開始時刻ｔ、重み５）、要約２（開始時刻ｔ－１、重み４）、要約３（開始時刻ｔ＋１、重み４）、要約４（開始時刻ｔ－２、重み４）があるとして、ａ＝３であるとする場合、選択部１２０は、まず、（開始時刻ｔ、重み５）を選択し、重みが同じものについては、開始時刻に基づき、要約４（開始時刻ｔ－２、重み４）、要約２（開始時刻ｔ－１、重み４）を選択する。

　＜Ｓ１０６：お題情報のセット＞
　次に、選択部１２０は、選択した各要約に対し、どのお題で話されたのかのお題情報をセットする。例えば、選択部１２０は、お題内容送信部１５０から受信したお題とその時間ｓに基づき、その時間ｓ内に要約された要約にそのお題をセットする。要約にセットされるお題の情報は、例えば、そのお題を識別可能な番号である。なお、時間ｓ内に要約された要約であるかどうかの判別に関しては、例えば、「時間ｓ」に時刻の情報（例：時間ｓは、時刻ａから時刻ｂまでの時間であるという情報）を含めることで実現できる。

　また、ファシリテータが、記憶部１７０に登録していたお題について話をしている場合には、対話が進むごとに今話されているお題をファシリテータがキーボード１８０等を用いて選択し、お題が切り替わると、ファシリテータが、お題も選択し直すこととしてもよい。ファシリテータによりお題が選択されている間（選択し直すまでの間）に発話された内容の要約にそのお題の番号がセットされる。

　ファシリテータあるいはその他の人物が、対話中に新たなお題を設定することも可能である。その場合、ファシリテータは、キーボードやマイクなどの入力機器を用いて、手入力、もしくは音声入力によりお題を入力し、記憶部１７０に登録する。記憶部１７０では、新たなお題の登録が行われると、新規のお題に対しても番号を振り、その番号等の情報が、お題内容送信部１５０から選択部１２０へ返される。選択部１２０は、そのお題の番号を、そのお題の発話の要約にセットする。

　選択部１５０で選択された要約は、当該要約に対応するお題の番号とともに座標変換部１６０へ送られる。

　＜Ｓ１０７：座標変換＞
　Ｓ１０７において、座標変換部１６０は選択部１２０から要約とお題の番号を受け取る。

　まず、座標変換部１６０は、各要約を高次元の座標（高次元のベクトル）に変換する。要約の文章を高次元座標に変換する方法としてはどのような方法を用いてもよいが、例えば、doc2vecもしくはfast2textを使用することができる。ここで得られる高次元座標は分散表現とも呼ばれ、要約の特徴量を示している。doc2vecとfast2textはいずれも、文章等の文字情報から特徴量を抽出する変換モデルの例である。

　この高次元座標の次元数は、例えば２００等である。次元数については任意の数値を指定可能である。

　座標変換部１６０は、要約から変換された座標に対して主成分分析を行うことで次元圧縮し、２次元の座標（aX, aY）を得る。この２次元の座標（aX, aY）も、要約の特徴量を示している。

　次に、座標変換部１６０は、要約とともに受け取ったお題の番号を記憶部１７０へ送付し、そのお題に対して座標が登録されているかどうかを確認する。座標が記憶部１７０に登録されている場合、そのお題に対応する矩形のエリアの中心座標である（titleX´, titleY´）と、当該エリアの大きさを表す（summaryX, summaryY）を記憶部１７０から取得する。

　上記の座標が記憶部１７０に登録されていない場合、座標変換部１６０は、以下の座標変換処理を実行する。

　座標変換部１６０は、記憶部１７０から、問い合わせたお題の番号に対応するお題の文章と、そのお題について話す時間ｓを受け取り、次の処理を行う。

　座標変換部１６０は、要約に対する座標変換と同様にして、例えばdoc2vecもしくはfast2textを使用して、お題の文章を高次元の座標に変換し、変換した座標に対して主成分分析を行うことで次元圧縮し、２次元の座標（titleX, titleY）を得る。

　次に座標変換部１６０は、表示部１９０上で対話内容（発話内容）を表示する矩形のエリアのサイズdisplayX, displayYを初期値設定部１３０から受け取る。前述したように、displayX,displayYの単位はピクセルである。

　座標変換部１６０は、お題の座標（titleX, titleY）を、対話内容を表示するエリアのサイズに射影変換し、座標（titleX´, titleY´）を得る。

　次に、座標変換部１６０は、今回話される予定のお題すべてについての、お題について話す時間ｓｎ（お題の番号が１のものはｓ１、...．．お題の番号がｎのものはｓｎとする）と、期間Ｔと数値ａを記憶部１７０から得る。なお、ここでは、期間Ｔと数値ａは記憶部１７０に保持されていると想定している。

　座標変換部１６０は、すべてのお題１～ｎのそれぞれについて(sn/T)×a=numMを計算し、numMをそのお題に関する最終的な要約の個数の最大値とする。numMは、aを、期間Tに対するそのお題の時間ｓｎで按分した数に相当する。

　次に、座標変換部１６０は、ΣnumM_i(i=n) =NUMMAXを計算し、お題すべての要約最大値の和（NUMMAX）を求める。「ΣnumM_i(i=n)」は、numMのお題についての総和である。

　次に、座標変換部１６０は、(displayX×displayY)/NUMMAX =areaを計算し、要約最大和NUMMAXに対する単位面積areaを得る。続いて、座標変換部１６０は、各お題について、numM×area = areaMを計算し、これを各お題が持つ最大エリアサイズareaMとする。

　次に、座標変換部１６０は、各お題についての要約の配置エリアの形状をdisplayX,displayYと同じ比率の矩形とし、そのサイズをsummaryX,summaryYとする。具体的には、座標変換部１６０は、summaryX×summaryY= areaMとdisplayX:displayY = summaryX:sumaryYを満たすsummaryX,summaryYを求める。

　以上の処理の結果、座標変換部１６０は、お題ごとに、（titleX´, titleY´）の値と（summaryX, summaryY）の値を得る。続いて、座標変換部１６０は、お題ごと、要約ごとに次の処理を行う。

　座標変換部１６０は、要約の２次元座標（aX, aY）を、summaryX,summaryYに射影変換し、（aX´, aY´）を得る。

　そして、座標変換部１６０は、下記の式で、（aX´, aY´）に対して、(titleX´-summaryX/2, titleY´-summaryY/2)を原点とするように変換を行い(aX´´, aY´´)を求める。

　aX´´=aX´+(titleX´-summaryX/2)
　aY´´=aY´+(titleY´-summaryY/2)
　座標変換部１６０は、求められた(aX´´, aY´´)を含む各座標情報と、表示すべき要約等の情報を表示部１９０に送る。

　＜Ｓ１０８：表示＞
　表示部１９０は、お題ごと、要約ごとに、(aX´´, aY´´)の位置に要約の文章を表示する。また、表示部１９０は、お題ごとに、（titleX´, titleY´）にお題を表示する。なお、お題に関しては、すでに表示されている場合は上書きしない。

　図３に、各座標のイメージを示す。図３には、displayX×displayYのエリアに、２つのお題についての要約表示エリアであるsummaryX1×summaryY1と、summaryX2×summaryY2が示されている。また、お題１の表示位置（titleX1´, titleY1´）とお題２の表示位置（titleX2´, titleY2´）、及び、要約１の表示位置（aX1´, aY1´）と要約２の表示位置（aX2´, aY2´）が示されている。

　また、図４には、上記のお題１が「子供の好きな遊び」であり、要約１が「積み木遊び」であり、お題２が「子供とのお出かけ先」であり、要約２が「公園へ行く」である場合における表示例が示されている。

　また、各お題のエリアである「(titleX´, titleY´)を中心とした(summaryX,summaryY)の矩形」を明確にするために、図４のように、(titleX´, titleY´)を中心とした円状に色を塗り、お題のエリアをわかりやすくしても良い。

　上記のように、お題ごとに「(titleX´, titleY´)を中心とした(summaryX,summaryY)の矩形」のエリアを設けることは一例であり、このようなエリアを設けずに、お題と要約を配置（表示）してもよい。

　（変形例１）
　図１に示した変換装置１００の構成（基本例）において、他者反応判断部１４０を備えないこととしてもよい。この場合、ビデオカメラ１０、及び、ファシリテータ以外の人物２，３に取り付けられている各マイク及び各センシング機器を備えないこととしてもよい。ただし、人物２，３においてマイク３０，５０を備え、マイク３０，５０からの音声が文字変換部１１０に入力されるようにしてもよい。

　基本例（図１の変換装置１００）の構成から他者反応判断部１４０を除いた構成を図５に示す。図５に示す変形例１の変換装置１００の動作は、基本例における動作から、他者反応判断部１４０に係る動作を除いた動作に相当する。

　前述したように、基本例では、他者反応判断部１４０が、他者の反応を示す重みを算出し、選択部１２０は、重みを用いて、複数の要約から、表示する要約を選択する。

　一方、変形例１では、重みを算出しないので、選択部１２０は、文字変換部１１０から受け取った複数の要約の中から、例えば、発話の開始時刻の早いものから順にａ個の要約を選択する。また、選択部１２０は、文字変換部１１０から受け取った複数の要約の中から、ランダムにａ個の要約を選択してもよい。

　（変形例２）
　基本例と変形例１のいずれの場合でも、お題を用いないこととしてもよい。この場合、例えば、表示部１９０上には、お題が表示されずに、要約ごとに、座標（aX´, aY´）上に要約が表示される。お題を表示しなくても、各要約は、互いの意味の近さに応じた位置に表示されるので、近い意味同士の要約内容を一緒に閲覧することができる。つまり、要約間の関連性を分かり良く表示することができる。

　変形例２では、お題を用いないので、お題内容送信部１５０は不要である。図６に、変形例２における変換装置１００の構成例を示す。図６の構成の動作は、変形例１の動作（基本例から他者反応判断部１４０の動作を除いた動作）から、お題に関わる動作を除いた動作になる。

　（ハードウェア構成例）
　変換装置１００は、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。

　すなわち、変換装置１００は、コンピュータに内蔵されるＣＰＵやメモリ等のハードウェア資源を用いて、変換装置１００で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

　図７は、上記コンピュータのハードウェア構成例を示す図である。図７のコンピュータは、それぞれバスＢＳで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。

　当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、変換装置１００に係る機能を実現する。

　インタフェース装置１００５は、ネットワーク等に接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置１００８は演算結果を出力する。なお、変換装置１００には、入力部と表示部を含まないこととする場合、表示装置１００６と入力装置１００７は当該コンピュータに含まれない。

　（実施の形態のまとめ、効果）
　以上説明したとおり、本実施の形態に係る技術では、複数の発話内容の間の関連性を文字情報から容易に読み取ることができるように、文字情報を表示することができる。

　より具体的には、変換装置１００により、ファシリテータの入力した文章を、自動的に二次元空間に配置した状態で表示できるので、対話の参加者は、近い意味同士の複数の要約を一緒に閲覧することができる。これにより、読み取りの認知的負荷を下げることができるという効果がある。

　また、他者反応判断部１４０を備える変換装置１００により、特徴的な反応のあった文章を優先的に残すことができるので、参加者のリアクションを考慮した対話内容を確認することができる。

　（付記）
　本明細書には、少なくとも下記各項の変換装置、変換方法、及びプログラムが開示されている。
（付記項１）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　入力情報を文字情報に変換し、
　得られた１以上の文字情報から、表示する文字情報を選択し、
　選択された文字情報を、その表示位置に対応する座標に変換する
　変換装置。
（付記項２）
　前記プロセッサは、変換モデルを用いて前記文字情報を高次元座標に変換し、前記高次元座標の次元削減を行うことにより前記座標を取得する
　付記項１に記載の変換装置。
（付記項３）
　前記プロセッサは、選択された文字情報に対応する話題を、その表示位置に対応する座標に変換し、
　表示部において、前記話題から得られた座標に前記話題が表示され、前記選択部により選択された文字情報から変換された座標に当該文字情報が表示される
　付記項１又は２に記載の変換装置。
（付記項４）
　前記プロセッサは、前記入力情報の発出元の第１人物とは異なる第２人物における、前記入力情報に対する反応を検出する
　付記項１ないし３のうちいずれか１項に記載の変換装置。
（付記項５）
　前記プロセッサは、前記反応を重みに変換し、重みが付された前記１以上の文字情報から、重みに基づいて、表示する文字情報を選択する
　付記項４に記載の変換装置。
（付記項６）
　コンピュータが実行する変換方法であって、
　入力情報を文字情報に変換する文字変換ステップと、
　前記文字変換ステップにより得られた１以上の文字情報から、表示する文字情報を選択する選択ステップと、
　前記選択ステップにより選択された文字情報を、その表示位置に対応する座標に変換する座標変換ステップと
　備える変換方法。
（付記項７）
　コンピュータを、付記項１ないし５のうちいずれか１項に記載の変換装置における各部として機能させるためのプログラムを記憶した非一時的記憶媒体。

　以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０　ビデオカメラ
２０、３０，５０　マイク
４０，６０　センシング機器
１００　変換装置
１１０　文字変換部
１２０　選択部
１３０　初期値設定部
１４０　他者反応判断部
１５０　お題内容送信部
１６０　座標変換部
１７０　記憶部
１８０　キーボード
１９０　表示部
１０００　ドライブ装置
１００１　記録媒体
１００２　補助記憶装置
１００３　メモリ装置
１００４　ＣＰＵ
１００５　インタフェース装置
１００６　表示装置
１００７　入力装置
１００８　出力装置

Claims

　入力情報を文字情報に変換する文字変換部と、
　前記文字変換部により得られた１以上の文字情報から、表示する文字情報を選択する選択部と、
　前記選択部により選択された文字情報を、その表示位置に対応する座標に変換する座標変換部と
　を備える変換装置。
　前記座標変換部は、変換モデルを用いて前記文字情報を高次元座標に変換し、前記高次元座標の次元削減を行うことにより前記座標を取得する
　請求項１に記載の変換装置。
　前記座標変換部は、前記選択部により選択された文字情報に対応する話題を、その表示位置に対応する座標に変換し、
　表示部において、前記話題から得られた座標に前記話題が表示され、前記選択部により選択された文字情報から変換された座標に当該文字情報が表示される
　請求項１に記載の変換装置。
　前記入力情報の発出元の第１人物とは異なる第２人物における、前記入力情報に対する反応を検出する他者反応判断部
　を更に備える請求項１に記載の変換装置。
　前記他者反応判断部は、前記反応を重みに変換し、
　前記選択部は、重みが付された前記１以上の文字情報から、重みに基づいて、表示する文字情報を選択する
　請求項４に記載の変換装置。
　コンピュータが実行する変換方法であって、
　入力情報を文字情報に変換する文字変換ステップと、
　前記文字変換ステップにより得られた１以上の文字情報から、表示する文字情報を選択する選択ステップと、
　前記選択ステップにより選択された文字情報を、その表示位置に対応する座標に変換する座標変換ステップと
　を備える変換方法。
　コンピュータを、請求項１ないし５のうちいずれか１項に記載の変換装置における各部として機能させるためのプログラム。