WO2021255831A1

WO2021255831A1 - 送信装置、コミュニケーション方法、及びプログラム

Info

Publication number: WO2021255831A1
Application number: PCT/JP2020/023617
Authority: WO
Inventors: 千尋高山
Original assignee: 日本電信電話株式会社
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2021-12-23
Also published as: JPWO2021255831A1; US20230262283A1; JP7279861B2

Abstract

話し手と受け手との間でコミュニケーションを行うためのコミュニケーションシステムにおいて、話し手側で使用される送信装置であって、前記話し手の発声から得られた音声データに対する処理を行って、当該音声データに対応する情報データを生成する処理部と、前記処理部の処理に起因する遅延時間の長さに対応する再生時間長を有する疑似映像データを生成する疑似映像生成部と、前記疑似映像データを受け手側へ送信した後に、前記話し手の発声時の映像データと前記情報データを受け手側へ送信する送信部とを備える。

Description

送信装置、コミュニケーション方法、及びプログラム

　本発明は、遠隔で話し手と受け手との間でコミュニケーションを行うコミュニケーションシステムに関連するものである。

　コミュニケーションシステムに関する従来技術として、音声認識・翻訳機能を備えたテレビ会議システムがある（例えば非特許文献１）。このようなテレビ会議システムでは、母語が異なる人同士での遠隔地会話において、発話内容を異なる言語へ翻訳したうえで、文字又は合成音声にて話し手と受け手との間でコミュニケーションを実現することができる。

　上記のテレビ会議システムでは、音声に対して、音声認識、翻訳、音声合成などの処理を行うことでコミュニケーションを実現している。

　上記のようなテレビ会議システムにより、聴覚や視覚などの障害を持った人を交えた遠隔地コミュニケーションにおいて、音声や文字、ジェスチャーなどを組み合わせた、マルチモーダルでのコミュニケーションを実現する。

　また、代用音声（例えば、食道発声法、電気式人工喉頭など）の利用者によっては、代用音声よって発生される音声を直接相手に聞かれたくないと考え、文字によるコミュニケーションや合成音声による発話を利用することができる。

https://www.nttbiz.com/news/20190522、２０２０年６月９日検索

特開２０１９－０５３４７３号公報

　しかし、上記のテレビ会議システムなどの従来技術では、音声の処理（認識、翻訳、合成）に時間がかかるため、処理された音声の情報とリアルタイムの映像との間にずれが発生してしまうという課題がある。

　上記のずれを防いで音声と映像を同期して再生させるには、意図的に映像を遅延させ、ずれを発生させることが考えられる。しかし、意図的に映像にもずれを発生させる場合、全体として、話し手の会話開始から、受け手側での映像データの再生開始までに遅延が発生してしまう。

　コミュニケーションシステムにおける会話において、再生開始までの遅延は知覚されるシステムの反応性能を下げ、インタラクティブ性を損なう原因となり、場合によっては会話の意図が伝わらなかったり、誤解を生み出す可能性がある。

　こうした問題に対して、知覚される遅延を低減させるため、相づちの文字情報や合成音声情報を疑似的に送信するコミュニケーション装置が提案されている（特許文献１）。しかし、テレビ会議の利用においては、映像と相づちや字幕情報との間にずれが生じてしまう。

　本発明は上記の点に鑑みてなされたものであり、映像データを遅延させて送信するコミュニケーションシステムにおいて、受け手に遅延を意識させないようにするための技術を提供することを目的とする。

　開示の技術によれば、話し手と受け手との間でコミュニケーションを行うためのコミュニケーションシステムにおいて、話し手側で使用される送信装置であって、
　前記話し手の発声から得られた音声データに対する処理を行って、当該音声データに対応する情報データを生成する処理部と、
　前記処理部の処理に起因する遅延時間の長さに対応する再生時間長を有する疑似映像データを生成する疑似映像生成部と、
　前記疑似映像データを受け手側へ送信した後に、前記話し手の発声時の映像データと前記情報データを受け手側へ送信する送信部と
　を備える送信装置が提供される。

　開示の技術によれば、映像データを遅延させて送信するコミュニケーションシステムにおいて、受け手に遅延を意識させないようにするための技術が提される。

表示画面の例を示す図である。送信装置の構成図である。受信装置の構成図である。処理時間予測部の動作を示すフローチャートである。処理時間予測部の動作を説明するための図である。映像記録部に格納されているデータの例を示す図である。疑似映像生成部の動作を示すフローチャートである。字幕枠表示アニメーションの例を示す図である。疑似映像生成部の動作を示すフローチャートである。映像蓄積に関する構成を示す図である。合成・送信部の動作を示すフローチャートである。装置のハードウェア構成例を示す図である。

　以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

　（実施の形態の概要）
　本実施の形態に係る技術では、話し手と受け手との間でコミュニケーションを行うためのコミュニケーションシステムにおいて、話し手側の送信装置１００における音声データの処理時間の分だけ映像データを遅延させて受け手側の受信装置２００に送信する。受け手側の受信装置２００では、映像データの再生開始までに遅延が生じるが、その遅延している時間に、特定の音声・映像を再生させることで、受け手に遅延を意識させないで、音声、映像、文字などを使った、マルチモーダルなコミュニケーションを実現することとしている。

　図１は、受け手側の受信装置２００に表示される画面のイメージを示す図である。本実施の形態では、話し手が発声を開始すると送信装置１００において映像データと音声データが得られるが、音声データの処理（例えば字幕作成）により、映像データ（と字幕）の送信（受け手側では再生）に遅延時間が生じる。そこで、映像データ（と字幕）の送信の前に、遅延した映像等が再生可能になるまで、疑似映像データを受信装置２００に送信し、受信装置２００に疑似映像データを再生させる。

　受け手側の画面には、まず、疑似映像データによる話し手の映像が表示され、遅延時間（ずれ時間）の後に、遅延した話し手の映像と字幕等が表示される。これにより、受け手に遅延を意識させないでコミュニケーションを実現させることができる。

　具体的には、音声処理により生じる処理後のデータと、リアルタイムの映像とのずれ時間長（遅延時間の長さ）を、直近の通信記録を使って常時推計し、そのずれの大きさによって、疑似映像として、（ａ）頷き動作、（ｂ）姿勢の変化、（ｃ）字幕枠のアニメーション表示、あるいはそれらの組み合わせを、遅延した音声・映像が再生可能になるまで、代わりに再生する。

　ここで用いる（ａ）頷き動作、（ｂ）姿勢の変化は、事前に登録した映像を使うこともできるし、それまでの会話で得られたデータを使うこともできる。

　以下、上記のようなコミュニケーションを実現するための送信装置１００と受信装置２００の構成と動作について詳細に説明する。

　（装置構成）
　図２は、本発明の実施の形態における送信側の装置である送信装置１００の構成図である。図２に示すように、本実施の形態における送信装置１００は、入力・分離部１０１、映像処理部１０２、音声認識理部１０３、翻訳処理部１０４、合成音声生成部１０５、処理時間予測部１０６、ずれ長判定部１０７、疑似映像生成部１０８、字幕生成部１０９、映像記録部１１０、合成・送信部１１１を有する。なお、「音声認識理部１０３、翻訳処理部１０４、合成音声生成部１０５、字幕生成部１０９」からなる部分を「処理部」と呼んでもよい。また、ずれ長判定部１０７を「判定部」と呼んでもよい。また、合成・送信部１１１を「送信部」と呼んでもよい。各部の動作概要は下記のとおりである。

　入力・分離部１０１は、カメラ及びマイク等で構成される機能部である。入力・分離部１０１は、話し手の振る舞いや発話（発声）を、映像データ及び音声データとして取得し、映像データと音声データとを分離し、映像データを映像処理部１０２に送り、音声データを音声認識処理部１０３と処理時間予測部１０６へ送る。この時、入力・分離部１０１は、各々のデータにタイムスタンプを付与する。

　映像処理部１０２は、ずれ長判定部１０７と合成・送信部１１１へ映像データを送る。音声認識処理部１０３は、既存の技術を使って、音声データを文字データへ変換する。

　翻訳処理部１０４はオプションであり、音声認識処理部１０３から送られた文字データから、異なる言語へ翻訳処理を行い、翻訳結果データを合成音声生成部１０５と字幕生成部１０９へ送る。

　合成音声生成部１０５は、翻訳処理部１０４より送られた翻訳結果データを使って、既存の技術で音声合成を行い、合成音声データをずれ長判定部１０７、合成・送信部１１１へ送る。

　処理時間予測部１０６は、入力・分離部１０１から得られた音声データをもとに、音声認識処理部１０３～合成音声生成部１０５又は音声認識処理部１０３～字幕生成部の処理完了までにかかる時間（音声データ取得から処理完了までの時間長）を予測し、ずれ長判定部１０７へ処理時間データを送信する。なお、この予測処理は、後述するずれ長判定部１０７にて出力される、過去のずれ時間の情報によって学習することができる。

　ずれ長判定部１０７は、処理時間予測部１０６からの処理時間データを初期値のずれ時間として設定し、映像処理部１０２からの映像データと、合成音声生成部１０５（又は字幕生成部１０９）からの音声データとのタイムスタンプの情報から、映像と音声が実際どれほどずれたのかの時間を計測し、先に決めたずれ時間を更新する。例えば、現時点（リアルタイム）の映像データのタイムスタンプと、音声合成又は字幕生成の対象となっている音声データのタイムスタンプとの差分を、再生タイミングのずれ時間（遅延時間）と判定することができる。

　ずれ時間の情報は、処理時間予測部１０６がずれ時間を設定してから、定期的に疑似映像生成部１０８へ送信する。

　疑似映像生成部１０８は、ずれ長判定部１０７からのずれ時間の情報から、映像記録部１１０から映像データを取得し、疑似映像データを生成して、合成・送信部１１１へ疑似映像データを送信する。

　字幕生成部１０９は、翻訳処理部１０４より送られた翻訳結果データを使って、字幕映像データを生成する。

　合成・送信部１１１は、映像データ、疑似映像データ、合成音声データ、及び字幕映像データを、後述するルールに従って合成し、伝送可能な形式（例えば、ネットワークパケット）に変換し送信する。

　図３は、本発明の実施の形態における受信側の装置である受信装置２００の構成図である。図３に示すように、本実施の形態における受信装置２００は、受信部２０１と出力部２０２を有する。各部の動作は下記のとおりである。

　受信部２０１は、送信装置１００の合成・送信部１１１から得られたデータを出力部２０２に送信する。出力部２０２は、モニタやスピーカなどの装置を含み、受信部２０１から受信したデータを映像や音声として再生し、出力する。

　（処理時間予測部１０６）
　以下、処理時間予測部１０６による処理時間データ（の値）の予測の処理内容を、図４のフローチャートを参照してより詳細に説明する。なお、図４に示すフローの処理は、所定時間間隔で繰り返し行われるものである。

　Ｓ１０１において、処理時間予測部１０６は、入力・分離部１０１から得られた音声データから、一定の時間フレームを特定し、その期間中に話し手が発声中かどうかの判定を行う。

　例えば、一定の時間フレームとして、０．０１秒（１０ｍｓｅｃ）などを用いる。判定には、音声データの波形から一定レベル以上の音声があるかの情報と、映像データ中の話し手の口の開閉があるかの情報のいずれかを利用してもよいし、両方を利用してもよい。その他、既存の音声区間検出技術等を利用してもよい。例えば、「石塚健太郎, 藤本雅清, & 中谷智広. (2009). 音声区間検出技術の最近の研究動向. 日本音響学会誌, 65(10), 537-543.」に開示された技術を利用することができる。

　話し手が発声中であると判定された場合（Ｓ１０２のＹｅｓ）、前回の処理時間データが０であれば（Ｓ１０３のＹｅｓ）、処理時間予測部１０６は、処理時間データとして標準処理時間を出力する（Ｓ１０４、Ｓ１０５）。つまり、最初は、処理時間データとして標準処理時間を出力する。例えば、標準処理時間＝１秒（１，０００ｍｓｅｃ）などの規定値を用いることができる。

　標準処理時間について、システムで規定の時間を事前に決めてもよいし、本実施の形態に係るプログラムを実行するコンピュータの性能に基づいて規定値を変更してもよい。また、標準処理時間は、音声合成処理、翻訳処理、字幕生成処理等を行うか否かによっても、増減して設定することができる。

　引き続き話し手が発話中であると判定されている場合（Ｓ１０２のＹｅｓ）で、前回の処理時間データが０でない場合（Ｓ１０３のＮｏ）、Ｓ１１０において、処理時間予測部１０６は、音声認識処理部１０３～合成音声生成部１０５、又は音声認識処理部１０３～字幕生成部１０９での処理状況及び処理時間を取得する。

　Ｓ１１１において、処理時間予測部１０６は、音声認識処理部１０３～合成音声生成部１０５の処理時間又は音声認識処理部１０３～字幕生成部１０９の処理時間と、処理時間データとを比較し、処理時間が、出力している処理時間データの値を超える場合は、処理時間データを一定時間幅だけ増加させ更新し（Ｓ１１２）、更新した処理時間データを出力する（Ｓ１０５）。処理時間が、出力している処理時間データ以内であれば、更新せずに現状の処理時間データを出力する。

　Ｓ１１２における増加幅として、例えば、標準処理時間の１／５程度、０．２秒（２００ｍｓｅｃ）などを設定できる。

　この時、処理時間予測部１０６は、音声認識処理部１０３、翻訳処理部１０４、合成音声生成部１０５、字幕生成部１０９での実際の処理状況・時間から、処理の遅延発生を把握する。

　なお、Ｓ１１２（処理時間を増加させ更新）が継続する場合、ずれ長判定部１０７と疑似映像生成部１０８は、処理時間予測部１０６より、当初受信した処理時間データよりも長い時間を継続的に受け取ることになる。

　話し手が発声中ではないと判定された場合（Ｓ１０２のＮｏ）、Ｓ１０６において、処理時間予測部１０６は、音声認識処理部１０３～合成音声生成部１０５、音声認識処理部１０３～字幕生成部１０９での処理状況及び処理時間を取得する。

　処理時間予測部１０６は、音声認識処理部１０３～合成音声生成部１０５、又は音声認識処理部１０３～字幕生成部１０９での処理がないことを検知すると（Ｓ１０７のＮｏ）、標準処理時間を、実際にかかった処理時間のデータで更新し（Ｓ１０８）、処理時間データを０秒（ずれ時間なし）に設定し（Ｓ１０９）、その処理時間データを出力する（Ｓ１０６）。

　処理時間予測部１０６は、音声認識処理部１０３～合成音声生成部１０５、又は音声認識処理部１０３～字幕生成部１０９が処理中であることを検知すると（Ｓ１０７のＹｅｓ）、それまで出力していた処理時間データを出力する。

　図５は、上述した処理により出力される処理時間データの例を示す図である。図５に示すとおり、Ａで示す時間において、発声中で標準処理時間通りに処理が完了しているため、処理時間データの値として標準処理時間が出力される。その後、発声が停止し、処理も停止するので、標準処理時間が更新（変更なし）され、処理時間データとして０が出力される。

　Ｂで示す時間では、処理時間データは標準処理時間から開始し、発声中で標準処理時間を超えた処理時間で処理が行われているため、処理時間データの値が所定時間幅ずつ増加している。その後、発声が停止し、処理も停止するので、標準処理時間が更新され（Ｃの時間で示される大きさへ更新）、処理時間データとして０が出力される。

　Ｃで示す時間において、発声中で標準処理時間以内に処理が完了しているため、処理時間データの値として、更新された標準処理時間が出力される。

　（映像記録部１１０、疑似映像生成部１０８）
　次に、映像記録部１１０、疑似映像生成部１０８の処理内容を詳細に説明する。

　映像記録部１１０には、話し手との会話における振る舞いの映像データが、その再生時間とともに記録されている。図６に、映像記録部１１０に記録されているデータの例を示す。

　疑似映像生成部１０８は、ずれ長判定部１０７にて計測した、映像データ（現時点のリアルタイムの映像データ）と合成音声データ（又は字幕映像データ）との間の再生タイミングのずれの時間（遅延時間）の長さ（＝入力・分離部１０１の処理完了から、合成音声生成部１０５又は字幕生成部１０９の処理完了までの時間の長さ）に応じて、映像記録部１１０より、例えば、そのずれの時間の長さに最も近い再生時間の映像データを取得する。

　その後、疑似映像生成部１０８は、その映像データの再生速度を、必要に応じて、再生タイミングのずれの時間の長さに合わせて変換し、疑似映像データを生成する。

　例えば、再生タイミングのずれの時間の長さが３秒で、映像記録部１１０より取得した映像データの再生時間が２．５秒であった場合は、取得した映像データを２．５／３倍＝０．８３倍速で再生した、疑似映像データを生成する。

　より具体的な処理例を図７のフローチャートを参照して説明する。この処理例では、再生タイミングのずれの時間の長さが、映像記録部１１０で記録している全ての映像の再生時間よりも長い場合において、映像記録部１１０から再生時間の長いデータ、例えば上位５件を取得し、それらからランダムに映像データの選択を繰り返す処理を行っている。

　すなわち、Ｔを再生タイミングのずれの時間の長さであるとして、図７のＳ２０１において、疑似映像生成部１０８は、映像記録部１１０から、再生時間がＴ以下の映像データの上位５件を検索（抽出）する（５件に満たない場合はＴ以下の映像データ全部）。なお、上位５件であることは一例である。

　検索結果がある場合（Ｓ２０２のＹｅｓ）、つまり、Ｔ以下の再生時間長の映像データが検索結果として得られた場合、Ｓ２０３において、疑似映像生成部１０８は、上位５件から映像データをランダムに１つ選択し、リストに追加する。

　Ｓ２０４において、疑似映像生成部１０８は、Ｔから、選択した映像データの再生時間を引いて、その結果を新たなＴの値とすることでＴを更新する。処理はＳ２０１に戻り、再び上記の処理が繰り返される。

　Ｓ２０２において、検索結果がない場合（Ｓ２０２のＮｏ）、Ｓ２０６に進み、最後に選択した映像データがあるか否かを判定する。Ｓ２０１～Ｓ２０４に処理で、１つでも映像データが得られていれば、Ｓ２０６の判定はＹｅｓになる。

　Ｓ２０６がＹｅｓになった場合、Ｓ２０７において、疑似映像生成部１０８は、最後に選択した映像データの再生速度をＴに合うように変更してリストに追加する。例えば、２つの映像データである映像データ１と映像データ２が得られたとして、映像データ２が最後の映像データであるとし、この時点のＴが２秒、映像データ２の再生時間が１秒であるとする。この場合、映像データ２の再生時間が２秒になるように映像データ２の再生速度を変換してリストに追加する。

　Ｓ２０６での判定がＮｏである場合、つまり、Ｓ２０１～Ｓ２０４で映像データが得られていない場合、Ｓ２０８に進み、Ｔは０．５秒よりも長いか否かを判定する。Ｔが０．５秒よりも長い場合（Ｓ２０８のＹｅｓ）、疑似映像生成部１０８は、字幕表示アニメーションをリストに追加する（Ｓ２０９）。なお、字幕表示アニメーションは、予め得られた映像データの例である。

　Ｓ２０８での判定がＮｏの場合、つまり、Ｔが０．５秒以下である場合、Ｓ２１０に進み、疑似映像生成部１０８は、静止画をＴ時間再生する映像データをリストに追加する。

　Ｓ２０５において、疑似映像生成部１０８は、リストの中の映像データを連結することで疑似映像データを生成する。具体例は下記のとおりである。

　例えば、再生タイミングのずれの時間の長さが１３秒の場合、疑似映像生成部１０８は、映像記録部１１０より、再生時間の長い１０秒の映像データと、２秒の映像データと、１秒の映像データとを連結して、１３秒の疑似映像データとして生成する。

　この時の組み合わせは、１３秒以下の上位５件の映像データから１つ（この時は１０秒の映像データ）選ぶ。次に、元の再生タイミングのずれの時間から、その映像データの再生時間を引いた、３秒以下の上位５件の映像データから１つ（この時は２秒の映像データ）を選ぶ、という選択を繰り返す。選択を繰り返した結果、再生タイミングのずれの時間と、映像データの再生時間が合わない場合は、映像データの再生速度を変更する。

　再生タイミングのずれの時間が短すぎて、該当する映像データが検索できない場合において、例えば再生タイミングのずれの時間が０．５秒より長い場合には、例えば１秒未満のアニメーションを表示させる。アニメーションのパターンについては特定のものを繰り返してもよいし、ランダムに再生してもよい。再生速度をずれ時間の長さに合わせて変更してもよい。アニメーションの例として、字幕を表示する枠が開くアニメーションがある。

　再生タイミングのずれの時間が更に短い場合には、映像データから取得できる静止画をずれの時間の長さ分、再生させるようにしている。

　疑似映像生成部１０８は、最終的に、選んだ複数の映像データを、必要に応じて再生速度を変更させながら、一つの疑似映像データとして生成する。

　上述した字幕を表示する枠が開くアニメーションを受信側で表示させた場合の例を図８に示す。図８（ａ）、（ｂ）において、枠が開き、図８（ｃ）において、話し手の話した言葉が字幕として表示される。

　＜ずれ時間が正の値から０になる場合の処理＞
　発話が終了し、合成音声生成部１０５などでの処理が完了した場合、再生タイミングのずれ時間が正の値から０となる。疑似映像生成部１０８は、再生タイミングのずれ時間が正の値から０になる場合に、下記のようにして、それまでの音声と映像とのずれを解消する処理を行う。

　まず、疑似映像生成部１０８は、ずれ時間が０になった時点（合成音声生成部１０５などでの処理完了時点）からずれ時間分先（リアルタイム）までの映像・音声データに対して発話区間検出処理を行う。

　疑似映像生成部１０８は、発話区間検出処理の処理区間に発話が含まれていない場合、処理完了時点からずれ時間分までの映像・音声データをカットし、リアルタイム映像に切り替える。処理区間に発話が含まれている場合には、処理完了時点から発話開始時点までの映像・音声データをカットし、発話開始時点まで映像・音声を進める。発話開始以降は、前述した疑似映像生成処理を行う。

　処理例を図９のフローチャートを参照して説明する。図９のフローチャートの処理が所定時間間隔で繰り返し行われているとする。

　Ｓ３０１において、疑似映像生成部１０８は、前回のＴの値をＴ０に格納する。Ｓ３０２において、疑似映像生成部１０８は、現時点でのずれ時間の長さＴを取得する。Ｓ３０３において、Ｔ０＝Ｔであれば処理を終了し、Ｔ０≠ＴであればＳ３０４に進む。Ｓ３０４において、Ｔ＝０でなければ前述した疑似映像生成処理を実行する（Ｓ３０５）。

　Ｓ３０４において、Ｔ＝０である場合、Ｓ３０６に進み、疑似映像生成部１０８は、現時点からＴ０分先までの音声データの発声区間検出を行う。

　発声区間検出の結果、発声なしの場合（Ｓ３０７のＹｅｓ）、Ｓ３１１に進み、疑似映像生成部１０８は、Ｔ０分の映像・音声データをカットする。発声ありの場合（Ｓ３０７のＮｏ）、Ｓ３０８に進み、疑似映像生成部１０８は、発声区間までの映像・音声データをカットする。Ｓ３０９において、疑似映像生成部１０８は、Ｔから発話区間までの時間を引いた値でＴを更新し、疑似映像生成処理を行う（Ｓ３１０）。

　（送信側の映像記録の蓄積について）
　本実施の形態では、送信装置１００を利用する度に、映像記録部１１０にデータを蓄積することができる。図１０は、送信装置１００の中で、蓄積処理に関連する構成を示している。

　具体的には、音声認識処理部１０３において、「えーと」「あー」などの意味のない言葉や、「なるほど」「うんうん」などの相づちに関する言葉が認識された場合、その時の映像処理部１０２からの映像データを、発声時間の間だけ映像記録部１１０に記録することで、疑似映像生成部１０８で利用可能な映像データを蓄積することができる。また、この発声時間の長さが再生時間として記録される。また、図１０に示すように、処理時間データ、文字データ等も映像記録部１１０に記録してもよい。

　姿勢を正す動作などについては、順再生と逆再生とを組み合わせることで、人の一連の動きの映像データとして映像記録部１１０に蓄積することができる。

　（合成・送信部１１１）
　次に、合成・送信部１１１の処理を説明する。合成・送信部１１１は、映像データ、疑似映像データ、合成音声データ、字幕映像データを組み合わせ、切り替えながら、受信装置２００に音声と映像が組み合わさったデータを送信する。受信側では、聞き手は、モニタとスピーカなどを通して、映像、音声、字幕等を視聴する。

　コミュニケーションにおいてまず、合成・送信部１１１は、入力・分離部１０１がデータを取得してすぐ、処理時間予測部１０６、ずれ長判定部１０７、疑似映像生成部１０８を経由して、疑似映像データを受付ける。そして、その疑似映像データを優先的に送信する。

　次に、合成・送信部１１１は、音声認識処理部１０３、翻訳処理部１０４などでの処理を経由して、合成音声生成部１０５、字幕生成部１０９からの合成音声データ、字幕映像データ、及び映像処理部１０２から映像データを取得する。この時、映像データに字幕映像データをオーバーレイ合成し、併せて合成音声データを結合し、音声と映像がある映像データを合成する。そして、それまで送信していた疑似映像データに替えて、この合成した映像データを送信する。

　図１１は、上記の処理に相当する処理を示すフローチャートである。Ｓ４０１において、合成・送信部１１１は、データを取得する。取得したデータが疑似映像データである場合（Ｓ４０２のＹｅｓ）、Ｓ４０３に進み、合成・送信部１１１は、疑似映像データを送信する。

　取得したデータが疑似映像データでない場合（Ｓ４０２のＮｏ）、Ｓ４０４に進み、合成・送信部１１１は、Ｓ４０４において、取得したデータが合成音声データであるかどうかを判定する。合成音声データである場合、Ｓ４０５に進み、合成・送信部１１１は、映像データと合成音声データをタイムスタンプに従って合成する。なお、映像データは合成音声データの取得の前に取得されている。字幕映像がある場合（Ｓ４０６のＹｅｓ）には、合成・送信部１１１は、字幕映像も映像データに合成する。また、合成音声データがなくて、字幕映像データがある場合には、映像データに字幕映像が合成される。

　Ｓ４０８において、合成・送信部１１１は、合成された映像のデータを送信する。合成音声データを取得しない場合（Ｓ４０４のＮｏ）、Ｓ４０９において、合成・送信部１１１は、映像データを送信する。

　（ハードウェア構成例）
　本実施の形態における送信装置１００と受信装置２００はいずれも、専用のハードウェア回路を用いて実現してもよいし、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現することとしてもよい。なお、この「コンピュータ」は、物理マシンであってもよいし、クラウド上の仮想マシンであってもよい。仮想マシンを使用する場合、ここで説明する「ハードウェア」は仮想的なハードウェアである。

　上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

　図１２は、上記コンピュータのハードウェア構成例を示す図である。図１２のコンピュータは、それぞれバスＢＳで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。

　当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、信装置１００や受信装置２００に係る機能を実現する。インタフェース装置１００５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）等を表示する。表示装置１００６にスピーカが含まれていてもよい。

　入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。入力装置１００７にマイクが含まれていてもよい。出力装置１００８は演算結果を出力する。

　（実施の形態のまとめ、効果）
　以上、説明したとおり、本実施の形態では、話し手の発声による映像・音声データの入力の時点から、受け手における、その発声の際の映像・音声の再生開始の時点までの遅延を、受け手に意識させないために、再生開始されるまでの間、例えば受け手の画面上に以下の表示を行う。
（ａ）話し手の頷く動き、下を向いて考え込む等の、比較的長い音声と映像
（ｂ）話し手の聞く姿勢から話し始める姿勢への変化、体を揺らす等の、比較的短い映像
（ｃ）音声の書き起こしを提示する字幕枠の表示アニメーション映像
　疑似映像生成部１０８は、話し手の発声開始から受け手における再生開始までの遅延時間の長さによって、（ａ）～（ｃ）の組み合わせを変えることができる。例えば、遅延時間の長さが短い場合は、（ｃ）のみ表示する、中程度の場合は（ｂ）を表示する、長い場合は、（ａ）～（ｃ）の全てを表示する。更に長い場合には、（ａ）と（ｂ）を複数組み合わせて表示させることができる。

　また、（ａ）の頷き動作の映像データ、（ｂ）の姿勢の変化の映像データとして、話し手の動作を記録した映像データを利用することができる。また、音声認識や翻訳、合成の処理にかかる時間の予測を、学習によって高めることが可能である。

　上記のような本実施の形態に係る方式を用いることで、受け手に遅延を意識させず、合成・変換された音声や文字情報と、映像情報を同時に再生させることができ、正確に意図を伝えることができるコミュニケーションを実現することが可能となる。

　（実施の形態のまとめ）
　本明細書には、少なくとも下記の各項に記載した送信装置、コミュニケーション方法、及びプログラムが記載されている。
（第１項）
　話し手と受け手との間でコミュニケーションを行うためのコミュニケーションシステムにおいて、話し手側で使用される送信装置であって、
　前記話し手の発声から得られた音声データに対する処理を行って、当該音声データに対応する情報データを生成する処理部と、
　前記処理部の処理に起因する遅延時間の長さに対応する再生時間長を有する疑似映像データを生成する疑似映像生成部と、
　前記疑似映像データを受け手側へ送信した後に、前記話し手の発声時の映像データと前記情報データを受け手側へ送信する送信部と
　を備える送信装置。
（第２項）
　前記疑似映像生成部は、予め得られた複数の映像データから１つ又は複数の映像データを選択し、選択した１つ又は複数の映像データから前記疑似映像データを生成する
　第１項に記載の送信装置。
（第３項）
　前記予め得られた複数の映像データは、話し手の頷き動作の映像データ、話し手の姿勢の変化の映像データ、及び字幕枠のアニメーション表示の映像データを含み、前記疑似映像生成部は、前記遅延時間の長さに応じて、話し手の頷き動作の映像データ、話し手の姿勢の変化の映像データ、及び字幕枠のアニメーション表示の映像データのうちの１つの映像データを選択する、又は、これら３つのうちの２つ又は全部を選択する
　第２項に記載の送信装置。
（第４項）
　前記処理部による処理対象の音声データのタイムスタンプと、リアルタイムに得られた映像データのタイムスタンプとの差分に基づき、前記遅延時間の長さを判定する判定部
　を備える第１項ないし第３項のうちいずれか１項に記載の送信装置。
（第５項）
　前記処理部は、前記音声データから変換された文字データに対する翻訳処理を行い、得られた翻訳データに基づいて、合成音声データを生成する、又は、字幕映像データを生成する
　第１項ないし第４項のうちいずれか１項に記載の送信装置。
（第６項）
　話し手と受け手との間でコミュニケーションを行うためのコミュニケーションシステムにおいて、話し手側で使用される送信装置が実行するコミュニケーション方法であって、
　前記話し手の発声から得られた音声データに対する処理を行って、当該音声データに対応する情報データを生成する処理ステップと、
　前記処理ステップの処理に起因する遅延時間の長さに対応する再生時間長を有する疑似映像データを生成する疑似映像生成ステップと、
　前記疑似映像データを受け手側へ送信した後に、前記話し手の発声時の映像データと前記情報データを受け手側へ送信する送信ステップと
　を備えるコミュニケーション方法。
（第７項）
　コンピュータを、第１項ないし第５項のうちいずれか１項に記載の送信装置における各部として機能させるためのプログラム。

　以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１００　送信装置
１０１　入力・分離部
１０２　映像処理部
１０３　音声認識理部
１０４　翻訳処理部
１０５　合成音声生成部
１０６　処理時間予測部
１０７　ずれ長判定部
１０８　疑似映像生成部
１０９　字幕生成部
１１０　映像記録部
１１１　合成・送信部
２００　受信装置
２０１　受信部
２０２　出力部
１０００　ドライブ装置
１００１　記録媒体
１００２　補助記憶装置
１００３　メモリ装置
１００４　ＣＰＵ
１００５　インタフェース装置
１００６　表示装置
１００７　入力装置
１００８　出力装置

Claims

　話し手と受け手との間でコミュニケーションを行うためのコミュニケーションシステムにおいて、話し手側で使用される送信装置であって、
　前記話し手の発声から得られた音声データに対する処理を行って、当該音声データに対応する情報データを生成する処理部と、
　前記処理部の処理に起因する遅延時間の長さに対応する再生時間長を有する疑似映像データを生成する疑似映像生成部と、
　前記疑似映像データを受け手側へ送信した後に、前記話し手の発声時の映像データと前記情報データを受け手側へ送信する送信部と
　を備える送信装置。
　前記疑似映像生成部は、予め得られた複数の映像データから１つ又は複数の映像データを選択し、選択した１つ又は複数の映像データから前記疑似映像データを生成する
　請求項１に記載の送信装置。
　前記予め得られた複数の映像データは、話し手の頷き動作の映像データ、話し手の姿勢の変化の映像データ、及び字幕枠のアニメーション表示の映像データを含み、前記疑似映像生成部は、前記遅延時間の長さに応じて、話し手の頷き動作の映像データ、話し手の姿勢の変化の映像データ、及び字幕枠のアニメーション表示の映像データのうちの１つの映像データを選択する、又は、これら３つのうちの２つ又は全部を選択する
　請求項２に記載の送信装置。
　前記処理部による処理対象の音声データのタイムスタンプと、リアルタイムに得られた映像データのタイムスタンプとの差分に基づき、前記遅延時間の長さを判定する判定部
　を備える請求項１ないし３のうちいずれか１項に記載の送信装置。
　前記処理部は、前記音声データから変換された文字データに対する翻訳処理を行い、得られた翻訳データに基づいて、合成音声データを生成する、又は、字幕映像データを生成する
　請求項１ないし４のうちいずれか１項に記載の送信装置。
　話し手と受け手との間でコミュニケーションを行うためのコミュニケーションシステムにおいて、話し手側で使用される送信装置が実行するコミュニケーション方法であって、
　前記話し手の発声から得られた音声データに対する処理を行って、当該音声データに対応する情報データを生成する処理ステップと、
　前記処理ステップの処理に起因する遅延時間の長さに対応する再生時間長を有する疑似映像データを生成する疑似映像生成ステップと、
　前記疑似映像データを受け手側へ送信した後に、前記話し手の発声時の映像データと前記情報データを受け手側へ送信する送信ステップと
　を備えるコミュニケーション方法。
　コンピュータを、請求項１ないし５のうちいずれか１項に記載の送信装置における各部として機能させるためのプログラム。