WO2021255831A1 - 送信装置、コミュニケーション方法、及びプログラム - Google Patents

送信装置、コミュニケーション方法、及びプログラム Download PDF

Info

Publication number
WO2021255831A1
WO2021255831A1 PCT/JP2020/023617 JP2020023617W WO2021255831A1 WO 2021255831 A1 WO2021255831 A1 WO 2021255831A1 JP 2020023617 W JP2020023617 W JP 2020023617W WO 2021255831 A1 WO2021255831 A1 WO 2021255831A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
video data
video
processing
time
Prior art date
Application number
PCT/JP2020/023617
Other languages
English (en)
French (fr)
Inventor
千尋 高山
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2020/023617 priority Critical patent/WO2021255831A1/ja
Priority to JP2022531145A priority patent/JP7279861B2/ja
Priority to US18/010,512 priority patent/US20230262283A1/en
Publication of WO2021255831A1 publication Critical patent/WO2021255831A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk
    • H04N21/4325Content retrieval operation from a local storage medium, e.g. hard-disk by playing back content from the storage medium
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/148Interfacing a video terminal to a particular transmission medium, e.g. ISDN
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Abstract

話し手と受け手との間でコミュニケーションを行うためのコミュニケーションシステムにおいて、話し手側で使用される送信装置であって、前記話し手の発声から得られた音声データに対する処理を行って、当該音声データに対応する情報データを生成する処理部と、前記処理部の処理に起因する遅延時間の長さに対応する再生時間長を有する疑似映像データを生成する疑似映像生成部と、前記疑似映像データを受け手側へ送信した後に、前記話し手の発声時の映像データと前記情報データを受け手側へ送信する送信部とを備える。

Description

送信装置、コミュニケーション方法、及びプログラム
 本発明は、遠隔で話し手と受け手との間でコミュニケーションを行うコミュニケーションシステムに関連するものである。
 コミュニケーションシステムに関する従来技術として、音声認識・翻訳機能を備えたテレビ会議システムがある(例えば非特許文献1)。このようなテレビ会議システムでは、母語が異なる人同士での遠隔地会話において、発話内容を異なる言語へ翻訳したうえで、文字又は合成音声にて話し手と受け手との間でコミュニケーションを実現することができる。
 上記のテレビ会議システムでは、音声に対して、音声認識、翻訳、音声合成などの処理を行うことでコミュニケーションを実現している。
 上記のようなテレビ会議システムにより、聴覚や視覚などの障害を持った人を交えた遠隔地コミュニケーションにおいて、音声や文字、ジェスチャーなどを組み合わせた、マルチモーダルでのコミュニケーションを実現する。
 また、代用音声(例えば、食道発声法、電気式人工喉頭など)の利用者によっては、代用音声よって発生される音声を直接相手に聞かれたくないと考え、文字によるコミュニケーションや合成音声による発話を利用することができる。
https://www.nttbiz.com/news/20190522、2020年6月9日検索
特開2019-053473号公報
 しかし、上記のテレビ会議システムなどの従来技術では、音声の処理(認識、翻訳、合成)に時間がかかるため、処理された音声の情報とリアルタイムの映像との間にずれが発生してしまうという課題がある。
 上記のずれを防いで音声と映像を同期して再生させるには、意図的に映像を遅延させ、ずれを発生させることが考えられる。しかし、意図的に映像にもずれを発生させる場合、全体として、話し手の会話開始から、受け手側での映像データの再生開始までに遅延が発生してしまう。
 コミュニケーションシステムにおける会話において、再生開始までの遅延は知覚されるシステムの反応性能を下げ、インタラクティブ性を損なう原因となり、場合によっては会話の意図が伝わらなかったり、誤解を生み出す可能性がある。
 こうした問題に対して、知覚される遅延を低減させるため、相づちの文字情報や合成音声情報を疑似的に送信するコミュニケーション装置が提案されている(特許文献1)。しかし、テレビ会議の利用においては、映像と相づちや字幕情報との間にずれが生じてしまう。
 本発明は上記の点に鑑みてなされたものであり、映像データを遅延させて送信するコミュニケーションシステムにおいて、受け手に遅延を意識させないようにするための技術を提供することを目的とする。
 開示の技術によれば、話し手と受け手との間でコミュニケーションを行うためのコミュニケーションシステムにおいて、話し手側で使用される送信装置であって、
 前記話し手の発声から得られた音声データに対する処理を行って、当該音声データに対応する情報データを生成する処理部と、
 前記処理部の処理に起因する遅延時間の長さに対応する再生時間長を有する疑似映像データを生成する疑似映像生成部と、
 前記疑似映像データを受け手側へ送信した後に、前記話し手の発声時の映像データと前記情報データを受け手側へ送信する送信部と
 を備える送信装置が提供される。
 開示の技術によれば、映像データを遅延させて送信するコミュニケーションシステムにおいて、受け手に遅延を意識させないようにするための技術が提される。
表示画面の例を示す図である。 送信装置の構成図である。 受信装置の構成図である。 処理時間予測部の動作を示すフローチャートである。 処理時間予測部の動作を説明するための図である。 映像記録部に格納されているデータの例を示す図である。 疑似映像生成部の動作を示すフローチャートである。 字幕枠表示アニメーションの例を示す図である。 疑似映像生成部の動作を示すフローチャートである。 映像蓄積に関する構成を示す図である。 合成・送信部の動作を示すフローチャートである。 装置のハードウェア構成例を示す図である。
 以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
 (実施の形態の概要)
 本実施の形態に係る技術では、話し手と受け手との間でコミュニケーションを行うためのコミュニケーションシステムにおいて、話し手側の送信装置100における音声データの処理時間の分だけ映像データを遅延させて受け手側の受信装置200に送信する。受け手側の受信装置200では、映像データの再生開始までに遅延が生じるが、その遅延している時間に、特定の音声・映像を再生させることで、受け手に遅延を意識させないで、音声、映像、文字などを使った、マルチモーダルなコミュニケーションを実現することとしている。
 図1は、受け手側の受信装置200に表示される画面のイメージを示す図である。本実施の形態では、話し手が発声を開始すると送信装置100において映像データと音声データが得られるが、音声データの処理(例えば字幕作成)により、映像データ(と字幕)の送信(受け手側では再生)に遅延時間が生じる。そこで、映像データ(と字幕)の送信の前に、遅延した映像等が再生可能になるまで、疑似映像データを受信装置200に送信し、受信装置200に疑似映像データを再生させる。
 受け手側の画面には、まず、疑似映像データによる話し手の映像が表示され、遅延時間(ずれ時間)の後に、遅延した話し手の映像と字幕等が表示される。これにより、受け手に遅延を意識させないでコミュニケーションを実現させることができる。
 具体的には、音声処理により生じる処理後のデータと、リアルタイムの映像とのずれ時間長(遅延時間の長さ)を、直近の通信記録を使って常時推計し、そのずれの大きさによって、疑似映像として、(a)頷き動作、(b)姿勢の変化、(c)字幕枠のアニメーション表示、あるいはそれらの組み合わせを、遅延した音声・映像が再生可能になるまで、代わりに再生する。
 ここで用いる(a)頷き動作、(b)姿勢の変化は、事前に登録した映像を使うこともできるし、それまでの会話で得られたデータを使うこともできる。
 以下、上記のようなコミュニケーションを実現するための送信装置100と受信装置200の構成と動作について詳細に説明する。
 (装置構成)
 図2は、本発明の実施の形態における送信側の装置である送信装置100の構成図である。図2に示すように、本実施の形態における送信装置100は、入力・分離部101、映像処理部102、音声認識理部103、翻訳処理部104、合成音声生成部105、処理時間予測部106、ずれ長判定部107、疑似映像生成部108、字幕生成部109、映像記録部110、合成・送信部111を有する。なお、「音声認識理部103、翻訳処理部104、合成音声生成部105、字幕生成部109」からなる部分を「処理部」と呼んでもよい。また、ずれ長判定部107を「判定部」と呼んでもよい。また、合成・送信部111を「送信部」と呼んでもよい。各部の動作概要は下記のとおりである。
 入力・分離部101は、カメラ及びマイク等で構成される機能部である。入力・分離部101は、話し手の振る舞いや発話(発声)を、映像データ及び音声データとして取得し、映像データと音声データとを分離し、映像データを映像処理部102に送り、音声データを音声認識処理部103と処理時間予測部106へ送る。この時、入力・分離部101は、各々のデータにタイムスタンプを付与する。
 映像処理部102は、ずれ長判定部107と合成・送信部111へ映像データを送る。音声認識処理部103は、既存の技術を使って、音声データを文字データへ変換する。
 翻訳処理部104はオプションであり、音声認識処理部103から送られた文字データから、異なる言語へ翻訳処理を行い、翻訳結果データを合成音声生成部105と字幕生成部109へ送る。
 合成音声生成部105は、翻訳処理部104より送られた翻訳結果データを使って、既存の技術で音声合成を行い、合成音声データをずれ長判定部107、合成・送信部111へ送る。
 処理時間予測部106は、入力・分離部101から得られた音声データをもとに、音声認識処理部103~合成音声生成部105又は音声認識処理部103~字幕生成部の処理完了までにかかる時間(音声データ取得から処理完了までの時間長)を予測し、ずれ長判定部107へ処理時間データを送信する。なお、この予測処理は、後述するずれ長判定部107にて出力される、過去のずれ時間の情報によって学習することができる。
 ずれ長判定部107は、処理時間予測部106からの処理時間データを初期値のずれ時間として設定し、映像処理部102からの映像データと、合成音声生成部105(又は字幕生成部109)からの音声データとのタイムスタンプの情報から、映像と音声が実際どれほどずれたのかの時間を計測し、先に決めたずれ時間を更新する。例えば、現時点(リアルタイム)の映像データのタイムスタンプと、音声合成又は字幕生成の対象となっている音声データのタイムスタンプとの差分を、再生タイミングのずれ時間(遅延時間)と判定することができる。
 ずれ時間の情報は、処理時間予測部106がずれ時間を設定してから、定期的に疑似映像生成部108へ送信する。
 疑似映像生成部108は、ずれ長判定部107からのずれ時間の情報から、映像記録部110から映像データを取得し、疑似映像データを生成して、合成・送信部111へ疑似映像データを送信する。
 字幕生成部109は、翻訳処理部104より送られた翻訳結果データを使って、字幕映像データを生成する。
 合成・送信部111は、映像データ、疑似映像データ、合成音声データ、及び字幕映像データを、後述するルールに従って合成し、伝送可能な形式(例えば、ネットワークパケット)に変換し送信する。
 図3は、本発明の実施の形態における受信側の装置である受信装置200の構成図である。図3に示すように、本実施の形態における受信装置200は、受信部201と出力部202を有する。各部の動作は下記のとおりである。
 受信部201は、送信装置100の合成・送信部111から得られたデータを出力部202に送信する。出力部202は、モニタやスピーカなどの装置を含み、受信部201から受信したデータを映像や音声として再生し、出力する。
 (処理時間予測部106)
 以下、処理時間予測部106による処理時間データ(の値)の予測の処理内容を、図4のフローチャートを参照してより詳細に説明する。なお、図4に示すフローの処理は、所定時間間隔で繰り返し行われるものである。
 S101において、処理時間予測部106は、入力・分離部101から得られた音声データから、一定の時間フレームを特定し、その期間中に話し手が発声中かどうかの判定を行う。
 例えば、一定の時間フレームとして、0.01秒(10msec)などを用いる。判定には、音声データの波形から一定レベル以上の音声があるかの情報と、映像データ中の話し手の口の開閉があるかの情報のいずれかを利用してもよいし、両方を利用してもよい。その他、既存の音声区間検出技術等を利用してもよい。例えば、「石塚健太郎, 藤本雅清, & 中谷智広. (2009). 音声区間検出技術の最近の研究動向. 日本音響学会誌, 65(10), 537-543.」に開示された技術を利用することができる。
 話し手が発声中であると判定された場合(S102のYes)、前回の処理時間データが0であれば(S103のYes)、処理時間予測部106は、処理時間データとして標準処理時間を出力する(S104、S105)。つまり、最初は、処理時間データとして標準処理時間を出力する。例えば、標準処理時間=1秒(1,000msec)などの規定値を用いることができる。
 標準処理時間について、システムで規定の時間を事前に決めてもよいし、本実施の形態に係るプログラムを実行するコンピュータの性能に基づいて規定値を変更してもよい。また、標準処理時間は、音声合成処理、翻訳処理、字幕生成処理等を行うか否かによっても、増減して設定することができる。
 引き続き話し手が発話中であると判定されている場合(S102のYes)で、前回の処理時間データが0でない場合(S103のNo)、S110において、処理時間予測部106は、音声認識処理部103~合成音声生成部105、又は音声認識処理部103~字幕生成部109での処理状況及び処理時間を取得する。
 S111において、処理時間予測部106は、音声認識処理部103~合成音声生成部105の処理時間又は音声認識処理部103~字幕生成部109の処理時間と、処理時間データとを比較し、処理時間が、出力している処理時間データの値を超える場合は、処理時間データを一定時間幅だけ増加させ更新し(S112)、更新した処理時間データを出力する(S105)。処理時間が、出力している処理時間データ以内であれば、更新せずに現状の処理時間データを出力する。
 S112における増加幅として、例えば、標準処理時間の1/5程度、0.2秒(200msec)などを設定できる。
 この時、処理時間予測部106は、音声認識処理部103、翻訳処理部104、合成音声生成部105、字幕生成部109での実際の処理状況・時間から、処理の遅延発生を把握する。
 なお、S112(処理時間を増加させ更新)が継続する場合、ずれ長判定部107と疑似映像生成部108は、処理時間予測部106より、当初受信した処理時間データよりも長い時間を継続的に受け取ることになる。
 話し手が発声中ではないと判定された場合(S102のNo)、S106において、処理時間予測部106は、音声認識処理部103~合成音声生成部105、音声認識処理部103~字幕生成部109での処理状況及び処理時間を取得する。
 処理時間予測部106は、音声認識処理部103~合成音声生成部105、又は音声認識処理部103~字幕生成部109での処理がないことを検知すると(S107のNo)、標準処理時間を、実際にかかった処理時間のデータで更新し(S108)、処理時間データを0秒(ずれ時間なし)に設定し(S109)、その処理時間データを出力する(S106)。
 処理時間予測部106は、音声認識処理部103~合成音声生成部105、又は音声認識処理部103~字幕生成部109が処理中であることを検知すると(S107のYes)、それまで出力していた処理時間データを出力する。
 図5は、上述した処理により出力される処理時間データの例を示す図である。図5に示すとおり、Aで示す時間において、発声中で標準処理時間通りに処理が完了しているため、処理時間データの値として標準処理時間が出力される。その後、発声が停止し、処理も停止するので、標準処理時間が更新(変更なし)され、処理時間データとして0が出力される。
 Bで示す時間では、処理時間データは標準処理時間から開始し、発声中で標準処理時間を超えた処理時間で処理が行われているため、処理時間データの値が所定時間幅ずつ増加している。その後、発声が停止し、処理も停止するので、標準処理時間が更新され(Cの時間で示される大きさへ更新)、処理時間データとして0が出力される。
 Cで示す時間において、発声中で標準処理時間以内に処理が完了しているため、処理時間データの値として、更新された標準処理時間が出力される。
 (映像記録部110、疑似映像生成部108)
 次に、映像記録部110、疑似映像生成部108の処理内容を詳細に説明する。
 映像記録部110には、話し手との会話における振る舞いの映像データが、その再生時間とともに記録されている。図6に、映像記録部110に記録されているデータの例を示す。
 疑似映像生成部108は、ずれ長判定部107にて計測した、映像データ(現時点のリアルタイムの映像データ)と合成音声データ(又は字幕映像データ)との間の再生タイミングのずれの時間(遅延時間)の長さ(=入力・分離部101の処理完了から、合成音声生成部105又は字幕生成部109の処理完了までの時間の長さ)に応じて、映像記録部110より、例えば、そのずれの時間の長さに最も近い再生時間の映像データを取得する。
 その後、疑似映像生成部108は、その映像データの再生速度を、必要に応じて、再生タイミングのずれの時間の長さに合わせて変換し、疑似映像データを生成する。
 例えば、再生タイミングのずれの時間の長さが3秒で、映像記録部110より取得した映像データの再生時間が2.5秒であった場合は、取得した映像データを2.5/3倍=0.83倍速で再生した、疑似映像データを生成する。
 より具体的な処理例を図7のフローチャートを参照して説明する。この処理例では、再生タイミングのずれの時間の長さが、映像記録部110で記録している全ての映像の再生時間よりも長い場合において、映像記録部110から再生時間の長いデータ、例えば上位5件を取得し、それらからランダムに映像データの選択を繰り返す処理を行っている。
 すなわち、Tを再生タイミングのずれの時間の長さであるとして、図7のS201において、疑似映像生成部108は、映像記録部110から、再生時間がT以下の映像データの上位5件を検索(抽出)する(5件に満たない場合はT以下の映像データ全部)。なお、上位5件であることは一例である。
 検索結果がある場合(S202のYes)、つまり、T以下の再生時間長の映像データが検索結果として得られた場合、S203において、疑似映像生成部108は、上位5件から映像データをランダムに1つ選択し、リストに追加する。
 S204において、疑似映像生成部108は、Tから、選択した映像データの再生時間を引いて、その結果を新たなTの値とすることでTを更新する。処理はS201に戻り、再び上記の処理が繰り返される。
 S202において、検索結果がない場合(S202のNo)、S206に進み、最後に選択した映像データがあるか否かを判定する。S201~S204に処理で、1つでも映像データが得られていれば、S206の判定はYesになる。
 S206がYesになった場合、S207において、疑似映像生成部108は、最後に選択した映像データの再生速度をTに合うように変更してリストに追加する。例えば、2つの映像データである映像データ1と映像データ2が得られたとして、映像データ2が最後の映像データであるとし、この時点のTが2秒、映像データ2の再生時間が1秒であるとする。この場合、映像データ2の再生時間が2秒になるように映像データ2の再生速度を変換してリストに追加する。
 S206での判定がNoである場合、つまり、S201~S204で映像データが得られていない場合、S208に進み、Tは0.5秒よりも長いか否かを判定する。Tが0.5秒よりも長い場合(S208のYes)、疑似映像生成部108は、字幕表示アニメーションをリストに追加する(S209)。なお、字幕表示アニメーションは、予め得られた映像データの例である。
 S208での判定がNoの場合、つまり、Tが0.5秒以下である場合、S210に進み、疑似映像生成部108は、静止画をT時間再生する映像データをリストに追加する。
 S205において、疑似映像生成部108は、リストの中の映像データを連結することで疑似映像データを生成する。具体例は下記のとおりである。
 例えば、再生タイミングのずれの時間の長さが13秒の場合、疑似映像生成部108は、映像記録部110より、再生時間の長い10秒の映像データと、2秒の映像データと、1秒の映像データとを連結して、13秒の疑似映像データとして生成する。
 この時の組み合わせは、13秒以下の上位5件の映像データから1つ(この時は10秒の映像データ)選ぶ。次に、元の再生タイミングのずれの時間から、その映像データの再生時間を引いた、3秒以下の上位5件の映像データから1つ(この時は2秒の映像データ)を選ぶ、という選択を繰り返す。選択を繰り返した結果、再生タイミングのずれの時間と、映像データの再生時間が合わない場合は、映像データの再生速度を変更する。
 再生タイミングのずれの時間が短すぎて、該当する映像データが検索できない場合において、例えば再生タイミングのずれの時間が0.5秒より長い場合には、例えば1秒未満のアニメーションを表示させる。アニメーションのパターンについては特定のものを繰り返してもよいし、ランダムに再生してもよい。再生速度をずれ時間の長さに合わせて変更してもよい。アニメーションの例として、字幕を表示する枠が開くアニメーションがある。
 再生タイミングのずれの時間が更に短い場合には、映像データから取得できる静止画をずれの時間の長さ分、再生させるようにしている。
 疑似映像生成部108は、最終的に、選んだ複数の映像データを、必要に応じて再生速度を変更させながら、一つの疑似映像データとして生成する。
 上述した字幕を表示する枠が開くアニメーションを受信側で表示させた場合の例を図8に示す。図8(a)、(b)において、枠が開き、図8(c)において、話し手の話した言葉が字幕として表示される。
 <ずれ時間が正の値から0になる場合の処理>
 発話が終了し、合成音声生成部105などでの処理が完了した場合、再生タイミングのずれ時間が正の値から0となる。疑似映像生成部108は、再生タイミングのずれ時間が正の値から0になる場合に、下記のようにして、それまでの音声と映像とのずれを解消する処理を行う。
 まず、疑似映像生成部108は、ずれ時間が0になった時点(合成音声生成部105などでの処理完了時点)からずれ時間分先(リアルタイム)までの映像・音声データに対して発話区間検出処理を行う。
 疑似映像生成部108は、発話区間検出処理の処理区間に発話が含まれていない場合、処理完了時点からずれ時間分までの映像・音声データをカットし、リアルタイム映像に切り替える。処理区間に発話が含まれている場合には、処理完了時点から発話開始時点までの映像・音声データをカットし、発話開始時点まで映像・音声を進める。発話開始以降は、前述した疑似映像生成処理を行う。
 処理例を図9のフローチャートを参照して説明する。図9のフローチャートの処理が所定時間間隔で繰り返し行われているとする。
 S301において、疑似映像生成部108は、前回のTの値をT0に格納する。S302において、疑似映像生成部108は、現時点でのずれ時間の長さTを取得する。S303において、T0=Tであれば処理を終了し、T0≠TであればS304に進む。S304において、T=0でなければ前述した疑似映像生成処理を実行する(S305)。
 S304において、T=0である場合、S306に進み、疑似映像生成部108は、現時点からT0分先までの音声データの発声区間検出を行う。
 発声区間検出の結果、発声なしの場合(S307のYes)、S311に進み、疑似映像生成部108は、T0分の映像・音声データをカットする。発声ありの場合(S307のNo)、S308に進み、疑似映像生成部108は、発声区間までの映像・音声データをカットする。S309において、疑似映像生成部108は、Tから発話区間までの時間を引いた値でTを更新し、疑似映像生成処理を行う(S310)。
 (送信側の映像記録の蓄積について)
 本実施の形態では、送信装置100を利用する度に、映像記録部110にデータを蓄積することができる。図10は、送信装置100の中で、蓄積処理に関連する構成を示している。
 具体的には、音声認識処理部103において、「えーと」「あー」などの意味のない言葉や、「なるほど」「うんうん」などの相づちに関する言葉が認識された場合、その時の映像処理部102からの映像データを、発声時間の間だけ映像記録部110に記録することで、疑似映像生成部108で利用可能な映像データを蓄積することができる。また、この発声時間の長さが再生時間として記録される。また、図10に示すように、処理時間データ、文字データ等も映像記録部110に記録してもよい。
 姿勢を正す動作などについては、順再生と逆再生とを組み合わせることで、人の一連の動きの映像データとして映像記録部110に蓄積することができる。
 (合成・送信部111)
 次に、合成・送信部111の処理を説明する。合成・送信部111は、映像データ、疑似映像データ、合成音声データ、字幕映像データを組み合わせ、切り替えながら、受信装置200に音声と映像が組み合わさったデータを送信する。受信側では、聞き手は、モニタとスピーカなどを通して、映像、音声、字幕等を視聴する。
 コミュニケーションにおいてまず、合成・送信部111は、入力・分離部101がデータを取得してすぐ、処理時間予測部106、ずれ長判定部107、疑似映像生成部108を経由して、疑似映像データを受付ける。そして、その疑似映像データを優先的に送信する。
 次に、合成・送信部111は、音声認識処理部103、翻訳処理部104などでの処理を経由して、合成音声生成部105、字幕生成部109からの合成音声データ、字幕映像データ、及び映像処理部102から映像データを取得する。この時、映像データに字幕映像データをオーバーレイ合成し、併せて合成音声データを結合し、音声と映像がある映像データを合成する。そして、それまで送信していた疑似映像データに替えて、この合成した映像データを送信する。
 図11は、上記の処理に相当する処理を示すフローチャートである。S401において、合成・送信部111は、データを取得する。取得したデータが疑似映像データである場合(S402のYes)、S403に進み、合成・送信部111は、疑似映像データを送信する。
 取得したデータが疑似映像データでない場合(S402のNo)、S404に進み、合成・送信部111は、S404において、取得したデータが合成音声データであるかどうかを判定する。合成音声データである場合、S405に進み、合成・送信部111は、映像データと合成音声データをタイムスタンプに従って合成する。なお、映像データは合成音声データの取得の前に取得されている。字幕映像がある場合(S406のYes)には、合成・送信部111は、字幕映像も映像データに合成する。また、合成音声データがなくて、字幕映像データがある場合には、映像データに字幕映像が合成される。
 S408において、合成・送信部111は、合成された映像のデータを送信する。合成音声データを取得しない場合(S404のNo)、S409において、合成・送信部111は、映像データを送信する。
 (ハードウェア構成例)
 本実施の形態における送信装置100と受信装置200はいずれも、専用のハードウェア回路を用いて実現してもよいし、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現することとしてもよい。なお、この「コンピュータ」は、物理マシンであってもよいし、クラウド上の仮想マシンであってもよい。仮想マシンを使用する場合、ここで説明する「ハードウェア」は仮想的なハードウェアである。
 上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
 図12は、上記コンピュータのハードウェア構成例を示す図である。図12のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。
 当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、信装置100や受信装置200に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。表示装置1006にスピーカが含まれていてもよい。
 入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。入力装置1007にマイクが含まれていてもよい。出力装置1008は演算結果を出力する。
 (実施の形態のまとめ、効果)
 以上、説明したとおり、本実施の形態では、話し手の発声による映像・音声データの入力の時点から、受け手における、その発声の際の映像・音声の再生開始の時点までの遅延を、受け手に意識させないために、再生開始されるまでの間、例えば受け手の画面上に以下の表示を行う。
(a)話し手の頷く動き、下を向いて考え込む等の、比較的長い音声と映像
(b)話し手の聞く姿勢から話し始める姿勢への変化、体を揺らす等の、比較的短い映像
(c)音声の書き起こしを提示する字幕枠の表示アニメーション映像
 疑似映像生成部108は、話し手の発声開始から受け手における再生開始までの遅延時間の長さによって、(a)~(c)の組み合わせを変えることができる。例えば、遅延時間の長さが短い場合は、(c)のみ表示する、中程度の場合は(b)を表示する、長い場合は、(a)~(c)の全てを表示する。更に長い場合には、(a)と(b)を複数組み合わせて表示させることができる。
 また、(a)の頷き動作の映像データ、(b)の姿勢の変化の映像データとして、話し手の動作を記録した映像データを利用することができる。また、音声認識や翻訳、合成の処理にかかる時間の予測を、学習によって高めることが可能である。
 上記のような本実施の形態に係る方式を用いることで、受け手に遅延を意識させず、合成・変換された音声や文字情報と、映像情報を同時に再生させることができ、正確に意図を伝えることができるコミュニケーションを実現することが可能となる。
 (実施の形態のまとめ)
 本明細書には、少なくとも下記の各項に記載した送信装置、コミュニケーション方法、及びプログラムが記載されている。
(第1項)
 話し手と受け手との間でコミュニケーションを行うためのコミュニケーションシステムにおいて、話し手側で使用される送信装置であって、
 前記話し手の発声から得られた音声データに対する処理を行って、当該音声データに対応する情報データを生成する処理部と、
 前記処理部の処理に起因する遅延時間の長さに対応する再生時間長を有する疑似映像データを生成する疑似映像生成部と、
 前記疑似映像データを受け手側へ送信した後に、前記話し手の発声時の映像データと前記情報データを受け手側へ送信する送信部と
 を備える送信装置。
(第2項)
 前記疑似映像生成部は、予め得られた複数の映像データから1つ又は複数の映像データを選択し、選択した1つ又は複数の映像データから前記疑似映像データを生成する
 第1項に記載の送信装置。
(第3項)
 前記予め得られた複数の映像データは、話し手の頷き動作の映像データ、話し手の姿勢の変化の映像データ、及び字幕枠のアニメーション表示の映像データを含み、前記疑似映像生成部は、前記遅延時間の長さに応じて、話し手の頷き動作の映像データ、話し手の姿勢の変化の映像データ、及び字幕枠のアニメーション表示の映像データのうちの1つの映像データを選択する、又は、これら3つのうちの2つ又は全部を選択する
 第2項に記載の送信装置。
(第4項)
 前記処理部による処理対象の音声データのタイムスタンプと、リアルタイムに得られた映像データのタイムスタンプとの差分に基づき、前記遅延時間の長さを判定する判定部
 を備える第1項ないし第3項のうちいずれか1項に記載の送信装置。
(第5項)
 前記処理部は、前記音声データから変換された文字データに対する翻訳処理を行い、得られた翻訳データに基づいて、合成音声データを生成する、又は、字幕映像データを生成する
 第1項ないし第4項のうちいずれか1項に記載の送信装置。
(第6項)
 話し手と受け手との間でコミュニケーションを行うためのコミュニケーションシステムにおいて、話し手側で使用される送信装置が実行するコミュニケーション方法であって、
 前記話し手の発声から得られた音声データに対する処理を行って、当該音声データに対応する情報データを生成する処理ステップと、
 前記処理ステップの処理に起因する遅延時間の長さに対応する再生時間長を有する疑似映像データを生成する疑似映像生成ステップと、
 前記疑似映像データを受け手側へ送信した後に、前記話し手の発声時の映像データと前記情報データを受け手側へ送信する送信ステップと
 を備えるコミュニケーション方法。
(第7項)
 コンピュータを、第1項ないし第5項のうちいずれか1項に記載の送信装置における各部として機能させるためのプログラム。
 以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100 送信装置
101 入力・分離部
102 映像処理部
103 音声認識理部
104 翻訳処理部
105 合成音声生成部
106 処理時間予測部
107 ずれ長判定部
108 疑似映像生成部
109 字幕生成部
110 映像記録部
111 合成・送信部
200 受信装置
201 受信部
202 出力部
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置

Claims (7)

  1.  話し手と受け手との間でコミュニケーションを行うためのコミュニケーションシステムにおいて、話し手側で使用される送信装置であって、
     前記話し手の発声から得られた音声データに対する処理を行って、当該音声データに対応する情報データを生成する処理部と、
     前記処理部の処理に起因する遅延時間の長さに対応する再生時間長を有する疑似映像データを生成する疑似映像生成部と、
     前記疑似映像データを受け手側へ送信した後に、前記話し手の発声時の映像データと前記情報データを受け手側へ送信する送信部と
     を備える送信装置。
  2.  前記疑似映像生成部は、予め得られた複数の映像データから1つ又は複数の映像データを選択し、選択した1つ又は複数の映像データから前記疑似映像データを生成する
     請求項1に記載の送信装置。
  3.  前記予め得られた複数の映像データは、話し手の頷き動作の映像データ、話し手の姿勢の変化の映像データ、及び字幕枠のアニメーション表示の映像データを含み、前記疑似映像生成部は、前記遅延時間の長さに応じて、話し手の頷き動作の映像データ、話し手の姿勢の変化の映像データ、及び字幕枠のアニメーション表示の映像データのうちの1つの映像データを選択する、又は、これら3つのうちの2つ又は全部を選択する
     請求項2に記載の送信装置。
  4.  前記処理部による処理対象の音声データのタイムスタンプと、リアルタイムに得られた映像データのタイムスタンプとの差分に基づき、前記遅延時間の長さを判定する判定部
     を備える請求項1ないし3のうちいずれか1項に記載の送信装置。
  5.  前記処理部は、前記音声データから変換された文字データに対する翻訳処理を行い、得られた翻訳データに基づいて、合成音声データを生成する、又は、字幕映像データを生成する
     請求項1ないし4のうちいずれか1項に記載の送信装置。
  6.  話し手と受け手との間でコミュニケーションを行うためのコミュニケーションシステムにおいて、話し手側で使用される送信装置が実行するコミュニケーション方法であって、
     前記話し手の発声から得られた音声データに対する処理を行って、当該音声データに対応する情報データを生成する処理ステップと、
     前記処理ステップの処理に起因する遅延時間の長さに対応する再生時間長を有する疑似映像データを生成する疑似映像生成ステップと、
     前記疑似映像データを受け手側へ送信した後に、前記話し手の発声時の映像データと前記情報データを受け手側へ送信する送信ステップと
     を備えるコミュニケーション方法。
  7.  コンピュータを、請求項1ないし5のうちいずれか1項に記載の送信装置における各部として機能させるためのプログラム。
PCT/JP2020/023617 2020-06-16 2020-06-16 送信装置、コミュニケーション方法、及びプログラム WO2021255831A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2020/023617 WO2021255831A1 (ja) 2020-06-16 2020-06-16 送信装置、コミュニケーション方法、及びプログラム
JP2022531145A JP7279861B2 (ja) 2020-06-16 2020-06-16 送信装置、コミュニケーション方法、及びプログラム
US18/010,512 US20230262283A1 (en) 2020-06-16 2020-06-16 Transmission apparatus, communication method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/023617 WO2021255831A1 (ja) 2020-06-16 2020-06-16 送信装置、コミュニケーション方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2021255831A1 true WO2021255831A1 (ja) 2021-12-23

Family

ID=79268662

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/023617 WO2021255831A1 (ja) 2020-06-16 2020-06-16 送信装置、コミュニケーション方法、及びプログラム

Country Status (3)

Country Link
US (1) US20230262283A1 (ja)
JP (1) JP7279861B2 (ja)
WO (1) WO2021255831A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001224002A (ja) * 2000-02-08 2001-08-17 Atr Interpreting Telecommunications Res Lab 音声・映像同期方法および音声・映像処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2008083376A (ja) * 2006-09-27 2008-04-10 Toshiba Corp 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよび端末装置
JP2012129950A (ja) * 2010-12-17 2012-07-05 Toshiba Corp 会議支援装置および会議支援方法
JP2015135420A (ja) * 2014-01-17 2015-07-27 株式会社デンソー 音声認識端末装置、音声認識システム、音声認識方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001224002A (ja) * 2000-02-08 2001-08-17 Atr Interpreting Telecommunications Res Lab 音声・映像同期方法および音声・映像処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2008083376A (ja) * 2006-09-27 2008-04-10 Toshiba Corp 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよび端末装置
JP2012129950A (ja) * 2010-12-17 2012-07-05 Toshiba Corp 会議支援装置および会議支援方法
JP2015135420A (ja) * 2014-01-17 2015-07-27 株式会社デンソー 音声認識端末装置、音声認識システム、音声認識方法

Also Published As

Publication number Publication date
JPWO2021255831A1 (ja) 2021-12-23
US20230262283A1 (en) 2023-08-17
JP7279861B2 (ja) 2023-05-23

Similar Documents

Publication Publication Date Title
CN107193841B (zh) 媒体文件加速播放、传输及存储的方法和装置
JP4344658B2 (ja) 音声合成機
US8010366B1 (en) Personal hearing suite
JP2004128614A (ja) 画像表示制御装置及び画像表示制御プログラム
JP2005064600A (ja) 情報処理装置、情報処理方法、およびプログラム
CN108093653B (zh) 语音提示方法、记录介质及语音提示系统
JP2011250100A (ja) 画像処理装置および方法、並びにプログラム
JP4725918B2 (ja) 番組画像配信システム、番組画像配信方法及びプログラム
US8553855B2 (en) Conference support apparatus and conference support method
JP2024505988A (ja) シーン説明の再生制御
JP2010140278A (ja) 音声情報可視化装置及び音声情報可視化プログラム
WO2021255831A1 (ja) 送信装置、コミュニケーション方法、及びプログラム
CN115171645A (zh) 一种配音方法、装置、电子设备以及存储介质
CN115359796A (zh) 数字人手语播报方法、装置、设备及存储介质
KR101039668B1 (ko) 텍스트데이터 기반의 얼굴 애니메이션 출력방법 및 그 시스템
JP2005062420A (ja) コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム
JP6696878B2 (ja) 音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法
JP2009130849A (ja) シーン認識装置及び映像処理装置
JP2008294722A (ja) 動画再生装置および動画再生方法
WO2018179209A1 (ja) 電子機器、音声制御方法、およびプログラム
JP5777233B1 (ja) 動画生成装置及び動画生成方法
JP4509188B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP2006048352A (ja) キャラクタ映像表示機能付き通信端末およびその制御方法
JP2006221253A (ja) 画像処理装置および画像処理プログラム
JP2000358202A (ja) 映像音声記録再生装置および同装置の副音声データ生成記録方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20941352

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022531145

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20941352

Country of ref document: EP

Kind code of ref document: A1