WO2023106350A1

WO2023106350A1 - 記録媒体、遠隔会議実行方法、及び遠隔会議実行装置

Info

Publication number: WO2023106350A1
Application number: PCT/JP2022/045187
Authority: WO
Inventors: 秀治古明地; 晃後藤; 裕子中西; 大智西井
Original assignee: 日本電気株式会社
Priority date: 2021-12-10
Filing date: 2022-12-07
Publication date: 2023-06-15

Abstract

参加者の顔の画像と参加者の音声とを取得し、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出し、画像又は音声から、参加者の発話の内容及び感情を推定し、参加者の顔の一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させ、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する。

Description

記録媒体、遠隔会議実行方法、及び遠隔会議実行装置

　本発明は、記録媒体、遠隔会議実行方法、及び遠隔会議実行装置に関する。

　遠隔会議に公共の場から参加する参加者が、マスクをしたまま会議に参加することが想定される。

　特許文献１には、端末間で会話を行う通信会議システムにおいて、受信端末が、予め取得した通信相手に対応する顔画像をモニター上に静止画として表示することが記載されている。特許文献１に記載の方法では、受信端末が、顔画像の口元を、通信相手から送信される会話音の母音に応じて変形させる。

　特許文献２には、発話者検出システムが、口唇の動作から発話者を検出できない、かつ口唇が遮蔽されている外観の人物を検出できた場合に、口唇が遮蔽されている外観の人物を発話者と検出することが記載されている。

特開２０００－０２０６８３号公報特開２０２０－１５５９４４号公報

　特許文献１に記載の方法では、受信端末が通信相手の会話音の母音に応じて顔画像の口元を変形させる。したがって、受信端末は、通信相手が笑っている、または怒っているという異なる表情でも、母音が同じであれば同じ口元の顔画像をディスプレイに表示させる。仮にマスクをしたまま会議に参加する参加者のマスクをしていない顔画像を予め受信端末に取得させたとしても、特許文献１に記載の方法には、遠隔会議もマスクをしたまま会議に参加する参加者の表情を会議相手に把握させることができないという問題点がある。

　特許文献２に記載の方法では、口唇が遮蔽されている外観の人物が発話をした場合に、その人物が発話者であることを検出することができる。しかしながら、特許文献２に記載の方法では口唇が遮蔽されている人物の表情を他者に把握させることができない。

　このように、特許文献１から特許文献２に記載の方法では、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の表情を他の会議参加者に把握させることができないという問題点がある。

　本発明の目的の一例は、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の表情を他の参加者に把握させることを可能にする記録媒体、遠隔会議実行方法、及び遠隔会議実行装置を提供することにある。

　本発明の一態様において、コンピュータ読み取り可能な非一過性の記録媒体に記録された遠隔会議実行プログラムは、コンピュータに、参加者の顔の画像と参加者の音声とを取得する取得機能と、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する検出機能と、画像又は音声から、参加者の発話の内容及び感情を推定する推定機能と、参加者の顔の一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させる画像変形機能と、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する重畳機能と、を実現させる。

　また、本発明の他の態様において、遠隔会議実行方法は、参加者の顔の画像と参加者の音声とを取得し、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出し、画像又は音声から参加者の発話の内容及び感情を推定し、参加者の顔の一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させ、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する。

　また、本発明の他の態様において、遠隔会議実行装置は、参加者の顔の画像と参加者の音声とを取得する取得手段と、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する検出手段と、画像又は音声から、参加者の発話の内容及び感情を推定する推定手段と、参加者の顔の一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させる画像変形手段と、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する重畳手段と、を備える。

　本発明の記録媒体、遠隔会議実行方法、及び遠隔会議実行装置により、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の表情を他の参加者に把握させることが可能になる。

本発明における第一の実施形態の遠隔会議実行装置の構成例を示すブロック図である。本発明における第一の実施形態の遠隔会議実行装置の動作例を示すフローチャートである。本発明における第二の実施形態の遠隔会議実行システムの構成例を示すブロック図である。本発明における第二の実施形態の遠隔会議実行システムにおける動作を説明するための図である。本発明における第二の実施形態の遠隔会議実行装置により検出される遮蔽部分を説明するための模式図である。本発明における第二の実施形態の遠隔会議実行装置の部分画像記憶部に記憶される部分画像情報の一例を示す図である。本発明における第二の実施形態の遠隔会議実行装置による部分画像の変形処理を説明するための模式図である。本発明における第二の実施形態の遠隔会議実行装置による部分画像を遠隔会議において撮影された画像に重畳する処理を説明するための模式図である。本発明における第二の実施形態の遠隔会議実行システムの動作例を示すシーケンス図である。本発明における第二の実施形態の遠隔会議実行装置の動作例を示すフローチャートである。本発明における第三の実施形態の遠隔会議実行システムの構成例を示すブロック図である。本発明における第三の実施形態の遠隔会議の様子を模式的に示した図である。本発明における第三の実施形態の撮影装置によって撮影された画像を模式的に示した図である。本発明における第三の実施形態の遠隔会議実行装置の特徴量記憶部に記憶される顔画像特徴量及び音声特徴量の一例を示す図である。本発明における第三の実施形態の遠隔会議実行装置による部分画像を遠隔会議において撮影された画像に重畳する処理を説明するための模式図である。本発明における第三の実施形態の遠隔会議実行装置の動作例を示すフローチャートである。本発明における各実施形態のハードウェア構成例を示す図である。

　［第一の実施形態］
　本発明の第一の実施形態について説明する。

　図１は、本実施形態の遠隔会議実行装置１の構成例を示すブロック図である。

　本実施形態の遠隔会議実行装置１は、取得部１１、検出部１２、推定部１３、画像変形部１４、及び重畳部１５を含む。

　例えば、遠隔会議実行装置１は、コンピュータを用いて実現される。遠隔会議実行装置１の取得部１１、検出部１２、推定部１３、画像変形部１４、及び重畳部１５は、取得機能、検出機能、推定機能、画像変形機能、及び重畳機能を実現させる遠隔会議実行プログラムに従ってコンピュータに処理を実行させることにより実現される。すなわち、遠隔会議実行プログラムは、取得機能、検出機能、推定機能、画像変形機能、及び重畳機能をコンピュータに実現させる。

　取得部１１は、取得手段の一例である。取得部１１は、参加者の顔の画像と参加者の音声とを取得する。

　例えば、遠隔会議実行装置１は、参加者が用いる送信端末から音声データと画像データとを受信して、受信した音声データと画像データとを関連付けて他の参加者が用いる受信端末に送信する遠隔会議を制御するサーバーである。送信端末は、参加者の音声の入力を受けて音声に応じた音声データを生成する音声入力装置及び参加者を撮影して参加者の顔に応じた画像データを生成する撮影装置を備える。取得部１１は、送信端末から送信された画像データと音声データとを受信して、参加者の顔の画像と参加者の音声とを取得する。遠隔会議実行装置１は、受信端末であってもよい。遠隔会議実行装置１が受信端末である場合、取得部１１は、送信端末から送信された音声データと画像データとを遠隔会議を制御するサーバーを介して受信することにより、参加者の顔の画像と音声とを取得してもよい。

　あるいは、遠隔会議実行装置１は、参加者の音声の入力を受けて音声に応じた音声データを生成する音声入力装置及び参加者を撮影して参加者の顔の画像の画像データを生成する撮影装置を備える送信端末であってもよい。遠隔会議実行装置１が送信端末である場合、遠隔会議実行装置１の取得部１１には、音声入力装置から音声に応じた音声データが入力され、かつ撮影装置から参加者の顔に応じた画像データが入力される。このように取得部１１は、参加者の顔の画像と参加者の音声とを取得する。

　検出部１２は、検出手段の一例である。検出部１２は、顔の一部分が遮蔽された参加者の遮蔽部分を取得部１１によって取得された画像から検出する。例えば、遠隔会議に公共の場から参加する参加者が、マスクをしたまま会議に参加することが想定される。

　推定部１３は、推定手段の一例である。推定部１３は、取得部１１によって取得された画像又は取得部１１によって取得された音声から参加者の発話の内容及び感情を推定する。推定部１３は、参加者の画像及び参加者の音声を両方用いて参加者の発話の内容及び感情を推定してもよい。

　画像変形部１４は、画像変形手段の一例である。画像変形部１４は、参加者の顔の遮蔽された一部分の画像である部分画像を推定部１３によって推定された参加者の発話の内容及び感情に応じて変形させる。画像変形部１４には、参加者の発話の内容及び感情が推定された推定の結果が推定部１３から入力される。推定結果は、参加者の音声又は参加者の画像に基づき、参加者の発話の内容及び感情を推定した結果を表すデータである。

　重畳部１５は、重畳手段の一例である。重畳部１５は、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する。

　このように、遠隔会議実行装置１は、参加者の顔の画像と参加者の音声とを取得し、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する。遠隔会議実行装置１は、画像又は音声から、参加者の発話の内容及び感情を推定する。遠隔会議実行装置１は、参加者の顔の遮蔽された一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させ、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する。参加者の発話の内容及び感情に応じて変形させた部分画像を重畳させた重畳画像を他の参加者へ示すことを可能にするので、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の表情を他の参加者に把握させることが可能になる。

　次に、図２を参照して、本実施形態の遠隔会議実行装置１の動作例を説明する。図２は、遠隔会議実行装置１の動作例を示すフローチャートである。

　取得部１１は、参加者の顔の画像と参加者の音声とを取得する（ステップＳ１０１）。

　検出部１２は、顔の一部分が遮蔽された参加者の遮蔽部分をステップＳ１０１において取得された画像から検出する（ステップＳ１０２）。

　推定部１３は、ステップＳ１０１において取得された画像又は音声から、参加者の発話の内容及び感情を推定する（ステップＳ１０３）。

　画像変形部１４は、参加者の顔の遮蔽された一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させる（ステップＳ１０４）。画像変形部１４は、ステップＳ１０４において、ステップＳ１０３における推定の結果を用いる。

　重畳部１５は、ステップＳ１０４において変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する（ステップＳ１０５）。

　以上説明したように、遠隔会議実行装置１は、参加者の発話の内容及び感情に応じて変形させた部分画像を重畳させた重畳画像を他の参加者へ示すことを可能にする。これにより、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の表情を他の参加者に把握させることが可能になる。

　［第二の実施形態］
　次に、本発明の第二の実施の形態における遠隔会議実行装置３について具体的に説明する。

　図３は、本発明における第二の実施形態の遠隔会議実行システムの構成例を示すブロック図である。図３に示すように、遠隔会議実行システムは、送信端末２と遠隔会議実行装置３と受信端末４とを含む。第二の実施形態において、遠隔会議実行装置３は、基本的に第一の実施形態の遠隔会議実行装置１の構成と機能とを含む。また、第二の実施形態において、遠隔会議実行装置３は、参加者が用いる送信端末２から音声データと画像データとを受信して、受信した音声データと画像データとを関連付けて他の参加者が用いる受信端末４に送信する遠隔会議を制御するサーバーである。例えば、遠隔会議を制御するサーバーに遠隔会議実行装置３の機能を実現する遠隔会議実行プログラムがインストールされる。

　図４は、第二の実施形態の遠隔会議実行システムにおける動作を説明するための図である。図４に示すように、顔の一部分が遮蔽された参加者ＴＰ１の音声データと画像データとを送信端末２が送信し、受信端末４が、音声データと遠隔会議実行装置３による重畳画像の重畳画像データとを受信して画像を表示部４４に表示させる場合を説明する。

　図３を参照して、本実施形態の送信端末２の構成について詳細に説明する。送信端末２は、撮影部２１と音声入力部２２と送信部２３とを含む。送信端末２は、例えば、スマートフォン、ノートパソコン、及びデスクトップパソコンのいずれかである。図４の例では、送信端末２はノートパソコンである。

　撮影部２１は、参加者の顔を撮影可能な位置に設けられる。撮影部２１は、撮影を行い、参加者の顔に応じた画像データを送信部２３に出力する。撮影部２１は、例えば、送信端末２に内蔵されたカメラである。撮影部２１は、送信端末２に内蔵されてもよいし、有線又は無線で送信端末２に接続された送信端末２以外の他の装置であってもよい。

　音声入力部２２は、参加者の音声の入力を受け付ける。音声入力部２２は、音声に応じたデータである音声データを送信部２３に出力する。音声入力部２２は、例えば、送信端末２に内蔵されたマイクロフォンである。音声入力部２２は、送信端末２に内蔵されてもよいし、有線又は無線で送信端末２に接続された送信端末２以外の他の装置であってもよい。

　送信部２３には、撮影部２１から画像データが入力される。送信部２３には、音声入力部２２から音声データが入力される。送信部２３は、送信端末２を用いる参加者の参加者識別情報と画像データと音声データとを関連付けて遠隔会議実行装置３に送信する。参加者識別情報は、参加者の各々を識別可能な情報である。また、画像データは静止画像又は動画像を示す。参加者識別情報は、例えば、遠隔会議を制御するサーバーが送信端末２、又は参加者に割り当てたＩＤ（identifier）である。

　図３を参照して、本実施形態の遠隔会議実行装置３の構成について詳細に説明する。遠隔会議実行装置３は、取得部３１、検出部３２、推定部３３、画像変形部３４、及び重畳部３５を含む。部分画像記憶部３６と会議情報記憶部３９とについては後述する。制御情報生成部３７は少なくとも重畳部３５から入力を受ける。送信部３８は少なくとも制御情報生成部３７から入力を受ける。

　取得部３１は、参加者の顔に応じた画像データと参加者の音声に応じた音声データとを取得する。具体的には、取得部３１は、送信端末２を用いる参加者の参加者識別情報と画像データと音声データとを送信端末２から受信して、参加者の顔の画像と参加者の音声とを取得する。

　取得部３１は、取得した参加者識別情報と画像データとを関連付けて検出部３２と重畳部３５とに出力する。取得部３１は、推定部３３が発話の内容及び感情の推定に用いるデータを推定部３３に入力する。具体的に、取得部３１は、音声データ及び画像データの少なくとも一方と、取得した参加者識別情報とを関連付けて推定部３３に出力する。取得部３１は、取得した参加者の参加者識別情報と画像データと音声データとを関連付けて制御情報生成部３７に出力する。

　検出部３２には、画像データと画像データの参加者の参加者識別情報とが取得部３１から入力される。検出部３２は、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する。検出部３２は、遮蔽された一部分を示す部分情報、遮蔽部分の範囲を示す情報、及び入力された参加者識別情報を関連付けて画像変形部３４に出力する。遮蔽部分を検出できない場合、検出部３２は、遮蔽部分を検出できないことを制御情報生成部３７に通知する。

　例えば、検出部３２は、取得された画像から特徴量を算出する。検出部３２は、算出した特徴量に基づいて遮蔽部分の範囲を決定する。例えば、検出部３２は、予め記憶部（図示せず）に登録されているマスクの画像から抽出された特徴量と比べた差分が所定の閾値以内の特徴量を有するエリアを遮蔽部分の範囲として決定する。例えば、マスクの画像から抽出された特徴量は、予め部分画像記憶部３６に記憶されてもよい。あるいは、検出部３２は、画像のエッジ検出を行って遮蔽部分の範囲を決定してもよい。

　また、検出部３２は、顔の遮蔽されている部分を特定して部分情報を生成する。例えば、検出部３２は、画像から参加者の口を特定できない場合に、口を示す部分情報を生成する。

　図５は、第二の実施形態の遠隔会議実行装置３により検出される遮蔽部分を説明するための模式図である。図５には、図４に示される送信端末２を用いる参加者ＴＰ１が撮影された画像ＩＭ１から、遠隔会議実行装置３の検出部３２により検出された遮蔽部分の例が太線で図示される。図４及び図５の例では、参加者ＴＰ１はマスクを着用しているので、参加者は顔の一部分である口が遮蔽される。

　第二の実施形態では、図４及び図５の例に示されるように、口が遮蔽されている参加者の画像への処理を説明する。遠隔会議実行装置３は、フェイスカバーによって口が覆われている参加者の画像や、サングラスの着用によって目が覆われている参加者の画像を、マスクを着用した参加者の画像と同様に処理する。例えば、遠隔会議実行装置３の検出部３２は、口又は目が遮蔽された参加者の遮蔽部分を検出する。遠隔会議実行装置３は、フェイスシールドを着用した参加者の画像を、マスクを着用した参加者の画像と同様に処理する。フェイスシールドを着用している場合、フェイスシールドが透明なフィルムで構成されていても通話相手に表情を把握させることができない場合がある。例えば、フェイスシールドが光を反射するために、光の反射によって参加者の顔の一部を通話相手が視認できない場合が想定される。

　推定部３３は、取得部３１によって取得された画像又は取得部３１によって取得された音声から参加者の発話の内容及び感情を推定する。推定部３３は、推定対象の参加者の参加者識別情報、タイミング情報、感情の推定の結果を示す推定感情情報、及び発話の内容の推定の結果を示す推定発話情報を関連付けて画像変形部３４に出力する。タイミング情報は、発話の内容及び感情の推定を行った画像データ又は音声データのタイミングを示す。

　推定部３３は、感情推定部３３１と発話推定部３３２と出力部３３３とを含む。

　感情推定部３３１は、音声の解析結果、又は参加者の顔画像のうち遮蔽されていない部分の変化の解析結果に基づいて感情を推定する。感情推定部３３１は、入力された参加者識別情報、タイミング情報、及び感情の解析結果に基づき推定された感情を示す推定感情情報を関連付けて出力部３３３に出力する。推定感情情報には、感情を示す情報が少なくとも含まれる。具体的に、音声の解析、又は遮蔽されていない部分の変化の解析には、機械学習によって作成される学習済みモデルが用いられてもよい。学習済みモデルは、喜怒哀楽の様々な感情を分類できる１つ以上のモデルを含む。機械学習には、ニューラルネットワークを用いた学習エンジンが使用されてもよい。

　音声の解析によって感情を感情推定部３３１が推定する方法を説明する。感情推定部３３１は、音声データの音響解析により参加者の感情を推定する。あるいは、感情推定部３３１は、音声データの言語解析により参加者の感情を推定する。

　次に、顔画像のうち遮蔽されていない部分の変化の解析結果に基づいて感情を感情推定部３３１が推定する方法を説明する。例えば、マスクを着用している参加者の画像を解析する場合、感情推定部３３１は、送信端末２を用いる参加者の時系列の画像データの画像の変化から眼球の動きを特定する。感情推定部３３１は、特定した眼球の動きを解析して参加者の感情を推定する。なお、これらの方法以外にも、感情を推定する方法には、任意の方法を使用することが可能である。

　なお、感情推定部３３１は、感情の度合いをさらに推定してもよい。感情の度合いは、例えば、感情のレベルを示す値である。感情の度合いを推定する場合、推定感情情報には、さらに推定した感情の度合いを示す情報が含まれる。感情の度合いを示す情報が推定感情情報に含まれる場合、後述する画像変形部３４は、感情の度合いを示す情報に基づき感情の度合いに応じて部分画像を変形させる。例えば、画像変形部３４は、喜びの度合いが大きいと推定された場合、喜びの度合いが小さい場合よりも口角を上げた画像になるように部分画像を変形させる。これにより、感情毎に表情を変形させた場合よりも、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の表情を他の参加者により詳細に把握させることが可能になる。

　発話推定部３３２は、音声の解析結果に基づいて参加者の発話の内容を推定する。発話推定部３３２は、入力された参加者識別情報、タイミング情報、及び音声の解析結果に基づき推定された発話の内容を示す推定発話情報を関連付けて出力部３３３に出力する。推定発話情報には、少なくとも発話されたと推定された母音を示す情報が含まれる。推定発話情報には、発話されたと推定された子音を示す情報が含まれてもよい。なお、この方法以外にも、発話の内容を推定する方法には、任意の方法を使用することが可能である。

　例えば、音声の解析には、機械学習によって作成される学習済みモデルが用いられてもよい。学習済みモデルは、音声に応じた発話を認識できる１つ以上のモデルを含む。機械学習には、ニューラルネットワークを用いた学習エンジンが使用されてもよい。

　出力部３３３には、推定対象の参加者の参加者識別情報、タイミング情報、及び推定感情情報が感情推定部３３１から入力される。出力部３３３には、推定対象の参加者の参加者識別情報、タイミング情報、及び推定発話情報が発話推定部３３２から入力される。出力部３３３は、推定対象の参加者の参加者識別情報、タイミング情報、推定感情情報、及び推定発話情報を関連付けて画像変形部３４に出力する。

　画像変形部３４には、遮蔽された一部分を示す部分情報、遮蔽部分の範囲を示す情報、及び顔の一部が遮蔽された参加者の参加者識別情報が検出部３２から入力される。また、画像変形部３４には、推定対象の参加者の参加者識別情報、タイミング情報、推定感情情報、及び推定発話情報が推定部３３から入力される。

　画像変形部３４は、顔の一部が遮蔽された参加者の参加者識別情報と遮蔽された一部分を示す部分情報とに基づき参加者の顔の遮蔽された一部分の画像である部分画像を部分画像記憶部３６から読み出す。

　部分画像記憶部３６には、部分画像情報が予め記憶される。部分画像情報には、会議に参加する参加者の参加者識別情報と、顔の一部分を示す部分情報と、部分画像のデータである部分画像データとが含まれる。

　図６は、遠隔会議実行装置３の部分画像記憶部３６に記憶される部分画像情報の一例を示す図である。図６の例では、参加者識別情報が「ＩＤ１」である参加者の「部分画像データＰＩＭＤ１」と「部分画像データＰＩＭＤ２」とが部分画像記憶部３６に記憶される。「部分画像データＰＩＭＤ１」は、部分情報に示されるように参加者の「口」の部分画像の画像データである。「部分画像データＰＩＭＤ２」は、部分情報に示されるように参加者の「目」の部分画像の画像データである。また、図６の例では、参加者識別情報が「ＩＤ２」である参加者の「部分画像データＰＩＭＤ３」が部分画像記憶部３６に記憶される。「部分画像データＰＩＭＤ３」は、部分情報に示されるように参加者の「口」の部分画像の画像データである。

　具体的には、画像変形部３４は、入力された遮蔽された一部分を示す部分情報と入力された参加者識別情報とに関連付けられて部分画像記憶部３６に記憶されている部分画像を部分画像記憶部３６から読み出す。画像変形部３４は、部分画像記憶部３６から読み出した部分画像を次のように変形させる。画像変形部３４は、推定部３３による感情の推定の結果を示す推定感情情報、及び発話の内容の推定の結果を示す推定発話情報に基づいて部分画像を変形させる。画像変形部３４は、タイミング情報、変形させた部分画像の部分画像データ、遮蔽部分の範囲を示す情報、及び顔の一部が遮蔽された参加者の参加者識別情報を関連付けて重畳部３５に出力する。

　図７を参照して画像変形部３４の部分画像の変形処理を具体的に説明する。

　図７は、第二の実施形態の遠隔会議実行装置３による部分画像の変形処理を説明するための模式図である。画像変形部３４に入力された参加者識別情報により「ＩＤ１」が示され、かつ遮蔽された一部分を示す部分情報により「口」が示されたとする。図６に示される部分画像情報が部分画像記憶部３６に記憶された場合、画像変形部３４は、次の処理を行う。画像変形部３４は、「ＩＤ１」を示す参加者識別情報と「口」を示す部分情報とに関連付けられた「部分画像データＰＩＭＤ１」を読み出す（図６に示される１行目かつ３列目の部分画像データ）。図７の左側に示されるように、部分画像データＰＩＭＤ１に示される部分画像ＰＩＭ１は、参加者識別情報が「ＩＤ１」である参加者の口の画像である。推定部３３から入力された推定感情情報が「喜び」を示し、かつ推定発話情報が「い」を示した場合、画像変形部３４は、次のように変形処理を行う。画像変形部３４は、部分画像データＰＩＭＤ１の部分画像ＰＩＭ１を参加者の感情（本例では、「喜び」）及び発話の内容（本例では、「い」）に応じて変形させた部分画像ＰＩＭ１´（図７の例では右側の図）を作成する。

　なお、部分画像記憶部３６には、参加者の部分画像が感情毎に予め記憶されていてもよい。あるいは、部分画像記憶部３６には、参加者の部分画像が発話毎に予め記憶されていてもよい。画像変形部３４は、推定された感情又は発話に関連づけられて部分画像記憶部３６に記憶されている部分画像を読み出して、読みだした部分画像を発話の内容及び感情に応じて変形させてもよい。

　なお、推定発話情報が発話が無いことを示す場合、画像変形部３４は、推定部３３による感情の推定の結果を示す推定感情情報、及び発話の内容の推定の結果を示す推定発話情報に基づいて部分画像を変形させる。すなわち、参加者ＴＰ１が発言していない場合、画像変形部３４は、参加者ＴＰ１の発言していない場合の推定された感情に応じた部分画像になるように部分画像記憶部３６から読みだした部分画像を変形させる。

　重畳部３５には、取得部３１によって取得された参加者識別情報と画像データとが入力される。重畳部３５には、タイミング情報、変形させた部分画像を示す部分画像データ、遮蔽部分の範囲を示す情報、及び顔の一部が遮蔽された参加者の参加者識別情報が画像変形部３４から入力される。重畳部３５は、画像変形部３４が変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する。具体的に、重畳部３５は、取得部３１によって取得された画像データのうち、タイミング情報に示されるタイミングの画像データを重畳に用いる。重畳部３５は、そのタイミングの画像データに示される画像中の遮蔽部分に応じた範囲に画像変形部３４が変形させた部分画像を重畳させる。例えば、重畳部３５は、画像中の遮蔽部分に応じた範囲の画像を変形させた部分画像に置き換えた重畳画像データを生成する。重畳部３５は、タイミング情報、顔の一部が遮蔽された参加者の参加者識別情報、及び重畳画像の重畳画像データを関連付けて制御情報生成部３７に出力する。

　例えば、所定の数のフレームで構成された動画像を示す画像データが取得された場合、タイミング情報に示されるタイミングの画像データは、発話の内容及び感情の推定が行われた音声のタイミングにおいて表示部に表示させるべきフレームの画像を示す。

　図８は、第二の実施形態の遠隔会議実行装置３による部分画像ＰＩＭ１´を遠隔会議において撮影された画像データが示す画像ＩＭ１に重畳する処理を説明するための模式図である。図８は、タイミング情報、変形させた部分画像ＰＩＭ１´を示す部分画像データ、及び「ＩＤ１」に示される参加者識別情報が画像変形部３４から重畳部３５に入力された場合の例である。また、図５に示される画像ＩＭ１が、参加者識別情報が「ＩＤ１」である参加者ＴＰ１が遠隔会議においてタイミング情報に示されるタイミングで撮影された画像であるとする。重畳部３５は、画像ＩＭ１の遮蔽部分の範囲を示す情報に基づき、部分画像ＰＩＭ１´を画像ＩＭ１に重畳させた重畳画像ＩＭ１´を生成する。

　制御情報生成部３７には、取得部３１によって取得された参加者の参加者識別情報と音声データと画像データが入力される。制御情報生成部３７には、タイミング情報、顔の一部が遮蔽された参加者の参加者識別情報、及び重畳画像の重畳画像データが重畳部３５から入力される。制御情報生成部３７は、発話の内容及び感情の推定が行われた音声のタイミングで、重畳画像を表示部（本例では、受信端末４の表示部４４）に表示させる出力制御情報を生成する。

　遮蔽部分を検出できないことを通知された場合、制御情報生成部３７は、次の動作を行う。制御情報生成部３７は、取得部３１によって取得された音声に応じたタイミングで、取得部３１によって取得された画像を表示部（本例では、受信端末４の表示部４４）に表示させる出力制御情報を生成する。

　制御情報生成部３７は、生成した出力制御情報を送信部３８に出力する。

　送信部３８には、出力制御情報が制御情報生成部３７から入力される。送信部３８は、遠隔会議の参加者の通信先を示す通信先情報を会議情報記憶部３９から読み出す。出力制御情報の通信先は、例えば、遠隔会議に参加する他の参加者が用いる端末である。通信先情報に示される通信先には、受信端末４が含まれる。送信部３８は、通信先情報に示される通信先へ出力制御情報を送信する。遮蔽部分が検出された場合、出力制御情報には、重畳画像の重畳画像データと音声に応じた音声データとが含まれる。遮蔽部分を検出できない場合、出力制御情報には、取得された画像データと音声に応じた音声データとが含まれる。

　会議情報記憶部３９には、遠隔会議に参加している参加者の参加者識別情報と、通信先情報とが関連付けて記憶される。通信先情報は、例えばＩＰ（Internet Protocol）アドレスである。

　図３を参照して、本実施形態の受信端末４の構成について詳細に説明する。受信端末４は、受信部４１、出力制御部４２、音声出力部４３、表示部４４を含む。受信端末４は、例えば、スマートフォン、ノートパソコン、及びデスクトップパソコンのいずれかである。図４の例では、受信端末４はデスクトップパソコンである。図４には、送信端末２を用いる参加者ＴＰ１が撮影されて部分画像が重畳された画像が、受信端末４の表示部４４に表示される例が示されている。

　受信部４１は、出力制御情報を遠隔会議実行装置３から受信する。受信部４１は、出力制御情報を出力制御部４２に出力する。

　出力制御部４２は、出力制御情報に基づき音声出力部４３と表示部４４とを制御する。出力制御部４２は、出力制御情報に基づき音声データに応じた音声を音声出力部４３に出力させる。出力制御部４２は、音声出力部４３から出力される音声に応じたタイミングで画像が表示されるように、出力制御情報に基づき画像を表示部４４に表示させる。

　音声出力部４３は、出力制御部４２の制御を受けて音声を出力する。音声出力部４３は、例えば、受信端末４に内蔵されたスピーカーである。

　表示部４４は、出力制御部４２の制御を受けて画像を表示する。表示部４４は、例えば、受信端末４に内蔵された、あるいは受信端末４に接続されたディスプレイである。図４に示されるように、表示部４４には、送信端末２を用いる参加者ＴＰ１の発話の内容及び感情に応じて変形させた部分画像が重畳された重畳画像が表示される。

　このように、遠隔会議実行装置３は、参加者の顔の画像と参加者の音声とを取得し、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する。遠隔会議実行装置３は、画像又は音声から、参加者の発話の内容及び感情を推定する。遠隔会議実行装置３は、参加者の顔の遮蔽された一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させ、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する。参加者の発話の内容及び感情に応じて変形させた部分画像を重畳させた重畳画像を他の参加者へ示すことを可能にするので、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の表情を他の参加者に把握させることが可能になる。

　次に、図９から図１０を参照して、本実施形態の遠隔会議実行システムの動作例を説明する。図９は、遠隔会議実行システムの動作例を示すシーケンス図である。図１０は、遠隔会議実行装置３の動作例を示すフローチャートである。

　まず、図９を参照して、遠隔会議実行システムの動作を説明する。遮蔽範囲が検出できない場合の遠隔会議実行装置３の動作は、図１０を参照して後述する。図９においては、遮蔽範囲が検出できた場合の遠隔会議実行システムの動作が示される。

　送信端末２の撮影部２１は、撮影を行う。音声入力部２２は、参加者の音声の入力を受け付ける（ステップＳ２０１）。撮影部２１は、参加者の顔に応じた画像データを送信部２３に出力する。音声入力部２２は、音声に応じたデータである音声データを送信部２３に出力する。

　送信部２３は、送信端末２を用いる参加者の参加者識別情報と画像データと音声データとを関連付けて遠隔会議実行装置３に送信する（ステップＳ２０２）。

　遠隔会議実行装置３の取得部３１は、送信端末２を用いる参加者の参加者識別情報と画像データと音声データとを送信端末２から受信する。このように、取得部３１は、参加者の顔の画像と参加者の音声とを取得する。

　取得部３１は、取得した参加者識別情報と画像データとを関連付けて検出部３２と重畳部３５とに出力する。取得部３１は、音声データ及び画像データの少なくとも一方と、取得した参加者識別情報とを関連付けて推定部３３に出力する。取得部３１は、取得した参加者の参加者識別情報と画像データと音声データとを関連付けて制御情報生成部３７に出力する。

　検出部３２は、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する（ステップＳ２０３）。検出部３２は、遮蔽された一部分を示す部分情報、遮蔽部分の範囲を示す情報、及び入力された参加者識別情報を関連付けて画像変形部３４に出力する。

　推定部３３は、取得部３１によって取得された画像又は取得部３１によって取得された音声から参加者の発話の内容及び感情を推定する（ステップＳ２０４）。推定部３３は、推定対象の参加者の参加者識別情報、タイミング情報、感情の推定の結果を示す推定感情情報、及び発話の内容の推定の結果を示す推定発話情報を関連付けて画像変形部３４に出力する。

　画像変形部３４は、顔の一部が遮蔽された参加者の参加者識別情報と部分情報とに基づき部分画像を部分画像記憶部３６から読み出す（ステップＳ２０５）。画像変形部３４は、部分画像記憶部３６から読み出した部分画像を参加者の発話の内容及び感情に応じて変形させる（ステップＳ２０６）。画像変形部３４は、タイミング情報、変形させた部分画像のデータである部分画像データ、遮蔽部分の範囲を示す情報、及び顔の一部が遮蔽された参加者の参加者識別情報を関連付けて重畳部３５に出力する。

　重畳部３５は、画像変形部３４が変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する（ステップＳ２０７）。重畳部３５は、タイミング情報、顔の一部が遮蔽された参加者の参加者識別情報、及び重畳画像のデータである重畳画像データを関連付けて制御情報生成部３７に出力する。

　制御情報生成部３７は、発話の内容及び感情の推定が行われた音声のタイミングで、重畳画像を表示部（本例では、受信端末４の表示部４４）に表示させる出力制御情報を生成する（ステップＳ２０８）。制御情報生成部３７は、生成した出力制御情報を送信部３８に出力する。

　送信部３８は、通信先情報に示される通信先へ出力制御情報を送信する（ステップＳ２０９）。通信先には受信端末４が含まれる。

　受信端末４の受信部４１は、出力制御情報を遠隔会議実行装置３から受信する。受信部４１は、出力制御情報を出力制御部４２に出力する。

　出力制御部４２は、出力制御情報に基づき音声出力部４３と表示部４４とを制御する（ステップＳ２１０）。ステップＳ２１０において、出力制御部４２は、出力制御情報に基づき音声データに応じた音声を音声出力部４３に出力させる。ステップＳ２１０において、出力制御部４２は、音声出力部４３から出力される音声に応じたタイミングで画像が表示されるように、出力制御情報に基づき重畳画像を表示部４４に表示させる。

　音声出力部４３は、出力制御部４２の制御を受けて音声を出力する。表示部４４は、出力制御部４２の制御を受けて画像を表示する（ステップＳ２１１）。ステップＳ２１１において表示される画像は、重畳画像である。

　次に、図１０を参照して、遠隔会議実行装置３の動作を説明する。図１０の動作は、図９のステップＳ２０３からステップＳ２０９の動作を詳述するものである。

　取得部３１は、送信端末２を用いる参加者の参加者識別情報と参加者の顔に応じた画像データと参加者の音声に応じた音声データとを送信端末２から受信する。このように、取得部３１は、参加者の顔の画像と参加者の音声とを取得する（ステップＳ３０１）。

　取得部３１は、取得した参加者識別情報と画像データとを関連付けて検出部３２と重畳部３５とに出力する。取得部３１は、音声データ及び画像データの少なくとも一方と、取得した参加者識別情報とを関連付けて推定部３３に出力する。例えば、後述するステップＳ３０３において、推定部３３が音声データを発話の内容及び感情の推定に用いる場合、取得部３１は、音声データと参加者識別情報とを関連付けて推定部３３に出力する。取得部３１は、取得した参加者の参加者識別情報と画像データと音声データとを関連付けて制御情報生成部３７に出力する。

　検出部３２は、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する（ステップＳ３０２）。遮蔽部分が検出できた場合（ステップＳ３０２、ＹＥＳ）、検出部３２は、遮蔽された一部分を示す部分情報、遮蔽部分の範囲を示す情報、及び入力された参加者識別情報を関連付けて画像変形部３４に出力する。

　遮蔽部分を検出できない場合（ステップＳ３０２、ＮＯ）、検出部３２は、遮蔽部分を検出できないことを制御情報生成部３７に通知する。また、推定部３３は、ステップＳ３０３の動作を行わない。画像変形部３４は、ステップＳ３０４からステップＳ３０５の動作を行わない。重畳部３５は、ステップＳ３０６の動作を行わない。

　推定部３３は、ステップＳ３０１において取得された画像又は取得された音声から参加者の発話の内容及び感情を推定する（ステップＳ３０３）。推定部３３は、推定対象の参加者の参加者識別情報、タイミング情報、推定感情情報、及び推定発話情報を関連付けて画像変形部３４に出力する。

　ステップＳ３０４において、推定部３３の感情推定部３３１は、音声の解析結果、又は参加者の顔画像のうち遮蔽されていない部分の変化の解析結果に基づいて感情を推定する。また、ステップＳ３０４において、発話推定部３３２は、音声の解析結果に基づいて参加者の発話の内容を推定する。推定部３３は、任意の順序で発話の内容の推定と感情の推定とを行う。例えば、感情推定部３３１による感情の推定と発話推定部３３２による発話の内容の推定とは並行して行われてもよい。また、発話推定部３３２による発話の内容の推定が行われた後に感情推定部３３１による感情の推定が行われてもよい。

　画像変形部３４は、顔の一部が遮蔽された参加者の参加者識別情報と部分情報とに基づき参加者の部分画像を部分画像記憶部３６から読み出す（ステップＳ３０４）。

　画像変形部３４は、部分画像記憶部３６から読み出した部分画像を参加者の発話の内容及び感情に応じて変形させる（ステップＳ３０５）。ステップＳ３０５において、画像変形部３４は、推定部３３による感情の推定の結果を示す推定感情情報、及び発話の内容の推定の結果を示す推定発話情報に基づいて部分画像を変形させる。画像変形部３４は、タイミング情報、変形させた部分画像の部分画像データ、遮蔽部分の範囲を示す情報、及び顔の一部が遮蔽された参加者の参加者識別情報を関連付けて重畳部３５に出力する。

　重畳部３５は、ステップＳ３０５において画像変形部３４が変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する（ステップＳ３０６）。重畳部３５は、タイミング情報、顔の一部が遮蔽された参加者の参加者識別情報、及び重畳画像の重畳画像データを関連付けて制御情報生成部３７に出力する。

　制御情報生成部３７は、出力制御情報を生成する（ステップＳ３０７）。重畳画像データが入力された場合、制御情報生成部３７は、発話の内容及び感情の推定が行われた音声のタイミングで、重畳画像を表示部（本例では、受信端末４の表示部４４）に表示させる出力制御情報を生成する。

　ステップＳ３０２において遮蔽部分を検出できないことを通知された場合、制御情報生成部３７は、ステップＳ３０８において次の動作を行う。制御情報生成部３７は、取得部３１によって取得された音声に応じたタイミングで、取得部３１によって取得された画像を表示部（本例では、受信端末４の表示部４４）に表示させる出力制御情報を生成する。制御情報生成部３７は、出力制御情報を送信部３８に出力する。

　送信部３８は、通信先情報に示される通信先へ出力制御情報を送信する（ステップＳ３０８）。

　なお、遠隔会議実行装置３は、ステップＳ３０２からステップＳ３０７の動作を任意の順序で行うことができる。例えば、遠隔会議実行装置３は、次の順序で動作してもよい。

　検出部３２がステップＳ３０２の動作を行う。次に、画像変形部３４は、ステップＳ３０４の動作を行う。そして、ステップＳ３０６の動作の代わりに、重畳部３５が、画像変形部３４が変形させる前の部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させる。画像変形部３４が、ステップＳ３０５の動作の代わりに、重畳画像を参加者の発話の内容及び感情に応じて変形させる。制御情報生成部３７がステップＳ３０７の動作を行う。なお、推定部３３は、画像変形部３４による画像の変形処理が開始される前にステップＳ３０３の動作を行う。

　以上で説明したように、本実施形態の遠隔会議実行装置３は、参加者の顔の画像と参加者の音声とを取得し、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する。遠隔会議実行装置３は、画像又は音声から、参加者の発話の内容及び感情を推定する。遠隔会議実行装置３は、参加者の顔の遮蔽された一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させる。遠隔会議実行装置３は、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する。参加者の発話の内容及び感情に応じて変形させた部分画像を重畳させた重畳画像を他の参加者へ示すことを可能にするので、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の表情を他の参加者に把握させることが可能になる。

　本実施形態の遠隔会議実行装置３は、遮蔽部分を検出できない場合、取得された音声に応じたタイミングで、取得された画像を表示部に表示させる出力制御情報を生成する。参加者がマスクを着用している間は遮蔽部分が検出できるので、遠隔会議実行装置３は、重畳画像を表示部に表示させる出力制御情報を受信端末４へ送信する。参加者がマスクを外した後、遠隔会議実行装置３は遮蔽部分を検出できないので、画像が変形されていない取得された画像を表示部に表示させる出力制御情報を送信する。これにより、送信端末２を用いる参加者が遠隔会議の途中でマスクを外した場合、変形させた部分画像を遮蔽部分に応じた範囲に重畳させた重畳画像の受信端末４の表示部４４への表示を停止することができる。

　［第二の実施形態の変形例１］
　第二の実施形態の変形例１の遠隔会議実行装置は、部分画像の変形処理に機械学習を利用する。本変形例の画像変形部は、モデル生成機能を備える。学習データには、例えば、発話の内容及び感情の少なくとも一方が異なる複数の人物の顔画像、顔画像の各々が表す感情を示す情報、及び複数の顔画像に撮影された人物の各々の発話の内容を示す情報が含まれる。本変形例の画像変形部は、学習データに基づいて、発話の内容及び感情に応じて部分画像を変形する変形モデルを生成する。画像変形部は、生成した変形モデルを使用して、部分画像を推定された発話の内容及び感情に応じて変形させる。変形モデルへの入力は、部分画像データ、推定感情情報、及び推定発話情報である。変形モデルからの出力は、変形させた部分画像を示す部分画像データである。

　［第二の実施形態の変形例２］
　第二の実施形態の変形例２の遠隔会議実行装置の画像変形部は、部分画像の変形処理に加えて、取得部により取得された参加者の顔画像のうち遮蔽されていない部分も発話の内容及び感情に応じて変形させる。例えば、図４のように、参加者ＴＰ１の口がマスクによって遮蔽されている場合、本変形例の画像変形部は、取得部により取得された画像データの参加者ＴＰ１の顔画像の遮蔽されていない部分（図４の例では、目）を発話の内容及び感情に応じて変形させる。

　本変形例の重畳部は、画像変形部によって変形させた画像中の遮蔽部分に応じた範囲に、画像変形部が変形させた部分画像を重畳させた重畳画像を生成する。

　本変形例の遠隔会議実行装置の画像変形部は、参加者の顔画像の遮蔽されていない部分も発話の内容及び感情に応じて変形させる。本変形例の遠隔会議実行装置の重畳部は、参加者の顔画像の遮蔽されていない部分も変形させた重畳画像を生成する。これにより、本変形例の遠隔会議実行装置は、変形させた部分画像が表す表情と、参加者の顔画像のうち遮蔽されていない部分が表す表情とを一致させることができる。これにより、本変形例の遠隔会議実行装置は、変形させた部分画像の表情と、顔画像のうち遮蔽されていない部分の表情とを一致させることができる。このため、本変形例の遠隔会議実行装置は、不自然な表情が受信端末の表示部に表示される可能性を低減することができる。

　［第二の実施形態の変形例３］
　第二の実施形態の変形例３の遠隔会議実行装置は、送信端末である。例えば、遠隔会議実行装置３の機能を実現させる遠隔会議実行プログラムが送信端末２にインストールされることにより、送信端末が遠隔会議実行装置３の機能を備える。本変形例について、第二の実施形態の遠隔会議実行装置３と異なる点を説明する。
なお、検出部、推定部、画像変形部、重畳部、制御情報生成部の構成は、図３に示す第二の実施形態における遠隔会議実行装置３の構成と同様であるので、説明を省略する。

　本変形例の取得部には、音声入力部から音声データが入力され、かつ撮影部から画像データが入力される。このように、本変形例の取得部は、参加者の顔の画像と参加者の音声とを取得する。

　本変形例の部分画像記憶部に記憶される部分画像情報には、少なくとも送信端末を用いて遠隔会議に参加する参加者の部分画像情報が記憶される。

　本変形例の会議情報記憶部には、遠隔会議を制御するサーバーを示す通信先情報が記憶される。

　本変形例の送信部は、通信先情報に示される通信先であるサーバーへ出力制御情報を送信する。なお、出力制御情報は、サーバーを介して受信端末へ送信される。

　なお、遠隔会議実行装置は、受信端末であってもよい。受信端末が遠隔会議実行装置の機能を備える場合、遠隔会議を制御するサーバーを介して送信端末から送信された、送信端末を用いる参加者の参加者識別情報と画像データと音声データとを取得する。また、出力制御部が、制御情報生成部によって生成された出力制御情報を用いて音声出力部と表示部とを制御する。受信端末が遠隔会議実行装置の機能を備える場合、検出部、推定部、画像変形部、重畳部、制御情報生成部の構成は、図３に示す第二の実施形態における遠隔会議実行装置３の構成と同様である。

　［第三の実施形態］
　次に、本発明の第三の実施の形態における遠隔会議実行装置５について具体的に説明する。

　図１１は、本発明における第三の実施形態の遠隔会議実行システムの構成例を示すブロック図である。図１１に示すように、遠隔会議実行システムは、送信端末６と遠隔会議実行装置５と受信端末４とを含む。また、送信端末６は、撮影装置７と音声入力装置８とに接続される。

　第三の実施形態において、遠隔会議実行装置５は、基本的に第二の実施形態の遠隔会議実行装置３の構成と機能とを含む。第三の実施形態の遠隔会議実行装置５は、第二の実施形態の遠隔会議実行装置３と次の点で異なる。第三の実施形態の遠隔会議実行装置５は、取得部５１が取得した各参加者の画像及び音声に基づいて、複数の参加者のうち発話者を特定する点で異なる。また、検出部５２、推定部３３、画像変形部３４、及び重畳部３５は、発話者を対象に処理を実行する点で異なる。

　図１１から図１３を参照して、本実施形態の遠隔会議実行システムの構成の各々について詳細に説明する。

　図１２は、第三の実施形態の遠隔会議の様子を模式的に示した図である。図１２には、送信端末６に接続された撮影装置７によって撮影される参加者（図１２の例では、参加者ＴＰ１、参加者ＴＰ２、参加者ＴＰ３、及び参加者ＴＰ４）の様子が示される。図１２のように、ＣＯＶＩＤ－１９等の感染を避けるために遠隔会議に参加する参加者がマスクを装着して遠隔会議に参加することが想定される。

　撮影装置７は、遠隔会議に参加している複数の参加者（図１２の例では、参加者ＴＰ１～参加者ＴＰ４）を撮影可能な位置に設置される。図１２に示される例では、撮影装置７は、会議資料を表示する外部ディスプレイの上部に設置される。図１２に示される例では、撮影装置７は、送信端末６と有線で通信するが、撮影装置７は、送信端末６と無線で通信してもよい。撮影装置７は、撮影を行い、画像データを送信端末６に送信する。撮影装置７は、第二の実施形態の送信端末２の撮影部２１に対応する。

　図１３は、第三の実施形態の撮影装置７によって撮影された画像ＩＭ２を模式的に示した図である。図１３は、図１２に示される参加者ＴＰ１～参加者ＴＰ４が撮影装置７に向かって顔を向けて撮影された場合の画像の例である。撮影装置７によって撮影される参加者は、顔を撮影装置７に向けていなくてもよい。

　音声入力装置８は、遠隔会議に参加している複数の参加者（図１２の例では、参加者ＴＰ１～ＴＰ４）の音声の入力を受け付けることが可能な位置に設置される。音声入力装置８は、音声の入力を受ける。音声入力装置８は、音声に応じたデータである音声データを送信端末６に送信する。音声入力装置８は、第二の実施形態の送信端末２の音声入力部２２に対応する。

　図１１を参照して、本実施形態の送信端末６の構成について説明する。

　送信端末６は、送受信部６１を含む。図１２の例では、送信端末６はノートパソコンである。

　送受信部６１は、撮影装置７から画像データを受信する。送受信部６１は、音声入力装置８から音声データを受信する。送受信部６１は、画像データと音声データとを関連付けて遠隔会議実行装置５に送信する。

　図１１を参照して、本実施形態の遠隔会議実行装置５の構成について説明する。

　遠隔会議実行装置５は、取得部５１、検出部５２、推定部３３、画像変形部３４、及び重畳部３５を含む。発話者特定部５３は、少なくとも取得部５１から入力を受ける。会議情報記憶部３９、及び特徴量記憶部５４については、後述する。

　また、本実施形態における遠隔会議実行装置５の部分画像記憶部３６、送信部３８、及び会議情報記憶部３９の構成は、図３に示す第二の実施形態における構成の各々と同様であるので、対応する要素に図３と同じ符号を付して共通する説明を省略する。

　取得部５１は、参加者の顔の画像と参加者の音声とを取得する。取得部５１は、音声データ及び画像データを関連付けて発話者特定部５３と制御情報生成部３７とに出力する。

　発話者特定部５３は、発話者特定手段の一例である。発話者特定部５３は、取得部５１が取得した各参加者の画像及び音声に基づいて、複数の参加者のうち発話している参加者である発話者を特定する。発話者特定部５３は、発話者が撮影された画像の範囲を特定して発話者範囲情報を生成する。発話者範囲情報は、発話者が撮影された画像の範囲を示す。発話者特定部５３は、発話者範囲情報、発話者の参加者識別情報、画像データ、及び音声データを関連付けて検出部５２、推定部３３、及び重畳部３５に出力する。

　発話者を特定できない場合、発話者特定部５３は、発話者を特定できないことを制御情報生成部３７に通知する。

　発話者特定部５３が行う画像認識について詳細に説明する。

　発話者特定部５３には、音声データ及び画像データが取得部５１から入力される。発話者特定部５３は、画像データから顔画像の特徴量を抽出する。画像データの画像に複数の参加者が含まれる場合、発話者特定部５３は、画像に含まれる参加者の各々の顔画像の特徴量を抽出する。発話者特定部５３は、予め設定された任意の方法を用いて顔画像から特徴量を抽出する。発話者特定部５３は、抽出結果を示す顔画像特徴量との類似度が所定の値以上の顔画像特徴量が、特徴量記憶部５４に記憶されているか否かを照合する。

　特徴量記憶部５４には、遠隔会議に参加する参加者の参加者識別情報、遠隔会議に参加する参加者の顔画像の特徴量である顔画像特徴量、及び遠隔会議に参加する参加者の音声の特徴量である音声特徴量が、関連付けられて予め記憶される。

　図１４は、遠隔会議実行装置５の特徴量記憶部５４に記憶される顔画像特徴量及び音声特徴量の一例を示す図である。図１４の例では、参加者識別情報が「ＩＤ１」、及び「ＩＤ２」である参加者の各々に、その参加者の顔画像の特徴量である顔画像特徴量、及び音声の特徴量である音声特徴量が関連づけられて特徴量記憶部５４に記憶される。

　発話者特定部５３は、抽出結果を示す顔画像特徴量との類似度が所定の値以上の顔画像特徴量が、特徴量記憶部５４に記憶されているか否かを照合して次の動作を行う。発話者特定部５３は、抽出結果を示す顔画像特徴量との類似度が所定の値以上の顔画像特徴量に関連付けられて特徴量記憶部５４に記憶されている参加者識別情報を特定する。発話者特定部５３は、一つの画像から抽出された顔画像特徴量の各々について、参加者識別情報の特定を行う。発話者特定部５３が、顔画像特徴量を用いて参加者識別情報の特定を行うことにより、撮影装置７により撮影された複数の参加者の各々の参加者識別情報を特定することができる。また、以後、発話者特定部５３が、顔画像特徴量を用いて参加者識別情報の特定を行う処理を画像認識処理と呼ぶ。

　発話者特定部５３が行う音声認識について詳細に説明する。

　発話者特定部５３は、予め設定された任意の方法を用いて音声データに応じた音声から特徴量を抽出する。発話者特定部５３は、抽出結果を示す音声特徴量との類似度が所定の値以上の音声特徴量が、特徴量記憶部５４に記憶されているか否かを照合する。発話者特定部５３は、抽出結果を示す音声特徴量との類似度が所定の値以上の音声特徴量に関連付けられて特徴量記憶部５４に記憶されている参加者識別情報を特定する。発話者特定部５３が、音声特徴量を用いて参加者識別情報の特定を行うことにより、音声入力装置８に入力された音声を発した発話者の参加者識別情報を特定することができる。また、以後、発話者特定部５３が、音声特徴量を用いて参加者識別情報の特定を行う処理を音声認識処理と呼ぶ。

　発話者特定部５３は、画像認識処理において特定した参加者識別情報に音声認識処理において特定した参加者識別情報が含まれるか否かを判定する。画像認識処理において特定した参加者識別情報に音声認識処理において特定した参加者識別情報が含まれる場合、発話者特定部５３は発話者を特定できたと判定する。発話者を特定できたと判定した場合、発話者特定部５３は、音声認識処理において特定した参加者識別情報の参加者を発話者であると特定する。

　画像認識処理において特定した参加者識別情報に音声認識処理において特定した参加者識別情報が含まれない場合、又は、音声認識処理において参加者識別情報を特定できない場合、発話者特定部５３は発話者を特定できないと判定する。例えば、発話者を特定できない場合とは、撮影装置７の撮影可能なエリアの外にいる参加者が発話した場合が想定される。あるいは、撮影装置７に撮影された発話者が俯いていたり他方を向いていたりするために画像認識処理において発話者の参加者識別情報が特定できない場合が想定される。

　なお、発話者特定部５３は、画像から発話者を特定してもよい。例えば、遮蔽部分が目の場合、取得部５１が取得した各参加者の画像のうち、発話者に応じた画像の口の部分が動く。発話者特定部５３は、画像から参加者を特定し、参加者のうち口の部分の画像に動きが検知された参加者を発話者として特定してもよい。

　検出部５２には、発話者範囲情報、発話者の参加者識別情報、画像データ、及び音声データが発話者特定部５３から入力される。検出部５２は、発話者範囲情報に示される範囲の取得された画像から、顔の一部分が遮蔽された発話者の遮蔽部分を検出する。検出部５２は、遮蔽された一部分を示す部分情報と遮蔽部分の範囲を示す情報と発話者の参加者識別情報とを関連付けて画像変形部３４に出力する。遮蔽部分を検出できない場合、検出部５２は、遮蔽部分を検出できないことを制御情報生成部３７に通知する。

　推定部３３には、発話者範囲情報、発話者の参加者識別情報、画像データ、及び音声データが発話者特定部５３から入力される。推定部３３は、発話者範囲情報に示される範囲に応じた部分の画像、又は取得部５１によって取得された音声から発話者の発話の内容及び感情を推定する。

　推定部３３の感情推定部３３１と発話推定部３３２と出力部３３３の各々は、画像データではなく、発話者範囲情報に示される範囲に応じた部分の画像を用いる点を除いて第二の実施形態と同様である。したがって、対応する要素に図３と同じ符号を付して推定部３３の構成の説明を省略する。

　画像変形部３４の構成は、図３に示す第二の実施形態における構成と同様であるので、対応する要素に図３と同じ符号を付して説明を省略する。

　本実施形態における遠隔会議実行装置５の重畳部３５の構成は、図３に示す第二の実施形態における構成の各々と同様であるので、対応する要素に図３と同じ符号を付して共通する説明を省略する。

　重畳部３５には、発話者範囲情報、発話者の参加者識別情報、画像データ、及び音声データが入力される。重畳部３５には、タイミング情報、変形させた部分画像を示す部分画像データ、遮蔽部分の範囲を示す情報、及び顔の一部が遮蔽された発話者の参加者識別情報が画像変形部３４から入力される。

　重畳部３５は、画像変形部３４が変形させた部分画像を発話者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する。重畳部３５は、タイミング情報、発話者の参加者識別情報、及び重畳画像の重畳画像データを関連付けて制御情報生成部３７に出力する。

　図１５は、第三の実施形態の遠隔会議実行装置５による部分画像ＰＩＭ１´を遠隔会議において撮影された画像ＩＭ２に重畳する処理を説明するための模式図である。図１５は、タイミング情報、変形させた部分画像ＰＩＭ１´の部分画像データ、及び発話者ＴＰ１を示す参加者識別情報が画像変形部３４から重畳部３５に入力された場合の例である。重畳部３５は、画像ＩＭ２の発話者ＴＰ１の遮蔽部分の範囲を示す情報に基づき、部分画像ＰＩＭ１´を画像ＩＭ２に重畳させた重畳画像ＩＭ２´を生成する。

　制御情報生成部３７は、発話者を特定できないこと、又は遮蔽部分を検出できないことを通知された場合、次の処理を行う。制御情報生成部３７は、取得部５１によって取得された音声に応じたタイミングで、取得部５１によって取得された画像を表示部（本例では、受信端末４の表示部４４）に表示させる出力制御情報を生成する。発話者が特定でき、かつ遮蔽部分が検出できた場合の本実施形態の制御情報生成部３７の処理は、遮蔽部分が検出できた場合の第二の実施形態の制御情報生成部３７が行う処理と同様であるため、説明を省略する。

　このように、検出部５２、推定部３３、画像変形部３４、及び重畳部３５は、発話者を対象に処理を実行する。

　本実施形態における受信端末４の各構成は、図３に示す第二の実施形態における構成の各々と同様であるので、対応する要素に図３と同じ符号を付して説明を省略する。

　このように、本実施形態の遠隔会議実行装置５は、参加者の顔の画像と参加者の音声とを取得し、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する。遠隔会議実行装置５は、画像又は音声から、参加者の発話の内容及び感情を推定する。遠隔会議実行装置５は、参加者の顔の遮蔽された一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させる。遠隔会議実行装置５は、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する。参加者の発話の内容及び感情に応じて変形させた部分画像を重畳させた重畳画像を他の参加者へ示すことを可能にするので、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の表情を他の参加者に把握させることが可能になる。

　次に、図１６を参照して、本実施形態の遠隔会議実行装置５の動作例を説明する。図１６は、遠隔会議実行装置５の動作例を示すフローチャートである。

　取得部５１は、参加者の顔の画像と参加者の音声とを送信端末６から受信することにより取得する（ステップＳ４０１）。

　発話者特定部５３は、取得部５１が取得した各参加者の画像及び音声に基づいて、複数の参加者のうち発話している参加者である発話者を特定する（ステップＳ４０２）。

　発話者を特定できない場合（ステップＳ４０２、ＮＯ）、発話者特定部５３は、発話者を特定できないことを制御情報生成部３７に通知する。また、検出部５２はステップＳ４０３の動作を行わない。推定部３３は、ステップＳ４０４の動作を行わない。画像変形部３４は、ステップＳ４０５及びステップＳ４０６の動作を行わない。重畳部３５は、ステップＳ４０７の動作を行わない。

　発話者を特定できた場合（ステップＳ４０２、ＹＥＳ）、発話者特定部５３は、発話者範囲情報、発話者の参加者識別情報、画像データ、及び音声データを関連付けて検出部５２、推定部３３、及び重畳部３５に出力する。

　検出部５２は、発話者範囲情報に示される範囲の画像から、顔の一部分が遮蔽された発話者の遮蔽部分を検出する（ステップＳ４０３）。

　遮蔽部分を検出できた場合（ステップＳ４０３、ＹＥＳ）、検出部５２は、遮蔽された一部分を示す部分情報と遮蔽部分の範囲を示す情報と発話者の参加者識別情報とを関連付けて画像変形部３４に出力する。

　遮蔽部分を検出できない場合（ステップＳ４０３、ＮＯ）、検出部５２は、遮蔽部分を検出できないことを制御情報生成部３７に通知する。また、推定部３３は、ステップＳ４０４の動作を行わない。画像変形部３４は、ステップＳ４０５及びステップＳ４０６の動作を行わない。重畳部３５は、ステップＳ４０７の動作を行わない。

　推定部３３は、発話者範囲情報に示される範囲に応じた部分の画像、又は取得部５１によって取得された音声から発話者の発話の内容及び感情を推定する（ステップＳ４０４）。推定部３３は、発話者の参加者識別情報、タイミング情報、感情の推定の結果を示す推定感情情報、及び発話の推定の結果を示す推定発話情報を関連付けて画像変形部３４に出力する。

　画像変形部３４は、部分情報と発話者の参加者識別情報とに基づき発話者の部分画像を部分画像記憶部３６から読み出す（ステップＳ４０５）。

　画像変形部３４は、部分画像記憶部３６から読み出した部分画像を発話者の発話の内容及び感情に応じて変形させる（ステップＳ４０６）。画像変形部３４は、タイミング情報、変形させた部分画像を示す部分画像データ、遮蔽部分の範囲を示す情報、及び発話者の参加者識別情報を関連付けて重畳部３５に出力する。

　重畳部３５は、画像変形部３４が変形させた部分画像を発話者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する（ステップＳ４０７）。重畳部３５は、タイミング情報、顔の一部が遮蔽された発話者の参加者識別情報、及び重畳画像の重畳画像データを制御情報生成部３７に出力する。

　制御情報生成部３７は、出力制御情報を生成する（ステップＳ４０８）。重畳画像データが重畳部３５から入力された場合、制御情報生成部３７は、ステップＳ４０８において次の動作を行う。重畳画像データが入力された場合、制御情報生成部３７は、発話の内容及び感情の推定が行われた音声のタイミングで、重畳画像を表示部（本例では、受信端末４の表示部４４）に表示させる出力制御情報を生成する。

　発話者を特定できない、又は遮蔽部分を検出できないことを通知された場合、制御情報生成部３７はステップＳ４０８において次の処理を行う。制御情報生成部３７は、取得部５１によって取得された音声と画像とに基づき出力制御情報を生成する。制御情報生成部３７は、出力制御情報を送信部３８に出力する。

　送信部３８は、通信先情報に示される通信先へ出力制御情報を送信する（ステップＳ４０９）。

　以上で説明したように、本実施形態の遠隔会議実行装置５は、参加者の顔の画像と参加者の音声とを取得し、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する。遠隔会議実行装置５は、画像又は音声から、参加者の発話の内容及び感情を推定する。遠隔会議実行装置５は、参加者の顔の遮蔽された一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させる。遠隔会議実行装置５は、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた部分画像を生成する。参加者の発話の内容及び感情に応じて変形した部分画像を重畳させた重畳画像を他の参加者へ示すことを可能にするので、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の感情を、他の参加者に把握させることが可能になる。

　本実施形態の遠隔会議実行装置５は、取得部５１が取得した各参加者の画像及び音声に基づいて、複数の参加者のうち発話している参加者である発話者を特定する。遠隔会議実行装置５は、参加者の部分画像が記憶された部分画像記憶部３６から特定された発話者の検出された遮蔽部分に応じた顔の部分画像を取得する。遠隔会議実行装置５は、発話者の部分画像を発話者の発話の内容及び感情に応じて変形させ、特定された発話者の遮蔽部分に応じた範囲に部分画像を重畳させる。本実施形態の遠隔会議実行装置５は、複数の参加者の口が遮蔽されている場合でも発話者を特定することができる。これにより、遠隔会議の受信端末４を用いる参加者は、顔の一部分が遮蔽されたの複数の参加者の画像が表示された場合、発話者を容易に把握することができる。また、遠隔会議の受信端末４を用いる参加者は、発話者の表情を容易に把握することができる。

　［ハードウェア構成例］
　上記した各実施形態に示した手順は、遠隔会議実行装置として機能する情報処理装置（コンピュータ）に、これらの装置としての機能を実現させる遠隔会議実行プログラムにより実現可能である。

　上述した本発明の各実施形態における遠隔会議実行装置（１，３，５）の各々を、一つの情報処理装置（コンピュータ）を用いて実現するハードウェア資源の構成例について説明する。なお、遠隔会議実行装置は、物理的または機能的に少なくとも二つの情報処理装置を用いて実現してもよい。また、遠隔会議実行装置は、専用の装置として実現してもよい。また、遠隔会議実行装置の一部の機能のみを情報処理装置を用いて実現してもよい。

　図１７は、本発明における各実施形態の遠隔会議実行装置を実現可能な情報処理装置のハードウェア構成例を概略的に示す図である。情報処理装置９は、通信インタフェース９１、入出力インタフェース９２、演算装置９３、記憶装置９４、不揮発性記憶装置９５及びドライブ装置９６を含む。

　例えば、図１の遠隔会議実行装置１の取得部１１は、通信インタフェース９１及び演算装置９３で実現することが可能である。図１の遠隔会議実行装置１の検出部１２、推定部１３、画像変形部１４、及び重畳部１５は、演算装置９３で実現することが可能である。

　通信インタフェース９１は、各実施形態の遠隔会議実行装置が、有線あるいは／及び無線で外部装置と通信するための通信手段である。なお、遠隔会議実行装置を、少なくとも二つの情報処理装置を用いて実現する場合、それらの装置の間を通信インタフェース９１経由で相互に通信可能なように接続してもよい。

　入出力インタフェース９２は、入力デバイスの一例であるキーボードや、出力デバイスとしてのディスプレイ等のマンマシンインタフェースである。

　演算装置９３は、汎用のＣＰＵ（Central Processing Unit）やマイクロプロセッサ等の演算処理装置や複数の電気回路によって実現される。演算装置９３は、例えば、不揮発性記憶装置９５に記憶された各種プログラムを記憶装置９４に読み出し、読み出したプログラムに従って処理を実行することが可能である。

　記憶装置９４は、演算装置９３から参照可能な、ＲＡＭ（Random Access Memory）等のメモリ装置であり、プログラムや各種データ等を記憶する。記憶装置９４は、揮発性のメモリ装置であってもよい。

　不揮発性記憶装置９５は、例えば、ＲＯＭ（Read Only Memory）、フラッシュメモリ、等の、不揮発性の記憶装置であり、各種プログラムやデータ等を記憶することが可能である。

　ドライブ装置９６は、例えば、後述する記録媒体９７に対するデータの読み込みや書き込みを処理する装置である。

　記録媒体９７は、例えば、光ディスク、光磁気ディスク、半導体フラッシュメモリ等、データを記録可能な任意の記録媒体である。

　本発明の各実施形態は、例えば、図１７に例示した情報処理装置９により遠隔会議実行装置を構成してもよい。そして、本発明の各実施形態は、この遠隔会議実行装置に対して、上記各実施形態において説明した機能を実現可能なプログラムを供給することにより実現してもよい。

　この場合、遠隔会議実行装置に対して供給したプログラムを、演算装置９３が実行することによって、実施形態を実現することが可能である。また、遠隔会議実行装置のすべてではなく、一部の機能を情報処理装置９で構成することも可能である。

　さらに、上記プログラムを記録媒体９７に記録しておき、遠隔会議実行装置の出荷段階、あるいは運用段階等において、適宜上記プログラムが不揮発性記憶装置９５に格納されるように、遠隔会議実行装置を構成してもよい。なお、この場合、上記プログラムの供給方法は、出荷前の製造段階、あるいは運用段階等において、適当な治具を利用して遠隔会議実行装置の内にインストールする方法を採用してもよい。また、上記プログラムの供給方法は、インターネット等の通信回線を介して外部からダウンロードする方法等の一般的な手順を採用してもよい。

　なお、上述する各実施の形態は、本発明の好適な実施の形態であり、本発明の要旨を逸脱しない範囲内において種々変更実施が可能である。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　コンピュータに、
　参加者の顔の画像と前記参加者の音声とを取得する取得機能と、
　顔の一部分が遮蔽された前記参加者の遮蔽部分を前記画像から検出する検出機能と、
　前記画像又は前記音声から、前記参加者の発話の内容及び感情を推定する推定機能と、
　前記参加者の顔の前記一部分の画像である部分画像を前記参加者の前記発話の内容及び前記感情に応じて変形させる画像変形機能と、
　変形させた前記部分画像を前記参加者の画像中の前記遮蔽部分に応じた範囲に重畳させた重畳画像を生成する重畳機能と、
　を実現させる遠隔会議実行プログラム。

　（付記２）
　前記推定機能は、前記音声の解析結果、又は前記参加者の顔画像のうち遮蔽されていない部分の変化の解析結果に基づいて前記感情を推定し、
　前記推定機能は、前記音声の解析結果に基づいて前記発話の内容を推定し、
　前記画像変形機能は、前記推定機能による推定の結果に基づいて前記部分画像を変形させる
　付記１に記載の遠隔会議実行プログラム。

　（付記３）
　前記画像変形機能は、前記参加者の顔画像のうち遮蔽されていない部分も前記発話の内容及び前記感情に応じて変形させる
　付記１又は付記２に記載の遠隔会議実行プログラム。

　（付記４）
　前記検出機能は、口又は目が遮蔽された前記参加者の前記遮蔽部分を検出する
　付記１から付記３のいずれか１項に記載の遠隔会議実行プログラム。

　（付記５）
　前記取得機能が取得した各参加者の画像及び音声に基づいて、複数の前記参加者のうち発話している参加者である発話者を特定する発話者特定機能をさらに備え、
　前記検出機能、前記推定機能、前記画像変形機能、及び前記重畳機能は、前記発話者を対象に処理を実行する
　付記１から付記４のいずれか１項に記載の遠隔会議実行プログラム。

　（付記６）
　参加者の顔の画像と前記参加者の音声とを取得し、
　顔の一部分が遮蔽された前記参加者の遮蔽部分を前記画像から検出し、
　前記画像又は前記音声から、前記参加者の発話の内容及び感情を推定し、
　前記参加者の顔の前記一部分の画像である部分画像を前記参加者の前記発話の内容及び前記感情に応じて変形させ、
　変形させた前記部分画像を前記参加者の画像中の前記遮蔽部分に応じた範囲に重畳させた重畳画像を生成する、
　遠隔会議実行方法。

　（付記７）
　前記音声の解析結果、又は前記参加者の顔画像のうち遮蔽されていない部分の変化の解析結果に基づいて前記感情を推定し、
　前記音声の解析結果に基づいて前記発話の内容を推定し
　推定の結果に基づいて前記部分画像を変形させる
　付記６に記載の遠隔会議実行方法。

　（付記８）
　前記参加者の顔画像のうち遮蔽されていない部分も前記発話の内容及び前記感情に応じて変形させる
　付記６又は付記７に記載の遠隔会議実行方法。

　（付記９）
　口又は目が遮蔽された前記参加者の前記遮蔽部分を検出する
　付記６から付記８のいずれか１項に記載の遠隔会議実行方法。

　（付記１０）
　取得された各参加者の画像及び音声に基づいて、複数の前記参加者のうち発話している参加者である発話者を特定し、
　前記検出の処理、前記推定の処理、前記画像の変形の処理、及び前記重畳の処理は、前記発話者を対象に実行される
　付記６から付記９のいずれか１項に記載の遠隔会議実行方法。

　（付記１１）
　参加者の顔の画像と前記参加者の音声とを取得する取得手段と、
　顔の一部分が遮蔽された前記参加者の遮蔽部分を前記画像から検出する検出手段と、
　前記画像又は前記音声から、前記参加者の発話の内容及び感情を推定する推定手段と、
　前記参加者の顔の前記一部分の画像である部分画像を前記参加者の前記発話の内容及び前記感情に応じて変形させる画像変形手段と、
　変形させた前記部分画像を前記参加者の画像中の前記遮蔽部分に応じた範囲に重畳させた重畳画像を生成する重畳手段と、
　を備える遠隔会議実行装置。

　（付記１２）
　前記推定手段は、前記音声の解析結果、又は前記参加者の顔画像のうち遮蔽されていない部分の変化の解析結果に基づいて前記感情を推定し、
　前記推定手段は、前記音声の解析結果に基づいて前記発話の内容を推定し、
　前記画像変形手段は、前記推定手段による推定の結果に基づいて前記部分画像を変形させる
　付記１１に記載の遠隔会議実行装置。

　（付記１３）
　前記画像変形手段は、前記参加者の顔画像のうち遮蔽されていない部分も前記発話の内容及び前記感情に応じて変形させる
　付記１１又は付記１２に記載の遠隔会議実行装置。

　（付記１４）
　前記検出手段は、口又は目が遮蔽された前記参加者の前記遮蔽部分を検出する
　付記１１から付記１３のいずれか１項に記載の遠隔会議実行装置。

　（付記１５）
　前記取得手段が取得した各参加者の画像及び音声に基づいて、複数の前記参加者のうち発話している参加者である発話者を特定する発話者特定手段をさらに備え、
　前記検出手段、前記推定手段、前記画像変形手段、及び前記重畳手段は、前記発話者を対象に処理を実行する
　付記１１から付記１４のいずれか１項に記載の遠隔会議実行装置。

　この出願は、２０２１年１２月１０日に出願された日本出願特願２０２１－２００５９２を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１、３、５　　遠隔会議実行装置
　１１、３１、５１　　取得部
　１２、３２、５２　　検出部
　１３、３３　　推定部
　３３１　　感情推定部
　３３２　　発話推定部
　３３３　　出力部
　１４、３４　　画像変形部
　１５、３５　　重畳部
　３６　　部分画像記憶部
　３７　　制御情報生成部
　３８　　送信部
　３９　　会議情報記憶部
　５３　　発話者特定部
　５４　　特徴量記憶部
　４　　受信端末
　４１　　受信部
　４２　　出力制御部
　４３　　音声出力部
　４４　　表示部
　２、６　　送信端末
　２１　　撮影部
　２２　　音声入力部
　２３　　送信部
　６１　　送受信部
　７　　撮影装置
　８　　音声入力装置
　９　　情報処理装置
　９１　　通信インタフェース
　９２　　入出力インタフェース
　９３　　演算装置
　９４　　記憶装置
　９５　　不揮発性記憶装置
　９６　　ドライブ装置
　９７　　記録媒体

Claims

　コンピュータに、
　参加者の顔の画像と前記参加者の音声とを取得する取得機能と、
　顔の一部分が遮蔽された前記参加者の遮蔽部分を前記画像から検出する検出機能と、
　前記画像又は前記音声から、前記参加者の発話の内容及び感情を推定する推定機能と、
　前記参加者の顔の前記一部分の画像である部分画像を前記参加者の前記発話の内容及び前記感情に応じて変形させる画像変形機能と、
　変形させた前記部分画像を前記参加者の画像中の前記遮蔽部分に応じた範囲に重畳させた重畳画像を生成する重畳機能と、
　を実現させる遠隔会議実行プログラムが記録されたコンピュータ読み取り可能な非一過性の記録媒体。
　前記推定機能は、前記音声の解析結果、又は前記参加者の顔画像のうち遮蔽されていない部分の変化の解析結果に基づいて前記感情を推定し、
　前記推定機能は、前記音声の解析結果に基づいて前記発話の内容を推定し、
　前記画像変形機能は、前記推定機能による推定の結果に基づいて前記部分画像を変形させる
　請求項１に記載の遠隔会議実行プログラムが記録されたコンピュータ読み取り可能な非一過性の記録媒体。
　前記画像変形機能は、前記参加者の顔画像のうち遮蔽されていない部分も前記発話の内容及び前記感情に応じて変形させる
　請求項１又は請求項２に記載の遠隔会議実行プログラムが記録されたコンピュータ読み取り可能な非一過性の記録媒体。
　前記検出機能は、口又は目が遮蔽された前記参加者の前記遮蔽部分を検出する
　請求項１から請求項３のいずれか１項に記載の遠隔会議実行プログラムが記録されたコンピュータ読み取り可能な非一過性の記録媒体。
　前記取得機能が取得した各参加者の画像及び音声に基づいて、複数の前記参加者のうち発話している参加者である発話者を特定する発話者特定機能をさらに備え、
　前記検出機能、前記推定機能、前記画像変形機能、及び前記重畳機能は、前記発話者を対象に処理を実行する
　請求項１から請求項４のいずれか１項に記載の遠隔会議実行プログラムが記録されたコンピュータ読み取り可能な非一過性の記録媒体。
　参加者の顔の画像と前記参加者の音声とを取得し、
　顔の一部分が遮蔽された前記参加者の遮蔽部分を前記画像から検出し、
　前記画像又は前記音声から、前記参加者の発話の内容及び感情を推定し、
　前記参加者の顔の前記一部分の画像である部分画像を前記参加者の前記発話の内容及び前記感情に応じて変形させ、
　変形させた前記部分画像を前記参加者の画像中の前記遮蔽部分に応じた範囲に重畳させた重畳画像を生成する、
　遠隔会議実行方法。
　前記音声の解析結果、又は前記参加者の顔画像のうち遮蔽されていない部分の変化の解析結果に基づいて前記感情を推定し、
　前記音声の解析結果に基づいて前記発話の内容を推定し、
　推定の結果に基づいて前記部分画像を変形させる
　請求項６に記載の遠隔会議実行方法。
　前記参加者の顔画像のうち遮蔽されていない部分も前記発話の内容及び前記感情に応じて変形させる
　請求項６又は請求項７に記載の遠隔会議実行方法。
　口又は目が遮蔽された前記参加者の前記遮蔽部分を検出する
　請求項６から請求項８のいずれか１項に記載の遠隔会議実行方法。
　取得された各参加者の画像及び音声に基づいて、複数の前記参加者のうち発話している参加者である発話者を特定し、
　前記検出の処理、前記推定の処理、前記画像の変形の処理、及び前記重畳の処理は、前記発話者を対象に実行される
　請求項６から請求項９のいずれか１項に記載の遠隔会議実行方法。
　参加者の顔の画像と前記参加者の音声とを取得する取得手段と、
　顔の一部分が遮蔽された前記参加者の遮蔽部分を前記画像から検出する検出手段と、
　前記画像又は前記音声から、前記参加者の発話の内容及び感情を推定する推定手段と、
　前記参加者の顔の前記一部分の画像である部分画像を前記参加者の前記発話の内容及び前記感情に応じて変形させる画像変形手段と、
　変形させた前記部分画像を前記参加者の画像中の前記遮蔽部分に応じた範囲に重畳させた重畳画像を生成する重畳手段と、
　を備える遠隔会議実行装置。
　前記推定手段は、前記音声の解析結果、又は前記参加者の顔画像のうち遮蔽されていない部分の変化の解析結果に基づいて前記感情を推定し、
　前記推定手段は、前記音声の解析結果に基づいて前記発話の内容を推定し、
　前記画像変形手段は、前記推定手段による推定の結果に基づいて前記部分画像を変形させる
　請求項１１に記載の遠隔会議実行装置。
　前記画像変形手段は、前記参加者の顔画像のうち遮蔽されていない部分も前記発話の内容及び前記感情に応じて変形させる
　請求項１１又は請求項１２に記載の遠隔会議実行装置。
　前記検出手段は、口又は目が遮蔽された前記参加者の前記遮蔽部分を検出する
　請求項１１から請求項１３のいずれか１項に記載の遠隔会議実行装置。
　前記取得手段が取得した各参加者の画像及び音声に基づいて、複数の前記参加者のうち発話している参加者である発話者を特定する発話者特定手段をさらに備え、
　前記検出手段、前記推定手段、前記画像変形手段、及び前記重畳手段は、前記発話者を対象に処理を実行する
　請求項１１から請求項１４のいずれか１項に記載の遠隔会議実行装置。