WO2016152633A1

WO2016152633A1 - 画像処理システムおよび画像処理方法、並びにプログラム

Info

Publication number: WO2016152633A1
Application number: PCT/JP2016/058065
Authority: WO
Inventors: 理央山崎; 貴晶中川; 秀男岡本
Original assignee: ソニー株式会社
Priority date: 2015-03-26
Filing date: 2016-03-15
Publication date: 2016-09-29
Also published as: JPWO2016152633A1; EP3276951A1; US20180075590A1; JP6627861B2; US10600169B2; EP3276951A4

Abstract

　本開示は、より良好なコミュニケーションを図ることができるようにする画像処理システムおよび画像処理方法、並びにプログラムに関する。情報処理装置は、所定の被写体が撮像されている動画像から被写体を切り抜く画像処理を行い、被写体の切り抜き動画像を生成する切り抜き部と、被写体の切り抜き動画像に対して行われた操作の操作内容を取得する操作内容取得部とを備える。配信サーバは、複数の被写体の切り抜き動画像に対して、被写体ごとに個別に、操作内容に応じた画像処理を行う画像処理部と、画像処理が施された複数の被写体の切り抜き動画像を合成して、複数の被写体が配置される合成動画像を生成する合成部とを備える。本技術は、例えば、画像を利用して遠隔拠点にいる複数のユーザどうしのコミュニケーションを図るコミュニケーションシステムに適用できる。

Description

画像処理システムおよび画像処理方法、並びにプログラム

　本開示は、画像処理システムおよび画像処理方法、並びにプログラムに関し、特に、より良好なコミュニケーションを図ることができるようにした画像処理システムおよび画像処理方法、並びにプログラムに関する。

　近年、テレビ電話やテレビ会議、ユーザによる公開生放送などのように、動画像を利用したコミュニケーションシステムを提供するサービスが増加している。例えば、コミュニケーションシステムの中には、遠隔拠点にいる複数のユーザが同一の画面上に共演するというユースケースがある。

　このような共演の演出手法としては、遠隔拠点のそれぞれが持つビデオカメラで撮影した動画像を、そのまま同じ画面上に並べて配置するものが主流である。この手法では、同時に各ユーザの様子を閲覧することはできるものの、複数のユーザそれぞれの動画像が並んでいるだけなので、ユーザ達が共演して配信をしているという臨場感や一体感がなかった。

　これに対して、特許文献１には、ユーザが、視差カメラを使用して、撮影した動画像からユーザ自身だけを切り抜いて、共演の相手と同じ空間に配置する技術が提案されている。また、特許文献２には、テレビ装置において、ユーザ自身を含む仮想オブジェクトの大きさや動きを、ユーザが身振りにより操作する技術が提案されている。

特開２０１４－２３８７３１号公報特開２０００－１９７０３０号公報

　ところで、上述した特許文献１で提案されている技術では、例えば、切り抜いたユーザを配置する位置を「相手ユーザの隣」など、あらかじめ決められた箇所にしか表示することができず、表示方法に関してユーザが自由に操作することは困難であった。また、上述した特許文献２で提案されている技術では、例えば、ユーザ自身の切抜き領域がユーザの意図よりも余分に大きい場合などに対応する操作を行うことができず、ユーザ自身を適切に切り抜くことは困難であった。

　このように、従来の技術では、コミュニケーションシステムにおいて、ユーザの操作を適切に反映させることが困難な場合があり、より良好なコミュニケーションを図ることができないことがあった。

　本開示は、このような状況に鑑みてなされたものであり、より良好なコミュニケーションを図ることができるようにするものである。

　本開示の一側面の画像処理システムは、所定の被写体が撮像されている動画像から前記被写体が映されている領域を含むように生成された被写体動画像に対して、前記被写体ごとに個別に、前記被写体動画像に対して行われた操作内容に応じた画像処理を行う画像処理部と、画像処理が施された前記被写体動画像と、他の動画像とを合成して、少なくとも１つの前記被写体が配置される合成動画像を生成する合成画像生成処理部とを備える。

　本開示の一側面の画像処理方法またはプログラムは、所定の被写体が撮像されている動画像から前記被写体が映されている領域を含むように生成された被写体動画像に対して、前記被写体ごとに個別に、前記被写体動画像に対して行われた操作内容に応じた画像処理を行い、画像処理が施された前記被写体動画像と、他の動画像とを合成して、少なくとも１つの前記被写体が配置される合成動画像を生成するステップを含む。

　本開示の一側面においては、所定の被写体が撮像されている動画像から被写体が映されている領域を含むように生成された被写体動画像に対して、被写体ごとに個別に、被写体動画像に対して行われた操作内容に応じた画像処理が行われ、その画像処理が施された複数の被写体動画像と、他の動画像とが合成されて、少なくとも１つの被写体が配置される合成動画像が生成される。

　本開示の一側面によれば、より良好なコミュニケーションを図ることができることができる。

本技術を適用したコミュニケーションシステムの一実施の形態の構成例を示すブロック図である。コミュニケーションシステムにおいて配信される合成動画像について説明する図である。情報処理装置の構成例を示すブロック図である。配信サーバの構成例を示すブロック図である。ユーザ切り抜き動画像に対する自由変形の操作について説明する図である。ユーザ切り抜き動画像に対する不要領域消去の操作について説明する図である。確度情報に基づいた画像処理について説明する図である。不要領域の削除が継続して行われる処理について説明する図である。ユーザ切り抜き動画像の周囲に縁取りデザインを設定する操作について説明する図である。ユーザ切り抜き動画像に対するトリミングの操作について説明する図である。ユーザ切り抜き動画像に対して奥行き座標を指定する操作について説明する図である。奥行き座標について説明する図である。操作内容のフォーマットを示す図である。情報処理装置において行われる処理を説明するフローチャートである。配信サーバにおいて行われる処理を説明するフローチャートである。情報処理装置の変形例を示すブロック図である。ユーザ切り抜き動画像どうしのインタラクションによる表示の変化について説明する図である。事前登録された操作内容を指定時刻に反映させる処理について説明する図である。反映させる操作内容を決定する方法について説明する図である。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

　以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

　図１は、本技術を適用したコミュニケーションシステムの一実施の形態の構成例を示すブロック図である。

　図１のコミュニケーションシステム１１は、画像を利用して遠隔拠点にいる複数のユーザどうしのコミュニケーションを図るサービスを提供し、システム全体で画像処理を行うことができる。例えば、図示するように、コミュニケーションシステム１１は、インターネットなどのネットワーク１２を介して、複数台の情報処理装置１３と配信サーバ１４とが接続されて構成される。例えば、図１には、３台の情報処理装置１３－１乃至１３－３がネットワーク１２を介して接続された構成例が示されている。

　情報処理装置１３－１乃至１３－３は、例えば、通信機能を備えたカメラ機器であり、それぞれのユーザを撮像した動画像から、ユーザが写されている領域を切り抜いたユーザ切り抜き動画像を生成する。そして、情報処理装置１３－１乃至１３－３は、それぞれ生成したユーザ切り抜き動画像を、ネットワーク１２を介して配信サーバ１４に送信する。なお、情報処理装置１３の詳細な構成については、図３を参照して後述する。

　配信サーバ１４は、ネットワーク１２を介して情報処理装置１３－１乃至１３－３から送信されてくる全てのユーザ切り抜き動画像を集約し、所定の背景動画像に重畳する画像合成処理を行う。そして、配信サーバ１４は、画像合成処理により生成した合成動画像を、ネットワーク１２を介して情報処理装置１３－１乃至１３－３に配信する。なお、配信サーバ１４の詳細な構成については、図４を参照して後述する。

　例えば、図２を参照して、図１のコミュニケーションシステム１１において配信される合成動画像について説明する。

　図２の左側には、情報処理装置１３－１乃至１３－３において画像処理の対象となる動画像Ａ１乃至Ａ３が示されており、それぞれの右側に、動画像Ａ１乃至Ａ３に写されているユーザを切り抜いたユーザ切り抜き動画像Ｂ１乃至Ｂ３が示されている。このようなユーザ切り抜き動画像Ｂ１乃至Ｂ３が配信サーバ１４に送信され、図２の右側に示すように、所定の背景動画像にユーザ切り抜き動画像Ｂ１乃至Ｂ３を合成した合成動画像Ｃが生成されて、配信サーバ１４から配信される。

　なお、情報処理装置１３－１乃至１３－３は、それぞれ同様に構成されており、情報処理装置１３－１乃至１３－３を区別する必要がない場合、以下、単に情報処理装置１３と称する。また、動画像Ａ１乃至Ａ３およびユーザ切り抜き動画像Ｂ１乃至Ｂ３についても、同様に、動画像Ａおよびユーザ切り抜き動画像Ｂと称する。

　次に、図３は、図１の情報処理装置１３の構成例を示すブロック図である。

　図３に示すように、情報処理装置１３は、デジタル信号処理部２１、距離測定部２２、切り抜き画像生成部２３、通信部２４、表示部２５、および操作部２６を備えて構成される。

　デジタル信号処理部２１には、例えば、図示しない撮像装置により撮像されたＲＧＢ信号による動画像Ａ（図２参照）が供給される。そして、デジタル信号処理部２１は、その動画像Ａに対して、切り抜き画像生成部２３において画像処理を行うのに必要なデジタル信号処理を施すことにより、例えば、動画像Ａを構成する１フレームごとの画像データを取得して、切り抜き画像生成部２３に供給する。

　距離測定部２２は、デジタル信号処理部２１に供給される動画像Ａに写されている被写体までの距離を測定する。例えば、距離測定部２２には、動画像Ａと同一の構図で、少なくとも２台以上の撮像装置（図示せず）により撮像された複数の動画像が供給される。そして、距離測定部２２は、それらの動画像の視差を演算することにより、動画像Ａに写されている被写体までの距離を測定する。そして、距離測定部２２は、撮像装置から被写体までの距離をピクセルごとにマッピングしたデプスマップを生成し、切り抜き画像生成部２３に供給する。

　切り抜き画像生成部２３は、デジタル信号処理部２１から供給される動画像Ａに対し、距離測定部２２から供給されるデプスマップに基づいて、切り抜きの対象となる対象物が写されている対象物領域をマスクすることで、動画像Ａから対象物を切り抜く画像処理を行う。例えば、図２に示したようにユーザが映されている場合、切り抜き画像生成部２３は、デプスマップに基づいてユーザを対象物とし、動画像Ａからユーザのみを切り抜いたユーザ切り抜き動画像Ｂ（図２参照）を生成する。そして、切り抜き画像生成部２３は、生成したユーザ切り抜き動画像Ｂを通信部２４に供給する。

　通信部２４は、切り抜き画像生成部２３から供給されるユーザ切り抜き動画像Ｂを、ネットワーク１２を介して配信サーバ１４に送信する。また、通信部２４は、操作部２６を利用したユーザによる操作が行われると、その操作内容を、ユーザ切り抜き動画像Ｂに付加して送信する。さらに、通信部２４は、配信サーバ１４から配信される合成動画像Ｃ（図２参照）を受信して表示部２５に供給する。

　表示部２５は、例えば、液晶ディスプレイや有機ＥＬ（Electro Luminescence）ディスプレイなどにより構成され、通信部２４が受信した合成動画像Ｃを表示する。また、表示部２５は、合成動画像Ｃに合成されているユーザ切り抜き動画像Ｂに対して操作部２６を利用してユーザが操作を行うのに必要な、各種の操作内容を表すグラフィカルなユーザインタフェースを表示する。

　操作部２６は、例えば、表示部２５の表面に配置されるタッチパネルにより構成され、表示部２５に表示されるユーザインタフェースをユーザがタッチすることにより入力される操作内容を取得し、通信部２４に供給する。

　以上のように構成される情報処理装置１３は、ユーザ切り抜き動画像Ｂを配信サーバ１４に送信し、配信サーバ１４から配信される合成動画像Ｃを受信して表示することができる。また、情報処理装置１３は、ユーザによる操作が行われた場合には、ユーザ切り抜き動画像Ｂに操作内容を付加して送信し、操作内容が反映された合成動画像Ｃを受信することができる。

　次に、図４は、図１の配信サーバ１４の構成例を示すブロック図である。

　図４に示すように、配信サーバ１４は、通信部３１、ユーザ管理部３２、ユーザ個別処理部３３－１乃至３３－３、背景記録部３４、および全体画像合成部３５を備えて構成される。

　通信部３１は、ネットワーク１２を介して、情報処理装置１３の通信部２４から送信されてくるユーザ切り抜き動画像Ｂを受信して、ユーザ管理部３２に供給する。また、通信部３１は、全体画像合成部３５から供給される合成動画像Ｃを、ネットワーク１２を介して情報処理装置１３に送信する。

　ユーザ管理部３２は、通信部３１から供給されるユーザ切り抜き動画像Ｂを送信してきた情報処理装置１３ごとにユーザ切り抜き動画像Ｂを振り分ける処理を行う。例えば、図１に示したように、情報処理装置１３－１乃至１３－３のユーザによるコミュニケーションが行われる場合、ユーザ管理部３２は、情報処理装置１３－１乃至１３－３から送信されてきたユーザ切り抜き動画像Ｂ１乃至Ｂ３を、ユーザ個別処理部３３－１乃至３３－３に振り分ける。即ち、ユーザ管理部３２は、ユーザ切り抜き動画像Ｂ１を情報処理装置１３－１に供給し、ユーザ切り抜き動画像Ｂ２を情報処理装置１３－２に供給し、ユーザ切り抜き動画像Ｂ３を情報処理装置１３－３に供給する。

　ユーザ個別処理部３３－１は、個別画像記録部４１－１、操作記録部４２－１、および画像処理部４３－１を有して構成される。

　個別画像記録部４１－１は、ユーザ管理部３２から供給される情報処理装置１３－１のユーザ切り抜き動画像Ｂ１を記録する。操作記録部４２－１は、ユーザ管理部３２から供給される情報処理装置１３－１のユーザ切り抜き動画像Ｂ１に操作内容が付加されている場合、その操作内容を取り出して記録する。画像処理部４３－１は、個別画像記録部４１－１に記録されている情報処理装置１３－１のユーザ切り抜き動画像Ｂ１に対し、操作記録部４２－１に記録されている情報処理装置１３－１の操作内容に従った画像処理を施して、全体画像合成部３５に供給する。

　このとき、個別画像記録部４１－１では、１フレームごとにユーザ切り抜き動画像Ｂ１を更新して記録する。一方、操作記録部４２－１では、ユーザ切り抜き動画像Ｂ１に操作内容が付加されているときだけ、操作内容を更新して記録する。従って、画像処理部４３－１は、操作記録部４２－１に記録されている操作内容が更新されるまで継続して、同一の操作内容による画像処理をユーザ切り抜き動画像Ｂ１に対して施すことになる。

　また、ユーザ個別処理部３３－２および３３－３は、ユーザ個別処理部３３－１と同様に、個別画像記録部４１－２および４１－３、操作記録部４２－２および４２－３、並びに、画像処理部４３－２および４２－３をそれぞれ有して構成される。そして、ユーザ個別処理部３３－２および３３－３は、ユーザ個別処理部３３－１と同様に、ユーザ切り抜き動画像Ｂ２およびＢ３に対する画像処理を施して、全体画像合成部３５に供給する。

　背景記録部３４は、配信サーバ１４から配信される合成動画像Ｃにおいてユーザ切り抜き動画像Ｂ１乃至Ｂ３の背景となる様々な背景動画像を記録しており、所定の背景動画像を全体画像合成部３５に供給する。

　全体画像合成部３５は、ユーザ個別処理部３３－１乃至３３－３において個別に画像処理が施されたユーザ切り抜き動画像Ｂ１乃至Ｂ３を、背景記録部３４から供給される背景動画像に合成する画像処理を行って、合成動画像Ｃを生成する。そして、全体画像合成部３５は、生成した合成動画像Ｃを通信部３１に供給し、ネットワーク１２を介して情報処理装置１３－１乃至１３－３に配信する。

　以上のように構成される配信サーバ１４は、ユーザ切り抜き動画像Ｂ１乃至Ｂ３に対して操作内容を反映した画像処理を個別に施すことができる。そして、配信サーバ１４は、操作内容を反映したユーザ切り抜き動画像Ｂ１乃至Ｂ３を合成した合成動画像Ｃを、情報処理装置１３－１乃至１３－３に配信することができる。

　このように、情報処理装置１３－１乃至１３－３および配信サーバ１４から構成されるコミュニケーションシステム１１では、情報処理装置１３－１乃至１３－３のユーザが同一の仮想空間に配置された合成動画像Ｃにより互いにコミュニケーションを行うことができる。従って、コミュニケーションシステム１１では、例えば、動画像Ａ１乃至Ａ３がそのまま同一の画面上に並べて配置したようなコミュニケーションシステムよりも、遠隔拠点にいる複数のユーザどうしで臨場感や一体感のあるコミュニケーションを図ることができる。

　さらに、コミュニケーションシステム１１では、情報処理装置１３の表示部２５に表示される合成動画像Ｃに対して、それぞれのユーザが自身のユーザ切り抜き動画像Ｂに対して各種の操作を行うことができる。そして、それぞれの操作内容がリアルタイムに反映されるので、ユーザは、意図した操作が反映されないなどのストレスを感じることなくコミュニケーションに集中することができる。従って、コミュニケーションシステム１１では、遠隔拠点にいる複数のユーザどうしで、より良好なコミュニケーションを図ることができる。

　次に、図５乃至図１２を参照して、情報処理装置１３の表示部２５に表示される合成動画像Ｃに対してユーザが行う操作について説明する。

　図５には、情報処理装置１３－１のユーザが、ユーザ切り抜き動画像Ｂ１を自由変形する操作を行う例が示されている。

　例えば、情報処理装置１３－１のユーザは、表示部２５に表示されているユーザ切り抜き動画像Ｂ１をタッチして指定した後に、自由変形の操作を指定するボタン（図示せず）を操作する。これに応じて、操作部２６は、図５に示すように、ユーザ切り抜き動画像Ｂ１を矩形で囲うように、自由変形を行うためのユーザインタフェースＤ１が重畳された合成動画像Ｃ１を表示部２５に表示させる。

　そして、ユーザは、ユーザインタフェースＤ１の四隅または四辺中央に表示されるグリッドをタッチしたまま、外側に動かすことでユーザ切り抜き動画像Ｂ１を拡大させ、内側に動かすことでユーザ切り抜き動画像Ｂ１を縮小させることができる。また、ユーザは、ユーザインタフェースＤ１の内側の任意の一点をタッチしたまま移動させることによりユーザ切り抜き動画像Ｂ１を平行移動させることができる。また、ユーザは、ユーザインタフェースＤ１の内側の任意の二点をタッチしたまま、その二点を相対的に回転させることによりユーザ切り抜き動画像Ｂ１を回転させることができる。

　これらの操作に応じて、例えば、１フレームごとに操作内容（例えば、タッチ位置）がユーザ切り抜き動画像Ｂ１に付加されて情報処理装置１３－１から送信される。そして、配信サーバ１４では、画像処理部４３－１が、操作内容に従った画像処理をユーザ切り抜き動画像Ｂ１に施すことができる。従って、情報処理装置１３－１では、ユーザが動いた状態のまま、ユーザインタフェースＤ１を利用した自由変形がユーザ切り抜き動画像Ｂ１に反映された合成動画像Ｃ１を表示することができる。

　これにより、情報処理装置１３－１のユーザは、合成動画像Ｃ１に合成されているユーザ切り抜き動画像Ｂ２およびＢ３の大きさや配置を確認しながら、ユーザ切り抜き動画像Ｂ１の大きさや配置をリアルタイムに変更することができる。

　図６には、情報処理装置１３－１のユーザが、ユーザ切り抜き動画像Ｂ１の不要領域消去する操作を行う例が示されている。

　例えば、切り抜き画像生成部２３が、動画像Ａ１からユーザ切り抜き動画像Ｂ１を切り抜く画像処理を行うときに、ユーザが表示されている領域の認識を間違えた結果、本来は削除するべき不要領域が残ったままとなることがある。例えば、図６に示す合成動画像Ｃ２では、ユーザ切り抜き動画像Ｂ１の右腕の外側に、破線で囲って示すように、不要領域が残った状態が示されている。

　そこで、ユーザが、不要領域の消去を指定するボタン（図示せず）を操作して、ユーザ切り抜き動画像Ｂ１をタッチすると、不要領域の消去を行うための消しゴム型のユーザインタフェースＤ２が合成動画像Ｃ２に重畳して表示される。そして、ユーザが、タッチしたまま不要領域上を擦ると、不要領域が非表示となる。また、ユーザが、不要領域の消去の解除を指定するボタン（図示せず）を操作すると、不要領域の削除がリセットされて、非表示となっていた不要領域が表示される。

　このとき、画像処理部４３では、領域ピクセルごとに不要領域である確度を示す確度情報を保持し、確度の高いピクセルほど、透明度が高くなるように消去する画像処理を施すことができる。

　例えば、図７を参照して、確度情報に基づいた画像処理について説明する。

　図７の上側には、動画像Ａに対応して確度情報に従った濃さで表される確度情報画像Ｅ１が示されており、図７の下側には、ユーザインタフェースＤ２を利用して不要領域を削除している状態を示す確度情報画像Ｅ２が示されている。

　例えば、従来、ユーザなどの切抜き対象物の近辺領域へのピクセル単位の操作、具体的には、タッチやペン入力によって周りのゴミデータを取り除いたり、ぼかしたり、縁取りを付けるなどの操作は、細かい作業である上に、動画であるため対象物が動いてしまうので、入力がしづらかったりミスしやすいものであった。

　そこで、情報処理装置１３は、ユーザ切り抜き動画像Ｂのピクセルごとに、本当に対象物である確度情報（高いほどその領域は実際の対象物である）を、ユーザ切り抜き動画像Ｂに付加して送信する。これにより、画像処理部４３は、ユーザ切り抜き動画像Ｂのピクセルの対象物確度に応じて、操作の影響度を自動調節することができる。

　例えば、距離測定部２２は、被写体までの距離を演算する際に、その演算結果が正しい確率を示す確率情報を求めて、切り抜き画像生成部２３に供給する。そして、切り抜き画像生成部２３は、動画像Ａからユーザ切り抜き動画像Ｂを生成する際に、画素単位で切り抜き対象物である確度情報を付加しておく。

　図７の確度情報画像Ｅ１では、色が濃いピクセルほど対象物である確度が高いことを示している。そして、ユーザが、ユーザインタフェースＤ２を利用して、ユーザの近辺の不要領域を削除するとき、ある程度以上の確度を持ったピクセルに対しては消去を行わないように、確度に反比例して消去を行う影響度が強く出るようにすることで、注意深く回りをなぞらなくても対象物のみを残し易くすることができる。

　このように、削除された不要領域は、次のフレーム以降も、そのエリアに出る不要領域の削除が継続して行われる。

　例えば、図８を参照して、不要領域の削除が継続して行われる処理について説明する。

　図８の上側に示す切り抜き動画像Ｅ３のように、ユーザの近辺や画面の端部近傍に、ユーザが意図した切り抜き対象物ではないのに切り抜かれて、ユーザ切り抜き動画像Ｂに残ってしまう不要領域が、グレーのハッチングにより表されている。このような不要領域を削除するために、ユーザは、図６に示したような消しゴム型のユーザインタフェースＤ２を利用して、切り抜き動画像Ｅ３に対して不要領域を削除する操作を行う。

　例えば、切り抜き動画像Ｅ３には、ユーザがユーザインタフェースＤ２を利用して不要領域を削除する操作を行った削除領域Ｄ２－ａおよびＤ２－ｂが示されている。

　そして、切り抜き動画像Ｅ３の次のフレームの切り抜き動画像Ｅ４では、ユーザが動いたことで表示される位置が移動している。このとき、不要領域の特性によっては、切り抜きの対象であるユーザに付随して移動してしまい、１フレーム前の切り抜き動画像Ｅ３で指定した箇所から不要領域が移動していることがある。

　そのため、削除領域Ｄ２－ｂは、例えば、ユーザの顔の中心を基準として、ユーザの移動に応じて移動するように設定される。このように、切り抜き動画像Ｅ３の中で自動検出可能な一領域部分（例えば、ユーザの顔）を中心とし、そこからの相対位置と相対サイズのみを記録しておくことで、毎フレームにおいて自動的に目的位置の目的サイズの不要領域を消去することができる。即ち、毎フレームごとに位置が移動するような不要領域であっても、ユーザが、毎フレームに対して削除する位置を指定することなく、容易に、そのような不要領域の削除を継続して行うことができる。

　なお、この中心の抽出方法は、対象物領域の特徴点解析しやすい点、例えば、顔の中心位置とその大きさを検出することが考えられる。この手法により、アフィン変換で表現できない操作についても、ユーザが一度指示をすれば、連続的な動画像についても継続的に操作を反映させることができる。

　一方、削除領域Ｄ２－ａは、画面の端部近傍に固定的に表れており移動することはないので、例えば、画面の端部を基準として固定的に設定される。

　図９には、情報処理装置１３－１のユーザが、ユーザ切り抜き動画像Ｂ１の周囲に縁取りデザインを設定する例が示されている。

　例えば、ユーザは、表示部２５に表示されているユーザ切り抜き動画像Ｂ１をタッチして指定した後に、縁取りデザインの設定を指定するボタン（図示せず）を操作する。これに応じて、図９に示すように、ユーザ切り抜き動画像Ｂ１を囲うように、縁取りデザインＤ３が重畳された合成動画像Ｃ３が表示される。なお、縁取りデザインＤ３は、情報処理装置１３－１の表示部２５だけでなく、情報処理装置１３－２および１３－３の表示部２５にも表示される。

　また、ユーザは、例えば、デザインされる縁取りの種類（形状や色など）、縁取りの領域（人物から外側に向かう幅）、または、切り抜くエッジのぼかし具合を、指定することができる。そして、これらを指定すると、指定された内容が操作内容としてユーザ切り抜き動画像Ｂ１に付加されて配信サーバ１４に送信され、操作記録部４２－１に記録される。そして、画像処理部４３－１は、操作記録部４２－１に記録されている操作内容に従って、ユーザの動きに合わせて、縁取りデザインＤ３を生成する画像処理を行うことができる。このように、指定された内容が、縁取りデザインＤ３にリアルタイムで反映される。

　図１０には、情報処理装置１３－１のユーザが、ユーザ切り抜き動画像Ｂ１をトリミングする操作を行う例が示されている。

　例えば、ユーザは、表示部２５に表示されているユーザ切り抜き動画像Ｂ１をタッチして指定した後に、トリミングの操作を指定するボタン（図示せず）を操作する。これに応じて、操作部２６は、図１０に示すように、ユーザ切り抜き動画像Ｂ１を矩形で囲うように、トリミングを行うためのユーザインタフェースＤ４が重畳された合成動画像Ｃ４を表示部２５に表示させる。

　そして、ユーザは、ユーザインタフェースＤ４の四辺中央に表示されるグリッドをタッチしたまま内側に動かすことで、ユーザインタフェースＤ４の外側となる一部分が表示されない領域を指定する操作を行うことができる。このような操作に応じて、例えば、１フレームごとに操作内容（例えば、ユーザインタフェースＤ４の位置およびサイズ）がユーザ切り抜き動画像Ｂ１に付加されて情報処理装置１３－１から送信される。そして、配信サーバ１４では、画像処理部４３－１が、操作内容に従った画像処理をユーザ切り抜き動画像Ｂ１に施すことができる。従って、情報処理装置１３－１では、ユーザが動いた状態のまま、ユーザインタフェースＤ４を利用したトリミングがユーザ切り抜き動画像Ｂ１に反映された合成動画像Ｃ４を表示することができる。

　図１１には、情報処理装置１３－１のユーザが、ユーザ切り抜き動画像Ｂ１の奥行き（Ｚ軸）座標を指定する操作を行う例が示されている。

　例えば、ユーザは、表示部２５に表示されているユーザ切り抜き動画像Ｂ１をタッチして指定した後に、奥行き座標を指定するボタン（図示せず）を操作する。これに応じて、操作部２６は、図１１に示すように、ユーザ切り抜き動画像Ｂ１の奥行き方向の表示位置を指定するのに利用されるユーザインタフェースＤ５－ａおよびＤ５－ｂが重畳された合成動画像Ｃ５を表示部２５に表示させる。

　ユーザインタフェースＤ５－ａは、奥行き座標を指定する対象として選択されているものを特定ために表示される。図１１に示す合成動画像Ｃ５では、ユーザ切り抜き動画像Ｂに重畳するようにユーザインタフェースＤ５－ａが表示されており、ユーザ切り抜き動画像Ｂが、奥行き座標を指定する対象として選択されていることが示されている。なお、奥行き座標を指定する対象としては、例えば、後述する図１２に示すような仮想オブジェクトＦ１またはＦ２も選択することができる。

　ユーザインタフェースＤ５－ｂは、奥行き座標を変更するためのインジケータであり、スライダを移動させる操作を行うことで、ユーザインタフェースＤ５－ａで選択されている対象の奥行き座標を変更することができる。例えば、ユーザインタフェースＤ５－ｂのスライダを最上端まで移動させることで最大奥行き（最も奥側のレイヤ）に指定され、ユーザインタフェースＤ５－ｂのスライダを最下端まで移動させることで最小奥行き（最も手前側のレイヤ）に指定される。

　このようなユーザインタフェースＤ５－ｂに対する操作に応じて、例えば、１フレームごとに操作内容（例えば、奥行き座標）がユーザ切り抜き動画像Ｂ１に付加されて情報処理装置１３－１から送信される。そして、配信サーバ１４では、画像処理部４３－１が、操作内容に従ってユーザ切り抜き動画像Ｂ１に対するレイヤを設定することができ、そのレイヤに応じた順番で、全体画像合成部３５による合成処理が行われる。従って、情報処理装置１３－１のユーザは、ユーザ切り抜き動画像Ｂ２またはＢ３に対する相対的な奥行きを確認しながら、ユーザ切り抜き動画像Ｂ１の奥行き座標を設定することができる。

　図１２を参照して、ユーザインタフェースＤ５－ｂについてさらに説明する。

　図１２のＡには、ユーザ切り抜き動画像Ｂ４およびＢ５と、仮想オブジェクトＦ１およびＦ２とが合成された合成動画像Ｃ６が示されており、図１２のＢには、合成動画像Ｃ６のレイヤ構造が示されている。

　図１２のＢに示すように、合成動画像Ｃ６は、５枚のレイヤＬ１乃至Ｌ５が重ねられて構成されている。レイヤ構造の奥側から順に、レイヤＬ１には背景画像が設定され、レイヤＬ２にはユーザ切り抜き動画像Ｂ４が設定されている。さらに、レイヤＬ３には仮想オブジェクトＦ１（ソファー）が設定され、レイヤＬ４にはユーザ切り抜き動画像Ｂ５が設定され、レイヤＬ５には仮想オブジェクトＦ２（観葉植物）が設定されている。

　従って、図１２のＡに示すように、合成動画像Ｃ６では、例えば、ユーザ切り抜き動画像Ｂ４は仮想オブジェクトＦ１の背後側に表示され、ユーザ切り抜き動画像Ｂ５は仮想オブジェクトＦ１の手前側に表示される。そして、図１１の合成動画像Ｃ５に表示されるユーザインタフェースＤ５－ｂは、図１２のＢに示すように、レイヤＬ１乃至Ｌ５の奥行き座標に対応している。

　ところで、コミュニケーションシステム１１では、Ｘ軸方向、Ｙ軸方向、およびＺ軸方向で表される空間に、背景動画像やユーザ切り抜き動画像Ｂが配置され、それらが合成された合成動画像Ｃが表示部２５に表示される。そして、表示部２５では、合成動画像Ｃが平面的に表示されるため、ユーザは、平面方向（Ｘ軸方向およびＹ軸方向）への操作については直観的に実施し易いのに対し、奥行き方向（Ｚ軸方向）への操作については直観的に実施することは困難である。

　そこで、コミュニケーションシステム１１では、奥行き座標を設定する操作が選択されると、その操作を行う間だけ一時的に、図１２のＢに示すようなレイヤ構造を表示することができる。例えば、全体画像合成部３５が合成動画像Ｃを生成する際に用いる全ての動画像を、それらのレイヤ情報に従って斜め方向に配置したレイヤ構造が配信サーバ１４から情報処理装置１３に送信される。

　これにより、ユーザは、全ての動画像の奥行き座標を視覚的に把握することができ、所望の奥行き情報を設定する操作を容易に行うことができる。

　例えば、ユーザ切り抜き動画像Ｂ４のユーザが、ユーザ切り抜き動画像Ｂ５よりも前であって、かつ、仮想オブジェクトＦ２よりも後ろに配置したい場合には、図１２のＢに示すようなレイヤ構造を表示させ、ユーザインタフェースＤ５－ｂ上の所望箇所（例えば、白抜きの矢印で示される箇所）を選択することができる。このような操作により、例えば、奥行き（Ｚ軸）座標を絶対値で入力するような操作と比較して、より直観的な操作を提供することができる。

　以上のように、ユーザは、各種のユーザインタフェースを利用して、ユーザ切り抜き動画像Ｂに対する操作を行うことができ、その操作を合成動画像Ｃに容易に反映させることができる。

　ところで、操作内容は、操作前のユーザ切り抜き動画像ＢがＸ軸方向（横方向）、Ｙ軸方向（縦方向）、およびＺ軸方向（奥行き方向）の三次元からなる空間にあるとしたとき、操作後のユーザ切り抜き動画像Ｂをアフィン変換で表現できるものと、アフィン変換で表現できないものとに分類される。なお、本明細書では、操作内容に応じた画像処理において、ユーザが動いたとしてもユーザ切り抜き動画像に対応して一意に決定される変換パラメータを利用する画像処理の一例として、アフィン変換について説明する。もちろん、このような変換パラメータを利用する画像処理としては、アフィン変換以外のもの（例えば、射影変換や、相似変換、反転変換など）を適用してもよい。

　即ち、アフィン変換で表現できる操作内容は、ユーザ切り抜き動画像Ｂの拡大または縮小や、平行移動、回転などの操作（図５参照）である。例えば、操作前のユーザ切り抜き動画像Ｂの中心座標を変換の原点として固定したとき、フレームごとに対象領域に同一の処理を実行し続けることで、連続的な動画像においても、ユーザが一度指定した操作を継続的に反映させることができる。

　一方、アフィン変換で表現できない操作内容は、ユーザ切り抜き動画像Ｂのうち、ユーザが指定した領域をトリミングする操作（図１０参照）や、ピクセルの平坦化処理によりユーザが指定した部分を消去する操作（図６参照）などである。

　そこで、情報処理装置１３から配信サーバ１４に送信される操作内容には、操作内容そのものを示す情報の他、操作をアフィン変換で表現できるものであるか否かを示す情報を含めることができる。

　図１３は、情報処理装置１３から配信サーバ１４に送信される操作内容のフォーマットを示す図である。

　図示するように、操作内容は、操作ＩＤ（Identification）、対象ユーザＩＤ，種別情報、基準情報、変換フラグ、残り時間情報、および変換パラメータを含んで構成される。

　操作ＩＤには、コミュニケーションシステム１１で送受信される全ての操作内容を識別するため、例えば、送受信された順番に従って繰り上げられて登録される番号が設定される。

　対象ユーザＩＤには、コミュニケーションシステム１１に接続されている情報処理装置１３を識別するために割り当てられた番号が設定される。例えば、情報処理装置１３－１には対象ユーザＩＤ「０」、情報処理装置１３－１には対象ユーザＩＤ「１」、情報処理装置１３－１には対象ユーザＩＤ「２」が、それぞれ割り当てられる。

　種別情報には、ユーザが行った操作内容を示す情報が設定される。例えば、図６を参照して上述したように、ユーザが、不要領域を削除する操作を行った場合には、種別情報「削除」が設定される。また、ユーザが、図５に示したユーザインタフェースＤ１を利用して、ユーザ切り抜き動画像Ｂを拡大する操作を行った場合には、種別情報「拡大」が設定される。また、ユーザが、例えば、所定のアニメーションによる演出効果を行う操作を行った場合には、種別情報「アニメ」が設定される。また、ユーザが、図１０に示したユーザインタフェースＤ４を利用して、ユーザ切り抜き動画像Ｂをトリミングする操作を行った場合には、種別情報「トリミング」が設定される。

　基準位置情報には、操作内容を反映させる際における基準となる位置を示す情報が設定される。例えば、図８を参照して上述したように、ユーザ切り抜き動画像Ｂの顔の中心を基準として不要領域を削除する操作を行った場合には、基準情報「顔中心」が設定される。同様に、図８を参照して上述したように、ユーザインタフェースＤ２－ａの右上の端部を中心として不要領域を削除する操作を行った場合には、基準情報「右上」が設定される。

　変換フラグには、アフィン変換により操作内容が反映されるものであるか否かを示す情報が設定される。例えば、操作内容が削除やトリミングである場合には、アフィン変換では操作内容が反映されないことを示す変換フラグ「Ｎ」が設定される。一方、操作内容が拡大やアニメである場合には、変換により操作内容が反映されることを示す変換フラグ「Ｙ」が設定される。

　残り時間情報には、操作内容の反映を終了させるまでの残り時間を示す情報が設定される。例えば、操作が行われた際に操作内容を反映させる時間が指定されていない場合には、残り時間情報「無限」が設定される。また、操作が行われた際に操作内容を反映させる時間が指定されていた場合、例えば、その時間が25秒であるとき、残り時間情報「ｔ＝２５」が設定される。

　変換パラメータには、操作内容を反映させるのに必要な各種のパラメータが設定される。例えば、図８を参照して上述したように、ユーザが、不要領域を削除する操作を行った場合には、削除の基準として設定された位置を中心とした位置関係、および、削除を行う強さを示す変換パラメータ「相対中心からの位置関係、強さ」が設定される。また、ユーザが、図５に示したユーザインタフェースＤ１を利用して、ユーザ切り抜き動画像Ｂを拡大する操作を行った場合には、拡大の基準として設定された中心位置、および、拡大を行う倍率を示す変換パラメータ「拡大中心と拡大率」が設定される。

　また、ユーザが、例えば、所定のアニメーションによる演出効果を行う操作を行った場合には、変換パラメータにはアニメーションを指定する「アニメＩＤ」が設定される。また、ユーザが、図１０に示したユーザインタフェースＤ４を利用して、ユーザ切り抜き動画像Ｂをトリミングする操作を行った場合には、トリミングの基準として設定された位置を中心として相対的なトリミングを行う位置およびサイズを示す変換パラメータ「中心からの相対位置、相対サイズ」が設定される。

　以上のようなフォーマットの操作内容が、情報処理装置１３から配信サーバ１４に送信されることで、配信サーバ１４において操作内容に従った画像処理を行うことができる。

　次に、図１４は、図３の情報処理装置１３において行われる処理を説明するフローチャートである。

　例えば、ユーザが、コミュニケーションシステム１１において提供されるサービスに参加するように操作部２６に対する操作を行うと、処理が開始される。ステップＳ１１において、デジタル信号処理部２１は、図示しない撮像装置により撮像された動画像Ａ（図２参照）を取得してデジタル信号処理を施して、動画像Ａを構成する１フレームごとの画像データを、切り抜き画像生成部２３に供給する。

　ステップＳ１２において、距離測定部２２は、例えば、複数の動画像の視差を演算し、撮像装置から被写体までの距離をピクセルごとにマッピングしたデプスマップを生成して、切り抜き画像生成部２３に供給する。

　ステップＳ１３において、切り抜き画像生成部２３は、ステップＳ１１でデジタル信号処理部２１から供給される動画像Ａから、ステップＳ１２で距離測定部２２から供給されるデプスマップに基づいて対象物を切り抜く画像処理を行う。これにより、切り抜き画像生成部２３は、ユーザ切り抜き動画像Ｂを生成して、通信部２４に供給する。

　ステップＳ１４において、通信部２４は、ユーザによる操作があったか否かを判定する。例えば、通信部２４は、ユーザによる操作に応じた操作内容が操作部２６から供給されると、ユーザによる操作があったと判定し、操作部２６から操作内容の供給がなければ、ユーザによる操作がなかったと判定する。

　ステップＳ１４において、ユーザによる操作があったと判定された場合、処理はステップＳ１５に進み、通信部２４は、ステップＳ１３で切り抜き画像生成部２３から供給されたユーザ切り抜き動画像Ｂに操作内容を付加し、配信サーバ１４に送信する。

　一方、ステップＳ１４において、ユーザによる操作がなかったと判定された場合、処理はステップＳ１６に進み、通信部２４は、ステップＳ１３で切り抜き画像生成部２３から供給されたユーザ切り抜き動画像Ｂを、配信サーバ１４に送信する。

　ステップＳ１５またはＳ１６の処理後、処理はステップＳ１７に進み、通信部２４は、配信サーバ１４から送信されてくる合成動画像Ｃを受信して表示部２５に供給し、表示部２５は、合成動画像Ｃを表示する。その後、処理はステップＳ１１に戻り、以下、同様の処理が繰り返される。

　以上のように、情報処理装置１３では、動画像Ａからユーザを切り抜いたユーザ切り抜き動画像Ｂを配信サーバ１４に送信することができる。また、ユーザによる操作が行われたときには、その操作内容をユーザ切り抜き動画像Ｂに付加して配信サーバ１４に送信することができる。

　次に、図１５は、図４の配信サーバ１４において行われる処理を説明するフローチャートである。

　例えば、複数台の情報処理装置１３から、コミュニケーションシステム１１において提供されるサービスに参加することが通知されると、処理が開始される。ステップＳ２１において、通信部３１は、情報処理装置１３から送信されてくるユーザ切り抜き動画像Ｂを受信して、ユーザ管理部３２に供給する。

　ステップＳ２２において、ユーザ管理部３２は、例えば、ユーザ切り抜き動画像Ｂに付加されている対象ユーザＩＤを参照し、ユーザ切り抜き動画像Ｂを送信してきた情報処理装置１３に対応するユーザ個別処理部３３にユーザ切り抜き動画像Ｂを供給する。これにより、ユーザ個別処理部３３では、ユーザ切り抜き動画像Ｂを個別画像記録部４１に記録するとともに、ユーザ切り抜き動画像Ｂに操作内容が付加されていれば、その操作内容を操作記録部４２に記録する。

　ステップＳ２３において、コミュニケーションシステム１１に接続されている情報処理装置１３の数に応じた所定個数のユーザ個別処理部３３のうち、非アフィン変換の処理内容が操作記録部４２に記録されているユーザ個別処理部３３において、個別に、画像処理部４３がユーザ切り抜き動画像Ｂに対する画像処理を行う。即ち、ユーザ個別処理部３３の操作記録部４２に記録されている操作内容において変換フラグ「Ｎ」が設定されている操作内容に従った画像処理、例えば、トリミングや不要領域消去などの操作に対応する画像処理が個別に行われる。

　ステップＳ２４において、全体画像合成部３５は、所定個数のユーザ個別処理部３３に対して奥行きの深い順に、ユーザ切り抜き動画像Ｂを要求する。

　ステップＳ２５において、所定個数のユーザ個別処理部３３は、ユーザ切り抜き動画像Ｂが要求されたか否かを判定する。そして、ユーザ切り抜き動画像Ｂが要求されていないと判定したユーザ個別処理部３３について、処理はステップＳ２４に戻り、処理が待機される。一方、ユーザ切り抜き動画像Ｂが要求されたと判定したユーザ個別処理部３３は、ユーザ切り抜き動画像Ｂを送信する対象となり、処理はステップＳ２６に進む。

　ステップＳ２６において、対象のユーザ個別処理部３３は、全体画像合成部３５からの要求に応じてユーザ切り抜き動画像Ｂを供給する。このとき、対象のユーザ個別処理部３３は、変換フラグ「Ｙ」が設定されている操作内容が操作記録部４２に記録されていれば、ユーザ切り抜き動画像Ｂとともに処理内容も全体画像合成部３５に供給する。

　そして、全体画像合成部３５は、背景記録部３４から供給される背景動画像に対して、奥行きの深い順に従ってユーザ切り抜き動画像Ｂを重畳する。このとき、全体画像合成部３５は、アフィン変換の処理内容が供給されていれば、その処理内容を反映させた画像処理、例えば、拡大や縮小などの操作に対応する画像処理を行って、ユーザ切り抜き動画像Ｂを合成動画像Ｃに重畳する。

　ステップＳ２７において、全体画像合成部３５は、所定個数のユーザ個別処理部３３に対応する全てのユーザ切り抜き動画像Ｂを合成したか否かを判定する。

　ステップＳ２７において、全体画像合成部３５が、所定個数のユーザ個別処理部３３に対応する全てのユーザ切り抜き動画像Ｂを合成していないと判定した場合、処理はステップＳ２４に戻る。そして、次に奥行きの深いユーザ切り抜き動画像Ｂを対象として、以下、同様の処理が繰り返される。

　一方、ステップＳ２７において、全体画像合成部３５が、所定個数のユーザ個別処理部３３に対応する全てのユーザ切り抜き動画像Ｂを合成したと判定した場合、処理はステップＳ２８に進む。

　ステップＳ２８において、全体画像合成部３５は、生成した合成動画像Ｃを通信部３１に供給し、ネットワーク１２を介して情報処理装置１３に送信する。その後、処理はステップＳ２１に戻り、次のフレームを処理の対象として、以下、同様の処理が繰り返される。

　以上のように、配信サーバ１４では、非アフィン変換処理については、個別に画像処理を行って、アフィン変換処理については、ユーザ切り抜き動画像Ｂを合成する際に画像処理を行うことができる。そして、全てのユーザ切り抜き動画像Ｂを奥行きの深い順に合成した合成動画像Ｃを生成して情報処理装置１３に送信することができる。

　なお、情報処理装置１３の距離測定部２２が被写体までの距離を算出する方法は、上述したような視差を演算する方法に限定されることはなく、対象物を切り抜くためのマップを生成することが可能な様々な方法を採用することができる。例えば、距離測定部２２は、被写体に赤外線を照射してから、赤外線が反射して返ってくるまでの時間差に基づいて距離を演算する方法や、パターン光を照射して、被写体の表面に応じたパターンの変形度合いに基づいて距離を演算する方法などを採用してもよい。

　また、例えば、クロマキー合成の技術を用いて、グリーンバックやブルーバックなどの特定の色を背景として撮像を行い、その特定の色の成分を透明にすることで背景を排除することで、ユーザが映されている領域からなる動画像（ユーザが映されている領域以外を排除した動画像）を生成することができる。即ち、ユーザが映されている領域を切り抜いてユーザ切り抜き動画像を生成する他、切り抜き以外の方法によって、ユーザが映されている領域を含む動画像を生成して、合成動画像に合成してもよい。

　また、情報処理装置１３および配信サーバ１４からなるコミュニケーションシステム１１全体として提供される機能について、情報処理装置１３と配信サーバ１４とによる機能分担は、図３および図４に示して上述した構成に限定されることはない。例えば、配信サーバ１４においてユーザ個別処理部３３により実施されるユーザ切り抜き動画像Ｂごとの画像処理を、情報処理装置１３において実施してもよく、情報処理装置１３において画像処理を施したユーザ切り抜き動画像Ｂを送信してもよい。

　また、情報処理装置１３の機能を１つの装置内で処理する必要はない。例えば、パーソナルコンピュータやスマートフォンなどの情報処理端末上にソフトウエアとしてこれらの機能を実装し、外付けのカメラ機器からデジタル信号を取得し、それ以降の処理を実施してもよい。

　図１６は、情報処理装置１３の変形例を示すブロック図である。

　図１６に示すように、情報処理装置１３Ａは、画像送信装置５１およびユーザインタフェース装置５２の２つの個別の装置により構成される。

　画像送信装置５１は、デジタル信号処理部２１、距離測定部２２、切り抜き画像生成部２３、および通信部２４－１を備えて構成され、切り抜き画像生成部２３において生成されるユーザ切り抜き動画像Ｂを配信サーバ１４に送信する。例えば、画像送信装置５１は、撮像機能を備えたカメラ機器の一部の機能として、ソフトウエアにより提供することができる。

　ユーザインタフェース装置５２は、通信部２４－２、表示部２５、および操作部２６を備えて構成され、配信サーバ１４から配信される合成動画像Ｃを表示部２５に表示し、操作部２６に対するユーザの操作により入力される操作内容を配信サーバ１４に送信する。例えば、ユーザインタフェース装置５２は、操作内容の入力や画像の表示などをソフトウエアにより提供するウェブブラウザを用いることができる。この場合、ユーザインタフェース装置５２に表示される画像や、入力される操作内容などは、配信サーバ１４側にウェブプログラムとして保持され、ユーザが、配信サーバ１４へウェブブラウザからアクセスすることで、配信サーバ１４の機能を利用することができる。

　さらに、コミュニケーションシステム１１では、上述したように、操作部２６に対するユーザの操作に応じて表示が変化する他、例えば、ユーザ切り抜き動画像Ｂどうしのインタラクションにより表示が変化するようにしてもよい。

　図１７を参照して、ユーザ切り抜き動画像Ｂどうしのインタラクションによる表示の変化について説明する。

　図１７の上段の合成動画像Ｃ７－１に示すように、ユーザ切り抜き動画像Ｂ１およびＢ２が並んで表示されている。また、ユーザ切り抜き動画像Ｂ１およびＢ２は、同一の奥行き座標にレイヤが設定されている。

　このとき、図１７の中段の合成動画像Ｃ７－２に示すように、情報処理装置１３－２のユーザが、ある程度の加速度で情報処理装置１３－１のユーザ側に傾いて、ユーザ切り抜き動画像Ｂ２の頭部が、ユーザ切り抜き動画像Ｂ１の頭部に接したとする。この場合、全体画像合成部３５は、例えば、頭突きする操作が行われたとインタラクションを解釈することができ、そのインタラクションに応じた画像処理を行う。

　これにより、図１７の下段の合成動画像Ｃ７－３に示すように、全体画像合成部３５は、ユーザ切り抜き動画像Ｂ１が、くるくると回りながら飛んでいくような画像処理を行うことができる。

　このようなユーザ切り抜き動画像Ｂどうしのインタラクションに応じて表示が変化する内容、および、表示の変化を発生させる条件は、コミュニケーションシステム１１によるサービスを提供する運営者が、あらかじめ設定することができる。また、それぞれのユーザが、内容および条件を自分専用に設定してもよい。

　このように、コミュニケーションシステム１１では、ユーザインタフェースを利用した操作以外にも、ユーザ切り抜き動画像Ｂどうしの位置関係および状況に基づき、所定のインタラクションに応じて自動的に（操作することなく）、表示を変化させることができる。また、例えば、ユーザ切り抜き動画像Ｂと背景動画像との位置関係および状況に応じて自動的に（操作することなく）、表示を変化させてもよい。

　次に、図１８および図１９を参照して、コミュニケーションシステム１１による他の処理例について説明する。

　図１８には、事前登録された操作内容を指定時刻に反映させる処理について説明する。

　上述したように、コミュニケーションシステム１１では、各種の操作内容はリアルタイムにユーザ切り抜き動画像に反映され、操作内容に従った画像処理が施された合成動画像が配信される。これに対し、コミュニケーションシステム１１では、操作内容をリアルタイムに対象物に反映させるのではなく、例えば、操作内容が指定時刻に反映されるように事前登録しておき、指定時刻になったタイミングで、操作内容に従った画像処理が施された合成動画像が配信されるようにすることができる。

　図１８に示す操作内容登録画面１０１は、操作内容を事前登録するために利用され、プレビューウィンドウ１０２、作業ウィンドウ１０３、ツールバー１０４、およびタイム管理ウィンドウ１０５が表示される。

　プレビューウィンドウ１０２には、配信サーバ１４から配信される合成動画像の現在のフレームと、そのフレームのレイヤ構造が表示される。図１８の例では、３つのレイヤが表示されており、レイヤを表す枠の左上に、それぞれのレイヤの順番を示すレイヤ番号が表示されている。例えば、プレビューウィンドウ１０２には、レイヤ番号１のレイヤには背景動画像が設定され、レイヤ番号２のレイヤには左側に居る人物Ａが設定され、レイヤ番号３のレイヤには右側に居る人物Ｂが設定される合成動画像が表示されている。

　作業ウィンドウ１０３には、操作内容を指定するレイヤが表示される。図１８の例では、５つのレイヤに対して操作を行う状態が示されており、レイヤを表す枠の左上に、それぞれのレイヤの順番を示すレイヤ番号が表示されている。例えば、プレビューウィンドウ１０２と同様に、レイヤ番号１乃至３のレイヤに加えて、レイヤ番号４のレイヤには左側に配置される文字Ａが設定され、レイヤ番号５のレイヤには右側に配置される文字Ｂが設定されている。

　ツールバー１０４には、操作内容を指定する際に使用される様々なツールを選択するためのボタンが表示される。

　タイム管理ウィンドウ１０５には、作業ウィンドウ１０３で登録した操作内容を反映させるタイミングを指定するためのタイムバーが、作業ウィンドウ１０３に表示されているレイヤごとに表示される。例えば、タイムバーの左端に表示される矢印が、現在表示されているフレームの時刻を示しており、時刻の経過に従って、タイムバーを利用して指定された操作内容が左側に流れるように表示される。

　このような操作内容登録画面１０１において、例えば、操作内容に対応付けて、操作内容の反映を開始させるタイミング、および、操作内容の反映を完了させるタイミングを事前に登録することができる。

　例えば、操作内容登録画面１０１では、現在、合成動画像の表示倍率が１倍（×1.0）とされており、所定のタイミングからズームを開始して、合成動画像の表示倍率を1.25倍にする操作内容が登録された例が示されている。例えば、操作内容登録画面１０１の中央近傍の左側に示されている矢印のタイミングから表示倍率の変更が開始され、その右側に示されている矢印のタイミングで表示倍率が1.25倍（×1.25）となり、二人の人物および背景が拡大して表示される。

　また、操作内容登録画面１０１では、表示倍率を変更している期間に、文字Ａおよび文字Ｂを表示させる操作内容が登録されている。従って、ズームが開始されたタイミングで文字Ａおよび文字Ｂが表示され、ズームが終了したタイミングで文字Ａおよび文字Ｂが非表示とされる。このとき、文字Ａおよび文字Ｂも表示倍率の変更に従って、拡大して表示される。

　このように、操作内容登録画面１０１を使用して事前登録された操作内容を、操作内容を反映させるタイミングに従って、情報処理装置１３から配信サーバ１４に送信することで、コミュニケーションシステム１１では、指定時刻になったタイミングで、操作内容に従った画像処理が施された合成動画像が配信されるようにすることができる。

　さらに、コミュニケーションシステム１１では、複数のユーザが同じタイミングで操作内容を事前登録している場合には、所定の方法に従って、反映させる操作内容を決定することができる。

　図１９を参照して、反映させる操作内容を決定する方法について説明する。

　図１９に示す操作内容決定画面１１１は、多数のユーザが事前登録した操作内容に対して視聴者が投票することにより反映させる操作内容を決定する方法において利用される。図示するように、操作内容決定画面１１１には、プレビューウィンドウ１１２、試し見ウィンドウ１１３、およびエントリーウィンドウ１１４が表示される。

　プレビューウィンドウ１１２には、配信サーバ１４から配信される合成動画像の現在のフレームが表示される。

　試し見ウィンドウ１１３には、任意のユーザが事前登録した操作内容を反映した合成動画像を試し見する際に、その合成動画像が表示される。そして、操作内容が反映された動画像を試し見して、その操作内容に対して投票する場合には、試し見ウィンドウ１１３に配置されているグッドボタンに対する操作を行う。

　エントリーウィンドウ１１４では、様々なユーザによって事前登録された操作内容が、時間軸ごとの帯により表される。そして、エントリーウィンドウ１１４に表示される帯をタッチすることで、その操作内容が反映された合成動画像が試し見ウィンドウ１１３に表示される。

　なお、図１９に示す操作内容決定画面１１１では、合成動画像の全レイヤに対しての操作を一括して投票する例について説明しているが、例えば、背景レイヤや人物レイヤなどのようにレイヤごとに投票するようにしてもよい。例えば、どのような投票を行うかは、動画像の配信者が配信を開始するときに選択することができる。この場合、エントリーウィンドウ１１４には、レイヤごとに事前登録された操作内容の帯が、レイヤごとに表示される。そして、レイヤごとに投票が行われ、例えば、背景レイヤと人物レイヤとで、最多の投票が異なるユーザにより事前登録された操作内容であった場合には、それぞれ最多の投票であったものが組み合わされて採用される。

　なお、事前登録された操作内容を決定する方法としては、このような投票によって決定する方法に限られることはない。例えば、選択式で選べる素材（ハートやキラキラ、音符など）を使用している場合、それらの素材が最も多く使用されている操作内容を採用する方法により操作内容を決定してもよい。また、任意の一人のユーザ（例えば、動画像の配信者）が決定権を持つ方法により、そのユーザの選択によって操作内容を決定してもよい。

　さらに、上述した本実施の形態においては、配信サーバ１４において情報処理装置１３－１乃至１３－３から送信されてくる全てのユーザ切り抜き動画像を合成する処理について説明したが、例えば、少なくとも１つの情報処理装置１３から送信されてくるユーザ切り抜き動画像を背景動画像に合成して配信してもよい。また、さらに、１枚のユーザ切り抜き動画像に、撮像された動画像から切り抜かれた被写体ではなく、コンピュータグラフィックにより生成された仮想的なオブジェクトを合成して配信してもよい。

　なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。また、プログラムは、１のCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。

　また、上述した一連の処理（情報処理方法）は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。

　図２０は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）２０１，ROM（Read Only Memory）２０２，RAM（Random Access Memory）２０３は、バス２０４により相互に接続されている。

　バス２０４には、さらに、入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、キーボード、マウス、マイクロホンなどよりなる入力部２０６、ディスプレイ、スピーカなどよりなる出力部２０７、ハードディスクや不揮発性のメモリなどよりなる記憶部２０８、ネットワークインタフェースなどよりなる通信部２０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア２１１を駆動するドライブ２１０が接続されている。

　以上のように構成されるコンピュータでは、CPU２０１が、例えば、記憶部２０８に記憶されているプログラムを、入出力インタフェース２０５及びバス２０４を介して、RAM２０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU２０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア２１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

　そして、プログラムは、リムーバブルメディア２１１をドライブ２１０に装着することにより、入出力インタフェース２０５を介して、記憶部２０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部２０９で受信し、記憶部２０８にインストールすることができる。その他、プログラムは、ROM２０２や記憶部２０８に、あらかじめインストールしておくことができる。

　なお、本技術は以下のような構成も取ることができる。
（１）
　所定の被写体が撮像されている動画像から前記被写体が映されている領域を含むように生成された被写体動画像に対して、前記被写体ごとに個別に、前記被写体動画像に対して行われた操作内容に応じた画像処理を行う画像処理部と、
　画像処理が施された前記被写体動画像と、他の動画像とを合成して、少なくとも１つの前記被写体が配置される合成動画像を生成する合成画像生成処理部と
　を備える画像処理システム。
（２）
　複数の前記被写体ごとに、前記被写体動画像を記録する個別画像記録部と、
　複数の前記被写体ごとに、前記被写体動画像に対して操作が行われるたびに前記操作内容を記録する操作記録部と
　をさらに備え、
　前記画像処理部は、前記操作記録部に記録されている最新の操作内容を、前記個別画像記録部に記録されている前記被写体動画像に対して反映させる
　上記（１）に記載の画像処理システム。
（３）
　前記動画像に写されている前記被写体までの距離を測定する距離測定部と、
　前記距離測定部により測定された前記被写体までの距離に基づいて、所定の被写体が撮像されている前記動画像から前記被写体を切り抜く画像処理を行う切り抜き画像処理部と
　をさらに備える上記（１）または（２）に記載の画像処理システム。
（４）
　前記距離測定部は、前記被写体までの距離を測定する演算を行う際に、その演算結果が正しい確率を示す確度情報を、前記動画像を構成する画素単位で前記被写体動画像に対して付加し、
　前記画像処理部は、前記切り抜き画像処理部により本来であれば削除すべき不要領域が残ったままの状態に対して、前記不要領域を削除する操作が行われた場合、前記確度情報を参照して、前記不要領域を削除する画像処理を行う
　上記（３）に記載の画像処理システム。
（５）
　前記画像処理部は、前記被写体動画像の中で自動検出可能な一領域部分を中心とし、前記一領域部分からの相対位置および相対サイズに従って、前記不要領域を削除する画像処理を行う
　上記（４）に記載の画像処理システム。
（６）
　前記画像処理部は、前記被写体動画像を生成する対象となる前記動画像において固定的に表れる前記不要領域を、前記動画像を基準に設定された位置に従って削除する画像処理を行う
　上記（４）または（５）に記載の画像処理システム。
（７）
　前記画像処理部は、前記被写体動画像に対してトリミングさせる前記操作内容に応じて、そのトリミングの基準として設定された基準位置を中心として相対的なトリミングを行う位置およびサイズに基づいて、前記被写体動画像をトリミングする画像処理を行う
　上記（１）から（６）までのいずれかに記載の画像処理システム。
（８）
　前記画像処理部は、前記被写体が動いたとしても前記被写体動画像に対応して一意に決定される変換パラメータを利用して、前記被写体動画像に対する前記操作内容に応じた画像処理を行う
　上記（１）から（７）までのいずれかに記載の画像処理システム。
（９）
　前記画像処理部は、前記被写体動画像に対して拡大、縮小、平行移動、または回転させる前記操作内容に応じて、前記変換パラメータを利用した画像処理を行う
　上記（８）に記載の画像処理システム。
（１０）
　前記操作内容が指定時刻に反映されるように事前に登録しておき、
　前記画像処理部は、前記指定時刻になったタイミングで、前記被写体動画像に対して、登録されている前記操作内容に応じた画像処理を行う
　上記（１）から（９）までのいずれかに記載の画像処理システム。
（１１）
　所定の指定時刻で反映されるように複数の前記操作内容が事前に登録されている場合、それらの操作内容のうち、実際に反映させる操作内容に対する投票が行われ、
　前記画像処理部は、最多の投票があった前記操作内容に応じた画像処理を、前記指定時刻になったタイミングで前記被写体動画像に対して行う
　上記（１０）に記載の画像処理システム。
（１２）
　所定の被写体が撮像されている動画像から前記被写体が映されている領域を含むように生成された被写体動画像に対して、前記被写体ごとに個別に、前記被写体動画像に対して行われた操作内容に応じた画像処理を行い、
　画像処理が施された前記被写体動画像と、他の動画像とを合成して、少なくとも１つの前記被写体が配置される合成動画像を生成する
　ステップを含む画像処理方法。
（１３）
　所定の被写体が撮像されている動画像から前記被写体が映されている領域を含むように生成された被写体動画像に対して、前記被写体ごとに個別に、前記被写体動画像に対して行われた操作内容に応じた画像処理を行い、
　画像処理が施された前記被写体動画像と、他の動画像とを合成して、少なくとも１つの前記被写体が配置される合成動画像を生成する
　ステップを含む画像処理をコンピュータに実行させるプログラム。

　なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

　１１　コミュニケーションシステム，　１２　ネットワーク，　１３－１乃至１３－３　情報処理装置，　１４　配信サーバ，　２１　デジタル信号処理部，　２２　距離測定部，　２３　切り抜き画像生成部，　２４　通信部，　２５　表示部，　２６　操作部，　３１　通信部，　３２　ユーザ管理部，　３３－１乃至３３－３　ユーザ個別処理部，　３４　背景記録部，　３５　全体画像合成部，　４１－１乃至４１－３　個別画像記録部，　４２－１乃至４２－３　操作記録部，　４３－１乃至４３－３　画像処理部，　５１　画像送信装置，　５２　ユーザインタフェース装置

Claims

　所定の被写体が撮像されている動画像から前記被写体が映されている領域を含むように生成された被写体動画像に対して、前記被写体ごとに個別に、前記被写体動画像に対して行われた操作内容に応じた画像処理を行う画像処理部と、
　画像処理が施された前記被写体動画像と、他の動画像とを合成して、少なくとも１つの前記被写体が配置される合成動画像を生成する合成画像生成処理部と
　を備える画像処理システム。
　複数の前記被写体ごとに、前記被写体動画像を記録する個別画像記録部と、
　複数の前記被写体ごとに、前記被写体動画像に対して操作が行われるたびに前記操作内容を記録する操作記録部と
　をさらに備え、
　前記画像処理部は、前記操作記録部に記録されている最新の操作内容を、前記個別画像記録部に記録されている前記被写体動画像に対して反映させる
　請求項１に記載の画像処理システム。
　前記動画像に写されている前記被写体までの距離を測定する距離測定部と、
　前記距離測定部により測定された前記被写体までの距離に基づいて、所定の被写体が撮像されている前記動画像から前記被写体を切り抜く画像処理を行うことにより、前記被写体動画像を生成する切り抜き画像処理部と
　をさらに備える請求項１に記載の画像処理システム。
　前記距離測定部は、前記被写体までの距離を測定する演算を行う際に、その演算結果が正しい確率を示す確度情報を、前記動画像を構成する画素単位で前記被写体動画像に対して付加し、
　前記画像処理部は、前記切り抜き画像処理部により本来であれば削除すべき不要領域が残ったままの状態に対して、前記不要領域を削除する操作が行われた場合、前記確度情報を参照して、前記不要領域を削除する画像処理を行う
　請求項３に記載の画像処理システム。
　前記画像処理部は、前記被写体動画像の中で自動検出可能な一領域部分を中心とし、前記一領域部分からの相対位置および相対サイズに従って、前記不要領域を削除する画像処理を行う
　請求項４に記載の画像処理システム。
　前記画像処理部は、前記被写体動画像を生成する対象となる前記動画像において固定的に表れる前記不要領域を、前記動画像を基準に設定された位置に従って削除する画像処理を行う
　請求項４に記載の画像処理システム。
　前記画像処理部は、前記被写体動画像に対してトリミングさせる前記操作内容に応じて、そのトリミングの基準として設定された基準位置を中心として相対的なトリミングを行う位置およびサイズに基づいて、前記被写体動画像をトリミングする画像処理を行う
　請求項１に記載の画像処理システム。
　前記画像処理部は、前記被写体が動いたとしても前記被写体動画像に対応して一意に決定される変換パラメータを利用して、前記被写体動画像に対する前記操作内容に応じた画像処理を行う
　請求項１に記載の画像処理システム。
　前記画像処理部は、前記被写体動画像に対して拡大、縮小、平行移動、または回転させる前記操作内容に応じて、前記変換パラメータを利用した画像処理を行う
　請求項８に記載の画像処理システム。
　前記操作内容が指定時刻に反映されるように事前に登録しておき、
　前記画像処理部は、前記指定時刻になったタイミングで、前記被写体動画像に対して、登録されている前記操作内容に応じた画像処理を行う
　請求項１に記載の画像処理システム。
　所定の指定時刻で反映されるように複数の前記操作内容が事前に登録されている場合、それらの操作内容のうち、実際に反映させる操作内容に対する投票が行われ、
　前記画像処理部は、最多の投票があった前記操作内容に応じた画像処理を、前記指定時刻になったタイミングで前記被写体動画像に対して行う
　請求項１０に記載の画像処理システム。
　所定の被写体が撮像されている動画像から前記被写体が映されている領域を含むように生成された被写体動画像に対して、前記被写体ごとに個別に、前記被写体動画像に対して行われた操作内容に応じた画像処理を行い、
　画像処理が施された前記被写体動画像と、他の動画像とを合成して、少なくとも１つの前記被写体が配置される合成動画像を生成する
　ステップを含む画像処理方法。
　所定の被写体が撮像されている動画像から前記被写体が映されている領域を含むように生成された被写体動画像に対して、前記被写体ごとに個別に、前記被写体動画像に対して行われた操作内容に応じた画像処理を行い、
　画像処理が施された前記被写体動画像と、他の動画像とを合成して、少なくとも１つの前記被写体が配置される合成動画像を生成する
　ステップを含む画像処理をコンピュータに実行させるプログラム。