WO2020145138A1

WO2020145138A1 - 映像編集装置、その方法、およびプログラム

Info

Publication number: WO2020145138A1
Application number: PCT/JP2019/050734
Authority: WO
Inventors: 利明武田; 弾三上; 草地　良規
Original assignee: 日本電信電話株式会社
Priority date: 2019-01-09
Filing date: 2019-12-25
Publication date: 2020-07-16
Also published as: US11508412B2; JP2020113842A; US20220093131A1; JP7052737B2

Abstract

多視点カメラで撮影した複数の映像を用いて生成した回り込み映像を視聴者が見やすいように編集することができる映像編集装置等を提供する。N個の被写体の位置と大きさに関する情報に基づき、被写体の位置に関する多項式と被写体の大きさに関する多項式とを生成し、被写体の位置に関する多項式を用いて多項式近似曲線によるN個の被写体の位置の補正または補間を行い、被写体の大きさに関する多項式を用いて多項式近似曲線によるN個の被写体の大きさの補正または補間を行い、拡縮パラメータpによりN個の被写体の大きさを拡大または縮小させる。回り込み映像の長さを示すパラメータをTpとし、隣接する撮影装置に対応する2つの同じサイズの画像から中間画像を生成し、回り込み映像を生成する。

Description

映像編集装置、その方法、およびプログラム

　本発明は、複数の撮影装置によって撮影した映像の編集を行う映像編集装置、その方法、およびプログラムに関する。

　従来から、被写体を取り囲むように多視点カメラを配置し、撮影した映像をカメラの並びに沿って切り替えることで、動きのある被写体をあたかもカメラが回り込んだような映像（以下、回り込み映像という）を得る映像編集方法が知られている（例えば、非特許文献１参照）。

　図１は、多視点カメラの配置例を示す図である。この例では、被写体２０１を取り囲むように、時刻を同期したN台のカメラ２０－ｎを配置している。なお、nは撮影装置（この例ではカメラ）を示すインデックスであり、n=1,2,…,Nである。なお、N台のカメラ２０－ｎで撮影した映像は時刻同期できるものとする。

　図２は多視点カメラ入力であり、図１の多視点カメラで撮影した映像の、同期した時刻cにおける画像I(n,c)を映した画面を示している。

　図３は、各カメラの画像に対するラベルを説明するための図である。Camｎはｎ番目のカメラを示すラベルであり、Numｃは時刻cの画像を意味し、カメラnの時刻cの画像をI(n,c)とし、そのラベルをCamｎ Numｃとする。

　図４は、ラベルを付与した画像における被写体の骨格を推定し、推定結果を重畳した画像の例を示す。例えば、画像から人物の骨格を推定する技術として非特許文献２が知られている。この例では、被写体に対して、回り込み映像の回り込む候補であることを示す人物番号（この例では１）と候補を囲む枠５０２が表示されている。ここで、骨格情報として、顔５０３、首下５０４、中腹部５０５、右足首５０６、左足首５０７を示す●が示されていて、各部位の位置情報を得ることができる。

　また、類似する画像領域の分析に関する研究も行われており（例えば、非特許文献３参照）、類似する画像領域に基づき、あるカメラ２０－ｎで撮影した被写体が他のカメラ２０－ｎ’（n'=1,2,…,N、ただし、n'≠n）で撮影した画像のどの画像領域に対応するかを判定することができる。つまり、N個の画像に存在する被写体を同定することができる。

　従来技術では被写体を取り囲むよう配置されたN個のカメラによって撮影された映像のある時刻の画像をカメラの並びに沿って切り替えることで、ある時刻における回り込み映像を得る。

池谷健佑他、「多視点ロボットカメラシステムを用いた映像表現手法」、ＮＨＫ、２０１２年映像情報メディア学会年次大会講演予稿集、Vol.2012, Page.21-1 Zhe Cao and Tomas Simon and Shih-En Wei and Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", CVPR, 2017. 多田昌裕他、「類似する画像領域の特徴解析と視覚感性のモデル化」、電子情報通信学会論文誌、D-II、情報・システム、II-パターン処理、D-II 87(10)、1983-1995, 2004-10-01

　しかしながら、複数のカメラを設置し、非特許文献２により人物の骨格を推定して人物認識を行ったり、非特許文献３を利用して被写体を同定しても、様々な条件により被写体に関する完全な位置情報を得られる訳ではなく、誤認識や情報欠損が生じる。誤認識や欠損し情報に基づき、回転した映像を合成した場合、被写体の位置が上下左右に変動するため連続性が感じられなくなり、見づらくなってしまうことがある。以下、図５を参照してより詳しく説明する。図５は、カメラ２０－ｎで撮影された映像の時刻cにおける、被写体の候補の周りに枠と候補を示す番号を重畳した画像の例を示す。二人の被写体の候補の人物１、２が映されていることが分かる。画像I(2,c)において、人物が入替わり認識されていて、人物の骨格認識の誤認識例が示されている。画像I(4,c)において、人物が認識されておらず、不認識例が示されている。このように、人物の骨格認識では、誤認識や情報欠損が起こる場合がある。

　また、複数のカメラを設置し、被写体の正しい位置情報を得られても、複数のカメラで撮影した映像の、ある時刻における画像の被写体の大きさが均一でなく、被写体の大きさが変動するため連続性が感じられなくなり、回転した合成映像が見づらくなってしまうことがある。

　本発明は、多視点カメラで撮影した複数の映像を用いて生成した回り込み映像を視聴者が見やすいように編集することができる映像編集装置、その方法、およびプログラムを提供することを目的とする。

　上記の課題を解決するために、本発明の一態様によれば、映像編集装置は、Nを3以上の整数の何れかとし、被写体を取り囲むよう配置されたN個の撮影装置によって撮影された映像を撮影装置の並びに沿って切り替えることで、あたかも撮影装置が被写体を回り込んだときに得られる映像である回り込み映像を得る。映像編集装置は、N個の撮影装置から得られる画像に対して、撮影装置を示すラベルと、時刻を示すラベルとを付与するラベル付与部と、ラベルを付与した画像に存在する被写体の位置と大きさに関する情報との組合せを抽出する位置大きさ抽出部と、N個の被写体の位置と大きさに関する情報に基づき、被写体の位置に関する多項式と被写体の大きさに関する多項式とを生成し、被写体の位置に関する多項式を用いて多項式近似曲線によるN個の被写体の位置の補正または補間を行い、被写体の大きさに関する多項式を用いて多項式近似曲線によるN個の被写体の大きさの補正または補間を行い、拡縮パラメータpによりN個の被写体の大きさを拡大または縮小させる位置大きさ決定部と、ラベルを付与したN個の画像から補正または補間および拡大または縮小されたN個の被写体の位置と大きさとに基づく切り取り範囲を切り取る画像切り取り部と、切り取ったN個の画像のサイズを同じサイズに変換する画像サイズ整合部と、回り込み映像の長さを示すパラメータをTpとし、隣接する撮影装置に対応する2つの同じサイズの画像から中間画像を生成し、回り込み映像を生成する映像編集部とを含む。

　本発明によれば、多視点カメラで撮影した複数の映像を用いて生成した回り込み映像を視聴者が見やすいように編集することができるという効果を奏する。

多視点カメラの配置例を示す図。多視点カメラ入力の例を示す図。各カメラの画像に対するラベルを説明するための図。ラベルを付与した画像における被写体の骨格を推定し、推定結果を重畳した画像の例を示す図。カメラで撮影された映像のある時刻における、被写体の候補の周りに枠と候補を示す番号を重畳した画像の例を示す図。図６Ａは候補の人物１についてのCam番号（横軸）とX値（縦軸）の関係の例を示す図、図６Ｂは候補の人物２についての、Cam番号（横軸）とX値（縦軸）の関係の例を示す図。図７ＡはN=5における倍率パラメータp_nの例を示す図、図７ＢはN=10における倍率パラメータp_nの例を示す図。画像切り取り処理の内容を説明するための図。図９Ａは候補の人物１についての画像サイズ整合部の出力の画像、すなわち、N個の切り取り画像の大きさを正規化して並べたものを示す図、図９Ｂは候補の人物２についての画像サイズ整合部の出力の画像、すなわち、N個の切り取り画像の大きさを正規化して並べたものを示す図。隣接するカメラに対応する二つの画像の例を示す図。ブレンド割合B(n+1,t)、B(n,t)とtとの関係を示す図。第一実施形態に係る映像編集装置の機能ブロック図。第一実施形態に係る映像編集装置の処理フローの例を示す図。第一実施形態に係る位置大きさ決定部の処理フローの例を示す図。

　以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

　以下、各実施形態のポイントを説明する。

＜第一実施形態のポイント＞
　第一実施形態では、誤認識や情報欠損に対応するために、被写体の位置および大きさに関する多項式を用いて多項式近似曲線によるN個の被写体の位置および大きさの補正または補間を行う（第二実施形態のポイント１で具体例を示す）。

　拡縮パラメータpによりN個の補正または補間された被写体の大きさを拡大または縮小させる（第二実施形態のポイント２で具体例を示す）。

　また、隣接する撮影装置に対応する2つの同じサイズの画像から中間画像を生成し、長さTpの回り込み映像を生成する（第三実施形態のポイントで具体例を示す）。

＜第二実施形態のポイント１＞
　図６は、多項式近似曲線による情報の補正と補間を説明するための図である。なお、第二実施形態では、多項式近似曲線による情報の補正と補間を行うため、Nは3以上の整数の何れかである。

　図６Ａ、図６Ｂは、それぞれ候補の人物１、２についての、Cam番号（横軸）とX値（縦軸）の関係の例を示している。なお、Cam番号は、カメラの並びに対応するものとする。そのため、Camｎに対応するカメラ２０－ｎとCamｎ+１に対応するカメラ２０－ｎ＋１とは隣接する。

　まず、人物１の位置に関するN個の情報に基づき、人物１の位置（X値）に関する多項式（近似式）を生成する。なお、情報が欠損している場合には、欠損していない残りの情報のみを用いて多項式を生成してもよいし、欠損している情報の代わりに、(1)欠損していない残りの情報の平均、(2)欠損していない情報のうち、欠損している情報に対応するカメラと物理的に最も近い位置に配置されたカメラに対応する情報（複数存在する場合には、その平均、例えば、隣接するカメラに対応する情報が何れも欠損していない場合には、それらの平均）等を用いて、多項式を生成してもよい。

　図中、●は誤差（観測値と真値との差分）が極めて小さいデータを表し、○は誤差が大きいデータを表し、破線の○は補正または補間されたデータを表す。観測値として人物の骨格認識の結果得られる値を利用し、真値として多項式（近似式）上の値を用いる。例えば、誤差率(誤差/真値)が所定の閾値より小さい場合（または閾値以下の場合）に誤差が極めて小さいデータとし、誤差率が所定の閾値以上の場合（または閾値より大きい場合）に誤差が大きいデータと判断する。

　第二実施形態では、誤差が大きいデータと判断した場合、誤差が大きいデータを多項式近似曲線によって補正し、誤認識例の大きな誤差を緩和する。例えば、誤差が大きいデータを近似式上の値に置換することで補正する。これにより、誤認識例の大きな誤差を緩和できることを示している。

　また、第二実施形態では、情報が欠損している場合、欠損している情報を近似式上の値に置換することで補間する。図６Ｂは、不認識例のデータを補間できることを示している。

　図６は、縦軸がX値の例であるが、Y値、大きさについても同様の方法により補正または補間することができる。

＜第二実施形態のポイント２＞
　図４の骨格推定結果を用いて人物の大きさを調整する処理を行い、大きすぎず小さすぎない大きさにすることで、回転した合成映像が見づらくなってしまうという課題を解決する。

　図７は、画像の切り取りサイズを指定するための、倍率のパラメータp_nの1例である。ここで、
G=(1+n)/2
G₂＝N-G
p_n=p-(p-1)×{(n-G)/G₂ ²}
である。pは拡縮パラメータであり、所定の値である。例えば、利用者によって指定される値であってもよいし、何らかの初期値であってもよい。

　倍率のパラメータp_nは、拡大縮小の倍率パラメータである。第二実施形態では、上述のパラメータp,G,G₂により図７のように倍率パラメータp_nを２次曲線で作成することにより、拡縮を制御する。式から分かるように、p_nは最大値、または、最小値においてpになるように2次曲線で作成する。

　図７Ａ、図７Ｂは、それぞれN=5、N=10の例を示す。各図において、横軸はカメラ番号を、縦軸p_n値を示している。p=1.15、p=1.1のp_n値を示す。

　図８は、画像切り取り処理の内容を説明するための図である。

　ラベルCamｎ Numｃ(n=1,2,…,N)が付与されたN個の画像I(n,c)から、被写体を切り取り範囲で切り取り、NumｃにおけるN個の切り取り画像I_cut(n,c)を取得する。

　画像I(n,c)において、被写体の中心として、補正または補間された中心X座標値Xs(n)と補正または補間された中心Y座標値Ys(n)とを用いる。

　切り取り画像I_cut(n,c)は、補正または補間された中心X座標値Xs(n)と補正または補間された中心Y座標値Ys(n)を中心とし、右上値(XsR(n),YsU(n))、左上値(XsL(n),YsU(n))、右下値(XsR(n),YsD(n))、左下値(XsL(n),YsD(n))により定まる。なお、補正または補間された大きさをLs(n)とすると、{(XsR(n),YsU(n)),(XsL(n),YsU(n)),(XsR(n),YsD(n)),(XsL(n),YsD)(n)}={(Xs(n)-a×Ls(n)×p_n,Ys(n)-b×Ls(n)×p_n),(Xs(n)+a×Ls(n)×p_n,Ys(n)-b×Ls(n)×p_n),(Xs(n)-a×Ls(n)×p_n,Ys(n)+b×Ls(n)×p_n),(Xs(n)+a×Ls(n)×p_n,Ys(n)+b×Ls(n)×p_n)}である。ここで、a,bはアスペクト比を特定するパラメータであり、例えばそれぞれ2, 1.5とすることでアスペクト比4:3の画像を得ることができる。

　図９は、後述する画像サイズ整合部の出力の画像であり、N個の切り取り画像の大きさを正規化して並べたものである。正規化することで、目的の被写体のサイズが調度良い大きさになり、回転時のガタガタが抑えられ、連続性を感じられ、見やすいものとなる。

　図９Ａは図５の候補の人物１の切り取り画像であり、図９Ｂは図５の候補の人物２の切り取り画像である。

　図９Ａと図９Ｂの切り取り画像I_cut(2,c)では、誤認識での大きな誤差を補正している。

　図９Ｂの切り取り画像I_cut(4,c)では、不認識でのデータを補間している。

　具体的には、
(1)各画像から骨格推定結果を求め、骨格推定結果から縦サイズを得る。
(2)多項式近似により各画像の被写体の縦サイズの補正または補間する。
(3)補正または補間した縦サイズに対して拡縮効果を入れる。
(4)拡縮効果を入れた画像の大きさを正規化する。

　なお、(3)の拡縮効果を入れることで以下の効果を得ることができる。

　前述のとおり、被写体の大きさを調度良い同じ大きさや滑らかにする処理を入れ、極力に振動を抑え込む。しかし一方で、被写体を同じ大きさに表示させる処理を行うがために、被写体を回転映像にしてみると、被写体の大きさの振動（以下、大きさのガタガタ振動）をかえって目で知覚させやすくなってしまう（見づらくなる）場合がある。そのような場合もあるため、拡縮効果を入れ、被写体の大きさを変えていくことで、被写体を回転映像にした時、ガタガタ振動を目で知覚しにくくする（見づらくならないようにする）。

　このように、骨格推定結果の誤差や情報欠損について、近似式をあてはめることにより、誤認識を小さくする処理（補正する処理）と欠損した情報の補間する処理と人物の大きさ調整と拡縮処理を行い、切り取り画像の拡縮率を変え、回転した合成映像を見やすく編集する。

＜第三実施形態のポイント＞
　あるカメラから得られる切り取り画像と、そのカメラに隣接するカメラから得られる切り取り画像とから中間画像を生成し、中間画像から映像を生成することで、視聴者の違和感をより低減する。

　Tpを回り込み映像の長さ(時間的な長さ)を示すパラメータとする。回り込み映像の時刻tにおけるn+1番目の画像I(n+1,c')とn番目の画像I(n,c')との間の中間画像I(t)は、次式により求める。
Tc=Tp/(N-1)
t=Tc×(n-1)+1,…,Tc×nのとき、
B(n+1,t)=1/[1+Exp[Ng×{Tc×(n-0.5)-t}/Tc]]
B(n,t)=1-B(n+1,t)
I(t)=I(n+1,c')×B(n+1,t)+I(n,c')×B(n,t)
である。ただし、n=1,2,…,N-1である。一例として、Ng=9である。

　なお、画像I(n+1,c')、画像I(n,c')は、補正または補間および拡大または縮小された被写体の位置と大きさとに基づく切り取り範囲で切り取ったものを、規格化（同じサイズに変換）したものである。時刻を表すインデックスc'は多視点カメラで撮影した映像の、同期した時刻の何れかを表し、c'=1,2,…,Zの何れかである。第三実施形態では、N個の映像のある時刻c'のN個の画像I(n,c')から、Tp時間の回り込み映像を生成する。ｔは、回り込み映像における時刻を表すインデックスである。

　図１０は画像I(n+1,c')、画像I(n,c')の例を示し、図１１はブレンド割合B(n+1,t)、B(n,t)とtとの関係を示す。横軸の右端において時刻t=Tc×（n-1）、左端において時刻t=Tc×n(つまり、t=Tc×(n-1),…,Tc×n)、中間において時刻t=Tc×（n-0.5）である。この例では、Ng=9、nの最大値がN-1であるとき(つまり、n=1,2,…,N-1のとき)の画像I(n+1,c')、画像I(n,c')とのブレンド割合B(n+1,t)(破線)、B(n,t)(実線)の曲線が示されている。

　このように、可変可能な時間パラメータTpに基づき、カメラ間の中間画像を合成することで、カメラ間の視点移動画像を合成することができる。

＜第一実施形態＞
　図１２は第一実施形態に係る映像編集装置の機能ブロック図を、図１３はその処理フローを示す。

　映像編集装置は、IF部１０１、ラベル付与部１０２、位置大きさ抽出部１０３、IF部１０４、位置大きさ決定部１０５、画像切り取り部１０６、画像サイズ整合部１０７、IF部１０８、映像編集部１０９、IF部１１０を含む。

　映像編集装置は、N個の映像（多視点映像）を入力とし、回り込み映像の回り込む候補を囲む枠（図４参照）を重畳したN個の映像を出力する。枠を重畳したN個の映像を視た利用者が何れかの候補を指定し、回り込み映像の元となるN個の画像の時刻と、さらに、拡縮パラメータpおよび回り込み映像の長さを示すパラメータTpとを指定し、映像編集装置に入力する。例えば、ディスプレイやタッチパネル等の出力装置に、枠を重畳したN個の映像を表示し、N個の映像のうちの何れかに表示された候補を利用者がマウスやタッチパネル、キーボード等の入力装置を用いて指定する。指定したタイミングを回り込み映像の元となるN個の画像の時刻とする。また、利用者が、まず入力装置を用いて時刻(回り込み映像の元となるN個の画像の時刻)を指定し、時刻に対応する枠を重畳したN個の画像を出力装置に表示し、表示された候補を利用者が入力装置を用いて指定してもよい。要は、利用者が、回り込み映像の元となるN個の画像の時刻と、候補と、拡縮パラメータpおよび回り込み映像の長さを示すパラメータTpとを指定することができるように、何らかの映像や画像を表示し、指定された情報を取得できればよい。

　映像編集装置は、指定された候補と、時刻と、拡縮パラメータpと、パラメータTpとを入力とし、指定された候補、時刻の、拡縮パラメータpに対応した、長さTpの回り込み映像を生成し、出力する。

　なお、N個の映像（多視点映像）はカメラなどの撮影装置から直接入力されるものに限らず、記憶媒体に記憶されたものを用いてもよいし、映像編集装置内の記憶部に記憶されたものを用いてもよい。

　映像編集装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。映像編集装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。映像編集装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。映像編集装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。映像編集装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも映像編集装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、映像編集装置の外部に備える構成としてもよい。

　以下、各部について説明する。

＜IF部１０１＞
　IF部１０１は、N個の映像（多視点映像）を入力とし、同期したN個の映像を出力する。

＜ラベル付与部１０２＞
　ラベル付与部１０２は、同期したN個の映像を入力とし、同期したN個の映像を構成する画像に対して、撮影装置を示すラベルと、時刻を示すラベルとを付与し（Ｓ１０２、図３参照）、ラベルを付与した画像I(n,c)を出力する。各映像がZ個の画像からなる場合には、撮影装置を示すラベルと、時刻を示すラベルとを付与してN×Z個の画像I(n,c)を出力する。なお、N個の映像を撮影した撮影装置は、被写体を取り囲むよう配置されているものとし、撮影装置の並びは予め分かっているものとする。

＜位置大きさ抽出部１０３＞
　位置大きさ抽出部１０３は、ラベルを付与した画像I(n,c)を入力とし、ラベルを付与した画像に存在する被写体の候補を示すインデックスmとその被写体の候補の位置と大きさに関する情報info(m)との組合せ(I(n,c),m,info(m))を抽出し（Ｓ１０３）、ラベルを付与した画像に被写体の候補を囲む枠を重畳した画像I'(n,c)をIF部１０４に出力し、被写体の候補を示すインデックスとその被写体の候補の位置と大きさに関する情報との組合せ(n,c,m,info(m))を位置大きさ決定部１０５に出力する。N×Z個の画像に、それぞれM体の被写体の候補が存在する場合には、N×Z×M個の被写体の候補を示すインデックスとその被写体の候補の位置と大きさに関する情報との組合せ(n,c,m,info(m))を抽出する。なお、被写体が一時的に画像から存在しなくなる場合には、存在していないことを示す情報を位置と大きさに関する情報として利用すればよい。

　なお、画像から所定の対象（例えば人間）を検出し、検出した対象に枠を重畳技術としては、どのような画像認識（人物認識）技術を用いてもよい。枠が表示されると被写体の候補が認識できていることを示唆し、枠が表示されないと被写体の候補が認識できていないことを示唆している。

　被写体の候補の位置と大きさに関する情報を取得する方法としては、どのような取得方法を用いてもよい。例えば、非特許文献２の方法で画像に存在する被写体の候補の骨格を推定し、推定結果(骨格推定結果)を候補の位置と大きさに関する情報として利用してもよい。

　N個の画像に存在する１つ以上の被写体の候補をそれぞれ同定し、被写体の候補を示すインデックスを付与する際には、どのような同定方法を用いてもよい。例えば、非特許文献３を利用して、N個の画像に存在する被写体を同定してもよい。

＜IF部１０４＞
　IF部１０４は、ラベルを付与した画像に被写体の候補を囲む枠を重畳した画像I'(n,c)（図４参照）を入力とし、外部の出力装置に出力する。

　前述の通り、利用者が、回り込み映像の元となるN個の画像の時刻と、候補と、拡縮パラメータpおよび回り込み映像の長さを示すパラメータTpとを指定することができるように、何らかの映像や画像を出力装置を介して利用者に表示する。

＜IF部１０８＞
　IF部１０８は、利用者に指定された候補と、時刻と、拡縮パラメータpと、パラメータTpとを入力とし、指定された候補と、時刻と、拡縮パラメータpとを位置大きさ決定部１０５に出力する。また、IF部１０８は、指定された時刻を画像切り取り部１０６に出力し、パラメータTpを映像編集部１０９に出力する。なお、候補の指定、拡縮パラメータpと、パラメータTpの入力がない場合には、指定された候補と、拡縮パラメータp、パラメータTpとして、前回使用した値や初期値等を使用してもよい。

＜位置大きさ決定部１０５＞
　位置大きさ決定部１０５は、被写体の候補を示すインデックスとその被写体の候補の位置と大きさに関する情報との組合せと、指定された候補と、時刻と、拡縮パラメータpとを入力とする。

　まず、位置大きさ決定部１０５は、被写体の候補を示すインデックスとその被写体の候補の位置と大きさに関する情報との組合せ(n,c,m,info(m))の中から指定された候補と時刻とに対応する組合せ(n,c',m',info(m'))を抽出する。c'は指定された時刻のインデックスを示し、m'は指定された候補のインデックスを示す。例えば、N×Z×M個の被写体の候補を示すインデックスとその被写体の候補の位置と大きさに関する情報との組合せを入力とする場合には、N×Z×M個の組合せ(n,c,m,info(m))の中から、指定された被写体の候補（以降、指定された被写体の候補を単に被写体とも呼ぶ）と、時刻とで指定されるN個の被写体の位置と大きさに関する情報(n,c',m',info(m'))を抽出する。

　位置大きさ決定部１０５は、N個の被写体の位置と大きさに関する情報(n,c',m',info(m'))から補正または補間および拡大または縮小されたN個の被写体の位置と大きさ{Xs(n),Ys(n),size(n)}を求め（Ｓ１０５）、補正または補間および拡大または縮小されたN個の被写体の位置と大きさとに基づく切り取り範囲{(XsR(n),YsU(n)),(XsL(n),YsU(n)),(XsR(n),YsD(n)),(XsL(n),YsD(n))}を出力する。具体的には、以下のように求める。

　位置大きさ決定部１０５は、N個の被写体の位置と大きさに関する情報に基づき、被写体の位置に関する多項式と被写体の大きさに関する多項式とを生成する。

　さらに、位置大きさ決定部１０５は、被写体の位置に関する多項式を用いて多項式近似曲線によるN個の被写体の位置の補正または補間を行う。

　位置大きさ決定部１０５は、被写体の大きさに関する多項式を用いて多項式近似曲線によるN個の被写体の大きさの補正または補間を行い、拡縮パラメータpによりN個の被写体の大きさを拡大または縮小させる。

＜画像切り取り部１０６＞
　画像切り取り部１０６は、指定された時刻c'と、ラベルを付与したN×Z個の画像I(n,c)とN個の切り取り範囲{(XsR(n),YsU(n)),(XsL(n),YsU(n)),(XsR(n),YsD(n)),(XsL(n),YsD(n))}とを入力とする。

　まず、ラベルを付与した画像I(n,c)の中から指定された時刻c'に対応するN個の画像I(n,c')を抽出する。N個の画像I(n,c')からそれぞれN個の切り取り範囲{(XsR(n),YsU(n)),(XsL(n),YsU(n)),(XsR(n),YsD(n)),(XsL(n),YsD(n))}を切り取り（Ｓ１０６）、切り取ったN個の画像I_cut(n,c')出力する。

＜画像サイズ整合部１０７＞
　画像サイズ整合部１０７は、切り取ったN個の画像I_cut(n,c')を入力とし、N個の画像I_cut(n,c')のサイズを同じサイズに変換し（Ｓ１０７）、同じサイズに変換したN個の切り取った画像I_st(n,c')を出力する。

＜映像編集部１０９＞
　映像編集部１０９は、パラメータTpと同じサイズに変換したN個の切り取った画像I_st(n,c')とを入力とし、隣接する撮影装置に対応する2つの同じサイズの画像I_st(n+1,c'),I_st(n,c')から中間画像I(t)を生成し、中間画像(t)に基づき、長さTpの回り込み映像を生成し（Ｓ１０９）、出力する。ただし、Tc=Tp/(N-1)とする。

＜IF部１１０＞
　IF部１１０は、回り込み映像を入力とし、回り込み映像を外部の出力装置に出力する。

＜効果＞
　以上の構成により、多視点カメラで撮影した複数の映像を用いて生成した回り込み映像を視聴者が見やすいように編集することができる。

　より詳しく説明すると、被写体の位置に関する多項式を用いて多項式近似曲線によるN個の被写体の位置の補正または補間を行うことで、被写体の位置が上下左右に変動し、連続性が感じられなくなり、見づらくなってしまうという課題を解決している。

　さらに、被写体の大きさに関する多項式を用いて多項式近似曲線によるN個の被写体の大きさの補正または補間を行い、拡縮パラメータpによりN個の被写体の大きさを拡大または縮小させることで、被写体の大きさが変動するため連続性が感じられなくなり、回転した合成映像が見づらくなってしまうという課題を解決している。

　また、隣接する撮影装置に対応する2つの同じサイズの画像から中間画像を生成し、長さTpの回り込み映像を生成することで、隣接する撮影装置に対応する2つの同じサイズの画像を滑らかに繋げることができる。撮影手段の個数Nの値大きく、撮影手段が密に配置されることが望ましいが、本実施形態では、中間画像を生成することで、比較的Nの値が小さい場合(例えばN=5)であっても画像を滑らかに繋げることができる。

＜変形例＞
　本実施形態では、N個の映像の中に1体以上の被写体の候補が存在し、その中から1つの被写体を指定する構成としたが、N個の映像の中に1体の被写体の候補しか存在しない場合にはその被写体の候補を被写体とし、被写体を指定する処理、構成を省略してもよい。

＜第二実施形態＞
　第一実施形態と異なる部分を中心に説明する。

　本実施形態では、図１４を参照して位置大きさ決定部１０５の具体的な処理の一例を説明する。

　本実施形態では、骨格推定結果を被写体の位置と大きさに関する情報とする。

　位置大きさ決定部１０５が、被写体の候補を示すインデックスとその被写体の位置と大きさに関する情報との組合せの中から指定された候補と時刻とに対応する組合せを抽出するまでの処理は第一実施形態と同じである。その後、第二実施形態では、位置大きさ決定部１０５は、被写体の位置と大きさに関する情報である図４の被写体の骨格推定情報から顔５０３、中腹部５０５、右足首５０６、左足首５０７の座標値(X_face(n),Y_face(n)),(X_belly(n),Y_belly(n)),(X_Rankle(n),Y_Rankle(n)),(X_Lankle(n),Y_Lankle(n))を得る。なお、情報が欠損している場合にはNULLを取得してもよい。

　位置大きさ決定部１０５は、次式により、N個の骨格推定結果からそれぞれN個の被写体の縦サイズYsize(n)を得る。
Y1(n)=Y_face(n)-Y_Rankle(n)
Y2(n)=Y_face(n)-Y_Lankle(n)
Ysize(n)=(Y1(n)+Y2(n))/2
なお、情報が欠損している場合にはNULLを取得してもよい。

　中腹部５０５の座標値(X_belly(n),Y_belly(n))を被写体の位置とし、縦サイズYsize(n)を得、これを被写体の大きさとして取得する（Ｓ９０１）。

　N個の被写体の位置と大きさに関する情報から、情報の欠損が多くて、３つ以上の被写体の大きさと被写体の位置を得られない場合には（Ｓ９０２のNOの場合）、多項式近似曲線による補正または補間ができないものと判断し、回り込み映像の編集を行わず処理を終了する（Ｓ９０４）。

　３つ以上の被写体の大きさと被写体の位置を得られる場合（Ｓ９０２のYESの場合）、＜第二実施形態のポイント１＞で説明した処理を行う。

　位置大きさ決定部１０５は、３つ以上の被写体の位置を用いて、被写体の位置に関する多項式を生成する。さらに被写体の位置に関する多項式を用いて多項式近似曲線によるN個の被写体の位置の補正または補間を行う（Ｓ９０５）。

　例えば、被写体の位置に関する多項式に当てはめたときに、閾値よりも大きな外れ値を有する場合に、外れ値となった位置を多項式で求めた値に置換することで補正する（図６参照）。また、n番目の被写体の位置が欠損してる場合に、欠損している位置を多項式で求めた値に置換することで補間する（図６Ｂ参照）。

　位置大きさ決定部１０５は、３つ以上の被写体の大きさを用いて、被写体の大きさに関する多項式を生成する。さらに被写体の大きさに関する多項式を用いて多項式近似曲線によるN個の被写体の大きさの補正または補間を行う（Ｓ９０６）。

　例えば、被写体の大きさに関する多項式に当てはめたときに、閾値よりも大きな外れ値を有する場合に、外れ値となった大きさを多項式で求めた値に置換することで補正する。また、n番目の被写体の大きさが欠損してる場合に、欠損している大きさを多項式で求めた値に置換することで補間する。

　以上の処理により、補正または補間された被写体の位置と大きさを取得する。なお、上述の閾値判定や欠損判定の後に、外れ値や欠損がなく実際に補正または補間しない場合もあるが、それらも合わせて、補正または補間された被写体の位置と大きさと呼ぶ。

　次に、位置大きさ決定部１０５は、拡縮パラメータpの指定がある場合（Ｓ１００２のYesの場合）、以下のＳ１００４（＜第二実施形態のポイント２＞で説明した処理）を実行し、拡縮パラメータpの指定がない場合（Ｓ１００２のNoの場合）、以下のＳ１００５を実行する。

（Ｓ１００５（拡縮パラメータpの指定がない場合））
　補正または補間された被写体の位置を(Xs(n),Ys(n))とし、補正または補間された被写体の大きさをLs(n)とすると、切り取り範囲を、Xs(n)に対してX軸方向に±a×Ls(n)、Ys(n)に対してY軸方向に±b×Ls(n)とする。つまり、切り取り範囲を{(Xs(n)-a×Ls(n),Ys(n)-b×Ls(n)),(Xs(n)+a×Ls(n),Ys(n)-b×Ls(n)),(Xs(n)-a×Ls(n),Ys(n)+b×Ls(n)),(Xs(n)+a×Ls(n),Ys(n)+b×Ls(n))}として求める。

（Ｓ１００４（拡縮パラメータpの指定がある場合））
　拡縮パラメータpにより補正または補間されたN個の被写体の大きさを拡大または縮小させる。例えば、第二実施形態のポイント２で説明した処理を行い、拡縮パラメータpを用いて、N個の被写体の倍率パラメータp_nを2次曲線で作成し、N個の被写体の大きさを拡大または縮小させる。より詳しくは以下の処理を行う。まず、
G=(1+n)/2
G₂＝N-G
p_n=p-(p-1)×{(n-G)/G₂ ²}
を求める。切り取り範囲をパラメータp_nに基づきXs(n)に対してX軸方向に±a×Ls(n)×p_n、Ys(n)に対してY軸方向に±b×Ls(n)×p_nとする。つまり、切り取り範囲を{(Xs(n)-a×Ls(n)×p_n,Ys(n)-b×Ls(n)×p_n),(Xs(n)+a×Ls(n)×p_n,Ys(n)-b×Ls(n)×p_n),(Xs(n)-a×Ls(n)×p_n,Ys(n)+b×Ls(n)×p_n),(Xs(n)+a×Ls(n)×p_n,Ys(n)+b×Ls(n)×p_n)}として求める。なお、視聴者には、p_nが大きいほど切り取り範囲が大きくなり切り取り画像における被写体の割合は小さくなり縮小しているように見え、p_nが小さいほど切り取り範囲が小さくなり切り取り画像における被写体の割合は大きくなり拡大しているように見える。

＜変形例＞
　本実施形態では、Ｓ１００５（拡縮パラメータpの指定がない場合）に、切り取り範囲を{(Xs(n)-a×Ls(n),Ys(n)-b×Ls(n)),(Xs(n)+a×Ls(n),Ys(n)-b×Ls(n)),(Xs(n)-a×Ls(n),Ys(n)+b×Ls(n)),(Xs(n)+a×Ls(n),Ys(n)+b×Ls(n))}として求める例を示したが、第一実施形態で説明したように、拡縮パラメータpとして、前回使用した値や初期値等を使用してもよい。

　本実施形態では、中腹部の座標値を被写体の位置とし、縦サイズを被写体の大きさとして利用しているが、他の値を被写体の位置、大きさとして利用してもよい。例えば、複数の座標値の重心や中心等を被写体の位置としてもよいし、横サイズや面積等を被写体の大きさとしてもよい。

＜第三実施形態＞
　第一実施形態と異なる部分を中心に説明する。

　本実施形態では、映像編集部１０９の具体的な処理の一例を説明する。

　映像編集部１０９は、パラメータTpと同じサイズに変換したN個の切り取った画像とを入力とし、隣接する撮影装置に対応する2つの同じサイズの画像から中間画像を生成する。例えば、n+1番目の画像I(n+1,c')とn番目の画像I(n,c')(図１０参照)とから、n+1番目の画像I(n+1,c')とn番目の画像I(n,c')との間の中間画像I(t)を次式により生成する。
B(n+1,t)=1/[1+Exp[Ng×{Tc×(n-0.5)-t}/Tc]]
B(n,t)=1-B(n+1,t)
I(t)=I(n+1,c')×B(n+1,t)+I(n,c')×B(n,t)
なお、ブレンド割合B(n+1,t)、B(n,t)は図１１で示すようにtに応じて変化する。Tc=Tp/(N-1)
t=Tc×(n-1)+1,…,Tc×n
である。

　一例として、Ng=9である。n=1,2,…N-1とすることで、中間画像I(t)を生成する。中間画像I(t)を順番に並べることで長さTpの回り込み映像を生成する。
＜その他の変形例＞
　本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
　また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　Nを3以上の整数の何れかとし、被写体を取り囲むよう配置されたN個の撮影装置によって撮影された映像を前記撮影装置の並びに沿って切り替えることで、あたかも前記撮影装置が前記被写体を回り込んだときに得られる映像である回り込み映像を得る映像編集装置であって、
　N個の撮影装置から得られる画像に対して、撮影装置を示すラベルと、時刻を示すラベルとを付与するラベル付与部と、
　ラベルを付与した画像に存在する被写体の位置と大きさに関する情報との組合せを抽出する位置大きさ抽出部と、
　N個の前記被写体の位置と大きさに関する情報に基づき、前記被写体の位置に関する多項式と前記被写体の大きさに関する多項式とを生成し、前記被写体の位置に関する多項式を用いて多項式近似曲線によるN個の前記被写体の位置の補正または補間を行い、前記被写体の大きさに関する多項式を用いて多項式近似曲線によるN個の前記被写体の大きさの補正または補間を行い、拡縮パラメータpによりN個の前記被写体の大きさを拡大または縮小させる位置大きさ決定部と、
　前記ラベルを付与したN個の画像から補正または補間および拡大または縮小されたN個の前記被写体の位置と大きさとに基づく切り取り範囲を切り取る画像切り取り部と、
　切り取ったN個の画像のサイズを同じサイズに変換する画像サイズ整合部と、
　回り込み映像の長さを示すパラメータをTpとし、隣接する撮影装置に対応する2つの同じサイズの画像から中間画像を生成し、回り込み映像を生成する映像編集部とを含む、
　映像編集装置。
　請求項１の映像編集装置であって、
　n=1,2,…Nとし、前記被写体は人間であり、前記被写体の大きさに関する情報は画像から人間の骨格を推定して得られる骨格推定結果であり、
　前記位置大きさ決定部は、N個の骨格推定結果からN個の被写体の縦サイズを被写体の大きさとして得、前記被写体の大きさに関する多項式に当てはめたときに、閾値よりも大きな外れ値を有する場合に、外れ値となった縦サイズを多項式で求めた値に置換することで補正し、n番目の前記被写体の縦サイズが欠損している場合に、欠損している縦サイズを多項式で求めた値に置換することで補間し、
　前記拡縮パラメータpを用いて、前記N個の被写体の倍率パラメータを2次曲線で作成し、N個の前記被写体の大きさを拡大または縮小させることで、前記被写体の拡縮を制御する、
　映像編集装置。
　請求項１または請求項２の映像編集装置であって、
　前記位置大きさ決定部は、
n=1,2,…Nとし、
G=(1+n)/2
G₂＝N-G
p_n=p-(p-1)×{(n-G)/G₂ ²}
とし、a,bを所定のパラメータとし、n番目の撮影装置から得られる画像の、補正または補間された前記被写体の位置を(Xs(n),Ys(n))とし、補正または補間された前記被写体の大きさをLs(n)とし、補正または補間および拡大または縮小されたN個の前記被写体の位置と大きさとに基づく切り取り範囲{(Xs(n)-a×Ls(n)×p_n,Ys(n)-b×Ls(n)×p_n),(Xs(n)+a×Ls(n)×p_n,Ys(n)-b×Ls(n)×p_n),(Xs(n)-a×Ls(n)×p_n,Ys(n)+b×Ls(n)×p_n),(Xs(n)+a×Ls(n)×p_n,Ys(n)+b×Ls(n)×p_n)}を求める、
　映像編集装置。
　請求項１から請求項３の何れかの映像編集装置であって、
　回り込み映像の時刻tにおける、n+1番目の画像I(n+1,c')とn番目の画像I(n,c')との間の中間画像I(t)は、
Tc=Tp/(N-1)、n=1,2,…N-1、t=Tc×(n-1)+1,…,Tc×nのとき、
B(n+1,t)=1/[1+Exp[Ng×{Tc×(n-0.5)-t}/Tc]]
B(n,t)=1-B(n+1,t)
I(t)=I(n+1,c')×B(n+1,t)+I(n,c')×B(n,t)
である、
　映像編集装置。
　Nを3以上の整数の何れかとし、映像編集装置を用いて、被写体を取り囲むよう配置されたN個の撮影装置によって撮影された映像を前記撮影装置の並びに沿って切り替えることで、あたかも前記撮影装置が前記被写体を回り込んだときに得られる映像である回り込み映像を得る映像編集方法であって、
　前記映像編集装置が、N個の撮影装置から得られる画像に対して、撮影装置を示すラベルと、時刻を示すラベルとを付与するラベル付与ステップと、
　前記映像編集装置が、ラベルを付与した画像に存在する被写体の位置と大きさに関する情報との組合せを抽出する位置大きさ抽出ステップと、
　前記映像編集装置が、N個の前記被写体の位置と大きさに関する情報に基づき、前記被写体の位置に関する多項式と前記被写体の大きさに関する多項式とを生成し、前記被写体の位置に関する多項式を用いて多項式近似曲線によるN個の前記被写体の位置の補正または補間を行い、前記被写体の大きさに関する多項式を用いて多項式近似曲線によるN個の前記被写体の大きさの補正または補間を行い、拡縮パラメータpによりN個の前記被写体の大きさを拡大または縮小させる位置大きさ決定ステップと、
　前記映像編集装置が、前記ラベルを付与したN個の画像から補正または補間および拡大または縮小されたN個の前記被写体の位置と大きさとに基づく切り取り範囲を切り取る画像切り取りステップと、
　前記映像編集装置が、切り取ったN個の画像のサイズを同じサイズに変換する画像サイズ整合ステップと、
　前記映像編集装置が、回り込み映像の長さを示すパラメータをTpとし、隣接する撮影装置に対応する2つの同じサイズの画像から中間画像を生成し、回り込み映像を生成する映像編集ステップとを含む、
　映像編集方法。
　請求項１から請求項４の何れかの映像編集装置としてコンピュータを機能させるためのプログラム。