WO2022209220A1

WO2022209220A1 - 画像処理装置および画像処理方法、並びに記録媒体

Info

Publication number: WO2022209220A1
Application number: PCT/JP2022/002510
Authority: WO
Inventors: 良徳大橋
Original assignee: ソニーグループ株式会社
Priority date: 2021-03-31
Filing date: 2022-01-25
Publication date: 2022-10-06
Also published as: US20240169638A1

Abstract

本開示は、リアルタイムに自由視点で表示可能なコンテンツの配信を良好に行うことができるようにする画像処理装置および画像処理方法、並びに記録媒体に関する。決定部は、撮像画像から推定される、被写体の複数の関節情報と任意のキャラクタモデルの複数のキャラクタモデル関節情報との対応関係の比較結果に基づいて、複数の関節情報と複数のキャラクタモデル関節情報との少なくとも一部が不一致である場合、複数の関節情報で対応関係のないキャラクタモデル関節情報を推定し、全てのキャラクタモデル関節情報を決定する。姿勢推定部は、決定部により決定されたキャラクタモデル関節情報置を初期位置として、キャラクタモデルの全身の姿勢を推定する。本技術は、例えば、リアルタイム自由視点配信を行う配信システムに適用できる。

Description

画像処理装置および画像処理方法、並びに記録媒体

　本開示は、画像処理装置および画像処理方法、並びに記録媒体に関し、特に、リアルタイムに自由視点で表示可能なコンテンツの配信を良好に行うことができるようにした画像処理装置および画像処理方法、並びに記録媒体に関する。

　従来、画像からスポーツ選手の体の関節位置を推定し、その推定された関節位置を任意の３Ｄキャラクタモデルに適用することで、スポーツ競技をリアルタイムに自由な視点で表示可能とするようなコンテンツを配信する技術の開発が進められている。

　このように、画像から推定された関節位置を任意の３Ｄキャラクタモデルに適用するためには、関節位置のみでなく、全てのボーンの回転を適切に求めることが必要となる。しかしながら、ボーンの回転は３Ｄキャラクタモデルによって異なるため、画像から推定された関節位置を任意の３Ｄキャラクタモデルに適用して、自然な姿勢で描画することは困難であった。

　そこで、例えば、特許文献１に開示されているように、関節位置を入力とする木構造に拡張したFABRIK（Forward And Backward Reaching Inverse Kinematics）を適用し、各ボーンの回転を適切に求める技術が提案されている。

国際公開第２０２０／０７０９２８号

　ところで、上述の特許文献１で提案されている技術において、３Ｄキャラクタモデルには存在する関節位置が、入力された関節位置にはない場合には、やはり自然な姿勢で描画することに困難が生じることがある。そのため、このような場合、配信されるコンテンツをリアルタイムに自由視点で表示しても不自然な表示となってしまい、そのようなコンテンツの配信を良好に行うことができないと想定される。

　本開示は、このような状況に鑑みてなされたものであり、リアルタイムに自由視点で表示可能なコンテンツの配信を良好に行うことができるようにするものである。

　本開示の一側面の画像処理装置は、撮像画像から推定される、被写体の複数の関節情報と任意のキャラクタモデルの複数のキャラクタモデル関節情報との対応関係の比較結果に基づいて、複数の前記関節情報と複数の前記キャラクタモデル関節情報との少なくとも一部が不一致である場合、複数の前記関節情報で対応関係のない前記キャラクタモデル関節情報を推定し、全ての前記キャラクタモデル関節情報を決定する決定部と、決定された前記キャラクタモデル関節情報を初期位置として、キャラクタモデルの全身の姿勢を推定する姿勢推定部とを備える。

　本開示の一側面の画像処理方法または記録媒体は、撮像画像から推定される、被写体の複数の関節情報と任意のキャラクタモデルの複数のキャラクタモデル関節情報との対応関係の比較結果に基づいて、複数の前記関節情報と複数の前記キャラクタモデル関節情報との少なくとも一部が不一致である場合、複数の前記関節情報で対応関係のない前記キャラクタモデル関節情報を推定し、全ての前記キャラクタモデル関節情報を決定することと、決定された前記キャラクタモデル関節情報を初期位置として、キャラクタモデルの全身の姿勢を推定することとを含む。

　本開示の一側面においては、撮像画像から推定される、被写体の複数の関節情報と任意のキャラクタモデルの複数のキャラクタモデル関節情報との対応関係の比較結果に基づいて、複数の関節情報と複数のキャラクタモデル関節情報との少なくとも一部が不一致である場合、複数の関節情報で対応関係のないキャラクタモデル関節情報が推定され、全てのキャラクタモデル関節情報が決定され、決定されたキャラクタモデル関節情報を初期位置として、キャラクタモデルの全身の姿勢が推定される。

本技術を適用した配信システムの一実施の形態の構成例を示すブロック図である。クライアント端末の構成例を示すブロック図である。３Ｄキャラクタモデルに適用される骨格構造の一例を示す図である。クライアント端末における処理の一例を説明する図である。関節数の異なる３頭身の３Ｄキャラクタモデルに対する適用例を説明する図である。リアルタイム自由視点再生処理について説明するフローチャートである。前方到達フェーズ処理を説明するフローチャートである。後方到達フェーズおよびルート群変形処理を説明するフローチャートである。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

　以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

　＜配信システムの構成例＞
　図１は、本技術を適用した配信システムの一実施の形態の構成例を示すブロック図である。

　図１に示す配信システム１１は、キャプチャシステム１２、ボーン配信サーバ１３、および複数のクライアント端末１４（図１の例では、２つのクライアント端末１４－１および１４－２）が、ネットワークを介して接続されて構成される。ここでは、スポーツ競技をリアルタイムに自由な視点で表示可能なコンテンツの配信（以下、リアルタイム自由視点配信）に配信システム１１を利用する利用例について説明する。なお、配信システム１１は、スポーツに限らず様々なコンテンツのリアルタイム自由視点配信に利用することができる。

　キャプチャシステム１２は、複数台の撮像装置を有しており、それらの撮像装置によって様々な方向からスポーツ競技が撮像されることによって複数の動画像を取得する。そして、キャプチャシステム１２は、複数の動画像を解析して、スポーツ選手の関節位置を推定することにより取得される関節位置情報を、ネットワークを介してボーン配信サーバ１３に送信する。

　例えば、関節位置情報は、スポーツ選手などの人物を特定する人物ＩＤ（Identification）、キャプチャシステム１２により推定可能な関節を特定する関節ＩＤ、関節ＩＤごとの関節の位置を示す位置データ（ｘ，ｙ，ｚ）が含まれるデータの一覧からなる。このため、関節位置情報は、例えば、動画像の送信と比較して少ないデータ量の送信となる。

　ボーン配信サーバ１３は、キャプチャシステム１２から送信されてくる関節位置情報を受信し、ネットワークを介して、複数のクライアント端末１４にリアルタイムに配信する。

　クライアント端末１４は、ボーン配信サーバ１３から配信されてくる関節位置情報を任意の３Ｄキャラクタモデルに適用することで、実際のスポーツ選手の姿勢を３Ｄキャラクタモデルによって再現する。そして、クライアント端末１４は、例えば、ユーザの操作に応じた自由な視点からスポーツ競技を見ているように、スポーツ選手の姿勢を再現した３Ｄキャラクタモデルをレンダリングする。従って、図示するように、クライアント端末１４－１のユーザとクライアント端末１４－２のユーザとは、それぞれ異なる視点でスポーツ競技を観戦することができる。クライアント端末１４は、例えば、クラウド上に保存されている３Ｄキャラクタモデルをダウンロードして利用してもよいし、ユーザのローカル環境にある３Ｄキャラクタモデルを利用してもよい。また、クライアント端末１４は、３Ｄキャラクタモデルに代えて、２次元的なキャラクタモデルを利用してもよい。

　このように配信システム１１は、スポーツ選手の関節位置情報を配信し、クライアント端末１４において関節位置情報を任意の３Ｄキャラクタモデルに適用するような構成でリアルタイム自由視点配信を実現することができ、ユーザは、スポーツ選手の姿勢を再現する３Ｄキャラクタモデルを自由に切り替えて観戦することができる。

　ところで、キャプチャシステム１２において複数の方向からスポーツ競技を撮像しても、例えば、スポーツ選手の身体に腕や足などが隠れてしまう場合、全ての関節位置を推定することができないことがある。即ち、画像に写されているスポーツ選手から推定された複数の関節と、３Ｄキャラクタモデルの骨格構造を構成する複数の関節とが不一致となる。この場合、推定することができなかった関節位置が不足している関節位置情報がクライアント端末１４に配信されてしまい、最も多くの関節位置が推定された関節位置情報を３Ｄキャラクタモデルに適用してレンダリングを行っても、実際のスポーツ選手の姿勢を３Ｄキャラクタモデルによって再現することが困難になると想定される。

　そこで、配信システム１１では、関節位置が不足している関節位置情報が配信されるような場合であっても、クライアント端末１４が、実際のスポーツ選手の姿勢を３Ｄキャラクタモデルによって再現することができるように構成される。なお、配信システム１１では、撮像画像から推定される、被写体の関節数と関節位置とを示す関節情報が配信されてもよい。

　＜クライアント端末の構成例＞
　図２は、クライアント端末１４の構成例を示すブロック図である。

　図２に示すように、クライアント端末１４は、３Ｄキャラクタモデル記憶部２１、関節位置情報受信部２２、初期位置決定部２３、回転推定部２４、姿勢推定更新部２５、およびレンダリング部２６を備えて構成される。

　３Ｄキャラクタモデル記憶部２１には、任意の３Ｄキャラクタモデルが記憶されている。例えば、３Ｄキャラクタモデルは、それぞれ３Ｄキャラクタモデルごとに三次元的な骨格構造が規定されている。図３には、３Ｄキャラクタモデル記憶部２１に記憶されている３Ｄキャラクタモデルに適用される骨格構造の一例が示されている。また、図示するような形状の骨格構造を、３Ｄキャラクタモデルの基本姿勢とする。このような骨格構造に関節位置情報を適用することで、スポーツ選手の体形に一致するように３Ｄキャラクタモデルの体形が調整される。

　ここで、骨格構造は、複数の関節ノードがボーンで連結された構成となっており、図３に示す例では、骨盤の関節ノードpelvisをルートノードとしたツリー構造となっている。なお、骨盤の関節ノードpelvisの他、脊椎の関節ノードspine_1乃至spine_3をルートノードとして扱ってもよい。また、ルートノード以外の関節ノード（頭部の関節ノードhead、首の関節ノードneck_1、右鎖骨の関節ノードclavicle_r、右上腕の関節ノードupperarm_r、右前腕の関節ノードlowerarm_r、右手の関節ノードhand_r、左鎖骨の関節ノードclavicle_l、左上腕の関節ノードupperarm_l、左前腕の関節ノードlowerarm_l、左手の関節ノードhand_l、右大腿の関節ノードthigh_r、右膨ら脛の関節ノードcalf_r、右足の関節ノードfoot_r、右足の親指の付け根の関節ノードball_r、左大腿の関節ノードthigh_r、左膨ら脛の関節ノードcalf_r、左足の関節ノードfoot_r、左足の親指の付け根の関節ノードball_r）を末端の関節ノードとも称する。

　関節位置情報受信部２２は、ボーン配信サーバ１３から配信されてくる関節位置情報を受信して、初期位置決定部２３に供給する。例えば、関節位置情報受信部２２は、スポーツ競技に参加している全てのスポーツ選手の人物ＩＤごとに、それぞれの人物ＩＤに対応付けた関節ＩＤおよび位置データ（ｘ，ｙ，ｚ）の一覧を初期位置決定部２３に供給する。以下では、クライアント端末１４で実行される各処理は、人物ＩＤごとに行われるものとする。

　初期位置決定部２３は、関節位置情報受信部２２から供給された関節ＩＤおよび位置データ（ｘ，ｙ，ｚ）を用いて、３Ｄキャラクタモデルの骨格構造を構成する全ての関節の初期位置を決定する。このとき、初期位置決定部２３は、関節位置情報で関節が不足している場合には、関節位置情報では不足していた３Ｄキャラクタモデルの関節の位置を推定することができる。

　例えば、初期位置決定部２３は、関節位置情報受信部２２から供給された関節位置情報に含まれている関節ＩＤにより特定される複数の関節と、３Ｄキャラクタモデル記憶部２１に記憶されている３Ｄキャラクタモデルの骨格構造を構成する複数の関節とを比較し、それらの関節どうしの対応関係を特定する。そして、初期位置決定部２３は、３Ｄキャラクタモデルの骨格構造を構成する複数の関節のうち、関節位置情報の関節ＩＤにより特定される複数の関節との間で対応関係を特定することができた関節については、関節位置情報の位置データ（ｘ，ｙ，ｚ）を、その特定できた関節の初期位置として用いることを決定する。

　一方、初期位置決定部２３は、３Ｄキャラクタモデルの骨格構造を構成する複数の関節のうち、関節位置情報の関節ＩＤにより特定される複数の関節との間で対応関係を特定することができない関節がある場合、関節位置情報で関節が不足していると判断する。従って、この場合、初期位置決定部２３は、関節位置情報で不足していた３Ｄキャラクタモデルの関節の位置を推定し、その推定された位置の位置データ（ｘ，ｙ，ｚ）を、関節位置情報で不足していた関節の初期位置として用いることを決定する。

　このように、初期位置決定部２３は、３Ｄキャラクタモデルの骨格構造を構成する全ての関節の初期位置を決定することができ、それらの関節の関節ＩＤおよび位置データ（ｘ，ｙ，ｚ）の一覧を、回転推定部２４および姿勢推定更新部２５に供給する。

　回転推定部２４は、初期位置決定部２３から供給された関節ＩＤおよび位置データ（ｘ，ｙ，ｚ）に基づいて、複数に枝分かれしている末端の関節ノード（例えば、頭や、両手、両足など）の回転を推定し、関節ＩＤごとのロール回転量θを求める。さらに、回転推定部２４は、末端の関節ノードの枝分かれの元となるルートノード（例えば、腰や胸など）の回転を推定し、関節ＩＤごとのロール回転量θを求める。これにより、回転推定部２４は、３Ｄキャラクタモデルの全ての関節ノードのロール回転量θを求めて、それらの関節ＩＤおよびロール回転量θを姿勢推定更新部２５に供給する。

　姿勢推定更新部２５は、初期位置決定部２３から供給された関節ＩＤおよび位置データ（ｘ，ｙ，ｚ）と、回転推定部２４から供給された関節ＩＤおよびロール回転量θを入力としてFABRIK Treeアルゴリズムを実行することにより、３Ｄキャラクタモデルの全身の姿勢を推定する。なお、FABRIK Treeアルゴリズムについては、上述した特許文献１において詳細に開示されており、特許文献１の内容も本実施の形態で取り入れて、姿勢推定更新部２５はFABRIK Treeアルゴリズムを実行することができる。そして、姿勢推定更新部２５は、３Ｄキャラクタモデルの全身の姿勢を推定した結果として求められる関節ＩＤごとの位置データ（ｘ，ｙ，ｚ）および回転データ（ｘ，ｙ，ｚ，ｗ）を、レンダリング部２６に供給する。

　レンダリング部２６は、３Ｄキャラクタモデル記憶部２１から３Ｄキャラクタモデルを読み出し、その３Ｄキャラクタモデルを構成する骨格構造の各関節ノードに、姿勢推定更新部２５から供給される位置データ（ｘ，ｙ，ｚ）および回転データ（ｘ，ｙ，ｚ，ｗ）を適用する。これにより、レンダリング部２６は、実際のスポーツ選手の姿勢を３Ｄキャラクタモデルによって再現し、所望の自由な視点から３Ｄキャラクタモデルをレンダリングしてスポーツ競技の画像を描画し、図示しない表示デバイスに出力する。また、レンダリング部２６は、この位置データ（ｘ，ｙ，ｚ）および回転データ（ｘ，ｙ，ｚ，ｗ）を保存しておくことで、スポーツ競技を見返す際にはFABRIK Treeアルゴリズムを実施することなく同じ骨格をもつ３Ｄキャラクタモデルに姿勢を適用し、レンダリングし直すことができる。

　このように構成されるクライアント端末１４は、ボーン配信サーバ１３から配信される関節位置情報に不足の関節があっても、不足している関節の位置を推定して初期位置を決定することで、３Ｄキャラクタモデルを自然な姿勢で描画することができる。

　従って、配信システム１１では、コンテンツをリアルタイムに自由視点で表示しても不自然な表示となることを回避することができ、リアルタイムに自由視点で表示可能なコンテンツの配信を良好に行うことができる。また、配信システム１１は、スポーツ観戦以外にも適用可能である。例えば、配信システム１１は、コンサートや演劇、ダンス、バレエ、歌舞伎、サーカス、落語、コントなどの各種のライブパフォーマンスで、ステージ上の全ての演者の関節情報を配信してもよい。これにより、クライアント端末１４では、そのような各種のライブパフォーマンスがリアルタイムに自由視点で表示される。

　ここで、図４を参照して、クライアント端末１４が、ボーン配信サーバ１３から配信されてくる関節位置情報を３Ｄキャラクタモデルに適用して、３Ｄキャラクタモデルを構成する骨格構造の各ボーンの姿勢を推定する処理の一例について説明する。

　例えば、ボーン配信サーバ１３から配信されてくる関節位置情報には各関節の位置データ（ｘ，ｙ，ｚ）が含まれているものの、関節の回転量は含まれていない。また、上述したように、キャプチャシステム１２において関節位置を推定することができなかった場合には、その関節位置の位置データが不足した関節位置情報が配信される。または、キャプチャシステム１２において関節位置を推定することができたとしても、３Ｄキャラクタモデルを構成する骨格構造の関節が多い場合にも、配信されてくる関節位置情報では、関節位置の位置データが不足することになる。例えば、図４に示す関節位置情報において×印が付けられている関節位置については、位置データが不足していることを表している。

　そして、このような位置データが不足した関節位置情報をそのまま３Ｄキャラクタモデルに適用しても、その不足している位置データの関節については不自然な３Ｄキャラクタモデルとなってしまう。そこで、クライアント端末１４は、人物の関節位置を入力とし、任意の３Ｄキャラクタモデルに適用して適切に描画するために、関節位置情報で不足していた関節位置を推定して初期位置として決定し、ツリー構造に対応したFABRIKアルゴリズムを用いることで、３Ｄキャラクタモデルを構成する全てのボーンの回転を適切に求めることができる。また、３Ｄキャラクタモデルの関節位置が、ボーン配信サーバ１３から配信される関節位置情報より少ない場合にも適用することができる。つまり、ボーン配信サーバ１３から配信される関節位置情報が３Ｄキャラクタモデルの関節位置よりも多い場合は、配信された関節位置情報のうち、３Ｄキャラクタモデルに存在する（対応関係が特定された）関節のみを、初期位置として与えればよい。

　初期位置決定部２３は、関節位置情報で不足していた関節位置の初期位置として、例えば、腰から胸までの関節ノードであれば、腰から胸を結んだ直線上で、基本姿勢の各ボーンの長さ分の間隔を空けて配置することで、その不足分の関節位置を推定する。または、初期位置決定部２３は、ボーン配信サーバ１３から連続的に配信されてくる関節位置情報の、関節位置が不足していた関節位置情報の直前の関節位置情報に含まれている関節位置を、その不足分の関節位置として推定してもよい。

　そして、姿勢推定更新部２５は、これらの関節位置をツリー構造に対応したFABRIKアルゴリズムに入力し、前方到達フェーズおよび後方到達フェーズを繰り返し行って、関節位置を３Ｄキャラクタモデルに合わせ込む。これにより、姿勢推定更新部２５は、関節位置から各ボーンの姿勢を推定し、例えば、全てのボーンの回転を求め、３Ｄキャラクタモデルに適用する。

　これにより、クライアント端末１４は、ボーン配信サーバ１３から配信されてくる関節位置情報に不足の関節位置があっても、任意の３Ｄキャラクタモデルに適切に適用して描画すること可能となる。また、クライアント端末１４は、ボーン配信サーバ１３から配信されてくる関節位置情報が３Ｄキャラクタモデルの関節と一致しない場合や、等身や体格が異なる３Ｄキャラクタモデルであっても、関節位置情報を３Ｄキャラクタモデルに適切に適用して描画することが可能となる。例えば、クライアント端末１４では、関節位置情報に従った関節間の長さと、３Ｄキャラクタモデルの関節位置に従った関節間の長さとが異なる場合、初期位置決定部２３は、関節位置情報における関節間の長さを調整して３Ｄキャラクタモデルの関節間の長さに合わせた後に、初期位置を決定する。なお、FABRIKは軽量なアルゴリズムであることより、クライアント端末１４においてリアルタイム処理を行うことが可能である。

　また、クライアント端末１４では、FABRIKでは求められない、末端の関節ノードや、腰や胸などのルートノードの回転を、他の関節ノードの位置関係から求め、FABRIKの入力として用いることができる。

　例えば、回転推定部２４は、顔の向きを左右の目の位置から求めることや、足の向きを腰の向きに合わせて求めることができる。また、回転推定部２４は、腰の向きを、胸、右足、および左足の位置で求めることや、胸の向きを、頭、右肩、および左肩の位置で求めることができる。

　また、両手の姿勢は、２本以上の指の関節（またはそれに相当するもの）が取得できる場合には計算で求められるのに対し、２本以上の指の関節が取得できない場合には、ロール回転（腕のボーン軸の回転）以外は手と手首の位置関係から求められる。例えば、両手のロール回転については、常に右手および左手の手の平が互いに向かい合うようにすることで求めることができる。また、スポーツ向けのデータでボールの情報が取得できる場合には、ボールの位置に最も近い手の平がボールの方を向くように求めてもよい。なお、他の体の関節ノードの位置情報を入力とする機械学習ネットワークなどを利用してもよい。

　また、クライアント端末１４では、適用する３Ｄキャラクタモデルのスケールを、頭から足までの関節位置の距離の最大値から求めて適用してもよい。これにより、例えば、関節数の異なる３頭身の３Ｄキャラクタモデルに適用することができる。

　図５を参照して、関節数の異なる３頭身の３Ｄキャラクタモデルに対する適用例について説明する。

　例えば、クライアント端末１４では、３Ｄキャラクタモデルの頭から足の距離が、入力関節位置の頭から足の距離の最大値に一致するように、３Ｄキャラクタモデルのスケールが調整される。そして、初期位置決定部２３は、ボーン配信サーバ１３から配信されてくる関節位置情報を初期位置として決定し、姿勢推定更新部２５は、その初期位置を入力としてFABRIK Treeアルゴリズムを実行する。これにより、クライアント端末１４では、関節数や等身の異なる３Ｄキャラクタモデルであっても、入力の関節位置が反映された全身の姿勢を推定することができる。

　＜リアルタイム自由視点再生処理の処理例＞
　図６は、配信システム１１によってリアルタイム自由視点配信されるコンテンツをクライアント端末１４において再生するリアルタイム自由視点再生処理について説明するフローチャートである。

　ステップＳ１１において、関節位置情報受信部２２は、ボーン配信サーバ１３から配信されてくる関節位置情報を受信し、初期位置決定部２３に供給する。

　ステップＳ１２において、初期位置決定部２３は、ステップＳ１１で関節位置情報受信部２２から供給された関節位置情報の関節ＩＤにより特定される複数の関節と、３Ｄキャラクタモデル記憶部２１に記憶されている３Ｄキャラクタモデルの骨格構造を構成する複数の関節とを比較する。そして、初期位置決定部２３は、関節位置情報に不足の関節がある場合には、関節位置情報で不足していた３Ｄキャラクタモデルの関節の位置を推定する。これにより、初期位置決定部２３は、３Ｄキャラクタモデルの骨格構造を構成する全ての関節の初期位置を決定し、それらの関節ＩＤおよび位置データ（ｘ，ｙ，ｚ）の一覧を、回転推定部２４および姿勢推定更新部２５に供給する。

　ステップＳ１３において、回転推定部２４は、ステップＳ１２で初期位置決定部２３から供給された関節ＩＤおよび位置データ（ｘ，ｙ，ｚ）に基づいて、末端の関節ノード（例えば、頭や、両手、両足など）の回転を推定する。これにより、回転推定部２４は、末端の関節ノードごとのロール回転量θを求めて、それらの関節ＩＤおよびロール回転量θを姿勢推定更新部２５に供給する。なお、ロール回転量θには回転方向（＋方向または－方向）を示す情報が含まれている。

　ステップＳ１４において、回転推定部２４は、ステップＳ１２で初期位置決定部２３から供給された関節ＩＤおよび位置データ（ｘ，ｙ，ｚ）に基づいて、ルートノードの関節ノード（例えば、腰や胸など）の回転を推定する。これにより、回転推定部２４は、ルートノードの関節ノードごとのロール回転量θを求めて、それらの関節ＩＤおよびロール回転量θを姿勢推定更新部２５に供給する。

　ステップＳ１５において、姿勢推定更新部２５は、ステップＳ１４で回転推定部２４から供給されたルートノードの関節ノード、例えば、骨盤の関節ノードpelvisのロール回転量θに合わせて、３Ｄキャラクタモデルの基本姿勢の全てのボーンを回転する。

　その後、姿勢推定更新部２５は、ステップＳ１６において、前方到達フェーズ処理（後述する図７参照）を実行し、ステップＳ１７において、後方到達フェーズおよびルート群変形処理（後述する図８参照）を実行する。

　ステップＳ１８において、姿勢推定更新部２５は、ステップＳ１６およびＳ１７を繰り返して行うことによって、末端の関節ノードの位置データ（ｘ，ｙ，ｚ）の差が、所定の閾値以下になったか否かを判定する。

　ステップＳ１８において、姿勢推定更新部２５が、末端の関節ノードの位置データ（ｘ，ｙ，ｚ）の差が、所定の閾値以下になっていないと判定した場合、処理はステップＳ１６に戻って、ステップＳ１６およびＳ１７が繰り返して行われる。

　一方、ステップＳ１８において、姿勢推定更新部２５が、末端の関節ノードの位置データ（ｘ，ｙ，ｚ）の差が、所定の閾値以下になったと判定した場合、処理はステップＳ１９に進む。なお、姿勢推定更新部２５は、ステップＳ１６およびＳ１７を繰り返した回数が、既定の最大回数となった場合にも、即ち、ステップＳ１６およびＳ１７を最大回数だけ繰り返して行った場合にも、処理をステップＳ１９に進めることができる。

　ステップＳ１９において、姿勢推定更新部２５は、最終的にステップＳ１７で求められた全ての関節ノードの位置データ（ｘ，ｙ，ｚ）に基づいて、３Ｄキャラクタモデルを構成する全てのボーンの角度を計算する。これにより、姿勢推定更新部２５は、３Ｄキャラクタモデルの全身の姿勢を推定し、その計算結果として、全ての関節ノードの位置データ（ｘ，ｙ，ｚ）および回転データ（ｘ，ｙ，ｚ，ｗ）をレンダリング部２６に供給する。

　ステップＳ２０において、レンダリング部２６は、ステップＳ１９で姿勢推定更新部２５から供給された全ての関節ノードの位置データ（ｘ，ｙ，ｚ）および回転データ（ｘ，ｙ，ｚ，ｗ）を、３Ｄキャラクタモデル記憶部２１から読み出した３Ｄキャラクタモデルに反映する。これにより、レンダリング部２６は、ボーン配信サーバ１３から配信されてくる関節位置情報に従った姿勢を３Ｄキャラクタモデルによって再現し、所望の自由な視点から３Ｄキャラクタモデルをレンダリングして得られるスポーツ競技の画像を出力する。

　図７は、図６のステップＳ１６において実行される前方到達フェーズ処理を説明するフローチャートである。

　ステップＳ３１からステップＳ３６までの処理は、リストＴｎｓに含まれる要素ｎｉで繰り返して行われる。

　ステップＳ３１において、姿勢推定更新部２５は、要素ｎｉはルートノードであるか否かを判定し、要素ｎｉはルートノードである場合にはステップＳ３２乃至Ｓ３６の処理はスキップされる。

　ステップＳ３１において、姿勢推定更新部２５が、要素ｎｉはルートノードでないと判定した場合、処理はステップＳ３２に進み、前方到達フェーズノード群ＦＮｓに要素ｎｉを追加する。

　ステップＳ３３において、姿勢推定更新部２５は、ステップＳ３２で追加した要素ｎｉを、要素ｎｉの親ノードに更新する。

　ステップＳ３４において、姿勢推定更新部２５は、要素ｎｉの子ノードの数が２以上であるか、または、要素ｎｉがルートノードであるか否かを判定する。

　ステップＳ３４において、姿勢推定更新部２５が、要素ｎｉの子ノードの数が２以上ではなく、かつ、要素ｎｉがルートノードでないと判定した場合、処理はステップＳ３２に戻り、以下、同様の処理が繰り返して行われる。一方、ステップＳ３４において、姿勢推定更新部２５が、要素ｎｉの子ノードの数が２以上であると判定した場合、または、要素ｎｉがルートノードであると判定した場合、処理はステップＳ３５に進む。

　ステップＳ３５において、姿勢推定更新部２５は、サブルートノード群ＲＮｓに要素ｎｉを追加する。

　ステップＳ３６において、姿勢推定更新部２５は、前方到達フェーズノード群ＦＮｓに対して前方到達フェーズを実行する。

　このようなステップＳ３１からステップＳ３６までの処理が、リストＴｎｓに含まれる要素ｎｉで繰り返して行われた後、処理はステップＳ３７に進む。

　ステップＳ３７において、姿勢推定更新部２５は、サブルートノード群ＲＮｓに含まれるノードがあるか否かを判定し、サブルートノード群ＲＮｓに含まれるノードがあると判定した場合、処理はステップＳ３８に進む。

　ステップＳ３８において、姿勢推定更新部２５は、サブルートノード群ＲＮｓを次のリストＴｎｓとする。その後、処理は最初に戻って、次のリストＴｎｓに対して同様の処理が繰り返して行われる。

　一方、ステップＳ３７において、姿勢推定更新部２５が、サブルートノード群ＲＮｓに含まれるノードがないと判定した場合、前方到達フェーズ処理は終了される。

　図８は、図６のステップＳ１７において実行される後方到達フェーズおよびルート群変形処理を説明するフローチャートである。

　ステップＳ４１において、姿勢推定更新部２５は、サブルートノードをノードｎに設定する。

　ステップＳ４２において、姿勢推定更新部２５は、後方到達フェーズノード群ＢＮｓにノードｎを追加する。

　ステップＳ４３において、姿勢推定更新部２５は、ノードｎの子ノードの数が１であるか否かを判定し、ノードｎの子ノードの数が１である場合、処理はステップＳ４４に進む。

　ステップＳ４４において、姿勢推定更新部２５は、ノードｎを、ノードｎの子ノードに更新する。その後、処理はステップＳ４２に戻り、以下、同様の処理が繰り返して行われる。

　一方、ステップＳ４３において、姿勢推定更新部２５が、ノードｎの子ノードの数が１でないと判定した場合、処理はステップＳ４５に進む。

　ステップＳ４５において、姿勢推定更新部２５は、後方到達フェーズノード群ＢＮｓに対して後方到達フェーズを実行する。

　ステップＳ４６において、姿勢推定更新部２５は、ノードｎの子ノードの数が２以上であるか否かを判定し、ノードｎの子ノードの数が２以上でない（即ち、ノードｎの子ノードの数が２未満である）と判定した場合、処理は終了される。一方、ステップＳ４６において、姿勢推定更新部２５が、ノードｎの子ノードの数が２以上であると判定した場合、処理はステップＳ４７に進む。

　ステップＳ４７において、姿勢推定更新部２５は、ノードｎを中心とするサブルート群を変形する。

　ステップＳ４８の処理は、ノードｎの子ノードの要素ｎｃｉで繰り返して行われる。ステップＳ４８において、姿勢推定更新部２５は、要素ｎｃｉを次のサブルートとして、ステップＳ４１以降の処理（即ち、要素ｎｃｉを対象とした後方到達フェーズおよびルート群変形処理）を実行する。

　このようなステップＳ４８の処理が、ノードｎの子ノードの要素ｎｃｉで繰り返して行われた後、後方到達フェーズおよびルート群変形処理は終了される。

　以上のようなリアルタイム自由視点再生処理によって、クライアント端末１４は、配信システム１１によってリアルタイム自由視点配信されるコンテンツについて、ボーン配信サーバ１３から配信される関節位置情報に不足の関節があっても、３Ｄキャラクタモデルを自然な姿勢で良好に再生することができる。

　なお、このような図７および図８を参照して説明した処理については、上述した特許文献１において詳細に開示されている。

　＜コンピュータの構成例＞
　次に、上述した一連の処理（画像処理方法）は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

　図９は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示すブロック図である。

　プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やROM１０３に予め記録しておくことができる。

　あるいはまた、プログラムは、ドライブ１０９によって駆動されるリムーバブル記録媒体１１１に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウェアとして提供することができる。ここで、リムーバブル記録媒体１１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

　なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク１０５にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

　コンピュータは、CPU(Central Processing Unit)１０２を内蔵しており、CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されている。

　CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、入力部１０７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、CPU１０２は、ハードディスク１０５に格納されたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。

　これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。

　なお、入力部１０７は、キーボードや、マウス、マイク等で構成される。また、出力部１０６は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

　ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

　また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

　さらに、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　また、例えば、１つの装置（または処理部）として説明した構成を分割し、複数の装置（または処理部）として構成するようにしてもよい。逆に、以上において複数の装置（または処理部）として説明した構成をまとめて１つの装置（または処理部）として構成されるようにしてもよい。また、各装置（または各処理部）の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置（または処理部）の構成の一部を他の装置（または他の処理部）の構成に含めるようにしてもよい。

　また、例えば、本技術は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能（機能ブロック等）を有し、必要な情報を得ることができるようにすればよい。

　また、例えば、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。換言するに、１つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を１つのステップとしてまとめて実行することもできる。

　なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。

　なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。

　＜構成の組み合わせ例＞
　なお、本技術は以下のような構成も取ることができる。
（１）
　撮像画像から推定される、被写体の複数の関節情報と任意のキャラクタモデルの複数のキャラクタモデル関節情報との対応関係の比較結果に基づいて、複数の前記関節情報と複数の前記キャラクタモデル関節情報との少なくとも一部が不一致である場合、複数の前記関節情報で対応関係のない前記キャラクタモデル関節情報を推定し、全ての前記キャラクタモデル関節情報を決定する決定部と、
　決定された前記キャラクタモデル関節情報を初期位置として、前記キャラクタモデルの全身の姿勢を推定する姿勢推定部と
　を備える画像処理装置。
（２）
　前記決定部は、複数の前記関節情報が複数の前記キャラクタモデル関節情報よりも不足している場合、不足分の前記キャラクタモデル関節情報を推定する
　上記（１）に記載の画像処理装置。
（３）
　前記決定部は、複数の前記関節情報が複数の前記キャラクタモデル関節情報よりも多い場合、複数の前記関節情報のうち、前記キャラクタモデル関節情報と対応関係のある前記関節情報を、全ての前記キャラクタモデル関節情報として決定する
　上記（１）または（２）に記載の画像処理装置。
（４）
　前記関節情報は関節数と関節位置とを示す
　上記（１）から（３）までのいずれかに記載の画像処理装置。
（５）
　前記決定部は、複数の前記関節情報に従った関節間の長さと、複数の前記キャラクタモデル関節情報に従った関節間の長さとが異なる場合、前記関節情報における関節間の長さを調整して前記キャラクタモデル関節情報における関節間の長さに合わせた後に、前記キャラクタモデル関節情報を決定する
　上記（１）から（４）までのいずれかに記載の画像処理装置。
（６）
　前記キャラクタモデルの等身と、前記被写体の等身とが異なっている
　上記（５）に記載の画像処理装置。
（７）
　前記キャラクタモデルの骨格構造を構成する末端の関節ノード、および、末端の関節ノードの枝分かれの元となるルートノードの回転情報を、他の関節ノードの位置関係から推定し、それぞれの関節ノードの回転情報を前記姿勢推定部に入力する回転推定部
　をさらに備える上記（１）から（６）までのいずれかに記載の画像処理装置。
（８）
　前記回転情報は、回転方向と回転量を示す
　上記（７）に記載の画像処理装置。
（９）
　前記回転推定部は、前記被写体の両手の指の前記回転情報に基づいて、前記被写体の両手の姿勢を推定する
　上記（７）に記載の画像処理装置。
（１０）
　前記回転推定部は、スポーツ向けのデータでボールの情報が取得できる場合には、前記ボールの位置に基づいて前記被写体の両手の姿勢を推定する
　上記（７）に記載の画像処理装置。
（１１）
　前記キャラクタモデルは、キャラクタの三次元的な骨格構造により構成さる３Ｄキャラクタモデルである
　上記（１）から（１０）までのいずれかに記載の画像処理装置。
（１２）
　前記姿勢推定部により推定された姿勢を、前記３Ｄキャラクタモデルの骨格構造に適用し、所望の自由な視点から前記３Ｄキャラクタモデルをレンダリングして出力するレンダリング部
　をさらに備える上記（１１）に記載の画像処理装置。
（１３）
　画像処理装置が、
　撮像画像から推定される、被写体の複数の関節情報と任意のキャラクタモデルの複数のキャラクタモデル関節情報との対応関係の比較結果に基づいて、複数の前記関節情報と複数の前記キャラクタモデル関節情報との少なくとも一部が不一致である場合、複数の前記関節情報で対応関係のない前記キャラクタモデル関節情報を推定し、全ての前記キャラクタモデル関節情報を決定することと、
　決定された前記キャラクタモデル関節情報を初期位置として、前記キャラクタモデルの全身の姿勢を推定することと
　を含む画像処理方法。
（１４）
　画像処理装置のコンピュータに、
　撮像画像から推定される、被写体の複数の関節情報と任意のキャラクタモデルの複数のキャラクタモデル関節情報との対応関係の比較結果に基づいて、複数の前記関節情報と複数の前記キャラクタモデル関節情報との少なくとも一部が不一致である場合、複数の前記関節情報で対応関係のない前記キャラクタモデル関節情報を推定し、全ての前記キャラクタモデル関節情報を決定することと、
　決定された前記キャラクタモデル関節情報を初期位置として、前記キャラクタモデルの全身の姿勢を推定することと
　を含む画像処理を実行させるためのプログラムが記録された記録媒体。

　なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　１１　配信システム，　１２　キャプチャシステム，　１３　ボーン配信サーバ，　１４　クライアント端末，　２１　３Ｄキャラクタモデル記憶部，　２２　関節位置情報受信部，　２３　初期位置決定部，　２４　回転推定部，　２５　姿勢推定更新部，　２６　レンダリング部

Claims

　撮像画像から推定される、被写体の複数の関節情報と任意のキャラクタモデルの複数のキャラクタモデル関節情報との対応関係の比較結果に基づいて、複数の前記関節情報と複数の前記キャラクタモデル関節情報との少なくとも一部が不一致である場合、複数の前記関節情報で対応関係のない前記キャラクタモデル関節情報を推定し、全ての前記キャラクタモデル関節情報を決定する決定部と、
　決定された前記キャラクタモデル関節情報を初期位置として、前記キャラクタモデルの全身の姿勢を推定する姿勢推定部と
　を備える画像処理装置。
　前記決定部は、複数の前記関節情報が複数の前記キャラクタモデル関節情報よりも不足している場合、不足分の前記キャラクタモデル関節情報を推定する
　請求項１に記載の画像処理装置。
　前記決定部は、複数の前記関節情報が複数の前記キャラクタモデル関節情報よりも多い場合、複数の前記関節情報のうち、前記キャラクタモデル関節情報と対応関係のある前記関節情報を、全ての前記キャラクタモデル関節情報として決定する
　請求項１に記載の画像処理装置。
　前記関節情報は関節数と関節位置とを示す
　請求項１に記載の画像処理装置。
　前記決定部は、複数の前記関節情報に従った関節間の長さと、複数の前記キャラクタモデル関節情報に従った関節間の長さとが異なる場合、前記関節情報における関節間の長さを調整して前記キャラクタモデル関節情報における関節間の長さに合わせた後に、前記キャラクタモデル関節情報を決定する
　請求項１に記載の画像処理装置。
　前記キャラクタモデルの等身と、前記被写体の等身とが異なっている
　請求項５に記載の画像処理装置。
　前記キャラクタモデルの骨格構造を構成する末端の関節ノード、および、末端の関節ノードの枝分かれの元となるルートノードの回転情報を、他の関節ノードの位置関係から推定し、それぞれの関節ノードの回転情報を前記姿勢推定部に入力する回転推定部
　をさらに備える請求項１に記載の画像処理装置。
　前記回転情報は、回転方向と回転量を示す
　請求項７に記載の画像処理装置。
　前記回転推定部は、前記被写体の両手の指の前記回転情報に基づいて、前記被写体の両手の姿勢を推定する
　請求項７に記載の画像処理装置。
　前記回転推定部は、スポーツ向けのデータでボールの情報が取得できる場合には、前記ボールの位置に基づいて前記被写体の両手の姿勢を推定する
　請求項７に記載の画像処理装置。
　前記キャラクタモデルは、キャラクタの三次元的な骨格構造により構成さる３Ｄキャラクタモデルである
　請求項１に記載の画像処理装置。
　前記姿勢推定部により推定された姿勢を、前記３Ｄキャラクタモデルの骨格構造に適用し、所望の自由な視点から前記３Ｄキャラクタモデルをレンダリングして出力するレンダリング部
　をさらに備える請求項１１に記載の画像処理装置。
　画像処理装置が、
　撮像画像から推定される、被写体の複数の関節情報と任意のキャラクタモデルの複数のキャラクタモデル関節情報との対応関係の比較結果に基づいて、複数の前記関節情報と複数の前記キャラクタモデル関節情報との少なくとも一部が不一致である場合、複数の前記関節情報で対応関係のない前記キャラクタモデル関節情報を推定し、全ての前記キャラクタモデル関節情報を決定することと、
　決定された前記キャラクタモデル関節情報を初期位置として、前記キャラクタモデルの全身の姿勢を推定することと
　を含む画像処理方法。
　画像処理装置のコンピュータに、
　撮像画像から推定される、被写体の複数の関節情報と任意のキャラクタモデルの複数のキャラクタモデル関節情報との対応関係の比較結果に基づいて、複数の前記関節情報と複数の前記キャラクタモデル関節情報との少なくとも一部が不一致である場合、複数の前記関節情報で対応関係のない前記キャラクタモデル関節情報を推定し、全ての前記キャラクタモデル関節情報を決定することと、
　決定された前記キャラクタモデル関節情報を初期位置として、前記キャラクタモデルの全身の姿勢を推定することと
　を含む画像処理を実行させるためのプログラムが記録された記録媒体。