WO2023140110A1 - 端末装置、位置姿勢推定方法、およびプログラム - Google Patents

端末装置、位置姿勢推定方法、およびプログラム Download PDF

Info

Publication number
WO2023140110A1
WO2023140110A1 PCT/JP2023/000051 JP2023000051W WO2023140110A1 WO 2023140110 A1 WO2023140110 A1 WO 2023140110A1 JP 2023000051 W JP2023000051 W JP 2023000051W WO 2023140110 A1 WO2023140110 A1 WO 2023140110A1
Authority
WO
WIPO (PCT)
Prior art keywords
interest
terminal device
orientation
camera image
content
Prior art date
Application number
PCT/JP2023/000051
Other languages
English (en)
French (fr)
Inventor
翔 加賀美
遵 五味田
真也 金子
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023140110A1 publication Critical patent/WO2023140110A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras

Definitions

  • the estimated absolute position and orientation of the terminal device 200 are supplied to the display control unit 216.
  • step S22 the object tracking unit 213 tracks the object of interest in the camera image captured by the imaging unit 212.
  • the program executed by the CPU 501 is recorded on the removable media 511, or provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting, and installed in the storage unit 508.
  • the program executed by the computer may be a program in which processing is performed in chronological order according to the order described in this specification, or a program in which processing is performed in parallel or at the necessary timing such as when a call is made.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本開示は、環境によらないARコンテンツの表示を実現することができるようにする端末装置、位置姿勢推定方法、およびプログラムに関する。 位置推定部は、ユーザが注目している注目オブジェクトのオブジェクトデータに含まれる三次元位置と、ユーザのカメラ画像における注目オブジェクトのカメラ画像上の位置との対応関係に基づいて、自装置の絶対位置姿勢を推定する。本開示に係る技術は、例えば、実空間の映像にARコンテンツを表示するARデバイスに適用することができる。

Description

端末装置、位置姿勢推定方法、およびプログラム
 本開示は、端末装置、位置姿勢推定方法、およびプログラムに関し、特に、環境によらないARコンテンツの表示を実現できるようにする端末装置、位置姿勢推定方法、およびプログラムに関する。
 スポーツ放送において、世界記録を表すラインや、過去の選手などを模したゴーストと呼ばれる情報を、AR(Augmented Reality)コンテンツとして映像に重畳して放送する技術がある。この技術によれば、視聴者がより緊迫感を味わうことや付加的な情報を得ることができることから、現代のスポーツ放送には不可欠な技術となっている。
 スポーツ放送をテレビジョン受像機などで視聴している視聴者は、このようなARコンテンツを見ることができる一方、実際に競技場にいる観客は、このようなARコンテンツを見ることができない。ゆえに、それら観客は、ARコンテンツが重畳された映像を楽しむことはできなかった。
 これに対して、競技場にいる観客がARグラスなどの映像機器を通して、現実の映像に対してARコンテンツを重畳する技術が提案されている。例えば、特許文献1には、観客が携帯する端末装置の撮像部により撮像された映像に、例えばサッカーにおけるオフサイドラインなど、競技者の位置に基づいたコンテンツを重畳する技術が開示されている。この技術は、サッカー競技場のピッチ(フィールド)のラインなどをマーカーとして用いて観客の自己位置姿勢を取得することで実現可能となる。
国際公開第2016/017121号
 しかしながら、特許文献1の技術では、撮像部が、競技場に設けられる特殊なマーカーを撮像する必要があった。そのため、特許文献1の技術は、マーカーになり得るものがない競技場では適用できなかったり、新たにマーカーを設置する場合にはコストがかかったりしていた。
 本開示は、このような状況に鑑みてなされたものであり、環境によらないARコンテンツの表示を実現できるようにするものである。
 本開示の端末装置は、ユーザが注目している注目オブジェクトのオブジェクトデータに含まれる三次元位置と、前記ユーザのカメラ画像における前記注目オブジェクトの前記カメラ画像上の位置との対応関係に基づいて、自装置の絶対位置姿勢を推定する位置推定部を備える端末装置である。
 本開示の位置姿勢推定方法は、端末装置が、ユーザが注目している注目オブジェクトのオブジェクトデータに含まれる三次元位置と、前記ユーザのカメラ画像における前記注目オブジェクトの前記カメラ画像上の位置との対応関係に基づいて、自装置の絶対位置姿勢を推定する位置姿勢推定方法である。
 本開示のプログラムは、コンピュータに、ユーザが注目している注目オブジェクトのオブジェクトデータに含まれる三次元位置と、前記ユーザのカメラ画像における前記注目オブジェクトの前記カメラ画像上の位置との対応関係に基づいて、端末装置の絶対位置姿勢を推定する処理を実行させるためのプログラムである。
 本開示においては、ユーザが注目している注目オブジェクトのオブジェクトデータに含まれる三次元位置と、前記ユーザのカメラ画像における前記注目オブジェクトの前記カメラ画像上の位置との対応関係に基づいて、端末装置の絶対位置姿勢が推定される。
本開示に係る技術の概要について説明する図である。 本開示に係る技術を適用したAR表示システムの構成例を示す図である。 サーバの機能構成例を示すブロック図である。 自己位置姿勢取得手法について説明する図である。 Visual SLAMの概要について説明する図である。 追跡技術について説明する図である。 サーバの動作の流れについて説明するフローチャートである。 端末装置の機能構成例を示すブロック図である。 三次元位置とカメラ画像による絶対位置姿勢の推定について説明する図である。 端末装置の動作の流れについて説明するフローチャートである。 端末装置の他の機能構成例を示すブロック図である。 端末装置の動作の流れについて説明するフローチャートである。 コンピュータの構成例を示すブロック図である。
 以下、本開示を実施するための形態(以下、実施の形態とする)について説明する。なお、説明は以下の順序で行う。
 1.本開示に係る技術の概要
 2.AR表示システムの構成例
 3.サーバの構成および動作
 4.端末装置の構成および動作
 5.変形例
 6.コンピュータの構成例
<1.本開示に係る技術の概要>
 スポーツ放送において、世界記録を表すラインや、過去の選手などを模したゴーストと呼ばれる情報を、AR(Augmented Reality)コンテンツとして映像に重畳して放送する技術がある。この技術によれば、視聴者がより緊迫感を味わうことや付加的な情報を得ることができることから、現代のスポーツ放送には不可欠な技術となっている。
 スポーツ放送をテレビジョン受像機などで視聴している視聴者は、このようなARコンテンツを見ることができる一方、実際に競技場にいる観客は、このようなARコンテンツを見ることができない。ゆえに、それら観客は、ARコンテンツが重畳された映像を楽しむことはできなかった。
 そこで、本開示においては、競技場にいる観客がARグラスなどの映像機器を通して、現実の映像に対してARコンテンツを重畳する技術を提案する。
 例えば、図1左に示されるように、競技場にいる観客(ユーザ)が、ARグラス10を装着した状態で、競技者Atに注目しているとする。ARグラス10は、光学透過型のARグラスとして構成され、ユーザは、レンズ部分のディスプレイD10を通して、競技者Atを見ることができる。
 また、図1右に示されるように、ユーザからみたディスプレイD10には、競技者Atに対応した表示位置に、ARコンテンツとしてのゴーストGhが表示される。図1の例では、ゴーストGhは、例えば競技者Atが参加している競技における世界記録保持者を模した情報とされる。ARコンテンツは、ゴーストGhのような三次元立体画像情報に限らず、二次元画像情報や任意の幾何学図形情報、文字情報など、各種の表示情報であってもよい。
 このように、本開示に係る技術によれば、スポーツ放送をテレビジョン受像機などで視聴している視聴者と同様に、実際に競技場にいる観客もARコンテンツを楽しむことが可能となる。特に、本開示に係る技術は、ARグラスに設けられたカメラが、競技場に設けられる特殊なマーカーなどを撮像することなく、このようなARコンテンツの表示を実現する。
<2.AR表示システムの構成例>
 図2は、本開示に係る技術を適用し得るAR表示システムの構成例を示す図である。
 図2に示されるAR表示システムは、サーバ100と端末装置200から構成される。
 サーバ100は、例えば、競技場の外部に設けられるクラウドサーバにより構成される。サーバ100は、競技場の周囲に設置された多数のカメラ、撮影スタッフが扱う放送用カメラを始めとするセンサ類、競技者が装着しているセンサなどからセンサデータを取得する。
 サーバ100は、取得したセンサデータに基づいて、競技場においてスポーツ競技に参加している競技者などのオブジェクトに関するオブジェクトデータを生成し、端末装置200に配信する。以下において、オブジェクトは、競技者である人間であるものとして説明するが、スポーツ競技に係る対象物であればよく、例えば、馬などの動物や、自動車や自転車などの機械(車両)、ボールなどの用具などであってもよい。また、オブジェクトは、競技者(人間)や動物の各関節、機械や用具のパーツであってもよい。
 また、サーバ100は、端末装置200において各オブジェクトに対応するARコンテンツを表示するためのコンテンツデータを生成し、端末装置200に配信する。
 端末装置200は、図1を参照して説明したARグラスやスマートフォンなどのARデバイスにより構成される。端末装置200は、ARグラスと同等の機能を備え、視界を所定の倍率で拡大する双眼鏡により構成されてもよい。端末装置200は、サーバ100からのオブジェクトデータとコンテンツデータに基づいて、その表示領域上の、ユーザが注目しているオブジェクト(以下、注目オブジェクトという)に対応する表示位置に、ARコンテンツを表示する。
 具体的には、端末装置200がARグラスにより構成される場合、レンズ部分のディスプレイとしての、注目オブジェクトを含む実空間を透過する表示領域において、注目オブジェクトに対応する表示位置に、ARコンテンツを表示する。また、端末装置200がスマートフォンにより構成される場合、そのスマートフォンのディスプレイとしての表示領域に表示された、注目オブジェクトを含むカメラ画像において、注目オブジェクトに対応する表示位置に、ARコンテンツを重畳表示する。
 以下においては、サーバ100と端末装置200それぞれの機能および動作について、詳細に説明する。
<3.サーバの構成および動作>
(サーバの機能構成例)
 図3は、図2のAR表示システムを構成するサーバ100の機能構成例を示すブロック図である。
 図3に示されるように、サーバ100は、オブジェクトデータ生成部111、コンテンツデータ生成部112、およびデータ配信部113を備える。
 オブジェクトデータ生成部111は、競技場の周囲に設置された多数のカメラ、撮影スタッフが扱う放送用カメラを始めとするセンサ類、競技者が装着しているセンサなどから取得したセンサデータに基づいて、オブジェクトに関するオブジェクトデータを生成する。
 オブジェクトデータには、オブジェクトの三次元位置(x,y,z)を表す三次元位置情報が含まれる。三次元位置情報の生成方法には、以下のような方法がある。
(1)競技場の周囲に設置された多数のカメラから取得したセンサデータを用いる方法
 競技場の周囲に設置された多数のカメラからセンサデータが取得される場合、オブジェクトデータ生成部111は、カメラそれぞれの映像を三次元データに変換することで、各オブジェクトの三次元位置情報を生成する。
(2)放送用カメラを始めとするセンサ類から取得したセンサデータを用いる方法
 撮影スタッフが扱う放送用カメラを始めとするセンサ類からセンサデータが取得される場合、オブジェクトデータ生成部111は、放送用カメラの自己位置姿勢を取得し、放送用カメラによりオブジェクトを追跡することで、各オブジェクトの三次元位置情報を生成する。
 放送用カメラの自己位置姿勢取得手法には、Outside-In方式とInside-Out方式とがある。
 Outside-In方式は、図4左に示されるように、カメラCmにマーカーを装着し、競技場内に設置された複数のセンサScによりマーカーを認識することで、カメラCmの自己位置姿勢を取得する手法である。
 Inside-Out方式は、図4右に示されるように、カメラCm自身が外部環境を観測することで、カメラCmの自己位置姿勢を取得する手法である。Inside-Out方式においては、Visual SLAM(Simultaneous Localization and Mapping)が用いられる。Visual SLAMは、図5に示されるように、時刻tにおいて取得された画像上の特徴点FPと、時刻tにおいて取得された画像上の特徴点FPに基づいて、特徴点FPとの距離を算出することで、時刻tから時刻tの間の自己位置姿勢の変化量を推定する技術である。
 オブジェクトデータ生成部111は、以上のようにして、放送用カメラの自己位置姿勢を取得した後、追跡技術と深度推定技術を組み合わせて用いることで、オブジェクトの三次元位置を取得する。
 まず、追跡技術においては、機械学習などを利用した、人や物体を追跡する技術が利用される。オブジェクトを利用した絶対位置姿勢推定では、対応するオブジェクトが複数存在する必要がある。オブジェクトが必要な最小数よりも少ない場合、例えば図6に示されるように、オブジェクトである競技者の骨格のポーズを推定し、その各骨格をオブジェクトとして利用する。これにより、放送用カメラで撮影されている映像上での競技者自身または競技者の各関節の放送用カメラ画像上の位置が取得される。図6の例では、競技者H1の骨格Sk11のポーズと、競技者H2の骨格Sk12のポーズが推定されている。図6の例においては、ボールB21が追跡対象であってもよい。次いで、深度推定技術により、各関節の放送用カメラのカメラ座標系での三次元位置が取得される。その後、放送用カメラの自己位置姿勢を用いることで、各関節の競技場内での絶対三次元位置が取得される。
 深度推定には、カメラ単体が用いられてもよいし、LiDAR(Light Detection And Ranging),dToF(Direct Time of Flight)センサやiToF(Indirect Time of Flight)センサなどの測距センサが用いられてもよい。また、オブジェクトの追跡には、輝度の変化をイベントとして検知するイベントカメラが用いられてもよい。イベントカメラによれば、高速で移動するオブジェクトの追跡が可能となる。
(3)競技者が装着しているセンサから取得したセンサデータを用いる方法
 競技者が装着しているセンサからセンサデータが取得される場合、オブジェクトデータ生成部111は、上述したOutside-In方式やInside-Out方式の自己位置姿勢取得手法を用いて、各オブジェクトの三次元位置情報を生成する。
 上述した三次元位置情報の生成方法のうち、(1)は、既存のシステムにより実現可能とされ、例えば、サッカーやラグビーなどの一部の競技に適用することができる。一方で、(2)や(3)は、(1)の適用が難しい、競馬やカーレースなどの広大な競技場で行われる競技や、スキーやスノーボード、マラソンやロードレースなどのカメラの設置が容易でない競技にも適用することができる。
 このようにして生成される三次元位置情報には、オブジェクトの三次元位置だけでなく、オブジェクトを構成する各関節や各パーツの三次元位置も含まれるものとする。
 オブジェクトデータには、オブジェクトの三次元位置情報に加え、当該オブジェクトの特徴量がさらに含まれ得る。
 オブジェクトの特徴量は、追跡において識別されている各オブジェクトに付与されるID、多次元の特徴ベクトル、オブジェクトの画像データ、上述した放送用に生成された映像に含まれるオブジェクトの三次元データなどであってよい。なお、オブジェクトの特徴量は、上述した三次元位置情報の生成方法がカメラを用いる(1)または(2)の場合に、映像から抽出可能とされる。
 また、オブジェクトデータには、各オブジェクトの三次元位置情報の生成に用いられたセンサデータの取得時刻がさらに含まれるようにしてもよい。
 以上のようにして生成されたオブジェクトデータは、コンテンツデータ生成部112とデータ配信部113に供給される。
 コンテンツデータ生成部112は、オブジェクトデータ生成部111からのオブジェクトデータに基づいて、端末装置200において、各オブジェクトに対応した表示位置に表示されるARコンテンツのコンテンツデータを生成する。
 コンテンツデータ生成部112においては、競技に応じたARコンテンツが生成される。ARコンテンツは、スポーツ競技の記録、注目オブジェクトの動作の再現、および注目オブジェクトの軌跡を表す表示情報である。例えばサッカーの場合、ARコンテンツとして、競技者のリプレイの様子を模したゴースト、オフサイドラインを表す画像、ボールの軌道を表すエフェクト画像などが生成される。また、陸上や水泳、スノーボードやスキージャンプなどの場合、ARコンテンツとして、世界記録のラインを表す画像、世界記録保持者を模したゴースト、競技者のリプレイの様子を模したゴーストなどが生成される。さらに、カーレースやロードレースの場合、ARコンテンツとして、世界記録のラインを表す画像、世界記録保持者を模したゴースト、競技車両のリプレイの様子を模したゴーストに加え、車体の軌跡を表すエフェクト画像などが生成される。
 コンテンツデータ生成部112においては、端末装置200のユーザに応じた特別なARコンテンツが生成されてもよいし、放送向けに用意されるARコンテンツが生成されてもよい。
 以上のようにして生成されたコンテンツデータは、データ配信部113に供給される。
 データ配信部113は、オブジェクトデータ生成部111からのオブジェクトデータと、コンテンツデータ生成部112からのコンテンツデータを、端末装置200に配信する。
(サーバの動作)
 図7のフローチャートを参照して、サーバ100の動作(処理)の流れについて説明する。図7の処理は、例えば、端末装置200においてARコンテンツが表示されるフレームレートと同じ時間単位で、繰り返し実行される。
 ステップS11において、オブジェクトデータ生成部111は、競技場内の各種のセンサからセンサデータを取得する。
 ステップS12において、オブジェクトデータ生成部111は、取得したセンサデータに基づいて、競技場内のオブジェクト毎にオブジェクトデータを生成する。
 ステップS13において、コンテンツデータ生成部112は、競技場内のオブジェクトそれぞれに応じたコンテンツデータを生成する。
 ステップS14において、データ配信部113は、オブジェクトデータ生成部111により生成されたオブジェクトデータと、コンテンツデータ生成部112により生成されたコンテンツデータを、端末装置200に配信する。
<4.端末装置の構成および動作>
(端末装置の機能構成例)
 図8は、図2のAR表示システムを構成する端末装置200の機能構成例を示すブロック図である。
 図8に示されるように、端末装置200は、受信部211、撮像部212、オブジェクト追跡部213、対応付け部214、絶対位置姿勢推定部215、表示制御部216、および表示部217を備える。
 受信部211は、サーバ100から配信されるオブジェクトデータとコンテンツデータを受信する。オブジェクトデータは対応付け部214に供給され、コンテンツデータは表示制御部216に供給される。
 撮像部212は、端末装置200に搭載または内蔵されているカメラとして構成され、ユーザの視点を含む範囲を撮像したカメラ画像を出力する。すなわち、カメラ画像は、ユーザの視点に対応する動画像ということができ、カメラ画像に映るオブジェクトの一部または全部は、ユーザが注目している注目オブジェクトということができる。撮像部212により出力されたカメラ画像は、オブジェクト追跡部213に供給される。
 オブジェクト追跡部213は、撮像部212からのカメラ画像に映るオブジェクト(注目オブジェクト)を追跡する。オブジェクト追跡部213による追跡技術は、オブジェクトが人間、動物、機械のいずれであるかに応じて使い分けられてよい。
 例えば、オブジェクトが競技者(人間)である場合には、図6を参照して説明したように、競技者の各関節の位置を追跡対象としてもよい。これにより、例えば競技者が少ない場合であっても、絶対位置姿勢推定に必要な数の対応オブジェクトを得ることができる。オブジェクトが自動車や自転車である場合には、例えばタイヤ(車輪)の位置を追跡対象として利用することができる。このようなオブジェクトの追跡には機械学習が用いられ、追跡対象となるオブジェクトに応じて機械学習モデルをチューニングすることで、ロバスト性の高い追跡が可能となる。
 カメラ画像における注目オブジェクトのカメラ画像上の位置は、対応付け部214に供給される。
 対応付け部214は、サーバ100からの注目オブジェクトのオブジェクトデータに含まれる三次元位置情報で表される三次元位置と、オブジェクト追跡部213からのカメラ画像における注目オブジェクトのカメラ画像上の位置とを対応付ける。
 注目オブジェクトの三次元位置と、カメラ画像における注目オブジェクトのカメラ画像上の位置との対応付け方法は、サーバ100における各オブジェクトの三次元位置情報の生成方法によって異なる。
 サーバ100における各オブジェクトの三次元位置情報の生成方法がカメラを用いる(1)または(2)の場合、オブジェクトデータに含まれる注目オブジェクトの特徴量と、カメラ画像における注目オブジェクトの特徴量に基づいて、注目オブジェクトの三次元位置とカメラ画像上の位置とが対応付けられる。具体的には、オブジェクトデータに含まれる注目オブジェクトの特徴量と、カメラ画像における注目オブジェクトの特徴量とをマッチングすることで、実空間における注目オブジェクトとカメラ画像における注目オブジェクトが一意に対応付けられる。なお、特徴量には、競技者のゼッケンやナンバープレートなど、競技者固有の情報が含まれてもよい。
 近年、機械学習の発展により個人認証技術の水準が向上している。このような個人認証技術を用いることにより、競技者毎の特徴量を算出し、カメラ画像から取得された特徴量と比較し、互いに十分近い場合に、当該競技者が対応付けられるようにする。特徴量は、事前に各競技者について多くの写真を用意して学習してもよいし、教師なし学習によりオンライン学習してもよい。
 対応付けられた注目オブジェクトについて、注目オブジェクトを構成する各関節や各パーツの三次元位置と、カメラ画像における注目オブジェクトの各関節や各パーツのカメラ画像上の位置とがさらに対応付けられるようにもできる。
 サーバ100における各オブジェクトの三次元位置情報の生成方法がオブジェクトに付随するセンサを用いる(3)の場合、カメラ画像において、注目オブジェクトに付随する(上述したOutside-In方式に用いられる)センサを認識することで、注目オブジェクトの三次元位置が得られ、カメラ画像上の位置と対応付けられる。
 上述した注目オブジェクトの対応付けは、例えば、競技者が複数人存在する競技においては必要である一方、フィギュアスケートのような競技者が1人の競技においては、注目オブジェクトを一意に定めることができるため不要となる。競技者が複数人存在する競技においては、各競技者の相対的な位置関係に基づいて、各競技者の三次元位置とカメラ画像上の位置が対応付けられるようにしてもよい。
 対応付けられた注目オブジェクトの三次元位置とカメラ画像上の位置との対応関係は、絶対位置姿勢推定部215に供給される。
 絶対位置姿勢推定部215は、注目オブジェクトの三次元位置と、カメラ画像における注目オブジェクトのカメラ画像上の位置との対応関係に基づいて、自装置(端末装置200)の絶対位置姿勢を推定する。絶対位置姿勢推定部215は、端末装置200の絶対位置姿勢として、端末装置200の三次元位置(x,y,z)と姿勢(θx,θy,θz)の6自由度の変数を推定する。
 これら変数は、例えば、図12に示されるように、注目オブジェクトの各点p1,p2,p3,p4の三次元位置(x,y,z)と、カメラ画像に映る注目オブジェクトの各点q1,q2,q3,q4のカメラ画像上の位置(u,v)との対応関係が既知である場合に求めることができる。
 推定された端末装置200の絶対位置姿勢は、表示制御部216に供給される。
 表示制御部216は、絶対位置姿勢推定部215により推定された端末装置200の絶対位置姿勢に基づいて、表示部217の表示領域上の注目オブジェクトに対応した表示位置への、コンテンツデータで表されるARコンテンツの表示を制御する。具体的には、表示制御部216は、端末装置200の絶対位置姿勢に基づいて、表示部217の表示領域におけるARコンテンツの表示位置を決定し、決定した表示位置に対して、コンテンツデータに基づいたARコンテンツのレンダリングを行う。
 端末装置200がARグラスにより構成される場合、表示部217は、レンズ部分のディスプレイとして構成される。表示制御部216は、注目オブジェクトを含む実空間を透過する表示領域において、その表示領域上の注目オブジェクトに対応する表示位置に、ARコンテンツを表示する。
 端末装置200がスマートフォンにより構成される場合、表示部217は、そのスマートフォンのディスプレイとして構成される。表示制御部216は、ディスプレイの表示領域に表示された注目オブジェクトを含むカメラ画像において、その表示領域上の注目オブジェクトに対応する表示位置に、ARコンテンツを重畳表示する。
(端末装置の動作)
 図10のフローチャートを参照して、端末装置200の動作(処理)の流れについて説明する。図10の処理は、例えば、表示部217においてARコンテンツが表示されるフレームレートと同じ時間単位で、繰り返し実行される。
 ステップS21において、受信部211は、サーバ100から配信されるオブジェクトデータとコンテンツデータを受信する。
 ステップS22において、オブジェクト追跡部213は、撮像部212により撮像されているカメラ画像において注目オブジェクトを追跡する。
 ステップS23において、対応付け部214は、注目オブジェクトのオブジェクトデータに含まれる三次元位置情報で表される三次元位置と、カメラ画像において追跡されている注目オブジェクトのカメラ画像上の位置とを対応付ける。
 ステップS24において、絶対位置姿勢推定部215は、注目オブジェクトの三次元位置と、カメラ画像における注目オブジェクトのカメラ画像上の位置の対応関係に基づいて、端末装置200の絶対位置姿勢を推定する。
 ステップS25において、表示制御部216は、絶対位置姿勢推定部215により推定された端末装置200の絶対位置姿勢に基づいて、表示部217の表示領域上の注目オブジェクトに対応した表示位置に、コンテンツデータで表されるARコンテンツを表示する。
 以上の構成および処理によれば、ユーザが注目している注目オブジェクトの三次元位置と、カメラ画像に映る注目オブジェクトのカメラ画像上の位置の対応関係に基づいて、ユーザの自己位置姿勢を推定することができる。言い換えると、注目オブジェクトをマーカーとして用いてユーザの自己位置姿勢を推定することができる。したがって、本開示に係る技術は、マーカーになり得るものがない競技場でも適用でき、また、新たにマーカーを設置することでコストがかかることもなく、環境によらないARコンテンツの表示を実現することが可能となる。
<5.変形例>
(遅延時間について)
 上述したAR表示システムにおいては、センサデータの取得からARコンテンツの表示までの時間差(遅延時間)が極めて小さいことが前提とされる。そのため、センサとサーバ100の間、サーバ100と端末装置200の間においては、5G(第5世代移動通信システム)などの高速通信によるデータの送受信が求められる。また、サーバ100においては、過去のARコンテンツを流用したり、あらかじめARコンテンツを生成するなど、ARコンテンツの生成に時間を要しないことが望ましい。
 一方で、上述したAR表示システムにおいて、センサデータの取得からARコンテンツの表示までの遅延時間が大きい場合、その間にユーザやオブジェクトの位置が変化し、注目オブジェクトに対するARコンテンツの表示位置が、本来の表示位置からずれてしまう可能性がある。
 そこで、以下においては、センサデータの取得からARコンテンツの表示までの遅延時間を補償したARコンテンツの表示を実現する構成について説明する。
(端末装置の機能構成例)
 図11は、センサデータの取得からARコンテンツの表示までの遅延時間を補償する機能を備えた端末装置200の機能構成例を示すブロック図である。
 図11の端末装置200において、図8の端末装置200が備える機能ブロックと同様の機能を備える機能ブロックについては、同一の符号を付与し、その説明は適宜省略する。
 図11の端末装置200は、相対位置姿勢推定部311と遅延補償部312が新たに設けられている点で、図8の端末装置200と異なる。
 相対位置姿勢推定部311は、撮像部212からのカメラ画像に基づいて、図5を参照して説明したVisual SLAMにより、注目オブジェクトのオブジェクトデータに含まれる取得時刻からの、自装置(端末装置200)の相対位置姿勢変化量を推定する。相対位置姿勢推定部311においては、端末装置200の過去の相対位置姿勢変化量が保持されるようにする。
 なお、端末装置200の相対位置姿勢変化量の推定には、Visual SLAMの他、IMU(Inertial Measurement Unit)や、LiDAR,dToFセンサ、iToFセンサなどの測距センサが用いられてもよいし、これらが組み合わされて用いられてもよい。
 推定された端末装置200の相対位置姿勢変化量は、遅延補償部312に供給される。
 ところで、オブジェクト追跡部213においては、センサデータの取得からコンテンツデータの受信までの遅延時間分、撮像部212からのカメラ画像が進んでいることになる。そこで、オブジェクト追跡部213においては、カメラ画像における注目オブジェクトの過去のカメラ画像上の位置(軌跡)が保持されるようにする。対応付け部214には、遅延時間分を遡った注目オブジェクトのカメラ画像上の位置が供給される。
 また、絶対位置姿勢推定部215により推定された端末装置200の三次元位置や姿勢は、サーバ100において注目オブジェクトについてのセンサデータが取得された時刻の三次元位置や姿勢であり、実際の三次元位置や姿勢とずれが生じる。
 そこで、遅延補償部312は、注目オブジェクトのオブジェクトデータに含まれる取得時刻に対応して、絶対位置姿勢推定部215により推定された端末装置200の絶対位置姿勢を補正する。具体的には、遅延補償部312は、相対位置姿勢推定部311により推定された端末装置200の相対位置姿勢変化量に基づいて、端末装置200の絶対位置姿勢を補正する。
 また、遅延補償部312は、端末装置200の絶対位置姿勢を補正する以外に、注目オブジェクトの位置も補正する。センサデータが取得された時刻と、絶対位置姿勢が推定される時刻の間に、注目オブジェクトが移動している可能性があるためである。そこで、遅延補償部312は、取得時刻に対応して補正した絶対位置姿勢に対して、注目オブジェクトを投影してカメラ画像上の位置を取得する。この位置と、絶対位置姿勢が推定された時刻におけるカメラ画像上の注目オブジェクトの位置がずれていた場合、注目オブジェクトは移動していることになる。この場合、遅延補償部312は、カメラ画像上の位置の変化量を用いて三次元位置を予測することで、注目オブジェクトの三次元位置を補正する。
 補正された端末装置200の絶対位置姿勢と注目オブジェクトの三次元位置は、表示制御部216に供給される。
 表示制御部216は、遅延補償部312により補正された端末装置200の絶対位置姿勢に基づいて、表示部217の表示領域上の補正された注目オブジェクトの三次元位置に対応した表示位置への、コンテンツデータで表されるARコンテンツの表示を制御する。
(端末装置の動作)
 図12のフローチャートを参照して、図11の端末装置200の動作(処理)の流れについて説明する。図12の処理もまた、例えば、表示部217においてARコンテンツが表示されるフレームレートと同じ時間単位で、繰り返し実行される。
 なお、図12のステップS31,S32においては、図10のステップS21,S22と同様の処理が行われるので、その説明は省略する。
 すなわち、ステップS33において、相対位置姿勢推定部311は、撮像部212からのカメラ画像に基づいて、注目オブジェクトのオブジェクトデータに含まれる取得時刻からの、端末装置200の相対位置姿勢変化量を推定する。
 ステップS34においては、図10のステップS23と同様にして、注目オブジェクトのオブジェクトデータに含まれる三次元位置情報で表される三次元位置と、カメラ画像における注目オブジェクトのカメラ画像上の位置とが対応付けられる。
 ステップS35においては、図10のステップS24と同様にして、注目オブジェクトの三次元位置と、カメラ画像における注目オブジェクトのカメラ画像上の位置の対応関係に基づいて、端末装置200の絶対位置姿勢が推定される。
 ステップS36において、遅延補償部312は、相対位置姿勢推定部311により推定された端末装置200の相対位置姿勢変化量に基づいて、端末装置200の絶対位置姿勢と注目オブジェクトの三次元位置を補正する。
 そして、ステップS37において、表示制御部216は、遅延補償部312により補正された端末装置200の絶対位置姿勢に基づいて、表示部217の表示領域上の補正された注目オブジェクトの三次元位置に対応した表示位置に、コンテンツデータで表されるARコンテンツを表示する。
 以上の構成および処理によれば、AR表示システムにおいて、センサデータの取得からARコンテンツの表示までの遅延時間が大きい場合であっても、注目オブジェクトに対する表示位置がずれることなく、ARコンテンツを表示することが可能となる。
 なお、遅延補償部312においては、ARコンテンツのレンダリングに要する時間などを考慮して、相対位置姿勢推定部311やオブジェクト追跡部213によって保持されている過去の情報を用いて、端末装置200の将来の絶対位置姿勢が予測されてもよい。例えば、遅延補償部312は、端末装置200の過去の相対位置姿勢変化量と、カメラ画像における注目オブジェクトの過去のカメラ画像上の位置(軌跡)を用いて、端末装置200や注目オブジェクトの運動状態(等速直線運動をしているなど)を推定することで、端末装置200の将来の絶対位置姿勢を予測することができる。
<6.コンピュータの構成例>
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
 図13は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 本開示に係る技術を適用し得るサーバ100や端末装置200は、図13に示される構成を有するコンピュータ500により実現される。
 CPU501、ROM(Read Only Memory)502、RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インタフェース505が接続されている。入出力インタフェース505には、キーボード、マウスなどよりなる入力部506、ディスプレイ、スピーカなどよりなる出力部507が接続される。また、入出力インタフェース505には、ハードディスクや不揮発性のメモリなどよりなる記憶部508、ネットワークインタフェースなどよりなる通信部509、リムーバブルメディア511を駆動するドライブ510が接続される。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記憶部508に記憶されているプログラムを入出力インタフェース505およびバス504を介してRAM503にロードして実行することにより、上述した一連の処理が行われる。
 CPU501が実行するプログラムは、例えばリムーバブルメディア511に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部508にインストールされる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたときなどの必要なタイミングで処理が行われるプログラムであっても良い。
 本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
 また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 さらに、本開示は以下のような構成をとることができる。
(1)
 ユーザが注目している注目オブジェクトのオブジェクトデータに含まれる三次元位置と、前記ユーザのカメラ画像における前記注目オブジェクトの前記カメラ画像上の位置との対応関係に基づいて、自装置の絶対位置姿勢を推定する位置推定部
 を備える端末装置。
(2)
 前記位置推定部は、前記絶対位置姿勢として、前記自装置の三次元位置と姿勢を推定する
 (1)に記載の端末装置。
(3)
 前記注目オブジェクトの前記三次元位置と前記カメラ画像上の位置とを対応付ける対応付け部をさらに備える
 (2)に記載の端末装置。
(4)
 前記対応付け部は、前記オブジェクトデータに含まれる前記注目オブジェクトの特徴量と、前記カメラ画像における前記注目オブジェクトの前記特徴量に基づいて、前記注目オブジェクトの前記三次元位置と前記カメラ画像上の位置とを対応付ける
 (3)に記載の端末装置。
(5)
 前記対応付け部は、前記カメラ画像において、前記注目オブジェクトに付随する前記オブジェクトデータを取得するためのセンサを認識することで、前記注目オブジェクトの前記三次元位置と前記カメラ画像上の位置とを対応付ける
 (3)に記載の端末装置。
(6)
 前記オブジェクトデータが取得された取得時刻に対応して、前記絶対位置姿勢を補正する遅延補償部をさらに備える
 (1)乃至(5)のいずれかに記載の端末装置。
(7)
 前記カメラ画像に基づいて、前記取得時刻からの前記自装置の相対位置姿勢変化量を推定する相対位置姿勢推定部をさらに備え、
 前記遅延補償部は、推定された前記相対位置姿勢変化量に基づいて、前記絶対位置姿勢を補正する
 (6)に記載の端末装置。
(8)
 前記遅延補償部は、前記取得時刻に対応して補正された、前記カメラ画像における前記注目オブジェクトの前記カメラ画像上の位置をさらに用いて、前記絶対位置姿勢を補正する
 (6)に記載の端末装置。
(9)
 推定された前記絶対位置姿勢に基づいて、表示領域上の前記注目オブジェクトに対応した表示位置へのコンテンツの表示を制御する表示制御部をさらに備える
 (1)乃至(8)のいずれかに記載の端末装置。
(10)
 前記表示制御部は、前記注目オブジェクトを含む実空間を透過する前記表示領域における前記コンテンツの表示を制御する
 (9)に記載の端末装置。
(11)
 ARグラスとして構成される
 (10)に記載の端末装置。
(12)
 前記表示制御部は、前記表示領域に表示された前記注目オブジェクトを含む前記カメラ画像への前記コンテンツの重畳表示を制御する
 (9)に記載の端末装置。
(13)
 スマートフォンとして構成される
 (12)に記載の端末装置。
(14)
 前記コンテンツを生成するサーバから、前記コンテンツとともに配信される前記注目オブジェクトの前記オブジェクトデータを受信する受信部をさらに備える
 (9)乃至(13)のいずれかに記載の端末装置。
(15)
 前記注目オブジェクトは、スポーツ競技に係る競技者、動物、機械、および用具、並びに、前記競技者、前記動物の各関節、および、前記機械、前記用具のパーツを含み、
 前記コンテンツは、前記スポーツ競技の記録、前記注目オブジェクトの動作の再現、および前記注目オブジェクトの軌跡を表す表示情報である
 (9)乃至(14)のいずれかに記載の端末装置。
(16)
 端末装置が、
 ユーザが注目している注目オブジェクトのオブジェクトデータに含まれる三次元位置と、前記ユーザのカメラ画像における前記注目オブジェクトの前記カメラ画像上の位置との対応関係に基づいて、自装置の絶対位置姿勢を推定する
 位置姿勢推定方法。
(17)
 コンピュータに、
 ユーザが注目している注目オブジェクトのオブジェクトデータに含まれる三次元位置と、前記ユーザのカメラ画像における前記注目オブジェクトの前記カメラ画像上の位置との対応関係に基づいて、端末装置の絶対位置姿勢を推定する
 処理を実行させるためのプログラム。
 100 サーバ, 111 オブジェクトデータ生成部, 112 コンテンツデータ生成部, 113 データ配信部, 200 端末装置, 211 受信部, 212 撮像部, 213 オブジェクト追跡部, 214 対応付け部, 215 絶対位置姿勢推定部, 216 表示制御部, 217 表示部, 311 相対位置姿勢推定部, 312 遅延補償部

Claims (17)

  1.  ユーザが注目している注目オブジェクトのオブジェクトデータに含まれる三次元位置と、前記ユーザのカメラ画像における前記注目オブジェクトの前記カメラ画像上の位置との対応関係に基づいて、自装置の絶対位置姿勢を推定する位置推定部
     を備える端末装置。
  2.  前記位置推定部は、前記絶対位置姿勢として、前記自装置の三次元位置と姿勢を推定する
     請求項1に記載の端末装置。
  3.  前記注目オブジェクトの前記三次元位置と前記カメラ画像上の位置とを対応付ける対応付け部をさらに備える
     請求項2に記載の端末装置。
  4.  前記対応付け部は、前記オブジェクトデータに含まれる前記注目オブジェクトの特徴量と、前記カメラ画像における前記注目オブジェクトの前記特徴量に基づいて、前記注目オブジェクトの前記三次元位置と前記カメラ画像上の位置とを対応付ける
     請求項3に記載の端末装置。
  5.  前記対応付け部は、前記カメラ画像において、前記注目オブジェクトに付随する前記オブジェクトデータを取得するためのセンサを認識することで、前記注目オブジェクトの前記三次元位置と前記カメラ画像上の位置とを対応付ける
     請求項3に記載の端末装置。
  6.  前記オブジェクトデータが取得された取得時刻に対応して、前記絶対位置姿勢を補正する遅延補償部をさらに備える
     請求項1に記載の端末装置。
  7.  前記カメラ画像に基づいて、前記取得時刻からの前記自装置の相対位置姿勢変化量を推定する相対位置姿勢推定部をさらに備え、
     前記遅延補償部は、推定された前記相対位置姿勢変化量に基づいて、前記絶対位置姿勢を補正する
     請求項6に記載の端末装置。
  8.  前記遅延補償部は、前記取得時刻に対応して補正された、前記カメラ画像における前記注目オブジェクトの前記カメラ画像上の位置をさらに用いて、前記絶対位置姿勢を補正する
     請求項6に記載の端末装置。
  9.  推定された前記絶対位置姿勢に基づいて、表示領域上の前記注目オブジェクトに対応した表示位置へのコンテンツの表示を制御する表示制御部をさらに備える
     請求項1に記載の端末装置。
  10.  前記表示制御部は、前記注目オブジェクトを含む実空間を透過する前記表示領域における前記コンテンツの表示を制御する
     請求項9に記載の端末装置。
  11.  ARグラスとして構成される
     請求項10に記載の端末装置。
  12.  前記表示制御部は、前記表示領域に表示された前記注目オブジェクトを含む前記カメラ画像への前記コンテンツの重畳表示を制御する
     請求項9に記載の端末装置。
  13.  スマートフォンとして構成される
     請求項12に記載の端末装置。
  14.  前記コンテンツを生成するサーバから、前記コンテンツとともに配信される前記注目オブジェクトの前記オブジェクトデータを受信する受信部をさらに備える
     請求項9に記載の端末装置。
  15.  前記注目オブジェクトは、スポーツ競技に係る競技者、動物、機械、および用具、並びに、前記競技者、前記動物の各関節、および、前記機械、前記用具のパーツを含み、
     前記コンテンツは、前記スポーツ競技の記録、前記注目オブジェクトの動作の再現、および前記注目オブジェクトの軌跡を表す表示情報である
     請求項9に記載の端末装置。
  16.  端末装置が、
     ユーザが注目している注目オブジェクトのオブジェクトデータに含まれる三次元位置と、前記ユーザのカメラ画像における前記注目オブジェクトの前記カメラ画像上の位置との対応関係に基づいて、自装置の絶対位置姿勢を推定する
     位置姿勢推定方法。
  17.  コンピュータに、
     ユーザが注目している注目オブジェクトのオブジェクトデータに含まれる三次元位置と、前記ユーザのカメラ画像における前記注目オブジェクトの前記カメラ画像上の位置との対応関係に基づいて、端末装置の絶対位置姿勢を推定する
     処理を実行させるためのプログラム。
PCT/JP2023/000051 2022-01-20 2023-01-05 端末装置、位置姿勢推定方法、およびプログラム WO2023140110A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-006906 2022-01-20
JP2022006906 2022-01-20

Publications (1)

Publication Number Publication Date
WO2023140110A1 true WO2023140110A1 (ja) 2023-07-27

Family

ID=87348647

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/000051 WO2023140110A1 (ja) 2022-01-20 2023-01-05 端末装置、位置姿勢推定方法、およびプログラム

Country Status (1)

Country Link
WO (1) WO2023140110A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014164483A (ja) * 2013-02-25 2014-09-08 Kddi Corp データベース生成装置、カメラ姿勢推定装置、データベース生成方法、カメラ姿勢推定方法、およびプログラム
WO2016017121A1 (ja) * 2014-07-28 2016-02-04 パナソニックIpマネジメント株式会社 拡張現実表示システム、端末装置および拡張現実表示方法
WO2017047178A1 (ja) * 2015-09-16 2017-03-23 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
WO2018078986A1 (ja) * 2016-10-24 2018-05-03 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014164483A (ja) * 2013-02-25 2014-09-08 Kddi Corp データベース生成装置、カメラ姿勢推定装置、データベース生成方法、カメラ姿勢推定方法、およびプログラム
WO2016017121A1 (ja) * 2014-07-28 2016-02-04 パナソニックIpマネジメント株式会社 拡張現実表示システム、端末装置および拡張現実表示方法
WO2017047178A1 (ja) * 2015-09-16 2017-03-23 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
WO2018078986A1 (ja) * 2016-10-24 2018-05-03 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
JP6715441B2 (ja) 拡張現実表示システム、端末装置および拡張現実表示方法
US11176707B2 (en) Calibration apparatus and calibration method
EP1864505B1 (en) Real-time objects tracking and motion capture in sports events
CN102740127B (zh) 一种在客户端设备上观看和生成集锦套件的方法、客户端设备及系统
CN102726051B (zh) 3d视频中的虚拟插件
CN100349188C (zh) 以时空同步整合视频序列的方法及系统
US8457350B2 (en) System and method for data assisted chrom-keying
KR101748401B1 (ko) 가상현실 어트랙션 제어 방법 및 시스템
US20130148861A1 (en) Systems and methods for video processing
JP2009505553A (ja) ビデオストリームへの視覚効果の挿入を管理するためのシステムおよび方法
US7173672B2 (en) System and method for transitioning between real images and virtual images
CN108886583A (zh) 用于通过数据网络向多个用户提供虚拟的摇摄-倾斜-缩放,ptz,视频功能的系统和方法
MXPA00012307A (es) Metodo y aparato para generar vistas virtuales de eventos deportivos.
CA2921264A1 (en) A method and system for producing a video production
JP2020086983A (ja) 画像処理装置、画像処理方法、及びプログラム
KR102239134B1 (ko) 드론에 부착된 vr 카메라를 이용하여 촬영한 운동 경기 영상을 제공하는 방송 시스템
CN103051830A (zh) 一种对所拍目标多角度实时转播的系统和方法
US20090015678A1 (en) Method and system for automatic pose and trajectory tracking in video
KR101025899B1 (ko) 다수의 카메라센서를 이용한 가상 이미지가 합성된 방송영상의 송출 방법
US20030030658A1 (en) System and method for mixed reality broadcast
US10552670B2 (en) Positional locating system and method
WO2023140110A1 (ja) 端末装置、位置姿勢推定方法、およびプログラム
KR20150066941A (ko) 선수 정보 제공 장치 및 이를 이용한 선수 정보 제공 방법
JP6450305B2 (ja) 情報取得装置、情報取得方法及び情報取得プログラム
JP2009519539A (ja) イベントデータを作成し、これをサービス提供可能な状態にするための方法及びシステム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23743106

Country of ref document: EP

Kind code of ref document: A1