WO2016159165A1 - Image display system and image display method - Google Patents

Image display system and image display method Download PDF

Info

Publication number
WO2016159165A1
WO2016159165A1 PCT/JP2016/060532 JP2016060532W WO2016159165A1 WO 2016159165 A1 WO2016159165 A1 WO 2016159165A1 JP 2016060532 W JP2016060532 W JP 2016060532W WO 2016159165 A1 WO2016159165 A1 WO 2016159165A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
unit
user
image
display
Prior art date
Application number
PCT/JP2016/060532
Other languages
French (fr)
Japanese (ja)
Inventor
康夫 高橋
吏 中野
貴司 折目
雄一郎 竹内
暦本 純一
宮島 靖
Original Assignee
大和ハウス工業株式会社
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大和ハウス工業株式会社, ソニー株式会社 filed Critical 大和ハウス工業株式会社
Publication of WO2016159165A1 publication Critical patent/WO2016159165A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Studio Devices (AREA)

Abstract

With the present invention, even if there is a missing part in an image of a user captured by a camera, the effect of the missing part on a displayed image is lessened. This image display system is provided with a first unit utilized by a first user, and a second unit utilized by a second user. A camera of the first unit captures an image of the first user, and the image is displayed on a display screen of the second unit. Either the first unit or the second unit specifies a missing part which is a part of the body of the first user not captured by the camera since being outside an imaging range, and combines the image captured by the camera with another image to create a composite image. The other image is formed by at least one of a virtual image of the missing part, and a virtual image of an object located ahead of the first user in the composite image. In addition, the composite image is configured to cause the other image to be displayed in an area corresponding to the relative position of the missing part with respect to the body in the displayed image.

Description

映像表示システム及び映像表示方法Video display system and video display method
 本発明は、映像表示システム及び映像表示方法に係り、一方のユーザ側に設けられた表示画面に他方のユーザの映像を表示するために用いられる映像表示システム及び映像表示方法に関する。 The present invention relates to a video display system and a video display method, and more particularly to a video display system and a video display method used for displaying a video of the other user on a display screen provided on one user side.
 互いに離れた空間に居るユーザ同士が通信技術を利用してお互いの映像を見ながら対話すること、及び、それを実現するための映像表示システムは、既に知られている。同システムでは、一方のユーザの映像を撮影したときの映像データが送信され、他方のユーザ側で当該映像データを受信して展開する。これにより、一方のユーザの映像が他方のユーザ側の表示画面に表示されるようになる。 A user who is in a space apart from each other uses a communication technology to interact with each other while watching each other's video, and a video display system for realizing it is already known. In this system, video data when a video of one user is captured is transmitted, and the video data is received and expanded on the other user side. As a result, the video of one user is displayed on the display screen of the other user.
 また、近年では、一方のユーザから受信した映像データが示す映像を再構築し、再構築後の映像を表示する技術が開発されている。例えば、特許文献1には、元の映像から主要被写体の映像と背景の映像とをそれぞれ抽出し、各抽出映像を編集した後に合成することで新たな映像を取得することが開示されている。ここで、抽出映像の編集とは、欠損部分の補完、具体的には背景の映像中、被写体の映像と重なっていた部分を補完して完全な映像とすることである。 In recent years, a technique for reconstructing a video indicated by video data received from one user and displaying the reconstructed video has been developed. For example, Patent Document 1 discloses that a main subject image and a background image are extracted from an original image, and each extracted image is edited and then combined to obtain a new image. Here, the editing of the extracted video is to complement a missing part, specifically, to complement a part of the background video that overlaps the video of the subject to obtain a complete video.
 また、再構築に関する他の例としては、特許文献2が挙げられる。特許文献2には、連続撮像した映像の中から所定の部分映像(例えば、被写体である人物が正常に映っている映像)を切り出し、切り出した部分映像に対して補正等を施すことが開示されている。これにより、被写体である人物が映っている映像のみを表示することが可能となり、換言すると、被写体である人物が常に表示画面に表示されるようになる。 Further, Patent Document 2 is given as another example related to the reconstruction. Patent Document 2 discloses that a predetermined partial video (for example, a video in which a person who is a subject is normally reflected) is cut out from continuously picked-up video, and correction or the like is performed on the cut out partial video. ing. As a result, it is possible to display only an image in which a person who is a subject is shown. In other words, a person who is a subject is always displayed on the display screen.
特開2012-133593号公報JP 2012-133593 A 特開2012-27339号公報JP 2012-27339 A
 ところで、上述の映像表示システムにより実現される対話において、その臨場感を向上させる方法としては、対話相手の映像(具体的には全身映像)を等身大で表示することが考えられる。一方、カメラのような撮像装置によって対話相手の映像を撮像する場合、当該対話相手が撮像装置に対して比較的近い位置に立っていると、いわゆる見切れ(フレームアウト)が生じてしまい、身体の一部分が撮影されなくなってしまう。かかる状況で撮像された対話相手の映像を等身大で表示しようとすると、対話相手の身体中、見切れによって欠損している部分が表示画面に現れてしまう。この結果、対話の臨場感が損なわれてしまうことになる。 By the way, in a dialog realized by the above-described video display system, it is conceivable to display the video of the other party (specifically, a whole body video) in a life-size manner as a method for improving the realism. On the other hand, when an image of a conversation partner is captured by an imaging device such as a camera, if the conversation partner is standing relatively close to the imaging device, a so-called out-of-frame (out of frame) occurs, and the body A part of it will not be shot. If an image of a conversation partner captured in such a situation is to be displayed in a life-size size, a portion of the conversation partner's body that is missing due to being cut off appears on the display screen. As a result, the realism of the dialogue is impaired.
 一方、上述した映像の再構築(すなわち、特許文献1及び2に記載の技術)については、撮像装置の撮像範囲内でのみ有効であり、当該撮像範囲から外れることに起因して生じる映像の部分的欠損を補う場合には利用し難いものである。また、複数の撮像装置を用いて各撮像装置の撮像範囲外にある映像を他の撮像装置によって賄えば、映像の部分的欠損を補うことは可能である。ただし、撮像装置を複数使用する分、システム構築コストが嵩んでしまう。 On the other hand, the above-described video reconstruction (that is, the techniques described in Patent Documents 1 and 2) is effective only within the imaging range of the imaging apparatus, and a portion of the video generated due to being out of the imaging range. It is difficult to use when making up for a physical deficit. In addition, if an image outside the imaging range of each imaging device is covered by another imaging device using a plurality of imaging devices, it is possible to compensate for a partial loss of the image. However, the system construction cost increases due to the use of a plurality of imaging devices.
 そこで、本発明は、上記の課題に鑑みてなされたものであり、その目的とするところは、ユーザの映像を撮像する際に当該ユーザの身体の一部分が撮像装置の撮像範囲外にあったとしても臨場感のある対話を実現することが可能な映像表示システム及び映像表示方法を提供することである。 Therefore, the present invention has been made in view of the above problems, and the purpose of the present invention is to assume that a part of the user's body is outside the imaging range of the imaging device when imaging the user's video. Is to provide a video display system and a video display method capable of realizing a realistic dialogue.
 前記課題は、本発明の映像表示システムによれば、第一のユーザが使用する第一ユニットと、前記第一のユーザとは異なる空間に居る第二のユーザが使用する第二ユニットと、を有し、前記第一のユーザの映像を前記第二のユーザ側に設けられた表示画面に表示するために用いられる映像表示システムであって、前記第一ユニットは、撮像範囲内にある被写体の映像を撮像する撮像部を備え、前記第二ユニットは、前記表示画面に映像を表示する映像表示部を備え、前記第一ユニット及び前記第二ユニットのうちのいずれか一方のユニットは、前記被写体である前記第一のユーザの身体の一部分が前記撮像範囲外にある状態で前記撮像部が前記第一のユーザの映像を撮像した際に、前記一部分を特定する特定部と、前記一部分が前記撮像範囲外にある状態で前記撮像部が撮像した映像と、他の映像と、を合成して合成映像を生成する合成映像生成部と、を有し、前記他の映像は、前記一部分が前記撮像範囲内にあるときに前記撮像部が撮像した映像に基づいて生成された前記一部分の仮想映像、及び、前記合成映像において前記第一のユーザの前方に位置する物の仮想映像のうち、少なくとも一つによって構成され、前記合成映像生成部は、前記映像表示部が前記合成映像を表示した際に前記表示画面中、前記身体に対する前記一部分の相対位置に応じた領域に前記他の映像が表示されるように前記合成映像を生成することにより解決される。 According to the video display system of the present invention, the problem is that a first unit used by a first user and a second unit used by a second user in a different space from the first user. A video display system used for displaying the video of the first user on a display screen provided on the second user side, wherein the first unit is configured to display a subject within an imaging range. The second unit includes an image display unit that displays an image on the display screen, and one of the first unit and the second unit includes the subject. When the imaging unit captures an image of the first user in a state where a part of the body of the first user is outside the imaging range, the specifying unit for specifying the part and the part are the Imaging range A composite video generation unit that generates a composite video by synthesizing a video captured by the imaging unit in a state of being outside and another video, and the other video has a part of the imaging range At least one of the part of the virtual video generated based on the video captured by the imaging unit and the virtual video of the object positioned in front of the first user in the composite video The composite video generation unit displays the other video in an area corresponding to the relative position of the part with respect to the body in the display screen when the video display unit displays the composite video. As described above, the above-mentioned synthesized video is generated.
 上記の構成では、第一のユーザの身体の一部分が撮像範囲外にある状態で撮像部が第一のユーザの映像を撮像した際には、その一部分を特定し、撮像部が撮像した映像と他の映像とを合成して合成映像を生成する。ここで、他の映像は、撮像されなかった一部分の仮想映像、及び、第一のユーザの前方に位置する物の仮想映像のうち、少なくとも一つによって構成されている。そして、合成映像が表示画面に表示されると、当該表示画面中、身体に対する欠損部分(撮像範囲外にある部分)の相対位置に応じた領域に上記他の映像が表示されるようになる。このように本発明の映像表示装置によれば、撮像されなかった欠損部分の映像が仮想映像によって補完されるようになるため、当該欠損部分によって対話の臨場感が損なわれてしまうのを抑制することが可能となる。 In the above configuration, when a part of the body of the first user is outside the imaging range and the imaging unit captures the first user's video, the part is specified and the video captured by the imaging unit A composite video is generated by combining with other video. Here, the other video is composed of at least one of a part of the virtual video that has not been captured and a virtual video of an object located in front of the first user. When the composite video is displayed on the display screen, the other video is displayed in an area corresponding to the relative position of the missing portion (the portion outside the imaging range) with respect to the body in the display screen. As described above, according to the video display device of the present invention, since the video of the missing part that has not been imaged is complemented by the virtual video, it is possible to suppress the realism of the dialogue from being impaired by the defective part. It becomes possible.
 また、上記の映像表示システムにおいて、前記いずれか一方のユニットは、前記第一のユーザの身体中、頭部と頭部以外の部分との位置関係を示す骨格情報を取得する骨格情報取得部を有し、前記特定部は、前記一部分が前記撮像範囲外にある状態で前記撮像部が撮像した映像、及び、前記骨格情報に基づいて前記一部分を特定すると、好適である。
 上記の構成によれば、骨格情報に基づいて欠損部分を特定するため、欠損部分をより的確に特定することが可能となる。
In the video display system, any one of the units includes a skeleton information acquisition unit that acquires skeleton information indicating a positional relationship between a head and a portion other than the head in the body of the first user. Preferably, the specifying unit specifies the part based on the image captured by the imaging unit and the skeleton information in a state where the part is outside the imaging range.
According to said structure, since a missing part is specified based on skeleton information, it becomes possible to specify a missing part more correctly.
 また、上記の映像表示システムにおいて、移動動作を行っている前記第一のユーザの映像を、該第一のユーザの脚部が前記撮像範囲外にある状態で前記撮像部が撮像したとき、前記合成映像生成部は、前記移動動作中の前記脚部の仮想映像を前記他の映像として用いて前記合成映像を生成すると、より好適である。
 上記の構成によれば、移動動作によって第一のユーザの脚部が撮像部の撮像範囲外に至るようになった後、欠損した脚部の映像が、移動動作中の脚部の仮想映像(すなわち、移動動作中の脚部の動きを再現した映像)によって補完される。これにより、移動動作中に見切れが生じた場合にも適切に対応することが可能となる。
Further, in the above video display system, when the imaging unit captures an image of the first user performing the moving operation in a state where the leg of the first user is outside the imaging range, More preferably, the composite video generation unit generates the composite video using the virtual video of the leg during the movement operation as the other video.
According to the above configuration, after the leg of the first user reaches the outside of the imaging range of the imaging unit due to the moving operation, the video of the missing leg becomes a virtual video of the leg during the moving operation ( That is, it is complemented by an image that reproduces the movement of the leg during the movement operation. As a result, it is possible to appropriately cope with a case where an interruption occurs during the moving operation.
 また、上記の映像表示システムにおいて、前記第二ユニットは、前記表示画面を形成する画面形成用機器を有し、該画面形成用機器は、前記表示画面を形成していない間には、前記第二のユーザが居る部屋に設けられた扉、窓若しくは姿見としての外観を現すと、更に好適である。
 上記の構成において、画面形成用機器は、表示画面を形成していない間、第二のユーザが居る部屋に設けられた扉、窓若しくは姿見としての外観を現すことになっている。これにより、対話が行われていない期間中、画面形成用機器が目立ち難くなる結果、その存在が気付かれ難くなる。一方、表示画面が形成されて第一のユーザの映像が表示されるようになると、第二のユーザは、あたかも第一のユーザとガラス越しに話をしている視覚的効果を得るようになる。この結果、本発明の映像表示システムによって実現される対話の臨場感が一層向上することになる。
In the video display system, the second unit includes a screen forming device that forms the display screen, and the screen forming device does not form the display screen while the second unit has the screen forming device. It is more preferable to show an appearance as a door, window, or appearance provided in the room where the second user is present.
In the above configuration, the screen forming device is to display the appearance as a door, window, or appearance provided in the room where the second user is located while the display screen is not formed. As a result, the screen forming device becomes inconspicuous during a period in which no dialogue is performed, and as a result, its presence is difficult to notice. On the other hand, when the display screen is formed and the video of the first user is displayed, the second user will get a visual effect as if talking to the first user through the glass. . As a result, the realism of dialogue realized by the video display system of the present invention is further improved.
 また、上記の映像表示システムにおいて、前記映像表示部は、前記第一のユーザの映像を表示する際に、前記表示画面に表示される前記第一のユーザの身長と前記第一のユーザの実際の身長とが一致するように、前記表示画面に表示する映像の表示サイズを調整すると、尚好適である。
 上記の構成では、第一のユーザの映像が等身大で表示されるようになる。これにより、本発明の映像表示システムによって実現される対話の臨場感が益々向上することになる。
In the video display system, the video display unit may display the height of the first user displayed on the display screen and the actual state of the first user when displaying the video of the first user. It is more preferable to adjust the display size of the video displayed on the display screen so that the height of the video matches the height of the video.
In the above configuration, the video of the first user is displayed in life size. Thereby, the realism of the dialogue realized by the video display system of the present invention is further improved.
 また、上記の映像表示システムにおいて、前記撮像範囲外にある前記一部分が前記第一のユーザの身体中の所定部分であり、かつ、所定動作を行っている前記第一のユーザの映像を前記撮像部が撮像するとき、前記合成映像生成部は、前記所定部分の仮想映像によって構成された前記他の映像を用いて前記合成映像を生成すると、好適である。
 特に、前記第一ユニット及び前記第二ユニットは、それぞれ、前記撮像部、前記表示画面及び前記映像表示部を備え、前記第一ユニットが備える前記撮像部のレンズは、前記表示画面を形成する画面形成用機器中、前記表示画面の形成面に面しており、前記第一のユーザが前記形成面に手部を接触させる動作を行っており、かつ、前記第一ユニットが備える前記撮像部の前記撮像範囲外に前記手部があるとき、前記合成映像生成部は、前記手部の仮想映像によって構成された前記他の映像を用いて前記合成映像を生成すると、一段と好適である。
 上記の構成では、第一のユーザが表示画面の形成面に手を置いたとき、当該手が撮像部の撮像範囲外にあったとしても、当該手の映像を補完して表示することが可能である。これにより、第二のユーザは、表示画面に表示された第一のユーザの手と自身の手とを合わせる動作(手合せ動作)を行うことが可能となる。この結果、本発明の映像表示システムによる対話の演出的効果が高められる。
Further, in the above video display system, the part outside the imaging range is a predetermined part in the body of the first user and the video of the first user performing a predetermined operation is captured. When the unit captures an image, it is preferable that the composite video generation unit generates the composite video using the other video configured by the predetermined portion of the virtual video.
In particular, the first unit and the second unit each include the imaging unit, the display screen, and the video display unit, and the lens of the imaging unit included in the first unit is a screen that forms the display screen. In the forming device, facing the forming surface of the display screen, the first user is performing an operation of bringing a hand into contact with the forming surface, and the first unit includes the imaging unit When the hand portion is outside the imaging range, it is more preferable that the composite video generation portion generates the composite video using the other video configured by the virtual video of the hand portion.
In the above configuration, when the first user places his / her hand on the display screen forming surface, even if the hand is outside the imaging range of the imaging unit, the image of the hand can be complemented and displayed. It is. Thereby, the second user can perform an operation (manual alignment operation) of aligning the first user's hand displayed on the display screen with his / her hand. As a result, it is possible to enhance the effect of interactive performance by the video display system of the present invention.
 また、前述の課題は、第一のユーザが使用する第一ユニットと、前記第一のユーザとは異なる空間に居る第二のユーザが使用する第二ユニットと、を用いて、前記第一のユーザの映像を前記第二のユーザ側に設けられた表示画面に表示する映像表示方法であって、前記第一ユニットが備える撮像部により、撮像範囲内にある被写体の映像を撮像し、前記第二ユニットが備える映像表示部により、前記表示画面に映像を表示し、前記被写体である前記第一のユーザの身体の一部分が前記撮像範囲外にある状態で前記撮像部により前記第一のユーザの映像を撮像した際に、前記第一ユニット及び前記第二ユニットのうちのいずれか一方のユニットが備える特定部により、前記一部分を特定し、前記いずれか一方のユニットが備える合成映像生成部により、前記一部分が前記撮像範囲外にある状態で前記撮像部により撮像した映像と、他の映像と、を合成して合成映像を生成し、前記他の映像は、前記一部分が前記撮像範囲内にあるときに前記撮像部により撮像した映像に基づいて生成された前記一部分の仮想映像、及び、前記合成映像において前記第一のユーザの前方に位置する物の仮想映像のうち、少なくとも一つによって構成され、前記合成映像生成部により前記合成映像を生成する際には、前記映像表示部により前記合成映像が表示された前記表示画面中、前記身体に対する前記一部分の相対位置に応じた領域に前記他の映像が表示されるように前記合成映像を生成することにより解決される。
 上記の方法によれば、第一のユーザの身体中、撮像部の撮像範囲外にあって撮像されなかった欠損部分の映像が仮想映像によって補完されるようになる。これにより、当該欠損部分によって対話の臨場感が損なわれてしまうのを抑制することが可能である。
In addition, the above-described problem is achieved by using the first unit used by the first user and the second unit used by the second user in a different space from the first user. A video display method for displaying a video of a user on a display screen provided on the second user side, wherein an image of a subject within an imaging range is captured by an imaging unit included in the first unit, and the first The video display unit included in the two units displays video on the display screen, and the first user's body is part of the first user who is the subject is outside the imaging range. When the video is captured, the specific unit included in any one of the first unit and the second unit identifies the part, and the composite video generation unit included in the one unit Thus, a composite image is generated by combining the video captured by the imaging unit with the portion being outside the imaging range and another video, and the other video is partially within the imaging range. At least one of the virtual image of the part generated based on the image captured by the imaging unit and the virtual image of an object positioned in front of the first user in the composite image When the composite video is generated by the composite video generation unit, the display screen on which the composite video is displayed by the video display unit has an area corresponding to the relative position of the part with respect to the body. The problem is solved by generating the composite video so that another video is displayed.
According to said method, the image | video of the defect | deletion part which was outside the imaging range of the imaging part in the 1st user's body and was not imaged comes to be supplemented with a virtual image. As a result, it is possible to prevent the presence of dialogue from being lost due to the missing portion.
 本発明の映像表示システム及び映像表示方法によれば、第一のユーザの身体中、撮像部の撮像範囲外にあって撮像されなかった欠損部分の映像が仮想映像によって補完されるようになる。これにより、一台の撮像部(例えば、カメラ)によって第一のユーザの映像を撮像する場合に、当該第一のユーザの身体の一部分が撮像部の撮像範囲外にあったとしても、その欠損部分によって対話の臨場感が損なわれるのを抑制することが可能になる。 According to the video display system and the video display method of the present invention, the video of the missing part that is outside the imaging range of the imaging unit and is not captured in the body of the first user is complemented by the virtual video. As a result, even when a part of the body of the first user is outside the imaging range of the imaging unit when the first user's video is captured by a single imaging unit (for example, a camera), the loss It becomes possible to suppress that the presence of dialogue is impaired by the part.
本発明の一実施形態に係る映像表示システムの構成を示した図である。It is the figure which showed the structure of the video display system which concerns on one Embodiment of this invention. ユーザが居る部屋内におけるシステム構成機器の配置を示した図である。It is the figure which showed arrangement | positioning of the system component apparatus in the room where a user exists. 図3の(A)及び(B)は、本発明の画面形成用機器の一例を示した図である。FIGS. 3A and 3B are views showing an example of a screen forming device according to the present invention. 図4の(A)及び(B)は、撮像部とユーザとの距離に応じて表示映像が変化する様子を示した図である。FIGS. 4A and 4B are diagrams showing how the display video changes according to the distance between the imaging unit and the user. 欠損部分を補完した合成映像についての説明図である。It is explanatory drawing about the synthetic | combination image | video which complemented the missing part. 各ユーザが保有するホームサーバの構成を機能面から示した図である。It is the figure which showed the structure of the home server which each user holds from a functional surface. 骨格情報を取得する手順についての説明図である。It is explanatory drawing about the procedure which acquires skeleton information. 欠損部分の特定、及び、補完映像の生成に関する説明図である。It is explanatory drawing regarding the specification of a missing part, and the production | generation of a complementary image | video. 映像表示処理の流れを示した図である。It is the figure which showed the flow of the video display process. 図10の(A)及び(B)は、欠損部分の映像を補完する処理の流れを示した図である。(A) and (B) of FIG. 10 are diagrams showing a flow of processing for complementing the video of the missing part. ユーザ同士が手合せ動作を行っている様子を示した図である。It is the figure which showed a mode that the users are performing hand-matching operation | movement. 図12の(A)、(B)及び(C)は、移動動作によって欠損部分が生じたときに当該欠損部分の映像を補完する手順についての説明図である。(A), (B), and (C) of FIG. 12 are explanatory diagrams of a procedure for complementing the image of the missing portion when the missing portion is generated by the movement operation. 図13の(A)及び(B)は、前景映像を利用して欠損部分を補完した際の表示映像を示した図である。(A) and (B) of FIG. 13 are diagrams showing display images when missing portions are complemented using foreground images. 第一変形例に係る映像表示処理の流れを示した図である。It is the figure which showed the flow of the video display process which concerns on a 1st modification. 第一変形例において欠損部分を前景映像にて補完する処理の流れを示した図である。It is the figure which showed the flow of the process which complements a missing part with a foreground image | video in a 1st modification. 第一変形例において手部が欠損した場合に当該欠損部分を補完した際の表示映像を示した図である。It is the figure which showed the display image at the time of complementing the said missing part when a hand part is missing in the 1st modification. フレーム映像を利用して欠損部分を補完した際の表示映像を示した図である。It is the figure which showed the display image at the time of complementing a missing part using a frame image | video. 第一変形例に係る映像表示処理の流れを示した図である。It is the figure which showed the flow of the video display process which concerns on a 1st modification.
 以下、本発明の一実施形態(以下、本実施形態)について、図面を参照しながら説明する。本実施形態に係る映像表示システム(以下、本システムS)は、互いに離れた部屋に居るユーザ同士が互いの姿(映像)を見ながら対話するために用いられる。より具体的に説明すると、本システムSがもたらす視覚効果により、各ユーザは、あたかも対話相手と会って話をしているような感覚を有するようになる。 Hereinafter, an embodiment of the present invention (hereinafter, this embodiment) will be described with reference to the drawings. The video display system according to the present embodiment (hereinafter, system S) is used for users who are in rooms separated from each other to interact with each other while watching each other's appearance (video). More specifically, due to the visual effect provided by the system S, each user feels as if he / she is talking with a conversation partner.
 なお、本実施形態において、本システムSは、各ユーザが各自の自宅に居るときに利用されることになっている。つまり、本システムSは、各ユーザが自宅に居ながらにして対話相手と対話するために利用される。ただし、これに限定されるものではなく、本システムSは、ユーザが自宅以外の場所(例えば、集会所や商業施設等)に居るときに用いられてもよい。また、同じ建物内で互いに離れている部屋にいるユーザ同士が対話するために本システムSを用いることとしてもよい。 In the present embodiment, the system S is used when each user is at his / her own home. That is, this system S is used for each user to interact with the conversation partner while staying at home. However, the present invention is not limited to this, and the present system S may be used when the user is in a place other than home (for example, a meeting place or a commercial facility). Moreover, it is good also as using this system S in order for the users in the room apart from each other in the same building to interact.
 以降、本システムSについて分かり易くし説明するために、二人のユーザが本システムSを利用して対話するケースを例に挙げて説明することとし、一方のユーザをAさん、他方のユーザをBさんとする。また、以下では、Bさん側の視点、すなわち、Aさんの映像を見る立場から本システムSの構成等を説明することとする。つまり、Aさんが「第一のユーザ」に相当し、Bさんが「第二のユーザ」に相当する。ただし、「第一のユーザ」及び「第二のユーザ」は、映像を見る者及び見られる者の関係に応じて切り替わる相対的な概念である。したがって、例えば、Aさん側の視点であれば、Bさんが「第一のユーザ」に相当し、Aさんが「第二のユーザ」に相当することとなる。 In the following, in order to make the system S easier to understand and explain, a case where two users interact using the system S will be described as an example, with one user A and the other user. Let's say B. In the following, the configuration of the system S will be described from the viewpoint of Mr. B, that is, from the viewpoint of viewing Mr. A's video. That is, Mr. A corresponds to the “first user”, and Mr. B corresponds to the “second user”. However, the “first user” and the “second user” are relative concepts that are switched according to the relationship between the viewer and the viewer. Therefore, for example, in the viewpoint of Mr. A, Mr. B corresponds to the “first user” and Mr. A corresponds to the “second user”.
 <<本システムの基本構成>>
 先ず、本システムSの基本構成について説明する。本システムSは、二人のユーザ(すなわち、Aさん及びBさん)がお互いの映像を見ながら対話をするために用いられ、より具体的には、各ユーザに対して対話相手の等身大の映像を表示し、対話相手の音声を再生するものである。このような視聴覚的効果を得るために、各ユーザは、通信ユニット100を保有している。つまり、本システムSは、各ユーザが保有する通信ユニット100によって構成されている。ここで、Aさんが保有する通信ユニット100は、「第一ユニット」に相当し、Bさんが保有する通信ユニット100は、「第二ユニット」に相当する。
<< Basic configuration of this system >>
First, the basic configuration of the system S will be described. This system S is used by two users (ie, Mr. A and Mr. B) to interact while watching each other's images, and more specifically, each user has a life-size counterpart of the conversation partner. The video is displayed and the voice of the conversation partner is played back. In order to obtain such an audiovisual effect, each user has a communication unit 100. That is, this system S is comprised by the communication unit 100 which each user possesses. Here, the communication unit 100 owned by Mr. A corresponds to the “first unit”, and the communication unit 100 owned by Mr. B corresponds to the “second unit”.
 次に、図1を参照しながら、通信ユニット100の構成について説明する。図1は、本システムSの構成、より具体的には各通信ユニット100の構成を示した図である。 Next, the configuration of the communication unit 100 will be described with reference to FIG. FIG. 1 is a diagram showing the configuration of the system S, more specifically, the configuration of each communication unit 100.
 各通信ユニット100は、ホームサーバ1、撮影部としてのカメラ2、集音部としてのマイク3、赤外線センサ4、画面形成用機器としての画面端末5、及び、スピーカ6を主要構成機器として有する。これらの機器のうち、カメラ2、マイク3、赤外線センサ4、画面端末5及びスピーカ6は、各ユーザの自宅における所定の部屋(例えば、対話相手と対話する際に居る部屋)内に配置されている。 Each communication unit 100 includes a home server 1, a camera 2 as a photographing unit, a microphone 3 as a sound collecting unit, an infrared sensor 4, a screen terminal 5 as a screen forming device, and a speaker 6 as main components. Among these devices, the camera 2, the microphone 3, the infrared sensor 4, the screen terminal 5, and the speaker 6 are arranged in a predetermined room at the home of each user (for example, a room where a user interacts with a conversation partner). Yes.
 ホームサーバ1は、所謂ホームゲートウェイを構成するサーバコンピュータからなり、CPU、ROMやRAM等のメモリ、通信用インタフェース及びハードディスクドライブを有する。また、ホームサーバ1には、AさんとBさんとが本システムSを通じて行う対話(対面対話)に必要なデータ処理を実行するためのプログラム(以下、対話用プログラム)がインストールされている。 The home server 1 includes a server computer constituting a so-called home gateway, and includes a CPU, a memory such as a ROM and a RAM, a communication interface, and a hard disk drive. The home server 1 is installed with a program for executing data processing necessary for a dialogue (face-to-face dialogue) between Mr. A and Mr. B through the system S (hereinafter, a dialogue program).
 また、ホームサーバ1は、インターネット等の外部通信ネットワークGNを介して通信機器と通信可能な状態で接続されている。つまり、Aさんが保有する通信ユニット100に属するホームサーバ1は、外部通信ネットワークGNを介して、Bさんが保有する通信ユニット100に属するホームサーバ1と通信し、両サーバ間で各種データの送受信を行う。なお、ホームサーバ1が送受信するデータは、AさんとBさんとが本システムSを通じて行う対話(対面対話)に必要なデータであり、例えば、各ユーザの映像を示す映像データや音声を示す音声データである。 Further, the home server 1 is connected in a communicable state with a communication device via an external communication network GN such as the Internet. That is, the home server 1 belonging to the communication unit 100 owned by Mr. A communicates with the home server 1 belonging to the communication unit 100 owned by Mr. B via the external communication network GN, and transmits and receives various data between the two servers. I do. The data transmitted and received by the home server 1 is data necessary for a dialogue (face-to-face dialogue) between Mr. A and Mr. B through the system S. For example, video data indicating each user's video and audio indicating audio. It is data.
 カメラ2は、公知のネットワークカメラであり、撮像範囲内にある被写体の映像を撮像し、その映像信号をホームサーバ1(厳密には、カメラ2が所属する通信ユニット100と同一のユニットに属するホームサーバ1)に対して出力する。カメラ2の設置台数については、特に制限されるものではないが、本実施形態ではコスト面を考慮し、各通信ユニット100においてカメラ2を1台のみ備えることとした。なお、本実施形態において、カメラ2が有するレンズは、画面端末5が備える表示画面の形成面に面している。ここで、形成面を構成する画面端末5のパネル(厳密には、タッチパネル5a)は、透明なガラスによって構成されている。したがって、カメラ2は、図2に示すように、パネル越しで当該パネルの前に位置する被写体の映像を撮像することになる。図2は、通信ユニット100の各構成機器について、ユーザが居る部屋内での配置位置を示した図である。 The camera 2 is a well-known network camera, picks up an image of a subject within the image pickup range, and sends the image signal to the home server 1 (strictly speaking, a home unit belonging to the same unit as the communication unit 100 to which the camera 2 belongs). Output to server 1). The number of cameras 2 installed is not particularly limited, but in the present embodiment, only one camera 2 is provided in each communication unit 100 in consideration of cost. In the present embodiment, the lens of the camera 2 faces the display screen forming surface provided in the screen terminal 5. Here, the panel (strictly speaking, the touch panel 5a) of the screen terminal 5 constituting the forming surface is made of transparent glass. Therefore, as shown in FIG. 2, the camera 2 captures an image of a subject located in front of the panel through the panel. FIG. 2 is a diagram illustrating an arrangement position of each component device of the communication unit 100 in a room where a user is present.
 マイク3は、マイク3が設置された部屋内の音声を集音し、その音声信号をホームサーバ1(厳密には、マイク3が所属する通信ユニット100と同一のユニットに属するホームサーバ1)に対して出力する。なお、本実施形態においてマイク3は、図2に示すように画面端末5の直上位置に設置されている。 The microphone 3 collects sound in the room in which the microphone 3 is installed, and the sound signal is sent to the home server 1 (strictly, the home server 1 belonging to the same unit as the communication unit 100 to which the microphone 3 belongs). Output. In the present embodiment, the microphone 3 is installed at a position directly above the screen terminal 5 as shown in FIG.
 赤外線センサ4は、赤外線方式にて計測対象物の深度を計測するためのセンサである。具体的に説明すると、赤外線センサ4は、計測対象物に向けて発光部4aから赤外線を照射し、その反射光を受光部4bにて受光することにより深度を計測する。ここで、深度とは、受光部4bから計測対象物までの距離(すなわち、奥行き)のことである。なお、本実施形態において、赤外線センサ4の発光部4a及び受光部4bは、画面端末5が備える表示画面の形成面に面している。また、前述したように、形成面を構成する画面端末5のパネルは、透明なガラスによって構成されている。これにより、赤外線センサ4は、図2に示すように、パネル越しで当該パネルの前に位置する計測対象物の深度を計測する。 The infrared sensor 4 is a sensor for measuring the depth of the measurement object by an infrared method. Specifically, the infrared sensor 4 irradiates infrared rays from the light emitting unit 4a toward the measurement object, and measures the depth by receiving the reflected light at the light receiving unit 4b. Here, the depth is a distance (ie, depth) from the light receiving unit 4b to the measurement target. In the present embodiment, the light emitting unit 4 a and the light receiving unit 4 b of the infrared sensor 4 face the display screen forming surface provided in the screen terminal 5. In addition, as described above, the panel of the screen terminal 5 constituting the formation surface is made of transparent glass. Thereby, as shown in FIG. 2, the infrared sensor 4 measures the depth of the measurement object located in front of the panel through the panel.
 スピーカ6は、ホームサーバ1が音声データを展開することで再生される音声(再生音)を発するものであり、公知のスピーカによって構成されている。なお、本実施形態において、スピーカ6は、図2に示すように、画面端末5の横幅方向において当該画面端末5を挟む位置に複数(図2では4個)設置されている。 The speaker 6 emits sound (reproduced sound) that is reproduced when the home server 1 develops the sound data, and is configured by a known speaker. In the present embodiment, as shown in FIG. 2, a plurality of speakers 4 (four in FIG. 2) are installed at positions sandwiching the screen terminal 5 in the horizontal width direction of the screen terminal 5.
 画面端末5は、ホームサーバ1が映像データを展開することで再生される映像の表示画面を形成するものである。具体的に説明すると、画面端末5は、透明なガラスによって構成されたパネルを有し、当該パネルの前面に表示画面を構成する。つまり、パネルの前面は、表示画面の形成面に相当する。なお、本実施形態において、上記のパネルは、タッチパネル5aとなっており、ユーザが行う操作(タッチ操作)を受け付ける。 The screen terminal 5 forms a video display screen that is reproduced by the home server 1 developing video data. Specifically, the screen terminal 5 includes a panel made of transparent glass, and forms a display screen on the front surface of the panel. That is, the front surface of the panel corresponds to the display screen formation surface. In the present embodiment, the above panel is the touch panel 5a and receives an operation (touch operation) performed by the user.
 さらに、上記のパネルは、人の全身映像を表示するのに十分なサイズを有している。そして、本システムSによる対面対話では、上記のパネルの前面に形成された表示画面に、対話相手の全身映像が等身大のサイズで表示されることになっている。これにより、表示画面を見ているBさんは、あたかもAさんと会っている感覚、特に、ガラス越しで対面している感覚を感じるようになる。 Furthermore, the above panel has a size sufficient to display a whole body image of a person. In the face-to-face conversation by the system S, the whole body image of the conversation partner is displayed in a life-size size on the display screen formed on the front surface of the panel. As a result, Mr. B who is looking at the display screen feels as if he is meeting Mr. A, in particular, the feeling of facing through the glass.
 さらにまた、本実施形態に係る画面端末5は、通常時には部屋内に配置された姿見として機能し、対面対話時にのみ表示画面を形成するものとなっている。以下、図3の(A)及び(B)を参照しながら画面端末5の構成について詳しく説明する。図3の(A)及び(B)は、画面端末5の構成例を示した図であり、(A)が通常時(非対話時)の状態を、(B)が対面対話時の状態をそれぞれ示している。 Furthermore, the screen terminal 5 according to the present embodiment normally functions as an appearance arranged in a room and forms a display screen only during face-to-face conversation. Hereinafter, the configuration of the screen terminal 5 will be described in detail with reference to FIGS. 3A and 3B. FIGS. 3A and 3B are diagrams showing a configuration example of the screen terminal 5, where FIG. 3A shows a normal state (non-interactive state), and FIG. 3B shows a state of face-to-face conversation. Each is shown.
 画面端末5が有するタッチパネル5aは、部屋内に配置された姿見の一部分、具体的には鏡面部分を構成する。そして、上記のタッチパネル5aは、図3の(A)に示すように、対話が行われていない期間、すなわち通常時には表示画面を形成せずに鏡面部分としての外観を呈している。一方、対面対話が開始されると、上記のタッチパネル5aは、その前面に表示画面を形成する。これにより、タッチパネル5aの前面には、図3の(B)に示すように対話相手の映像が表示されるようになる。 The touch panel 5a of the screen terminal 5 constitutes a part of the appearance arranged in the room, specifically a mirror surface part. Then, as shown in FIG. 3A, the touch panel 5a has an appearance as a specular portion without forming a display screen during a period in which no dialogue is performed, that is, in a normal state. On the other hand, when the face-to-face conversation is started, the touch panel 5a forms a display screen on the front surface. As a result, an image of the conversation partner is displayed on the front surface of the touch panel 5a as shown in FIG.
 ちなみに、表示画面のオンオフの切り替えは、ホームサーバ1が赤外線センサ4の計測結果に応じて行うことになっている。より詳しく説明すると、ユーザが画面端末5の正面位置に立っている間、ホームサーバ1は、赤外線センサ4が計測した深度に基づいてユーザの位置、厳密にはタッチパネル5aの前面からの距離を特定する。 Incidentally, the home server 1 is supposed to switch the display screen on and off according to the measurement result of the infrared sensor 4. More specifically, while the user is standing at the front position of the screen terminal 5, the home server 1 specifies the position of the user based on the depth measured by the infrared sensor 4, strictly speaking, the distance from the front surface of the touch panel 5a. To do.
 そして、ユーザとタッチパネル5aとの間の距離が所定の距離よりも小さくなると、ホームサーバ1は、画面端末5を制御してタッチパネル5aの前面に表示画面を形成させる。この結果、それまで姿見として機能していたタッチパネル5aが映像表示用のスクリーンとして機能するようになる。反対に、ユーザとタッチパネル5aとの間の距離が所定の距離以上となると、ホームサーバ1が画面端末5を制御し、それまで形成されていた表示画面を消すようになる。これにより、タッチパネル5aは、再び姿見として機能するようになる。 When the distance between the user and the touch panel 5a becomes smaller than a predetermined distance, the home server 1 controls the screen terminal 5 to form a display screen on the front surface of the touch panel 5a. As a result, the touch panel 5a which has been functioning as a figure until then functions as a screen for displaying images. On the other hand, when the distance between the user and the touch panel 5a is equal to or greater than a predetermined distance, the home server 1 controls the screen terminal 5 and erases the display screen that has been formed so far. As a result, the touch panel 5a functions as a figure again.
 以上のように、本システムSでは、映像表示用のスクリーンとなる画面端末5が通常時には姿見として兼用されることになっている。これにより、通常時(非対話時)には表示画面の存在が気付かれ難くなる。その一方で、対面対話時には、表示画面が形成されて対話相手の映像が表示される。これにより、表示画面を見ているユーザは、あたかも対話相手とガラス越しに話をしているような視覚的効果を感じる。この結果、より臨場感のある対話(対面対話)が実現されるようになる。 As described above, in the present system S, the screen terminal 5 serving as a screen for displaying images is normally used as an appearance. This makes it difficult to notice the presence of the display screen during normal (non-interactive) times. On the other hand, during the face-to-face conversation, a display screen is formed and the conversation partner's video is displayed. Thereby, the user who is looking at the display screen feels a visual effect as if he / she is talking through the glass with the conversation partner. As a result, a more realistic dialogue (face-to-face dialogue) is realized.
 なお、映像表示スクリーンと姿見とを兼用する構成については、例えば国際公開第2009/122716号に記載された構成のように公知の構成が利用可能である。また、画面端末5については、姿見として兼用される構成に限定されるものではない。画面端末5については、対話相手の映像(全身映像)を表示するのに十分なサイズを有しているものであればよく、例えば、部屋に設置された扉(ガラス戸)や窓(ガラス窓)として兼用されるものであってもよい。なお、画面端末5については、扉、窓若しくは姿見として兼用されるものに限定されず、起動中には表示画面を常時形成する通常の機器であってもよい。 In addition, about the structure which uses both a video display screen and appearance, a well-known structure can be utilized like the structure described in the international publication 2009/122716, for example. Further, the screen terminal 5 is not limited to a configuration that is also used as a figure. The screen terminal 5 only needs to have a size sufficient to display a conversation partner's video (whole body video). For example, a door (glass door) or a window (glass window) installed in the room. ) May also be used. In addition, about the screen terminal 5, it is not limited to what is used as a door, a window, or a figure, but the normal apparatus which always forms a display screen during start-up may be sufficient.
 <<欠損部分の発生に対する本システムSでの対処方法>>
 本システムSによる対面対話では、Aさん側のカメラ2がAさんの映像を撮像し、Aさん側のマイク3がAさんの音声を取得する。そして、Aさん側のホームサーバ1が映像データや音声データをBさん側のホームサーバ1に向けて送信する。Bさん側のホームサーバ1は、ネットワーク経由で上記の映像データ及び音声データを受信すると、これらを展開する。これにより、Bさん側の画面端末5が形成する表示画面にはAさんの映像が表示されるようになり、Bさん側のスピーカ6がAさんの音声(厳密には、Aさんが居る部屋で集音された音声の再生音)を発するようになる。
<< Measures to be taken by System S for the occurrence of missing parts >>
In the face-to-face conversation by the system S, the A-side camera 2 captures Mr. A's video, and the A-side microphone 3 acquires A's voice. Then, Mr. A's home server 1 transmits video data and audio data to Mr. B's home server 1. When Mr. B's home server 1 receives the video data and audio data via the network, the home server 1 develops them. As a result, Mr. A's video is displayed on the display screen formed by Mr. B's screen terminal 5, and Mr. B's speaker 6 receives Mr. A's voice (strictly speaking, the room where Mr. A is present). (Reproduced sound of the sound collected in step 1).
 ところで、Aさん側のカメラ2が撮像したAさんの映像をBさん側の表示画面にて表示する際、その表示映像は、カメラ2とAさんとの距離に応じて異なってくる。以下、図4の(A)及び(B)を参照しながら説明する。図4は、カメラ2とユーザとの距離に応じて表示映像が変化する様子を示した図であり、同図の(A)は、カメラ2とAさんとの位置関係を示しており、(B)は、Bさん側の表示画面に表示されるAさんの映像を示している。なお、図4の(A)中、記号a、b、cにて示される位置にAさんが立っているとき、Bさん側の表示画面には図4の(B)中、記号a、b、cにて示される映像のうち、同じ記号の映像が表示されることになる。 By the way, when displaying the image of Mr. A taken by the camera 2 on the side of Mr. A on the display screen on the side of Mr. B, the display image varies depending on the distance between the camera 2 and Mr. A. Hereinafter, a description will be given with reference to FIGS. FIG. 4 is a diagram showing how the display image changes in accordance with the distance between the camera 2 and the user. FIG. 4A shows the positional relationship between the camera 2 and Mr. A. B) shows an image of Mr. A displayed on the display screen of Mr. B. In FIG. 4A, when Mr. A stands at the position indicated by the symbols a, b, c, the display screen on the side of Mr. B displays the symbols a, b in FIG. , C, the video with the same symbol is displayed.
 Aさんがカメラ2に近付き、Aさんとカメラ2との距離が所定の距離より小さくなると(具体的にはAさんが図4の(A)中、記号cの位置よりもカメラ2に近付いたとき)、図4の(A)及び(B)に示すように、Aさんの身体の一部分がカメラ2の撮像範囲から外れて見切れるようになる。そして、Aさんがカメラ2に近付くほど、図4の(A)及び(B)に示すようにAさんの身体において撮像範囲外に位置する部分、すなわち、欠損部分が広がっていく。なお、本実施形態では、Aさんがカメラ2に近付くと、上下方向において下方から欠損部分が広がっていく。その一方で、Aさんがカメラ2に近付いたとしても、Aさんの頭部及び肩部は撮像範囲内に常に入っており、また、Aさんの身体が横幅方向に見切れることもない。 When Mr. A approaches the camera 2 and the distance between Mr. A and the camera 2 becomes smaller than the predetermined distance (specifically, Mr. A approaches the camera 2 rather than the position of the symbol c in FIG. 4A). 4), as shown in FIGS. 4A and 4B, a part of Mr. A's body is out of the imaging range of the camera 2 and can be seen. And as Mr. A approaches the camera 2, as shown to (A) and (B) of FIG. 4, the part located out of an imaging range in Mr. A's body, ie, a defective part, spreads. In this embodiment, when Mr. A approaches the camera 2, the missing part spreads from below in the vertical direction. On the other hand, even if Mr. A approaches the camera 2, Mr. A's head and shoulders are always within the imaging range, and Mr. A's body is not completely cut out in the width direction.
 そして、撮像時にAさんの身体の一部分が撮像されないと、Bさん側の表示画面においても当該欠損部分の映像を欠いた状態でAさんの映像が表示されるようになる。このような事態は、Aさんの映像を見ているBさんに違和感を与え、互いの映像を見ながら行う対話(対面対話)の臨場感を著しく損なうことになってしまう。 If a part of Mr. A's body is not imaged at the time of imaging, Mr. A's image is displayed on the display screen of Mr. B without the image of the missing part. Such a situation gives a sense of incongruity to Mr. B who is watching Mr. A's video, and significantly impairs the realism of the dialogue (face-to-face dialogue) performed while watching each other's video.
 これに対して、本システムSでは、欠損部分が生じた場合に当該欠損部分を補完する映像(補完映像)を用い、実際に撮像した映像と補完映像とを合成した映像(合成映像)を表示することとしている。図5を参照しながら説明すると、本システムSでは、先ず、実際に撮像した映像を基に欠損部分を特定する。欠損部分を特定した後には、欠損部分と同じ部分を現した仮想映像を取得する。次に、図5に示すように、実際に撮像した映像、及び欠損部分の仮想映像のそれぞれに対してサイズ変換を施す。このサイズ変換は、その後に表示される合成映像としてのAさんの全身映像を実際のAさんの身長と一致するサイズ(すなわち、等身大サイズ)にて表示するための映像処理である。 On the other hand, in this system S, when a defective part occurs, a video (complementary video) that combines the actually captured video and the complementary video is displayed using a video that complements the defective part (complementary video). To do. Referring to FIG. 5, in the present system S, first, a missing portion is specified based on an actually captured image. After specifying the missing part, a virtual image showing the same part as the missing part is acquired. Next, as shown in FIG. 5, size conversion is performed on each of the actually captured image and the virtual image of the missing portion. This size conversion is video processing for displaying the whole body image of Mr. A as a composite image to be displayed thereafter in a size (that is, a life size) that matches the actual height of Mr. A.
 そして、サイズ変換後の映像同士を合成することにより合成映像が生成される。このような手順によって生成された合成映像がBさん側の表示画面で表示されると、欠損部分が補完映像によって補完されているため、Aさんの全身映像が表示映像として表示されるようになる。 Then, a synthesized video is generated by synthesizing the videos after the size conversion. When the synthesized video generated by such a procedure is displayed on the display screen of Mr. B, the missing part is complemented by the supplemental video, so that Mr. A's whole body video is displayed as the display video. .
 以上に説明した欠損部分の補完により、本システムSでは、欠損部分の発生によって対面対話の臨場感が損なわれてしまうのを、効果的に防止することが可能となる。かかる効果は、本実施形態のように各通信ユニット100においてカメラ2が1台のみ備えられている構成において特に有効である。より詳しく説明すると、カメラ2の設置台数が1台のみである場合、当該カメラ2の撮像範囲外にある部分(すなわち、欠損部分)の撮像を他のカメラによって補うことができない。その一方で、上述したように仮想映像を用いて欠損部分を補完すれば、1台のカメラ2であっても対応可能である。この結果、臨場感のある対面対話を実現する映像表示システムとして、より安価なシステムを提供することが可能である。
 以降の説明では、本システムSに関して、欠損部分の補完を含む映像表示処理に関する構成、及び、映像表示処理の流れについて詳述することとする。
By complementing the deficient portion described above, the present system S can effectively prevent the presence of the face-to-face dialogue from being lost due to the occurrence of the deficient portion. Such an effect is particularly effective in a configuration in which only one camera 2 is provided in each communication unit 100 as in the present embodiment. More specifically, when only one camera 2 is installed, imaging of a portion outside the imaging range of the camera 2 (that is, a missing portion) cannot be supplemented by another camera. On the other hand, as described above, even if one camera 2 is used, it is possible to supplement the missing portion using the virtual video. As a result, it is possible to provide a cheaper system as a video display system that realizes a face-to-face conversation with a sense of reality.
In the following description, regarding the present system S, the configuration related to the video display processing including the complement of the missing portion and the flow of the video display processing will be described in detail.
 <<ホームサーバの機能について>>
 次に、ホームサーバ1の機能、特に、映像表示処理に関する機能について説明する。なお、Aさん側のホームサーバ1及びBさん側のホームサーバ1の双方は、同様の機能を有しており、対面対話の実施にあたり双方向通信して同様のデータ処理を実行することになっている。このため、以下では、一方のホームサーバ1(例えば、Aさん側のホームサーバ1)の機能のみを説明することとする。
<< About home server functions >>
Next, functions of the home server 1, particularly functions related to video display processing will be described. Note that both the Mr. A's home server 1 and Mr. B's home server 1 have the same function, and execute the same data processing through two-way communication when performing the face-to-face conversation. ing. For this reason, only the function of one home server 1 (for example, Mr. A's home server 1) will be described below.
 ホームサーバ1は、同装置のCPUが対話用プログラムを実行することでホームサーバ1としての機能を発揮し、具体的には、対面対話に関する一連のデータ処理を実行する。ここで、ホームサーバ1の構成をその機能面から説明すると、ホームサーバ1には、図6に示すように、映像取得部11、人物映像抽出部12、映像記憶部13、骨格情報取得部14、骨格情報記憶部15、特定部16、補完映像生成部17、合成映像生成部18、映像データ送信部19、映像データ受信部20及び映像表示部21が備えられている。図6は、ホームサーバ1の構成を機能面から示した図である。 The home server 1 functions as the home server 1 when the CPU of the apparatus executes a dialogue program, and specifically executes a series of data processing related to a face-to-face dialogue. Here, the configuration of the home server 1 will be described in terms of its functions. As shown in FIG. 6, the home server 1 includes a video acquisition unit 11, a person video extraction unit 12, a video storage unit 13, and a skeleton information acquisition unit 14. , A skeleton information storage unit 15, a specifying unit 16, a complementary video generation unit 17, a composite video generation unit 18, a video data transmission unit 19, a video data reception unit 20, and a video display unit 21. FIG. 6 is a diagram showing the configuration of the home server 1 in terms of functions.
 上記のデータ処理部は、それぞれ、ホームサーバ1のハードウェア機器(具体的には、CPU、メモリ、通信用インタフェース及びハードディスクドライブ等)がソフトウェアとしての対話用プログラムと協働することによって実現される。以下、各データ処理部について個別に説明する。 Each of the data processing units described above is realized by the hardware devices (specifically, CPU, memory, communication interface, hard disk drive, etc.) of the home server 1 cooperating with a dialogue program as software. . Hereinafter, each data processing unit will be described individually.
 映像取得部11は、映像信号をカメラ2から取得する。ここで、映像取得部11が取得する映像信号は、カメラ2が実際に撮像した映像(以下、実映像)を示すものである。したがって、カメラ2の撮像範囲内にユーザが居る場合、映像取得部11は、当該ユーザの映像を含む実映像の映像信号を取得することになる。 The video acquisition unit 11 acquires a video signal from the camera 2. Here, the video signal acquired by the video acquisition unit 11 indicates a video actually captured by the camera 2 (hereinafter, an actual video). Therefore, when the user is within the imaging range of the camera 2, the video acquisition unit 11 acquires a video signal of an actual video including the user's video.
 人物映像抽出部12は、映像取得部11が取得した映像信号が示す実映像のうち、人物映像を抽出する。ここで、人物映像とは、実映像中、人物と認識される部分の映像のことである。本実施形態では、実映像をそのまま利用せず、人物映像と背景映像とを分離することとしている。これは、人物映像と背景映像とを分離することで双方の映像を個別に利用(例えば編集加工等)することが可能となり、人物映像と背景映像とを自由に組み合わせることにより最終的な表示映像(合成映像)のバリエーションも増えることになる。なお、実映像の中から人物映像を抽出する方法については特に限定されるものではないが、一例としては、実映像の深度データに基づいて人物映像を特定する方法が挙げられる。実映像の深度データとは、実映像の各フレーム画像を画素単位で区画し、画素別に赤外線センサ4の計測結果、すなわち深度を規定したものである。そして、実映像の深度データによれば、後述する図7に示すように、人物映像に属する画素(図7中、白抜きの画素)と背景映像に属する画素(図7中、ハッチングが付けられた画素)とでは明らかに深度値が異なる。このような性質を利用して、実映像の中から人物映像を抽出することが可能である。 The person video extraction unit 12 extracts a person video from the actual video indicated by the video signal acquired by the video acquisition unit 11. Here, the person image is an image of a part recognized as a person in the actual image. In the present embodiment, the actual video is not used as it is, and the human video and the background video are separated. This is because it is possible to use both videos individually (for example, editing and processing) by separating the person video and the background video, and the final display video by freely combining the human video and the background video. Variations in (composite video) will also increase. Note that a method for extracting a person image from a real image is not particularly limited, but an example is a method for identifying a person image based on depth data of the actual image. The real video depth data is obtained by dividing each frame image of the real video in units of pixels and specifying the measurement result of the infrared sensor 4, that is, the depth for each pixel. Then, according to the depth data of the actual video, as shown in FIG. 7 described later, pixels belonging to the person video (white pixels in FIG. 7) and pixels belonging to the background video (hatched in FIG. 7) are added. The depth value is clearly different from that of the pixel. It is possible to extract a person image from an actual image using such a property.
 映像記憶部13は、各種映像を記憶する。映像記憶部13が記憶する映像としては、図6に示すように、全身映像、テンプレート映像、背景映像である。全身映像は、人物映像抽出部12が抽出した人物映像が全身映像に該当するときの当該人物映像である。つまり、人物映像抽出部12が抽出した人物映像が全身映像に該当したとき、映像記憶部13は、当該人物映像を全身映像として記憶する。背景映像は、映像取得部11が取得した映像信号が示す実映像中に人物映像が含まれていなかったときの当該実映像である。つまり、映像取得部11が取得した映像信号が示す実映像中に人物映像が含まれていなかったとき、映像記憶部13は、当該実映像を背景映像として記憶する。テンプレート映像は、欠損部分の補完に利用される映像として予め記憶されている映像であり、例えば、人の身体各部(手、足、腰等)の映像として標準的な映像である。このテンプレート映像は、全身映像が無い場合(映像記憶部13に記憶されていない場合)に利用される。 The video storage unit 13 stores various videos. As shown in FIG. 6, the video stored in the video storage unit 13 is a whole body video, a template video, and a background video. The whole body video is the person video when the person video extracted by the person video extraction unit 12 corresponds to the whole body video. That is, when the person video extracted by the person video extraction unit 12 corresponds to the whole body video, the video storage unit 13 stores the person video as the whole body video. The background video is the actual video when the human video is not included in the real video indicated by the video signal acquired by the video acquisition unit 11. That is, when the person video is not included in the actual video indicated by the video signal acquired by the video acquisition unit 11, the video storage unit 13 stores the actual video as a background video. The template video is a video that is stored in advance as a video that is used for complementing the missing portion, and is a standard video as a video of each part of the human body (hand, foot, waist, etc.), for example. This template video is used when there is no whole body video (when it is not stored in the video storage unit 13).
 骨格情報取得部14は、人物映像抽出部12が実映像から抽出した人物映像から、当該人物の骨格情報を取得する。ここで、骨格情報とは、人物の身体中、頭部と頭部以外の部分(具体的には、肩、肘、手首、上半身中心、腰、膝、足首)との位置関係を示すものである。なお、本実施形態では、骨格情報として、図7に図示した人物の骨格に関する簡易的なモデル(骨格モデル)を取得する。図7は、骨格情報としての骨格モデルを取得する手順についての説明図である。
 ちなみに、骨格モデルは、上述した実映像の深度データに基づいて取得される。深度データに基づいて骨格モデルを取得する方法については、公知の方法が利用可能であり、例えば、特開2014-155693号公報や特開2013-116311号公報に記載された発明において採用されている方法と同様の方法を利用してもよい。
The skeleton information acquisition unit 14 acquires the skeleton information of the person from the person video extracted from the real video by the person video extraction unit 12. Here, the skeletal information indicates the positional relationship between the head of the person and parts other than the head (specifically, shoulder, elbow, wrist, upper body center, waist, knee, ankle). is there. In the present embodiment, a simple model (skeleton model) related to the skeleton of the person illustrated in FIG. 7 is acquired as the skeleton information. FIG. 7 is an explanatory diagram of a procedure for acquiring a skeleton model as skeleton information.
Incidentally, the skeleton model is acquired based on the above-described depth data of the real video. As a method for acquiring the skeleton model based on the depth data, a known method can be used. For example, it is adopted in the inventions described in Japanese Patent Application Laid-Open Nos. 2014-155893 and 2013-116311. A method similar to the method may be used.
 骨格情報記憶部15は、骨格モデルを記憶する。ここで、骨格情報記憶部15が記憶する骨格モデルとしては、骨格情報取得部14によって取得された骨格モデル、標準的な体格を有する人の骨格モデルとして事前に取得されたもの(以下、サンプルモデル)が挙げられる。また、本実施形態において、骨格情報記憶部15が記憶する骨格モデルには、全身像の骨格モデル(以下、全身モデル)及び移動動作中の骨格モデル(以下、移動モデル)が含まれる。ただし、これに限定されるものではなく、所定の動作を行っているときの骨格モデルや所定の姿勢にあるときの骨格モデルが含まれていてもよい。 The skeleton information storage unit 15 stores a skeleton model. Here, as the skeleton model stored in the skeleton information storage unit 15, a skeleton model acquired by the skeleton information acquisition unit 14, or a model acquired in advance as a skeleton model of a person having a standard physique (hereinafter referred to as a sample model). ). In the present embodiment, the skeleton model stored in the skeleton information storage unit 15 includes a skeleton model of a whole body image (hereinafter referred to as a whole body model) and a skeleton model during a movement operation (hereinafter referred to as a movement model). However, the present invention is not limited to this, and a skeleton model when performing a predetermined motion or a skeleton model when in a predetermined posture may be included.
 特定部16は、実映像中の人物映像において欠損部分(すなわち、撮影時にカメラ2の撮像範囲外に位置していた部分)があるか否かを判定し、さらに、欠損部分があると判定したときには当該欠損部分を特定する。ここで、欠損部分の特定は、骨格情報取得部14が実映像中の人物映像から取得した骨格モデル(以下、今回の骨格モデル)と、骨格情報記憶部15に記憶された全身モデルとに基づいて行われる。図8を参照しながら具体的に説明すると、今回の骨格モデルと全身モデルとを対比することにより今回の骨格モデル中、欠損している部分、すなわち、欠損部分を特定する。図8は、欠損部分の特定、及び、補完映像の生成に関する説明図である。 The specifying unit 16 determines whether or not there is a missing part (that is, a part located outside the imaging range of the camera 2 at the time of shooting) in the human video in the actual video, and further determines that there is a missing part. Sometimes the missing part is identified. Here, the identification of the missing portion is based on the skeleton model (hereinafter, this skeleton model) acquired by the skeleton information acquisition unit 14 from the person image in the actual image and the whole body model stored in the skeleton information storage unit 15. Done. More specifically, referring to FIG. 8, by comparing the current skeleton model with the whole body model, a missing portion, that is, a missing portion in the current skeleton model is specified. FIG. 8 is an explanatory diagram regarding the identification of a missing portion and the generation of a complementary video.
 また、本実施形態において、特定部16は、欠損部分を特定する際に当該欠損部分の状態を特定し、具体的には、欠損部分の状態が静止状態であるか動作状態であるかを特定する。ここで、動作状態とは、カメラ2を横切る方向に移動している状態、及び、カメラ2に対して接近又は離間している状態を意味している。なお、欠損部分の状態の特定については、カメラ2が撮影するユーザの身体中、欠損部分以外の実映像及び当該実映像の深度データに基づいて行われる。 In the present embodiment, the identifying unit 16 identifies the state of the missing part when identifying the missing part, and specifically identifies whether the state of the missing part is a stationary state or an operating state. To do. Here, the operating state means a state in which the camera 2 is moving in a direction crossing the camera 2 and a state in which the camera 2 is approaching or separated from the camera 2. The identification of the state of the missing part is performed based on the actual video other than the missing part in the user's body photographed by the camera 2 and the depth data of the actual video.
 補完映像生成部17は、特定部16により特定された欠損部分を補完する仮想映像(以下、補完映像)を生成する。補完映像は、図8に示すように、特定部16により特定された欠損部分(厳密には、今回の骨格モデル中、欠損している部分)に基づき、映像記憶部13に記憶された全身映像やテンプレート映像を加工することで生成される。具体的に説明すると、例えば、全身映像から補完映像を生成する場合には、映像記憶部13から読み出した全身映像中、特定部16により特定された欠損部分(厳密には、今回の骨格モデル中、欠損している部分)に相当する部分の映像を切り出し、さらに、切り出した当該映像を上記欠損部分の位置や配向に合わせて編集する。また、テンプレート映像から補完映像を生成する場合には、欠損部分に対応するテンプレート映像を映像記憶部13から読み出し、読み出したテンプレート映像を上記欠損部分の位置や配向に合わせて編集する。 The complementary video generation unit 17 generates a virtual video (hereinafter, complementary video) that complements the missing portion specified by the specifying unit 16. As shown in FIG. 8, the complementary image is a whole-body image stored in the image storage unit 13 based on the missing part specified by the specifying unit 16 (strictly, the missing part in the current skeleton model). And by processing the template video. More specifically, for example, in the case of generating a complementary image from a whole-body image, a missing portion (specifically, in the present skeleton model) specified by the specifying unit 16 in the whole-body image read from the image storage unit 13. , A portion corresponding to the missing portion) is cut out, and the cut out video is edited in accordance with the position and orientation of the missing portion. When generating a complementary image from a template image, the template image corresponding to the missing portion is read from the image storage unit 13 and the read template image is edited according to the position and orientation of the missing portion.
 なお、補完映像は、特定部16が特定した欠損部分に基づいて生成される。一方、特定部16による欠損部分の特定は、全身モデルと今回の骨格モデルとを用いて行われる。ここで、全身モデルは、欠損部分に相当する部分が撮像範囲内にあるとき、すなわち、全身が撮像範囲内に収まっているときにカメラ2が撮像した映像から取得される。ゆえに、補完映像は、欠損部分が撮像範囲内にあるときにカメラ2が撮像した映像に基づいて生成された映像(仮想映像)であると言える。 Note that the supplementary video is generated based on the missing part specified by the specifying unit 16. On the other hand, the defect part is identified by the identifying unit 16 using the whole body model and the current skeleton model. Here, the whole body model is acquired from an image captured by the camera 2 when a portion corresponding to the missing portion is within the imaging range, that is, when the whole body is within the imaging range. Therefore, it can be said that the complementary video is a video (virtual video) generated based on the video captured by the camera 2 when the missing portion is within the imaging range.
 また、特定部16により特定された欠損部分の状態が動作状態であった場合、補完映像生成部17は、当該動作状態を反映して欠損部分の補完映像を生成する。具体的に説明すると、カメラ2を横切る方向に移動する移動動作(以下、横移動動作)を行っているユーザの映像を、当該ユーザの脚部が撮像範囲外にある状態でカメラ2が撮像したとき、補完映像生成部17は、横移動動作中の脚部の補完映像を生成する。同様に、カメラ2に対して接近又は離間する移動動作(以下、奥行移動動作)を行っているユーザの映像を、当該ユーザの脚部が撮像範囲外にある状態でカメラ2が撮像したとき、補完映像生成部17は、奥行移動動作中の脚部の補完映像を生成する。 In addition, when the state of the missing part specified by the specifying unit 16 is the operating state, the complementary video generation unit 17 generates a complementary video of the defective part reflecting the operating state. More specifically, the camera 2 captures an image of a user who is performing a moving operation that moves in a direction across the camera 2 (hereinafter referred to as a horizontal moving operation) with the user's legs outside the imaging range. At this time, the complementary video generation unit 17 generates a complementary video of the leg during the lateral movement operation. Similarly, when the camera 2 captures an image of a user who is moving toward or away from the camera 2 (hereinafter referred to as a depth moving operation) with the user's legs outside the imaging range, The complementary video generation unit 17 generates a complementary video of the leg during the depth movement operation.
 合成映像生成部18は、合成映像を生成する。合成映像とは、人物映像と背景映像とを合成した映像である。つまり、合成映像生成部18は、分離されていた人物映像と背景映像とを組み合わせ、背景付きの人物映像を合成映像として生成する。また、合成映像生成部18は、合成映像を生成するに際し、対話相手側の表示画面に表示されるユーザの身長と当該ユーザの実際の身長とが一致するように、人物映像の表示サイズを調整する。具体的に説明すると、骨格情報取得部14が実映像中の人物映像から取得した骨格モデル(今回の骨格モデル)と、骨格情報記憶部15に記憶された全身モデルと、当該全身モデルの素となった実映像の深度データと、を用いて映像表示サイズの調整を行う。より詳しく説明すると、上記の全身モデル及びその素となった実映像の深度データからユーザの身長を割り出す一方で、今回の骨格モデルと全身モデルとの比率を算出する。その後、割り出したユーザの身長と算出したモデル間の比率とに基づいて映像表示サイズを調整する。 The composite video generation unit 18 generates a composite video. The composite video is a video obtained by synthesizing a person video and a background video. That is, the composite video generation unit 18 combines the separated person video and the background video, and generates a background human video as a composite video. In addition, when generating the composite video, the composite video generation unit 18 adjusts the display size of the human video so that the height of the user displayed on the display screen of the conversation partner matches the actual height of the user. To do. More specifically, the skeleton model acquired by the skeleton information acquisition unit 14 from the human image in the actual image (the current skeleton model), the whole body model stored in the skeleton information storage unit 15, and the elements of the whole body model The video display size is adjusted using the depth data of the actual video. More specifically, while calculating the height of the user from the above-mentioned whole body model and the depth data of the actual video that is the basis of the whole body model, the ratio between the current skeleton model and the whole body model is calculated. Thereafter, the video display size is adjusted based on the calculated height of the user and the calculated ratio between the models.
 さらに、実映像中の人物映像に欠損部分がある場合(すなわち、ユーザの身体の一部分が撮像範囲外にある状態でカメラ2が映像を撮像した場合)、合成映像生成部18は、実映像中の人物映像と、補完映像生成部17により生成された補完映像(他の映像に相当)とを合成し、欠損部分が補完された人物映像を生成する。これにより、欠損部分が補完された人物映像を含む合成映像が対話相手側の表示画面にて表示されると、当該表示画面中、人物映像中の補完部分(すなわち、欠損部分があった部分)の相対位置に応じた領域に補完映像が表示されるようになる。換言すると、合成映像生成部18は、上記の合成映像が表示された表示画面においてユーザの身体に対する欠損部分の相対位置に応じた領域に補完映像が表示されるように、合成映像を生成する。 Furthermore, when there is a missing part in the person video in the real video (that is, when the camera 2 captures the video with a part of the user's body outside the imaging range), the composite video generation unit 18 And the supplemental video (corresponding to another video) generated by the complementary video generation unit 17 are combined to generate a human video in which the missing portion is complemented. As a result, when a composite video including a person video in which the missing part is complemented is displayed on the display screen of the conversation partner, the complemented part in the person video (that is, the part where the missing part was present) in the display screen. The complementary video is displayed in an area corresponding to the relative position. In other words, the composite video generation unit 18 generates the composite video so that the supplemental video is displayed in an area corresponding to the relative position of the missing part with respect to the user's body on the display screen on which the composite video is displayed.
 映像データ送信部19は、合成映像生成部18が生成した合成映像を示す映像データを、対話相手側のホームサーバ1へ送信する。映像データ受信部20は、対話相手側のホームサーバ1が送信した映像データを、外部通信ネットワークGNを経由して受信する。映像表示部21は、映像データ受信部20が受信した映像データを展開し、当該映像データが示す映像(すなわち、対話相手側のホームサーバ1にて合成された合成映像)を画面端末5の表示画面に表示する。 The video data transmission unit 19 transmits video data indicating the composite video generated by the composite video generation unit 18 to the home server 1 on the conversation partner side. The video data receiving unit 20 receives the video data transmitted by the home server 1 on the conversation partner side via the external communication network GN. The video display unit 21 expands the video data received by the video data receiving unit 20 and displays the video indicated by the video data (that is, the synthesized video synthesized by the home server 1 on the conversation partner side) on the screen terminal 5. Display on the screen.
 <<映像表示処理の流れについて>>
 次に、本システムSを用いた対面対話のうち、映像表示に係るデータ処理、すなわち映像表示処理について詳しく説明する。なお、以下に説明する映像表示処理では、本発明の映像表示方法が適用されている。すなわち、映像表示処理において実施される各ステップは、本発明の映像表示方法を構成する各工程に相当する。
<< Flow of video display processing >>
Next, in the face-to-face conversation using the system S, data processing related to video display, that is, video display processing will be described in detail. In the video display processing described below, the video display method of the present invention is applied. That is, each step performed in the video display process corresponds to each process constituting the video display method of the present invention.
 映像表示処理では、先ず、一方のユーザ(例えば、Aさん)が使用する通信ユニット100において映像データの生成及び送信が行われ、その後、他方のユーザ(例えば、Bさん)が使用する通信ユニット100において映像データの受信及び展開が行われる。以下では、映像表示処理中、映像データを生成して送信するまでの流れを中心に説明することとする。 In the video display process, first, video data is generated and transmitted in the communication unit 100 used by one user (for example, Mr. A), and then the communication unit 100 used by the other user (for example, Mr. B). The video data is received and expanded in step. In the following, the flow from the generation and transmission of video data during the video display process will be mainly described.
 映像表示処理は、図9に図示の流れに従って進行する。図9は、映像表示処理の流れを示した図である。具体的に説明すると、先ず、カメラ2がその撮像範囲内にある映像を撮像し、その映像を示す映像信号をホームサーバ1(カメラ2が属する通信ユニット100と同じ通信ユニット100に属しているホームサーバ1)に対して出力する(S001)。映像信号を受信したホームサーバ1は、映像信号が示す映像(実映像)に対して顔認識処理を適用する(S002)。これにより、ホームサーバ1は、カメラ2の撮像範囲内にユーザがいるかを判定する(S003)。なお、顔認識処理とは、実映像中に人物映像が含まれているかを判定するための映像解析処理であり、当該処理の具体的内容については、公知であるため、説明を省略することとする。 The video display process proceeds according to the flow shown in FIG. FIG. 9 is a diagram showing the flow of the video display process. More specifically, first, the camera 2 captures an image within the imaging range, and the image signal indicating the image is sent to the home server 1 (home belonging to the same communication unit 100 as the communication unit 100 to which the camera 2 belongs). Output to the server 1) (S001). The home server 1 that has received the video signal applies face recognition processing to the video (real video) indicated by the video signal (S002). Thereby, the home server 1 determines whether there is a user within the imaging range of the camera 2 (S003). Note that the face recognition process is a video analysis process for determining whether or not a person video is included in the actual video, and the specific content of the process is well known, and thus the description thereof is omitted. To do.
 カメラ2の撮像範囲内にユーザがいると判定した場合、ホームサーバ1は、赤外線センサ4の計測結果から上記実映像の深度データを取得する(S004)。また、ホームサーバ1は、上記実映像から人物映像を抽出し、かかる人物映像と前ステップS004で取得した深度データとに基づいて、カメラ2の撮像範囲内にいるユーザの骨格モデルを取得する(S005)。さらに、ホームサーバ1は、取得した深度データ及び骨格モデルに基づいて、上記ユーザの等身大サイズ(具体的には、身長等)を計算する(S006)。さらにまた、ホームサーバ1は、実映像から抽出した人物映像の映像表示サイズを、前ステップS006にて計算した等身大サイズと一致するように調整する(S007)。 When it is determined that the user is within the imaging range of the camera 2, the home server 1 acquires the depth data of the real video from the measurement result of the infrared sensor 4 (S004). Further, the home server 1 extracts a person video from the actual video, and acquires a skeleton model of the user within the imaging range of the camera 2 based on the person video and the depth data acquired in the previous step S004 ( S005). Further, the home server 1 calculates the user's life size (specifically, height, etc.) based on the acquired depth data and skeleton model (S006). Furthermore, the home server 1 adjusts the video display size of the person video extracted from the real video so as to match the life size calculated in the previous step S006 (S007).
 そして、ホームサーバ1は、ステップS005にて取得した骨格モデルに基づいて、上記の人物映像が全身映像であるかどうかを判定する(S008)。全身映像であると判定した場合、ホームサーバ1は、上記の人物映像をユーザの全身映像として登録(記憶)する(S009)。これと同時に、ホームサーバ1は、ステップS005にて取得した骨格モデルを全身モデルとして登録(記憶)すると共に、ステップS006にて計算した等身大サイズを登録(記憶)する(S009)。その後、ホームサーバ1は、全身映像である人物映像と背景映像とを合成して合成映像を生成し(S010)、生成した合成映像を示す映像データを対話相手側のホームサーバ1に向けて送信する(S011)。 And the home server 1 determines whether said person image | video is a whole body image | video based on the skeleton model acquired in step S005 (S008). If it is determined that the video is a whole-body video, the home server 1 registers (stores) the person video as a user's whole-body video (S009). At the same time, the home server 1 registers (stores) the skeleton model acquired in step S005 as a whole body model, and registers (stores) the life-size size calculated in step S006 (S009). Thereafter, the home server 1 generates a synthesized video by synthesizing the person video, which is a whole-body video, and the background video (S010), and transmits video data indicating the generated synthesized video to the home server 1 on the conversation partner side. (S011).
 一方、ステップS008において上記の人物映像が全身映像ではない場合、すなわち、当該人物映像中に欠損部分があると判定した場合には、ホームサーバ1が欠損部分を特定し、当該欠損部分の映像の補完を行う。ここで、欠損部分は、ユーザがカメラ2に対して接近したときに生じ、通常は脚部が欠損部分に該当する。ただし、ユーザがカメラ2に対して著しく接近した場合には、脚部のみならず上半身の一部(例えば、手部)も欠損部分となり得る。そこで、ホームサーバ1は、欠損部分を特定した際、手部が欠損部分に含まれていないかを判定する(S012)。そして、手部が含まれていると判定したとき、ホームサーバ1は、手部及び脚部双方の映像を補完する(S013、S014)。反対に、手部が含まれていないと判定したとき、ホームサーバ1は、脚部の映像のみを補完する(S014)。 On the other hand, if the person video is not a whole body video in step S008, that is, if it is determined that there is a missing part in the person video, the home server 1 identifies the missing part, and the video of the missing part is displayed. Completion. Here, the missing portion occurs when the user approaches the camera 2, and usually the leg portion corresponds to the missing portion. However, when the user remarkably approaches the camera 2, not only the leg portion but also a part of the upper body (for example, the hand portion) can be a missing portion. Therefore, when the home server 1 specifies the missing part, it determines whether the hand part is not included in the missing part (S012). When it is determined that the hand part is included, the home server 1 complements the images of both the hand part and the leg part (S013, S014). On the contrary, when it is determined that the hand portion is not included, the home server 1 complements only the image of the leg portion (S014).
 次に、手部及び脚部の映像を補完する手順について図10の(A)及び(B)を参照しながら説明する。図10は、欠損部分の映像を補完する処理の流れを示した図であり、同図の(A)は、手部の映像を補完する手順を示し、同図の(B)は、脚部の映像を補完する手順を示している。 Next, the procedure for complementing the images of the hands and legs will be described with reference to FIGS. 10 (A) and 10 (B). FIG. 10 is a diagram showing a flow of processing for complementing the image of the missing portion, where FIG. 10A shows the procedure for complementing the image of the hand, and FIG. 10B shows the leg portion. Shows the procedure to complement the video.
 先ず、手部が欠損しているときに当該手部の映像を補完する処理について説明する。本処理は、図10の(A)に示すように、ホームサーバ1が、そのハードディスクドライブに記憶された手のテンプレート映像を読み出すところから始まる(S021)。その後、ホームサーバ1は、手のテンプレート映像の表示サイズを、図9に図示したステップS006で計算した等身大サイズに応じて調整する(S022)。映像表示サイズの調整後、ホームサーバ1は、サイズ調整された手のテンプレート映像と、図9に図示したステップS007にてサイズ調整された人物映像と、を合成する(S023)。これにより、手部の映像が補完された人物映像が生成される。 First, a process for complementing the image of the hand when the hand is missing will be described. As shown in FIG. 10A, the present process starts when the home server 1 reads the hand template video stored in the hard disk drive (S021). Thereafter, the home server 1 adjusts the display size of the hand template image according to the life size calculated in step S006 illustrated in FIG. 9 (S022). After adjusting the video display size, the home server 1 combines the template image of the hand whose size has been adjusted with the person video whose size has been adjusted in step S007 illustrated in FIG. 9 (S023). As a result, a person image in which the image of the hand is complemented is generated.
 以上のように手部の映像が補完されることで、ユーザがカメラ2に著しく接近したとしても、当該ユーザの手部(厳密には、補完された手部の映像)を対話相手側の表示画面に表示させることが可能となる。これにより、例えば、一方のユーザであるAさんがカメラ2に接近して画面端末5における表示画面の形成面(具体的には、タッチパネル5aの前面)に手部を置くと、当該手部がカメラ2の撮像範囲から外れるにも拘わらず、他方のユーザであるBさん側の表示画面にはAさんの手部の映像が表示されるようになる。この結果、Bさんは、図11に示すように表示画面に表示されたAさんの手部に自分の手を重ねる動作、すなわち、手合せ動作を行うことが可能となる。このように手部の映像を補完することで、ユーザ同士が手合せ動作を行うことも可能となり、本システムSによる視覚的演出効果が一層高まることとなる。なお、図11は、ユーザ同士が手合せ動作を行っている様子を示した図である。 As described above, since the image of the hand part is complemented, even if the user remarkably approaches the camera 2, the user's hand part (strictly speaking, the complemented hand part image) is displayed on the conversation partner side. It can be displayed on the screen. Thereby, for example, when Mr. A who is one user approaches the camera 2 and puts his / her hand on the display screen forming surface (specifically, the front surface of the touch panel 5a) on the screen terminal 5, Despite being out of the imaging range of the camera 2, the image of the hand of Mr. A is displayed on the display screen of the other user, Mr. B. As a result, as shown in FIG. 11, Mr. B can perform an operation of placing his hand on Mr. A's hand displayed on the display screen, that is, a hand-matching operation. By complementing the image of the hand part in this way, it becomes possible for the users to perform a hand-matching operation, and the visual effect of the system S is further enhanced. In addition, FIG. 11 is a diagram illustrating a state in which the users are performing a manual matching operation.
 次に、脚部が欠損しているときに当該脚部の映像を補完する処理について説明する。本処理は、図10の(B)に示すように、ユーザの位置に変化があるか、すなわちユーザの状態が移動動作を行っている状態にあるかをホームサーバ1が判定するところから始まる(S031)。かかる判定は、実映像、及び、図9に図示したステップS004で取得した実映像の深度データに基づいて行われる。そして、ユーザの状態が移動動作を行っている状態にあると判定したとき、ホームサーバ1は、そのハードディスクドライブに記憶された骨格モデルの中から移動モデル、すなわち歩行動作時の骨格モデルを読み出す(S032)。反対に、ユーザの状態が静止状態にあると判定したとき、ホームサーバ1は、移動モデル以外の骨格モデル、すなわち直立時の骨格モデルを読み出す(S033)。 Next, a process for complementing the video of the leg when the leg is missing will be described. As shown in FIG. 10B, this processing starts when the home server 1 determines whether there is a change in the user's position, that is, whether the user's state is in a moving operation state ( S031). Such a determination is performed based on the real video and the depth data of the real video acquired in step S004 illustrated in FIG. When the home server 1 determines that the user is in a state of performing a movement operation, the home server 1 reads out a movement model, that is, a skeleton model at the time of walking movement, from the skeleton models stored in the hard disk drive ( S032). On the other hand, when it is determined that the user is in a stationary state, the home server 1 reads out a skeleton model other than the movement model, that is, a skeleton model in an upright state (S033).
 その後、ホームサーバ1は、ハードディスクドライブ内に記憶された映像の中に、過去に取得したユーザの全身映像が有るかどうかを確認する(S034)。そして、ホームサーバ1は、全身映像が有る場合には当該全身映像を読み出し(S035)、全身映像が無い場合には脚部のテンプレート映像を読み出す(S036)。 After that, the home server 1 confirms whether or not the user's whole body video acquired in the past is present in the video stored in the hard disk drive (S034). The home server 1 reads the whole body video when there is a whole body video (S035), and reads the template image of the leg when there is no whole body video (S036).
 さらに、ホームサーバ10は、読み出した全身映像又はテンプレート映像を、ステップS032、S033で読み出した骨格モデルに合わせるように編集(変形)する(S037)。これにより、脚部の補完映像が生成されることになる。そして、ホームサーバ1は、脚部の補完映像の表示サイズを、図9に図示したステップS006で計算した等身大サイズに応じて調整する(S038)。その後、ホームサーバ1は、サイズ調整された脚部の補完映像と、図9に図示したステップS007にてサイズ調整された人物映像と、を合成する(S039)。これにより、脚部の映像が補完された人物映像が生成される。 Further, the home server 10 edits (transforms) the read whole body video or template video so as to match the skeleton model read in steps S032 and S033 (S037). Thereby, the complementary video of the leg is generated. Then, the home server 1 adjusts the display size of the complementary video of the leg according to the life size calculated in step S006 illustrated in FIG. 9 (S038). After that, the home server 1 synthesizes the size-adjusted leg complement image and the person image size-adjusted in step S007 illustrated in FIG. 9 (S039). As a result, a person image in which the image of the leg is complemented is generated.
 以上のように脚部の映像が補完されることで、カメラ2とユーザとの距離を問わず、脚部を含むユーザの全身映像を対話相手側の表示画面に表示させることが可能となる。また、撮影中にユーザが移動したとしても、歩行時の骨格モデルを用いて脚部の映像を適切に補完することが可能である。例えば図12の(A)に示すようにユーザが撮影中にカメラ2に接近する動作を行ったときには、図12の(B)に図示した移動動作時(分かり易くは前進歩行時)の骨格モデルの変化パターンを用いて脚部の補完映像を生成する。このとき、ユーザが移動する際の移動速度に応じて骨格モデルの変化パターンの変化速度を調整し、速度調整後の変化パターンに合わせて脚部の補完映像を生成する。これにより、図12の(C)に示すように、ユーザの移動動作に追従するように脚部の映像を補完することが可能となる。なお、図12は、移動動作によって欠損部分が生じたときに当該欠損部分の映像を補完する手順についての説明図であり、同図の(A)は、ユーザがカメラ2に接近している様子を示し、同図の(B)は、歩行時の骨格モデルの変化パターンを示し、同図の(C)は、ユーザの移動動作に追従するように脚部の映像が補完された人物映像を示している。 As described above, the leg image is complemented, so that the whole body image of the user including the leg can be displayed on the display screen of the conversation partner regardless of the distance between the camera 2 and the user. Further, even if the user moves during shooting, it is possible to appropriately complement the leg image using the skeleton model during walking. For example, as shown in FIG. 12A, when the user performs an operation of approaching the camera 2 during photographing, the skeleton model at the time of the moving operation illustrated in FIG. A complementary image of the leg is generated using the change pattern. At this time, the change speed of the change pattern of the skeleton model is adjusted according to the movement speed when the user moves, and a complementary image of the leg is generated according to the change pattern after the speed adjustment. As a result, as shown in FIG. 12C, it is possible to complement the leg image so as to follow the movement operation of the user. FIG. 12 is an explanatory diagram of a procedure for complementing the image of the missing portion when the missing portion is generated by the moving operation. FIG. 12A shows a state in which the user is approaching the camera 2. (B) in the figure shows a change pattern of the skeleton model during walking, and (C) in the figure shows a human image in which the foot image is complemented so as to follow the movement movement of the user. Show.
 <<本システムの第一変形例>>
 上述した実施形態では、欠損部分の補完映像として当該欠損部分の仮想映像を用いることとした。ただし、欠損部分の補完映像としては、欠損部分とは異なる仮想映像を用いることも可能である。例えば、対話相手側の表示画面にて表示される表示映像(換言すると、合成映像)においてユーザの前方に位置する物の仮想映像、すなわち、前景映像を補完映像として用いてもよい。
<< First modification of this system >>
In the above-described embodiment, the virtual image of the missing portion is used as the complementary image of the missing portion. However, it is also possible to use a virtual video different from the missing part as the complemented picture of the missing part. For example, a virtual image of an object positioned in front of the user in a display image (in other words, a composite image) displayed on the display screen of the conversation partner may be used as a complementary image.
 補完映像として前景映像を用いることにより、表示画面にて表示映像を見ているユーザは、欠損部分が前景映像の後方にあるので見えない(換言すると、欠損部分が前景映像によって隠されている)という視覚的効果を得ることになる。 By using the foreground video as the complementary video, the user who is viewing the display video on the display screen cannot see because the missing part is behind the foreground video (in other words, the missing part is hidden by the foreground video). The visual effect is obtained.
 なお、前景映像としては、図13の(A)に図示のキャラクターや動物又は人を模した前景映像FP1であってもよく、図13の(B)に図示の壁パネル、置物又は構造物を模した前景映像FP2であってもよい。図13の(A)及び(B)は、前景映像を利用して欠損部分を補完した際の表示映像を示した図である。 The foreground image may be the foreground image FP1 imitating the character, animal, or person illustrated in FIG. 13A, and the wall panel, figurine, or structure illustrated in FIG. The simulated foreground image FP2 may be used. (A) and (B) of FIG. 13 are diagrams showing display images when missing portions are complemented using foreground images.
 以下、本システムSの第一変形例として、前景映像にて欠損部分を補完するケースについて説明する。なお、以下では、第一変形例に関する内容について、先に説明した映像表示処理とは異なる内容を中心に説明することとする。 Hereinafter, as a first modification of the system S, a case where a missing portion is complemented with a foreground image will be described. In the following, the contents relating to the first modification will be described focusing on the contents different from the video display process described above.
 前景映像にて欠損部分を補完する場合の手順については、図14に示すように、カメラ2が撮影した映像(実映像)を取得するステップからその実映像中の人物映像がユーザの全身映像であるか否かを判定するステップまでは、上記の実施形態、すなわち、欠損部分の仮想映像にて補完する場合の手順と同様である(S041~S048)。図14は、第一変形例に係る映像表示処理の流れを示した図である。 As shown in FIG. 14, the procedure for complementing the missing portion in the foreground video is that the person video in the actual video from the step of acquiring the video (real video) taken by the camera 2 is the user's whole body video. The process up to the step of determining whether or not is the same as the above-described embodiment, that is, the procedure in the case of complementing with the virtual video of the missing part (S041 to S048). FIG. 14 is a diagram showing a flow of video display processing according to the first modification.
 また、人物映像が全身映像であると判定した場合、ホームサーバ1は、全身映像と背景映像とを合成して合成映像を生成し(S049)、生成した合成映像を示す映像データを対話相手側のホームサーバ1に向けて送信する(S050)。 If it is determined that the person video is a whole-body video, the home server 1 generates a composite video by combining the whole-body video and the background video (S049), and transmits video data indicating the generated composite video to the conversation partner side. To the home server 1 (S050).
 一方、人物映像が全身映像ではない場合、すなわち欠損部分があると判定した場合には、ホームサーバ1が欠損部分を特定し、当該欠損部分の映像の補完を行う。ここで、前述したように、通常は脚部が欠損部分に該当するのであるが、ユーザがカメラ2に対して著しく接近した場合には、脚部のみならず手部も欠損部分となり得る。そこで、ホームサーバ1は、欠損部分を特定した際、手部が欠損部分に含まれていないかを判定する(S051)。欠損部分に手部が含まれていないとき、すなわち、欠損部分が脚部のみであるとき、ホームサーバ1は、図15に示す手順にて欠損部分を前景映像にて補完する(S053)。図15は、第一変形例において欠損部分を前景映像にて補完する処理の流れを示した図である。 On the other hand, when the person video is not a whole body video, that is, when it is determined that there is a missing part, the home server 1 identifies the missing part and complements the video of the missing part. Here, as described above, the leg portion usually corresponds to the missing portion, but when the user remarkably approaches the camera 2, not only the leg portion but also the hand portion can become the missing portion. Therefore, when the home server 1 specifies the missing portion, it determines whether the hand portion is not included in the missing portion (S051). When the hand part is not included in the missing part, that is, when the missing part is only the leg part, the home server 1 complements the missing part with the foreground image according to the procedure shown in FIG. 15 (S053). FIG. 15 is a diagram illustrating a flow of processing for complementing a missing portion with a foreground image in the first modification.
 具体的に説明すると、ホームサーバ1は、ハードディスクドライブに記憶された前景映像を読み出し(S061)、当該前景映像の表示サイズを、図14に図示したステップS046で計算した等身大サイズに応じて調整する(S062)。その後、ホームサーバ1は、サイズ調整された前景映像と、図14に図示したステップS047にてサイズ調整された人物映像と、を合成する(S063)。さらに、ホームサーバ1は、前景映像と人物映像とを合成した映像に、さらに背景映像を合成する(S049)。 Specifically, the home server 1 reads the foreground video stored in the hard disk drive (S061), and adjusts the display size of the foreground video according to the life size calculated in step S046 shown in FIG. (S062). Thereafter, the home server 1 combines the size-adjusted foreground image with the person image whose size has been adjusted in step S047 illustrated in FIG. 14 (S063). Further, the home server 1 further synthesizes the background video with the video obtained by synthesizing the foreground video and the person video (S049).
 以上までに説明した手順により、前景映像にて欠損部分が補完された映像を示す映像データが生成され、対話相手側のホームサーバ1に向けて送信される(S050)。そして、当該映像データを展開して対話相手側の表示画面に映像を表示させると、当該表示画面中、表示映像中の補完部分(すなわち、欠損部分があった部分)の相対位置に応じた領域に前景映像が表示されるようになる。 According to the procedure described above, video data indicating a video in which a missing part is complemented in the foreground video is generated and transmitted to the home server 1 on the conversation partner side (S050). Then, when the video data is expanded and the video is displayed on the display screen of the conversation partner, an area corresponding to the relative position of the complementary portion (that is, the portion where the missing portion is present) in the display video in the display screen The foreground video will be displayed.
 第一変形例に係る映像表示処理の流れについて更に説明すると、図14に図示のステップS051において欠損部分に手部が含まれていると判定したとき、ホームサーバ1は、欠損した手部を当該手部の仮想映像にて補完する(S052)。このように第一変形例にでは、欠損部分を前景映像にて補完する一方で、欠損部分に手部が含まれている場合には当該手部の仮想映像にて補完することとしている。 The flow of the video display processing according to the first modification will be further described. When it is determined in step S051 illustrated in FIG. 14 that the missing part includes a hand, the home server 1 identifies the missing hand. It complements with the virtual image of a hand (S052). As described above, in the first modified example, the missing portion is complemented with the foreground image, and when the hand portion is included in the missing portion, the missing portion is complemented with the virtual image of the hand portion.
 より詳しく説明すると、第一変形例では、Aさん側の画面端末5を構成するタッチパネル5aの前面にAさんが手部(手のひら)を接触させる動作を行うことによって、Aさんの手部がAさん側のカメラ2の撮像範囲から外れると、欠損部分のうち、手部がその仮想映像によって補完され、それ以外の部分が前景映像にて補完されるようになっている。このように第一変形例では、手部を含むAさんの身体の一部がAさん側のカメラ2の撮像範囲外にあったとしても、図16に示すように、手部については前景映像ではなく手部の仮想映像(図中、記号VPにて示す映像)にて補完される形になる。図16は、第一変形例において手部が欠損した場合に当該欠損部分を補完した際の表示映像を示した図である。 More specifically, in the first modification, Mr. A performs an operation of bringing his / her hand (palm) into contact with the front surface of the touch panel 5a constituting the screen terminal 5 on the A's side, so that Mr. A's hand is A When it is out of the imaging range of the camera 2 on the far side, the hand portion of the missing portion is complemented by the virtual image, and the other portion is complemented by the foreground image. As described above, in the first modification, even if a part of Mr. A's body including the hand part is outside the imaging range of the camera 2 on the Mr. A side, as shown in FIG. Instead, it is complemented by a virtual image of the hand (image indicated by symbol VP in the figure). FIG. 16 is a diagram showing a display image when the missing part is complemented when the hand part is missing in the first modified example.
 そして、手部が当該手部の仮想映像にて補完されることにより、第一変形例においても、Bさんが表示画面に表示されたAさんの手部に自分の手を重ねる動作、すなわち、手合せ動作が実現可能となる。なお、第一変形例では、手部の映像が欠損しているケースのうち、Aさんが所定の動作を行っているケース、具体的には手部が画面端末5の前面(厳密には、タッチパネル5aの前面)に接触しているケースに限り、手部の仮想映像にて補完することになっている。これは、前述した手合せ動作を実現する上で、少なくとも手部が画面端末5の前面に触れている期間中は手部の仮想映像にて補完する必要があるためである。ただし、これに限定されるものではなく、欠損部分を前景映像にて補完するケースにおいて、手部の映像が欠損した際には、ユーザが行っている動作や姿勢に拘わらず手部の仮想映像にて補完してもよい。あるいは、欠損部分に手部が含まれていたとしても、当該手部を含めた欠損部分すべてを前景映像にて補完してもよい。 Then, by complementing the hand part with the virtual image of the hand part, in the first modification example, the action of Mr. B overlapping his hand displayed on the hand part of Mr. A displayed on the display screen, that is, Manual alignment can be realized. In the first modification, among the cases where the image of the hand portion is missing, Mr. A is performing a predetermined action, specifically, the hand portion is the front surface of the screen terminal 5 (strictly speaking, Only in the case where it is in contact with the front surface of the touch panel 5a, the virtual image of the hand is complemented. This is because it is necessary to complement the virtual image of the hand part at least during the period when the hand part is touching the front surface of the screen terminal 5 in order to realize the above-described hand matching operation. However, the present invention is not limited to this, and in the case where the missing portion is complemented with a foreground image, if the image of the hand portion is lost, the virtual image of the hand portion regardless of the action or posture performed by the user. You may supplement with Alternatively, even if a hand portion is included in the missing portion, all the missing portions including the hand portion may be complemented with the foreground video.
 <<本システムの第二変形例>>
 上述した第一変形例では、前景映像として、図13の(A)に図示のキャラクターや動物又は人を模した前景映像FP1、あるいは、図13の(B)に図示の壁パネル、置物又は構造物を模した前景映像FP2を用いることとした。ただし、前景映像については、上記の前景映像FP1、FP2以外にも考えられる。例えば、図17の(A)及び(B)に示すように実映像を囲う枠の映像(以下、フレーム映像)を前景映像として用いることとしてもよい。図17の(A)及び(B)は、フレーム映像を利用して欠損部分を補完した際の表示映像を示した図である。
<< Second modification of this system >>
In the first modification described above, as the foreground image, the foreground image FP1 imitating the character, animal or person shown in FIG. 13A, or the wall panel, figurine or structure shown in FIG. 13B. The foreground image FP2 simulating an object is used. However, foreground images can be considered other than the foreground images FP1 and FP2. For example, as shown in FIGS. 17A and 17B, an image of a frame surrounding the actual image (hereinafter referred to as a frame image) may be used as the foreground image. (A) and (B) of FIG. 17 are diagrams showing display images when a missing portion is complemented using a frame image.
 上記のフレーム映像は、ガラス越しで対話相手と対面していると感じているユーザにとって、そのガラスの外枠(例えば、窓枠やドア枠)として認識されるようになる。したがって、補完映像としてフレーム映像を用いることにより、表示画面にて表示映像を見ているユーザは、欠損部分が上記の外枠の後方にあるので見えない(換言すると、欠損部分が上記の外枠によって隠されている)という視覚的効果を得ることになる。 The above frame image is recognized as an outer frame of the glass (for example, a window frame or a door frame) for a user who feels facing the conversation partner through the glass. Therefore, by using the frame video as the complementary video, the user who is viewing the display video on the display screen cannot see because the missing portion is behind the outer frame (in other words, the missing portion is not visible in the outer frame). The visual effect is hidden).
 なお、フレーム映像としては、図17の(A)に図示のフレーム映像RP1、すなわち、実際の窓枠やドア枠のように表示映像の四方を囲むフレーム映像であってもよい。あるいは、図17の(B)に図示のフレーム映像RP2、すなわち、欠損部分のみを隠すフレーム映像であってもよい。 Note that the frame video may be a frame video RP1 illustrated in FIG. 17A, that is, a frame video surrounding four sides of the display video like an actual window frame or door frame. Alternatively, the frame image RP2 illustrated in FIG. 17B, that is, a frame image that hides only a missing portion may be used.
 以下、本システムSの第二変形例として、フレーム映像にて欠損部分を補完するケースについて説明する。なお、以下では、第二変形例に関する内容について、先に説明した映像表示処理とは異なる内容を中心に説明することとする。 Hereinafter, as a second modification of the system S, a case where a missing portion is complemented with a frame image will be described. In the following, the contents relating to the second modification will be described focusing on the contents different from the video display process described above.
 フレーム映像にて欠損部分を補完する場合の手順については、図18に示すように、カメラ2が撮影した映像(実映像)を取得するステップからその実映像中の人物映像がユーザの全身映像であるか否かを判定するステップまでは、以上までに説明した実施形態における手順と同様である(S071~S078)。図18は、第二変形例に係る映像表示処理の流れを示した図である。 As shown in FIG. 18, the procedure for complementing the missing portion in the frame video is that the person video in the actual video from the step of acquiring the video (actual video) taken by the camera 2 is the whole body video of the user. Steps for determining whether or not are the same as those in the embodiment described above (S071 to S078). FIG. 18 is a diagram showing a flow of video display processing according to the second modification.
 また、人物映像が全身映像であると判定した場合、ホームサーバ1は、全身映像と背景映像とを合成して合成映像を生成し(S079)、生成した合成映像を示す映像データを対話相手側のホームサーバ1に向けて送信する(S080)。一方、実映像が全身映像ではない場合、すなわち欠損部分があると判定した場合には、ホームサーバ1が欠損部分を特定し、当該欠損部分の映像をフレーム映像にて補完する。具体的に説明すると、ホームサーバ1は、ハードディスクドライブに記憶されたフレーム映像を読み出し(S081)、当該フレーム映像の表示サイズを、ステップS076で計算した等身大サイズに応じて調整する(S082)。その後、ホームサーバ1は、サイズ調整されたフレーム映像と、ステップS077にてサイズ調整された人物映像と、を合成する(S083)。さらに、ホームサーバ1は、フレーム映像と人物映像とを合成した映像に、さらに背景映像を合成する(S079)。 If it is determined that the person video is a whole-body video, the home server 1 generates a composite video by combining the whole-body video and the background video (S079), and sends video data indicating the generated composite video to the conversation partner side. To the home server 1 (S080). On the other hand, when the actual video is not a whole-body video, that is, when it is determined that there is a missing part, the home server 1 identifies the missing part and complements the video of the missing part with the frame video. More specifically, the home server 1 reads the frame video stored in the hard disk drive (S081), and adjusts the display size of the frame video according to the life size calculated in step S076 (S082). Thereafter, the home server 1 combines the size-adjusted frame image with the person image whose size has been adjusted in step S077 (S083). Further, the home server 1 further synthesizes the background video with the video obtained by synthesizing the frame video and the person video (S079).
 以上までに説明した手順により、フレーム映像にて欠損部分が補完された映像を示す映像データが生成され、対話相手側のホームサーバ1に向けて送信される(S080)。そして、当該映像データを展開して対話相手側の表示画面に映像を表示させると、当該表示画面中、表示映像中の補完部分(すなわち、欠損部分があった部分)の相対位置に応じた領域にフレーム映像が表示されるようになる。 By the procedure described above, video data indicating a video in which the missing portion is complemented by the frame video is generated and transmitted to the home server 1 on the conversation partner side (S080). Then, when the video data is expanded and the video is displayed on the display screen of the conversation partner, an area corresponding to the relative position of the complementary portion (that is, the portion where the missing portion is present) in the display video in the display screen A frame image is displayed on the screen.
 <<その他の実施形態>>
 上記の実施形態では、本発明の映像表示システム及び映像表示方法について、一例を挙げて説明した。ただし、上記の実施形態は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれることは勿論である。
<< Other Embodiments >>
In the above embodiment, the video display system and the video display method of the present invention have been described with reference to an example. However, the above embodiment is for facilitating understanding of the present invention, and does not limit the present invention. The present invention can be changed and improved without departing from the gist thereof, and the present invention includes the equivalents thereof.
 また、上記の実施形態では、本システムSを通じて二人のユーザが対話をするケースを例に挙げて説明したが、これに限定されるものではなく、同時に対話することが可能な人数については三人以上であってもよい。 In the above embodiment, the case where two users interact through the system S has been described as an example. However, the present invention is not limited to this, and the number of people who can interact at the same time is three. It may be more than people.
 また、上記の実施形態では、欠損した映像の補完(すなわち、実映像と補完映像との合成)が、実映像の映像を撮像したカメラ2と同じ通信ユニット100に属するホームサーバ1によって行われることとした。分かり易く説明すると、Aさんの身体の一部の映像が欠損していた場合、当該映像の補完がAさん側のホームサーバ1によって実施されることとした。ただし、これに限定されるものではなく、上記映像の補完がBさん側のホームサーバ1によって実施されることとしてもよい。 Further, in the above-described embodiment, the missing video is complemented (that is, the real video and the complementary video are combined) by the home server 1 belonging to the same communication unit 100 as the camera 2 that captured the real video. It was. To explain in an easy-to-understand manner, when a video of a part of Mr. A's body is missing, the video is complemented by the home server 1 on the A's side. However, the present invention is not limited to this, and the video complement may be performed by the home server 1 on the B side.
 また、上記の実施形態では、欠損部分の補完形態として、欠損部分の仮想映像にて補完する形態、前景映像にて補完する形態、フレーム映像にて補完する形態のいずれかを採用することとした。ただし、上記3つの形態すべてに対応可能であり、実際に採用する形態をユーザの要望に応じて自在に切り替えることが可能であることとしてもよい。 Further, in the above embodiment, as a form for complementing the missing part, any one of the form supplemented with the virtual video of the missing part, the form supplemented with the foreground video, or the form supplemented with the frame video is adopted. . However, it is possible to deal with all the above three forms, and the form that is actually adopted may be freely switched according to the user's request.
 また、上記の実施形態では、補完映像の基となる映像(例えば、全身映像、テンプレート映像、前景映像及びフレーム映像)をホームサーバ1内、より具体的にはハードディスクドライブに記憶されていることとした。ただし、これに限定されるものではなく、ホームサーバ1とは異なる装置、例えば、外部通信ネットワークGNを通じてホームサーバ1と接続された外部サーバに記憶されていて、映像補完時に当該外部サーバから上記映像のデータをダウンロードしてもよい。 In the above-described embodiment, the video (for example, the whole body video, the template video, the foreground video, and the frame video) that is the basis of the complementary video is stored in the home server 1, more specifically, in the hard disk drive. did. However, the present invention is not limited to this, and is stored in an apparatus different from the home server 1, for example, an external server connected to the home server 1 through the external communication network GN. You may download the data.
1 ホームサーバ
2 カメラ(撮像部)
3 マイク
4 赤外線センサ
4a 発光部
4b 受光部
5 画面端末
5a タッチパネル
6 スピーカ
11 映像取得部
12 人物映像抽出部
13 映像記憶部
14 骨格情報取得部
15 骨格情報記憶部
16 特定部
17 補完映像生成部
18 合成映像生成部
19 映像データ送信部
20 映像データ受信部
21 映像表示部
100 通信ユニット
FP1,FP2 前景映像
GN 外部通信ネットワーク
RP1、RP2 フレーム映像
S 本システム(映像表示システム)
1 Home server 2 Camera (imaging part)
3 Microphone 4 Infrared sensor 4a Light emitting unit 4b Light receiving unit 5 Screen terminal 5a Touch panel 6 Speaker 11 Video acquisition unit 12 Human video extraction unit 13 Video storage unit 14 Skeletal information acquisition unit 15 Skeletal information storage unit 16 Identification unit 17 Complementary video generation unit 18 Composite video generation unit 19 Video data transmission unit 20 Video data reception unit 21 Video display unit 100 Communication units FP1, FP2 Foreground video GN External communication network RP1, RP2 Frame video S This system (video display system)

Claims (8)

  1.  第一のユーザが使用する第一ユニットと、前記第一のユーザとは異なる空間に居る第二のユーザが使用する第二ユニットと、を有し、前記第一のユーザの映像を前記第二のユーザ側に設けられた表示画面に表示するために用いられる映像表示システムであって、
     前記第一ユニットは、撮像範囲内にある被写体の映像を撮像する撮像部を備え、
     前記第二ユニットは、前記表示画面に映像を表示する映像表示部を備え、
     前記第一ユニット及び前記第二ユニットのうちのいずれか一方のユニットは、
     前記被写体である前記第一のユーザの身体の一部分が前記撮像範囲外にある状態で前記撮像部が前記第一のユーザの映像を撮像した際に、前記一部分を特定する特定部と、
     前記一部分が前記撮像範囲外にある状態で前記撮像部が撮像した映像と、他の映像と、を合成して合成映像を生成する合成映像生成部と、を有し、
     前記他の映像は、前記一部分が前記撮像範囲内にあるときに前記撮像部が撮像した映像に基づいて生成された前記一部分の仮想映像、及び、前記合成映像において前記第一のユーザの前方に位置する物の仮想映像のうち、少なくとも一つによって構成され、
     前記合成映像生成部は、前記映像表示部が前記合成映像を表示した際に前記表示画面中、前記身体に対する前記一部分の相対位置に応じた領域に前記他の映像が表示されるように前記合成映像を生成することを特徴とする映像表示システム。
    A first unit used by the first user and a second unit used by a second user in a different space from the first user, A video display system used for displaying on a display screen provided on the user side of
    The first unit includes an imaging unit that captures an image of a subject within an imaging range;
    The second unit includes a video display unit that displays video on the display screen,
    One of the first unit and the second unit is
    A specifying unit for specifying the part when the imaging unit captures the video of the first user in a state where a part of the body of the first user as the subject is outside the imaging range;
    A synthesized video generation unit that generates a synthesized video by synthesizing a video captured by the imaging unit in a state where the portion is outside the imaging range and another video;
    The other video is a portion of the virtual video generated based on the video captured by the imaging unit when the part is within the imaging range, and the first video in front of the first user in the composite video. It is composed of at least one of the virtual images of the objects located,
    The composite video generation unit is configured to display the other video in an area corresponding to a relative position of the part with respect to the body in the display screen when the video display unit displays the composite video. A video display system characterized by generating video.
  2.  前記いずれか一方のユニットは、前記第一のユーザの身体中、頭部と頭部以外の部分との位置関係を示す骨格情報を取得する骨格情報取得部を有し、
     前記特定部は、前記一部分が前記撮像範囲外にある状態で前記撮像部が撮像した映像、及び、前記骨格情報に基づいて前記一部分を特定することを特徴とする請求項1に記載の映像表示システム。
    The one of the units has a skeleton information acquisition unit that acquires skeleton information indicating a positional relationship between the head and a portion other than the head in the body of the first user.
    The video display according to claim 1, wherein the specifying unit specifies the part based on an image captured by the imaging unit in a state where the part is outside the imaging range and the skeleton information. system.
  3.  移動動作を行っている前記第一のユーザの映像を、該第一のユーザの脚部が前記撮像範囲外にある状態で前記撮像部が撮像したとき、前記合成映像生成部は、前記移動動作中の前記脚部の仮想映像を前記他の映像として用いて前記合成映像を生成することを特徴とする請求項1又は2に記載の映像表示システム。 When the imaging unit captures an image of the first user who is performing a moving operation in a state where the legs of the first user are outside the imaging range, the composite image generating unit 3. The video display system according to claim 1, wherein the composite video is generated by using a virtual video of the legs in the middle as the other video. 4.
  4.  前記第二ユニットは、前記表示画面を形成する画面形成用機器を有し、
     該画面形成用機器は、前記表示画面を形成していない間には、前記第二のユーザが居る部屋に設けられた扉、窓若しくは姿見としての外観を現すことを特徴とする請求項1乃至3のいずれか一項に記載の映像表示システム。
    The second unit has a screen forming device for forming the display screen,
    2. The screen forming device displays an appearance as a door, a window, or an appearance provided in a room where the second user is present while the display screen is not formed. 4. The video display system according to any one of 3.
  5.  前記映像表示部は、前記第一のユーザの映像を表示する際に、前記表示画面に表示される前記第一のユーザの身長と前記第一のユーザの実際の身長とが一致するように、前記表示画面に表示する映像の表示サイズを調整することを特徴とする請求項1乃至4のいずれか一項に記載の映像表示システム。 When the video display unit displays the video of the first user, the height of the first user displayed on the display screen matches the actual height of the first user. The video display system according to any one of claims 1 to 4, wherein a display size of a video displayed on the display screen is adjusted.
  6.  前記撮像範囲外にある前記一部分が前記第一のユーザの身体中の所定部分であり、かつ、所定動作を行っている前記第一のユーザの映像を前記撮像部が撮像するとき、前記合成映像生成部は、前記所定部分の仮想映像によって構成された前記他の映像を用いて前記合成映像を生成することを特徴とする請求項1乃至5のいずれか一項に記載の映像表示システム。 When the imaging unit captures an image of the first user who is out of the imaging range and is a predetermined part in the body of the first user and performing a predetermined operation, the composite image The video display system according to claim 1, wherein the generation unit generates the composite video using the other video configured by the virtual video of the predetermined portion.
  7.  前記第一ユニット及び前記第二ユニットは、それぞれ、前記撮像部、前記表示画面及び前記映像表示部を備え、
     前記第一ユニットが備える前記撮像部のレンズは、前記表示画面を形成する画面形成用機器中、前記表示画面の形成面に面しており、
     前記第一のユーザが前記形成面に手部を接触させる動作を行っており、かつ、前記第一ユニットが備える前記撮像部の前記撮像範囲外に前記手部があるとき、前記合成映像生成部は、前記手部の仮想映像によって構成された前記他の映像を用いて前記合成映像を生成することを特徴とする請求項6に記載の映像表示システム。
    Each of the first unit and the second unit includes the imaging unit, the display screen, and the video display unit,
    The lens of the imaging unit included in the first unit faces the formation surface of the display screen in the screen forming device that forms the display screen,
    When the first user performs an operation of bringing a hand part into contact with the forming surface and the hand part is outside the imaging range of the imaging unit included in the first unit, the composite video generation unit The video display system according to claim 6, wherein the composite video is generated using the other video configured by the virtual video of the hand portion.
  8.  第一のユーザが使用する第一ユニットと、前記第一のユーザとは異なる空間に居る第二のユーザが使用する第二ユニットと、を用いて、前記第一のユーザの映像を前記第二のユーザ側に設けられた表示画面に表示する映像表示方法であって、
     前記第一ユニットが備える撮像部により、撮像範囲内にある被写体の映像を撮像し、
     前記第二ユニットが備える映像表示部により、前記表示画面に映像を表示し、
     前記被写体である前記第一のユーザの身体の一部分が前記撮像範囲外にある状態で前記撮像部により前記第一のユーザの映像を撮像した際に、前記第一ユニット及び前記第二ユニットのうちのいずれか一方のユニットが備える特定部により、前記一部分を特定し、
     前記いずれか一方のユニットが備える合成映像生成部により、前記一部分が前記撮像範囲外にある状態で前記撮像部により撮像した映像と、他の映像と、を合成して合成映像を生成し、
     前記他の映像は、前記一部分が前記撮像範囲内にあるときに前記撮像部により撮像した映像に基づいて生成された前記一部分の仮想映像、及び、前記合成映像において前記第一のユーザの前方に位置する物の仮想映像のうち、少なくとも一つによって構成され、
     前記合成映像生成部により前記合成映像を生成する際には、前記映像表示部により前記合成映像が表示された前記表示画面中、前記身体に対する前記一部分の相対位置に応じた領域に前記他の映像が表示されるように前記合成映像を生成することを特徴とする映像表示方法。
    Using the first unit used by the first user and the second unit used by the second user in a different space from the first user, the video of the first user is displayed in the second An image display method for displaying on a display screen provided on the user side of
    The imaging unit included in the first unit captures an image of a subject within the imaging range,
    The video display unit provided in the second unit displays video on the display screen,
    Of the first unit and the second unit, when the imaging unit captures an image of the first user in a state in which a part of the body of the first user that is the subject is outside the imaging range. The part is specified by the specifying unit provided in any one of the units,
    The synthesized video generation unit provided in any one of the units generates a synthesized video by synthesizing the video captured by the imaging unit in a state where the part is outside the imaging range, and another video,
    The other video is a portion of the virtual video generated based on the video captured by the imaging unit when the part is in the imaging range, and the first video in the composite video in front of the first user. It is composed of at least one of the virtual images of the objects located,
    When the composite video is generated by the composite video generation unit, the other video is displayed in an area corresponding to the relative position of the part with respect to the body in the display screen on which the composite video is displayed by the video display unit. The composite video is generated so as to be displayed.
PCT/JP2016/060532 2015-03-31 2016-03-30 Image display system and image display method WO2016159165A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015071763A JP2016192687A (en) 2015-03-31 2015-03-31 Video display system and video display method
JP2015-071763 2015-03-31

Publications (1)

Publication Number Publication Date
WO2016159165A1 true WO2016159165A1 (en) 2016-10-06

Family

ID=57005804

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/060532 WO2016159165A1 (en) 2015-03-31 2016-03-30 Image display system and image display method

Country Status (2)

Country Link
JP (1) JP2016192687A (en)
WO (1) WO2016159165A1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018128014A1 (en) * 2017-01-06 2018-07-12 ソニー株式会社 Information processing device, information processing method and program
WO2021066146A1 (en) * 2019-10-04 2021-04-08 エヌ・ティ・ティ・コミュニケーションズ株式会社 Estimating device, estimating method, and estimating program
CN112740284A (en) * 2018-11-30 2021-04-30 多玩国株式会社 Moving picture composition device, moving picture composition method, and recording medium
US11068699B2 (en) 2017-06-07 2021-07-20 Sony Corporation Image processing device, image processing method, and telecommunication system to generate an output image for telecommunication

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006040083A (en) * 2004-07-29 2006-02-09 Nippon Telegr & Teleph Corp <Ntt> Mirror type information providing device, information providing method, and program
JP2011023886A (en) * 2009-07-14 2011-02-03 Panasonic Corp Teleconferencing device and image display processing method
JP2013041338A (en) * 2011-08-11 2013-02-28 Fuji Xerox Co Ltd Image processing device and program
JP2014071871A (en) * 2012-10-02 2014-04-21 Nippon Telegr & Teleph Corp <Ntt> Video communication system and video communication method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006040083A (en) * 2004-07-29 2006-02-09 Nippon Telegr & Teleph Corp <Ntt> Mirror type information providing device, information providing method, and program
JP2011023886A (en) * 2009-07-14 2011-02-03 Panasonic Corp Teleconferencing device and image display processing method
JP2013041338A (en) * 2011-08-11 2013-02-28 Fuji Xerox Co Ltd Image processing device and program
JP2014071871A (en) * 2012-10-02 2014-04-21 Nippon Telegr & Teleph Corp <Ntt> Video communication system and video communication method

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018128014A1 (en) * 2017-01-06 2018-07-12 ソニー株式会社 Information processing device, information processing method and program
US10965815B2 (en) 2017-01-06 2021-03-30 Sony Corporation Information processing apparatus and information processing method
US11503162B2 (en) 2017-01-06 2022-11-15 Sony Corporation Information processing apparatus and information processing method
US11068699B2 (en) 2017-06-07 2021-07-20 Sony Corporation Image processing device, image processing method, and telecommunication system to generate an output image for telecommunication
CN112740284A (en) * 2018-11-30 2021-04-30 多玩国株式会社 Moving picture composition device, moving picture composition method, and recording medium
WO2021066146A1 (en) * 2019-10-04 2021-04-08 エヌ・ティ・ティ・コミュニケーションズ株式会社 Estimating device, estimating method, and estimating program
JP2021060735A (en) * 2019-10-04 2021-04-15 エヌ・ティ・ティ・コミュニケーションズ株式会社 Estimation apparatus, estimation method, and estimation program
JP7287874B2 (en) 2019-10-04 2023-06-06 エヌ・ティ・ティ・コミュニケーションズ株式会社 Estimation device, estimation method, estimation program
JP7450088B2 (en) 2019-10-04 2024-03-14 エヌ・ティ・ティ・コミュニケーションズ株式会社 Estimation device, estimation method, estimation program

Also Published As

Publication number Publication date
JP2016192687A (en) 2016-11-10

Similar Documents

Publication Publication Date Title
EP3096208B1 (en) Image processing for head mounted display devices
US9424678B1 (en) Method for teleconferencing using 3-D avatar
KR102574874B1 (en) Improved method and system for video conference using head mounted display (HMD)
JP6496172B2 (en) Video display system and video display method
WO2016159165A1 (en) Image display system and image display method
WO2010022351A2 (en) System and method for low bandwidth image transmission
US20170237941A1 (en) Realistic viewing and interaction with remote objects or persons during telepresence videoconferencing
JP5833526B2 (en) Video communication system and video communication method
WO2016159166A1 (en) Image display system and image display method
JP2014187559A (en) Virtual reality presentation system and virtual reality presentation method
WO2017141584A1 (en) Information processing apparatus, information processing system, information processing method, and program
JP2014182597A (en) Virtual reality presentation system, virtual reality presentation device, and virtual reality presentation method
JP5731462B2 (en) Video communication system and video communication method
JP6599183B2 (en) Image display system and image display method
KR20190031220A (en) System and method for providing virtual reality content
CN109116987A (en) A kind of holographic display system based on Kinect gesture control
EP2827589A1 (en) Display device and device for adapting an information
JP5833525B2 (en) Video communication system and video communication method
WO2021037257A1 (en) Scene reconstruction system and method
WO2017043661A1 (en) Image display system and image display method
JP7065708B2 (en) Recording / playback device and program
JP5898036B2 (en) Video communication system and video communication method
JP6182464B2 (en) Image display system and image display method
JP2001092990A (en) Three-dimensional virtual space participant display method, three-dimensional virtual space display device and recording medium stored with three-dimensional virtual space participant display program
WO2023218979A1 (en) Image processing device, image processing method, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16773046

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16773046

Country of ref document: EP

Kind code of ref document: A1