WO2024147184A1 - Virtual space display system, terminal device, and virtual space display program - Google Patents

Virtual space display system, terminal device, and virtual space display program Download PDF

Info

Publication number
WO2024147184A1
WO2024147184A1 PCT/JP2023/000088 JP2023000088W WO2024147184A1 WO 2024147184 A1 WO2024147184 A1 WO 2024147184A1 JP 2023000088 W JP2023000088 W JP 2023000088W WO 2024147184 A1 WO2024147184 A1 WO 2024147184A1
Authority
WO
WIPO (PCT)
Prior art keywords
virtual
image frame
space
virtual space
unit
Prior art date
Application number
PCT/JP2023/000088
Other languages
French (fr)
Japanese (ja)
Inventor
広夢 宮下
美紀 北端
翔平 松尾
涼平 西條
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2023/000088 priority Critical patent/WO2024147184A1/en
Publication of WO2024147184A1 publication Critical patent/WO2024147184A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics

Definitions

  • the present invention relates to a virtual space display system, a terminal device, and a virtual space display program.
  • conventional technologies do not always take into consideration locations or users who participate in a virtual space without wearing a head-mounted display (hereinafter referred to as "HMD").
  • HMD head-mounted display
  • conventional technologies do not allow a user who participates in a virtual space through video from the real world using a camera and microphone to interfere with a user who is immersed in the virtual space using an HMD, or with an avatar that represents that user in the virtual space (for example, by interacting with the user by touching or handing over a virtual object), making it difficult to provide high-quality communication.
  • the virtual space display system of the present invention is a virtual space display system that displays a virtual space
  • the terminal device has a calculation unit that uses an image frame output from a shooting device to calculate at least one of a person area recognized as a person in the image frame, an object area recognized as an object, and a designated area in which a predetermined area is designated, a setting unit that sets a predetermined alpha value in the image frame using at least one of the person area, the object area, and the designated area, and a synthesis unit that synthesizes a display image based on a real space image frame, which is the image frame in which the alpha value is set, and a virtual space image frame received from an information processing device
  • the information processing device has a generation unit that generates a virtual object using the real space image frame received from the terminal device and the object area or the person area, an adjustment unit that adjusts the predetermined position and shape of the virtual object in the virtual space, and a drawing unit that draws the real space image
  • FIG. 1 is a diagram showing an overview of a virtual space display method according to an embodiment.
  • FIG. 2 is a diagram showing an overview of a virtual space according to the embodiment.
  • FIG. 3 is a diagram illustrating an example of an interaction in a virtual space according to the embodiment.
  • FIG. 4 is a diagram illustrating an example of functional blocks of the virtual space display system according to the embodiment.
  • FIG. 5 is a diagram illustrating an example of a device configuration of a virtual space display system according to an embodiment.
  • FIG. 6 is a diagram showing an overview of area information according to the embodiment.
  • FIG. 7 is a diagram showing an overview of setting the sum of alpha values to an image frame according to this embodiment.
  • FIG. 1 is a diagram showing an overview of a virtual space display method according to an embodiment.
  • FIG. 2 is a diagram showing an overview of a virtual space according to the embodiment.
  • FIG. 3 is a diagram illustrating an example of an interaction in a virtual space according to the embodiment.
  • FIG. 4 is
  • the virtual space display system 1 of the present embodiment provides a video communication technology used when users at remote locations or users in a virtual space communicate with each other via video. Specifically, the virtual space display system 1 provides high-quality communication by suppressing degradation of video quality caused by extraction of a subject from a real video in communication connecting a real video and a virtual space. Furthermore, the virtual space display system 1 enables interference with a user immersed in a virtual space and an avatar that represents the user in the virtual space, improving the communication experience in the virtual space.
  • FIG. 1 is a diagram showing an outline of a virtual space display method according to an embodiment.
  • the upper part of Figure 1 shows a base (hereafter referred to as "real space base 10R") that participates in communication from real space via video.
  • the lower part of Figure 1 shows a base (hereafter referred to as “virtual space base 10V”) that participates in communication from virtual space using an HMD or the like.
  • the terminal device 100 of the real space base 10R and the information processing device 200 of the virtual space base 10V are connected by a specified network N ((1) in Figure 1).
  • the information processing device 200 performs rendering in the virtual space based on the information about the posture of the user 20V output by the posture acquisition sensor 32a and the posture acquisition device 33 ((5) in FIG. 1).
  • the virtual space display system 1 then provides communication and interaction via the virtual space between the user 20R at the real space base 10R and the user 20V at the virtual space base 10V.
  • the virtual space display system 1 can output tactile information such as vibrations based on interference generated in the virtual space via a tactile output device 33a (e.g., a vibration motor built into the controller or a haptic device such as a separately connected haptic suit) built into the posture acquisition device 33, etc. ((6) in Figure 1).
  • a tactile output device 33a e.g., a vibration motor built into the controller or a haptic device such as a separately connected haptic suit
  • FIG. 2 is a diagram showing an overview of the virtual space according to the embodiment.
  • the virtual space 40 is displayed as a virtual space observed from the perspective of the avatar of the user 20V.
  • the virtual space 40 is configured such that a virtual display device 30V is installed on the ground 50.
  • virtual space 41 which is an overhead view of virtual space 40.
  • virtual space 41 there exists a virtual ground 50, on which an avatar 51, a virtual display device 30V, and a virtual imaging device 31V are placed.
  • the virtual display device 30V is placed on the ground 50 of virtual space 41, and the virtual imaging device 31V is placed in the depth direction of the display device 30V when viewed from the avatar 51 of user 20V.
  • the virtual camera 31V is a virtual object that is installed to indicate the angle of view when an image is taken from the location in question using the camera. Note that the virtual camera 31V in this embodiment has an angle of view that is used to photograph the avatar 51 looking at the virtual display device 30V from the front, through the virtual display device 30V.
  • the virtual camera 31V installed here is a virtual camera that is positioned based on a 3D model of an actual camera, etc., and does not actually take pictures.
  • FIG. 3 is a diagram showing an example of an interaction in a virtual space according to an embodiment.
  • FIG. 5 is a diagram showing an example of the device configuration of the virtual space display system 1 according to the embodiment.
  • the communication unit 110 is realized by a NIC (Network Interface Card) or the like, and controls communication via an electric communication line such as a LAN (Local Area Network) or the Internet.
  • the communication unit 110 is connected to a network N by wire or wirelessly as necessary, and can transmit and receive information in both directions.
  • the storage unit 120 stores data and programs necessary for various processes by the control unit 130.
  • the storage unit 120 is realized by a semiconductor memory element such as a random access memory (RAM) or a flash memory, or a storage device such as a hard disk or an optical disk.
  • the storage unit 120 has an image frame storage unit 121, a region information storage unit 122, and a composite image storage unit 123.
  • the person area 122a is information on a pixel area having characteristics of a "person" included in an image frame that is recognized as a person area by a predetermined method.
  • the person area 122a may be an area of a person (user 20R) (an area of white pixels in the person area 122a in FIG. 6 ) calculated by a calculation unit 131 described later from an image frame 60 that includes user 20R holding a book 52 in his right hand in FIG. 6 .
  • the composite image storage unit 123 stores a display image composited by a composite unit 135, which will be described later.
  • the control unit 130 has an internal memory for temporarily storing programs that define various processing procedures and the like and processing data, and is realized by electronic circuits such as a CPU (Central Processing Unit) and an MPU (Micro Processing Unit), and integrated circuits such as an ASIC (Application Specific Integrated Circuit) and an FPGA (Field Programmable Gate Array). As shown in FIG. 5, the control unit 130 has a calculation unit 131, a setting unit 132, a transmission unit 133, a reception unit 134, a synthesis unit 135, and an output unit 136.
  • a CPU Central Processing Unit
  • MPU Micro Processing Unit
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • the calculation unit 131 can calculate an area recognized as a person (the area of white pixels in the person area 122a in FIG. 6) from the image frame 60 in FIG. 6 as the person area 122a.
  • setting unit 132 sets the relevant pixel to remain. Conversely, if all pixels in person area 122a, object area 122b, and designated area 122c at the same coordinates are black, setting unit 132 sets the relevant pixel to be transparent.
  • setting unit 132 sets the sum of the alpha values of person area 122a and object area 122b shown in the upper part of Fig. 7, and sets person area + object area 122ab.
  • setting unit 132 sets the sum of the alpha values of object area 122b and designated area 122c shown in the upper part of Fig. 7, and sets object area + designated area 122bc.
  • the setting unit 132 sets the sum of the person area + object area 122ab and the object area + designated area 122bc shown in the middle of FIG. 7, and sets the person area + object area + designated area 122abc. Note that the order of the summation of the alpha values described above is not particularly limited and may be changed as appropriate.
  • the setting unit 132 applies the person area + object area + designated area 122abc to the image frame 60, and sets the real space image frame 60R in which the sum of the alpha values is set.
  • the setting unit 132 superimposes the "white pixels” and “black pixels” areas of the person area 122a, object area 122b, and designated area 122c to calculate a real-space image frame 60R in which the sum of the alpha values is set from the image frame 60. Therefore, the real-space image frame 60R shown in the lower part of Figure 7 is an image frame in which an alpha value is set by the setting unit 132, and the left side of the background is depicted with black pixels indicating that it is transparent.
  • the transmitting unit 133 transmits the real space image frame in which a predetermined alpha value is set, the person area 122a, and the object area 122b to the information processing device 200.
  • the transmitting unit 133 may transmit the designated area 122c as well, or may transmit the image frame in which no alpha value is set, the person area 122a, the object area 122b, and the designated area 122c.
  • the transmitting unit 133 may also transmit audio information acquired by the image capturing device 31R.
  • the receiving unit 134 receives the virtual space image frame, the avatar area 222a, and the virtual object area 222b calculated by the calculation unit 236 of the information processing device 200. Note that, for the above-mentioned virtual space image frame, the avatar area 222a, and the virtual object area 222b, the process of setting the sum of alpha values by the setting unit 132 may be similarly performed by the calculation unit 236 of the information processing device 200.
  • the synthesis unit 135 synthesizes a display image based on a real space image frame, which is an image frame in which an alpha value is set, and a virtual space image frame received from the information processing device 200.
  • a real space image frame which is an image frame in which an alpha value is set
  • a virtual space image frame received from the information processing device 200.
  • Fig. 8 is a diagram showing an example of the synthesis of a real space image frame and a virtual space image frame according to an embodiment.
  • FIG. 8 shows a real space image frame 60R in which the sum of alpha values is set, and a virtual space image frame 60V in which the sum of alpha values is similarly set.
  • a person area 122a and an object area 122b are set in the real space image frame 60R.
  • an avatar area 222a equivalent to the person area 122a of the real space image frame 60R, and a virtual object area 222b equivalent to the object area 122b are set in the virtual space image frame 60V.
  • the synthesis unit 135 synthesizes the real space image frame 60R and the virtual space image frame 60V described above to generate the display image 70RV. Specifically, as shown in the lower part of FIG. 8, the display image 70RV can be synthesized such that the virtual space image frame 60V fits within the transparent area of the real space image frame 60R.
  • Figure 9 is a diagram showing an overview of overlaying a real-space image layer and a virtual-space image frame according to an embodiment.
  • the compositing unit 135 composites the layers of each image so that they overlap. Note that if an alpha value that makes pixels transparent is set, the pixels of the lower layers are more likely to be hidden by the pixels of other layers when the layers are superimposed. Conversely, the pixels of the upper layers are less likely to be hidden by the pixels of other layers and are more likely to be displayed.
  • the synthesis unit 135 superimposes the real space image frame 60R and the virtual space image frame 60V. Furthermore, the synthesis unit 135 superimposes on top of that the person region 122a and the object region 122b in the real space image frame 60R, and the avatar region 222a and the virtual object region 222b in the virtual space image frame 60V. The synthesis unit 135 then synthesizes the display image 70RV.
  • each area at this time transfers pixels from the corresponding real space image frame 60R or virtual space image frame 60V.
  • the synthesis unit 135 may add a specified area to a layer in cases such as when an alpha value is not set in the real space image frame 60R.
  • synthesis unit 135 may automatically switch the order of layers according to the depth or distance. In other words, the closer to the shooting device or virtual shooting device, the more likely it is to appear above other layers, and conversely, the further away it is from the camera or virtual camera, the more likely it is to be hidden by other layers and less likely to remain in the displayed image.
  • the virtual space display system 1 when passing an object from a virtual space base to a real space base, the virtual space display system 1 can display the virtual object in front (for example, at the top of the layer) even if the virtual object cuts in on the real space base side. This allows the user to move and transform the object while looking at the screen.
  • the output unit 136 outputs the display image synthesized by the synthesis unit 135 to the display device 30R. Note that the information output by the output unit 136 is not particularly limited.
  • the communication unit 210 is realized by a NIC or the like, and controls communication via an electric communication line such as a LAN, the Internet, etc.
  • the communication unit 210 is connected to a network N by wire or wirelessly as necessary, and can transmit and receive information in both directions.
  • communication between the information processing device 200 and the terminal device 100 is performed via the communication unit 210. It is also assumed that communication with other devices (e.g., the HMD 32, the posture acquisition device 33, etc.) is performed via the communication unit 210.
  • other devices e.g., the HMD 32, the posture acquisition device 33, etc.
  • the storage unit 220 stores data and programs necessary for various processes by the control unit 230.
  • the storage unit 220 is realized by a semiconductor memory element such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk. As shown in FIG. 5 , the storage unit 220 has an image frame storage unit 221, a region information storage unit 222, and a generation information storage unit 223.
  • the image frame storage unit 221 stores virtual space image frames, which are image frames captured with an angle of view centered on an avatar in a virtual space.
  • the image frame storage unit 221 can also store real space image frames received from the terminal device 100. Note that the image frame storage unit 221 can store information other than the above-mentioned information, without being limited thereto, as long as it is within the category of image frames.
  • the region information storage unit 222 stores the avatar region 222a and the virtual object region 222b calculated from the virtual space image frame.
  • the region information storage unit 222 can also store the person region 122a, the object region 122b, and the designated region 122c received from the terminal device 100.
  • Avatar region 222a is information relating to a pixel region having characteristics of an "avatar" included in an image frame that has been recognized as an avatar region using a predetermined method.
  • the receiving unit 231 receives the real space image frame, the person region 122 a, the object region 122 b, and the designated region 122 c, in which an alpha value has been set, transmitted by the transmitting unit 133 of the terminal device 100.
  • the update unit 232 updates the video displayed on a virtual display device installed in the virtual space based on the real space image frame, the person area 122a, the object area 122b, and the specified area 122c received from the terminal device 100.
  • the determination unit 233 may use image features for determining whether the object region 122b is new or existing. For example, the determination unit 233 calculates features from pixels corresponding to the object region 122b in the image frame, and compares a predetermined virtual object 223a from a plurality of virtual objects created in advance. Then, the determination unit 233 can determine that there is similarity when the features satisfy a predetermined condition with any of the previously created virtual objects 223a.
  • the generation unit 234 generates a virtual object by using the real space image frame received from the terminal device 100 and the object region 122b or the person region 122a. Specifically, the generation unit 234 has a first generation unit 2341 and a second generation unit 2342, which each execute the above-mentioned processing.
  • the first generation unit 2341 (generation unit) generates a virtual object 223a that imitates the shape or pattern of the object included in the object area 122b as a virtual object, using the real-space image frame and a pixel area corresponding to the object area 122b included in the real-space image frame based on the judgment result of the judgment unit 233.
  • the first generation unit 2341 can obtain pixels of the image frame corresponding to the object region 122b, use them as texture, generate a virtual object 223a that mimics the shape and pattern of the object, and place it in the virtual space. For example, when a book is shown as the object region 122b as in the real-space image frame 60R in the upper left of Figure 8, a rectangular VR object is generated and the pixels corresponding to the object region 122b of the image frame are transferred to the texture.
  • the second generator 2342 can receive the real-space image frame and the person area 122a from the receiver 231, and generate bones 223b from the position, size, and shape of the person area 122a.
  • FIG. 10 is a diagram showing an overview of bones 223b according to the embodiment.
  • bones in a virtual space correspond to the skeleton of an avatar, and are set in avatars that exist in the virtual space of this embodiment in order to perform collision detection with objects in the virtual space.
  • the bones 223b generated by the second generator 2342 here virtually set the posture that the user at the real-space base would be in if he or she were in the virtual space.
  • the bones 223b are generated for the purpose of obtaining collision detection with virtual objects in the virtual space, like normal bones, or for allowing the user at the real-space base to touch virtual objects in the virtual space when they reach out their hands. For this reason, the bones 223b are not drawn, visualized, rendered, or the like, and are not represented as avatars.
  • the adjustment unit 235 adjusts a predetermined position and shape of a virtual object in a virtual space. Specifically, the adjustment unit 235 has a first adjustment unit 2351 and a second adjustment unit 2352, and each of them executes the above-mentioned processes.
  • the first adjustment unit 2351 behaves as if user 20R at the real-space base is touching hamburger 53 held by avatar 51. At this time, the first adjustment unit 2351 determines that the hand of the person area to which bone 223b is set has interfered with hamburger 53, which is virtual object 223a, and executes a movement such that hamburger 53 follows the hand of bone 223b.
  • the second adjustment unit 2352 adjusts the position or shape of the avatar when the bone 223b, which is a virtual object, interferes with the avatar in the virtual space. Specifically, when it is determined that the bone 223b interferes with the avatar or that the user has performed some action on the avatar via the controller, the second adjustment unit 2352 performs adjustment to move or deform the avatar.
  • the second adjustment unit 2352 executes an operation in which the person area 122a in which the bone 223b of the user at the real-space base is set and the avatar in the virtual space grabs it and moves it, or brings it close to the face and eats it.
  • the second adjustment unit 2352 may move the position of the avatar, or may perform adjustments based on operations such as swaying the hair when the avatar's head is stroked, or pinching the clothes.
  • the calculation unit 236 uses the virtual space image frame to calculate the avatar area 222a and the virtual object area 222b from the virtual space image frame.
  • the virtual space image frame is the state of the virtual space as seen from the position of the virtual camera, and is assumed to be captured with an angle of view mainly centered on the avatar.
  • the calculation unit 236 can calculate the avatar area 222a and the virtual object area 222b by using the image captured from the virtual camera position in the virtual space as the virtual space image frame.
  • the calculation unit 131 calculates a person area and an object area from an image frame (step S101).
  • the calculation unit 131 may also calculate a designated area as necessary.
  • the second adjustment unit 2352 adjusts the posture of the avatar using posture information output from an external device (e.g., a posture acquisition sensor or posture acquisition device) (step S201). If the avatar interferes with the virtual object (Yes in step S202), the first adjustment unit 2351 performs adjustments such as moving or deforming the virtual object (step S203). On the other hand, if the avatar does not interfere with the virtual object, the second adjustment unit 2352 skips the processing of step S203 (No in step S202).
  • an external device e.g., a posture acquisition sensor or posture acquisition device
  • the determination unit 233 determines that the object region is not new, it skips the processing of steps S207 and S208 (No in step S206).
  • Effects Conventional technology extracts only the areas of people from captured video and pastes them into the virtual space, making it appear as if the user is actually at that point in the virtual space. However, if the accuracy of subject extraction is poor, degradation of image quality occurs at the boundary between people and other areas, which can impair the quality of experience of communication between users.
  • conventional technologies do not always take into consideration locations or users who participate in a virtual space without wearing an HMD or similar device.
  • a user who participates in a virtual space via video from the real world using a camera and microphone is unable to interfere with users who are immersed in the virtual space using an HMD, or with avatars that represent them in the virtual space, making it difficult to provide high-quality communication.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

This virtual space display system includes a terminal device and an information processing device. The terminal device uses an image frame outputted by an imaging device, derives at least any one among a person region that is recognized as a person, an object region that is recognized as an object, and a designated region in which a predetermined region is designated in the image frame, uses at least any one among the person region, the object region, and the designated region to set a predetermined alpha value in the image frame, and synthesizes a display image on the basis of the actual space image frame and a virtual space image frame received from the information processing device. The information processing device uses the actual space image frame received from the terminal device and the object region or the person region, generates a virtual object, adjusts the predetermined position and shape of the virtual object in the virtual space, and draws by superimposing the actual space image frame and the virtual object onto the virtual space.

Description

仮想空間表示システム、端末装置、および仮想空間表示プログラムVIRTUAL SPACE DISPLAY SYSTEM, TERMINAL DEVICE, AND VIRTUAL SPACE DISPLAY PROGRAM
 本発明は、仮想空間表示システム、端末装置、および仮想空間表示プログラムに関する。 The present invention relates to a virtual space display system, a terminal device, and a virtual space display program.
 各拠点のユーザ同士が映像を介してコミュニケーションをとる際、コンピュータ上の仮想的な空間(以降、「仮想空間」と表記)を構築し、相手との距離感や視線方向を表現することで、会話のしやすさを向上させる手段が知られている。具体的には、仮想空間の中に各拠点の位置を設定し、一方の拠点で取得された映像や音声について他方からその拠点を見たときの相互の位置関係から、見え方や聞こえ方を編集または加工する手法が提案されている。 When users at different locations communicate with each other via video, a method is known that makes it easier for them to converse by constructing a virtual space on a computer (hereafter referred to as "virtual space") and expressing the sense of distance and line of sight between the other users. Specifically, a method has been proposed in which the position of each location is set within a virtual space, and the way video and audio captured at one location are seen and heard is edited or processed based on the relative positions of the other location when viewed from that location.
 例えば、従来技術では、各拠点で撮影された映像から人物の映っている領域や物体の映っている領域を取得し、ユーザの視線の位置および方向に基づいて映像を回転させ、その映像を仮想空間に貼り付ける。さらに、該当の仮想空間を撮影した映像をユーザの操作する端末装置のディスプレイの位置に対応するよう透視投影変換して表現する手法が知られている(特許文献1を参照)。 For example, in conventional technology, the areas showing people or objects are obtained from video captured at each location, the video is rotated based on the position and direction of the user's line of sight, and the video is pasted into a virtual space. Furthermore, a method is known in which the video captured of the virtual space is expressed by performing perspective projection conversion so that it corresponds to the position of the display of the terminal device operated by the user (see Patent Document 1).
特許第5798536号公報Patent No. 5798536
 しかしながら、従来技術では、仮想空間に参加するユーザに対して高品質なコミュニケーションの提供が難しい、という問題があった。 However, conventional technology has the problem that it is difficult to provide high-quality communication to users participating in virtual spaces.
 例えば、従来技術は、撮影された映像を用いて人物の写った領域のみについて被写体を抽出して仮想空間上に貼り付けることで、あたかも仮想空間上のその地点にユーザがいるかのような表現を行う。しかしながら被写体抽出の精度が悪い場合、人物とそれ以外の境界部分において、映像品質の低下(例えば、映像のざらつきやブレ等)が発生して、ユーザ間のコミュニケーションの体験品質を損なう場合があった。 For example, conventional technology extracts only the areas of a person from a captured image and pastes them into a virtual space, making it appear as if the user is actually at that point in the virtual space. However, if the accuracy of the subject extraction is poor, degradation of image quality (e.g., graininess or blurring of the image) can occur at the boundary between the person and other areas, impairing the quality of the experience of communication between users.
 例えば、従来技術では、ヘッドマウントディスプレイ(以降、「HMD」と表記)を装着せず仮想空間に参加するよう拠点やユーザについて考慮されていない場合があった。例えば、従来技術は、カメラやマイクを使って実空間から映像で仮想空間に参加するユーザからHMDを用いて仮想空間に没入するユーザ、またはそのユーザの仮想空間上の代理となるアバターに対して干渉(例えば、触ったり、仮想的な物体を手渡したり、といったインタラクションを行うこと等)ができず、高品質のコミュニケーションの提供が難しい場合があった。 For example, conventional technologies do not always take into consideration locations or users who participate in a virtual space without wearing a head-mounted display (hereinafter referred to as "HMD"). For example, conventional technologies do not allow a user who participates in a virtual space through video from the real world using a camera and microphone to interfere with a user who is immersed in the virtual space using an HMD, or with an avatar that represents that user in the virtual space (for example, by interacting with the user by touching or handing over a virtual object), making it difficult to provide high-quality communication.
 本発明は、上記事情に鑑みてなされたものであり、映像と仮想空間を伴ったコミュニケーションにおける被写体抽出に起因する映像品質劣化の抑制、および映像を介して実空間から参加するユーザと仮想空間から参加するユーザとの間でのインタラクションの実現により、高品質なコミュニケーションを実現する技術を提供することを目的とする。 The present invention has been made in consideration of the above circumstances, and aims to provide technology that realizes high-quality communication by suppressing deterioration in image quality caused by subject extraction in communication involving video and virtual space, and by realizing interaction between users participating in real space and users participating in virtual space via video.
 そこで、上記の課題を解決し目的を達成するために、本発明の仮想空間表示システムは、仮想空間を表示する仮想空間表示システムであって、端末装置は、撮影装置から出力された画像フレームを用いて、該画像フレームの中で人物として認識された人物領域と、物体として認識された物体領域と、所定の領域を指定された指定領域との少なくともいずれか1つを算出する算出部と、前記人物領域と、前記物体領域と、前記指定領域との少なくともいずれか1つを用いて前記画像フレームに所定のアルファ値を設定する設定部と、前記アルファ値が設定された前記画像フレームである実空間画像フレームと、情報処理装置から受信した仮想空間画像フレームとに基づき、表示画像を合成する合成部とを有し、前記情報処理装置は、前記端末装置から受信した前記実空間画像フレームと、前記物体領域または前記人物領域とを用いて、仮想オブジェクトを生成する生成部と、前記仮想空間における前記仮想オブジェクトの所定の位置および形状を調整する調整部と、前記実空間画像フレームと前記仮想オブジェクトとを前記仮想空間に重畳して描画する描画部と、を有することを特徴とする。 In order to solve the above problems and achieve the object, the virtual space display system of the present invention is a virtual space display system that displays a virtual space, and the terminal device has a calculation unit that uses an image frame output from a shooting device to calculate at least one of a person area recognized as a person in the image frame, an object area recognized as an object, and a designated area in which a predetermined area is designated, a setting unit that sets a predetermined alpha value in the image frame using at least one of the person area, the object area, and the designated area, and a synthesis unit that synthesizes a display image based on a real space image frame, which is the image frame in which the alpha value is set, and a virtual space image frame received from an information processing device, and the information processing device has a generation unit that generates a virtual object using the real space image frame received from the terminal device and the object area or the person area, an adjustment unit that adjusts the predetermined position and shape of the virtual object in the virtual space, and a drawing unit that draws the real space image frame and the virtual object by superimposing them on the virtual space.
 本発明は、仮想空間に参加するユーザに対して高品質なコミュニケーションの提供を可能とする、という効果を奏する。 The present invention has the effect of enabling high-quality communication to be provided to users participating in a virtual space.
図1は、実施形態に係る仮想空間表示方法の概要を示す図である。FIG. 1 is a diagram showing an overview of a virtual space display method according to an embodiment. 図2は、実施形態に係る仮想空間の概要を示す図である。FIG. 2 is a diagram showing an overview of a virtual space according to the embodiment. 図3は、実施形態に係る仮想空間におけるインタラクションの一例を示す図である。FIG. 3 is a diagram illustrating an example of an interaction in a virtual space according to the embodiment. 図4は、実施形態に係る仮想空間表示システムの機能ブロックの一例を示す図である。FIG. 4 is a diagram illustrating an example of functional blocks of the virtual space display system according to the embodiment. 図5は、実施形態に係る仮想空間表示システムの装置構成の一例を示す図である。FIG. 5 is a diagram illustrating an example of a device configuration of a virtual space display system according to an embodiment. 図6は、実施形態に係る領域情報の概要を示す図である。FIG. 6 is a diagram showing an overview of area information according to the embodiment. 図7は、実施形態に係る画像フレームへのアルファ値の和の設定の概要を示す図である。FIG. 7 is a diagram showing an overview of setting the sum of alpha values to an image frame according to this embodiment. 図8は、実施形態に係る実空間画像フレームと仮想空間画像フレームの合成の一例を示す図である。FIG. 8 is a diagram illustrating an example of compositing a real space image frame and a virtual space image frame according to the embodiment. 図9は、実施形態に係る実空間画像レイヤーと仮想空間画像フレームとの重ね合わせの概要を示す図である。FIG. 9 is a diagram showing an overview of overlaying a real space image layer and a virtual space image frame according to the embodiment. 図10は、実施形態に係るボーンの概要を示す図である。FIG. 10 is a diagram showing an outline of a bone according to the embodiment. 図11は、実施形態に係る端末装置の処理手順のフローチャートの一例を示す図である。FIG. 11 is a diagram illustrating an example of a flowchart of a processing procedure of the terminal device according to the embodiment. 図12は、実施形態に係る情報処理装置の処理手順のフローチャートの一例を示す図である。FIG. 12 is a diagram illustrating an example of a flowchart of a processing procedure of the information processing device according to the embodiment. 図13は、本実施形態に係る仮想空間表示システムの構成装置が実現されるコンピュータの一例を示す図である。FIG. 13 is a diagram showing an example of a computer in which the constituent devices of the virtual space display system according to this embodiment are realized.
 以下、図面を参照しながら、本発明を実施するための形態(以降、「実施形態」)について説明する。なお、各実施形態は、以下に記載する内容に限定されない。 Below, the form for carrying out the present invention (hereinafter, "embodiments") will be described with reference to the drawings. Note that each embodiment is not limited to the contents described below.
〔1.全体概要〕
 本実施形態の仮想空間表示システム1は、遠隔拠点にいるユーザ同士もしくは仮想空間上のユーザ同士が映像を介してコミュニケーションする際に用いる映像通信技術を提供する。具体的に、仮想空間表示システム1は、実在する映像と仮想空間をつなぐコミュニケーションにおいて、実在する映像からの被写体の抽出に起因する映像品質の劣化を抑制することで、高品質なコミュニケーションを提供する。さらに、仮想空間表示システム1は、仮想空間に没入するユーザやその仮想空間上の代理となるアバターに対して干渉を可能とし、仮想空間でのコミュニケーション体験を向上させる。
[1. Overall Overview]
The virtual space display system 1 of the present embodiment provides a video communication technology used when users at remote locations or users in a virtual space communicate with each other via video. Specifically, the virtual space display system 1 provides high-quality communication by suppressing degradation of video quality caused by extraction of a subject from a real video in communication connecting a real video and a virtual space. Furthermore, the virtual space display system 1 enables interference with a user immersed in a virtual space and an avatar that represents the user in the virtual space, improving the communication experience in the virtual space.
 ここから、図1を用いて本実施形態の概要を更に説明する。図1は、実施形態に係る仮想空間表示方法の概要を示す図である。 The outline of this embodiment will now be further explained using FIG. 1. FIG. 1 is a diagram showing an outline of a virtual space display method according to an embodiment.
 図1上部に、映像を介して実空間からコミュニケーションに参加する拠点(以降、「実空間拠点10R」と表記)が示されている。他方、図1下部に、HMD等を利用して仮想空間からコミュニケーションに参加する拠点(以降、「仮想空間拠点10V」と表記)が示されている。さらに、実空間拠点10Rの端末装置100と仮想空間拠点10Vの情報処理装置200とは、所定のネットワークNで接続されている(図1の(1))。 The upper part of Figure 1 shows a base (hereafter referred to as "real space base 10R") that participates in communication from real space via video. On the other hand, the lower part of Figure 1 shows a base (hereafter referred to as "virtual space base 10V") that participates in communication from virtual space using an HMD or the like. Furthermore, the terminal device 100 of the real space base 10R and the information processing device 200 of the virtual space base 10V are connected by a specified network N ((1) in Figure 1).
 実空間拠点10Rでは、ユーザ20Rが表示装置30R(例えば、大画面のディスプレイ等)を用いることにより、他拠点とのコミュニケーションが行われる。実空間拠点10Rの撮影装置31R(例えば、カメラ等)は、ユーザ20Rを撮影した映像を端末装置100へ出力する(図1の(2))。他方、表示装置30Rは、端末装置100から出力される情報に基づき、ユーザ20Rに所定の映像を出力する(図1の(3))。 At the real-world base 10R, the user 20R uses a display device 30R (e.g., a large-screen display) to communicate with other bases. An image capture device 31R (e.g., a camera) at the real-world base 10R outputs an image of the user 20R to the terminal device 100 ((2) in FIG. 1). On the other hand, the display device 30R outputs a predetermined image to the user 20R based on information output from the terminal device 100 ((3) in FIG. 1).
 仮想空間拠点10Vでは、ユーザ20VがHMD32を装着して仮想空間に没入することにより、他拠点とのコミュニケーションが行われる。また、HMD32に内蔵された姿勢取得センサ32a(例えば、コントローラの位置や傾きを取得する6DoFセンサ等)は、ユーザ20Vの頭の位置や動き、傾き等に関する情報を取得して、情報処理装置200に所定の情報を出力する(図1の(4-1))。他方、仮想空間拠点10Vの姿勢取得装置33は、ユーザ20Vの手の位置や動き、傾き等に関する情報を取得して、情報処理装置200に所定の情報を出力する(図1の(4-2))。 At the virtual space base 10V, the user 20V wears the HMD 32 and is immersed in the virtual space, thereby communicating with other bases. In addition, an attitude acquisition sensor 32a (for example, a 6DoF sensor that acquires the position and inclination of a controller) built into the HMD 32 acquires information regarding the position, movement, inclination, etc. of the user 20V's head, and outputs predetermined information to the information processing device 200 ((4-1) in FIG. 1). On the other hand, an attitude acquisition device 33 at the virtual space base 10V acquires information regarding the position, movement, inclination, etc. of the user 20V's hands, and outputs predetermined information to the information processing device 200 ((4-2) in FIG. 1).
 情報処理装置200は、姿勢取得センサ32aと姿勢取得装置33とにより出力されたユーザ20Vの姿勢に関する情報に基づき、仮想空間にレンダリングを行う(図1の(5))。そして、仮想空間表示システム1は、実空間拠点10Rのユーザ20Rと仮想空間拠点10Vのユーザ20Vとに、仮想空間を介したコミュニケーションやインタラクションを提供する。 The information processing device 200 performs rendering in the virtual space based on the information about the posture of the user 20V output by the posture acquisition sensor 32a and the posture acquisition device 33 ((5) in FIG. 1). The virtual space display system 1 then provides communication and interaction via the virtual space between the user 20R at the real space base 10R and the user 20V at the virtual space base 10V.
 加えて、仮想空間表示システム1は、姿勢取得装置33等に内蔵された触覚出力装置33a(例えば、コントローラに内蔵された振動モーターあるいは別途接続されたハプティクススーツといったハプティクスデバイス等)を介して、仮想空間内で発生した干渉に基づく振動等の触覚情報を出力できる(図1の(6))。 In addition, the virtual space display system 1 can output tactile information such as vibrations based on interference generated in the virtual space via a tactile output device 33a (e.g., a vibration motor built into the controller or a haptic device such as a separately connected haptic suit) built into the posture acquisition device 33, etc. ((6) in Figure 1).
 次に、図2を用いて、情報処理装置200により生成される仮想空間内の仮想的なオブジェクト等の位置関係と、HMDからみた仮想空間の概要について説明する。図2は、実施形態に係る仮想空間の概要を示す図である。 Next, the positional relationships of virtual objects and the like in the virtual space generated by the information processing device 200 and an overview of the virtual space as seen from the HMD will be described with reference to FIG. 2. FIG. 2 is a diagram showing an overview of the virtual space according to the embodiment.
 図2に示す通り、仮想空間40は、ユーザ20Vのアバターの目線から観察される仮想空間として表示される。仮想空間40は、グラウンド50の上に仮想の表示装置30Vが設置された構成である。 As shown in FIG. 2, the virtual space 40 is displayed as a virtual space observed from the perspective of the avatar of the user 20V. The virtual space 40 is configured such that a virtual display device 30V is installed on the ground 50.
 ここで、仮想空間40の俯瞰図である仮想空間41を用いて、仮想空間における仮想的なオブジェクトの位置関係について説明する。仮想空間41には、仮想のグラウンド50が存在しており、その上にアバター51と、仮想の表示装置30Vと、仮想の撮影装置31Vが設置されている。具体的な位置関係としては、仮想空間41のグラウンド50の上に仮想の表示装置30Vが設置されており、ユーザ20Vのアバター51から見て、表示装置30Vの奥行き方向に仮想の撮影装置31Vが設置されている。 Here, the positional relationship of virtual objects in virtual space 40 will be explained using virtual space 41, which is an overhead view of virtual space 40. In virtual space 41, there exists a virtual ground 50, on which an avatar 51, a virtual display device 30V, and a virtual imaging device 31V are placed. In terms of specific positional relationships, the virtual display device 30V is placed on the ground 50 of virtual space 41, and the virtual imaging device 31V is placed in the depth direction of the display device 30V when viewed from the avatar 51 of user 20V.
 仮想の表示装置30Vには、実空間画像フレーム(実空間で画像フレームに、所定のアルファ値の和が設定された画像フレーム)と、仮想空間画像フレーム(仮想空間内で取得された画像フレームに、アバターや仮想物体が合成された画像フレーム)とが合成された状態で表示される。 The virtual display device 30V displays a composite image of a real space image frame (an image frame in which the sum of a specified alpha value is set to an image frame in real space) and a virtual space image frame (an image frame in which an avatar or virtual object is composited with an image frame acquired in virtual space).
 仮想の撮影装置31Vは、当該箇所から撮影装置で撮影した場合の画角を示すために設置される仮想的なオブジェクトである。なお、本実施形態の仮想の撮影装置31Vは、仮想の表示装置30Vを透過して、当該表示装置30Vを見るアバター51を正面から撮影する画角であるものとする。また、ここで設置される仮想の撮影装置31Vは、実際の撮影装置等の3Dモデルに基づき配置された仮想的な撮影装置であり、実際の撮影は行わない。 The virtual camera 31V is a virtual object that is installed to indicate the angle of view when an image is taken from the location in question using the camera. Note that the virtual camera 31V in this embodiment has an angle of view that is used to photograph the avatar 51 looking at the virtual display device 30V from the front, through the virtual display device 30V. The virtual camera 31V installed here is a virtual camera that is positioned based on a 3D model of an actual camera, etc., and does not actually take pictures.
 ここで、図3を用いて、実空間拠点と仮想空間拠点から参加する仮想空間の一例を説明する。図3は、実施形態に係る仮想空間におけるインタラクションの一例を示す図である。 Here, an example of a virtual space in which a real-space base and a virtual-space base can participate will be described with reference to FIG. 3. FIG. 3 is a diagram showing an example of an interaction in a virtual space according to an embodiment.
 図3上段の仮想空間42では、手前側にアバター51が、奥側に仮想の表示装置30Vが設置されている。仮想空間42には示されていないが仮想の表示装置30Vの奥には仮想の撮影装置が設置されており、当該撮影装置により撮影された仮想空間の画像は、実空間画像フレームと合成されて仮想の表示装置30Vに表示される。そのため、アバター51からみると大きな鏡にコミュニケーション相手(実空間拠点のユーザ等)と自身のアバター51とが合成されているように見える。 In the virtual space 42 in the upper part of Figure 3, an avatar 51 is placed in the foreground, and a virtual display device 30V is placed in the background. Although not shown in the virtual space 42, a virtual camera is placed behind the virtual display device 30V, and an image of the virtual space taken by the camera is composited with a real-space image frame and displayed on the virtual display device 30V. Therefore, when viewed from the avatar 51, it appears as if the communication partner (such as a user at the real-space base) and the user's own avatar 51 are composited in a large mirror.
 図3中段の仮想空間43では、仮想空間内のアバター51が仮想物体を持っている様子が示されている。例えば、図3中段の仮想空間43では、アバター51が実空間拠点の本52に基づき生成された仮想物体である本52を持っている様子が示されている。このように、仮想空間表示システム1は、実空間拠点の物体(本52)を、仮想空間における仮想物体(本52)に置き換えてインタラクションを実現する。 In virtual space 43 in the middle of Figure 3, avatar 51 in the virtual space is shown holding a virtual object. For example, in virtual space 43 in the middle of Figure 3, avatar 51 is shown holding book 52, which is a virtual object generated based on book 52 at a real-space base. In this way, virtual space display system 1 realizes interaction by replacing an object at the real-space base (book 52) with a virtual object in the virtual space (book 52).
 さらに、図3下段の仮想空間44では、実空間拠点と仮想空間拠点とが表示画像に重畳されている。そして、仮想空間44には、仮想空間を介して実空間拠点のユーザ20Rが仮想空間拠点のアバター51の持つハンバーガ53に触るという「干渉」を行っている様子が示されている。この時、仮想物体であるハンバーガ53は、アバター51による把持や移動、または実空間拠点のユーザ20Rによる干渉に基づいた移動や変形、CG(Computer Graphics)等による特殊映像効果の付与等ができるように設定されてよい。 Furthermore, in virtual space 44 in the lower part of Fig. 3, the real-space base and the virtual-space base are superimposed on the display image. The virtual space 44 shows a state in which user 20R at the real-space base is "interfering" with hamburger 53 held by avatar 51 at the virtual-space base through the virtual space. At this time, hamburger 53, which is a virtual object, may be set so that it can be grasped or moved by avatar 51, or moved or deformed based on interference by user 20R at the real-space base, or special visual effects can be added using CG (Computer Graphics), etc.
 このようにして、仮想空間表示システム1は、実空間拠点のユーザと仮想空間拠点のユーザとに、仮想空間を介したコミュニケーションやインタラクションを提供する。 In this way, the virtual space display system 1 provides communication and interaction between users at real space bases and users at virtual space bases via the virtual space.
 次に、図4を用いて本実施形態における仮想空間表示システム1の処理の一連の流れについて説明する。図4は、実施形態に係る仮想空間表示システム1の機能ブロックの一例を示す図である。なお、図4で示される各機能部は、後述の図5に示される機能部と同様の機能を有している。したがって、各機能部の機能の詳細な説明は後述することとし、本項目では処理の概要のみ言及する。 Next, a series of processing steps of the virtual space display system 1 according to this embodiment will be described with reference to FIG. 4. FIG. 4 is a diagram showing an example of functional blocks of the virtual space display system 1 according to this embodiment. Note that each functional unit shown in FIG. 4 has the same function as the functional unit shown in FIG. 5, which will be described later. Therefore, a detailed explanation of the functions of each functional unit will be given later, and this section will only provide an overview of the processing.
 図4において、実空間拠点10Rにおける端末装置100は、仮想空間拠点10Vにおける情報処理装置200と所定のネットワークNで接続されている。言い換えると、図4で示されたネットワークNより上部は実空間拠点10Rで、ネットワークNより下部は仮想空間拠点10Vである。 In FIG. 4, the terminal device 100 at the real world base 10R is connected to the information processing device 200 at the virtual world base 10V via a specific network N. In other words, the area above the network N shown in FIG. 4 is the real world base 10R, and the area below the network N is the virtual world base 10V.
 まず、撮影装置31Rは、実空間拠点10Rにおけるユーザを撮影し、得られた映像のフレームレートに基づく画像フレームを端末装置100に出力する(図4の(S1))。算出部131は、出力された画像フレームから人物領域と物体領域を算出する。なお、算出部131は、指定領域を算出してもよい。 First, the image capturing device 31R captures an image of a user at the real-space base 10R, and outputs image frames based on the frame rate of the captured image to the terminal device 100 ((S1) in FIG. 4). The calculation unit 131 calculates the person area and object area from the output image frames. The calculation unit 131 may also calculate a designated area.
 設定部132は、画像フレームに対して所定のアルファ値を設定する。送信部133は、ネットワークNを介して、アルファ値が設定された画像フレーム(以降、アルファ値が設定された画像フレームを「実空間画像フレーム」と表記)、人物領域、物体領域、指定領域を情報処理装置200に送信する(図4の(S2))。 The setting unit 132 sets a predetermined alpha value for the image frame. The transmission unit 133 transmits the image frame for which the alpha value has been set (hereinafter, an image frame for which an alpha value has been set is referred to as a "real-space image frame"), the person region, the object region, and the designated region to the information processing device 200 via the network N ((S2) in FIG. 4).
 情報処理装置200の受信部231は、端末装置100の送信部133により送信された実空間画像フレーム、人物領域、物体領域、指定領域を受信する(図4の(S3))。更新部232は、受信部231により受信された実空間画像フレーム、人物領域、物体領域、指定領域に基づいて(図4の(S4))、仮想空間内に設置された仮想の表示装置に表示されている映像を更新する。 The receiving unit 231 of the information processing device 200 receives the real-space image frame, person area, object area, and designated area transmitted by the transmitting unit 133 of the terminal device 100 (S3 in FIG. 4). The updating unit 232 updates the image displayed on the virtual display device installed in the virtual space based on the real-space image frame, person area, object area, and designated area received by the receiving unit 231 (S4 in FIG. 4).
 情報処理装置200の判定部233は、受信部231により受信された画像フレームおよび物体領域について(図4の(S5))、既存の物体領域(例えば、過去の画像フレームに含まれていた物体領域等)か否かを判定する。ここで、当該物体領域が新規の物体領域の場合、第1生成部2341は、当該物体領域が対象とする物体の形状や模様を模した仮想物体を生成する。次に、第1調整部2351は、アバターの一部(例えば、顔や手等)またはボーン(仮想空間において仮想オブジェクトに設定され衝突判定等を与える仮想的な骨格であり、以降は「ボーン」と表記)と仮想物体とが干渉した、あるいはユーザがコントローラを介して仮想物体に何らかのアクションを行ったと判定された場合、仮想物体の移動、または変形する等の調整を行う。 The determination unit 233 of the information processing device 200 determines whether the image frame and object area received by the receiving unit 231 ((S5) in FIG. 4) are an existing object area (e.g., an object area included in a past image frame, etc.). If the object area is a new object area, the first generation unit 2341 generates a virtual object that imitates the shape or pattern of the object that the object area targets. Next, if it is determined that a part of the avatar (e.g., a face or hand) or a bone (a virtual skeleton that is set in a virtual object in a virtual space and provides collision detection, etc.; hereafter referred to as "bone") has interfered with the virtual object, or the user has performed some action on the virtual object via the controller, the first adjustment unit 2351 adjusts the virtual object by moving or transforming it.
 情報処理装置200の第2生成部2342は、受信部231により受信された画像フレームおよび人物領域を用いて(図4の(S6))、人物領域の位置、大きさ、形状等の情報に基づきボーンを生成する。次に、第2調整部2352は、ボーンがその他のユーザのアバターに対して干渉した、あるいはユーザがコントローラを介して何らかのアクションを行ったと判定された場合、対象のアバターの移動、または変形する等の調整を行う。また、第2調整部2352は、姿勢取得センサ32aや姿勢取得装置33により取得された姿勢に対応する位置や傾きに関する情報を用いて(図4の(S7))、アバターの立ち位置や、顔、手の位置、傾きを調整する。 The second generation unit 2342 of the information processing device 200 uses the image frame and person area received by the receiving unit 231 ((S6) in FIG. 4) to generate bones based on information such as the position, size, and shape of the person area. Next, if the second adjustment unit 2352 determines that the bones have interfered with another user's avatar or that the user has performed some action via the controller, it performs adjustments such as moving or deforming the target avatar. In addition, the second adjustment unit 2352 uses information regarding the position and tilt corresponding to the posture acquired by the posture acquisition sensor 32a or posture acquisition device 33 ((S7) in FIG. 4) to adjust the avatar's standing position and the position and tilt of the face and hands.
 情報処理装置200の算出部236は、仮想の撮影装置の位置から見たアバターを中心とした画角で撮影された仮想空間画像フレームを用いて、当該仮想空間画像フレームからアバター領域と仮想物体領域とを算出する。送信部237は、ネットワークNを介して、仮想空間画像フレームと、アバター領域と、仮想物体領域とを端末装置100に送信する(図4の(S8))。 The calculation unit 236 of the information processing device 200 uses a virtual space image frame captured with an angle of view centered on the avatar as viewed from the position of the virtual imaging device to calculate the avatar area and the virtual object area from the virtual space image frame. The transmission unit 237 transmits the virtual space image frame, the avatar area, and the virtual object area to the terminal device 100 via the network N (S8 in FIG. 4).
 端末装置100の受信部134は、情報処理装置200の送信部237により送信された仮想空間画像フレームと、アバター領域と、仮想物体領域とを受信する(図4の(S9))。合成部135は、設定部132により設定された実空間画像フレーム(図4の(S10))と、受信部134により受信された仮想空間画像フレーム(図4の(S11))とを用いて、表示装置30Rに表示するための表示画像を合成する。次に、出力部136は、合成部135により合成された表示画像を表示装置30Rに出力する(図4の(S12))。 The receiving unit 134 of the terminal device 100 receives the virtual space image frame, the avatar area, and the virtual object area transmitted by the transmitting unit 237 of the information processing device 200 (S9 in FIG. 4). The synthesis unit 135 synthesizes a display image to be displayed on the display device 30R using the real space image frame set by the setting unit 132 (S10 in FIG. 4) and the virtual space image frame received by the receiving unit 134 (S11 in FIG. 4). Next, the output unit 136 outputs the display image synthesized by the synthesis unit 135 to the display device 30R (S12 in FIG. 4).
 他方で、情報処理装置200の描画部238は、仮想空間に没入するユーザのアバターの視線位置からみた仮想空間の状況を描画する。出力部239は、描画部238により描画された仮想空間の状況(図4の(S13))を、HMD32に出力する(図4の(S14))。さらに、出力部239は、触覚出力装置33aにアバターや仮想物体の接触等により発生した干渉を、振動等の触覚情報として出力する(図4の(S15))。 Meanwhile, the drawing unit 238 of the information processing device 200 draws the situation of the virtual space as seen from the gaze position of the avatar of the user immersed in the virtual space. The output unit 239 outputs the situation of the virtual space drawn by the drawing unit 238 ((S13) in FIG. 4) to the HMD 32 ((S14) in FIG. 4). Furthermore, the output unit 239 outputs interference caused by contact with the avatar or virtual object, etc., to the haptic output device 33a as haptic information such as vibrations ((S15) in FIG. 4).
〔2.システムおよび装置の構成〕
 ここから、本実施形態に係る仮想空間表示システム1について説明する。図5は、実施形態に係る仮想空間表示システム1の装置構成の一例を示す図である。
2. System and Device Configuration
From here, a description will be given of the virtual space display system 1 according to the present embodiment. Fig. 5 is a diagram showing an example of the device configuration of the virtual space display system 1 according to the embodiment.
〔2-1.仮想空間表示システムの構成〕
 図5に示すように、仮想空間表示システム1は、仮想空間を表示する仮想空間表示システムであって、端末装置100と情報処理装置200とを有する。また、仮想空間表示システム1は、端末装置100と情報処理装置200とが所定のネットワークNを介して接続された構成を有する。
2-1. Configuration of the virtual space display system
5, the virtual space display system 1 is a virtual space display system that displays a virtual space, and includes a terminal device 100 and an information processing device 200. The virtual space display system 1 has a configuration in which the terminal device 100 and the information processing device 200 are connected via a predetermined network N.
〔2-2.端末装置の構成〕
 次に、本実施形態に係る仮想空間表示システム1に含まれる端末装置100の構成例について説明する。図5に示す通り、端末装置100は、通信部110と、記憶部120と、制御部130とを有する。
2-2. Configuration of terminal device
Next, a configuration example of the terminal device 100 included in the virtual space display system 1 according to this embodiment will be described. As shown in FIG.
(通信部110)
 通信部110は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネット等の電気通信回線を介して通信を制御する。そして、通信部110は、必要に応じてネットワークNと有線または無線で接続され、双方向に情報の送受信を行うことができる。
(Communication unit 110)
The communication unit 110 is realized by a NIC (Network Interface Card) or the like, and controls communication via an electric communication line such as a LAN (Local Area Network) or the Internet. The communication unit 110 is connected to a network N by wire or wirelessly as necessary, and can transmit and receive information in both directions.
 なお、本実施形態においては、端末装置100と情報処理装置200との通信は、通信部110を介して実施される前提とする。また、その他の機器(例えば、表示装置30R、撮影装置31R等)との通信も、通信部110を介して実施される前提とする。 In this embodiment, it is assumed that communication between the terminal device 100 and the information processing device 200 is performed via the communication unit 110. It is also assumed that communication with other devices (e.g., the display device 30R, the image capture device 31R, etc.) is performed via the communication unit 110.
(記憶部120)
 記憶部120は、制御部130による各種処理に必要なデータおよびプログラムを格納する。そして、記憶部120は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置等で実現する。また、図5に示す通り、記憶部120は、画像フレーム記憶部121と、領域情報記憶部122と、合成画像記憶部123とを有する。
(Memory unit 120)
The storage unit 120 stores data and programs necessary for various processes by the control unit 130. The storage unit 120 is realized by a semiconductor memory element such as a random access memory (RAM) or a flash memory, or a storage device such as a hard disk or an optical disk. As shown in FIG. 5 , the storage unit 120 has an image frame storage unit 121, a region information storage unit 122, and a composite image storage unit 123.
(画像フレーム記憶部121)
 画像フレーム記憶部121は、撮影装置31Rにより撮影された映像に基づき出力された実空間拠点における画像フレームを記憶する。さらに、画像フレーム記憶部121は、設定部132によりアルファ値の和が設定された実空間画像フレームを記憶する。
(Image frame storage unit 121)
The image frame storage unit 121 stores image frames at a real-space base that are output based on video captured by the imaging device 31 R. Furthermore, the image frame storage unit 121 stores real-space image frames in which the sum of alpha values is set by the setting unit 132.
 また、画像フレーム記憶部121は、後述の情報処理装置200の送信部237により送信された仮想空間画像フレームを記憶する。なお、画像フレーム記憶部121は、画像フレームの範疇であれば、前述した情報以外にも限定せずに記憶することができる。 The image frame storage unit 121 also stores virtual space image frames transmitted by a transmission unit 237 of the information processing device 200, which will be described later. Note that the image frame storage unit 121 can store information other than the above-mentioned information, without being limited thereto, as long as it is within the category of image frames.
(領域情報記憶部122)
 領域情報記憶部122は、人物領域122aと、物体領域122bと、指定領域122cとを記憶する。
(Area information storage unit 122)
The region information storage unit 122 stores a person region 122a, an object region 122b, and a specified region 122c.
 ここで、図6を用いて、人物領域122aと、物体領域122bと、指定領域122cとの概要について説明する。図6は、実施形態に係る領域情報の概要を示す図である。 Here, an overview of the person area 122a, the object area 122b, and the designated area 122c will be described with reference to FIG. 6. FIG. 6 is a diagram showing an overview of area information according to an embodiment.
 図6には、画像フレーム60と、人物領域122aと、物体領域122bと、指定領域122cとが示されている。図6の画像フレーム60は、撮影装置により取得された実空間拠点のユーザおよびその背景情報を含む画像フレームである。また、人物領域122aと物体領域122bとは、人物あるいは物体が白い画素、それ以外が黒い画素で示されている2値画像である。また、指定領域122cは、任意に設定された領域で、指定箇所が白い画素、それ以外が黒い画素で示されている2値画像である。 In FIG. 6, an image frame 60, a person area 122a, an object area 122b, and a designated area 122c are shown. The image frame 60 in FIG. 6 is an image frame that includes a user of a real-space base and their background information, acquired by a photographing device. The person area 122a and the object area 122b are binary images in which people or objects are represented by white pixels and the rest are represented by black pixels. The designated area 122c is an arbitrarily set area, and is a binary image in which the designated location is represented by white pixels and the rest are represented by black pixels.
(人物領域122a)
 人物領域122aは、所定の方法により人物領域として認識された画像フレームに含まれる「人物」の特徴を有する画素領域に関する情報である。例えば、人物領域122aは、図6の右手に本52をもったユーザ20Rが含まれた画像フレーム60から、後述の算出部131により算出された人物(ユーザ20R)の領域(図6の人物領域122aの白い画素の領域)であってよい。
(Person area 122a)
The person area 122a is information on a pixel area having characteristics of a "person" included in an image frame that is recognized as a person area by a predetermined method. For example, the person area 122a may be an area of a person (user 20R) (an area of white pixels in the person area 122a in FIG. 6 ) calculated by a calculation unit 131 described later from an image frame 60 that includes user 20R holding a book 52 in his right hand in FIG. 6 .
(物体領域122b)
 物体領域122bは、所定の方法により物体領域として認識された画像フレームに含まれる「物体」の特徴を有する画素領域に関する情報である。例えば、物体領域122bは、図6の右手に本52をもったユーザ20Rが含まれた画像フレーム60から、後述の算出部131により算出された物体(本52)の領域(図6の物体領域122bの白い画素の領域)であってよい。
(Object region 122b)
The object region 122b is information on a pixel region having characteristics of an "object" included in an image frame that is recognized as an object region by a predetermined method. For example, the object region 122b may be a region of an object (book 52) (a region of white pixels in the object region 122b in FIG. 6) calculated by a calculation unit 131 described later from an image frame 60 that includes a user 20R holding a book 52 in his right hand in FIG. 6.
(指定領域122c)
 指定領域122cは、ユーザ等の操作により画像フレーム内で任意に指定された画素領域に関する情報である。なお、ここでいう指定領域はユーザの入力操作や、あるいは2値画像の入力によって設定されてよい。例えば、指定領域122cは、図6の右手に本52をもった実空間拠点10Rのユーザ20Rが含まれた画像フレーム60の中で指定された領域54から、後述の算出部131により算出された領域(図6の指定領域122cの白い画素の領域)であってよい。
(Designated area 122c)
The designated area 122c is information on a pixel area arbitrarily designated in an image frame by an operation of a user or the like. The designated area may be set by an input operation of the user or by input of a binary image. For example, the designated area 122c may be an area (the area of white pixels of the designated area 122c in FIG. 6) calculated by a calculation unit 131 described later from an area 54 designated in an image frame 60 including a user 20R of a real-space base 10R holding a book 52 in his right hand in FIG. 6.
(合成画像記憶部123)
 ここで、図5に戻り説明を続ける。合成画像記憶部123は、後述の合成部135により合成された表示画像を記憶する。
(Synthetic Image Storage Unit 123)
Returning now to Fig. 5, the description will be continued. The composite image storage unit 123 stores a display image composited by a composite unit 135, which will be described later.
(制御部130)
 制御部130は、各種の処理手順等を規定したプログラムや処理データを一時的に格納するための内部メモリを有し、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等の電子回路、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路によって実現される。また、図5に示す通り、制御部130は、算出部131と、設定部132と、送信部133と、受信部134と、合成部135と、出力部136とを有する。
(Control unit 130)
The control unit 130 has an internal memory for temporarily storing programs that define various processing procedures and the like and processing data, and is realized by electronic circuits such as a CPU (Central Processing Unit) and an MPU (Micro Processing Unit), and integrated circuits such as an ASIC (Application Specific Integrated Circuit) and an FPGA (Field Programmable Gate Array). As shown in FIG. 5, the control unit 130 has a calculation unit 131, a setting unit 132, a transmission unit 133, a reception unit 134, a synthesis unit 135, and an output unit 136.
(算出部131)
 算出部131は、撮影装置から出力された画像フレームを用いて、画像フレームの中で人物として認識された人物領域122aと、物体として認識された物体領域122bと、所定の領域を指定された指定領域122cとの少なくともいずれか1つを算出する。例えば、算出部131は、前述の領域情報の算出に深層学習を用いた任意背景リアルタイム被写体抽出、背景分離、人物認識、あるいは深度カメラによる深度情報による分割、特徴量の照合による物体検出といった手法を用いることができる。
(Calculation Unit 131)
The calculation unit 131 uses an image frame output from the imaging device to calculate at least one of a person region 122a recognized as a person in the image frame, an object region 122b recognized as an object, and a designated region 122c in which a predetermined region is designated. For example, the calculation unit 131 can use a method such as real-time subject extraction from any background using deep learning, background separation, person recognition, or segmentation based on depth information from a depth camera, or object detection by matching feature amounts, in calculating the above-mentioned region information.
 例えば、算出部131は、図6の画像フレーム60から、人物領域122aとして、人物と認識された領域(図6の人物領域122aの白い画素の領域)を算出できる。 For example, the calculation unit 131 can calculate an area recognized as a person (the area of white pixels in the person area 122a in FIG. 6) from the image frame 60 in FIG. 6 as the person area 122a.
 例えば、算出部131は、図6の画像フレーム60から物体領域122bとして、本52と認識された領域(図6の物体領域122bの白い画素の領域)を算出できる。なお、算出部131は、物体領域122bとして映像中の全ての物体を検出するのではなく、ユーザ20Rが手に持っていたり、特定の領域に設置したり、特定の条件に適合した物体を検出できる。 For example, the calculation unit 131 can calculate the area recognized as book 52 (the area of white pixels in object area 122b in FIG. 6) as object area 122b from image frame 60 in FIG. 6. Note that the calculation unit 131 does not detect all objects in the video as object area 122b, but can detect objects that meet specific conditions, such as those held by user 20R in his/her hand or placed in a specific area.
 例えば、算出部131は、予め設定された算出条件に従い前述した方法に基づいて、指定領域122cを算出してもよい。例えば、算出部131は、指定領域122cとして、図6の画像フレーム60に含まれる左側の領域については算出対象外として、背景部屋の中央付近から右側の指定された指定された領域54に該当する領域(図6の指定領域122cの白い画素の領域)を算出できる。なお、指定領域122cは、算出部131により算出されてもよいし、ユーザ等により指定されてもよい。 For example, the calculation unit 131 may calculate the designated area 122c based on the above-mentioned method in accordance with preset calculation conditions. For example, the calculation unit 131 may calculate the designated area 122c as the area corresponding to the designated area 54 designated from near the center of the background room to the right side (the area of white pixels in the designated area 122c in FIG. 6), excluding the left side area included in the image frame 60 in FIG. 6 from the calculation target. Note that the designated area 122c may be calculated by the calculation unit 131, or may be specified by a user, etc.
 また、算出部131は、前述した方法以外にも、人物領域122aと物体領域122b、および指定領域122cを算出できる方法を限定無く用いてよい。 In addition, the calculation unit 131 may use any method other than the above-mentioned method for calculating the person area 122a, the object area 122b, and the designated area 122c, without any limitations.
(設定部132)
 ここで、図5に戻り説明を続ける。設定部132は、人物領域122aと、物体領域122bと、指定領域122cとの少なくともいずれか1つを用いて画像フレームに所定のアルファ値を設定する。言い換えると、設定部132は、画像フレームのアルファ値に人物領域122aと、物体領域122bと、指定領域122cとの和を設定する。
(Setting Unit 132)
5, the description will be continued. The setting unit 132 sets a predetermined alpha value for the image frame using at least one of the person region 122a, the object region 122b, and the designated region 122c. In other words, the setting unit 132 sets the alpha value of the image frame to the sum of the person region 122a, the object region 122b, and the designated region 122c.
 具体的には、設定部132は、画像フレームのいずれかの画素に着目したとき、同一の座標において人物領域122aと、物体領域122bと、指定領域122cとのいずれかの画素が白であったとき、該当の画素が残るように設定する。逆に、設定部132は、同座標において人物領域122aと、物体領域122bと、指定領域122cとの全ての画素が黒であったとき、該当の画素が透過されるように設定する。 Specifically, when focusing on any pixel in the image frame, if any pixel in person area 122a, object area 122b, or designated area 122c at the same coordinates is white, setting unit 132 sets the relevant pixel to remain. Conversely, if all pixels in person area 122a, object area 122b, and designated area 122c at the same coordinates are black, setting unit 132 sets the relevant pixel to be transparent.
 ここで、図7を用いてアルファ値の和の設定について更に説明を行う。図7は、実施形態に係る画像フレームへのアルファ値の和の設定の概要を示す図である。 Here, the setting of the sum of the alpha values will be further explained using FIG. 7. FIG. 7 is a diagram showing an overview of the setting of the sum of the alpha values for an image frame according to an embodiment.
 まず、前提として、アルファ値が0から255の範囲をとるとき、各領域を示す画像のうち、黒い画素が「0」、白い画素が「255」である。その他に、アルファ値が0.0から1.0の範囲をとる場合、各領域を示す画像のうち、黒い画素が「0.0」、白い画素が「1.0」である。 First, as a premise, when the alpha value ranges from 0 to 255, in the images showing each area, black pixels are "0" and white pixels are "255". Additionally, when the alpha value ranges from 0.0 to 1.0, in the images showing each area, black pixels are "0.0" and white pixels are "1.0".
 そして、設定部132は、アルファ値が0から255の範囲をとる場合、前述の「和を設定する処理」として、「0+0=0」、「0+255=255」、「255+255=255」という値を算出する。前述の処理は、残したい画素(例えば、アルファ255、白い画素)を合算する(あるいはまとめて扱う)ことを意味する。この場合、前述した通り、黒い画素については「0+0=0」で黒い画素のままである。他方、白い画素については、「0+255=255」で黒い画素が白い画素に置き換えられる。なお、白い画素の領域については、「255+255=255」で白い画素のままである。 When the alpha value ranges from 0 to 255, the setting unit 132 calculates the values "0+0=0", "0+255=255", and "255+255=255" as the "process of setting the sum" described above. The process described above means adding up (or treating together) pixels that you want to keep (for example, alpha 255, white pixels). In this case, as described above, black pixels remain black because "0+0=0". On the other hand, white pixels are replaced with white pixels because "0+255=255". Note that in the area of white pixels, they remain white because "255+255=255".
 具体例として、図7上段の人物領域122aと物体領域122bとを合算するケースで説明を行う。例えば、設定部132は、図7の上部に示された人物領域122aと物体領域122bとのアルファ値の和を設定し、人物領域+物体領域122abを設定する。他方、設定部132は、図7の上部に示された物体領域122bと指定領域122cとのアルファ値の和を設定し、物体領域+指定領域122bcを設定する。 As a specific example, a case in which person area 122a and object area 122b in the upper part of Fig. 7 are added together will be described. For example, setting unit 132 sets the sum of the alpha values of person area 122a and object area 122b shown in the upper part of Fig. 7, and sets person area + object area 122ab. On the other hand, setting unit 132 sets the sum of the alpha values of object area 122b and designated area 122c shown in the upper part of Fig. 7, and sets object area + designated area 122bc.
 さらに、設定部132は、図7の中段に示された人物領域+物体領域122abと物体領域+指定領域122bcとの和を設定し、人物領域+物体領域+指定領域122abcを設定する。なお、前述してきたアルファ値の合算の順番は、特に限定されず適宜入れ替えて実施されてよい。 Furthermore, the setting unit 132 sets the sum of the person area + object area 122ab and the object area + designated area 122bc shown in the middle of FIG. 7, and sets the person area + object area + designated area 122abc. Note that the order of the summation of the alpha values described above is not particularly limited and may be changed as appropriate.
 設定部132は、画像フレーム60に人物領域+物体領域+指定領域122abcを適用して、アルファ値の和が設定された実空間画像フレーム60Rを設定する。 The setting unit 132 applies the person area + object area + designated area 122abc to the image frame 60, and sets the real space image frame 60R in which the sum of the alpha values is set.
 このようにして、設定部132は、人物領域122aと、物体領域122bと、指定領域122cとの「白い画素」と「黒い画素」の領域を重ね合わせて、画像フレーム60からアルファ値の和が設定された実空間画像フレーム60Rを算出する。そのため、図7下部に示された実空間画像フレーム60Rは、設定部132によりアルファ値が設定された画像フレームであり、背景の左側は透過されていることを示す黒い画素で描写されている。 In this way, the setting unit 132 superimposes the "white pixels" and "black pixels" areas of the person area 122a, object area 122b, and designated area 122c to calculate a real-space image frame 60R in which the sum of the alpha values is set from the image frame 60. Therefore, the real-space image frame 60R shown in the lower part of Figure 7 is an image frame in which an alpha value is set by the setting unit 132, and the left side of the background is depicted with black pixels indicating that it is transparent.
(送信部133)
 ここで、再び図5に戻り説明を続ける。送信部133は、所定のアルファ値が設定された実空間画像フレームと、人物領域122aと、物体領域122bとを情報処理装置200に送信する。なお、送信部133は、指定領域122cを含めて送信してもよいし、アルファ値が設定されていない画像フレーム、人物領域122a、物体領域122b、指定領域122cを送信してもよい。また、送信部133は、撮影装置31Rにより取得された音声情報についても送信してよい。
(Transmitting unit 133)
5 again. The transmitting unit 133 transmits the real space image frame in which a predetermined alpha value is set, the person area 122a, and the object area 122b to the information processing device 200. The transmitting unit 133 may transmit the designated area 122c as well, or may transmit the image frame in which no alpha value is set, the person area 122a, the object area 122b, and the designated area 122c. The transmitting unit 133 may also transmit audio information acquired by the image capturing device 31R.
(受信部134)
 受信部134は、情報処理装置200の算出部236により算出された仮想空間画像フレーム、アバター領域222a、仮想物体領域222bを受信する。なお、前述した仮想空間画像フレーム、アバター領域222a、仮想物体領域222bは、設定部132によるアルファ値の和の設定の処理が、情報処理装置200の算出部236により同様に実施されていてよい。
(Receiving unit 134)
The receiving unit 134 receives the virtual space image frame, the avatar area 222a, and the virtual object area 222b calculated by the calculation unit 236 of the information processing device 200. Note that, for the above-mentioned virtual space image frame, the avatar area 222a, and the virtual object area 222b, the process of setting the sum of alpha values by the setting unit 132 may be similarly performed by the calculation unit 236 of the information processing device 200.
(合成部135)
 合成部135は、アルファ値が設定された画像フレームである実空間画像フレームと、情報処理装置200から受信した仮想空間画像フレームとに基づき、表示画像を合成する。ここで、図8を用いて、合成部135による表示画像の合成についての一例を説明する。図8は、実施形態に係る実空間画像フレームと仮想空間画像フレームの合成の一例を示す図である。
(Synthesizing unit 135)
The synthesis unit 135 synthesizes a display image based on a real space image frame, which is an image frame in which an alpha value is set, and a virtual space image frame received from the information processing device 200. Here, an example of the synthesis of a display image by the synthesis unit 135 will be described with reference to Fig. 8. Fig. 8 is a diagram showing an example of the synthesis of a real space image frame and a virtual space image frame according to an embodiment.
 図8では、アルファ値の和が設定された実空間画像フレーム60Rと、同様にアルファ値の和が設定された仮想空間画像フレーム60Vが示されている。ここで、実空間画像フレーム60Rには、人物領域122aと物体領域122bとが設定されている。他方、仮想空間画像フレーム60Vには、実空間画像フレーム60Rの人物領域122aに相当するアバター領域222aと、物体領域122bに相当する仮想物体領域222bとが設定されている。 FIG. 8 shows a real space image frame 60R in which the sum of alpha values is set, and a virtual space image frame 60V in which the sum of alpha values is similarly set. Here, a person area 122a and an object area 122b are set in the real space image frame 60R. On the other hand, an avatar area 222a equivalent to the person area 122a of the real space image frame 60R, and a virtual object area 222b equivalent to the object area 122b are set in the virtual space image frame 60V.
 合成部135は、前述の実空間画像フレーム60Rと仮想空間画像フレーム60Vとを合成して、表示画像70RVを生成する。具体的には、図8下段に示すように、実空間画像フレーム60Rの透過する領域に仮想空間画像フレーム60Vが収まるような表示画像70RVを合成できる。 The synthesis unit 135 synthesizes the real space image frame 60R and the virtual space image frame 60V described above to generate the display image 70RV. Specifically, as shown in the lower part of FIG. 8, the display image 70RV can be synthesized such that the virtual space image frame 60V fits within the transparent area of the real space image frame 60R.
 ここで、図9を使って、更に表示画像の合成(レイヤーの重ね合わせ)について説明を行う。図9は、実施形態に係る実空間画像レイヤーと仮想空間画像フレームとの重ね合わせの概要を示す図である。 Here, we will further explain the composition of displayed images (overlaying of layers) using Figure 9. Figure 9 is a diagram showing an overview of overlaying a real-space image layer and a virtual-space image frame according to an embodiment.
 図9に示すように、合成部135は、各画像のレイヤーを重ねるように合成を行う。なお、画素を透過するアルファ値が設定されている場合、レイヤーの重ね合わせにおいて下部のレイヤーの画素は、下部のレイヤーほど他のレイヤーの画素に隠れやすくなる。逆に、上のレイヤーの画素は、上部のレイヤーほど他のレイヤーに隠れにくく画素が表示されやすい。 As shown in FIG. 9, the compositing unit 135 composites the layers of each image so that they overlap. Note that if an alpha value that makes pixels transparent is set, the pixels of the lower layers are more likely to be hidden by the pixels of other layers when the layers are superimposed. Conversely, the pixels of the upper layers are less likely to be hidden by the pixels of other layers and are more likely to be displayed.
 図9では、合成部135は、実空間画像フレーム60Rと仮想空間画像フレーム60Vを重畳する。さらに、合成部135は、その上に実空間画像フレーム60Rにおける人物領域122aと物体領域122b、仮想空間画像フレーム60Vのアバター領域222aと仮想物体領域222bを重畳する。そして、合成部135は、表示画像70RVを合成する。 In FIG. 9, the synthesis unit 135 superimposes the real space image frame 60R and the virtual space image frame 60V. Furthermore, the synthesis unit 135 superimposes on top of that the person region 122a and the object region 122b in the real space image frame 60R, and the avatar region 222a and the virtual object region 222b in the virtual space image frame 60V. The synthesis unit 135 then synthesizes the display image 70RV.
 なお、この時の各領域は、対応する実空間画像フレーム60Rあるいは仮想空間画像フレーム60Vの画素を転写するものとする。また、合成部135は、実空間画像フレーム60Rにアルファ値を設定しない場合等では、レイヤーに指定領域を加えてもよい。 Note that each area at this time transfers pixels from the corresponding real space image frame 60R or virtual space image frame 60V. Furthermore, the synthesis unit 135 may add a specified area to a layer in cases such as when an alpha value is not set in the real space image frame 60R.
 さらに、図9に示されたレイヤーの順序は、限定されるものではなく任意に変更されてもよい。また、合成部135は、人物領域122aや物体領域122b、あるいはアバター領域222aや仮想物体領域222bに深度情報やカメラからの距離が保持されている場合、それらの深度または距離に応じて自動的にレイヤーの順序を切り替えてもよい。すなわち、撮影装置や仮想の撮影装置に近づくほど他のレイヤーの上に出やすく、逆にカメラや仮想カメラから話すほど他のレイヤーに隠れて表示画像に残りにくくなると言える。 Furthermore, the order of layers shown in FIG. 9 is not limited and may be changed arbitrarily. Furthermore, when depth information or distance from the camera is stored in person area 122a, object area 122b, or avatar area 222a, virtual object area 222b, synthesis unit 135 may automatically switch the order of layers according to the depth or distance. In other words, the closer to the shooting device or virtual shooting device, the more likely it is to appear above other layers, and conversely, the further away it is from the camera or virtual camera, the more likely it is to be hidden by other layers and less likely to remain in the displayed image.
 このようなレイヤー構造により、仮想空間表示システム1は、仮想空間拠点から実空間拠点にオブジェクトを渡す場合に、実空間拠点側に仮想物体が割り込んだとしても仮想物体が手前側(例えば、レイヤーの上側)に表示させることができる。そのため、ユーザは、画面をみながら移動や変形させることができる。 With this layer structure, when passing an object from a virtual space base to a real space base, the virtual space display system 1 can display the virtual object in front (for example, at the top of the layer) even if the virtual object cuts in on the real space base side. This allows the user to move and transform the object while looking at the screen.
(出力部136)
 ここで、再び図5に戻り説明を続ける。出力部136は、合成部135により合成された表示画像を表示装置30Rに出力する。なお、出力部136により出力される情報は、特に限定されない。
(Output unit 136)
5 again, the description will be continued. The output unit 136 outputs the display image synthesized by the synthesis unit 135 to the display device 30R. Note that the information output by the output unit 136 is not particularly limited.
〔2-3.情報処理装置の構成〕
 次に、本実施形態に係る仮想空間表示システム1に含まれる情報処理装置200の構成例について説明する。図5に示す通り、情報処理装置200は、通信部210と、記憶部220と、制御部230とを有する。
2-3. Configuration of information processing device
Next, a configuration example of the information processing device 200 included in the virtual space display system 1 according to this embodiment will be described. As shown in FIG.
(通信部210)
 通信部210は、NIC等で実現され、LANやインターネット等の電気通信回線を介して通信を制御する。そして、通信部210は、必要に応じてネットワークNと有線または無線で接続され、双方向に情報の送受信を行うことができる。
(Communication unit 210)
The communication unit 210 is realized by a NIC or the like, and controls communication via an electric communication line such as a LAN, the Internet, etc. The communication unit 210 is connected to a network N by wire or wirelessly as necessary, and can transmit and receive information in both directions.
 なお、本実施形態においては、情報処理装置200と端末装置100との通信は、通信部210を介して実施される前提とする。また、その他の機器(例えば、HMD32、姿勢取得装置33等)との通信も、通信部210を介して実施される前提とする。 In this embodiment, it is assumed that communication between the information processing device 200 and the terminal device 100 is performed via the communication unit 210. It is also assumed that communication with other devices (e.g., the HMD 32, the posture acquisition device 33, etc.) is performed via the communication unit 210.
(記憶部220)
 記憶部220は、制御部230による各種処理に必要なデータおよびプログラムを格納する。そして、記憶部220は、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置等で実現する。また、図5に示す通り、記憶部220は、画像フレーム記憶部221と、領域情報記憶部222と、生成情報記憶部223と、を有する。
(Memory unit 220)
The storage unit 220 stores data and programs necessary for various processes by the control unit 230. The storage unit 220 is realized by a semiconductor memory element such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk. As shown in FIG. 5 , the storage unit 220 has an image frame storage unit 221, a region information storage unit 222, and a generation information storage unit 223.
(画像フレーム記憶部221)
 画像フレーム記憶部221は、仮想空間におけるアバターを中心とした画角で撮影された画像フレームである仮想空間画像フレームを記憶する。また、画像フレーム記憶部221は、端末装置100から受信した実空間画像フレームを記憶することができる。なお、画像フレーム記憶部221は、画像フレームの範疇であれば、前述した情報以外にも限定せずに記憶できる。
(Image frame storage unit 221)
The image frame storage unit 221 stores virtual space image frames, which are image frames captured with an angle of view centered on an avatar in a virtual space. The image frame storage unit 221 can also store real space image frames received from the terminal device 100. Note that the image frame storage unit 221 can store information other than the above-mentioned information, without being limited thereto, as long as it is within the category of image frames.
(領域情報記憶部222)
 領域情報記憶部222は、仮想空間画像フレームから算出されたアバター領域222aと仮想物体領域222bとを記憶する。また、領域情報記憶部222は、端末装置100より受信した人物領域122aと、物体領域122bと、指定領域122cとを記憶できる。
(Area information storage unit 222)
The region information storage unit 222 stores the avatar region 222a and the virtual object region 222b calculated from the virtual space image frame. The region information storage unit 222 can also store the person region 122a, the object region 122b, and the designated region 122c received from the terminal device 100.
(アバター領域222a)
 アバター領域222aは、所定の方法によりアバター領域として認識された画像フレームに含まれる「アバター」の特徴を有する画素領域に関する情報である。
(Avatar area 222a)
Avatar region 222a is information relating to a pixel region having characteristics of an "avatar" included in an image frame that has been recognized as an avatar region using a predetermined method.
(仮想物体領域222b)
 仮想物体領域222bは、所定の方法により仮想物体領域として認識された画像フレームに含まれる「仮想物体」の特徴を有する画素領域に関する情報である。
(Virtual object area 222b)
The virtual object region 222b is information relating to a pixel region having characteristics of a "virtual object" included in an image frame that has been recognized as a virtual object region by a predetermined method.
(生成情報記憶部223)
 生成情報記憶部223は、第1生成部2341により生成された仮想物体223aと、第2生成部2342により生成されたボーン223bとを記憶する。
(Generation information storage unit 223)
The generation information storage unit 223 stores the virtual object 223 a generated by the first generation unit 2341 and the bones 223 b generated by the second generation unit 2342 .
(仮想物体223a)
 仮想物体223aは、物体領域に該当する画像フレームの画素を取得してテクスチャとし、後述の第1生成部2341により該当物体の形状や模様を模して生成された仮想物体に関する情報である。なお、仮想物体223aは、仮想空間内に設置される仮想オブジェクトであり、以降は同様とする。
(Virtual object 223a)
The virtual object 223a is information about a virtual object that is generated by acquiring pixels of an image frame corresponding to an object region, using them as texture, and imitating the shape and pattern of the corresponding object by a first generating unit 2341 described later. Note that the virtual object 223a is a virtual object placed in a virtual space, and the same will be used hereinafter.
(ボーン223b)
 ボーン223bは、後述の第2生成部2342により実空間の画像フレームを用いて生成されたボーンに関する情報である。なお、ボーン223bは、人物領域122aに設定される仮想オブジェクトであり、以降は同様とする。
(Bone 223b)
The bones 223b are information about bones generated by a second generator 2342 (described later) using image frames in real space. Note that the bones 223b are virtual objects set in the person area 122a, and the same applies hereinafter.
(制御部230)
 制御部230は、各種の処理手順等を規定したプログラムや処理データを一時的に格納するための内部メモリを有し、CPUやMPU等の電子回路、ASICやFPGA等の集積回路によって実現される。
(Control unit 230)
The control unit 230 has an internal memory for temporarily storing programs that define various processing procedures and processing data, and is realized by electronic circuits such as a CPU and an MPU, and integrated circuits such as an ASIC and an FPGA.
 また、図5に示すように、制御部230は、受信部231と、更新部232と、判定部233と、生成部234と、調整部235と、算出部236と、送信部237と、描画部238と、出力部239とを有する。 As shown in FIG. 5, the control unit 230 also includes a receiving unit 231, an updating unit 232, a determining unit 233, a generating unit 234, an adjusting unit 235, a calculating unit 236, a transmitting unit 237, a drawing unit 238, and an output unit 239.
(受信部231)
 受信部231は、端末装置100の送信部133により送信されたアルファ値が設定された実空間画像フレーム、人物領域122a、物体領域122b、指定領域122cを受信する。
(Receiving unit 231)
The receiving unit 231 receives the real space image frame, the person region 122 a, the object region 122 b, and the designated region 122 c, in which an alpha value has been set, transmitted by the transmitting unit 133 of the terminal device 100.
(更新部232)
 更新部232は、端末装置100より受信した実空間画像フレーム、人物領域122a、物体領域122b、指定領域122cに基づいて、仮想空間内に設置された仮想の表示装置に表示された映像を更新する。
(Update unit 232)
The update unit 232 updates the video displayed on a virtual display device installed in the virtual space based on the real space image frame, the person area 122a, the object area 122b, and the specified area 122c received from the terminal device 100.
(判定部233)
 判定部233は、端末装置100より受信した実空間画像フレームおよび物体領域122bについて、既存の物体領域(例えば、過去の画像フレームに含まれていた物体領域等)か否かを判定する。
(Determination unit 233)
The determination unit 233 determines whether or not the real space image frame and object region 122b received from the terminal device 100 are an existing object region (for example, an object region that was included in a past image frame).
 なお、判定部233は、物体領域122bの新規または既存の判定について、画像特徴量を利用してもよい。例えば、判定部233は、画像フレームの物体領域122bに該当する画素から特徴量を算出し、予め制作された複数の仮想物体から所定の仮想物体223aを照合する。そして、判定部233は、いずれかの予め制作された仮想物体223aと特徴量が所定の条件を満たす場合には、類似していると判定できる。 The determination unit 233 may use image features for determining whether the object region 122b is new or existing. For example, the determination unit 233 calculates features from pixels corresponding to the object region 122b in the image frame, and compares a predetermined virtual object 223a from a plurality of virtual objects created in advance. Then, the determination unit 233 can determine that there is similarity when the features satisfy a predetermined condition with any of the previously created virtual objects 223a.
(生成部234)
 生成部234は、端末装置100から受信した実空間画像フレームと、物体領域122bまたは人物領域122aとを用いて、仮想オブジェクトを生成する。具体的には、生成部234は、第1生成部2341と第2生成部2342とを有し、前述した処理をそれぞれ実行する。
(Generation unit 234)
The generation unit 234 generates a virtual object by using the real space image frame received from the terminal device 100 and the object region 122b or the person region 122a. Specifically, the generation unit 234 has a first generation unit 2341 and a second generation unit 2342, which each execute the above-mentioned processing.
(第1生成部2341)
 第1生成部2341(生成部)は、判定部233の判定結果に基づき実空間画像フレームと実空間画像フレームに含まれる物体領域122bに該当する画素領域とを用いて、仮想オブジェクトとして物体領域122bに含まれる物体の形状または模様を模した仮想物体223aを生成する。
(First generation unit 2341)
The first generation unit 2341 (generation unit) generates a virtual object 223a that imitates the shape or pattern of the object included in the object area 122b as a virtual object, using the real-space image frame and a pixel area corresponding to the object area 122b included in the real-space image frame based on the judgment result of the judgment unit 233.
 例えば、第1生成部2341は、判定部233により物体領域122bに含まれる物体が新規のものであると判定された場合、物体領域122bに該当する画像フレームの画素を取得してテクスチャとし、該当物体の形状や模様を模した仮想物体223aを生成して仮想空間上に配置できる。例えば、図8上段左の実空間画像フレーム60Rのように物体領域122bとして本が映っている場合に、直方体のVRオブジェクトを生成してそのテクスチャに画像フレームの物体領域122bに対応する画素を転写する。 For example, when the determination unit 233 determines that an object included in the object region 122b is new, the first generation unit 2341 can obtain pixels of the image frame corresponding to the object region 122b, use them as texture, generate a virtual object 223a that mimics the shape and pattern of the object, and place it in the virtual space. For example, when a book is shown as the object region 122b as in the real-space image frame 60R in the upper left of Figure 8, a rectangular VR object is generated and the pixels corresponding to the object region 122b of the image frame are transferred to the texture.
 なお、第1生成部2341は、仮想物体223aの生成に画像特徴量を利用してもよい。例えば、第1生成部2341は、あらかじめ制作された複数の仮想物体223aについて判定部233により類似していると判定された場合は、予め制作された仮想物体223aを仮想空間上に生成してよい。 The first generating unit 2341 may use image features to generate the virtual object 223a. For example, if the determining unit 233 determines that a plurality of virtual objects 223a created in advance are similar, the first generating unit 2341 may generate the virtual object 223a created in advance in the virtual space.
 また、第1生成部2341は、仮想物体223aの制作を実空間拠点で実施してもよい。この場合、第1生成部2341は、実空間拠点のユーザによりフォトグラメトリといった手法で撮影された制作対象の物体について、3Dモデルを生成して仮想空間拠点に伝送することで、所望の物体を生成してよい。 The first generation unit 2341 may also create the virtual object 223a at the real space base. In this case, the first generation unit 2341 may generate a 3D model of the object to be created that has been photographed by a user at the real space base using a technique such as photogrammetry, and transmit the model to the virtual space base to generate the desired object.
 なお、仮想空間上に仮想物体223aを配置する位置は、表示画像(画像フレームと仮想空間画像フレームを合成した結果)と整合性を持たせてよい。例えば、図8下段の表示画像70RVに示されるように、実空間拠点のユーザが仮想空間側にはみ出すように物体(本)を置いた時だけ仮想物体223aの生成判定を行い、生成した仮想物体223aを仮想空間上の対応する位置(アバターの左手付近)に設置してもよい。 The position at which virtual object 223a is placed in the virtual space may be consistent with the display image (the result of combining the image frame and the virtual space image frame). For example, as shown in display image 70RV in the lower part of Figure 8, a determination as to whether or not to generate virtual object 223a may be made only when a user at a real space base places an object (book) so that it extends into the virtual space, and the generated virtual object 223a may be placed at a corresponding position in the virtual space (near the avatar's left hand).
(第2生成部2342)
 ここで、再び図5に戻り説明を続ける。第2生成部2342(生成部)は、実空間画像フレームと実空間画像フレームに含まれる人物領域122aに該当する画素領域を用いて、仮想オブジェクトとして人物領域122aに含まれる人物の位置と、大きさと、形状の1つまたは複数の組み合わせに基づいて、仮想空間におけるユーザの姿勢を設定するボーン223bを生成する。
(Second generation unit 2342)
Here, the explanation will be continued by returning to Fig. 5. The second generating unit 2342 (generating unit) generates bones 223b that set the posture of the user in the virtual space based on one or more combinations of the position, size, and shape of the person included in the person area 122a as a virtual object, using the real-space image frame and a pixel area corresponding to the person area 122a included in the real-space image frame.
 例えば、第2生成部2342は、受信部231から実空間画像フレームおよび人物領域122aを受け取り、人物領域122aの位置、大きさ、形状からボーン223bを生成できる。 For example, the second generator 2342 can receive the real-space image frame and the person area 122a from the receiver 231, and generate bones 223b from the position, size, and shape of the person area 122a.
 ここで、図10を用いて、ボーン223bの概要について説明する。図10は、実施形態に係るボーン223bの概要を示す図である。本来、仮想空間におけるボーンとはアバターの骨格に相当するものであって、仮想空間のオブジェクトとの衝突判定を得るために本実施例の仮想空間に存在するアバター等にも設定されている。 Here, an overview of bones 223b will be described with reference to FIG. 10. FIG. 10 is a diagram showing an overview of bones 223b according to the embodiment. Originally, bones in a virtual space correspond to the skeleton of an avatar, and are set in avatars that exist in the virtual space of this embodiment in order to perform collision detection with objects in the virtual space.
 他方で、ここでいう第2生成部2342により生成されるボーン223bとは、実空間拠点のユーザが仮に仮想空間にいた場合に、どのような姿勢でいるかを仮想的に設定するものである。そして、本実施形態におけるボーン223bは、通常のボーン同様に仮想空間の仮想オブジェクトとの衝突判定を得る、または実空間拠点のユーザが手を伸ばしたとき仮想空間の仮想オブジェクトに触れるようにするといった目的で生成される。そのため、ボーン223bは、描画、可視化、レンダリング等を実施せず、アバターとしては表現されない。 On the other hand, the bones 223b generated by the second generator 2342 here virtually set the posture that the user at the real-space base would be in if he or she were in the virtual space. In this embodiment, the bones 223b are generated for the purpose of obtaining collision detection with virtual objects in the virtual space, like normal bones, or for allowing the user at the real-space base to touch virtual objects in the virtual space when they reach out their hands. For this reason, the bones 223b are not drawn, visualized, rendered, or the like, and are not represented as avatars.
 図10の上段は、生成されたボーン223bを人物領域122aに重畳して描画した例であり、体の姿勢や手の位置や傾きが反映されている。そして、図10下段の仮想空間45においては、実空間拠点のユーザ20Rにボーン223bを適用することで、仮想空間のアバター51が持つハンバーガ53に干渉することが可能となる。 The top part of Figure 10 shows an example of the generated bones 223b being drawn superimposed on the person area 122a, reflecting the posture of the body and the position and inclination of the hands. In the virtual space 45 in the bottom part of Figure 10, by applying bones 223b to user 20R at the real-space base, it becomes possible to interfere with the hamburger 53 held by avatar 51 in the virtual space.
(調整部235)
 ここで、再び図5に戻り説明を続ける。調整部235は、仮想空間における仮想オブジェクトの所定の位置および形状を調整する。具体的には、調整部235は、第1調整部2351と第2調整部2352とを有し、前述した処理をそれぞれ実行する。
(Adjustment unit 235)
5 again, the description will be continued. The adjustment unit 235 adjusts a predetermined position and shape of a virtual object in a virtual space. Specifically, the adjustment unit 235 has a first adjustment unit 2351 and a second adjustment unit 2352, and each of them executes the above-mentioned processes.
(第1調整部2351)
 第1調整部2351(調整部)は、仮想オブジェクトであるアバターまたはボーン223bの少なくともどちらか一方と仮想物体223aとが仮想空間の中で干渉する場合に、仮想物体223aの位置または形状を調整する。具体的には、第1調整部2351は、アバターまたはボーン223bによる仮想物体223aへの干渉や操作を検出し、それに応じて仮想物体223aの移動や変形させる調整を行う。
(First adjustment unit 2351)
The first adjustment unit 2351 (adjustment unit) adjusts the position or shape of the virtual object 223a when at least one of the avatar and bones 223b, which are virtual objects, interferes with the virtual object 223a in the virtual space. Specifically, the first adjustment unit 2351 detects interference with or operation of the virtual object 223a by the avatar or bones 223b, and performs adjustment to move or deform the virtual object 223a accordingly.
 例えば、第1調整部2351は、図10下段の仮想空間45において、実空間拠点のユーザ20Rが、アバター51が持つハンバーガ53に触れるような挙動をしている。この時、第1調整部2351は、ボーン223bが設定された人物領域の手が仮想物体223aであるハンバーガ53と干渉したと判定して、ボーン223bの手にハンバーガ53が追随するような移動を実行する。 For example, in virtual space 45 in the lower part of Fig. 10, the first adjustment unit 2351 behaves as if user 20R at the real-space base is touching hamburger 53 held by avatar 51. At this time, the first adjustment unit 2351 determines that the hand of the person area to which bone 223b is set has interfered with hamburger 53, which is virtual object 223a, and executes a movement such that hamburger 53 follows the hand of bone 223b.
(第2調整部2352)
 第2調整部2352(調整部)は、仮想オブジェクトであるボーン223bとアバターとが仮想空間の中で干渉する場合に、アバターの位置または形状を調整する。具体的には、第2調整部2352は、ボーン223bとアバターが干渉した、あるいはユーザがコントローラを介してアバターに何らかのアクションを行ったと判定された場合、アバターを移動や変形させる調整を行う。
(Second Adjustment Unit 2352)
The second adjustment unit 2352 (adjustment unit) adjusts the position or shape of the avatar when the bone 223b, which is a virtual object, interferes with the avatar in the virtual space. Specifically, when it is determined that the bone 223b interferes with the avatar or that the user has performed some action on the avatar via the controller, the second adjustment unit 2352 performs adjustment to move or deform the avatar.
 例えば、第2調整部2352は、仮想空間にハンバーガが設置されていれば、実空間拠点のユーザのボーン223bが設定された人物領域122aや仮想空間のアバターはそれを掴んで動かしたり、顔に近づけて食べたりする操作を実行する。その他に、第2調整部2352は、ボーン223bがアバターと干渉したとき、アバターの位置を移動させる他、例えばアバターの頭を撫でたときに髪が揺れたり、服をつまんだりといった操作に基づき調整を行ってよい。 For example, if a hamburger is placed in the virtual space, the second adjustment unit 2352 executes an operation in which the person area 122a in which the bone 223b of the user at the real-space base is set and the avatar in the virtual space grabs it and moves it, or brings it close to the face and eats it. In addition, when the bone 223b interferes with the avatar, the second adjustment unit 2352 may move the position of the avatar, or may perform adjustments based on operations such as swaying the hair when the avatar's head is stroked, or pinching the clothes.
(算出部236)
 ここで再び図5に戻り説明を続ける。算出部236は、仮想空間画像フレームを用いて、当該仮想空間画像フレームからアバター領域222aと仮想物体領域222bとを算出する。
(Calculation unit 236)
Returning to Fig. 5, the description will be continued. The calculation unit 236 uses the virtual space image frame to calculate the avatar area 222a and the virtual object area 222b from the virtual space image frame.
 なお、仮想空間画像フレームは、仮想カメラの位置からみた仮想空間の状況であり、主にアバターを中心とした画角で撮影されているものとする。算出部236は、その仮想空間の仮想カメラ位置から撮影した画像を仮想空間画像フレームとし、アバター領域222aと仮想物体領域222bを計算できる。 The virtual space image frame is the state of the virtual space as seen from the position of the virtual camera, and is assumed to be captured with an angle of view mainly centered on the avatar. The calculation unit 236 can calculate the avatar area 222a and the virtual object area 222b by using the image captured from the virtual camera position in the virtual space as the virtual space image frame.
(送信部237)
 送信部237は、仮想空間画像フレームと、アバター領域222aと、仮想物体領域222bとを実空間拠点の端末装置100に送信する。なお、この時、送信部237により送信される仮想空間画像フレームは、実空間拠点と同様に、アルファ値の和や指定領域が設定されていてよい。
(Transmitting unit 237)
The transmission unit 237 transmits the virtual space image frame, the avatar area 222a, and the virtual object area 222b to the terminal device 100 at the real space base. At this time, the virtual space image frame transmitted by the transmission unit 237 may have the sum of alpha values and a designated area set, similar to the real space base.
(描画部238)
 描画部238は、実空間画像フレームと仮想オブジェクトとを仮想空間に重畳して描画する。具体的には、描画部238は、実空間画像フレームと、仮想オブジェクトであるアバターおよび仮想物体223aの少なくとも一方とを重畳して、仮想空間の中に1つの仮想の表示画面(仮想表示画像)として描画する。言い換えると、描画部238は、図3に示された仮想空間42のように、仮想空間内に実空間拠点の実空間画像フレームと仮想空間拠点の仮想空間画像フレームとが重畳して表示された仮想表示画像を描画してよい。
(Drawing unit 238)
The drawing unit 238 draws the real-space image frame and the virtual object by superimposing them on the virtual space. Specifically, the drawing unit 238 superimposes the real-space image frame and at least one of the avatar and the virtual object 223a, which are virtual objects, and draws them as one virtual display screen (virtual display image) in the virtual space. In other words, the drawing unit 238 may draw a virtual display image in which the real-space image frame of the real-space base and the virtual-space image frame of the virtual-space base are superimposed and displayed in the virtual space, as in the virtual space 42 shown in FIG. 3.
 さらに、描画部238は、アバターの視線位置からみた仮想空間について、仮想空間拠点のユーザが見たい位置を中心とした画角で撮影された画像を、その仮想空間のアバター目線一から撮影した画像を仮想表示画像として描画する。 Furthermore, the rendering unit 238 renders, as a virtual display image, an image taken from the avatar's line of sight in the virtual space, with the angle of view centered on the position the user at the virtual space base wishes to see.
(出力部239)
 出力部239は、仮想オブジェクトであるアバターと、仮想物体223aまたはボーン223bの少なくともどちらか一方とが干渉した際に、ユーザに仮想触覚を提示するための仮想触覚に関する情報を出力する。具体的には、出力部239は、触覚出力装置33aに、アバターや仮想物体223aの接触等により発生した干渉を、振動等の触覚情報として出力する。その結果、仮想空間拠点のユーザ20Vは、姿勢取得装置33等に内蔵された触覚出力装置33aを介して、仮想空間内で発生した干渉に基づく振動等の触覚情報を知覚することができる。
(Output unit 239)
The output unit 239 outputs information about virtual touch to present a virtual touch to the user when an avatar, which is a virtual object, interferes with at least one of the virtual object 223a or the bone 223b. Specifically, the output unit 239 outputs the interference caused by contact of the avatar or the virtual object 223a to the haptic output device 33a as haptic information such as vibration. As a result, the user 20V at the virtual space base can perceive haptic information such as vibration based on the interference caused in the virtual space via the haptic output device 33a built in the posture acquisition device 33 or the like.
 また、出力部239は、描画部238により描画された仮想表示画像を、仮想空間拠点のユーザ20Vの装着する表示装置(例えば、HMD等)に出力する。これにより、仮想空間拠点のユーザ20Vは、出力部239により出力された仮想空間のアバター目線一から撮影した画像を仮想表示画像がHMD等に表示されることにより、あたかも自分が仮想空間に入り込んだかのような視野を得ることができる。 The output unit 239 also outputs the virtual display image drawn by the drawing unit 238 to a display device (e.g., an HMD, etc.) worn by the user 20V at the virtual space base. This allows the user 20V at the virtual space base to obtain a field of view as if he or she were inside the virtual space, as the virtual display image is displayed on the HMD, etc., of the image captured from the line of sight of the avatar in the virtual space output by the output unit 239.
 さらに、仮想空間拠点のユーザがハプティクスデバイスを装着しているとき、出力部239は、ボーン223bが触れた位置に応じて振動によってその干渉をユーザにフィードバックしてもよい。 Furthermore, when a user at the virtual space base is wearing a haptic device, the output unit 239 may provide feedback to the user of the interference by vibration depending on the position where the bone 223b is touched.
〔3.変形例〕
 ここから、本実施形態に係る仮想空間表示システム1により実現される変形例について説明する。前述してきた本実施形態に係る仮想空間表示システム1は、仮想空間を介して「実空間拠点」と「仮想空間拠点」とのコミュニケーションやインタラクションを実現する技術を提供する。
3. Modifications
From here, we will explain modified examples realized by the virtual space display system 1 according to this embodiment. The virtual space display system 1 according to the embodiment described above provides a technology for realizing communication and interaction between a "real space base" and a "virtual space base" via a virtual space.
 他方で、仮想空間表示システム1は、変形例として仮想空間を介して「実空間拠点」と「実空間拠点」とのコミュニケーションやインタラクションを実現する技術を提供することもできる。例えば、変形例に係る仮想空間表示システム1は、実空間拠点のフレーム画像同士が重畳された表示画面に、手を伸ばした場合等に相手の画面に割り込むといったインタラクションを提供できる。なお、前述したようにオブジェクトの共有に関しては画面上に仮想的な2D空間を設けることで、インタラクションを実現できる。 On the other hand, as a modified example, the virtual space display system 1 can also provide technology that realizes communication and interaction between "real space bases" and "real space bases" via virtual space. For example, the virtual space display system 1 relating to the modified example can provide an interaction such as interrupting the other person's screen when a hand is extended on a display screen on which frame images of real space bases are superimposed. As mentioned above, with regard to sharing objects, interaction can be realized by creating a virtual 2D space on the screen.
 例えば、仮想空間表示システム1は、左半分をAさん、右半分をBさんの画面として、その上に半透明のテニスコートの俯瞰画面のレイヤーを設置する。そして、AさんとBさんが共に自身が持つ物体(例えば、本やペン等)を使って、ボールを打ち合うといったようなインタラクションを実現することができる。 For example, the left half of the virtual space display system 1 is used as the screen for Person A, and the right half is used as Person B's screen, with a semi-transparent overhead view of a tennis court layer placed on top of it. Then, Person A and Person B can both use objects they are holding (such as a book or pen) to interact with each other, such as hitting the ball.
〔4.処理手順〕
 ここから、本実施形態に係る仮想空間表示システム1による処理の手順について説明する。なお、処理手順は、「端末装置100の処理手順」と「情報処理装置200の処理手順」とに分けられることから、処理手順を示すフローチャートについてもそれぞれ説明する。なお、以下に記載する各ステップは、異なる順序で実行されてもよいし、省略される処理があってもよい。また、「端末装置100の処理手順」と「情報処理装置200の処理手順」は、適宜組み合わせて実施されてよい。
4. Processing Procedure
From here, the processing procedure by the virtual space display system 1 according to this embodiment will be described. Note that since the processing procedure is divided into a "processing procedure of the terminal device 100" and a "processing procedure of the information processing device 200", flowcharts showing the processing procedures will also be described. Note that each step described below may be executed in a different order, and some processing may be omitted. Also, the "processing procedure of the terminal device 100" and the "processing procedure of the information processing device 200" may be implemented in an appropriate combination.
(端末装置100の処理手順)
 まず、図11を用いて、端末装置100の処理手順について説明する。図11は、実施形態に係る端末装置100の処理手順のフローチャートの一例を示す図である。
(Processing Procedure of Terminal Device 100)
First, a processing procedure of the terminal device 100 will be described with reference to Fig. 11. Fig. 11 is a diagram showing an example of a flowchart of a processing procedure of the terminal device 100 according to the embodiment.
 算出部131は、画像フレームから人物領域および物体領域を算出する(工程S101)。なお、算出部131は、必要に応じて指定領域を算出してもよい。 The calculation unit 131 calculates a person area and an object area from an image frame (step S101). The calculation unit 131 may also calculate a designated area as necessary.
 設定部132は、画像フレームに人物領域、物体領域、指定領域のアルファ値の和を設定する(工程S102)。送信部133は、実空間画像フレーム、人物領域、物体領域を送信する(工程S103)。なお、送信部133は、必要に応じて指定領域も含めて送信してもよい。 The setting unit 132 sets the sum of the alpha values of the person area, object area, and specified area in the image frame (step S102). The transmission unit 133 transmits the real-space image frame, the person area, and the object area (step S103). Note that the transmission unit 133 may also transmit the specified area as necessary.
 ここで、情報処理装置200は、受信した実空間画像フレーム、人物領域、物体領域に基づき、所定の処理を実施する(工程S104)。なお、ここでの処理は、図12で後述する情報処理装置200の処理手順「工程S204から工程S214」で詳細に説明するため、省略する。 The information processing device 200 then performs a predetermined process based on the received real-space image frame, person area, and object area (step S104). Note that this process will be omitted here because it will be explained in detail in the processing procedure "steps S204 to S214" of the information processing device 200 described later in FIG. 12.
 受信部134は、情報処理装置200から仮想空間画像フレーム、アバター領域、仮想物体領域を受信する(工程S105)。合成部135は、実空間画像フレームと仮想空間画像フレームとを用いて表示画像を合成する(工程S106)。そして、出力部136は、表示画像を出力し(工程S107)、工程を終了する。 The receiving unit 134 receives the virtual space image frame, the avatar area, and the virtual object area from the information processing device 200 (step S105). The synthesis unit 135 synthesizes the display image using the real space image frame and the virtual space image frame (step S106). Then, the output unit 136 outputs the display image (step S107), and the process ends.
(情報処理装置200の処理手順)
 次に、図12を用いて、情報処理装置200の処理手順について説明する。図12は、実施形態に係る情報処理装置200の処理手順のフローチャートの一例を示す図である。
(Processing procedure of information processing device 200)
Next, a processing procedure of the information processing device 200 will be described with reference to Fig. 12. Fig. 12 is a diagram showing an example of a flowchart of a processing procedure of the information processing device 200 according to the embodiment.
 第2調整部2352は、外部の装置(例えば、姿勢取得センサや姿勢取得装置)から出力された姿勢に関する情報を用いてアバターの姿勢を調整する(工程S201)。ここで、アバターが仮想物体に干渉する場合(工程S202のYes)、第1調整部2351は、仮想物体を移動または変形する等の調整を行う(工程S203)。他方、アバターが仮想物体に干渉しない場合、第2調整部2352は、工程S203の処理をスキップする(工程S202のNo)。 The second adjustment unit 2352 adjusts the posture of the avatar using posture information output from an external device (e.g., a posture acquisition sensor or posture acquisition device) (step S201). If the avatar interferes with the virtual object (Yes in step S202), the first adjustment unit 2351 performs adjustments such as moving or deforming the virtual object (step S203). On the other hand, if the avatar does not interfere with the virtual object, the second adjustment unit 2352 skips the processing of step S203 (No in step S202).
 受信部231は、端末装置100の送信部133により送信された実空間画像フレーム、人物領域、物体領域を受信する(工程S204)。次に、更新部232は、実空間画像フレームを用いて仮想空間の映像を更新する(工程S205)。 The receiving unit 231 receives the real-space image frame, the person area, and the object area transmitted by the transmitting unit 133 of the terminal device 100 (step S204). Next, the updating unit 232 updates the video of the virtual space using the real-space image frame (step S205).
 ここで、判定部233は、物体領域が新規であると判定する(工程S206のYes)。その場合、第2生成部2342は、実空間画像フレームと人物領域からボーンを生成し、人物領域に設定する(工程S207)。さらに、第1生成部2341は、実空間画像フレームと物体領域から仮想物体を生成する(工程S208)。 Here, the determination unit 233 determines that the object region is new (Yes in step S206). In this case, the second generation unit 2342 generates bones from the real-space image frame and the person region, and sets them in the person region (step S207). Furthermore, the first generation unit 2341 generates a virtual object from the real-space image frame and the object region (step S208).
 他方、判定部233は、物体領域が新規でないと判定する場合、工程S207および工程S208の処理をスキップする(工程S206のNo)。 On the other hand, if the determination unit 233 determines that the object region is not new, it skips the processing of steps S207 and S208 (No in step S206).
 ここで、ボーンがアバターに干渉する場合(工程S209のYes)、第2調整部2352は、アバターを移動または変形する等の調整を行う(工程S210)。次に、ボーンが仮想物体に干渉する場合(工程S211のYes)、第1調整部2351は、仮想物体を移動または変形する等の調整を行う(工程S212)。 If the bone interferes with the avatar (Yes in step S209), the second adjustment unit 2352 performs adjustments such as moving or deforming the avatar (step S210). Next, if the bone interferes with a virtual object (Yes in step S211), the first adjustment unit 2351 performs adjustments such as moving or deforming the virtual object (step S212).
 そして、出力部239は、第1調整部2351および第2調整部2352による調整の結果に基づいて、仮想触覚に関する情報を出力する(工程S213)。 Then, the output unit 239 outputs information about the virtual touch based on the results of the adjustments made by the first adjustment unit 2351 and the second adjustment unit 2352 (step S213).
 なお、ボーンがアバターに干渉しない場合(工程S209のNo)、第2調整部2352は、処理を行わず工程S210から工程S213の処理をスキップする。他方、ボーンが仮想物体に干渉しない場合(工程S211のNo)、第1調整部2351は、工程S212の処理を行わずスキップする。 If the bone does not interfere with the avatar (No in step S209), the second adjustment unit 2352 does not perform any processing and skips steps S210 to S213. On the other hand, if the bone does not interfere with the virtual object (No in step S211), the first adjustment unit 2351 does not perform the processing in step S212 and skips it.
 算出部236は、仮想空間画像フレームからアバター領域と仮想物体領域を算出する(工程S214)。次に、送信部237は、仮想空間画像フレームとアバター領域と仮想物体領域を端末装置100に送信する(工程S215)。なお、以降の端末装置100での処理は、図12で説明した内容と同様のため省略する。 The calculation unit 236 calculates the avatar area and the virtual object area from the virtual space image frame (step S214). Next, the transmission unit 237 transmits the virtual space image frame, the avatar area, and the virtual object area to the terminal device 100 (step S215). Note that the subsequent processing in the terminal device 100 is omitted because it is the same as the content described in FIG. 12.
 描画部238は、仮想空間で表示する仮想表示画像を描画する(工程S216)。そして、出力部239は、仮想空間画像を仮想空間拠点のユーザが装着するデバイスに出力し(工程S217)、工程を終了する。 The drawing unit 238 draws a virtual display image to be displayed in the virtual space (step S216). Then, the output unit 239 outputs the virtual space image to a device worn by the user at the virtual space base (step S217), and the process ends.
〔5.効果〕
 従来技術は、撮影された映像を用いて人物の写った領域のみについて被写体を抽出して仮想空間上に貼り付けることで、あたかも仮想空間上のその地点にユーザがいるかのような表現を行う。しかしながら被写体抽出の精度が悪い場合、人物とそれ以外の境界部分において、映像品質の低下が発生して、ユーザ間のコミュニケーションの体験品質を損なう場合があった。
5. Effects
Conventional technology extracts only the areas of people from captured video and pastes them into the virtual space, making it appear as if the user is actually at that point in the virtual space. However, if the accuracy of subject extraction is poor, degradation of image quality occurs at the boundary between people and other areas, which can impair the quality of experience of communication between users.
 また、従来技術では、HMD等を装着せず仮想空間に参加するよう拠点やユーザについて考慮されていない場合があった。例えば、従来技術において、カメラやマイクを使って実空間から映像で仮想空間に参加するユーザは、HMDを用いて仮想空間に没入するユーザや、その仮想空間上の代理となるアバターに対して干渉ができず、高品質のコミュニケーションの提供が難しい場合があった。 In addition, conventional technologies do not always take into consideration locations or users who participate in a virtual space without wearing an HMD or similar device. For example, in conventional technologies, a user who participates in a virtual space via video from the real world using a camera and microphone is unable to interfere with users who are immersed in the virtual space using an HMD, or with avatars that represent them in the virtual space, making it difficult to provide high-quality communication.
 そこで、本実施形態に係る仮想空間表示システム1は、仮想空間を表示する。端末装置100の算出部131は、撮影装置から出力された画像フレームを用いて、画像フレームの中で人物として認識された人物領域と、物体として認識された物体領域と、所定の領域を指定された指定領域との少なくともいずれか1つを算出する。端末装置100の設定部132は、人物領域と、物体領域と、指定領域との少なくともいずれか1つを用いて画像フレームに所定のアルファ値を設定する。端末装置100の合成部135は、アルファ値が設定された画像フレームである実空間画像フレームと、情報処理装置200から受信した仮想空間画像フレームとに基づき、表示画像を合成する。 The virtual space display system 1 according to this embodiment displays a virtual space. The calculation unit 131 of the terminal device 100 uses an image frame output from the imaging device to calculate at least one of a person area recognized as a person in the image frame, an object area recognized as an object, and a designated area in which a predetermined area is designated. The setting unit 132 of the terminal device 100 sets a predetermined alpha value in the image frame using at least one of the person area, object area, and designated area. The synthesis unit 135 of the terminal device 100 synthesizes a display image based on a real space image frame, which is an image frame in which an alpha value has been set, and a virtual space image frame received from the information processing device 200.
 他方、情報処理装置200の生成部234は、端末装置100から受信した実空間画像フレームと、物体領域または人物領域とを用いて、仮想オブジェクトを生成する。情報処理装置200の調整部235は、仮想空間における仮想オブジェクトの所定の位置および形状を調整する。情報処理装置200の描画部238は、実空間画像フレームと仮想オブジェクトとを仮想空間に重畳して描画する、ことを特徴とする。したがって、本実施形態によれば、以下のような効果を奏する。 On the other hand, the generation unit 234 of the information processing device 200 generates a virtual object using the real-space image frame received from the terminal device 100 and the object area or person area. The adjustment unit 235 of the information processing device 200 adjusts a predetermined position and shape of the virtual object in the virtual space. The drawing unit 238 of the information processing device 200 is characterized by drawing the real-space image frame and the virtual object by superimposing them in the virtual space. Therefore, according to this embodiment, the following effects are achieved.
 本実施形態における仮想空間表示システム1は、映像と仮想空間を伴ったコミュニケーションにおいて、実空間拠点と仮想空間拠点を映像上で結合することで、被写体抽出の精度に起因する品質劣化を抑制する。その結果、仮想空間表示システム1は、ユーザが相互の位置関係を理解しやすい仮想空間を表示する、という効果を提供する。 In this embodiment, the virtual space display system 1 suppresses quality degradation caused by the accuracy of subject extraction in communication involving video and virtual space by combining real-space locations and virtual-space locations on the video. As a result, the virtual space display system 1 provides the effect of displaying a virtual space that makes it easy for users to understand the relative positions of each other.
 また、従来技術では、仮想空間上に実空間の映像を配置する場合、被写体を抽出して人物だけを描画し、人物以外の領域を透過する手法が用いられる場合があった。しかしながら、特殊な環境(例えば、クロマキースタジオ等)以外の撮影環境では被写体抽出の精度はあまり高くなく、境界付近のジャギーが目立ったり、照明環境のフリッカーやセンサーノイズに起因するチラつきが生じたりする場合がある。 In addition, in conventional technology, when placing real-world images in a virtual space, a method was sometimes used in which the subject was extracted and only the person was drawn, while the non-person areas were made transparent. However, in shooting environments other than special environments (such as chromakey studios), the accuracy of subject extraction was not very high, and jagged edges near the boundaries could be noticeable, and flickering due to lighting flicker or sensor noise could occur.
 そこで、仮想空間表示システム1は、表示装置上に実空間と仮想空間を合成して表示する。それにより、仮想空間表示システム1は、仮想空間に表示される実空間の画像について、実空間側の背景をそのまま利用することでノイズ等が表出しないようレンダリングできる。なお、実空間拠点のユーザが手を伸ばして仮想空間側に侵入したときだけ被写体抽出の精度が表出するが、影響を受ける領域のサイズを調整することにより映像全体としての品質劣化の抑制を可能とする。 The virtual space display system 1 therefore synthesizes the real space and the virtual space and displays them on a display device. As a result, the virtual space display system 1 can render the real space image displayed in the virtual space without causing noise, by using the real space background as is. Note that the accuracy of the subject extraction is only apparent when a user at the real space base extends their hand and enters the virtual space, but by adjusting the size of the affected area, it is possible to suppress deterioration in the quality of the image as a whole.
 また、従来技術では、実空間拠点と仮想空間拠点を並べて映像に表示する場合、実写映像上へのCG合成等を用いて実施される。例えば、従来技術では、モーションキャプチャやフェイストラッキング等、実空間の映像や深度情報、あるいは顔の特徴点等を参照して、仮想空間のオブジェクトに反映させたり、仮想的な手を構成してオブジェクトを操作したりする技術が知られている。しかしながら、実空間拠点と仮想空間拠点の間での干渉を実現することは難しい場合があった。 Furthermore, in conventional technologies, when real-space bases and virtual-space bases are displayed side-by-side in an image, this is done by using CG synthesis on live-action images. For example, conventional technologies include techniques such as motion capture and face tracking that reference real-space images, depth information, or facial features, and reflect them on objects in virtual space, or construct virtual hands to operate objects. However, it can be difficult to achieve interaction between real-space bases and virtual-space bases.
 さらに、仮想空間表示システム1は、実空間拠点から仮想空間拠点のアバターや仮想物体に干渉可能な仮想物体を生成する等、ユーザの間でのインタラクションを提供することを可能とする、という効果を提供する。 Furthermore, the virtual space display system 1 provides the effect of enabling interaction between users, such as generating virtual objects from a real space base that can interact with avatars and virtual objects at a virtual space base.
 具体的には、本実施形態における仮想空間表示システム1は、実空間拠点の映像から人物領域を取得し、それに対して仮想的なボーンを設定して仮想空間上に実空間拠点のユーザに従う仮想的なアバターを設ける。それにより、仮想空間表示システム1は、実空間の映像と仮想空間の映像を並列に描画し、実空間の映像に含まれる被写体が境界を飛び越えて仮想空間のオブジェクトに干渉することを可能とする、という効果を提供する。 Specifically, the virtual space display system 1 in this embodiment acquires a person area from an image of a real space base, sets virtual bones for it, and provides a virtual avatar in the virtual space that follows the user at the real space base. This allows the virtual space display system 1 to render images of real space and virtual space in parallel, providing the effect of allowing a subject included in the image of real space to jump over the boundary and interfere with an object in the virtual space.
 さらに、本実施形態における仮想空間表示システム1は、コミュニケーションの内容によっては実空間から仮想空間にモノを渡したいといったケースにおいても、質の高いコミュニケーションの提供を可能とする。具体的には、仮想空間表示システム1は、実空間拠点のユーザが渡したい物体をカメラに向け、仮想空間拠点側がそれを認識して同様のオブジェクトを生成することで疑似的に物体を受け渡す、ということを実現する。 Furthermore, the virtual space display system 1 in this embodiment makes it possible to provide high-quality communication even in cases where, depending on the content of the communication, an object needs to be handed over from the real space to the virtual space. Specifically, the virtual space display system 1 allows the user at the real space base to point the object they want to hand over to the camera, and the virtual space base recognizes it and generates a similar object, thus virtually handing over the object.
〔6.ハードウェア構成〕
 図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
6. Hardware Configuration
Each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. In other words, the specific form of distribution and integration of each device is not limited to that shown in the figure, and all or a part of it can be functionally or physically distributed and integrated in any unit according to various loads, usage conditions, etc. Furthermore, all or any part of each processing function performed by each device can be realized by a CPU and a program analyzed and executed by the CPU, or can be realized as hardware using wired logic.
 また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を公知の方法で手動的に行うこともできる。この他、図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 Furthermore, among the various processes described in this embodiment, all or part of the processes described as being performed automatically can also be performed manually using known methods. In addition, the information including the processing procedures, control procedures, specific names, various data, and parameters shown in the drawings can be changed as desired unless otherwise specified.
[プログラム]
 一実施形態として、端末装置100および情報処理装置200を構成する各種の装置は、パッケージソフトウェアやオンラインソフトウェアとして、前述した仮想空間表示プログラムを、所望のコンピュータにインストールさせることによって実装できる。例えば、上記の仮想空間表示プログラムを情報処理装置に実行させることにより、端末装置100および情報処理装置200を構成する各種の装置として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
[program]
In one embodiment, the various devices constituting the terminal device 100 and the information processing device 200 can be implemented by installing the above-mentioned virtual space display program as package software or online software on a desired computer. For example, the above-mentioned virtual space display program can be executed by an information processing device to function as various devices constituting the terminal device 100 and the information processing device 200. The information processing device here includes desktop or notebook personal computers. In addition, the information processing device also includes mobile communication terminals such as smartphones and mobile phones, and slate terminals such as PDAs (Personal Digital Assistants).
 図13は、本実施形態に係る仮想空間表示システム1の構成装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。 FIG. 13 is a diagram showing an example of a computer in which the constituent devices of the virtual space display system 1 according to this embodiment are realized. The computer 1000 has, for example, a memory 1010 and a CPU 1020. The computer 1000 also has a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. Each of these components is connected by a bus 1080.
 メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。 The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012. The ROM 1011 stores a boot program such as a BIOS (Basic Input Output System). The hard disk drive interface 1030 is connected to a hard disk drive 1090. The disk drive interface 1040 is connected to a disk drive 1100. A removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100. The serial port interface 1050 is connected to a mouse 1110 and a keyboard 1120, for example. The video adapter 1060 is connected to a display 1130, for example.
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、端末装置100および情報処理装置200を構成する各種の装置の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、端末装置100および情報処理装置200を構成する各種の装置における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。 The hard disk drive 1090 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, the programs that define the processes of the various devices that make up the terminal device 100 and the information processing device 200 are implemented as program modules 1093 in which computer-executable code is written. The program modules 1093 are stored, for example, in the hard disk drive 1090. For example, the program modules 1093 for executing processes similar to the functional configurations of the various devices that make up the terminal device 100 and the information processing device 200 are stored in the hard disk drive 1090. The hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
 また、前述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、前述した実施形態の処理を実行する。 Furthermore, the setting data used in the processing of the above-mentioned embodiment is stored as program data 1094, for example, in memory 1010 or hard disk drive 1090. Then, the CPU 1020 reads out the program module 1093 or program data 1094 stored in memory 1010 or hard disk drive 1090 into RAM 1012 as necessary, and executes the processing of the above-mentioned embodiment.
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093およびプログラムデータ1094は、ネットワーク(LAN、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093およびプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。 The program module 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program module 1093 and program data 1094 may be stored in another computer connected via a network (such as a LAN or a WAN (Wide Area Network)). The program module 1093 and program data 1094 may then be read by the CPU 1020 from the other computer via the network interface 1070.
〔7.その他〕
 以上、本実施形態について説明したが、本実施形態は、開示の一部をなす記述および図面により限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本実施形態の範疇に含まれる。
[7. Other]
Although the present embodiment has been described above, the present embodiment is not limited by the description and drawings that form a part of the disclosure. In other words, other embodiments, examples, operation techniques, etc. made by those skilled in the art based on the present embodiment are all included in the scope of the present embodiment.
 10R    実空間拠点
 10V    仮想空間拠点
 20R,20V ユーザ
 30R,30V 表示装置
 31R,31V 撮影装置
 32     HMD
 32a    姿勢取得センサ
 33     姿勢取得装置
 33a    触覚出力装置
 40,41,42,43,44,45 仮想空間
 50     グラウンド
 51     アバター
 52     本
 53     ハンバーガ
 54     領域
 60     画像フレーム
 60R    実空間画像フレーム
 60V    仮想空間画像フレーム
 70RV   表示画像
 100    端末装置
 110    通信部
 120    記憶部
 121    画像フレーム記憶部
 122    領域情報記憶部
 122a   人物領域
 122b   物体領域
 122c   指定領域
 122ab  人物領域+物体領域
 122bc  物体領域+指定領域
 122abc 人物領域+物体領域+指定領域
 123    合成画像記憶部
 130    制御部
 131    算出部
 132    設定部
 133    送信部
 134    受信部
 135    合成部
 136    出力部
 200    情報処理装置
 210    通信部
 220    記憶部
 221    画像フレーム記憶部
 222    領域情報記憶部
 222a   アバター領域
 222b   仮想物体領域
 223    生成情報記憶部
 223a   仮想物体
 223b   ボーン
 230    制御部
 231    受信部
 232    更新部
 233    判定部
 234    生成部
 2341   第1生成部
 2342   第2生成部
 235    調整部
 2351   第1調整部
 2352   第2調整部
 236    算出部
 237    送信部
 238    描画部
 239    出力部
 1000   コンピュータ
 1010   メモリ
 1011   ROM
 1012   RAM
 1020   CPU
 1030   ハードディスクドライブインタフェース
 1040   ディスクドライブインタフェース
 1050   シリアルポートインタフェース
 1060   ビデオアダプタ
 1070   ネットワークインタフェース
 1080   バス
 1090   ハードディスクドライブ
 1091   OS
 1092   アプリケーションプログラム
 1093   プログラムモジュール
 1094   プログラムデータ
 1100   ディスクドライブ
 1110   マウス
 1120   キーボード
10R: Real space base 10V: Virtual space base 20R, 20V: User 30R, 30V: Display device 31R, 31V: Image capture device 32: HMD
32a Attitude acquisition sensor 33 Attitude acquisition device 33a Tactile output device 40, 41, 42, 43, 44, 45 Virtual space 50 Ground 51 Avatar 52 Book 53 Hamburger 54 Area 60 Image frame 60R Real space image frame 60V Virtual space image frame 70RV Display image 100 Terminal device 110 Communication unit 120 Storage unit 121 Image frame storage unit 122 Area information storage unit 122a Person area 122b Object area 122c Designated area 122ab Person area + object area 122bc Object area + designated area 122abc Person area + object area + designated area 123 Composite image storage unit 130 Control unit 131 Calculation unit 132 Setting unit 133 Transmission unit 134 Receiving unit 135 Synthesis unit 136 Output unit 200 Information processing device 210 Communication unit 220 Storage unit 221 Image frame storage unit 222 Area information storage unit 222a Avatar area 222b Virtual object area 223 Generation information storage unit 223a Virtual object 223b Bone 230 Control unit 231 Receiving unit 232 Update unit 233 Determination unit 234 Generation unit 2341 First generation unit 2342 Second generation unit 235 Adjustment unit 2351 First adjustment unit 2352 Second adjustment unit 236 Calculation unit 237 Transmission unit 238 Drawing unit 239 Output unit 1000 Computer 1010 Memory 1011 ROM
1012 RAM
1020 CPU
1030 Hard disk drive interface 1040 Disk drive interface 1050 Serial port interface 1060 Video adapter 1070 Network interface 1080 Bus 1090 Hard disk drive 1091 OS
1092 application program 1093 program module 1094 program data 1100 disk drive 1110 mouse 1120 keyboard

Claims (7)

  1.  仮想空間を表示する仮想空間表示システムであって、
     端末装置は、
     撮影装置から出力された画像フレームを用いて、該画像フレームの中で人物として認識された人物領域と、物体として認識された物体領域と、所定の領域を指定された指定領域との少なくともいずれか1つを算出する算出部と、
     前記人物領域と、前記物体領域と、前記指定領域との少なくともいずれか1つを用いて前記画像フレームに所定のアルファ値を設定する設定部と、
     前記アルファ値が設定された前記画像フレームである実空間画像フレームと、情報処理装置から受信した仮想空間画像フレームとに基づき、表示画像を合成する合成部とを有し、
     前記情報処理装置は、
     前記端末装置から受信した前記実空間画像フレームと、前記物体領域または前記人物領域とを用いて、仮想オブジェクトを生成する生成部と、
     前記仮想空間における前記仮想オブジェクトの所定の位置および形状を調整する調整部と、
     前記実空間画像フレームと前記仮想オブジェクトとを前記仮想空間に重畳して描画する描画部と、
     を有することを特徴とする仮想空間表示システム。
    A virtual space display system for displaying a virtual space, comprising:
    The terminal device is
    a calculation unit that calculates, using an image frame output from the image capture device, at least one of a person area recognized as a person in the image frame, an object area recognized as an object, and a designated area that designates a predetermined area;
    a setting unit that sets a predetermined alpha value in the image frame by using at least one of the person region, the object region, and the designated region;
    a synthesis unit that synthesizes a display image based on a real space image frame, which is the image frame to which the alpha value is set, and a virtual space image frame received from an information processing device,
    The information processing device includes:
    a generation unit that generates a virtual object by using the real space image frame received from the terminal device and the object region or the person region;
    an adjustment unit that adjusts a predetermined position and a predetermined shape of the virtual object in the virtual space;
    a drawing unit that draws the real-space image frame and the virtual object in the virtual space by superimposing them on each other;
    A virtual space display system comprising:
  2.  前記生成部は、前記実空間画像フレームと該実空間画像フレームに含まれる前記物体領域に該当する画素領域とを用いて、前記仮想オブジェクトとして該物体領域に含まれる物体の形状または模様を模した仮想物体を生成し、
     前記実空間画像フレームと該実空間画像フレームに含まれる前記人物領域に該当する画素領域を用いて、前記仮想オブジェクトとして該人物領域に含まれる人物の位置と、大きさと、形状の1つまたは複数の組み合わせに基づいて、前記仮想空間におけるユーザの姿勢を設定するボーンを生成する、
     ことを特徴とする請求項1に記載の仮想空間表示システム。
    the generation unit uses the real-space image frame and a pixel region corresponding to the object region included in the real-space image frame to generate, as the virtual object, a virtual object that imitates a shape or a pattern of an object included in the object region;
    generating bones for setting a posture of a user in the virtual space based on one or more combinations of a position, a size, and a shape of the person included in the person area as the virtual object, using the real-space image frame and a pixel area corresponding to the person area included in the real-space image frame;
    2. The virtual space display system according to claim 1.
  3.  前記調整部は、前記仮想オブジェクトであるアバターまたはボーンの少なくともどちらか一方と仮想物体とが前記仮想空間の中で干渉する場合に、該仮想物体の位置または形状を調整し、
     前記仮想オブジェクトである前記ボーンと前記アバターとが前記仮想空間の中で干渉する場合に、該アバターの位置または形状を調整する、
     ことを特徴とする請求項1に記載の仮想空間表示システム。
    the adjustment unit adjusts a position or a shape of the virtual object when at least one of the avatar and the bone, which are the virtual object, interferes with the virtual object in the virtual space;
    adjusting a position or a shape of the avatar when the bone, which is the virtual object, and the avatar interfere with each other in the virtual space;
    2. The virtual space display system according to claim 1.
  4.  前記描画部は、前記実空間画像フレームと、前記仮想オブジェクトであるアバターおよび仮想物体の少なくとも一方とを重畳して、前記仮想空間の中に1つの仮想の表示画面として描画する、
     ことを特徴とする請求項1から3のいずれか1つに記載の仮想空間表示システム。
    the rendering unit superimposes the real-space image frame and at least one of an avatar and a virtual object, which are the virtual objects, and renders the superimposed real-space image frame as one virtual display screen in the virtual space;
    4. The virtual space display system according to claim 1, wherein the virtual space display system comprises: a display unit configured to display a display image of the virtual space;
  5.  前記仮想オブジェクトであるアバターと、仮想物体またはボーンの少なくともどちらか一方とが干渉した際に、ユーザに仮想触覚を提示するための仮想触覚に関する情報を出力する出力部を更に有する、
     ことを特徴とする請求項1から3のいずれか1つに記載の仮想空間表示システム。
    an output unit that outputs information about a virtual touch to present a virtual touch to a user when an avatar, which is the virtual object, interferes with at least one of a virtual object and a bone;
    4. The virtual space display system according to claim 1, wherein the virtual space display system comprises: a display unit configured to display a display image of the virtual space;
  6.  撮影装置から出力された画像フレームを用いて、該画像フレームの中で人物として認識された人物領域と、物体として認識された物体領域と、所定の領域を指定された指定領域との少なくともいずれか1つを算出する算出部と、
     前記人物領域と、前記物体領域と、前記指定領域との少なくともいずれか1つを用いて前記画像フレームに所定のアルファ値を設定する設定部と、
     前記アルファ値が設定された前記画像フレームである実空間画像フレームと、情報処理装置から受信した仮想空間画像フレームとに基づき、表示画像を合成する合成部と、
     を有することを特徴とする端末装置。
    a calculation unit that calculates, using an image frame output from the image capture device, at least one of a person area recognized as a person in the image frame, an object area recognized as an object, and a designated area that designates a predetermined area;
    a setting unit that sets a predetermined alpha value in the image frame by using at least one of the person region, the object region, and the designated region;
    a synthesis unit that synthesizes a display image based on a real-space image frame, which is the image frame to which the alpha value is set, and a virtual-space image frame received from an information processing device;
    A terminal device comprising:
  7.  コンピュータを請求項6に記載の端末装置として機能させるための仮想空間表示プログラム。 A virtual space display program for causing a computer to function as the terminal device described in claim 6.
PCT/JP2023/000088 2023-01-05 2023-01-05 Virtual space display system, terminal device, and virtual space display program WO2024147184A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2023/000088 WO2024147184A1 (en) 2023-01-05 2023-01-05 Virtual space display system, terminal device, and virtual space display program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2023/000088 WO2024147184A1 (en) 2023-01-05 2023-01-05 Virtual space display system, terminal device, and virtual space display program

Publications (1)

Publication Number Publication Date
WO2024147184A1 true WO2024147184A1 (en) 2024-07-11

Family

ID=91803688

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/000088 WO2024147184A1 (en) 2023-01-05 2023-01-05 Virtual space display system, terminal device, and virtual space display program

Country Status (1)

Country Link
WO (1) WO2024147184A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006221550A (en) * 2005-02-14 2006-08-24 Nippon Telegr & Teleph Corp <Ntt> Method of interface, system, program, and recording medium
WO2017098780A1 (en) * 2015-12-11 2017-06-15 ソニー株式会社 Information processing device, information processing method, and program
JP2020064592A (en) * 2018-10-16 2020-04-23 株式会社ソニー・インタラクティブエンタテインメント Image generator, image generation system, image generation method, and program
JP2021043476A (en) * 2017-12-26 2021-03-18 株式会社Nttドコモ Information processing apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006221550A (en) * 2005-02-14 2006-08-24 Nippon Telegr & Teleph Corp <Ntt> Method of interface, system, program, and recording medium
WO2017098780A1 (en) * 2015-12-11 2017-06-15 ソニー株式会社 Information processing device, information processing method, and program
JP2021043476A (en) * 2017-12-26 2021-03-18 株式会社Nttドコモ Information processing apparatus
JP2020064592A (en) * 2018-10-16 2020-04-23 株式会社ソニー・インタラクティブエンタテインメント Image generator, image generation system, image generation method, and program

Similar Documents

Publication Publication Date Title
US11736756B2 (en) Producing realistic body movement using body images
US11423556B2 (en) Methods and systems to modify two dimensional facial images in a video to generate, in real-time, facial images that appear three dimensional
US10922865B2 (en) Information processing apparatus, information processing method, and program
CN108027652B (en) Information processing apparatus, information processing method, and recording medium
US20220368857A1 (en) Performing virtual non-verbal communication cues within a virtual environment of a video conference
WO2018153267A1 (en) Group video session method and network device
US10916044B2 (en) Information processing apparatus, information processing method, and program
CN114245905A (en) Depth aware photo editing
JP7387202B2 (en) 3D face model generation method, apparatus, computer device and computer program
US20110148868A1 (en) Apparatus and method for reconstructing three-dimensional face avatar through stereo vision and face detection
WO2013054462A1 (en) User interface control device, user interface control method, computer program, and integrated circuit
TW202305551A (en) Holographic calling for artificial reality
EP3839699A1 (en) Augmented virtuality self view
CN113628327A (en) Head three-dimensional reconstruction method and equipment
CN115529835A (en) Neural blending for novel view synthesis
CN118264786A (en) System and method for creating wallpaper images on a computing device
CN112581571A (en) Control method and device of virtual image model, electronic equipment and storage medium
CN116958344A (en) Animation generation method and device for virtual image, computer equipment and storage medium
CN113763286A (en) Image processing method and device, electronic equipment and storage medium
WO2017141223A1 (en) Generating a video using a video and user image or video
JP7452434B2 (en) Information processing device, information processing method and program
WO2022086580A1 (en) Dynamic resolution of depth conflicts in telepresence
CN114066715A (en) Image style migration method and device, electronic equipment and storage medium
WO2024147184A1 (en) Virtual space display system, terminal device, and virtual space display program
CN115756153A (en) Virtual Reality (VR) interaction system and method based on meta universe

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23914676

Country of ref document: EP

Kind code of ref document: A1