WO2022092122A1 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
WO2022092122A1
WO2022092122A1 PCT/JP2021/039564 JP2021039564W WO2022092122A1 WO 2022092122 A1 WO2022092122 A1 WO 2022092122A1 JP 2021039564 W JP2021039564 W JP 2021039564W WO 2022092122 A1 WO2022092122 A1 WO 2022092122A1
Authority
WO
WIPO (PCT)
Prior art keywords
avatar
user
virtual space
button
gesture
Prior art date
Application number
PCT/JP2021/039564
Other languages
English (en)
French (fr)
Inventor
建史 金谷
Original Assignee
株式会社テンアップ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社テンアップ filed Critical 株式会社テンアップ
Publication of WO2022092122A1 publication Critical patent/WO2022092122A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Definitions

  • the present invention relates to an information processing device.
  • the present invention has been made in view of such a situation, and an object of the present invention is to form a communication environment closer to the real world than before in a virtual space and improve user convenience.
  • the information processing apparatus is A moving image acquisition means for acquiring moving image data including a user as a subject, and An object generation means for generating an object corresponding to the user and having the moving image attached to at least a part thereof.
  • An object placement means for arranging the object in a three-dimensional virtual space,
  • An image generation means for generating image data that can be visually recognized from a predetermined viewpoint in the virtual space in which the object is arranged, and an image generation means.
  • this service it is a figure which shows the specific example of the user interface for registering event information displayed on a user terminal. It is a figure which shows the specific example of the edit screen of the registered event information displayed on the user terminal in the outline of this service. It is a figure which shows the concrete example of the scenery in the virtual space which each user can see in the outline of this service. It is a figure which shows an example of the structure of the information processing system to which the server which concerns on one Embodiment of the information processing apparatus of this invention is applied. It is a block diagram which shows an example of the hardware composition of the server among the information processing system shown in FIG. It is a functional block diagram which shows an example of the functional configuration for executing an avatar control process among the functional configurations of the server of FIG.
  • this service a service realized by an information processing system (see FIG. 9 described later) to which the server 1 according to the embodiment of the information processing apparatus of the present invention is applied (hereinafter, “this service”). I will explain the outline of).
  • FIG. 1 to 8 are diagrams showing an outline of this service realized by an information processing system to which a server according to an embodiment of the information processing apparatus of the present invention is applied.
  • This service is an example of a service provided to a user by a service provider (not shown).
  • the user can receive the provision of this service by operating an information processing device such as a personal computer (for example, "user terminal 2" in FIG. 9 described later).
  • an information processing device such as a personal computer (for example, "user terminal 2" in FIG. 9 described later).
  • dedicated application software hereinafter referred to as "dedicated application” that enables this service to be used is installed in the user terminal 2, and this service can be used by this dedicated application.
  • the browser function of the user terminal 2 may be used to access a dedicated website (hereinafter referred to as "dedicated site”) that enables this service.
  • a dedicated website hereinafter referred to as "dedicated site”
  • operating the user terminal 2 means using a dedicated application or a dedicated site.
  • the user can use the web conference as an example of this service by operating the user terminal 2.
  • the web conference is a conference held in the three-dimensional virtual space C displayed on the user terminal 2.
  • the user can host the web conference as an organizer or can participate in the web conference as a participant.
  • FIG. 1 show an image of a web conference held in the virtual space C.
  • a screen Lb, a stage T, a seat, and the like are arranged like a conference hall in the real world.
  • the avatar Ar corresponding to the user Ur as the organizer of the web conference and the avatar Ap corresponding to the user Up as the participant of the web conference are arranged in the virtual space C, respectively.
  • Each of the user Ur and the user Up can freely operate each of the avatar Ar and the avatar Ap corresponding to themselves in the virtual space C.
  • a moving image Mr and a moving image Mp including each of the user Ur and the user Up as a subject are attached to at least a part of each of the avatar Ar and the avatar Ap.
  • Each of the user Ur and the user Up can exchange conversations as if they were in the real world by moving each of the avatar Ar and the avatar Ap in the virtual space C and facing other avatars. That is, as shown in FIG. 1A, moving images of the faces of the user Ur and the user Up are attached to the face portions of the avatar Ar and the avatar Ap.
  • the communication effect is enhanced by displaying the actual face of the user.
  • a communication environment closer to the real world can be formed in the virtual space. As a result, the effect of improving the convenience of the user can be remarkable.
  • the moving image Mr and the moving image Mp do not necessarily have to be attached to each of the avatar Ar and the avatar Ap.
  • the moving image Mp may be attached to the avatars Ap1 to Ap11, and the moving image Mr may not be attached to the avatar Ar.
  • a drawing imitating a face for example, a character's face
  • FIG. 2 shows a specific example of a user interface for setting an avatar Ap displayed on the user terminal 2.
  • the user Up can move the avatar Ap arranged in the virtual space C or perform a predetermined operation.
  • the user terminal 2 is a personal computer
  • the user Up moves the avatar Ap or performs a predetermined operation by pressing a predetermined button on the keyboard or clicking a mouse. Can be done.
  • the user terminal 2 is a smartphone
  • the user Up can move the avatar Ap or perform a predetermined operation by tapping the operation. A specific example of the operation will be described later.
  • the user Up can make various settings related to the avatar Ap by operating the user terminal 2. Specifically, the user Up can set the avatar Ap by performing various operations on the user interface displayed in the area F1 shown by the broken line in the virtual space C shown in FIG. That is, in the user interface shown in FIG. 2, the video area W, the video button B1 described as "video ON / OFF", the microphone button B2 described as “microphone ON / OFF", and "raise the hand” are provided.
  • the indicated setting end button B11 is arranged.
  • a moving image Mp having the same content as the moving image Mp attached to the avatar Ap is displayed.
  • the user Up can see at a glance how he / she is projected on a part of the avatar Ap.
  • the video button B1 described as "video ON / OFF” is a button for switching between the case where the moving image Mp is displayed as a part of the avatar Ap and the case where it is not displayed in the virtual space C.
  • the video button B1 is "ON”, the moving image Mp is displayed on at least a part of the avatar Ap.
  • the video button B1 is "OFF", the moving image Mp is not displayed on the avatar Ap.
  • the microphone button B2 described as "microphone ON / OFF” is a button for selecting whether to output sound from the avatar Ap in the virtual space C.
  • the microphone button B2 is "ON”, the voice is output from the avatar Ap.
  • the microphone button B2 is "OFF”, no sound is output from the avatar Ap. Even when the microphone button B2 is "OFF”, the sound associated with the gesture described later can be output.
  • Gesture buttons B3 to B10 are buttons for causing the avatar Ap arranged in the virtual space C to perform a predetermined gesture.
  • "to make a gesture” here is not limited to making the gesture itself, and also includes outputting a predetermined voice reminiscent of the gesture and displaying a predetermined mark. ..
  • the user Up can select and apply a method for expressing his / her feelings.
  • the avatar App can express an expression closer to the feeling of the user Up.
  • the movement (gesture) of the avatar Ap can be linked to the movement of the user Up, but in this case, the variation of the movement of the avatar Ap is limited to the range of the movement of the user Up.
  • the avatar Ap can be easily moved by a simple operation such as pressing a button. be able to. This makes it easy to make the movement of the avatar Ap unrealistic (does not follow the actual physical laws), for example.
  • the gesture button B3 is a button for causing the avatar Ap arranged in the virtual space C to perform a gesture of raising a hand.
  • the avatar Ap performs the gesture itself of raising the hand, outputs a voice "Yes", or displays a mark indicating raising the hand (for example, an illustration imitating the hand).
  • a mark indicating raising the hand for example, an illustration imitating the hand.
  • FIG. 2 shows an example when the gesture button B7 marked "happy" is pressed.
  • the gesture button B7 is pressed, the avatar Ap is "happy”.
  • the heart mark H indicating is displayed.
  • the heart mark H indicating "joy” is displayed in the vicinity of the avatar Ap from the viewpoint of another person, and is also displayed in the vicinity of the user interface from the viewpoint of the user Up.
  • the gesture button B4 is a button for causing the avatar Ap arranged in the virtual space C to perform a gesture of waving a hand.
  • the avatar Ap performs the gesture of waving the hand itself, outputs a voice such as "Hey", or displays an illustration expressing the state of waving the hand.
  • the gesture button B5 is a button for causing the avatar Ap arranged in the virtual space C to perform an applause gesture.
  • the avatar Ap performs the applause gesture itself, outputs, for example, a voice saying "great", or displays an illustration expressing the state of applause.
  • the gesture button B6 is a button for causing the avatar Ap placed in the virtual space C to make a questionable gesture.
  • the avatar Ap performs the questioning gesture itself, outputs, for example, a voice indicating the question, or displays a "?” Mark.
  • the gesture button B8 is a button for causing the avatar Ap placed in the virtual space C to perform a gesture expressing sad feelings.
  • the avatar Ap performs the gesture itself expressing the sad feeling, for example, outputs a voice expressing the sad feeling, or displays an illustration expressing the sad feeling.
  • the gesture button B9 is a button for causing the avatar Ap arranged in the virtual space C to perform a gesture expressing an angry feeling.
  • the avatar Ap performs the gesture itself expressing the angry feeling, outputs the voice expressing the angry feeling, or displays the illustration expressing the angry feeling.
  • the gesture button B10 is a button for causing the avatar Ap arranged in the virtual space C to perform a gesture expressing a surprised feeling.
  • the avatar Ap performs the gesture itself expressing the surprised feeling, outputs the voice expressing the surprised feeling, or displays the illustration expressing the surprised feeling.
  • the user Up can accurately express his / her intention and emotion at that time by simply pressing the gesture buttons B3 to B10.
  • the user Up can experience the communication environment as if it were in the real world while operating the user terminal 2.
  • the setting end button B11 marked “close” is a button for ending the setting of the avatar Ap.
  • the user interface closes.
  • FIG. 3 shows a specific example of a user interface for setting a web conference and an avatar Ar displayed on the user terminal 2.
  • FIG. 4 shows a specific example of the theater function realized in the web conference.
  • the user Ur operates the avatar Ap arranged in the virtual space C by operating the user terminal 2.
  • the user terminal 2 is a personal computer
  • the user Ur moves the avatar Ar or performs a predetermined operation by pressing a predetermined button on the keyboard or clicking a mouse.
  • the user terminal 2 is a smartphone
  • the user Ur moves the avatar Ar or causes a predetermined operation by a tapping operation.
  • the user Ur can make various settings related to the web conference and the avatar Ar by operating the user terminal 2. Specifically, the user Ur can set the web conference and the avatar Ar by performing various operations on the user interface shown in FIG.
  • the user interface shown in FIG. 3 is configured to include display areas F11 to F14.
  • Event information Information about a preset event (web conference) is displayed as "event information" in the display area F11.
  • the event information includes an event name (name of a web conference), a name of an event (web conference) organizer (user Ur), and a list of speakers.
  • the "speaker” means one or more users Up who participate in the event (web conference) as participants, and one or more users Up who take the stage T.
  • the names of one or more speakers and buttons indicating the operation status and communication status are displayed.
  • the speakers displayed in the speaker list can change the order (order of speakers) by dragging.
  • the operation authority of the material is transferred to another speaker.
  • the communication status is "communication”, it is possible to communicate by moving image and voice.
  • the captured image of the user Up in which "Web camera” is checked among the check boxes for setting the communication of the display area F13, which will be described later, is the screen Lb of FIG. 1 (A). It is displayed on the screen La of the display area F14, which will be described later.
  • buttons for setting handouts are displayed on the upper side of the display area F12. Specifically, a button for setting the file format of the material and a button for setting the background are displayed. In addition, a list display area is displayed below it.
  • the buttons for setting the file format of the material the button B21 described as "PDF" and the button B22 described as "moving image” are displayed. Of these, the button B21 is a button for displaying the handout material in PDF format on the screen Lb and the screen La described later. Further, the button B22 is a button for displaying a moving image on the screen Lb and the screen La described later.
  • buttons for setting the background are displayed.
  • the button B23 is a button for displaying a list of 360 ° images associated with the event (web conference) and the user Up.
  • the button B24 is a button for displaying a list of 360 ° moving images associated with the event (web conference) and the user Up. In the list display area, the contents of the set handouts, 360 ° images, and 360 ° moving images are displayed.
  • various check boxes and buttons for setting a function for operating an event are displayed. Specifically, a check box for setting the communication setting and the avatar display setting, and buttons B25 and B26 for unchecking the check boxes are displayed. In addition, a check box for displaying a building and setting lighting, and a button B27 for recording an event (web conference) are displayed.
  • the "Web camera” check box is checked, the user Ur's webcam (not shown) is activated, and the captured image is displayed on the screen La and the screen Lb described later.
  • the "Microphone” check box is checked, the user Ur's microphone (not shown) is activated.
  • the microphone (not shown) of the user Up who is a participant of the event (web conference) is activated.
  • the "Audience sound” check box is checked, the sound generated when the avatar Ap of the user Up who is the audience (participant of the event (web conference)) makes a gesture is output.
  • the "Organizer” check box is checked, the user Ur's avatar Ar is displayed.
  • the "Speaker” check box is checked, the avatar Ap of the user Up as the speaker is displayed.
  • the avatar Ap of the user Up who is the audience (participants of the event (web conference)), not as the speaker is displayed.
  • the theater screen described later is displayed.
  • the screen Lb of FIG. 1A and the screen La described later are displayed in white and the stage T is bright, for example, as in the theater function shown in FIG. Is displayed.
  • the avatar Ar corresponding to the user Ur as the organizer and the avatar Ap corresponding to the user Up as the speaker can face each other on the stage T and talk. It is also possible to display one or more speakers on the screen Lb.
  • the screen Lb of FIG. 1 and the screen La described later are displayed in black and the stage T is displayed so as to be bright, although not shown.
  • a moving image played by an orchestra can be displayed on the screen Lb so that a large number of users can appreciate it as in a concert in the real world.
  • various gesture buttons for setting the gesture of the avatar Ar are displayed.
  • the gesture button B29 described as “applause” the gesture button B30 described as “jump”
  • B35, a gesture button B36 labeled “angry”, a gesture button B37 labeled "raise your hand”, and a gesture button B38 labeled "tsukkomi” are displayed.
  • the avatar Ar When the user Ur selects and presses any one or more of the gesture buttons B28 to B38, the avatar Ar performs the selected gesture itself. Further, as in the case where the gesture buttons B3 to B10 of FIG. 2 are pressed, the gesture itself is not performed, but a predetermined voice is output or a predetermined mark is displayed according to the gesture. You can also do it.
  • the types of gestures that the avatar Ar can perform are not limited to the gestures corresponding to the gesture buttons B28 to B38. You can also register new gestures. A specific example of registering a new gesture will be described later with reference to FIG.
  • the button B39 described as "end the event” is displayed.
  • the event web conference
  • the theater screen is displayed in the display area F14.
  • the "theater screen” indicates the virtual space C as seen from the viewpoint of the user Ur as the organizer.
  • FIG. 3 shows a user Up as a speaker at the stage T of the event (web conference) being viewed from the sleeve of the stage T by the user Ur as the organizer.
  • the theater screen can be displayed horizontally, vertically and vertically by operating the drag.
  • the avatar Ar can be moved by operating the user terminal 2. When the avatar Ar moves, the user Up can see the avatar Ar walking on the stage T from the viewpoint of the user Up.
  • the screen La is displayed in the display area F14.
  • the selected handouts and moving images are displayed on the screen La.
  • the moving image can be played / paused.
  • the slide bar I arranged at the bottom is a bar indicating a reproduction position of a moving image, and reproduction can be started from an arbitrary position by an operation of adjusting to an arbitrary position.
  • the handouts and moving images displayed on the screen La can be written with a pen or erased with an eraser. It is also possible to automatically erase the written part when the handout that has been written with the pen advances to the next.
  • writing with a pen on a moving image can be performed while the moving image is paused, or can be performed during playback. Since the content displayed on the screen La is mirror-displayed on the screen Lb of FIG. 1 (A), it is shared with the participants of the event (web conference).
  • event information related to an event (web conference) displayed on the user terminal 2.
  • event information information related to an event (web conference) displayed on the user terminal 2.
  • the event information is input (step S1), the handouts are added (step S2), and the 360 ° image is added (step S3), 360. ° Perform input work in the order of adding video (step S4).
  • FIG. 5A shows an example of the input screen in step S1 described above. That is, on the input screen of step S1, the input field E11 for inputting the name of the event (web conference), the date and time of the event (web conference), and the type of participation fee (paid or free) are selected and input.
  • the input field E12 for registering the avatar Ar and the buttons B51 to B53 for registering the avatar Ar are displayed.
  • the button B51 is a button for referring to the data of the avatar Ar. When the button B51 is pressed, for example, a screen as shown in FIG. 5B is displayed.
  • the user Ur can freely select the type of the avatar Ar arranged in the virtual space C, for example, on the screen as shown in FIG. 5 (B). As a result, it is expected that the degree of attachment of the user Ur to the avatar Ar will be improved and that the number of people who want to use this service will increase.
  • the button B52 is a button for deleting the data of the referenced avatar Ar.
  • the button B53 described as "edit” is a button for pop-up display of the screen for registering the gesture shown in (A) of FIG. 5 described above.
  • the input field E13 is an input field for inputting the name of the speaker.
  • the button B54 marked “Add speaker” is a button for adding the input field E13.
  • FIG. 5C shows a specific example of the user interface for registering the gesture of the avatar Ar displayed on the user terminal 2.
  • the user interface shown in FIG. 5C has an input field E14, a button B55 labeled "Delete”, a button B56 labeled “Edit” or “Reference”, and "+ Add Gesture”.
  • the button B57 marked with “Save” and the button B58 marked “Save” are displayed.
  • the input field E14 is an input field for inputting the name of the gesture to be registered.
  • the button B55 is a button for deleting the gesture name input in the input field E1 and the uploaded gesture data.
  • Button B56 is displayed in the state of "reference” when the gesture data is not uploaded, and is displayed in the state of "edit” when the gesture data is uploaded. ..
  • buttons B56 in the state of "reference" When the button B56 in the state of "reference" is pressed, another window for referencing the file is displayed.
  • Button B57 is a button to be pressed when it is desired to increase the number of input fields.
  • the button B58 is a button to be pressed when registering a new input gesture and when reflecting the editing result of the registered gesture.
  • the user Ur can freely register / edit the gesture of the avatar Ar.
  • the intention and emotion of the user Ur can be more faithfully reflected in the avatar Ar, so that the convenience of the user Ur can be further improved.
  • FIG. 6A shows an example of the input screen in step S2 described above.
  • an operation button for adding or deleting handouts of the event is displayed.
  • buttons B61 and B62 for adding and deleting PDF files, and buttons B63 and B64 for adding and deleting moving images files are displayed, respectively.
  • buttons B61 and B62 for adding and deleting PDF files, and buttons B63 and B64 for adding and deleting moving images files are displayed, respectively.
  • FIG. 6B shows an example of the input screen in step S3 described above.
  • the button B65 marked “Add background” and the setting bar G for setting the X-axis, Y-axis, and Z-axis that define the 360 ° image are displayed.
  • a button B66 labeled “Save settings” and a button B67 labeled "Delete background” are displayed.
  • the screen shown in FIG. 6C is displayed on the user terminal 2.
  • FIG. 6C shows an example of the input screen in step S4 described above.
  • Button B69 labeled “Save settings” and button B70 labeled "Delete background” are displayed.
  • the URL of the web page (Uniform Resource Locator) for registering the handouts of the speakers and the URL for participating in the event (web conference) as a speaker are issued.
  • the two issued URLs are associated with information that can uniquely identify the user Up who is the speaker, and are provided to the user Up.
  • a URL for participating in the event (web conference) (not as a speaker) is issued.
  • URLs for participating in an event (web conference) (not as a speaker) are issued for each type of event (web conference) (paid or free). In this case, for example, for a free event (web conference), the same URL is provided to a plurality of users Up, and for a paid event (web conference), one URL is provided for one user Up. May be provided. Further, the issued URL may have an expiration date.
  • FIG. 7 shows a specific example of the registered event information editing screen.
  • the registered event information can be edited.
  • handouts can be added / deleted, and 360 ° screens and 360 ° videos can be edited.
  • the buttons B71 to B74 displayed on the screen shown in FIG. 7 the handouts are added / deleted, and by pressing the buttons B75 and B76, the 360 ° screen or 360 ° moving image can be edited. I do.
  • FIG. 8 shows a specific example of the scenery in the virtual space seen by each user.
  • the scenery seen through the avatar Ar of the user Ur as the organizer and the avatar Ap of the user Up as a participant The view is shown. That is, the scenery shown in the left figure of FIG. 8 is a scenery on the virtual space C seen through the avatar Ar of the user Ur as the organizer. Therefore, the user Ur can see the avatar Ap.
  • the scenery shown on the right side of FIG. 8 is a scenery on the virtual space C seen through the avatar Ap of the user Up as a participant. Therefore, the avatar Ar can be seen from the user Up.
  • the scenery on the virtual space C seen through the avatar Ar of the user Ur and the scenery on the virtual space C seen through the avatar Ap of the user Up are different. That is, the virtual space C as the background in which the avatar Ar and the avatar Ap are arranged is the same space imitating the classroom, but different views can be seen because the viewing angles of the avatar Ar and the avatar Ap are different. There is. Therefore, when there are a plurality of avatars (avatar Ar and avatar Ap) arranged in the same virtual space C, different scenery can be seen and other avatars other than oneself in the field of view can be seen. As a result, for example, a plurality of avatars Ap may exist on the virtual space C due to the large number of participants.
  • this service also includes, for example, the following services. That is, the registered event (web conference) is status-managed, and each of the unheld event and the held event is displayed in a list on the user terminal 2 of the user Ur. In addition, the event (web conference) recorded at the time of holding is displayed in a list on the user terminal 2 of the user Ur in a downloadable manner. Further, when the preset event (web conference) date and time arrives, the event (web conference) is automatically terminated, and the participant (user Up) can be forced to leave. In addition, a laser pointer can be used to indicate a target position or the like in order to convey what is where in the world of a 360 ° image.
  • a web conference in which the avatars Ar and Ap arranged in the virtual space C can be freely moved is realized. Specifically, not only can the avatars Ar and Ap themselves be moved, but the screen of the web conference can be moved as a face. That is, the view of the web conference seen from the viewpoints of the users Ur and Up can be moved. This gives you the experience of having a conversation with an acquaintance at a conference venue in the real world.
  • the movements of the avatars Ar and Ap can be freely controlled. Specifically, the movements of the avatars Ar and Ap are registered in advance and reproduced.
  • the avatars Ar and Ap can be moved by operating the buttons on the user terminal 2, so that the troublesome work of attaching a VR (Virtual Reality) device, for example, becomes unnecessary.
  • the delivery work is simplified.
  • it is possible to register movements that cannot be done by ordinary humans as gestures it is possible to express the intentions and emotions of users Ur and Up in a more faithful and easier-to-transmit manner. Become.
  • FIG. 9 is a diagram showing an example of a configuration of an information processing system to which a server according to an embodiment of the information processing apparatus of the present invention is applied.
  • the information processing system shown in FIG. 9 is configured to include a server 1 and a user terminal 2.
  • the server 1 and the user terminal 2 are connected to each other via a predetermined network NW such as the Internet.
  • Server 1 is an information processing device managed by a service provider (not shown). The server 1 executes various processes for realizing this service while appropriately communicating with the user terminal 2.
  • the user terminal 2 is an information processing device operated by users Ur and Up.
  • the user terminal 2 is composed of a personal computer, a tablet, a smartphone and the like. Although only one user terminal 2 is drawn in FIG. 9, this is simplified for the sake of easy understanding of the explanation, and is actually n people (n is 1 or more).
  • n user terminals 2 each operated by each of the user U (numerical value). That is, the number of participants in the event (web conference) provided by this service is not particularly limited, and for example, it is possible to participate in units of 100 or 1000 people.
  • FIG. 10 is a block diagram showing an example of the hardware configuration of the server in the information processing system shown in FIG.
  • the server 1 includes a CPU (Central Processing Unit) 11, a ROM (Read Only Memory) 12, a RAM (Random Access Memory) 13, a bus 14, an input / output interface 15, an input unit 16, and an output unit 17. , A storage unit 18, a communication unit 19, and a drive 20.
  • CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the CPU 11 executes various processes according to the program recorded in the ROM 12 or the program loaded from the storage unit 18 into the RAM 13. Data and the like necessary for the CPU 11 to execute various processes are also appropriately stored in the RAM 13.
  • the CPU 11, ROM 12 and RAM 13 are connected to each other via the bus 14.
  • An input / output interface 15 is also connected to the bus 14.
  • An input unit 16, an output unit 17, a storage unit 18, a communication unit 19, and a drive 20 are connected to the input / output interface 15.
  • the input unit 16 is composed of, for example, a keyboard or the like, and inputs various information.
  • the output unit 17 is composed of a display such as a liquid crystal display, a speaker, or the like, and outputs various information as images or sounds.
  • the storage unit 18 is composed of a DRAM (Dynamic Random Access Memory) or the like, and stores various data.
  • the communication unit 19 communicates with another device (for example, the user terminal 2 in FIG. 9) via a network NW including the Internet.
  • a removable media 40 made of a magnetic disk, an optical disk, a magneto-optical disk, a semiconductor memory, or the like is appropriately mounted on the drive 20.
  • the program read from the removable media 40 by the drive 30 is installed in the storage unit 28 as needed. Further, the removable media 40 can also store various data stored in the storage unit 18 in the same manner as the storage unit 18.
  • the user terminal 2 of FIG. 9 can also have basically the same configuration as the hardware configuration shown in FIG. Therefore, the description of the hardware configuration of the user terminal 2 will be omitted.
  • the service provider can provide the service shown in FIGS. 1 to 8, for example, to the user Ur and the user Up.
  • the "avatar control process” is to display the moving images Mr and Mp on at least a part (for example, the face part) of each of the avatar Ar and the avatar Ap of the user Ur and the user Up, and also to display the audio. It refers to the process of outputting or moving.
  • FIG. 11 a functional configuration for executing the avatar control process executed in the server 1 of FIG. 10 will be described.
  • FIG. 11 is a functional block diagram showing an example of the functional configuration for executing the avatar control process among the functional configurations of the server of FIG. 10.
  • the moving image acquisition unit 101, the avatar generation unit 102, and the gesture management unit The operation reception unit 104, the avatar arrangement unit 105, the virtual space construction unit 106, the display image generation unit 107, the display control unit 108, and the voice output control unit 109 function. Further, an avatar DB 181 is provided in one area of the storage unit 18 of the server 1. In the avatar DB181, information about each of the avatars Ar and Ap generated by the avatar generation unit 102 is managed in association with each of the corresponding user Ur and user Up.
  • the moving image acquisition unit 101 acquires the moving image information of each of the moving images Mr and Mp including the user Ur and the user Up as the subject. Further, the moving image acquisition unit 101 acquires a plurality of audio information corresponding to each of the moving image Mr and Mp.
  • the avatar generation unit 102 generates avatars Ar and Ap, which are avatars corresponding to each of the user Ur and the user Up, and in which the moving images Mr and Mp are attached to at least a part thereof.
  • the organizer generation unit 121 and the participant generation unit 122 function.
  • the organizer generation unit 121 generates an avatar Ar that is an avatar corresponding to the user Ur and has a moving image Mr attached at least partially.
  • the participant generation unit 122 generates an avatar Ap that is an avatar corresponding to the user Up and has a moving image Mp attached to at least a part of the avatar.
  • the gesture management unit 103 manages one or more gesture patterns of avatars Ar and Ap in association with each other and an operation for instructing them to each of avatars Ar and Ap.
  • the operation reception unit 104 accepts an operation for instructing the avatars Ar and Ap to have one or more gesture patterns.
  • the avatar arrangement unit 105 arranges the avatars Ar and Ap in the virtual space C.
  • the virtual space construction unit 106 constructs the virtual space C.
  • the display image generation unit 107 generates image data of a landscape that can be visually recognized from a predetermined viewpoint in the virtual space C in which the avatars Ar and Ap are arranged. Specifically, for example, the image data that can be visually recognized from the viewpoint from behind the avatar Ar as shown in FIG. 1 (B) above, or the eyes of the avatars Ar and Ap as shown in FIG. Generates visible landscape image data.
  • the display control unit 108 executes control to display the image data generated by the display image generation unit 107 on the user terminal 2.
  • the audio output control unit 109 executes control to output each of the plurality of audios corresponding to the moving images Mr and Mp from the corresponding avatars Ar and Ap, respectively. Specifically, the voice output control unit 109 outputs the voice according to the position between the avatars Ar and Ap arranged in the virtual space C as the control to output the voice from each of the avatars Ar and Ap. Control the size of. As a result, for example, when the distance between the avatars is short, the sounds that can be heard from each other are increased, and when the distance between the avatars is long, the sounds that can be heard from each other are decreased. As a result, a communication environment closer to the real world can be constructed in the virtual space C.
  • an example of a conference venue or a classroom is shown as a virtual space for conducting a web conference as an event, but the present invention is not limited to these.
  • the present invention can be applied to any virtual space in which an avatar can be placed.
  • FIG. 5 shows an example of selecting the type of avatar Ar, but it is also possible to select the type of avatar Ap.
  • the method of creating the virtual space is not particularly limited, but for example, the virtual space can be created by the following method. That is, first, a three-dimensional blank space (hereinafter referred to as "three-dimensional space") is created, and a two-dimensional drawing such as a manga is attached to the three-dimensional space. Although manga and the like are two-dimensional, they are drawn from various angles. Therefore, it is possible to create a virtual space by performing a large amount of cutting and pasting while combining them. And finally, decorate the colors and patterns. Thereby, for example, the virtual space C as shown in FIG. 1 and the like can be created.
  • FIG. 12 is a diagram showing the difference between a general Web conference and a movable Web conference provided by the server of this service.
  • a flat image including a person captured by a camera that is, a 2D image
  • a thumbnail image on the screen of a PC monitor as shown on the left side of FIG. Therefore, even if a person moved, it was within the range of each thumbnail image and could not move any further.
  • avatars corresponding to each conference participant are arranged in the 3D virtual space, so that the avatars are placed in the virtual space. Each can move.
  • the first service merit is that, for example, the avatar can move in the 3D space, so that the Web conference, which could only be communicated unilaterally, can experience and act together.
  • the second service merit is that you can see 360 degrees from a web conference that you could only see from the front, so that you can see the direction of shadows in the 360 degree world, figures in three dimensions, etc. become.
  • the technical merit is that the space is 360 degrees, so people near the space can work with each other or talk only with people nearby. In other words, a sense of distance can be created in the space.
  • FIG. 13 is a diagram showing a difference between a case where a general VR technology is introduced into a Web conference and a Web conference in which the face provided by the server of this service is an image of a Web camera.
  • VR has generally made each person an avatar as shown in the virtual space on the left side of FIG. 13, and as shown in the virtual space on the right side of FIG. 13, the face of each avatar.
  • There was no video (moving image) whose part was captured by a Web camera.
  • There were some VR goggles with a Web camera but as in this embodiment, only a part of the object (for example, the upper body and the face part) did not have the VR (avatar) of the image of the Web camera.
  • the following merits are obtained by making the Web conference in which the avatar of the image of the Web camera participates in the face.
  • the first service merit is that schools and sales people read the emotions of the other party from the customer's facial expressions and communicate with each other, but the fact that the human face is the VR of the Web camera image makes it even among the VRs. You will be able to act while reading the emotions of people at the moment. In other words, nonverbal communication can be achieved.
  • the second service merit is that the face becomes an image of a Web camera, so that celebrities and the like can work in the VR space while showing their faces. This makes it possible to hold concerts and lectures by celebrities.
  • the technical merit is that face data cannot be analyzed unless the face is visible in a general VR, but in the present embodiment, the facial expression can be seen, so that the situation of a person in the VR space can be seen. Data can be analyzed instantly and the situation can be grasped. Specifically, the people who saw the conference participants can see from the facial expressions of the individual avatars that they are all enjoying themselves, and that they are not following the story.
  • FIG. 14 is a diagram showing an example of the shape of a face portion in a Web conference in which the face provided by the server of this service is an image of a Web camera.
  • FIG. 15 is a diagram showing an example of the shape of a face portion in a Web conference in which the face provided by the server of this service is an image of a Web camera, which is different from FIG.
  • the image of the face portion is also applied to the square-shaped frame in this embodiment, but as shown in FIG.
  • the avatar By applying the image of the face part to the circular frame, the avatar becomes closer to the human state and can be made closer to the more realistic state. As a result, online meetings become more realistic, and by becoming more realistic, more natural communication becomes possible.
  • a square shape and a circular frame are illustrated, but the shape of the frame shown here is an example, and may be, for example, a shape close to a human face or another shape. May be good.
  • FIG. 16 is a diagram showing an example of generation of a face image provided by a server of this service, which can be applied to a Web conference in which a face is an image of a Web camera.
  • the cameras installed in personal computers and smartphones are integrated with the screen, so they can only capture the front of a person. Therefore, as shown in FIG. 16, the avatar generation unit 102 creates an avatar from its own head information or the like in advance.
  • the face portion is an image captured by a Web camera, and a real facial expression can be confirmed.
  • the head part other than the face shall be pre-registered.
  • the avatar (entire head image) also turns to the side, and the face is linked with the realistic neck movement.
  • an avatar of the shape of one's own head (face) generated by 3D modeling technology or the like and prepared in advance is registered in the avatar DB181, and the avatar generation unit 102 is imaged by a Web camera.
  • the image of the face part the part where facial expressions such as eyebrows, eyes, nose, mouth, etc. appear
  • the avatar on the head is linked (followed) with the movement of a real person, and if the neck is turned sideways according to the posture of the operator himself, the face of the avatar is also turned sideways. With, you can reproduce more realistic movements.
  • FIG. 17 is a diagram showing an example of a world in which an avatar provided by the server of this service can move.
  • FIG. 18 is a diagram showing an example different from FIG. 17 in the world where the avatar provided by the server of this service can move.
  • VR could move only in the world of computer graphics (CG) and the world of 360-degree images (still images, backgrounds, etc.), but in this embodiment, the avatar placement unit 105 (see FIG. 11). ) Places the avatar in the 360-degree of the 360-degree moving image or the real-time image as shown in FIG.
  • CG computer graphics
  • 360-degree images still images, backgrounds, etc.
  • an avatar robot with a camera is placed in the real world, and the person operating the robot avatar is controlled to operate the avatar robot in the real world at the same time.
  • the operator can operate the avatar robot and freely move around in real time in the real world.
  • the shape of the moving avatar robot may be the same shape as the avatar in VR shown in FIG. 17, or may be a different shape.
  • FIG. 18 it is assumed that a plurality of people (avatars) in the VR space (sports venue) can operate the avatar robot while watching sports.
  • FIG. 19 is a diagram showing an example of a world in which a world of 360 photographs provided by the server of this service and a face are combined with an avatar of a video (moving image) of a Web camera.
  • Google Street View, real estate information, etc. provide a movement experience service that allows you to move to the next room or the previous road using 360-degree images.
  • a mobile experience service advances and returns by one person from that point from the viewpoint of the person himself, but in the present embodiment, as shown in FIG. 19, a continuous world of 360 degrees (360 degrees). You can enter the photo space of a degree with multiple avatars, and multiple avatars can move around the world.
  • FIG. 20 is a diagram showing an example of a world in which a virtual world provided by the server of this service and a face are combined with an avatar of a video (moving image) of a Web camera.
  • the VR space (whether real-time or recording) built by oneself can perform events and communication, but in this embodiment, as shown in FIG. 20, a new room, such as a theater, which is one's own VR space, can be used. For example, it is possible to set up (expand) a venue with a theater.
  • a room is illustrated, but the present invention is not limited to this example, and a store or the like may be used.
  • the virtual space construction unit 106 presents a room or store prepared in advance to the user, and the user selects a room or store suitable for him / her from among them and his / her VR. It is possible to install a venue with a selected theater by interposing a passage space in the theater of the space.
  • the avatar in the theater can freely move from the theater to the venue of the theater through the aisle space.
  • a restaurant or a restaurant for food delivery can be attached behind the event venue of VR.
  • the store side can also select the VR space that they want to open, and it is possible to open a store with a synergistic effect by matching both. That is, a link can be made regardless of real-time VR, recording VR, or the like.
  • the most suitable store (VR space) for that person is recommended, so the optimum store (VR space) should be added. Can be done.
  • the system configuration shown in FIG. 9 and the hardware configuration of the server 1 shown in FIG. 10 are merely examples for achieving the object of the present invention, and are not particularly limited.
  • FIG. 11 is merely an example and is not particularly limited. That is, it suffices if the information processing system of FIG. 9 has a function capable of executing the above-mentioned series of processes as a whole, and what kind of functional block is used to realize this function is particularly an example of FIG. Not limited to.
  • the location of the functional block is not limited to FIG. 11, and may be arbitrary. That is, the functional block required to execute the avatar control process is configured to be provided on the server 1 side, but this is only an example. At least a part of the functional blocks arranged on the server 1 side may be provided on the user terminal 2 side or another information processing device (not shown). Further, one functional block may be configured by a single piece of hardware, a single piece of software, or a combination thereof.
  • the programs constituting the software are installed in a computer or the like from a network or a recording medium.
  • the computer may be a computer embedded in dedicated hardware. Further, the computer may be a computer capable of executing various functions by installing various programs, for example, a general-purpose smartphone or a personal computer in addition to a server.
  • the recording medium containing such a program is not only composed of removable media, which is distributed separately from the main body of the device to provide the program to each user, but also is preliminarily incorporated in the main body of the device to each user. It is composed of the provided recording media and the like.
  • the steps for describing a program to be recorded on a recording medium are not only processed in chronological order but also in parallel or individually, even if they are not necessarily processed in chronological order. It also includes the processing to be executed.
  • the term of the system means an overall device composed of a plurality of devices, a plurality of means, and the like.
  • the information processing apparatus to which the present invention is applied may have the following configurations, and various embodiments can be taken. That is, the information processing apparatus to which the present invention is applied is A moving image acquisition means (for example, the moving image acquisition unit 101 of FIG. 11) for acquiring data (for example, the above-mentioned moving image information) of a moving image (for example, the moving image Mr of FIG. 1) including a user (for example, the above-mentioned user Ur) as a subject. )When, An object generation means (for example, the avatar generation unit 102 in FIG. 11) for generating an object corresponding to the user and having the moving image attached to at least a part thereof (for example, the avatar Ar in FIG. 1).
  • a moving image acquisition means for example, the moving image acquisition unit 101 of FIG. 11
  • data for example, the above-mentioned moving image information
  • a moving image for example, the moving image Mr of FIG. 1
  • Ur for example, the above-mentioned user Ur
  • An object generation means for example
  • An object arranging means for example, the avatar arranging unit 105 in FIG. 11 for arranging the object in a three-dimensional virtual space (for example, the virtual space C in FIG. 1 generated by the virtual space construction unit 106 in FIG. 11).
  • An image for example, the image shown in FIG. 1 (B)
  • An image generation means for generating data (for example, a display image generation unit 107 in FIG. 11) and To prepare for.
  • the data of the moving image including the user as the subject is acquired.
  • an object corresponding to the user and to which the acquired moving image is partially pasted is generated.
  • the created object is placed in a three-dimensional virtual space.
  • image data that can be visually recognized from a predetermined viewpoint is generated.
  • the moving image acquisition means is The data of a plurality of moving images (for example, the moving image Mp in FIG. 1) including each of the plurality of the above-mentioned users (for example, the above-mentioned user Up) as a subject is acquired, and further, each of the plurality of moving images is supported.
  • Acquire each of multiple audio data for example, the above-mentioned audio information
  • the object generation means generates each of the plurality of objects corresponding to each of the plurality of users.
  • the object arranging means arranges the plurality of objects (for example, the avatar Ap in FIG. 1) in the virtual space.
  • the image generation means is an image that can be visually recognized from the predetermined viewpoint (for example, the viewpoint from the avatar Ap shown in FIG.
  • the information processing apparatus is a voice output control means (for example, FIG. 11) that executes control to output each of the plurality of voices from the plurality of objects to which the corresponding plurality of images are attached.
  • An audio output control unit 109) can be further provided.
  • data of a plurality of moving images including each of the plurality of users as a subject is acquired, and at the same time, data of a plurality of voices corresponding to each of the plurality of moving images are acquired.
  • a plurality of objects corresponding to each of the plurality of users are generated.
  • image data that can be visually recognized from a predetermined viewpoint is generated.
  • each of the plurality of sounds is output from the plurality of objects to which the corresponding plurality of images are pasted.
  • a predetermined pattern of the movement of the object by the user for example, "raising a hand” as a pattern of a plurality of types of gestures selectively shown in the user interface of FIG. 3 and the movement of the predetermined pattern.
  • An operation receiving means for receiving the operation from the user for example, the operation receiving unit 104 and the gesture management unit 103 in FIG. 11
  • the object generation means can generate the object that moves in the predetermined pattern associated with the operation.
  • the pattern of the movement of the object and the operation for instructing the movement of the pattern are set in advance by the user, and the operation from the user is accepted. Then, an object that moves the pattern associated with the operation is generated. This increases the degree of freedom for the user to set the object. As a result, it becomes easy to reflect the user's intention and emotion in the object. As a result, the convenience of the user is further improved.
  • the object generation means can generate the object for each position of the user (for example, user Ur and user Up in FIG. 1) arranged in the virtual space as the object.
  • an object is created for each position of the user who is placed in the virtual space as an object.
  • This enables various settings (for example, registration of the above-mentioned gesture) according to the user's position in the virtual space. As a result, the convenience of the user is further improved.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

従来よりもさらに現実世界に近いコミュニケーション環境を仮想空間に形成させてユーザの利便性を向上させることを課題とする。 動画像取得部101は、ユーザUrを被写体に含む動画像Mrの動画像情報を取得する。アバター生成部102は、ユーザUrに対応するオブジェクトであって、少なくとも一部に動画像Mrを貼り付けたアバターArを生成する。アバター配置部105は、アバターArを、仮想空間構築部106により生成された仮想空間Cに配置させる。表示画像生成部107は、アバターArが配置された仮想空間Cにおいて、アバターArの背後からの視点から視認し得る画像のデータを生成する。上記により課題を解決する。

Description

情報処理装置
 本発明は情報処理装置に関する。
 インターネットを利用したいわゆるウェブ会議システムは従来から存在する(例えば特許文献1参照)。この技術分野では、昨今のビジネス環境の変化に対応すべく、ユーザの利便性を向上させるための技術開発が進められている状況にある。
特開2019-117998号公報
 しかしながら、上述の特許文献1を含む従来の技術よりも、さらに現実世界に近いコミュニケーション環境を仮想空間に形成させることで、ユーザの利便性を向上させる技術の開発が望まれている状況にある。
 本発明は、このような状況に鑑みてなされたものであり、従来よりもさらに現実世界に近いコミュニケーション環境を仮想空間に形成させてユーザの利便性を向上させることを目的とする。
 上記目的を達成するため、本発明の一態様の情報処理装置は、
 ユーザを被写体に含む動画像のデータを取得する動画像取得手段と、
 前記ユーザに対応するオブジェクトであって、少なくとも一部に前記動画像を貼り付けたオブジェクトを生成するオブジェクト生成手段と、
 前記オブジェクトを、3次元の仮想空間に配置させるオブジェクト配置手段と、
 前記オブジェクトが配置された前記仮想空間において、所定の視点から視認し得る画像のデータを生成する画像生成手段と、
 を備える。
 本発明によれば、従来よりもさらに現実世界に近いコミュニケーション環境を仮想空間に形成させてユーザの利便性を向上させることができる。
本発明の情報処理装置の一実施形態に係るサーバが適用される情報処理システムにより実現される本サービスの概要のうち、仮想空間において開催されるウェブ会議のイメージを示す図である。 本サービスの概要のうち、ユーザ端末に表示される、アバターの設定を行うためのユーザインターフェースの具体例を示す図である。 本サービスの概要のうち、ユーザ端末に表示される、ウェブ会議及びアバターの設定を行うためのユーザインターフェースの具体例を示す図である。 本サービスの概要のうち、ウェブ会議で実現されるシアター機能の具体例を示す図である。 本サービスの概要のうち、ユーザ端末に表示される、イベント情報を登録するためのユーザインターフェースの具体例を示す図である。 本サービスの概要のうち、ユーザ端末に表示される、イベント情報を登録するためのユーザインターフェースの具体例を示す図である。 本サービスの概要のうち、ユーザ端末に表示される、登録されたイベント情報の編集画面の具体例を示す図である。 本サービスの概要のうち、各ユーザから見える仮想空間上の景色の具体例を示す図である。 本発明の情報処理装置の一実施形態に係るサーバが適用される情報処理システムの構成の一例を示す図である。 図9に示す情報処理システムのうちサーバのハードウェア構成の一例を示すブロック図である。 図10のサーバの機能的構成のうち、アバター制御処理を実行するための機能的構成の一例を示す機能ブロック図である。 一般的なWeb会議と本サービスのサーバにより提供される動けるWeb会議との違いを示す図である。 Web会議に一般的なVR技術を導入した場合と本サービスのサーバにより提供される顔がWebカメラの映像であるWeb会議との違いを示す図である。 本サービスのサーバにより提供される顔がWebカメラの映像であるWeb会議における顔の部分の形状の一例を示す図である。 本サービスのサーバにより提供される顔がWebカメラの映像であるWeb会議における顔の部分の形状の例のうち図14とは異なる例を示す図である。 顔がWebカメラの映像であるWeb会議に適用可能な、本サービスのサーバにより提供される顔の映像の生成の一例を示す図である。 本サービスのサーバにより提供されるアバターが動ける世界の一例を示す図である。 本サービスのサーバにより提供されるアバターが動ける世界のうち図17とは異なる例を示す図である。 本サービスのサーバにより提供される360写真の世界と顔がWebカメラの映像(動画像)のアバターとの組み合わせた世界の一例を示す図である。 本サービスのサーバにより提供されるバーチャル世界と顔がWebカメラの映像(動画像)のアバターとの組み合わせた世界の一例を示す図である。
 以下、本発明の実施形態について、図面を用いて説明する。
 まず図1乃至図8を参照して、本発明の情報処理装置の一実施形態に係るサーバ1が適用される情報処理システム(後述する図9参照)により実現されるサービス(以下、「本サービス」と呼ぶ)の概要について説明する。
 図1乃至図8は、本発明の情報処理装置の一実施形態に係るサーバが適用される情報処理システムにより実現される本サービスの概要を示す図である。
 本サービスは、サービス提供者(図示せず)によりユーザに提供されるサービスの一例である。
 ユーザは、パーソナルコンピュータ等の情報処理装置(例えば後述の図9の「ユーザ端末2」)を操作することで本サービスの提供を受けることができる。具体的には、本サービスを利用可能とする専用のアプリケーションソフトウェア(以下、「専用アプリ」と呼ぶ)がユーザ端末2にインストールされており、この専用アプリによって本サービスが利用可能となる。なお、本サービスの提供を受ける際、専用アプリの使用は必須ではない。例えばユーザ端末2のブラウザ機能によって、本サービスを利用可能とする専用のウェブサイト(以下、「専用サイト」と呼ぶ)にアクセスしてもよい。以下、「ユーザ端末2を操作する」とは、専用アプリ又は専用サイトを利用することを意味するものとする。
 ユーザは、ユーザ端末2を操作することで、本サービスの一例としてのウェブ会議を利用することができる。ウェブ会議とは、ユーザ端末2に表示される3次元の仮想空間Cにおいて開催される会議のことをいう。ユーザは、主催者としてウェブ会議を主催することもできるし、参加者としてウェブ会議に参加することもできる。
 図1の(A)及び(B)には、仮想空間Cにおいて開催されるウェブ会議のイメージが示されている。
 仮想空間Cには、現実世界の会議会場のように、スクリーンLb、ステージT、座席等が配置される。また、それとともに、ウェブ会議の主催者としてのユーザUrに対応するアバターArと、ウェブ会議の参加者としてのユーザUpに対応するアバターApとの夫々が仮想空間Cに配置される。ユーザUrとユーザUpとの夫々は、仮想空間Cにおいて、自身に対応するアバターArとアバターApとの夫々を自由に操作することができる。
 また、アバターAr及びアバターApの夫々の少なくとも一部には、ユーザUr及びユーザUpの夫々を被写体に含む動画像Mr及び動画像Mpの夫々が貼り付けられている。ユーザUr及びユーザUpの夫々は、仮想空間CでアバターAr及びアバターApの夫々を移動させて、他のアバターと向い合わせることで、あたかも現実世界にいるように会話を交わすことができる。
 即ち、図1の(A)に示すように、アバターAr及びアバターApの夫々の顔の部分には、ユーザUr及びユーザUpの夫々の顔を撮像した動画像が貼り付けられている。一般的にウェブ会議では、ユーザの実際の顔を表示させることでコミュニケーション効果を高めている。これと同様に、アバターの顔の部分にリアルに動く(話す)実際のユーザの顔が表示させることにより、現実世界により近いコミュニケーション環境を仮想空間に形成させることができる。その結果、ユーザの利便性を向上させる効果を顕著なものとすることができる。
 なお、アバターAr及びアバターApの夫々には、必ずしも動画像Mr及び動画像Mpの夫々が貼り付けられている必要はない。例えば図1の(B)に示すように、アバターAp1乃至Ap11には動画像Mpを張り付けて、アバターArには動画像Mrを張り付けないようにすることもできる。また例えば、図示はしないが、アバターArには動画像Mrを張り付けて、アバターApには動画像Mpを張り付けらないようにすることもできる。さらに例えば、図1の(B)のアバターAp12及びAp13に示すように、動画像Mpを貼り付けない(表示させない)代わりに、顔を模した描画(例えばキャラクターの顔等)を貼り付けてもよい。
 図2には、ユーザ端末2に表示される、アバターApの設定を行うためのユーザインターフェースの具体例が示されている。
 ユーザUpは、ユーザ端末2を操作することで、仮想空間Cに配置されたアバターApを移動させたり所定の動作を行わせたりすることができる。
 例えば、ユーザ端末2がパーソナルコンピュータである場合、ユーザUpは、キーボードの所定のボタンを押下したりマウスをクリックする操作をすることにより、アバターApを移動させたり所定の動作を行わせたりすることができる。また例えば、ユーザ端末2がスマートフォンである場合、ユーザUpは、タップする操作により、アバターApを移動させたり所定の動作を行わせたりすることができる。なお、操作の具体例については後述する。
 また、ユーザUpは、ユーザ端末2を操作することで、アバターApに関する各種の設定を行うことができる。具体的には、ユーザUpは、図2に示す仮想空間Cのうち、破線で示された領域F1に表示されるユーザインターフェースに対する各種の操作を行うことでアバターApの設定を行うことができる。
 即ち、図2に示すユーザインターフェースには、ビデオエリアWと、「ビデオ ON/OFF」と表記されたビデオボタンB1と、「マイク ON/OFF」と表記されたマイクボタンB2と、「手を上げる」と表記されたジェスチャーボタンB3と、「手を振る」と表記されたジェスチャーボタンB4と、「拍手」と表記されたジェスチャーボタンB5と、「?」と表記されたジェスチャーボタンB6と、「嬉しい」と表記されたジェスチャーボタンB7と、「悲しい」と表記されたジェスチャーボタンB8と、「怒る」と表記されたジェスチャーボタンB9と、「驚く」と表記されたジェスチャーボタンB10と、「閉じる」と表記された設定終了ボタンB11とが配置されている。
 ビデオエリアWには、アバターApに張り付けられている動画像Mpと同一内容の動画像Mpが表示される。ユーザUpは、ビデオエリアWに表示された動画像Mpを見ることで、アバターApの一部に自分がどのように映し出されているのかを一見して把握することができる。
 「ビデオ ON/OFF」と表記されたビデオボタンB1は、仮想空間Cにおいて、動画像MpをアバターApの一部に表示させる場合と、表示させない場合とを切り替えるためのボタンである。ビデオボタンB1が「ON」の場合、アバターApの少なくとも一部に動画像Mpが表示される。ビデオボタンB1が「OFF」の場合、アバターApに動画像Mpが表示されない。
 「マイク ON/OFF」と表記されたマイクボタンB2は、仮想空間Cにおいて、アバターApから音声を出力させるかどうかを選択するためのボタンである。マイクボタンB2が「ON」の場合、アバターApから音声が出力される。マイクボタンB2が「OFF」の場合、アバターApから音声は出力されない。なお、マイクボタンB2が「OFF」の場合であっても、後述するジェスチャーに伴う音が出力されるようにすることができる。
 ジェスチャーボタンB3乃至B10は、仮想空間Cに配置されたアバターApに所定のジェスチャーを行わせるためのボタンである。なお、ここでいう「ジェスチャーを行わせる」とは、そのジェスチャーそのものを行わせることに限定されず、そのジェスチャーを想起させる所定の音声を出力させたり所定のマークを表示させたりすることも含むものとする。
 これにより、ユーザUpは、自分の気持ちを表現するための手法を選択して適用することができる。その結果、よりユーザUpの気持ちに近い表現をアバターApに行えるようになる。
 また、ユーザUpの動きにアバターApの動き(ジェスチャー)を連動させることもできるが、この場合、アバターApの動きのバリエーションがユーザUpの動きの範囲に限定されることになる。これに対して、アバターApの動きのパターンと、そのパターンの動きを指示させる操作とが予め設定されるようにすることで、例えばボタンを押下するような容易な操作で簡単にアバターApを動かすことができる。これにより、例えばアバターApの動きを現実離れした(現実の物理法則に従わない)ものにすることも容易に実現可能になる。
 具体的には例えば、ジェスチャーボタンB3は、仮想空間Cに配置されたアバターApに、手を上げるジェスチャーを行わせるためのボタンである。ジェスチャーボタンB3が押下されると、アバターApは、手を上げるジェスチャーそのものを行うか、「はい」という音声を出力したり、挙手を示すマーク(例えば手を模したイラスト)を表示させたりする。このうちどちらを採用するかはユーザUpの自由であるが、アバターApのデザインにも依存する。これは、アバターApのデザインがジェスチャーそのものを行うことに適していない(例えば手足がないデザイン)場合もあり得るからである。例えば図2には、「嬉しい」と表記されたジェスチャーボタンB7が押下されたときの例が示されているが、この例では、ジェスチャーボタンB7が押下されると、アバターApは「嬉しさ」を示すハートマークHを表示させる。このとき、「嬉しさ」を示すハートマークHは、他者からの視点でのアバターApの近傍に表示されるとともに、ユーザUpからの視点でのユーザインターフェースの近傍にも表示される。
 また例えば、ジェスチャーボタンB4は、仮想空間Cに配置されたアバターApに、手を振るジェスチャーを行わせるためのボタンである。ジェスチャーボタンB4が押下されると、アバターApは、手を振るジェスチャーそのものを行うか、例えば「おーい」という音声を出力したり、手を振っている様子が表現されたイラストを表示させたりする。
 また例えば、ジェスチャーボタンB5は、仮想空間Cに配置されたアバターApに、拍手のジェスチャーを行わせるためのボタンである。ジェスチャーボタンB5が押下されると、アバターApは、拍手のジェスチャーそのものを行うか、例えば「素晴らしい」という音声を出力したり、拍手する様子が表現されたイラストを表示させたりする。
 また例えば、ジェスチャーボタンB6は、仮想空間Cに配置されたアバターApに、疑問のジェスチャーを行わせるためのボタンである。ジェスチャーボタンB6が押下されると、アバターApは、疑問のジェスチャーそのものを行うか、例えば疑問を示す音声を出力したり、「?」のマークを表示させたりする。
 また例えば、ジェスチャーボタンB8は、仮想空間Cに配置されたアバターApに、悲しい気持ちを表すジェスチャーを行わせるためのボタンである。ジェスチャーボタンB8が押下されると、アバターApは、悲しい気持ちを表すジェスチャーそのものを行うか、例えば悲しい気持ちを表す音声を出力したり、悲しい気持ちが表現されたイラストを表示させたりする。
 また例えば、ジェスチャーボタンB9は、仮想空間Cに配置されたアバターApに、怒る気持ちを表すジェスチャーを行わせるためのボタンである。ジェスチャーボタンB9が押下されると、アバターApは、怒る気持ちを表すジェスチャーそのものを行うか、怒る気持ちを表す音声を出力したり、怒る気持ちが表現されたイラストを表示させたりする。
 また例えば、ジェスチャーボタンB10は、仮想空間Cに配置されたアバターApに、驚く気持ちを表すジェスチャーを行わせるためのボタンである。ジェスチャーボタンB10が押下されると、アバターApは、驚く気持ちを表すジェスチャーそのものを行うか、驚く気持ちを表す音声を出力したり、驚く気持ちが表現されたイラストを表示させたりする。
 このように、ユーザUpは、ジェスチャーボタンB3乃至B10を押下する操作を行うだけで、そのときの自分の意思や感情をアバターApによって的確に表現できる。その結果、ユーザUpは、ユーザ端末2を操作しながら、あたかも現実世界のようなコミュニケーション環境を体感することができる。
 「閉じる」と表記された設定終了ボタンB11は、アバターApの設定を終了させるためのボタンである。設定終了ボタンB11が押下されると、ユーザインターフェースが閉じる。
 図3には、ユーザ端末2に表示される、ウェブ会議及びアバターArの設定を行うためのユーザインターフェースの具体例が示されている。
 図4には、ウェブ会議で実現されるシアター機能の具体例が示されている。
 ユーザUrは、ユーザ端末2を操作することで、仮想空間Cに配置されたアバターApを操作する。例えば、ユーザ端末2がパーソナルコンピュータである場合、ユーザUrは、キーボードの所定のボタンを押下したりマウスをクリックする操作をすることにより、アバターArを移動させたり所定の動作を行わせたりする。また例えば、ユーザ端末2がスマートフォンである場合、ユーザUrは、タップする操作により、アバターArを移動させたり所定の動作を行わせたりする。
 また、ユーザUrは、ユーザ端末2を操作することで、ウェブ会議及びアバターArに関する各種の設定を行うことができる。具体的には、ユーザUrは、図3に示すユーザインターフェースに対する各種の操作を行うことでウェブ会議及びアバターArの設定を行うことができる。
 図3に示すユーザインターフェースは、表示領域F11乃至F14を含むように構成されている。
 表示領域F11には、予め設定されたイベント(ウェブ会議)に関する情報が「イベント情報」として表示されている。イベント情報には、イベント名(ウェブ会議の名称)と、イベント(ウェブ会議)の主催者(ユーザUr)の名称と、登壇者一覧とが含まれる。「登壇者」とは、イベント(ウェブ会議)に参加者として参加した1以上のユーザUpのうち、ステージTに登壇する1以上のユーザUpのことをいう。登壇者一覧には、1以上の登壇者の夫々の名称と、操作の状況や通信の状況を示すボタンとが表示される。登壇者一覧に表示された登壇者は、ドラックする操作によって順番(登壇の順番)を入れ替えることができる。操作の状況が「操作中」である場合には、後述する表示領域F12における配布資料の設定の操作が可能となる。また、操作の状況が「操作中」の登壇者がいる状態で、別の登壇者の「資料操作」と表記されたボタンが押下されると、資料の操作権限が別の登壇者に移る。また、通信の状況が「通信中」の場合に、動画像と音声による通信が可能となる。具体的には、後述する表示領域F13の通信の設定を行うためのチェックボックスのうち「Webカメラ」にチェックが入っているユーザUpの撮像画像が、図1の(A)のスクリーンLbと、後述する表示領域F14のスクリーンLaとに表示される。
 表示領域F12の上側には、配布資料を設定するための各種操作ボタンが表示される。具体的には、資料のファイル形式を設定するためのボタンと、背景を設定するためのボタンが表示される。また、その下側には、一覧表示エリアが表示される。
 資料のファイル形式を設定するためのボタンとしては、「PDF」と表記されたボタンB21と、「動画」と表記されたボタンB22とが表示される。このうち、ボタンB21は、スクリーンLb、及び後述するスクリーンLaに、PDF形式の配布資料を表示させるためのボタンである。また、ボタンB22は、スクリーンLb、及び後述するスクリーンLaに、動画像を表示させるためのボタンである。
 背景を設定するためのボタンとしては、「360°画像」と表記されたボタンB23と、「360°動画」と表記されたボタンB24とが表示される。このうち、ボタンB23は、イベント(ウェブ会議)とユーザUpに対応付けられた360°画像の一覧を表示させるためのボタンである。また、ボタンB24は、イベント(ウェブ会議)とユーザUpに対応付けられた360°動画の一覧を表示させるためのボタンである。
 一覧表示エリアには、設定された配布資料、360°画像、360°動画の内容が表示される。
 表示領域F13には、イベント(ウェブ会議)を運営するための機能を設定するための各種のチェックボックス及びボタンが表示される。
 具体的には、通信の設定とアバターの表示の設定との夫々を行うためのチェックボックスと、チェックボックスのチェックを一括解除するためのボタンB25及びB26との夫々が表示される。また、建物の表示や照明の設定を行うためのチェックボックス、及びイベント(ウェブ会議)の録画を行うためのボタンB27が表示される。
 「Webカメラ」のチェックボックスにチェックが入ると、ユーザUrのウェブカメラ(図示せず)が起動し、その撮像画像がスクリーンLa、及び後述するスクリーンLbに表示される。
 「マイク」のチェックボックスにチェックが入ると、ユーザUrのマイク(図示せず)が起動する。
 「観客マイク」のチェックボックスにチェックが入ると、イベント(ウェブ会議)の参加者であるユーザUpのマイク(図示せず)が起動する。
 「観客音」のチェックボックスにチェックが入ると、観客(イベント(ウェブ会議)の参加者)であるユーザUpのアバターApがジェスチャーを行った際に生じる音声が出力される。
 「主催者」のチェックボックスにチェックが入ると、ユーザUrのアバターArが表示される。
 「登壇者」のチェックボックスにチェックが入ると、登壇者としてのユーザUpのアバターApが表示される。
 「観客」のチェックボックスにチェックが入ると、登壇者としてではなく観客(イベント(ウェブ会議)の参加者)であるユーザUpのアバターApが表示される。
 「建物表示」のチェックボックスにチェックが入ると、後述するシアター画面が表示される。
 「照明」のチェックボックスにチェックが入ると、例えば図4に示すシアター機能のように、図1の(A)のスクリーンLb、及び後述するスクリーンLaが白色で表示されるとともに、ステージTが明るくなるように表示される。この場合、主催者としてのユーザUrに対応するアバターArと、登壇者としてのユーザUpに対応するアバターApとがステージT上で向かい合って話をすることもできる。また、1以上の登壇者をスクリーンLbに表示させることもできる。
 これに対して、「照明」のチェックボックスのチェックが外れると、図示はしないが、図1のスクリーンLb、及び後述するスクリーンLaが黒色で表示されるとともに、ステージTが明るくなるように表示される。この場合、例えばオーケストラが演奏する動画像をスクリーンLbに表示させて、現実世界のコンサートのように多数のユーザUpが鑑賞できるようにすることもできる。
 また、表示領域F13には、アバターArのジェスチャーを設定するための各種のジェスチャーボタンが表示される。
 具体的には、「おじぎ」と表記されたジェスチャーボタンB28と、「拍手」と表記されたジェスチャーボタンB29と、「ジャンプ」と表記されたジェスチャーボタンB30と、「うなずく」と表記されたジェスチャーボタンB31と、「驚く」と表記されたジェスチャーボタンB32と、「手を振る」と表記されたジェスチャーボタンB33と、「嬉しい」と表記されたジェスチャーボタンB34と、「悲しい」と表記されたジェスチャーボタンB35と、「怒る」と表記されたジェスチャーボタンB36と、「手を上げる」と表記されたジェスチャーボタンB37と、「つっこみ」と表記されたジェスチャーボタンB38とが表示される。
 ユーザUrは、ジェスチャーボタンB28乃至B38のうちいずれか1以上を選択して押下すると、選択されたジェスチャーそのものをアバターArが行う。また、上述の図2のジェスチャーボタンB3乃至B10が押下された場合と同様に、そのジェスチャーそのものを行うのではなく、そのジェスチャーに合わせて所定の音声を出力させたり所定のマークを表示させたりすることもできる。
 ここで、アバターArが行うことができるジェスチャーの種類は、ジェスチャーボタンB28乃至B38に対応するジェスチャーに限定されない。新規のジェスチャーを登録することもできる。なお、新規のジェスチャーを登録する場合の具体例については、図5を参照して後述する。
 また、表示領域F13には、「イベントを終了する」と表記されたボタンB39が表示される。ボタンB39が押下されると、イベント(ウェブ会議)が終了する。
 表示領域F14には、シアター画面が表示される。「シアター画面」とは、主催者としてのユーザUrの視点から見た仮想空間Cを示すものである。なお、図3には、イベント(ウェブ会議)のステージTに登壇者として登壇しているユーザUpを、主催者としてのユーザUrがステージTの袖から見ている様子が示されている。シアター画面は、ドラックの操作により、左右上下を表示させることができる。また、ユーザ端末2に対する操作により、アバターArを移動させることもできる。アバターArが移動すると、ユーザUpの視点からは、アバターArがステージT上を歩いている様子を見ることができる。
 また、表示領域F14には、スクリーンLaが表示される。スクリーンLaには、選択された配布資料や動画像が表示される。スクリーンLaの所定位置をクリック(又はタップ)する操作が行われると、動画像の再生・一時停止が可能となる。下部に配置されたスライドバーIは動画像の再生位置を示すバーであり、任意の位置に合わせる操作により任意の位置から再生開始することができる。また、スクリーンLaに表示された配布資料や動画像には、ペンよる書き込みや消しゴムによる消去も可能である。また、ペンで書き込みを行った配布資料が次に進むと、書き込まれた箇所が自動的に消去されるようにすることもできる。また、動画像に対するペンによる書き込みは、動画像の一時停止中に行うこともできるし、再生中に行うこともできる。
 スクリーンLaに表示されている内容は、図1の(A)のスクリーンLbにミラー表示されるので、イベント(ウェブ会議)の参加者との間で共有される。
 図5乃至図7には、ユーザ端末2に表示される、イベント(ウェブ会議)に関する情報(以下、「イベント情報」と呼ぶ)を登録するためのユーザインターフェースの具体例が示されている。
 イベント(ウェブ会議)の主催者としてのユーザUrが、イベント情報を登録する場合、イベント情報の入力(ステップS1)、配布資料の追加(ステップS2)、360°画像の追加(ステップS3)、360°動画の追加(ステップS4)の順で入力作業を行う。
 図5の(A)には、上述のステップS1の入力画面の例が示されている。即ち、ステップS1の入力画面には、イベント(ウェブ会議)の名称を入力するための入力欄E11と、イベント(ウェブ会議)の開催日時や参加費の種別(有料又は無料)を選択して入力するための入力欄E12と、アバターArを登録するためのボタンB51乃至B53とが表示される。ボタンB51は、アバターArのデータを参照するためのボタンである。ボタンB51が押下されると、例えば図5の(B)に示すような画面が表示される。
 ユーザUrは、例えば図5の(B)に示すような画面により、仮想空間Cに配置されるアバターArの種類を自由に選択することができる。これにより、ユーザUrのアバターArに対する愛着度が向上することや、本サービスを利用したいと思う者が増えることが期待できる。
 図5の(A)に戻り、ボタンB52は、参照されたアバターArのデータを削除するためのボタンである。
 「編集」と表記されたボタンB53は、上述した図5の(A)に示すジェスチャーを登録するための画面をポップアップ表示させるためのボタンである。
 入力欄E13は、登壇者の名称を入力するための入力欄である。
 「登壇者を追加」と表記されたボタンB54は、入力欄E13を追加するためのボタンである。
 図5の(C)には、ユーザ端末2に表示される、アバターArのジェスチャーの登録を行うためのユーザインターフェースの具体例が示されている。
 図5の(C)に示すユーザインターフェースには、入力欄E14と、「削除」と表記されたボタンB55と、「編集」又は「参照」と表記されたボタンB56と、「+ジェスチャーを追加」と表記されたボタンB57と、「保存」と表記されたボタンB58とが表示される。
 入力欄E14は、登録するジェスチャーの名称を入力するための入力欄である。
 ボタンB55は、入力欄E1に入力されたジェスチャー名と、アップロードされたジェスチャーのデータとを削除するためのボタンである。
 ボタンB56は、ジェスチャーのデータがアップロードされていない場合には「参照」と表記された状態で表示され、ジェスチャーのデータがアップロードされている場合には「編集」と表記された状態で表示される。「参照」と表記された状態のボタンB56を押下すると、ファイルを参照するための別ウィンドウが表示される。
 ボタンB57は、入力欄を増やしたいときに押下するボタンである。
 ボタンB58は、入力された新規のジェスチャーを登録する際、及び登録済みのジェスチャーの編集結果を反映させる際に押下するボタンである。
 このように、ユーザUrは、アバターArのジェスチャーを自由に登録・編集等することができる。これにより、ユーザUrの意思や感情をさらに忠実にアバターArに反映させることができるので、ユーザUrにおけるさらなる利便性の向上を図ることができる。
 図6の(A)には、上述のステップS2の入力画面の例が示されている。ステップS2の入力画面には、イベント(ウェブ会議)の配布資料を追加または削除するための操作ボタンと、が表示される。具体的には、PDFファイルの追加及び削除の夫々を行うためのボタンB61及びB62の夫々と、動画ファイルの追加及び削除の夫々を行うためのボタンB63及びB64の夫々とが表示される。
 必要事項が入力され、その旨を示すボタン(図示せず)が押下されると、図6の(B)に示す画面がユーザ端末2に表示される。
 図6の(B)には、上述のステップS3の入力画面の例が示されている。ステップS3の入力画面には、「背景を追加する」と表記されたボタンB65と、360°画像を定義するX軸、Y軸、及びZ軸の夫々についての設定を行うための設定バーGと、「設定を保存する」と表記されたボタンB66と、「背景を削除する」と表記されたボタンB67とが表示される。
 必要事項が入力され、その旨を示すボタン(図示せず)が押下されると、図6の(C)に示す画面がユーザ端末2に表示される。
 図6の(C)には、上述のステップS4の入力画面の例が示されている。ステップS4の入力画面には、「背景を追加する」と表記されたボタンB68と、360°動画を定義するX軸、Y軸、及びZ軸の夫々についての設定を行うための設定バーGと、「設定を保存する」と表記されたボタンB69と、「背景を削除する」と表記されたボタンB70とが表示される。
 必要事項が入力され、その旨を示すボタン(図示せず)が押下されると、イベント情報が登録される。
 イベント情報が登録されると、登壇者の配布資料を登録するためのウェブページのURL(Uniform Resource Locator)と、イベント(ウェブ会議)に登壇者として参加するためのURLとが発行される。発行された2つのURLは、登壇者となるユーザUpを一意に特定可能な情報に対応付けられて、そのユーザUpに提供される。
 また、イベント情報が登録されると、そのイベント(ウェブ会議)に(登壇者としてではなく)参加するためのURLが発行される。イベント(ウェブ会議)に(登壇者としてではなく)参加するためのURLは、イベント(ウェブ会議)の種別(有料又は無料)毎に夫々発行される。この場合、例えば、無料のイベント(ウェブ会議)については、複数のユーザUpに対して同一のURLが提供され、有料のイベント(ウェブ会議)については、1のユーザUpに対して1のURLが提供されるようにしてもよい。また、発行されるURLには有効期限を設けてもよい。
 図7には、登録されたイベント情報の編集画面の具体例が示されている。
 登録されたイベント情報は編集することができる。例えば、配布資料を追加・削除したり、360°画面や360°動画を編集したりすることもできる。この場合、図7に示す画面に表示されたボタンB71乃至B74を押下することで、配布資料の追加・削除を行い、ボタンB75及びB76を押下することで、360°画面や360°動画の編集を行う。
 図8には、各ユーザから見える仮想空間上の景色の具体例が示されている。
 具体的には、教室を模した仮想空間Cでウェブ会議が開催される場合に、主催者としてのユーザUrのアバターArを介して見える景色と、参加者としてのユーザUpのアバターApを介して見える景色とが示されている。
 即ち、図8の左図に示す景色は、主催者としてのユーザUrのアバターArを介して見える仮想空間C上の景色である。このため、ユーザUrからはアバターApが見える。これに対して、図8の右図に示す景色は、参加者としてのユーザUpのアバターApを介して見える仮想空間C上の景色である。このため、ユーザUpからはアバターArが見える。
 このように、ユーザUrのアバターArを介して見える仮想空間C上の景色と、ユーザUpのアバターApを介して見える仮想空間C上の景色とは異なる。つまり、アバターAr及びアバターApが配置されている背景としての仮想空間Cは教室を模した同一空間であるが、アバターArとアバターApとの夫々の見る角度が異なるために異なった景色が見えている。
 このため、同一の仮想空間Cに配置されているアバター(アバターArやアバターAp)が複数存在する場合には、夫々異なった景色が見え、視界に入る自分以外の他のアバターが見える。その結果、例えば、参加者が多いために複数のアバターApが仮想空間C上に存在する場合もある。このような場合、アバターApの位置や見る角度によっては、例えば図8に示すスクリーンLbに他のアバターApが重なって見え難くなるような事態が生じるおそれがある。
 そこで、本サービスでは、同一の仮想空間Cに配置されているアバター(アバターArやアバターAp)を、任意のタイミングで仮想空間C上から消したり再び表示させたりすることができる。これにより、スクリーンLbに他のアバターApが重なって見え難くなるような事態が生じることがなくなるので、ユーザの利便性を向上する。
 また、本サービスには、上述したサービスの他、例えば以下のようなサービスも含まれる。
 即ち、登録されたイベント(ウェブ会議)はステータス管理され、未開催のイベント、及び開催済みのイベントの夫々が、ユーザUrのユーザ端末2に夫々一覧表示される。また、開催時に録画されたイベント(ウェブ会議)は、ダウンロード可能な態様で、ユーザUrのユーザ端末2に一覧表示される。
 また、予め設定されたイベント(ウェブ会議)日時が到来すると、自動的にイベント(ウェブ会議)が終了して、参加者(ユーザUp)を強制的に退場するようにすることができる。
 また、360°画像の世界で、どこに何があるのかを伝えるために、レーザポインタを用いて、対象となる位置等を示すこともできる。
 以上をまとめると、本サービスでは、少なくとも以下の内容が実現される。
 即ち、仮想空間Cに配置されたアバターAr及びApを自由に動かすことができるウェブ会議が実現される。具体的には、アバターAr及びApそのものを動かすことができるだけではなく、ウェブ会議の画面を顔として動かすことができる。つまり、ユーザUr及びUpの視点から見えるウェブ会議の景色を動かすことができる。これにより、あたかも現実世界の会議会場で知人と会話を交わすような体験が得られる。
 また、アバターAr及びApの動きを自由に制御することが可能となる。具体的には、アバターAr及びApの動きを予め登録しておき、これを再現する。これにより、ユーザ端末2のボタン操作でアバターAr及びApに動きをつけることができるので、例えばVR(バーチャルリアリティー)機器を装着するような面倒な作業が不要となる。その結果、配信作業が単純化される。さらに、普通の人間ではできないような動きもジェスチャーとして登録することも可能となるので、ユーザUr及びUpの意思や感情を、より忠実に、かつ、より伝達し易い態様で表現することが可能となる。
 次に、図9を参照して、上述した本サービスの提供を実現化させる情報処理装置が適用される情報処理システムの構成について説明する。
 図9は、本発明の情報処理装置の一実施形態に係るサーバが適用される情報処理システムの構成の一例を示す図である。
 図9に示す情報処理システムは、サーバ1と、ユーザ端末2とを含むように構成されている。
 サーバ1、及びユーザ端末2は、インターネット等の所定のネットワークNWを介して相互に接続されている。
 サーバ1は、サービス提供者(図示せず)により管理される情報処理装置である。サーバ1は、ユーザ端末2と適宜通信をしながら、本サービスを実現するための各種処理を実行する。
 ユーザ端末2は、ユーザUr及びUpにより操作される情報処理装置である。ユーザ端末2は、パーソナルコンピュータ、タブレット、スマートフォン等で構成される。
 なお、図9には、ユーザ端末2が1台のみ描画されているが、これは説明を理解し易くするために簡略化させたものであり、実際にはn人(nは1以上の整数値)のユーザUの夫々により操作されるn台のユーザ端末2の夫々が存在し得る。即ち、本サービスにより提供されるイベント(ウェブ会議)の参加人数は特に限定されず、例えば百人、千人単位での参加も可能となる。
 図10は、図9に示す情報処理システムのうちサーバのハードウェア構成の一例を示すブロック図である。
 サーバ1は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、バス14と、入出力インターフェース15と、入力部16と、出力部17と、記憶部18と、通信部19と、ドライブ20とを備えている。
 CPU11は、ROM12に記録されているプログラム、又は、記憶部18からRAM13にロードされたプログラムに従って各種の処理を実行する。
 RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
 CPU11、ROM12及びRAM13は、バス14を介して相互に接続されている。このバス14にはまた、入出力インターフェース15も接続されている。入出力インターフェース15には、入力部16、出力部17、記憶部18、通信部19及びドライブ20が接続されている。
 入力部16は、例えばキーボード等により構成され、各種情報を入力する。
 出力部17は、液晶等のディスプレイやスピーカ等により構成され、各種情報を画像や音声として出力する。
 記憶部18は、DRAM(Dynamic Random Access Memory)等で構成され、各種データを記憶する。
 通信部19は、インターネットを含むネットワークNWを介して他の装置(例えば図9のユーザ端末2等)との間で通信を行う。
 ドライブ20には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなる、リムーバブルメディア40が適宜装着される。ドライブ30によってリムーバブルメディア40から読み出されたプログラムは、必要に応じて記憶部28にインストールされる。
 また、リムーバブルメディア40は、記憶部18に記憶されている各種データも、記憶部18と同様に記憶することができる。
 なお、図示はしないが、図9のユーザ端末2も、図10に示すハードウェア構成と基本的に同様の構成を有することができる。従って、ユーザ端末2のハードウェア構成の説明については省略する。
 このような図10のサーバ1を含む図9の情報処理システムの各種ハードウェアと各種ソフトウェアとの協働により、アバター制御処理を含む各種処理の実行が可能になる。その結果、サービス提供者は、ユーザUr及びユーザUpに対し、例えば図1乃至図8に示す本サービスを提供することができる。
 「アバター制御処理」とは、ユーザUr及びユーザUpの夫々のアバターAr及びアバターApの夫々の少なくとも一部(例えば顔の部分)に、動画像Mr及びMpの夫々を表示させ、また、音声の出力や移動をさせる処理のことをいう。
 以下、図11を参照して、図10のサーバ1において実行される、アバター制御処理を実行するための機能的構成について説明する。
 図11は、図10のサーバの機能的構成のうち、アバター制御処理を実行するための機能的構成の一例を示す機能ブロック図である。
 図11に示すように、図10の情報処理装置のうち、サーバ1のCPU11においては、アバター制御処理の実行が制御される場合、動画像取得部101と、アバター生成部102と、ジェスチャー管理部103と、操作受付部104と、アバター配置部105と、仮想空間構築部106と、表示画像生成部107と、表示制御部108と、音声出力制御部109とが機能する。また、サーバ1の記憶部18の一領域には、アバターDB181が設けられている。アバターDB181には、アバター生成部102により生成されたアバターAr及びApの夫々に関する情報が、対応するユーザUr及びユーザUpの夫々に対応付けらえて管理されている。
 動画像取得部101は、ユーザUr及びユーザUpの夫々を被写体に含む動画像Mr及びMpの夫々の動画像情報を取得する。
 また、動画像取得部101は、動画像Mr及びMpの夫々に対応する複数の音声情報を取得する。
 アバター生成部102は、ユーザUr及びユーザUpの夫々に対応するアバターであって、少なくとも一部に動画像Mr及びMpの夫々を貼り付けたアバターAr及びApの夫々を生成する。
 アバター生成部102では、主催者生成部121と、参加者生成部122とが機能する。主催者生成部121は、ユーザUrに対応するアバターであって少なくとも一部に動画像Mrを貼り付けたアバターArを生成する。参加者生成部122は、ユーザUpに対応するアバターであって少なくとも一部に動画像Mpを貼り付けたアバターApを生成する。
 ジェスチャー管理部103は、アバターAr及びApの夫々の1以上のジェスチャーのパターンと、これをアバターAr及びApの夫々に指示するための操作とを対応付けて管理する。
 操作受付部104は、1以上のジェスチャーのパターンをアバターAr及びApに指示するための操作を受け付ける。
 アバター配置部105は、アバターAr及びApを仮想空間Cに配置する。
 仮想空間構築部106は、仮想空間Cを構築する。
 表示画像生成部107は、アバターAr及びApが配置された仮想空間Cにおいて、所定の視点から視認し得る景色の画像のデータを生成する。具体的には例えば、上述の図1の(B)に示すような、アバターArの背後からの視点から視認し得る画像のデータや、図8に示すようなアバターAr及びApの夫々の目で視認し得る景色の画像のデータを生成する。
 表示制御部108は、表示画像生成部107により生成された画像のデータをユーザ端末2に表示させる制御を実行する。
 音声出力制御部109は、動画像Mr及びMpの夫々に対応する複数の音声の夫々を、対応するアバターAr及びApの夫々から出力させる制御を実行する。具体的には、音声出力制御部109は、アバターAr及びApの夫々から音声を出力させる制御として、仮想空間Cに配置されたアバターAr及びApの相互間の位置に応じて、出力される音声の大きさを制御する。これにより、例えばアバター間の距離が近い場合には、互いに聴こえる音声を大きくし、アバター間の距離が遠い場合には、互いに聴こえる音声を小さくするような制御が可能となる。その結果、より現実世界に近いコミュニケーション環境を仮想空間C内に構築することができる。
 以上、本発明の一実施形態について説明したが、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
 例えば、上述の実施形態では、イベントとしてのウェブ会議を行う仮想空間として会議会場や教室の例が示されているが、これらに限定されない。アバターを配置可能なあらゆる仮想空間に本発明を適用することができる。
 また例えば、図5の(B)には、アバターArの種類を選択する例が示されているが、アバターApの種類も選択できるようにすることもできる。
 また例えば、上述の実施形態では、仮想空間の作成方法について特に限定していないが、例えば以下のような手法により仮想空間を作成することもできる。即ち、まず3次元の白紙の空間(以下、「3次元空間」と呼ぶ)を作成して、その3次元空間にマンガ等の2次元で描画されたものを貼付する。マンガ等は2次元ではあるものの、様々な角度から描画されている。このため、それらを組み合わせながら大量の切り貼りを行うことで仮想空間を作成することができる。そして、最後に色や模様を装飾する。これにより、例えば図1等に示すような仮想空間Cを作成することができる。
 ここで、図12を参照して一般的なWeb会議と本実施形態の動けるWeb会議との違いについて説明する。
 図12は、一般的なWeb会議と本サービスのサーバにより提供される動けるWeb会議との違いを示す図である。
 いままでのWeb会議システムは、カメラで撮像された人を含む平面画像、つまり2D画像が、図12の向かって左側のように、PCのモニタの画面にサムネイル画像で配置されて表示されるだけであったため、人が動いたとしても夫々のサムネイル画像の範囲内でありそれ以上には動けなかった。
 本実施形態の動けるWeb会議の技術の場合は、図12の向かって右側のように、3Dの仮想空間に夫々の会議参加者に対応するアバターが配置されるため、その仮想空間内でアバターの夫々が移動が可能になった。
 これにより、動けるWeb会議としたことで、以下のようなメリットが生じる。
 第1のサービスメリットは、例えば3D空間内をアバターが動けることで、一方的に伝えることしかができなかったWeb会議が一緒に体験や行動ができるようになる。記憶定着率の研究によると、講義を聞くだけは記憶定着率が5%に対し、自ら体験した場合は、記憶定着率が75%と飛躍的に向上することが分かっている。
 第2のサービスメリットは、正面しか見ることのできなかったWeb会議から360度見渡せるようになることで、360度の世界の中の影の向き、図形を立体的に見る等のことができるようになる。
 技術的メリットは、360度の空間になるので、その空間の近くにいる人同士で作業ができたり、近くにいる人とだけ話ができたりする。つまり遠近の距離感が空間の中にできる。
 次に、図13を参照してWeb会議に一般的なVR技術を導入した場合と本実施形態の顔がWebカメラの映像であるWeb会議との違いについて説明する。
 図13は、Web会議に一般的なVR技術を導入した場合と本サービスのサーバにより提供される顔がWebカメラの映像であるWeb会議との違いを示す図である。
 いままでVRは、図13の向かって左の仮想空間のように、人夫々をアバターにするのが一般的であり、図13の向かって右の仮想空間のように、アバターの夫々の顔の部分がWebカメラで撮像された映像(動画像)のものはなかった。VRゴーグルにWebカメラが付いたものは存在したが、本実施形態のようにオブジェクトの一部(例えば上半身や顔の部分)だけがWebカメラの映像のVR(アバター)はなかった。
 本実施形態のように、顔がWebカメラの映像のアバターが参加するWeb会議としたことで、以下のようなメリットが生じる。
 第1のサービスメリットは、学校や営業は、顧客の表情から相手の感情を読み取りコミュニケーションをとっているが、人の顔の部分がWebカメラの映像のVRとしたことで、VRの中でも、その瞬間、瞬間の人の感情を読み取りながら活動できるようになる。つまり非言語コミュニケーションを図ることができる。
 第2のサービスメリットは、顔がWebカメラの映像になったことで、著名人等が顔を出しながらVR空間で活動できるようになる。これにより、著名人のコンサートや講演会が可能となる。
 技術的メリットは、一般的なVRでは顔が見えないと顔データの解析を行うことができないが、本実施形態では、顔の表情を見ることができるので、そのVR空間にいる人の状況を瞬時にデータ解析し状況を把握することができる。具体的には、会議参加者を見た人が、個々のアバターの顔の部分の表情から、みんな楽しんでいるな、みんな話についてきてない等といったことが分かる。
 次に、図14、図15を参照して顔の部分の形状について説明する。
 以下では、図11に示したアバター生成部102の動作として説明する。
 図14は、本サービスのサーバにより提供される顔がWebカメラの映像であるWeb会議における顔の部分の形状の一例を示す図である。
 図15は、本サービスのサーバにより提供される顔がWebカメラの映像であるWeb会議における顔の部分の形状の例のうち図14とは異なる例を示す図である。
 図14に示すように、一般的なWeb会議システムの画面が四角なので、本実施形態についても、顔の部分の映像を四角い形状の枠に当てはめているが、図15に示すように、アバターの顔の部分の映像を円形状の枠に当てはめることにより、アバターが人の状態に近くなり、よりリアルな状態に近づけることができる。
 この結果、オンラインでの会議がよりリアルに近くなり、リアルになることで、より自然なコミュニケーションが可能になる。
 なお、この実施形態では、四角い形状と円形状の枠を例示したが、ここに示した枠の形状は一例であり、例えば人の顔に近い形状であってもよく、他の形状であってもよい。
 続いて、図16を参照して顔の映像(画像又は動画像)の横顔、後頭部について説明する。
 図16は、顔がWebカメラの映像であるWeb会議に適用可能な、本サービスのサーバにより提供される顔の映像の生成の一例を示す図である。
 現在、パーソナルコンピュータやスマートフォンに備えられているカメラは、画面と一体なため、人の正面を撮像するものにしかない。
 そこで、図16に示すように、アバター生成部102は、事前に自分の頭部情報等からアバターを作成する。
 図16の首から上の画像(頭部画像)のうち、顔の部分はWebカメラにより撮像された画像とされており本物の表情を確認することができる。顔以外の頭の部分は、事前登録されたものとする。顔は本人が横を向けばアバター(頭部画像全体)も横を向く等、リアルな首な動きと連動させる。
 具体的には、3Dモデリング技術等により生成し事前に用意しておいた自分の頭部(顔)の形状のアバターをアバターDB181に登録しておき、アバター生成部102は、Webカメラにより撮像される顔の部分(眉、目、鼻、口等の表情がでる部分)の画像を頭部の顔の位置に貼り付ける。
 このように頭部のアバターと、Webカメラにより撮像される顔の部分の画像とを組み合わせることで、Webカメラを活用したアバターでありながら360度どこから見ても、その個人を特定することができるようになる。
 また、頭部のアバターを、実在の人物の動きと連動(追従)させて、操作者本人の姿勢に応じて、首を横に向ければ、アバターの顔も横に向ける等の制御をすることで、よりリアルな動きを再現することができる。
 次に、図17、図18を参照してアバターが動ける世界について説明する。
 図17は、本サービスのサーバにより提供されるアバターが動ける世界の一例を示す図である。
 図18は、本サービスのサーバにより提供されるアバターが動ける世界のうち図17とは異なる例を示す図である。
 いままでVRはコンピュータクラフィック(CG)の世界と360度の画像(静止画、背景等)の世界の中だけで動くことができたが、本実施形態では、アバター配置部105(図11参照)は、図17に示すように、360度動画やリアルタイム映像の360度の中にアバターを配置する。
 これにより、リアルとバーチャルの融合が進み、遠方にいる人も色々な地域のリアルの中に入り込むことができる。具体的には、リアルタイムのスポーツ中継等の観戦ができるようになる。
 さらに、リアルな世界にカメラ付きのアバターロボットを配置し、ロボットアバターを操っている人が同時にリアルな世界のアバターロボットを動作させるように制御する。
 これにより、操作する人がアバターロボットを操作して、リアルな世界でリアルタイムに自由に動きまわることができるようになる。
 動くアバターロボットの形状は、図17に示したVR内のアバターと同等の形状であっても良く、又異なる形状であっても良い。また、図18に示すように、VR空間(スポーツ会場)にいる複数の人(アバター)がスポーツを観戦しつつアバターロボットを操作できるものとする。
 次に、図19を参照して360写真の世界と顔がWebカメラの映像(動画像)のアバターとの組み合わせについて説明する。
 図19は、本サービスのサーバにより提供される360写真の世界と顔がWebカメラの映像(動画像)のアバターとの組み合わせた世界の一例を示す図である。
 例えばグーグルストリートビューや不動産案内等では、360度の画像を用いて次の部屋や前の道へ移動できる移動体験サービスを提供している。このような移動体験サービスは、現時点では、本人視点でその地点から1人で進んだり戻ったりするものであるが、本実施形態では、図19に示すように、360度の連続する世界(360度の写真空間)に複数のアバターで入り、複数のアバターがその世界を移動することができる。
 次に、図20を参照してバーチャル世界と顔がWebカメラの映像(動画像)のアバターとの組み合わせについて説明する。
 図20は、本サービスのサーバにより提供されるバーチャル世界と顔がWebカメラの映像(動画像)のアバターとの組み合わせた世界の一例を示す図である。
 自ら構築したVR空間(リアルタイム・録画問わず)は、イベントやコミュニケーションを行うことができるが、本実施形態は、図20に示すように、自分のVR空間であるシアター等に、新たな部屋、例えばシアター併設会場等を設置(増設)することができる。この実施形態では、部屋を例示したが、この例に限らず、店舗等であってもよい。
 また、これはCGのVR空間だけでなく、360写真(360動画・360リアルタイム動画)の中にもバーチャルの併設会場を設置することができる。即ちCGのVR空間の中に色々な他の空間をつけれるだけでなく、360画像等のVR空間の中にも他のVR空間を配置することができる。
 具体的には、本実施形態では、仮想空間構築部106は、予め用意した部屋や店舗をユーザに提示し、ユーザは、その中から、自分にあった部屋や店舗を選んで、自分のVR空間のシアターに通路空間を介在させて、選択したシアター併設会場を併設することができる。
 これにより、シアターに居るアバターは、シアターから通路空間を通じてシアター併設会場に自由に行き来することができるようになる。この他の例としては、例えばVRのイベント会場の後ろに飲食店や飲食デリバリーの店舗を付ける等のことができる。
 また、店舗側も自分が出店したいVR空間を選ぶことができ、双方のマッチングにより相乗効果のある出店が可能となる。即ちリアルタイムVRや録画VR等を問わずにリンクができる。
 さらにVR空間の中にいる人の特徴に応じた店舗をレコメンドできる機能を有することで、その人に最適な店舗(VR空間)がレコメンドされるので、最適な店舗(VR空間)を併設することができる。
 なお、図9に示すシステム構成や、図10に示すサーバ1のハードウェア構成は、本発明の目的を達成するための例示に過ぎず、特に限定されない。
 また、図11に示す機能ブロック図は、例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が図9の情報処理システムに備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは、特に図11の例に限定されない。
 また、機能ブロックの存在場所も、図11に限定されず、任意でよい。
 即ち、アバター制御処理の実行に必要となる機能ブロックは、サーバ1側が備える構成となっているが、これは例示に過ぎない。サーバ1側に配置された機能ブロックの少なくとも一部を、ユーザ端末2側、あるいは、図示せぬ他の情報処理装置が備える構成としてもよい。
 また、1つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。
 各機能ブロックの処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
 コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えばサーバの他汎用のスマートフォンやパーソナルコンピュータであってもよい。
 このようなプログラムを含む記録媒体は、各ユーザにプログラムを提供するために装置本体とは別に配布される、リムーバブルメディアにより構成されるだけではなく、装置本体に予め組み込まれた状態で各ユーザに提供される記録媒体等で構成される。
 なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に添って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。
 また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものである。
 以上まとめると、本発明が適用される情報処理装置は、次のような構成を取れば足り、各種各様な実施形態を取ることができる。
 即ち、本発明が適用される情報処理装置は、
 ユーザ(例えば上述のユーザUr)を被写体に含む動画像(例えば図1の動画像Mr)のデータ(例えば上述の動画像情報)を取得する動画像取得手段(例えば図11の動画像取得部101)と、
 前記ユーザに対応するオブジェクトであって、少なくとも一部に前記動画像を貼り付けたオブジェクト(例えば図1のアバターAr)を生成するオブジェクト生成手段(例えば図11のアバター生成部102)と、
 前記オブジェクトを、3次元の仮想空間(例えば図11の仮想空間構築部106により生成された図1の仮想空間C)に配置させるオブジェクト配置手段(例えば図11のアバター配置部105)と、
 前記オブジェクトが配置された前記仮想空間において、所定の視点(例えば図1の(B)に示すアバターArの背後からの視点)から視認し得る画像(例えば図1の(B)に示す画像)のデータを生成する画像生成手段(例えば図11の表示画像生成部107)と、
 を備える。
 即ち、ユーザを被写体に含む動画像のデータが取得される。そして、そのユーザに対応するオブジェクトであって、取得された動画像が一部に張り付けられたオブジェクトが生成される。生成されたオブジェクトは、3次元の仮想空間に配置される。そして、生成されたオブジェクトが配置された仮想空間において、所定の視点から視認し得る画像のデータが生成される。
 これにより、ユーザに対応するオブジェクトが仮想空間に配置される際、ユーザの意思や感情がより忠実に反映されたオブジェクトを仮想空間に配置させることができる。その結果、従来よりも現実世界に近いコミュニケーション環境を仮想空間に形成させることができる。
 また、前記動画像取得手段は、
  複数の前記ユーザ(例えば上述のユーザUp)の夫々を被写体に含む複数の動画像(例えば図1の動画像Mp)のデータの夫々を取得するとともに、さらに、複数の動画像の夫々に対応する複数の音声のデータ(例えば上述の音声情報)の夫々を取得し、
 前記オブジェクト生成手段は、前記複数のユーザの夫々に対応する複数の前記オブジェクトの夫々を生成し、
 前記オブジェクト配置手段は、前記複数のオブジェクト(例えば図1のアバターAp)を前記仮想空間に配置させ、
 前記画像生成手段は、前記複数のオブジェクトが配置された前記仮想空間において、前記所定の視点(例えば図1の(A)に示すアバターApからの視点)から視認し得る画像(例えば図1の(A)に示す画像)のデータを生成し、
 さらに、前記情報処理装置は、前記複数の音声の夫々を、対応する前記複数の画像の夫々が貼り付けられた前記複数のオブジェクトから夫々出力させる制御を実行する音声出力制御手段(例えば図11の音声出力制御部109)をさらに備えることができる。
 即ち、複数のユーザの夫々を被写体に含む複数の動画像のデータの夫々が取得され、それとともに複数の動画像の夫々に対応する複数の音声のデータの夫々が取得される。また、複数のユーザの夫々に対応する複数のオブジェクトの夫々が生成される。また、複数のオブジェクトが配置された仮想空間において、所定の視点から視認し得る画像のデータが生成される。そして、複数の音声の夫々が、対応する複数の画像の夫々が貼り付けられた複数のオブジェクトから夫々出力される。
 これにより、複数のユーザの夫々に対応する複数のオブジェクトの夫々が仮想空間に配置される際、複数のユーザの夫々の意思や感情がさらに忠実に反映された複数のオブジェクトの夫々を仮想空間に配置させることができる。
 その結果、仮想空間に存在するオブジェクトに対応するユーザ間における意思の疎通がさらに容易化され、さらに現実世界に近いコミュニケーション環境を仮想空間に形成させることができる。
 また、前記ユーザにより、前記オブジェクトの動きの所定のパターン(例えば図3のユーザインターフェースにおいて選択可能に示される複数種類のジェスチャーのパターンとしての「手を上げる」等)と、当該所定のパターンの動きを指示させる操作(例えば図3のジェスチャーボタンB3乃至B10を押下する操作)とが予め設定されており、
 前記ユーザからの前記操作を受け付ける操作受付手段(例えば図11の操作受付部104、ジェスチャー管理部103)をさらに備え、
 前記オブジェクト生成手段は、前記操作に対応付けられた前記所定のパターンの動きをする前記オブジェクトを生成することができる。
 即ち、ユーザにより、オブジェクトの動きのパターンと、そのパターンの動きを指示させる操作とが予め設定されており、ユーザからの操作が受け付けられる。そして、その操作に対応付けられたパターンの動きをするオブジェクトが生成される。
 これにより、ユーザによるオブジェクトの設定の自由度が高まる。その結果、ユーザの意思や感情をオブジェクトに反映し易くなる。その結果、ユーザの利便性がさらに向上する。
 また、前記オブジェクト生成手段は、前記オブジェクトとして前記仮想空間に配置される前記ユーザの立場(例えば図1のユーザUrとユーザUp)毎に、前記オブジェクトを生成することができる。
 即ち、オブジェクトとして仮想空間に配置されるユーザの立場毎にオブジェクトが生成される。これにより、仮想空間上のユーザの立場に応じた各種設定(例えば上述したジェスチャーの登録)が可能となる。その結果、ユーザの利便性がさらに向上する。
 1・・・サーバ、2・・・ユーザ端末、11・・・CPU、12・・・ROM、13・・・RAM、14・・・バス、15・・・入出力インターフェース、16・・・入力部、17・・・出力部、18・・・記憶部、19・・・通信部、20・・・ドライブ、40・・・リムーバルメディア、101・・・動画像取得部、102・・・アバター生成部、103・・・操作受付部、104・・・ジェスチャー管理部、105・・・アバター配置部、106・・・仮想空間構築部、107・・・表示画像生成部、108・・・表示制御部、109・・・音声出力制御部、121・・・主催者生成部、122・・・参加者生成部、181・・・アバターDB、NW・・・ネットワーク、R・・・主催者、P・・・参加者、Ar,Ap・・・アバター、C・・・仮想空間、Mr,Mp・・・動画像

Claims (3)

  1.  ユーザを被写体に含む動画像のデータを取得する動画像取得手段と、
     前記ユーザに対応するオブジェクトであって、少なくとも一部に前記動画像を貼り付けたオブジェクトを生成するオブジェクト生成手段と、
     前記オブジェクトを、3次元の仮想空間に配置させるオブジェクト配置手段と、
     前記オブジェクトが配置された前記仮想空間において、所定の視点から視認し得る画像のデータを生成する画像生成手段と、
     を備える情報処理装置。
  2.  前記動画像取得手段は、
      複数の前記ユーザの夫々を被写体に含む複数の動画像のデータの夫々を取得するとともに、さらに、複数の動画像の夫々に対応する複数の音声のデータの夫々を取得し、
     前記オブジェクト生成手段は、前記複数のユーザの夫々に対応する複数の前記オブジェクトの夫々を生成し、
     前記オブジェクト配置手段は、前記複数のオブジェクトを前記仮想空間に配置させ、
     前記画像生成手段は、前記複数のオブジェクトが配置された前記仮想空間において、前記所定の視点から視認し得る画像のデータを生成し、
     さらに、前記情報処理装置は、前記複数の音声の夫々を、対応する前記複数の画像の夫々が貼り付けられた前記複数のオブジェクトから夫々出力させる制御を実行する音声出力制御手段をさらに備える、
     請求項1に記載の情報処理装置。
  3.  前記ユーザにより、前記オブジェクトの動きの所定のパターンと、当該所定のパターンの動きを指示させる操作とが予め設定されており、
     前記ユーザからの前記操作を受け付ける操作受付手段をさらに備え、
     前記オブジェクト生成手段は、前記操作に対応付けられた前記所定のパターンの動きをする前記オブジェクトを生成する、
     請求項1又は2に記載の情報処理装置。
PCT/JP2021/039564 2020-10-27 2021-10-26 情報処理装置 WO2022092122A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020179506 2020-10-27
JP2020-179506 2020-10-27

Publications (1)

Publication Number Publication Date
WO2022092122A1 true WO2022092122A1 (ja) 2022-05-05

Family

ID=81383973

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/039564 WO2022092122A1 (ja) 2020-10-27 2021-10-26 情報処理装置

Country Status (1)

Country Link
WO (1) WO2022092122A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001016563A (ja) * 1999-04-16 2001-01-19 Nippon Telegr & Teleph Corp <Ntt> 3次元共有仮想空間表示方法、3次元共有仮想空間通信システム及び方法、仮想会議システム、並びにそのための利用者端末プログラムを記録した記録媒体
JP2020115299A (ja) * 2019-01-18 2020-07-30 株式会社ピスケス 仮想空間情報処理装置、方法、プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001016563A (ja) * 1999-04-16 2001-01-19 Nippon Telegr & Teleph Corp <Ntt> 3次元共有仮想空間表示方法、3次元共有仮想空間通信システム及び方法、仮想会議システム、並びにそのための利用者端末プログラムを記録した記録媒体
JP2020115299A (ja) * 2019-01-18 2020-07-30 株式会社ピスケス 仮想空間情報処理装置、方法、プログラム

Similar Documents

Publication Publication Date Title
US11403595B2 (en) Devices and methods for creating a collaborative virtual session
US20180232930A1 (en) Method for sharing emotions through the creation of three-dimensional avatars and their interaction
WO2020210213A1 (en) Multiuser asymmetric immersive teleconferencing
US11595448B1 (en) Method and apparatus for automatically creating mirrored views of the video feed of meeting participants in breakout rooms or conversation groups during a videoconferencing session
US20180356885A1 (en) Systems and methods for directing attention of a user to virtual content that is displayable on a user device operated by the user
US20230128659A1 (en) Three-Dimensional Modeling Inside a Virtual Video Conferencing Environment with a Navigable Avatar, and Applications Thereof
KR102580110B1 (ko) 내비게이션 가능한 아바타들이 있는 웹 기반 화상 회의 가상 환경 및 그 응용들
CN111355944B (zh) 生成并用信号传递全景图像之间的转换
CN112261433A (zh) 虚拟礼物的发送方法、显示方法、装置、终端及存储介质
US11546385B1 (en) Method and apparatus for self-selection by participant to display a mirrored or unmirrored video feed of the participant in a videoconferencing platform
US11621979B1 (en) Method and apparatus for repositioning meeting participants within a virtual space view in an online meeting user interface based on gestures made by the meeting participants
Regenbrecht et al. Ātea Presence—Enabling Virtual Storytelling, Presence, and Tele-Co-Presence in an Indigenous Setting
Fink et al. Re-locations: Augmenting personal and shared workspaces to support remote collaboration in incongruent spaces
Kenderdine et al. Place-Hampi: Co-evolutionary narrative and augmented stereographic panoramas, Vijayanagara, India
WO2023190344A1 (ja) 情報処理装置、情報処理方法、及びプログラム
Pazour et al. Virtual reality conferencing
WO2022092122A1 (ja) 情報処理装置
US11741674B1 (en) Navigating a virtual camera to a video avatar in a three-dimensional virtual environment, and applications thereof
Farouk et al. Using HoloLens for remote collaboration in extended data visualization
US11928774B2 (en) Multi-screen presentation in a virtual videoconferencing environment
WO2023076649A1 (en) Ingesting 3d objects from a virtual environment for 2d data representation
Parikh et al. A mixed reality workspace using telepresence system
Oliva et al. The Making of a Newspaper Interview in Virtual Reality: Realistic Avatars, Philosophy, and Sushi
US11776227B1 (en) Avatar background alteration
US11741652B1 (en) Volumetric avatar rendering

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21886240

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21886240

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP