WO2023281820A1 - 情報処理装置、情報処理方法、記憶媒体 - Google Patents

情報処理装置、情報処理方法、記憶媒体 Download PDF

Info

Publication number
WO2023281820A1
WO2023281820A1 PCT/JP2022/010264 JP2022010264W WO2023281820A1 WO 2023281820 A1 WO2023281820 A1 WO 2023281820A1 JP 2022010264 W JP2022010264 W JP 2022010264W WO 2023281820 A1 WO2023281820 A1 WO 2023281820A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
information
virtual space
information processing
interest
Prior art date
Application number
PCT/JP2022/010264
Other languages
English (en)
French (fr)
Inventor
孝悌 清水
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023281820A1 publication Critical patent/WO2023281820A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/22Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of characters or indicia using display control signals derived from coded signals representing the characters or indicia, e.g. with a character-code memory
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/22Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of characters or indicia using display control signals derived from coded signals representing the characters or indicia, e.g. with a character-code memory
    • G09G5/24Generation of individual character patterns
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • G09G5/38Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory with means for controlling the display position
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • the present technology relates to the technical field of information processing devices, information processing methods, and storage media that perform processing for sound reproduction using virtual space.
  • Patent Literature 1 when outputting audio acquired from the real space as audio data in the virtual space, effects are applied to the audio from the real space based on the listening position in the virtual space and output. It is stated that This makes it possible to enhance the feeling of being immersed in the virtual space.
  • This technology was created in view of such problems, and aims to provide a user experience accompanied by appropriate sound reproduction at events that users can participate in remotely.
  • the information processing apparatus links the environmental sound in the virtual space and the second avatar placed in the virtual space based on the interest information of the first user linked to the first avatar placed in the virtual space. It includes an emphasis information generation unit that generates control information for performing emphasis control on sound including the second user's uttered voice.
  • Interest information is interest information about sound. Sounds are environmental sounds, speech sounds, and the like. Environmental sounds are sounds emitted in the virtual space, such as performance sounds in a music concert, announcement broadcast sounds for notifying the start of performances, and voices emitted by performers. Also, the uttered voice is the voice or the like uttered by the viewer. Each viewer can experience the sound corresponding to the position of the avatar placed as the alter ego of the viewer in the virtual space.
  • the information processing device generates control information for emphasizing either the environmental sound or the uttered voice, or control information for emphasizing both of them, based on the interest information of the first user.
  • FIG. 2 is a diagram for explaining an outline of a concert held in virtual space
  • FIG. 1 is a block diagram showing a configuration example of a provision system
  • FIG. It is a block diagram which shows the structural example of a client system.
  • 1 is a block diagram of a computer device
  • FIG. 6 is a flow chart showing an example of the flow of processing relating to machine learning
  • 4 is a flow chart showing the flow of volume adjustment processing in the first embodiment.
  • 9 is a flow chart showing another example of the flow of volume adjustment processing in the first embodiment.
  • 10 is a flow chart showing the flow of volume adjustment processing in the second embodiment. It is a figure for demonstrating the method for determining whether it is located in the permission area.
  • FIG. 1 is a block diagram showing a configuration example of a provision system
  • FIG. It is a block diagram which shows the structural example of a client system.
  • 1 is a block diagram of a computer device
  • FIG. 6 is a flow chart showing an example of the flow of processing
  • FIG. 4 is a diagram showing an example of three-dimensional text arranged in virtual space;
  • FIG. 12 is a flow chart showing the flow of volume adjustment processing in the third embodiment.
  • FIG. 11 is a diagram for explaining an example of changing the display color of an avatar;
  • FIG. 11 is a diagram for explaining an example of displaying for notifying a voice chat start request;
  • FIG. 10 is a diagram for explaining an example of pseudo-moving an avatar;
  • FIG. 16 is a flow chart showing a flow of processing for performing emphasis control in the fourth embodiment;
  • the virtual space VS In the virtual space VS, three-dimensional objects that imitate performers such as performers and singers are arranged.
  • the movement of the performer is reproduced in the virtual space VS by linking it with the movement of the performer in the real space.
  • the movement of the performer that is, the movement of the joints, is obtained, for example, from a plurality of captured images obtained by capturing the performer from multiple angles.
  • a performer is an object that the user pays attention to in the virtual space VS.
  • the mode of the performer in the virtual space VS for example, a live-action person or a virtual character projected on a screen set up in a concert venue, a live-action volumetric imaging body, or a CG (Computer Graphics) character of a virtual character. etc.
  • a live-action person or a virtual character projected on a screen set up in a concert venue for example, a live-action volumetric imaging body, or a CG (Computer Graphics) character of a virtual character. etc.
  • CG Computer Graphics
  • an exhibit moving image, an exhibit image, or the like as an exhibit is one aspect of the performer.
  • the performer is a live-action person or a virtual character will be described as an example.
  • an avatar AT which is a virtual character linked to the user, is placed.
  • the behavior of each avatar AT in the virtual space VS corresponds to the movement and operation of each user.
  • the face of the avatar AT placed in the virtual space VS may turn to the right.
  • the avatar AT in the virtual space VS may move as the user moves in the real space, or the avatar AT may move in the virtual space VS as the user operates the controller.
  • the content of the speech may be transmitted to another user operating another avatar AT placed near the user's avatar AT in the virtual space VS. .
  • the user is allowed to speak to a user who is virtually placed nearby in the virtual space VS.
  • sound reproduction based on the utterance contents may be performed according to the distance and direction from the avatar AT of the user who uttered the utterance. That is, when the avatar AT of the user who speaks is on the right side of the avatar AT of the user who is the listener, the sound is reproduced so that it can be heard from the right side, and the volume of the reproduced sound varies depending on the distance between the two avatars. It is assumed that it complies.
  • the sound played by the performer and the singing voice of the singer described above are reproduced according to the distance and direction between the avatar AT and the performer or singer.
  • the sound of the performance or singing voice may be played back so that it can be heard from the speaker placed in the virtual space VS. In that case, the sound is played back according to the positional relationship and distance between the avatar AT and the speaker.
  • the avatar AT associated with the user U is arranged in the virtual space VS. Furthermore, an avatar AT0, which is a three-dimensional object of the performer, is arranged in the virtual space VS.
  • the performance sound and singing voice heard from the performer via the avatar AT0 the sound such as the in-house announcement heard from the speaker, and the second user U2's second voice. Sound reproduction is performed so that the speech voice of the second user U2 heard from the avatar AT2 can be heard from different directions.
  • the environmental sound is the sound of a performance, the singing voice of a singer, the sound of an in-house announcement, and the like.
  • FIG. 1 An example of the configuration of the provision system 1 for providing the user U with such an experience is shown in FIG. 1
  • a provision system 1 in the present embodiment includes a server system 2 and a client system 3 , and the server system 2 and client system 3 can communicate with each other via a communication network 4 .
  • the server system 2 is a system for providing an entertainment environment using the virtual space VS, and is composed of one or more information processing devices.
  • the server system 2 may be provided for each content as entertainment to be provided, or a plurality of contents may be provided by one server system 2 .
  • one server system 2 is used to provide an environment for experiencing one concert, and another server system 2 is used to provide an environment for experiencing another concert. good too.
  • the server system 2 includes a plurality of cameras 5 that capture images of performers and singers from multiple angles, a virtual space generation unit 6, a distribution control unit 7, and a communication unit 8.
  • the camera 5 is arranged around the performer in real space, and obtains a captured image by capturing an image of the performer.
  • Each captured image (video) captured by each camera 5 is supplied to the virtual space generation unit 6 in a synchronized state.
  • a three-dimensional object about the performer is generated from a plurality of captured images.
  • the generated three-dimensional object is arranged in the virtual space VS.
  • a texture image is attached to the surface of the three-dimensional object of the performer.
  • the texture image may be a captured image of a performer or an image of a virtual person. That is, the person captured by the camera 5 may be different from the person displayed as the performer in the virtual space VS.
  • the virtual space generation unit 6 generates three-dimensional objects such as structures on the stage and structures placed in the audience seats, or acquires them from other information processing devices and places them in the virtual space VS.
  • the virtual space VS in which various three-dimensional objects are arranged is generated by the virtual space generator 6.
  • the distribution control unit 7 distributes the virtual space VS to the client system 3 used by the user U whose avatar is placed in the virtual space VS where the concert is being performed. Send information about
  • the communication unit 8 transmits information about the virtual space VS to each client system 3 via the communication network 4 according to the control of the distribution control unit 7 . Also, the communication unit 8 receives information from the client system 3 .
  • the information received from the client system 3 is, for example, information requesting that a new user U enter the virtual space VS.
  • the server system 2 may also have a user management function for managing users U who can use various functions provided. For example, it may have a user registration function, a registration cancellation function, a login function, and the like.
  • Information on user registration, information on cancellation of registration, and information on login are provided to the server system 2 via the communication unit 8 .
  • a plurality of rooms are provided for one virtual space VS.
  • Three-dimensional objects such as performers and structures on the stage in each room are common objects among the rooms. That is, the movements of the performers are the same in each room.
  • the arrangement of avatars AT associated with each user U differs from room to room. For example, if there are 20 users U who can enter a room, the virtual space VS for the room includes common three-dimensional objects linked to performers and the 20 people who entered the room. 20 avatars AT associated with the user U of are arranged.
  • the client system 3 is provided for each user U who uses the entertainment environment provided by the server system 2, and is composed of one or more information processing devices.
  • a client device 9 which is an information processing device such as a personal computer, a smartphone, a game machine main body, or a playback device for recording media, an HMD (Head Mounted Display) 10 connected to the client device 9, and a hand controller.
  • HMD Head Mounted Display
  • the client system 3 may be configured by a head-mounted device and a hand controller 11 that include both the functions of the client device 9 and the functions of the HMD 10, or the hand controller 11 may be replaced by a keyboard.
  • the client system 3 may be configured, or the client system 3 may be configured without the hand controller 11 or keyboard.
  • the client device 9 has a communication section 12 and a control section 13 .
  • the client device 9 includes a communication section 12 that transmits and receives information to and from the server system 2 and other client systems 3 via the communication network 4, and a control section 13 that performs various processes.
  • control unit 13 generates an image to be displayed on the display unit of the HMD 10 based on the information on the virtual space VS received from the server system 2 .
  • the control unit 13 By visually recognizing the image displayed on the display unit of the HMD 10, the user U can have an experience as if he/she were in the virtual space VS.
  • the image generated by the control unit 13 is appropriately changed according to the movement of the HMD 10 and the operation of the hand controller 11 by the user U. Specifically, it will be described later.
  • the HMD 10 is an information processing device worn by the user U on the head and used, and performs processing for displaying an image based on information received from the client device 9 and transmits information on the position and orientation of the HMD 10 to the client device 9 . process.
  • the hand controller 11 is composed of, for example, two information processing devices, and is used by the user U holding one in each hand.
  • the hand controller 11 is provided with a vibrating section that vibrates based on a tactile signal received from the client device 9, various operators, and the like.
  • the client device 9 includes a communication unit 12 and a control unit 13.
  • the control unit 13 includes a display control unit 14, a voice call processing unit 15, an interest level estimation unit 16, a volume control unit 17, and a text conversion unit. 18 , a stereophonic processing unit 19 , and an area determination unit 20 .
  • the display control unit 14 generates an image to be displayed on the display unit of the HMD 10 as a display image based on the three-dimensional information of the virtual space VS received from the server system 2 and the orientation information of the HMD 10 obtained from the HMD 10 .
  • the display control unit 14 determines the display position of information such as a three-dimensional object such as an icon to be placed in the virtual space VS and the user name superimposed on the avatar AT of another user U, and performs a process of reflecting it in the display image. conduct. Furthermore, the display control unit 14 performs a process of adding a menu display or the like to the display image.
  • the voice call processing unit 15 performs communication processing related to voice chat between users U, that is, voice chat between client systems 3 . This processing is performed via the communication unit 12 and the communication network 4 . Information about the target user U of voice chat is provided to the stereophonic sound processing unit 19 .
  • the interest level estimating unit 16 performs estimation processing regarding the interest level of the user U wearing the HMD 10 and the hand controller 11 . Specifically, based on the arrangement position of the avatar AT in the virtual space VS, sound reproduction is performed so that various sounds can be heard from various directions as shown in FIG. It may be unfavorable for the user U to reproduce all of those sounds.
  • the interest level estimation unit 16 performs processing for estimating the user U's level of interest in these various sounds (environmental sounds and speech voices described above).
  • the estimation processing by the interest level estimation unit 16 is performed using various information.
  • the posture information of the HMD 10 is acquired to estimate a three-dimensional object of high interest to the user U, and the sound emitted from the three-dimensional object is specified as the sound of high interest.
  • the orientation information of the hand controller 11 possessed by the user U the user U's pointing motion is detected, and by estimating the three-dimensional object of high interest, the sound of high interest can be specified. good.
  • a three-dimensional object of high interest may be estimated by the user U's selection operation using a menu screen or the like that the user U can visually recognize by being displayed on the display unit of the HMD 10 .
  • a three-dimensional object of high interest may be estimated based on the line-of-sight direction of the user U estimated from an image captured by a camera of the HMD 10 .
  • the degree of interest of the user U may be estimated by acquiring the biological information of the user U such as pulse and body temperature.
  • the interest level estimation unit 16 estimates a three-dimensional object that is estimated to be of high interest to the user U, and identifies the sound emitted from the three-dimensional object as the sound of high interest level.
  • the volume control section 17 and the text conversion section 18 are provided as an emphasis information generation section 21 .
  • the emphasis information generation unit 21 generates emphasis information for emphasizing (adjusting) various sounds according to the user's U interest level.
  • the volume control unit 17 performs volume control for emphasizing the performance sound. Specifically, it will be described later.
  • the text conversion unit 18 converts the spoken voice into text. For example, when the degree-of-interest estimation unit 16 estimates that the user U is highly interested in performance sounds, the text conversion process is performed by presenting text generated by the text conversion unit 18 instead of acoustic reproduction of the spoken voice. can be considered.
  • the presentation of text to the user U is not limited to mere character information, but may also present characters as three-dimensional objects in the virtual space VS (hereinafter referred to as "three-dimensional text").
  • the text converter 18 generates character information as a three-dimensional object.
  • the emphasis information generation unit 21 adjusts the volume of the voice in addition to (or instead of) adjusting the volume by the volume control unit 17.
  • a process of moving the position of the avatar AT of the user U who made the chat utterance, ie, the avatar AT of the user U who is the conversation partner, to the vicinity of the avatar AT of the user U who is the listener may be performed in a pseudo manner. This process can be regarded as a process for enhancing speech.
  • the stereophonic sound processing unit 19 generates various sounds in the virtual space VS, and the positional relationship of the avatar AT specified based on the information about the voice chat target user U received from the voice call processing unit 15 described above. to perform processing for stereoscopic sound reproduction.
  • the stereophonic processing includes attenuation processing based on the listening position and listening direction of the sound, processing of calculating the sound effect from the position where the sound is generated until it reaches the avatar AT, processing of reverberant sound, and the like.
  • the stereophonic sound processing unit 19 performs stereophonic sound processing by reflecting the volume adjustment determined based on the degree of interest as described above.
  • the area determination unit 20 determines whether the position of the avatar AT is located in a permitted area where voice chat is permitted or in a non-permitted area where voice chat is not permitted.
  • the stereophonic processing unit 19 may reflect the determination result by the area determining unit 20 in the stereophonic processing. For example, when the avatar AT is located in the unauthorized area, the stereophonic sound reproduction related to the voice chat may not be performed.
  • the HMD 10 includes an HM control section 22, a display section 23, an HMC (head-mounted camera) 24, a microphone 25, and an IMU (Inertial Measurement Unit) 26.
  • HM control section 22 a display section 23
  • HMC head-mounted camera
  • IMU Inertial Measurement Unit
  • the HM control unit 22 performs overall control of the HMD 10 .
  • the HM control unit 22 performs processing for transmitting a detection signal representing the posture obtained by the IMU 26 and an audio signal obtained by the microphone 25 to the client device 9 .
  • the HM control unit 22 performs processing for receiving, from the client device 9, information on the virtual space VS in which various three-dimensional objects are arranged.
  • the illustration of the communication part with which HMD10 is provided is abbreviate
  • the display unit 23 is a device such as a screen placed in front of the eyeballs of the user U wearing the HMD 10, and displays the display image generated by the HM control unit 22.
  • the HMC 24 is a camera or the like that captures images around the eyes of the user U wearing the HMD 10 .
  • the line-of-sight direction of the user U is detected based on the captured image of the eyes captured by the HMC 24 .
  • the microphone 25 is provided for picking up the speech voice of the user U wearing the HMD 10 , and the voice input to the microphone 25 is converted into voice data and sent to the voice call processing section 15 of the client device 9 via the HM control section 22 . supplied to
  • the IMU 26 includes an acceleration sensor, a gyro sensor, etc., and outputs a detection signal for estimating the orientation of the HMD 10 to the HM control section 22 .
  • the IMU 26 may be equipped with a temperature sensor to enable correction based on temperature characteristics.
  • the HM control unit 22 includes a display processing unit 27, a line-of-sight detection unit 28, and an orientation detection unit 29.
  • the display processing unit 27 performs processing for displaying a display image on the display unit 23.
  • the line-of-sight detection unit 28 detects the line-of-sight direction of the user U based on the image captured by the HMC 24 .
  • the detected line-of-sight direction is used, for example, to estimate the degree of interest of the user U as described above.
  • the attitude detection unit 29 detects the attitude of the HMD 10 based on the signal supplied from the IMU 26 .
  • the detected orientation information is supplied to the control unit 13 of the client device 9 .
  • the hand controller 11 includes an HC (hand controller) control section 30, a vibration section 31, an operation section 32 and an IMU33.
  • the HC control unit 30 performs overall control of the hand controller 11.
  • the vibrating section 31 presents a tactile stimulus to the user U by vibrating based on the tactile signal supplied from the HC control section 30 .
  • the operation unit 32 is provided as an operation element such as a button, receives an operation by the user U, and supplies a detection signal to the HC control unit 30 .
  • the IMU 33 includes an acceleration sensor, a gyro sensor, etc., and outputs a detection signal for estimating the orientation of the hand controller 11 to the HC control section 30 .
  • the IMU 33 may be provided with a temperature sensor to enable correction based on temperature characteristics.
  • the HC control unit 30 includes a vibration presentation unit 34, an input reception unit 35, and a posture detection unit 36.
  • the vibration presenting unit 34 supplies a tactile signal to the vibrating unit 31 .
  • the input reception unit 35 receives a detection signal regarding the operation of the user U from the operation unit 32 and performs processing according to the operation. For example, it performs a process corresponding to a selection operation for menu display, an operation to specify an interested three-dimensional object, or an operation to specify the avatar AT for the target user U of voice chat.
  • the attitude detection unit 36 detects the attitude of the hand controller 11 based on the signal supplied from the IMU 33 .
  • the detected orientation information is supplied to the control unit 13 of the client device 9 .
  • the client device 9, HMD 10, and hand controller 11 can transmit and receive information wirelessly or by wire.
  • control unit 13 of the client device 9 does not need to have all the configurations shown in FIG.
  • the text conversion unit 18 may not be provided when there is no need to convert the content of statements in voice chat into text.
  • Communication networks such as the Internet, intranet, extranet, LAN (Local Area Network), CATV (Community Antenna TeleVision) communication network, virtual private network, telephone line network, mobile communication network, satellite communication network, etc. assumed as 4. Also, various examples are assumed for the transmission medium that constitutes all or part of the communication network 4 . For example, even wired such as IEEE (Institute of Electrical and Electronics Engineers) 1394, USB (Universal Serial Bus), power line carrier, telephone line, infrared such as IrDA (Infrared Data Association), Bluetooth (registered trademark), 802.11 wireless , mobile phone networks, satellite circuits, and terrestrial digital networks.
  • IEEE Institutee of Electrical and Electronics Engineers
  • USB Universal Serial Bus
  • power line carrier such as IrDA (Infrared Data Association), Bluetooth (registered trademark)
  • 802.11 wireless mobile phone networks, satellite circuits, and terrestrial digital networks.
  • Computer device> A configuration example of a computer device including an arithmetic processing unit that realizes the server system 2 and the client system 3 included in the providing system 1 will be described with reference to FIG.
  • the CPU 71 of the computer device functions as an arithmetic processing unit that performs the various processes described above, and programs stored in a non-volatile memory unit 74 such as a ROM 72 or an EEP-ROM (Electrically Erasable Programmable Read-Only Memory), or Various processes are executed according to programs loaded from the storage unit 79 to the RAM 73 .
  • the RAM 73 also appropriately stores data necessary for the CPU 71 to execute various processes.
  • the CPU 71 , ROM 72 , RAM 73 and nonvolatile memory section 74 are interconnected via a bus 83 .
  • An input/output interface (I/F) 75 is also connected to this bus 83 .
  • the input/output interface 75 is connected to an input section 76 including operators and operating devices.
  • an input section 76 including operators and operating devices.
  • various operators and operation devices such as a keyboard, mouse, key, dial, touch panel, touch pad, remote controller, etc. are assumed.
  • An operation by the user U is detected by the input unit 76 , and a signal corresponding to the input operation is interpreted by the CPU 71 .
  • the input/output interface 75 is connected integrally or separately with a display unit 77 such as an LCD or an organic EL panel, and an audio output unit 78 such as a speaker.
  • the display unit 77 is a display unit that performs various displays, and is configured by, for example, a display device provided in the housing of the computer device, a separate display device connected to the computer device, or the like.
  • the display unit 77 displays images for various types of image processing, moving images to be processed, etc. on the display screen based on instructions from the CPU 71 . Further, the display unit 77 displays various operation menus, icons, messages, etc., ie, as a GUI (Graphical User Interface), based on instructions from the CPU 71 .
  • GUI Graphic User Interface
  • the input/output interface 75 may be connected to a storage unit 79 made up of a hard disk, solid-state memory, etc., and a communication unit 80 made up of a modem or the like.
  • the communication unit 80 performs communication processing via a transmission line such as the Internet, wired/wireless communication with various devices, bus communication, and the like.
  • a drive 81 is also connected to the input/output interface 75 as required, and a removable storage medium 82 such as a magnetic disk, optical disk, magneto-optical disk, or semiconductor memory is appropriately mounted.
  • Data files such as programs used for each process can be read from the removable storage medium 82 by the drive 81 .
  • the read data file is stored in the storage unit 79 , and the image and sound contained in the data file are output by the display unit 77 and the sound output unit 78 .
  • Computer programs and the like read from the removable storage medium 82 are installed in the storage unit 79 as required.
  • software for the processing of this embodiment can be installed via network communication by the communication unit 80 or via the removable storage medium 82 .
  • the software may be stored in advance in the ROM 72, the storage unit 79, or the like.
  • the CPU 71 performs processing operations based on various programs, thereby executing necessary information processing and communication processing as the server system 2 and the client system 3 having the arithmetic processing units described above.
  • the information processing apparatus is not limited to being configured with a single computer device as shown in FIG. 4, and may be configured by systematizing a plurality of computer devices.
  • the plurality of computer devices may be systematized by a LAN (Local Area Network) or the like, or may be remotely located by a VPN (Virtual Private Network) or the like using the Internet or the like.
  • the plurality of computing devices may include computing devices as a group of servers (cloud) available through a cloud computing service.
  • the volume of environmental sounds (playing sounds, singing voices, in-house broadcasting sounds, etc.) and uttered voices are adjusted according to the degree of user U's interest.
  • an example of adjusting the volume of a performance sound and an uttered voice, which are examples of environmental sounds, will be given.
  • the user U who is the target of sound reproduction that is, the user U who is the listener is assumed to be the first user U1, and the avatar corresponding to the first user U1 Let AT be a first avatar AT1. Further, another user U who is in voice chat with the first user U1 is assumed to be a second user U2, and an avatar AT corresponding to the second user U2 is assumed to be a second avatar AT2.
  • volume adjustment For example, if it is determined that the player is more interested in the performance sound out of the performance sound and the spoken voice, the volume of the performance sound may be increased to make the performance sound more audible. Alternatively, it is conceivable to reduce the volume of the spoken voice in order to relatively increase the volume of the performance sound. In this case, the volume of the spoken voice may be completely set to zero so that the acoustic reproduction of the spoken voice is not performed.
  • the volume of the spoken voice may be increased, or the volume of the performance sound may be decreased in order to relatively increase the volume of the spoken voice.
  • machine learning is used to learn the preferences of the first user U1 in music, and the learning result is used to estimate the degree of interest of the first user U1 in the performance sound of the music being played.
  • Such machine learning processing may be executed in the server system 2 or may be executed in the client system 3.
  • Fig. 5 shows the flow of processing related to machine learning.
  • control unit accepts registration of favorite artists and songs in step S101 of FIG. It is executed according to the operation of the user U1.
  • the control unit performs machine learning in step S102.
  • the control unit itself may perform machine learning using a learning model, or may perform machine learning by using a service provided in another information processing device and obtain the result. .
  • step S103 the control unit registers, as a favorite song, songs that are estimated to be of high interest to the user U as a result of machine learning.
  • a process of registering an artist estimated to be of high interest as a favorite artist may be performed.
  • control unit can obtain both the favorite information input by the first user U1 and the favorite information estimated by machine learning.
  • the client system 3 performs volume adjustment as the above-described emphasis control based on the favorite information thus obtained.
  • FIG. 1 An example of a specific processing flow is shown in FIG.
  • the CPU 71 of the client system 3 receives a login operation by the first user U1 and transmits a login request to the server system 2 in step S201.
  • the server system 2 receives a login request from the client system 3 , determines whether or not login is possible, and transmits the result to the client system 3 .
  • the client system 3 executes a process of presenting a screen indicating that login has failed, a user screen after login, and the like to the first user U1.
  • step S ⁇ b>202 the CPU 71 of the client system 3 accepts room selection processing and transmits information specifying the selected room to the server system 2 .
  • the server system 2 permits entry to the room and transmits the result to the client system 3 when the number of persons allowed to enter the room is less than the number of persons allowed to enter the room.
  • users U who are permitted to enter each room may be limited.
  • the client system 3 executes a process of presenting the first user U1 with a room screen after entering the room. Specifically, a process of presenting, via the HMD 10 of the first user U1, a virtual space VS in which three-dimensional objects such as performers and speakers and an avatar AT for each user U who is in the room are arranged is performed.
  • step S203 the CPU 71 of the client system 3 performs processing to determine whether or not it is live. This process may be executed by the client system 3 inquiring of the server system 2 whether or not it is live, or by executing a process of determining whether or not the client system 3 is live. good too. It should be noted that “during a live performance” means that the start time of the concert in the virtual space VS has passed and music is being played.
  • step S204 If it is determined that the live is not being performed, that is, if it is before the concert start time or after the concert end time, the CPU 71 of the client system 3 determines in step S204 whether or not voice chat is being performed. judge.
  • “during voice chat” means a case where the first user U1 and the second user U2 are having a one-to-one voice chat, or a case other than one-to-one between the users U with avatars AT arranged in the room. This applies, for example, when a voice chat is being performed. For example, it is determined that a voice chat is in progress when a sound is being reproduced as an uttered voice by one of the users U for the first user U1. Alternatively, if the microphone 25 of the client system 3 used by the first user U1 is picking up the speech voice of the first user U1, it may be determined that voice chat is in progress.
  • the CPU 71 of the client system 3 determines in step S205 whether or not there is a high degree of interest in environmental sounds. Since the event is not being performed live, the environmental sounds referred to here include the sound of in-house broadcasting and the sound of product sales announcements.
  • the CPU 71 of the client system 3 When determining that the degree of interest in environmental sounds is high, the CPU 71 of the client system 3 performs processing to lower the chat volume of the voice chat in step S206. Alternatively, a process of increasing the volume of environmental sounds may be performed.
  • step S207 After performing the process of lowering the chat volume, after determining that voice chat is not in progress in step S204, or after determining that the degree of interest in environmental sounds is not high in step S205, the CPU 71 of the client system 3 In step S207, it is determined whether or not to move to another room.
  • the determination of whether or not to move to another room is made based on whether or not the room move operation by the user U has been detected.
  • the CPU 71 of the client system 3 When determining to move to another room, the CPU 71 of the client system 3 returns to the process of step S202.
  • step S208 determines whether or not a logout operation has been detected.
  • the CPU 71 of the client system 3 terminates the series of processes shown in FIG.
  • step S208 If the logout operation is not detected in step S208, the CPU 71 of the client system 3 returns to step S203.
  • step S203 determines in step S209 whether or not voice chat is being performed. This determination process may be performed, for example, based on whether or not the speech voice of the first user U1 to the microphone 25 of the client system 3 is input. However, there is a possibility that the first user U1 is humming the song being played. Therefore, in the determination processing in step S209, it is further determined whether or not the voice of the first user U1 input to the microphone 25 is a song, thereby determining whether or not voice chat is in progress. good.
  • step S210 the CPU 71 of the client system 3 determines whether or not the song being played is of high interest.
  • the determination may be made by matching a pre-registered piece of music with the piece of music being played, or by determining the degree of similarity between the feature or rhythm feature of the registered piece of music and the feature of the piece of music being played. , it may be determined that songs similar to the registered songs are also songs of high interest. In this case, deep learning may be used to calculate the degree of interest.
  • it may include a case where it is determined that the degree of interest in the performance sound is relatively high because the degree of interest in the voice chat is low.
  • the behavior of the first user U1 may be detected to determine whether or not the first user U1 has a high degree of interest in the music being played. For example, if the first user U1 is looking down or looking away from the performer, it may be determined that the first user U1 has a low degree of interest in the music.
  • the CPU 71 of the client system 3 When determining that the song is of high interest, the CPU 71 of the client system 3 either lowers the chat volume of the voice chat or raises the volume of the performance sound in step S211, and proceeds to step S207. and proceed.
  • step S209 when it is determined in step S209 that voice chat is not in progress, or when it is determined in step S210 that the song is not of high interest, the CPU 71 of the client system 3 proceeds to the process of step S207.
  • the CPU 71 of the client system 3 is live and voice chat is being performed.
  • a process of adjusting the volume at any time is executed by estimating the degree of interest in the environmental sound and the uttered voice while determining whether or not it is.
  • FIG. 6 the example which performs emphasis control according to the user's U interest degree by lowering the volume of a voice chat was shown. Another example is shown in FIG. The same step numbers are assigned to the same processes as in FIG. 6, and the description thereof will be omitted as appropriate.
  • step S201 to step S211 are the same process. 6 is different from the example shown in FIG. The point is that in step S220, processing is performed to lower the volume of environmental sounds (performance sounds and in-house broadcast sounds).
  • the second embodiment is an example in which voice chat targeted for emphasis control is limited to voice chat with a specific user U.
  • FIG. A specific processing flow will be described with reference to FIG. The same step numbers are assigned to the same processes as in FIG. 6, and the description thereof will be omitted as appropriate.
  • the CPU 71 of the client system 3 accepts the login operation in step S201, accepts the room selection operation in step S202, and then determines in step S203 whether or not it is live.
  • the CPU 71 of the client system 3 determines in step S230 whether or not a voice chat is being performed with a specific user U in the voice chat permitted area.
  • a room as a virtual space VS in which the first avatar AT1 of the first user U1 is arranged is provided with a permitted area where voice chat is permitted and a non-permitted area where voice chat is not permitted.
  • the permitted area is an area where the user U (avatar AT) who wants to enjoy the concert while performing voice chat moves.
  • the non-permission area is an area where users U (avatars AT) who want to concentrate and enjoy the concert without being disturbed by voice chat move.
  • the voice chat volume is always set to zero.
  • various methods are conceivable for determining whether the first avatar AT1 associated with the first user U1 is located in the permitted area or in the prohibited area. For example, the determination may be based on the floor object with which the foot of the first avatar AT1 is in contact.
  • the type of area may be determined by irradiating a virtual light beam upward from the top of the head of the first avatar AT1 and determining the ceiling on which the light beam collides.
  • the type of area may be determined according to the coordinate position of the first avatar AT1 in the three-dimensional space.
  • the specific user U is the second user U2 who is another user designated by the first user U1. That is, in the second embodiment, when there is a specific second user U2 with whom the first user U1 wishes to have a voice chat, the voice chat with the other user U cannot be subject to emphasis control.
  • a voice chat with two users U2 is an example that can be targeted for emphasis control.
  • the first user U1 may specify the name or ID of the second user U2 by inputting characters, or a motion such as touching the second avatar AT2 associated with the second user U2, a finger pointing motion, or the like.
  • the designation may be performed by performing a pointing action such as an action of directing the face or line of sight to the second avatar AT2.
  • step S230 When it is determined in step S230 that the first user U1 is in voice chat with the specific user U in the chat-permitted area, the CPU 71 of the client system 3 determines in step S205 whether or not there is a high interest in environmental sounds. If there is a high interest in the environmental sound, then in step S206 processing is performed to lower the volume of the voice chat with the second user U2.
  • step S205 when the interest in environmental sounds is low in step S205, the process proceeds to step S207 without doing anything. Emphasis control may be performed to increase the volume of the voice chat.
  • step S203 determines in step S231 whether or not voice chat is being performed with the specific second user U2 in the permitted area.
  • the CPU 71 of the client system 3 determines in step S210 whether or not there is a high degree of interest in the song being played. If it is determined that the degree of interest in the second user U2 is high, a process of lowering the volume of the voice chat with the second user U2 is performed in step S211.
  • emphasis control may be performed to increase the volume of the voice chat with the second user U2.
  • chat column is provided in an image that is visually recognized by the first user U1, and text information is displayed in the chat column.
  • FIG. 10 shows an example of a three-dimensional object obtained by converting character information.
  • the character information converted into the three-dimensional object is arranged in the virtual space VS as the three-dimensional text TX.
  • the three-dimensional text TX may be generated with an effect EF so that the speaker can be recognized.
  • an effect EF indicating that the three-dimensional text TX is popping out from the second avatar AT2 associated with the second user U2 so that the speaker is the second user U2 can be recognized. are placed.
  • the CPU 71 of the client system 3 accepts the login operation in step S201, accepts the room selection operation in step S202, and then determines in step S203 whether or not it is live.
  • step S240 determines in step S240 whether text conversion of voice chat (spoken voice) is necessary.
  • This determination processing is performed, for example, based on the volume of the performance sound of the concert or the volume of the voice chat. Specifically, it is determined that text conversion is necessary when the sound of the performance is above a predetermined level or when the volume of the voice chat is lower than a predetermined level. In addition, it may be determined that text conversion is necessary when the user is highly interested in environmental sounds (performance sounds) and wants to reduce the volume of the spoken voice to zero, or when the user does not want to increase the volume of the spoken voice.
  • performance sounds environmental sounds
  • the CPU 71 of the client system 3 performs voice chat text conversion processing in step S241. At this time, as in the second embodiment, only the voice chat of a specific second user U2 may be subject to text conversion.
  • step S242 the CPU 71 of the client system 3 determines whether or not to convert the text into a three-dimensional object to generate the three-dimensional text TX.
  • the case where the three-dimensional object conversion is performed is, for example, the case where the attention of the first user U1 is not directed to the chat column or the case where the chat column is not paid attention to.
  • the three-dimensional text TX is generated when the three-dimensional text TX is placed in the virtual space VS without obstructing the field of view of the first user U1. It may be determined to generate the 3D text TX only when the degree is high and the degree of interest in the 3D object such as the performer displayed on the display unit 23 is low.
  • the CPU 71 of the client system 3 When determining to generate the three-dimensional text TX, the CPU 71 of the client system 3 performs processing for generating and displaying the three-dimensional text TX in step S243. Specifically, processing for arranging the three-dimensional text TX at a predetermined position is performed. By performing this process, the virtual space VS in which the three-dimensional text TX is arranged is displayed on the display unit 23 of the HMD 10 worn by the first user U1. After completing the process of step S243, the CPU 71 of the client system 3 proceeds to the process of step S207.
  • step S203 If it is determined in step S203 that there is no live performance or if it is determined in step S204 that text conversion is not required, the CPU 71 of the client system 3 proceeds to step S244.
  • step S244 the CPU 71 of the client system 3 determines whether or not there is a three-dimensional text TX being displayed. If the 3D text TX remains placed in the virtual space VS, the number of 3D objects will continue to increase, obstructing the field of view of the first user U1, and there is a risk that it will be difficult to visually recognize the 3D objects such as performers. . Therefore, in the present embodiment, processing for ending the display of the three-dimensional text TX at an appropriate timing is performed.
  • the CPU 71 of the client system 3 determines in step S245 whether or not the timing for ending display has arrived for each three-dimensional text TX.
  • display end timing it may be determined that the display end timing has come when the elapsed time from the start of display exceeds a predetermined time. Alternatively, it may be determined that the display end timing has come because the first user U1 has performed a predetermined operation. Since the first user U1 can end the display of the three-dimensional text TX by his/her own operation, it is possible to leave only messages that he or she wants to leave or to quickly erase unnecessary messages, which is highly convenient. Further, by configuring the 3D text TX to be visually recognized by the second user U2 who is the speaker, when the display of the 3D text TX is completed by the operation of the first user U1, a message is sent to the first user U1. Since the second user U2 can recognize that the content has been reliably transmitted, convenience is improved in this respect as well.
  • the display end timing it may be determined that the display end timing has come when the 3D text TX collides with another 3D object (including another 3D text TX). According to this example, as the 3D text TX increases, the probability of colliding with another 3D object increases, so the display end timing of the 3D text TX comes appropriately. In this case, it may be configured so that the display end timing is not determined even if the collision with another three-dimensional object occurs for a certain period of time after the display of the three-dimensional text TX is started. As a result, it is possible to prevent the display from ending in an extremely short time.
  • step S245 if there is a three-dimensional text TX whose display end timing has come, the CPU 71 of the client system 3 performs processing to end display of the corresponding three-dimensional text TX in step S246.
  • step S244 If it is determined in step S244 that there is no three-dimensional text TX being displayed, or if it is determined in step S245 that the display end timing has not come for any of the three-dimensional texts TX, or if the processing of step S246 has ended. After that, the CPU 71 of the client system 3 proceeds to the process of step S207.
  • text conversion may be performed when there is a high interest in spoken voice (voice chat). For example, if there is a high degree of interest in the spoken voice and it is desired to prevent missing the spoken voice, by displaying not only the sound reproduction of the spoken voice but also the three-dimensional text, voice chat can be performed using both sight and hearing. to the first user U1.
  • the fourth embodiment is an example in which the first user U1 is interested in the uttered voice. Specifically, when the first user U1 has a high degree of interest in the voice chat but does not know with whom the first user is conversing, emphasis control is performed on the conversation partner (speaker).
  • visual emphasis control is performed on the speaker. Specifically, a process of changing the display color of the second avatar AT2 associated with the second user U2 who is the speaker (see FIG. 12), and a process of highlighting the outline of the second avatar AT2 by, for example, blinking. Also, processing for increasing the size of the second avatar AT2 is performed.
  • an icon is displayed to notify that there is an incoming voice chat call from the second user U2 who is the speaker, or that a voice chat start request has been received (see FIG. 13).
  • the first and second examples are examples of performing visual enhancement control.
  • a process of pseudo-moving the second avatar AT2 of the second user U2 who is the speaker to the vicinity of the first avatar AT1 of the first user U1 is performed.
  • the first user U1 and the second user U2 position their avatars AT in the virtual space VS so that the sound reproduction is optimal for each of them. Therefore, the first avatar AT1 and the second avatar AT2 may be far from each other.
  • processing is performed to simulate the position of the second avatar AT2 near AT1 (the position of the second avatar AT2' in FIG. 14).
  • This movement processing only moves the position of the second avatar AT2 as the utterance position, and does not change the position of the second avatar AT2 as the listening position set by the second user U2 who wants to enjoy the concert. .
  • the third example can be said to be auditory emphasis control, it can also be said to be visual emphasis control for the first user U1 because the display position of the second user U2 is changed.
  • the vibrating section 31 of the hand controller 11 worn by the first user U1 by vibrating the vibrating section 31 of the hand controller 11 worn by the first user U1, it is possible to receive an incoming voice chat call from a specific user U or receive a voice chat start request. You can let us know you are there. If the HMD 10 has a vibrating section, the same effect may be obtained by vibrating the vibrating section of the HMD 10 .
  • step S301 of FIG. 15 the CPU 71 of the client system 3 highlights the avatar AT of the conversation partner (see FIG. 12).
  • step S302 the CPU 71 of the client system 3 notifies of an incoming call by displaying text and icons as shown in FIG.
  • step S303 the CPU 71 of the client system 3 determines whether or not the distance between the avatars AT is equal to or greater than a predetermined distance. Processing (see FIG. 14) is performed.
  • the CPU 71 of the client system 3 ends the series of processes shown in FIG. 15 without executing the process of step S304.
  • Metadata includes, for example, information about the music being played, information such as a timetable indicating progress, and information for identifying environmental sounds being played. It becomes possible to specify whether the is being reproduced, and it is possible to determine whether or not it is being played live.
  • the user U wears the HMD 10 and the hand controller 11, but the user U may enjoy concerts while holding a smartphone or tablet terminal.
  • the image to be displayed on the display of the smartphone using the 3DoF (Degrees of Freedom) and 6DoF sensing functions provided by the smartphone, and the SLAM (Simultaneous Localization and Mapping) function is controlled by the smartphone's control unit.
  • the voice uttered by the second user U2 is delivered to the first user U1 in substantially real time. You can leave it. Then, when the volume of the environmental sound becomes less than a certain value, the buffered speech sound may be presented to the first user U1. Also, at this time, the uttered voice may be reproduced as sound, or may be converted into text and presented. When presented as text, it may be converted into text at the time of buffering, in which case the amount of data required for buffering can be reduced.
  • the above-described technology can be widely applied to events in which voice chat communication is performed, such as remote education and training, remote meetings, remote work support, and product sales, in addition to concerts in which each user U participates remotely. .
  • the client system 3 as the information processing device can determine the sound in the virtual space VS based on the interest information of the first user U1 associated with the first avatar AT1 placed in the virtual space VS.
  • An emphasis information generation unit 21 is provided for generating control information for performing emphasis control of .
  • sound includes environmental sounds such as performance sounds in the virtual space VS, and voices spoken by the second user U2 associated with the second avatar AT2 placed in the virtual space VS. That is, the environmental sound referred to here is the sound generated in the virtual space VS, excluding the voice uttered by the user U.
  • FIG. Interest information is interest information about sound. Sounds are environmental sounds, speech sounds, and the like.
  • the environmental sound is a sound emitted in the virtual space VS, such as a performance sound in a music concert, an announcement broadcast sound for announcing the start of the performance, or a voice uttered by a performer.
  • the uttered voice is the voice or the like uttered by the viewer.
  • Each viewer can experience the sound corresponding to the position of the avatar AT arranged as the alter ego of the viewer in the virtual space VS.
  • the information processing device generates control information for emphasizing and controlling either the environmental sound or the uttered voice, or control information for emphasizing and controlling both, based on the interest information of the first user U1.
  • the first user U1 when the first user U1 is interested in concert music, the music is emphasized, and when the second user U2 is interested in the uttered voice, the uttered voice is emphasized. Therefore, the first user U1 can experience appropriate sound output according to his/her interest.
  • the interest information may be information indicating the degree of interest in environmental sounds.
  • voice chat can be performed while a piece of music that the first user U1 wants to listen to without being disturbed is being played.
  • Control to lower the volume and control to raise the volume of the environmental sound (performance sound) are performed. As a result, it is possible to enhance the sense of immersion in concert performances, etc., and to enjoy music.
  • the information indicating the degree of interest may be information obtained by the pointing action of the first user U1.
  • the first user U1 makes a pointing motion pointing to the avatar AT0 of the performer, etc.
  • the interest in the environmental sound playing sound
  • other users U such as the second user U2
  • the first user U1 can appropriately designate an object of high interest, and can experience the sound output by increasing the volume of the sound of high interest to the first user U1.
  • the first user U1 since the first user U1 appropriately points the object of high interest, it is possible to prevent the emphasis of sound that is not intended by the first user U1.
  • the emphasis control executed by the client system 3 may be control for changing the volume of the sound to be controlled.
  • Control such as raising the volume is executed with the sound of high interest as the control target.
  • the volume of the sound that the first user U1 is interested in is increased, or the volume of the sound that is not of interest to the first user U1 is decreased, so that the desired sound is relatively loud, which makes it suitable for concerts and the like. Since it is possible to concentrate, it is possible to enhance the sense of immersion.
  • the emphasis information generation unit 21 of the client system 3 may include the text conversion unit 18 that converts the uttered voice of the second user U2 into text.
  • control is performed to convert utterances of high interest into text and to convert utterances of low interest into text.
  • the following configuration can be adopted.
  • the text conversion unit 18 of the client system 3 may convert the uttered voice of the second user U2 into text when the degree of interest in environmental sounds is high. For example, an uttered voice of high interest is converted into text and presented to the first user U1, thereby preventing the first user U1 from missing a voice chat with the second user U2. Moreover, as described in the third embodiment, the following configuration can also be adopted.
  • the text conversion unit 18 of the client system 3 may convert the second user U2's uttered voice into text when there is a high degree of interest in the uttered voice. For example, an utterance voice of low interest is converted into text and presented to the first user U1, so that the voice chat of the second user U2 can be performed without disturbing the first user U1's concentration on environmental sounds such as performance sounds. It can be delivered to one user U1.
  • the text conversion unit 18 of the client system 3 may further convert the converted text into three-dimensional character information.
  • the text converted from the spoken voice is presented to the first user U1 as a three-dimensional object, which is three-dimensional text information.
  • the first user U1 who is spoken to by the second user U2 who is the speaker can appropriately grasp the content of the speech by the second user U2.
  • the display control unit 14 may be provided for determining the display end timing of the three-dimensional object based on the three-dimensional character information. Continuing to display the three-dimensional object may become an obstacle when the first user U1 sees the performer or the like. Further, by continuing to display the three-dimensional objects, a plurality of three-dimensional objects based on the voice chat may be displayed, which may hinder the first user U1's vision of the surroundings. According to this configuration, since the display end timing is determined for each three-dimensional object, visibility of the first user U1 in the virtual space VS can be ensured.
  • the display control unit 14 may determine the timing when a predetermined period of time has elapsed since the start of displaying the three-dimensional object as the display end timing. By ending the display of the three-dimensional objects according to the passage of the predetermined time, it is possible to prevent the number of three-dimensional objects being displayed from increasing excessively. This prevents the three-dimensional object from becoming an obstacle blocking the first user's U1 field of view, thereby ensuring a good field of view for the first user U1.
  • the display control unit 14 may determine the timing at which a predetermined operation is performed on the three-dimensional object as the display end timing. By providing the display end operation for the three-dimensional object, the display of any three-dimensional object can be ended. Thereby, each user U such as the first user U1 and the second user U2 can manually avoid displaying unnecessary three-dimensional objects based on the voice chat, thereby improving convenience. In particular, for the second user U2 who is the speaker of voice chat, erroneous chat input can be manually erased. Moreover, for the first user U1 who is the recipient of the voice chat, it is possible to keep only the necessary three-dimensional objects displayed. In addition, as described above, the users U who can execute the operation to end the display of the three-dimensional object may be limited.
  • the first user U1 may be allowed to perform an operation to end the display of the three-dimensional object based on the voice chat uttered by the second user U2. Accordingly, when the display of the three-dimensional object is manually finished, the second user U2 can recognize that the first user U1 has confirmed the chat content. This enables smooth communication.
  • the display control unit 14 of the client system 3 determines the timing at which the 3D text as a 3D object collides with another object placed in the virtual space VS. may be determined as the display end timing of .
  • the number of three-dimensional objects placed in the virtual space VS increases, collisions between the three-dimensional objects are more likely to occur. Therefore, it is possible to prevent the number of three-dimensional objects arranged in the virtual space VS from becoming too large by ending the display of the three-dimensional objects due to the collision. This prevents the user U's field of view in the virtual space VS from being obstructed by the three-dimensional object, and secures the field of view.
  • the emphasis information generator 21 of the client system 3 may generate control information for performing visual emphasis control based on interest information.
  • the first user U1 may not be able to grasp the positions of other users U such as the second user U2 who has spoken, and may not know who the voice chat is coming from. According to this configuration, visual emphasis control for such other user U can be performed. Thereby, the first user U1 can grasp the other party of the voice chat, and can communicate appropriately.
  • the visual emphasis control may be a control for visually emphasizing the second avatar AT2 when the second user U2 is highly interested in the uttered voice. good. This makes it easier for the first user U1 to visually recognize the second avatar AT2 associated with the second user U2 who has performed the voice chat. Therefore, the partner user U of voice chat can be grasped.
  • the visual emphasis control is control for displaying text that notifies the second user U2 of the speech when the second user U2 is highly interested in the speech. may This enables the first user U1 to identify the user U who has performed the voice chat. Therefore, it becomes possible to take appropriate communication.
  • the emphasis control is control to change the utterance position of the uttered voice of the second user U2 in the virtual space VS when the second user U2 is highly interested in the uttered voice.
  • the second avatar AT2 linked to the second user U2 with whom the voice chat is conducted is positioned near the first avatar AT1. Therefore, when three-dimensional sound (stereophonic sound) is reproduced according to the mutual positional relationship in the virtual space VS, it becomes easier for the first user U1 to hear the voice uttered by the second user U2. can take
  • the client system 3 determines whether or not the position of the avatar AT in the virtual space VS is included in the permission area where voice chat is permitted.
  • a determination unit 20 may be provided. For example, in the virtual space VS, a permitted area where voice chat is possible and a non-permitted area where voice chat is not possible are provided. As a result, by moving to the unauthorized area, the user can concentrate on the concert without voice chat. Further, by moving to the permitted area, it is possible to communicate with other users U by voice chat.
  • the emphasis information generation unit 21 of the client system 3 generates control information for performing emphasis control on the uttered voice when the first avatar AT1 is located in the permitted area. may be generated. For example, it is possible to configure such that the emphasis control is not performed on the uttered voice when the vehicle is located in the non-permitted area, and the emphasis control is performed when the vehicle is located in the permitted area. As a result, appropriate control can be performed for the user U who wants to have a voice chat and is moving to the permitted area to emphasize the uttered voice. In addition, by not performing emphasis control on the uttered voice when the user U is located in the non-permission area, the user U's concentration on the concert or the like can be maintained.
  • the information processing method is executed by a computer device, and is based on the interest information of the first user U1 associated with the first avatar AT1 placed in the virtual space VS. It generates control information for performing emphasis control on sound including the uttered voice of the second user U2 associated with the second avatar AT2 placed in the space VS.
  • the storage medium in the present technology is the environmental sound in the virtual space VS and the second avatar AT2 placed in the virtual space VS based on the interest information of the first user U1 associated with the first avatar AT1 placed in the virtual space VS. It is readable by a computer device storing a program that causes an arithmetic processing device to execute a function of generating control information for performing emphasis control on sound including the associated uttered voice of the second user U2.
  • a program executed by the client system 3 as an information processing device is arranged in the virtual space VS with environmental sounds in the virtual space VS based on interest information of the first user U1 associated with the first avatar AT1 arranged in the virtual space VS.
  • an arithmetic processing device such as a CPU included in the client system 3 is caused to execute a function of generating control information for performing emphasis control on the sound including the uttered voice of the second user U2 associated with the second avatar AT2. It's a program.
  • the enhancement control of the sound described above can be realized by an arithmetic processing unit such as a microcomputer.
  • HDD Hard Disk Drive
  • the program may be a flexible disk, a CD-ROM (Compact Disk Read Only Memory), an MO (Magneto Optical) disk, a DVD (Digital Versatile Disc), a Blu-ray Disc (registered trademark), a magnetic disk, a semiconductor It can be temporarily or permanently stored (recorded) in a removable recording medium such as a memory or memory card.
  • a removable recording medium such as a memory or memory card.
  • Such removable recording media can be provided as so-called package software.
  • it can also be downloaded from a download site via a network such as a LAN (Local Area Network) or the Internet.
  • LAN Local Area Network
  • the present technology can also adopt the following configuration.
  • (1) Based on the interest information of the first user associated with the first avatar arranged in the virtual space, the environmental sound in the virtual space and the uttered voice of the second user associated with the second avatar arranged in the virtual space are included.
  • An information processing apparatus comprising an emphasis information generation unit that generates control information for performing emphasis control on sound.
  • (2) The information processing apparatus according to (1), wherein the interest information is information indicating a degree of interest in the environmental sound.
  • the information processing apparatus according to (2), wherein the information indicating the degree of interest is information obtained by a pointing action of the first user.
  • the enhancement control is a control for changing volume of sound to be controlled.
  • the emphasis information generation unit includes a text conversion unit that converts the second user's uttered voice into text.
  • the text conversion unit converts the second user's uttered voice into text when the degree of interest in the environmental sound is high.
  • the text conversion unit converts the second user's uttered voice into text when the degree of interest in the uttered voice is high.
  • the text conversion unit further converts the converted text into three-dimensional character information.
  • the information processing apparatus according to (8) above, further comprising a display control unit that determines display end timing of the three-dimensional object based on the three-dimensional character information.
  • the display control unit determines a timing at which a predetermined time has elapsed from the start of display of the three-dimensional object as the display end timing.
  • the display control unit determines timing at which a predetermined operation is performed on the three-dimensional object as the display end timing.
  • the display control unit determines a timing at which the three-dimensional object collides with another object placed in the virtual space as the display end timing.
  • the information processing apparatus according to any one of (1) to (12) above, wherein the emphasis information generation unit generates control information for performing visual emphasis control based on the interest information.
  • the visual emphasis control is a control for visually emphasizing the second avatar when the second user is highly interested in the uttered voice.
  • the visual emphasis control is a control for performing text display notifying the second user's utterance when the second user's uttered voice is of high interest.
  • the emphasis control is control to change the utterance position of the second user's uttered voice in the virtual space when the second user's uttered voice is of high interest.
  • the information processing device according to any one of the above.
  • the information processing device according to any one of (1) to (16) above, further comprising an area determination unit that determines whether or not the position of the avatar in the virtual space is included in an area where voice chat is permitted. .
  • the emphasis information generation unit generates control information for performing emphasis control on the uttered voice when the first avatar is positioned in the permitted area.
  • the environmental sound in the virtual space and the uttered voice of the second user associated with the second avatar arranged in the virtual space are included.
  • a storage medium readable by a computer device storing a program that causes an arithmetic processing device to execute a function of generating control information for performing emphasis control on sound.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

情報処理装置は、仮想空間に配置される第1アバターに紐付く第1ユーザの関心情報に基づいて、前記仮想空間における環境音と前記仮想空間に配置される第2アバターに紐付く第2ユーザの発話音声を含む音響についての強調制御を行うための制御情報を生成する強調情報生成部を備えたものとした。

Description

情報処理装置、情報処理方法、記憶媒体
 本技術は、仮想空間を利用した音響再生のための処理を行う情報処理装置、情報処理方法、記憶媒体の技術分野に関する。
 ユーザに紐づけられたアバターなどの仮想キャラクタを仮想空間に配し、仮想空間における該仮想キャラクタの位置に応じた音響再生を行うことにより、仮想空間において催されるイベント等への没入感を高める技術が知られている。
 例えば、下記特許文献1においては、実空間から取得された音声を仮想空間内の音声データとして出力する際に、仮想空間内の聴取位置などに基づいて実空間からの音声にエフェクトをかけて出力を行うことが記載されている。これによって仮想空間への没入感を高めることができる。
特開2020-188435号公報
 ところが、ユーザにとっては聞きたい音響と聞きたくない音響があり、いずれの音響についても同様にエフェクトをかけて出力してしまうと、ユーザにとって必ずしも好ましい音響再生が行われるとは限らない。
 本技術はこのような問題に鑑みて為されたものであり、ユーザがリモートによって参加可能なイベントにおいて適切な音響再生を伴うユーザ体験を提供することを目的とする。
 本技術に係る情報処理装置は、仮想空間に配置される第1アバターに紐付く第1ユーザの関心情報に基づいて、前記仮想空間における環境音と前記仮想空間に配置される第2アバターに紐付く第2ユーザの発話音声を含む音響についての強調制御を行うための制御情報を生成する強調情報生成部を備えたものである。
 関心情報とは、音響に対しての関心情報である。そして、音響とは、環境音や発話音声などである。環境音とは、仮想空間において発せられる音、例えば、音楽コンサートにおける演奏音や演奏開始を伝えるためのアナウンス放送音や、演者が発する音声などである。また、発話音声は、視聴者が発する音声などである。
 各視聴者は、仮想空間において自身の分身として配置されるアバターの位置等に応じた音響を体験することができる。
 情報処理装置は、第1ユーザの関心情報に基づいて環境音と発話音声の何れかを強調制御するための制御情報や、双方を強調制御するための制御情報を生成する。
仮想空間において催されるコンサートについての概要を説明するための図である。 提供システムの構成例を示すブロック図である。 クライアントシステムの構成例を示すブロック図である。 コンピュータ装置のブロック図である。 機械学習に関する処理の流れの一例を示すフローチャートである。 第1の実施の形態における音量調整の処理の流れを示すフローチャートである。 第1の実施の形態における音量調整の処理の流れの別の例を示すフローチャートである。 第2の実施の形態における音量調整の処理の流れを示すフローチャートである。 許可エリアに位置しているか否かを判定するための手法について説明するための図である。 仮想空間に配置された三次元テキストの一例を示す図である。 第3の実施の形態における音量調整の処理の流れを示すフローチャートである。 アバターの表示色を変更する例を説明するための図である。 音声チャットの開始要求を通知するための表示を行う例を説明するための図である。 アバターを疑似的に移動させる例を説明するための図である。 第4の実施の形態における強調制御を行うための処理の流れを示すフローチャートである。
 以下、添付図面を参照し、本技術に係る実施の形態を次の順序で説明する。
<1.システム構成>
<2.コンピュータ装置>
<3.第1の実施の形態>
<4.第2の実施の形態>
<5.第3の実施の形態>
<6.第4の実施の形態>
<7.変形例>
<8.まとめ>
<9.本技術>
<1.システム構成>
 仮想空間VSを用いたエンターテインメントを提供するためのシステム構成について添付図を参照しながら説明する。
 先ず、仮想空間VSを用いてユーザに提供されるエンターテインメントの概要について図1を参照して説明する。なお、ユーザに提供されるエンターテインメントとしては、各種考えられるが、以降の説明においては、音楽コンサートを例に挙げる。
 仮想空間VSには、演奏者や歌い手などの演者を模した三次元オブジェクトが配置されている。演者の動きは、実空間における演者の動きにリンクして仮想空間VSで再現される。演者の動き、即ち、関節の動きは、例えば、多角的に演者を撮像した複数の撮像画像から得る。
 演者は、仮想空間VSにおいてユーザが注目する対象物である。
 仮想空間VSにおける演者の態様としては、例えば、コンサート会場に設置されたスクリーン上に投影された実写の人物や仮想のキャラクタや、実写によるボリュメトリック撮像体や、仮想キャラクタのCG(Computer Graphics)キャラクタなどが挙げられる。また、展示会等においては、展示物としての展示動画や展示画像などが演者の一態様である。
 以下の説明においては、演者が実写の人物や仮想のキャラクタである場合を例に挙げて説明する。
 仮想空間VSにおいては、ユーザに紐づけられた仮想キャラクタであるアバターATが配置される。仮想空間VSにおける各アバターATの挙動は、それぞれのユーザの動きや操作に応じたものとなる。
 例えば、ユーザが右を向くことにより仮想空間VSに配置されたアバターATの顔が右を向くようにされていてもよい。
 或いは、ユーザが実空間で移動したことに応じて仮想空間VSにおけるアバターATが移動してもよいし、ユーザがコントローラを操作することによりアバターATが仮想空間VSにおいて移動してもよい。
 また、ユーザが実空間で喋ったことに応じて、仮想空間VSにおいて当該ユーザのアバターATの近くに配置された別のアバターATを操作する他のユーザに対して発話内容が伝達されてもよい。換言すれば、ユーザは、仮想空間VSにおいて仮想的に近傍に配置されているユーザに対して話しかけることが可能とされている。
 そして、それらの発話内容に基づく音響再生は、発話したユーザのアバターATとの距離と方向に応じて行われてもよい。即ち、発話したユーザのアバターATが聞き手とされたユーザのアバターATの右側にいた場合には、右側から聞こえるように音響再生されると共に、その再生音の大きさは、双方のアバターの距離に応じたものとされる。
 また、前述した演奏者による演奏音や歌い手による歌声についても、アバターATと演奏者や歌い手との距離や方向に応じて音響再生が行われる。もちろん、演奏音や歌声が仮想空間VSに配置されたスピーカから聞こえるように音響再生してもよく、その場合には、アバターATとスピーカの位置関係や距離に応じた音響再生がなされる。
 このような仮想空間VSにおいては、アバターATに対して種々の方向から種々の音響が聞こえるかのように音響再生が行われる。
 図1に示す例では、ユーザUに紐付けられたアバターATが仮想空間VSに配置されている。更に、演者についての三次元オブジェクトであるアバターAT0が仮想空間VSに配置されている。
 第1アバターAT1を操作する第1ユーザU1に対して、演者からアバターAT0を介して聞こえてくる演奏音や歌声と、スピーカから聞こえてくる館内放送などの音と、第2ユーザU2の第2アバターAT2から聞こえてくる第2ユーザU2の発話音声などがそれぞれ異なる方向から聞こえるように音響再生が行われる。
 なお、以降の説明においては、音声チャットに関するユーザUの発話音声以外の音を「環境音」と記載する。即ち、環境音とは、演奏音や歌い手による歌声や館内放送の音などである。
 このような体験をユーザUに提供するための提供システム1の構成について一例を図2に示す。
 本実施の形態における提供システム1は、サーバシステム2とクライアントシステム3を備え、サーバシステム2とクライアントシステム3は通信ネットワーク4を介して相互に通信可能とされている。
 サーバシステム2は、仮想空間VSを用いたエンターテインメント環境を提供するためのシステムであり、1または複数の情報処理装置によって構成されている。
 サーバシステム2は、提供されるエンターテインメントとしてのコンテンツごとに設けられていてもよいし、複数のコンテンツが一つのサーバシステム2によって提供されてもよい。
 例えば、音楽のコンサートであれば、あるサーバシステム2を用いて一つのコンサートを体験するための環境を提供し、別のサーバシステム2を用いて別のコンサートを体験するための環境を提供してもよい。
 サーバシステム2は、演奏者や歌い手を多角的に撮像する複数のカメラ5と、仮想空間生成部6と、配信制御部7と、通信部8とを備えている。
 カメラ5は、実空間において演者の周囲に配置され、演者を撮像することにより撮像画像を得る。
 各カメラ5によって撮像されたそれぞれの撮像画像(映像)は、同期が取れた状態で仮想空間生成部6に供給される。
 仮想空間生成部6においては、複数の撮像画像から演者についての三次元オブジェクトが生成される。生成された三次元オブジェクトは、仮想空間VSに配置される。演者の三次元オブジェクトの表面にはテクスチャ画像が貼り付けられる。テクスチャ画像は、演者を撮像した撮像画像を用いてもよいし、仮想の人物についての画像を用いてもよい。即ち、カメラ5によって撮像された人物と、仮想空間VSにおいて演者として表示される人物は異なっていてもよい。
 仮想空間生成部6は、ステージ上の構造物や客席に配置される構造物の三次元オブジェクトを生成、或いは他の情報処理装置から取得し、仮想空間VSに配置する。
 このようにして各種の三次元オブジェクトが配置された仮想空間VSが仮想空間生成部6によって生成される。
 配信制御部7は、サーバシステム2に接続されたクライアントシステム3のうち、当該コンサートが上演されている仮想空間VSにアバターが配置されているユーザUが利用するクライアントシステム3に対して仮想空間VSについての情報を送信する。
 通信部8は、配信制御部7の制御に応じて通信ネットワーク4を介して各クライアントシステム3に仮想空間VSの情報などを送信する。また、通信部8は、クライアントシステム3から情報を受信する。クライアントシステム3から受信する情報としては、例えば、新たなユーザUが仮想空間VSへ入ることを要求する情報などである。
 また、サーバシステム2は、提供する各種の機能を利用可能なユーザUを管理するためのユーザ管理機能を備えていてもよい。例えば、ユーザ登録機能や登録解除機能、そしてログイン機能などを備えていてもよい。
 ユーザ登録に関する情報や登録解除に関する情報やログインに関する情報は通信部8を介してサーバシステム2に提供される。
 なお、後述する例においては、一つの仮想空間VSに対して複数のルームが設けられる。各ルームにおける演者やステージ上の構造物などの三次元オブジェクトは各ルーム間で共通のオブジェクトとされる。即ち、各ルームにおいて演者の動きは同じものとされる。
 対して、各ユーザUに紐づくアバターATの配置はルームごとに異なる。例えば一つのルームに入室可能なユーザUが20人とされている場合には、当該ルームについての仮想空間VSには、演者等に紐づく共通の三次元オブジェクトと、当該ルームに入室した20人のユーザUに紐づく20体のアバターATが配置される。
 このように、一つのルームとしての仮想空間VSに配置される三次元オブジェクトの数が抑制されることにより、仮想空間VSについての表示処理などのクライアントシステム3における処理負担が軽減される。
 クライアントシステム3は、サーバシステム2が提供するエンターテインメント環境を利用するユーザUごとに設けられ、1または複数の情報処理装置によって構成されている。
 クライアントシステム3の構成は種々考えられる。図2に示す例では、パーソナルコンピュータやスマートフォンやゲーム機本体や記録メディアの再生装置などの情報処理装置であるクライアント装置9と、クライアント装置9に接続されるHMD(Head Mounted Display)10とハンドコントローラ11とを備えている。
 これ以外にも、クライアント装置9の機能とHMD10の機能の双方が内包されたヘッドマウント装置とハンドコントローラ11によってクライアントシステム3が構成されていてもよいし、ハンドコントローラ11の代わりにキーボードを備えてクライアントシステム3が構成されていてもよいし、ハンドコントローラ11やキーボードを備えずにクライアントシステム3が構成されていてもよい。
 クライアント装置9は、通信部12と制御部13とを備えている。
 クライアント装置9は、通信ネットワーク4を介してサーバシステム2や他のクライアントシステム3と情報の送受信を行う通信部12と、各種の処理を行う制御部13を備えている。
 例えば、制御部13は、サーバシステム2から受信した仮想空間VSの情報に基づいてHMD10が備える表示部に表示させる画像を生成する。ユーザUは、HMD10の表示部に表示された画像を視認することにより、あたかも自身が仮想空間VSに入り込んでいるかのような体験をすることができる。
 制御部13が生成する画像は、HMD10の動きやハンドコントローラ11に対するユーザUの操作によって適宜変更される。具体的には後述する。
 HMD10は、ユーザUが頭部に装着して使用する情報処理装置であり、クライアント装置9から受信した情報に基づいて画像を表示する処理やHMD10の位置や向きの情報をクライアント装置9に送信する処理を行う。
 ハンドコントローラ11は、例えば2個の情報処理装置から成り、ユーザUが両手に一つずつ把持して使用するものとされる。
 ハンドコントローラ11は、クライアント装置9から受信した触覚信号に基づいて振動する振動部や、各種操作子などが設けられている。
 クライアントシステム3が備えるクライアント装置9とHMD10とハンドコントローラ11の具体的な構成例について図3を参照して説明する。
 クライアント装置9は、通信部12と制御部13を備えており、制御部13は、表示制御部14と、音声通話処理部15と、関心度推定部16と、音量制御部17と、テキスト変換部18と、立体音響処理部19と、エリア判定部20とを備えている。
 表示制御部14は、サーバシステム2から受信した仮想空間VSの三次元情報と、HMD10から得られるHMD10の姿勢情報に基づいて、HMD10の表示部に表示すべき画像を表示画像として生成する。
 また、表示制御部14は、仮想空間VSに配置するアイコンなどの三次元オブジェクトや他のユーザUについてのアバターATに重畳させるユーザ名などの情報の表示位置を決定し表示画像に反映させる処理を行う。
 更に、表示制御部14は、メニュー表示などを表示画像に付加する処理を行う。
 音声通話処理部15は、ユーザU間の音声チャット、即ち、クライアントシステム3同士の音声チャットに関する通信処理を行う。この処理は、通信部12及び通信ネットワーク4を介して行われる。
 音声チャットの対象ユーザUについての情報は、立体音響処理部19に提供される。
 関心度推定部16は、HMD10及びハンドコントローラ11を装着したユーザUの関心度についての推定処理を行う。具体的には、仮想空間VSにおけるアバターATの配置位置に基づいて、図1に示したように種々の方向から多様な音響が聞こえるように音響再生が行われる。それらの音響を全て再生してしまうと、ユーザUにとって好ましくない場合がある。
 関心度推定部16は、それらの種々の音響(前述した環境音や発話音声)に対するユーザUの関心度を推定する処理を行う。
 関心度推定部16による推定処理は、色々な情報を利用して行われる。例えば、HMD10の姿勢情報を取得してユーザUの関心の高い三次元オブジェクトを推定し、当該三次元オブジェクトから発せられる音響を関心度の高い音響として特定する。
 また、ユーザUが所持しているハンドコントローラ11の姿勢情報を取得することによりユーザUのポインティング動作を検出して関心の高い三次元オブジェクトを推定することにより関心度の高い音響を特定してもよい。
 更に、HMD10の表示部に表示されることによりユーザUが視認可能なメニュー画面等を利用したユーザUの選択操作によって関心の高い三次元オブジェクトを推定してもよい。
 或いは、HMD10が備えるカメラによる撮像画像から推定されたユーザUの視線方向に基づいて関心の高い三次元オブジェクトを推定してもよい。
 また、関心の高い三次元オブジェクトを推定することによりユーザUの関心度を推定する上記の方法だけでなく、それ以外の方法も考えられる。例えば、演者の歌唱に合わせてユーザUが歌っていることを検出した場合に、演者や演奏中の楽曲に対する関心が高いと推定してもよい。
 更には、演者の歌唱に合わせてユーザUがリズムを取っていることや踊っていることを検出した場合に演者や演奏中の楽曲に対する関心が高いと推定してもよい。
 また、後述するように、関心度の高い楽曲などを登録しておき、それらとのマッチングや類似度を用いて関心度の高さを推定してもよい。
 他にも、脈拍や体温などのユーザUの生体情報を取得することによりユーザUの関心度を推定してもよい。
 このようにして、関心度推定部16は、ユーザUの関心が高いと推定された三次元オブジェクトを推定し、その三次元オブジェクトから発せられる音響を関心度の高い音響として特定する。
 音量制御部17とテキスト変換部18は、強調情報生成部21として設けられている。
 強調情報生成部21は、ユーザUの関心度に応じて各種音響を強調(調整)するための強調情報を生成する。
 例えば、複数の音響の例として演者やスピーカから聞こえてくる「演奏音」と音声チャットにおける「発話音声」を用いて説明する。ユーザUの関心が発話音声よりも演奏音にあると関心度推定部16によって推定された場合、音量制御部17は、演奏音を強調するための音量制御を行う。具体的には後述する。
 テキスト変換部18は、発話音声をテキストに変換する処理を行う。テキスト変換処理は、例えば、演奏音についてのユーザUの関心が高いと関心度推定部16によって推定された場合に、発話音声についての音響再生の代わりにテキスト変換部18によって生成されたテキストによる提示を行うことが考えられる。
 ユーザUへのテキスト提示は、単なる文字情報として提示する場合だけでなく、仮想空間VSにおける三次元オブジェクトとしての文字(以降「三次元テキスト」と記載)を提示する場合もある。この場合には、テキスト変換部18は、三次元オブジェクトとしての文字情報の生成を行う。
 強調情報生成部21は、ユーザUの関心が演奏音よりも発話音声にあると関心度推定部16によって推定された場合に、音量制御部17による音量調整に加えて(或いは代えて)、音声チャットの発話を行ったユーザU即ち会話相手とされたユーザUのアバターATの位置を擬似的に聞き手であるユーザUのアバターATの近くに移動させる処理を行ってもよい。この処理は、発話音声を強調するための処理と見なすことができる。
 立体音響処理部19は、仮想空間VSにおける各種音響の発生位置と、前述した音声通話処理部15から受信した音声チャットの対象ユーザUについての情報に基づいて特定したアバターATの位置関係などに応じて、立体的な音響再生を行うための処理を実行する。
 立体音響処理には、音響の聴取位置及び聴取方向に基づく減衰処理や、音響の発生位置からアバターATに到着するまでの音響エフェクトを算出する処理や、反響音についての処理などが含まれる。
 また、立体音響処理部19は、前述したように関心度に基づいて決定された音量調整を反映させて立体音響処理を行う。
 エリア判定部20は、アバターATの位置が、音声チャットが許可された許可エリアに位置しているか、音声チャットが許可されていない不許可エリアに位置しているかを判定する。
 立体音響処理部19は、エリア判定部20による判定結果を立体音響処理に反映させてもよい。例えば、不許可エリアにアバターATが位置している場合には、音声チャットに係る立体音響再生を行わないようにしてもよい。
 図10に示す一例においては、HMD10は、HM制御部22と、表示部23と、HMC(ヘッドマウントカメラ)24と、マイクロフォン25と、IMU(Inertial Measurement Unit)26と、を備えている。
 HM制御部22は、HMD10の全体制御を行う。
 HM制御部22は、IMU26において得られた姿勢を表す検出信号や、マイクロフォン25において得られた音声信号をクライアント装置9に送信する処理を行う。また、HM制御部22は、クライアント装置9から種々の三次元オブジェクトが配置された仮想空間VSの情報を受信する処理などを行う。
 なお、図3においては、HMD10が備える通信部の図示を省略している。
 表示部23は、HMD10を装着した状態のユーザUの眼球の前方に配置されるスクリーンなどの装置とされ、HM制御部22によって生成された表示画像が表示される。
 HMC24は、HMD10を装着したユーザUの目のあたりを撮像するカメラなどである。HMC24で撮像された目の撮像画像に基づいてユーザUの視線方向の検出が行われる。
 マイクロフォン25は、HMD10を装着したユーザUの発話音声を拾うために設けられ、マイクロフォン25に入力された音声は音声データに変換されてHM制御部22を介してクライアント装置9の音声通話処理部15に供給される。
 IMU26は、加速度センサやジャイロセンサ等を備えて構成され、HMD10の姿勢を推定するための検出信号をHM制御部22に出力する。
 IMU26が温度センサを備えることにより温度特性に基づく補正が可能とされていてもよい。
 HM制御部22は、表示処理部27と視線検出部28と姿勢検出部29を備えている。
 表示処理部27は、表示部23に表示画像を表示するための処理を行う。
 視線検出部28は、HMC24による撮像画像に基づいてユーザUの視線方向の検出を行う。検出された視線方向は、前述のようにユーザUの関心度を推定するためなどに用いられる。
 姿勢検出部29は、IMU26から供給される信号に基づいてHMD10の姿勢を検出する。検出された姿勢情報はクライアント装置9の制御部13に供給される。
 図10に示す一例においては、ハンドコントローラ11は、HC(ハンドコントローラ)制御部30と振動部31と操作部32とIMU33を備えている。
 HC制御部30は、ハンドコントローラ11の全体制御を行う。
 振動部31は、HC制御部30から供給された触覚信号に基づいて振動することによりユーザUに対して触覚刺激を提示する。
 操作部32は、ボタン等の操作子として設けられ、ユーザUによる操作を受け付け、検出信号をHC制御部30に供給する。
 IMU33は、加速度センサやジャイロセンサ等を備えて構成され、ハンドコントローラ11の姿勢を推定するための検出信号をHC制御部30に出力する。
 IMU33が温度センサを備えることにより温度特性に基づく補正が可能とされていてもよい。
 HC制御部30は、振動提示部34と入力受付部35と姿勢検出部36を備えている。
 振動提示部34は、振動部31に対して触覚信号を供給する。
 入力受付部35は、ユーザUの操作についての検出信号を操作部32から受け取り、操作に応じた処理を行う。例えば、メニュー表示に対する選択操作や、関心のある三次元オブジェクトを指定する操作や、音声チャットの対象ユーザUについてのアバターATを特定する操作に応じた処理を行う。
 姿勢検出部36は、IMU33から供給される信号に基づいてハンドコントローラ11の姿勢を検出する。検出された姿勢情報はクライアント装置9の制御部13に供給される。
 クライアント装置9とHMD10とハンドコントローラ11は無線或いは有線によって情報の送受信が可能とされている。
 なお、クライアント装置9の制御部13は、図3に示す全ての構成を備えている必要は無い。例えば、音声チャットにおける発言内容をテキスト化する必要がない場合にはテキスト変換部18を備えていなくてもよい。
 図2に示す通信ネットワーク4の構成は各種考えられる。例えば、インターネット、イントラネット、エキストラネット、LAN(Local Area Network)、CATV(Community Antenna TeleVision)通信網、仮想専用網(Virtual Private Network)、電話回線網、移動体通信網、衛星通信網などが通信ネットワーク4として想定される。
 また、通信ネットワーク4の全部又は一部を構成する伝送媒体についても多様な例が想定される。例えばIEEE(Institute of Electrical and Electronics Engineers)1394、USB(Universal Serial Bus)、電力線搬送、電話線などの有線でも、IrDA(Infrared Data Association)のような赤外線、ブルートゥース(登録商標)、802.11無線、携帯電話網、衛星回線、地上波デジタル網などの無線でも利用可能である。
<2.コンピュータ装置>
 提供システム1が備えるサーバシステム2及びクライアントシステム3を実現する演算処理部を備えるコンピュータ装置の構成例について図4を参照して説明する。
 コンピュータ装置のCPU71は、上述した各種の処理を行う演算処理部として機能し、ROM72や例えばEEP-ROM(Electrically Erasable Programmable Read-Only Memory)などの不揮発性メモリ部74に記憶されているプログラム、または記憶部79からRAM73にロードされたプログラムに従って各種の処理を実行する。RAM73にはまた、CPU71が各種の処理を実行する上において必要なデータなども適宜記憶される。
 CPU71、ROM72、RAM73、不揮発性メモリ部74は、バス83を介して相互に接続されている。このバス83にはまた、入出力インタフェース(I/F)75も接続されている。
 入出力インタフェース75には、操作子や操作デバイスよりなる入力部76が接続される。
 例えば入力部76としては、キーボード、マウス、キー、ダイヤル、タッチパネル、タッチパッド、リモートコントローラ等の各種の操作子や操作デバイスが想定される。
 入力部76によりユーザUの操作が検知され、入力された操作に応じた信号はCPU71によって解釈される。
 また入出力インタフェース75には、LCD或いは有機ELパネルなどよりなる表示部77や、スピーカなどよりなる音声出力部78が一体又は別体として接続される。
 表示部77は各種表示を行う表示部であり、例えばコンピュータ装置の筐体に設けられるディスプレイデバイスや、コンピュータ装置に接続される別体のディスプレイデバイス等により構成される。
 表示部77は、CPU71の指示に基づいて表示画面上に各種の画像処理のための画像や処理対象の動画等の表示を実行する。また表示部77はCPU71の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちGUI(Graphical User Interface)としての表示を行う。
 入出力インタフェース75には、ハードディスクや固体メモリなどより構成される記憶部79や、モデムなどより構成される通信部80が接続される場合もある。
 通信部80は、インターネット等の伝送路を介しての通信処理や、各種機器との有線/無線通信、バス通信などによる通信を行う。
 入出力インタフェース75にはまた、必要に応じてドライブ81が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記憶媒体82が適宜装着される。
 ドライブ81により、リムーバブル記憶媒体82から各処理に用いられるプログラム等のデータファイルなどを読み出すことができる。読み出されたデータファイルは記憶部79に記憶されたり、データファイルに含まれる画像や音声が表示部77や音声出力部78で出力されたりする。またリムーバブル記憶媒体82から読み出されたコンピュータプログラム等は必要に応じて記憶部79にインストールされる。
 このコンピュータ装置では、例えば本実施の形態の処理のためのソフトウェアを、通信部80によるネットワーク通信やリムーバブル記憶媒体82を介してインストールすることができる。或いは当該ソフトウェアは予めROM72や記憶部79等に記憶されていてもよい。
 CPU71が各種のプログラムに基づいて処理動作を行うことで、上述した演算処理部を備えたサーバシステム2やクライアントシステム3としての必要な情報処理や通信処理が実行される。
 なお、情報処理装置は、図4のようなコンピュータ装置が単一で構成されることに限らず、複数のコンピュータ装置がシステム化されて構成されてもよい。複数のコンピュータ装置は、LAN(Local Area Network)等によりシステム化されていてもよいし、インターネット等を利用したVPN(Virtual Private Network)等により遠隔地に配置されたものでもよい。複数のコンピュータ装置には、クラウドコンピューティングサービスによって利用可能なサーバ群(クラウド)としてのコンピュータ装置が含まれてもよい。
<3.第1の実施の形態>
 第1の実施の形態においては、ユーザUの関心度に応じて環境音(演奏音や歌声や館内放送の音など)と発話音声の音量調整を行う。ここでは、環境音の一例である演奏音と発話音声の音量調整を行う例を挙げる。
 なお、本実施の形態及び以降の各実施の形態においては、音響再生を行う対象とされたユーザU、即ち、聞き手とされたユーザUを第1ユーザU1とし、第1ユーザU1に対応するアバターATを第1アバターAT1とする。
 また、第1ユーザU1と音声チャットを行っている他ユーザUを第2ユーザU2とし、第2ユーザU2に対応するアバターATを第2アバターAT2とする。
 音量調整については幾つかの例が考えられる。例えば、演奏音と発話音声のうち演奏音についての関心が高いと判定された場合には、演奏音の音量を上げることにより演奏音を聞こえやすくすることが考えられる。或いは、演奏音の音量を相対的に上げるために発話音声の音量を小さくすることが考えられる。この場合には、発話音声の音量を完全にゼロにすることにより発話音声についての音響再生を行わないようにしてもよい。
 同様に、発話音声についての関心が高いと判定された場合には、発話音声の音量を上げてもよいし、相対的に発話音声の音量を上げるために演奏音の音量を下げてもよい。
 ところで、演奏音についての関心度は、例えば演奏中の曲に応じて変動する可能性が高い。そこで、機械学習を用いて第1ユーザU1の楽曲の好みを学習し、学習結果を利用して演奏中の楽曲についての演奏音に対する第1ユーザU1の関心度を推定する。
 このような機械学習についての処理は、サーバシステム2において実行されてもよいし、クライアントシステム3において実行されてもよい。
 図5に機械学習に関する処理についてのフローを示す。
 サーバシステム2のCPU71、或いは、クライアントシステム3のCPU71(以降、単に「制御部」と記載する。は、図5のステップS101において、お気に入りのアーティストや楽曲の登録を受け付ける。この処理は、第1ユーザU1の操作に応じて実行される。
 制御部はステップS102において、機械学習を行う。この処理は、制御部自身が学習モデルを用いて機械学習を行ってもよいし、他の情報処理装置において提供されているサービスを利用することにより機械学習を行い、その結果を得てもよい。
 制御部はステップS103において、機械学習の結果、ユーザUの興味が高いと推定された楽曲をお気に入りの楽曲として登録する。なお、この処理において興味が高いと推定されたアーティストをお気に入りのアーティストとして登録する処理を行ってもよい。
 ステップS101からステップS103の各処理を実行することにより、制御部は、第1ユーザU1によって入力されたお気に入り情報と機械学習によって推定されたお気に入り情報の双方を得ることができる。
 クライアントシステム3は、このようにして得たお気に入り情報に基づいて上述した強調制御としての音量調整を行う。
 具体的な処理フローの一例を図6に示す。
 クライアントシステム3のCPU71は、ステップS201において、第1ユーザU1によるログイン操作を受け付け、ログイン要求をサーバシステム2に送信する。
 サーバシステム2はクライアントシステム3からのログイン要求を受け付け、ログイン可否を判定し、その結果をクライアントシステム3に送信する。
 これにより、クライアントシステム3では、ログインが失敗したことを示す画面やログイン後のユーザ画面などを第1ユーザU1に提示する処理が実行される。
 続いて、クライアントシステム3のCPU71は、ステップS202において、ルームの選択処理を受け付け、選択されたルームを特定する情報をサーバシステム2に送信する。
 サーバシステム2は、ルームの入室可能人数に満たない場合には、ルームへの入室を許可し、その結果をクライアントシステム3へ送信する。なお、ルームごとに入室が許可されるユーザUが限定されていてもよい。
 これにより、クライアントシステム3では、入室後のルーム画面などを第1ユーザU1に提示する処理が実行される。具体的には、演者やスピーカなどの三次元オブジェクトと入室中のユーザUごとのアバターATが配置された仮想空間VSを第1ユーザU1のHMD10を介して提示する処理を行う。
 クライアントシステム3のCPU71は、ステップS203において、ライブ中であるか否かを判定する処理を行う。この処理は、クライアントシステム3がサーバシステム2へライブ中であるか否かを問い合わせすることにより実行されてもよいし、クライアントシステム3においてライブ中であるか否かを判定する処理を実行してもよい。
 なお、ライブ中とは、仮想空間VSにおけるコンサートの開始時刻を過ぎており、楽曲の演奏などが行われている状態を示す。
 ライブ中でないと判定した場合、即ち、コンサートの開始時刻前である場合や、コンサートの終了時刻後である場合には、クライアントシステム3のCPU71はステップS204において、音声チャット中であるか否かを判定する。
 ここでいう「音声チャット中」とは、第1ユーザU1と第2ユーザU2による一対一の音声チャットが行われている場合や、ルームにアバターATが配置されているユーザU同士で一対一以外の音声チャットが行われている場合などが該当する。
 例えば、第1ユーザU1に対していずれかのユーザUによる発話音声としての音響が再生されている場合に音声チャット中であると判定される。或いは、第1ユーザU1が利用するクライアントシステム3のマイクロフォン25が第1ユーザU1の発話音声を拾っている状態であれば音声チャット中であると判定してもよい。
 音声チャット中であると判定した場合、クライアントシステム3のCPU71はステップS205において、環境音への関心度が高いか否かを判定する。なお、ライブ中ではないため、ここでいう環境音は、館内放送の音響や物販のアナウンスの音響などである。
 環境音への関心度が高いと判定した場合、クライアントシステム3のCPU71はステップS206において、音声チャットのチャット音量を下げる処理を行う。
 或いは、環境音の音量を上げる処理を行ってもよい。
 チャット音量を下げる処理を行った後、或いは、ステップS204において音声チャット中で無いと判定した後、或いは、ステップS205において環境音への関心度が高くないと判定した後、クライアントシステム3のCPU71はステップS207において、他のルームへ移動するか否かを判定する。
 他のルームへ移動するか否かの判定は、ユーザUによるルーム移動操作を検出したか否かに基づいて行われる。
 他のルームへ移動すると判定した場合、クライアントシステム3のCPU71はステップS202の処理へと戻る。
 一方、他のルームへの移動操作を検出していない場合、クライアントシステム3のCPU71はステップS208へと進み、ログアウト操作を検出したか否かを判定する。ログアウト操作を検出した場合、クライアントシステム3のCPU71は図6に示す一連の処理を終了する。
 ステップS208においてログアウト操作を検出していない場合、クライアントシステム3のCPU71はステップS203へと戻る。
 ステップS203の説明に戻る。ステップS203においてライブ中であると判定した場合、クライアントシステム3のCPU71はステップS209において、音声チャット中であるか否かを判定する。
 この判定処理は、例えば、クライアントシステム3のマイクロフォン25に対する第1ユーザU1の発話音声が入力されているか否かに基づいて行われてもよい。但し、第1ユーザU1が演奏中の楽曲を口ずさんでいる可能性もある。そこで、ステップS209の判定処理では、マイクロフォン25に入力された第1ユーザU1の音声が歌唱によるものであるか否かを更に判定することにより、音声チャット中であるか否かを判定してもよい。
 音声チャット中であると判定した場合、第1ユーザU1は演奏音と発話音声の双方が聞こえている状態と推定される。
 クライアントシステム3のCPU71はステップS210において演奏中の楽曲が関心度の高い楽曲であるか否かを判定する処理を行う。
 例えば、予め登録されていた楽曲と演奏中の楽曲のマッチングを行うことにより判定してもよいし、登録された楽曲の特徴やリズムの特徴と演奏中の楽曲の特徴の類似度を判定することにより、登録された楽曲と似ている楽曲についても関心度の高い楽曲であると判定してもよい。この場合には、ディープラーニングを用いて関心度の高さを算出してもよい。
 或いは、音声チャットへの関心度が低いために相対的に演奏音への関心度が高いと判定した場合を含んでいてもよい。
 更に、第1ユーザU1の挙動を検出して演奏中の楽曲に対する関心度が高いか否かを判定してもよい。例えば、第1ユーザU1が下を向いている場合や、演者とは別のところを向いている場合には楽曲への関心度が低いと判定してもよい。
 関心度の高い楽曲であると判定した場合には、クライアントシステム3のCPU71はステップS211において、音声チャットのチャット音量を下げるか、或いは、演奏音の音量を上げる処理を行い、ステップS207の処理へと進む。
 また、ステップS209において音声チャット中でないと判定した場合や、ステップS210において関心度の高い楽曲でないと判定した場合についても、クライアントシステム3のCPU71はステップS207の処理へと進む。
 即ち、図6に示す処理を実行することにより、第1ユーザU1がログアウトの操作をせず且つ現在のルームに入室している限り、クライアントシステム3のCPU71はライブ中であるか及び音声チャット中であるかを判定しつつ環境音と発話音声の関心度を推定することにより随時音量調整を行う処理を実行する。
 図6においては、音声チャットの音量を下げることによりユーザUの関心度に応じた強調制御を行う例を示した。これ以外の例について図7に示す。
 なお、図6と同様の処理については同じステップ番号を付し適宜説明を省略する。
 ステップS201からステップS211の各処理については同様の処理とされる。
 図6に示す例と異なる点は、ステップS205において環境音への関心度が低いと判定した場合やステップS210において演奏中の楽曲への関心度が低いと判定した場合に、クライアントシステム3のCPU71がステップS220において環境音(演奏音や館内放送の音響)の音量を下げる処理を行う点である。
 図6では強調制御を行わなかったが、図7に示す例では、環境音の音量を下げる処理を行うことにより、音声チャットを聞きやすくなり、円滑なコミュニケーションを取ることが容易となる。
<4.第2の実施の形態>
 第2の実施の形態は、強調制御の対象とされた音声チャットが特定のユーザUとの音声チャットに限定された例である。
 具体的な処理フローについて図8を参照して説明する。なお、図6と同様の処理については同じステップ番号を付し適宜説明を省略する。
 クライアントシステム3のCPU71は、ステップS201でログイン操作を受け付け、ステップS202でルーム選択操作を受け付けた後、ステップS203でライブ中であるか否かを判定する。
 ライブ中であると判定した場合、クライアントシステム3のCPU71はステップS230において、音声チャットの許可エリアにおいて特定のユーザUと音声チャット中であるか否かを判定する。
 ここで、許可エリアについて説明する。
 第1ユーザU1の第1アバターAT1が配置されている仮想空間VSとしてのルームには、音声チャットが許可された許可エリアと、音声チャットが許可されていない不許可エリアが設けられている。
 許可エリアは、音声チャットを行いながらコンサートを楽しみたいユーザU(アバターAT)が移動してくるエリアとされている。
 一方、不許可エリアは、音声チャットに邪魔されずに集中してコンサートを楽しみたいユーザU(アバターAT)が移動してくるエリアとされている。
 従って、本例においては、ユーザUに紐付くアバターATが不許可エリアに位置している場合には、音声チャットの音量は常にゼロとされている。
 ここで、第1ユーザU1に紐付く第1アバターAT1が許可エリアに位置しているのか、或いは不許可エリアに位置しているのかを判定する方法は各種考えられる。例えば、第1アバターAT1の足が接触している床オブジェクトによって判定してもよい。
 或いは、図9に示すように、第1アバターAT1の頭頂部から上方に向けて仮想的な光線を照射し、当該光線が衝突した天井を判別することによりエリアの種類を判定してもよい。
 或いは、三次元空間における第1アバターAT1の座標位置に応じてエリアの種類を判定してもよい。
 また、特定のユーザUとは、第1ユーザU1が指定した他のユーザである第2ユーザU2である。即ち、第2の実施の形態は、第1ユーザU1にとって音声チャットを行いたい特定の第2ユーザU2が存在する場合に、他のユーザUとの音声チャットは強調制御の対象となり得ず、第2ユーザU2との音声チャットが強調制御の対象となり得る例である。
 第1ユーザU1によるユーザUの指定方法は幾つか考えられる。
 例えば、第1ユーザU1が第2ユーザU2の名前やIDを文字入力することにより指定してもよいし、第2ユーザU2に紐付く第2アバターAT2に触れるような動きや指を指す動作や第2アバターAT2に対して顔や視線を向ける動作などのポインティング動作を行うことにより指定してもよい。
 ステップS230で第1ユーザU1がチャット許可エリアにおいて特定のユーザUと音声チャット中であると判定した場合、クライアントシステム3のCPU71はステップS205において環境音への関心が高いか否かを判定し、環境音への関心が高い場合にはステップS206において第2ユーザU2との音声チャットの音量を下げる処理を行う。
 なお、図8においては、ステップS205において環境音への関心が低い場合には何もせずにステップS207へと進む例を挙げているが、環境音への関心が低い場合に第2ユーザU2との音声チャットの音量を上げる強調制御を行ってもよい。
 また、ステップS203においてライブ中であると判定した場合、クライアントシステム3のCPU71はステップS231で許可エリアにおいて特定の第2ユーザU2と音声チャット中であるか否かを判定する。
 許可エリアで特定のユーザUである第2ユーザU2と音声チャット中であると判定した場合、クライアントシステム3のCPU71はステップS210において演奏中の楽曲に対する関心度が高いか否かを判定し、楽曲への関心度が高いと判定した場合には、ステップS211において第2ユーザU2との音声チャットの音量を下げる処理を行う。
 なお、ステップS210において楽曲の関心度が低いと判定した場合には、第2ユーザU2との音声チャットの音量を上げる強調制御を行ってもよい。
<5.第3の実施の形態>
 第3の実施の形態では、発話音声をテキスト変換して第1ユーザU1に提示する例について説明する。
 発話音声をテキスト情報に変換して第1ユーザU1に提示する方法としては幾つか考えられる。例えば、第1ユーザU1に視認させる画像内にチャット欄が設けられ、該チャット欄にテキスト情報を表示することが考えられる。
 或いは、仮想空間VSに三次元オブジェクトに変換した文字情報を配置する方法も考えられる。
 文字情報を変換した三次元オブジェクトについて図10に一例を示す。
 三次元オブジェクトに変換された文字情報は、三次元テキストTXとして仮想空間VSに配置される。このとき、発話者が分かるようにエフェクトEFを伴って三次元テキストTXが生成されてもよい。
 例えば、図10に示す例では、発話者が第2ユーザU2であることが分かるように第2ユーザU2に紐付けられた第2アバターAT2から三次元テキストTXが飛び出していることを示すエフェクトEFが配置されている。
 第3の実施の形態における具体的な処理フローについて図11を参照して説明する。なお、図6に示す処理と同様の処理については、同じステップ番号を付し適宜説明を省略する。
 クライアントシステム3のCPU71は、ステップS201でログイン操作を受け付け、ステップS202でルーム選択操作を受け付けた後、ステップS203でライブ中であるか否かを判定する。
 そして、ライブ中であると判定した場合、クライアントシステム3のCPU71はステップS240において音声チャット(発話音声)のテキスト変換が必要か否かを判定する。
 この判定処理は、例えば、コンサートの演奏音の音量や音声チャットの音量に基づいて行われる。具体的には、演奏音が所定以上である場合や、音声チャットの音量が所定よりも小さい場合にテキスト変換が必要と判定する。
 また、環境音(演奏音)への関心度が高く発話音声の音量をゼロにしたい場合や、発話音声の音量を上げたくない場合にテキスト変換が必要と判定してもよい。
 テキスト変換が必要とされた場合、クライアントシステム3のCPU71はステップS241において、音声チャットのテキスト変換処理を行う。このとき、第2の実施の形態のように、特定の第2ユーザU2の音声チャットのみがテキスト変換の対象とされてもよい。
 続いて、クライアントシステム3のCPU71はステップS242において、テキストの三次元オブジェクト化を行い三次元テキストTXを生成するか否かを判定する。
 三次元オブジェクト化を行う場合とは、例えば、第1ユーザU1の注意がチャット欄に向いていない場合やチャット欄に注目していない場合などである。また、三次元テキストTXを仮想空間VSに配置しても第1ユーザU1の視界を妨げない場合に三次元テキストTXの生成を行うと判定してもよいし、第1ユーザU1の音響に対する関心度のみが高く表示部23に表示される演者などの三次元オブジェクトに対する関心度が低い場合に三次元テキストTXの生成を行うと判定してもよい。
 三次元テキストTXを生成すると判定した場合、クライアントシステム3のCPU71はステップS243において、三次元テキストTXを生成し表示させる処理を行う。具体的には、所定の位置に三次元テキストTXを配置する処理を行う。この処理を行うことにより、第1ユーザU1が装着しているHMD10の表示部23に三次元テキストTXが配置された仮想空間VSが表示される。
 ステップS243の処理を終えた後、クライアントシステム3のCPU71はステップS207の処理へと進む。
 ステップS203でライブ中でないと判定した場合やステップS204でテキスト変換必要なしと判定した場合、クライアントシステム3のCPU71はステップS244の処理へと進む。
 ステップS244の処理では、クライアントシステム3のCPU71は、表示中の三次元テキストTXがあるか否かを判定する。三次元テキストTXが仮想空間VSに配置されたままである場合、三次元オブジェクトが増える一方となり、第1ユーザU1の視界を妨げ、演者などの三次元オブジェクトの視認が困難になってしまう虞がある。そこで、本実施の形態においては、適切なタイミングで三次元テキストTXの表示を終了させる処理が行われる。
 表示中の三次元テキストTXがあると判定した場合、クライアントシステム3のCPU71はステップS245において、表示終了のタイミングが到来したか否かを三次元テキストTXごとに判定する。
 表示終了タイミングについて幾つかの例を挙げる。
 例えば、表示開始からの経過時間が所定時間を超えた場合に表示終了タイミングが到来したと判定してもよい。
 或いは、第1ユーザU1による所定操作が行われたことにより表示終了タイミングが到来したと判定してもよい。第1ユーザU1は自分の操作によって三次元テキストTXの表示を終了させることができるため、残したいメッセージのみを残すことや、不要なメッセージを早めに消すことなどができ、利便性が高い。また、発話者である第2ユーザU2にも三次元テキストTXが視認できる構成とすることにより、第1ユーザU1の操作によって三次元テキストTXの表示が終了した場合に、第1ユーザU1にメッセージ内容を確実に伝達できたことを第2ユーザU2が認識することができるため、この点においても利便性の向上が図られる。
 また、表示終了タイミングの別の例として、三次元テキストTXが別の三次元オブジェクト(別の三次元テキストTXを含む)に衝突したときに表示終了タイミングが到来したと判定してもよい。
 この例によれば、三次元テキストTXが増えるごとに他の三次元オブジェクトに衝突する確率が上昇するため、三次元テキストTXの表示終了タイミングが適度に到来する。なお、この場合には、三次元テキストTXの表示が開始されてから一定時間は他の三次元オブジェクトと衝突しても表示終了タイミングとは判定されないように構成されていてもよい。これにより、著しく短い時間で表示が終了してしまうことを防止することができる。
 図11の説明に戻る。
 ステップS245において表示終了のタイミングが到来した三次元テキストTXがある場合、クライアントシステム3のCPU71はステップS246において、該当する三次元テキストTXの表示を終了させる処理を行う。
 ステップS244で表示中の三次元テキストTXが無いと判定した場合や、ステップS245で何れの三次元テキストTXについても表示終了タイミングが到来していないと判定した場合や、ステップS246の処理を終えた後、クライアントシステム3のCPU71はステップS207の処理へと進む。
 上述した例と異なり、発話音声(音声チャット)への関心が高い場合にテキスト化を行ってもよい。例えば、発話音声への関心度が高く、発話音声の聞き逃しを防止したい場合に、発話音声についての音響再生だけでなく三次元テキストを表示させることにより、視覚と聴覚の双方を用いて音声チャットの内容を第1ユーザU1に伝達することが可能となる。
<6.第4の実施の形態>
 第4の実施の形態は、第1ユーザU1が発話音声に関心を寄せている場合の例である。
 具体的には、第1ユーザU1は音声チャットへの関心度が高いが誰と会話しているのか分からない場合などに、会話相手(発話者)についての強調制御を行う。
 本実施の形態における第1例では、発話者についての視覚的な強調制御を行う。具体的には、発話者である第2ユーザU2に紐付けられた第2アバターAT2の表示色を変える処理(図12参照)や、第2アバターAT2の輪郭を点滅させるなどして強調する処理や、第2アバターAT2の大きさを大きくする処理などを行う。
 第2例では、発話者である第2ユーザU2から音声チャットの着信があること、或いは、音声チャットの開始要求がきていることを通知するためのアイコン表示を行う(図13参照)。
 第1例及び第2例は、視覚的強調制御を行う例といえる。
 第3例では、発話者である第2ユーザU2の第2アバターAT2を擬似的に第1ユーザU1の第1アバターAT1の近くに移動させる処理を行う。
 例えば、第1ユーザU1及び第2ユーザU2は、各自にとって音響再生が最適となるようにアバターATを仮想空間VSに位置させている。従って、第1アバターAT1と第2アバターAT2が距離的に遠い場合がある。
 この状態で第2ユーザU2が第1ユーザU1に対する声かけを行った場合に、音響再生において距離に応じた減衰処理を施している場合には、第2ユーザU2の発話音声が小さくなってしまい、第1ユーザU1に気付かれない場合や第1ユーザU1が聞き取れない場合がある。
 そこで、第2ユーザU2に紐付く第2アバターAT2を第1アバターAT1の近くに移動させることや、その逆も考えられるが、そうしてしまうと、各ユーザUにとって最適な聴取位置ではなくなってしまう。
 第3例においては、第2アバターAT2の位置を擬似的にAT1の近く(図14における第2アバターAT2’の位置)に移動させる処理を行う。この移動処理は、あくまで発話位置としての第2アバターAT2の位置を動かすだけであり、コンサートを楽しみたいと考えた第2ユーザU2により設定された聴取位置としての第2アバターAT2の位置は変更されない。
 従って、第1ユーザU1にとっては、第2ユーザU2の発話内容を聞き取りやすくなると共に、第2ユーザU2にとっては、最適な聴取位置でコンサートを楽しむことが可能となる。
 第3例は、聴覚的な強調制御といえるが、第1ユーザU1にとっては第2ユーザU2の表示位置が変更されるため、視覚的な強調制御ともいえる。
 第4例では、第1ユーザU1が身につけているハンドコントローラ11が備える振動部31を振動させることにより、特定のユーザUから音声チャットの着信があること、或いは、音声チャットの開始要求がきていることを通知してもよい。
 なお、HMD10が振動部を備えている場合には、HMD10の振動部を振動させることにより同様の効果を得てもよい。
 上述した第1例と第2例と第3例を全て実行する場合についての処理の流れについて、図15を参照して説明する。
 なお、図15に示す一部の処理を実行しなくてもよい。
 クライアントシステム3のCPU71は図15のステップS301において、会話相手のアバターATの強調表示(図12参照)を行う。
 更にクライアントシステム3のCPU71は、ステップS302において、図13に示すようなテキスト表示及びアイコン表示を行うことにより着信通知を行う。
 加えて、クライアントシステム3のCPU71はステップS303において、アバターAT同士の距離が所定以上であるか否かを判定し、所定以上であると判定した場合、ステップS304において、アバターATの擬似的な移動処理(図14参照)を行う。
 一方、アバターAT同士の距離が所定未満であると判定した場合には、クライアントシステム3のCPU71はステップS304の処理を実行せずに図15に示す一連の処理を終える。
<7.変形例>
 ライブ中であるか否かの判定(例えば図6のステップS203の処理)を行う場合に、各種のメタデータを用いて判定してもよい。
 メタデータとは、例えば、演奏中の楽曲の情報や進行状況を示すタイムテーブルなどの情報や、再生中の環境音を特定するための情報などであり、これらを用いることにより、どのような音響が再生中であるかを特定することが可能となりライブ中であるか否かの判定が可能となる。
 上述した例では、HMD10とハンドコントローラ11をユーザUが装着している例を示したが、スマートフォンやタブレット端末などをユーザUが把持した状態でコンサートなどを楽しんでもよい。
 スマートフォンを利用する場合であれば、スマートフォンが備える3DoF(Degrees of Freedom)や6DoFのセンシング機能、そしてSLAM(Simultaneous Localization and Mapping)機能を用いてスマートフォンの表示部に表示すべき画像がスマートフォンの制御部によって作成される。
 そして、ユーザUの顔の向きはスマートフォンの画面の向きに置き換えることで、画面の向きに応じた適切な画像がスマートフォンの画面に表示される。
 上述した例では、第2ユーザU2が発した発話音声を略リアルタイムで第1ユーザU1に届ける場合について説明したが、環境音の音量が一定値以上である場合には発話音声をバッファリングしておいてもよい。そして、環境音の音量が一定値未満となった場合に、バッファリングしておいた発話音声を第1ユーザU1に提示するようにしてもよい。
 また、このときには、発話音声を音響再生してもよいし、テキスト化して提示してもよい。
 テキスト化して提示する場合には、バッファリングの時点でテキストに変換してもよく、その場合にはバッファリングに要するデータ量の削減が可能となる。
 上述した技術は、リモートによって各ユーザUが参加するコンサート以外にも、リモートの教育やトレーニング、リモート会議、リモートによる作業支援、物販など、音声チャットによるコミュニケーションが行われるイベントに広く適用することができる。
<8.まとめ>
 上述した各例において説明したように、情報処理装置としてのクライアントシステム3は、仮想空間VSに配置される第1アバターAT1に紐付く第1ユーザU1の関心情報に基づいて仮想空間VSにおける音響についての強調制御を行うための制御情報を生成する強調情報生成部21を備える。また、音響とは、仮想空間VSにおける演奏音などの環境音と、仮想空間VSに配置される第2アバターAT2に紐付く第2ユーザU2の発話音声を含むものである。即ち、ここでいう環境音とは、仮想空間VSにて発生する音響のうちユーザUによる発話音声を除いたものとされる。
 関心情報とは、音響に対しての関心情報である。そして、音響とは、環境音や発話音声などである。環境音とは、仮想空間VSにおいて発せられる音、例えば、音楽コンサートにおける演奏音や演奏開始を伝えるためのアナウンス放送音や、演者が発する音声などである。また、発話音声は、視聴者が発する音声などである。
 各視聴者は、仮想空間VSにおいて自身の分身として配置されるアバターATの位置等に応じた音響を体験することができる。
 情報処理装置は、第1ユーザU1の関心情報に基づいて環境音と発話音声の何れかを強調制御するための制御情報や、双方を強調制御するための制御情報を生成する。
 これにより、第1ユーザU1の関心がコンサートの楽曲にある場合には楽曲についての強調制御が行われ、第2ユーザU2の発話音声にある場合には発話音声についての強調制御が行われる。
 従って、第1ユーザU1は、自身の関心に応じた適切な音響出力を体験することができる。
 上述したように、関心情報は、環境音への関心度を示す情報とされていてもよい。
 第1ユーザU1における環境音についての関心度情報に基づいて音響の強調制御を行うことにより、例えば、第1ユーザU1にとって邪魔をされずに視聴したい楽曲などが演奏されている間に音声チャットの音量を下げる制御や環境音(演奏音)の音量を上げる制御が行われる。
 これにより、コンサート演奏などへの没入感を高めることができ、楽曲等を楽しむことができる。
 図3等を参照して説明したように、関心度を示す情報は、第1ユーザU1のポインティング動作によって得られる情報とされてもよい。
 例えば、第1ユーザU1が演者についてのアバターAT0などを指し示すようなポインティング動作をした場合には、環境音(演奏音)への関心が高いと判定され、第2ユーザU2などの他のユーザUのアバターATなどを指し示すようなポインティング動作をした場合には、発話音声即ち音声チャットへの関心が高いと判定される。
 これにより、第1ユーザU1は、高い関心を持った対象を適切に指定することができ、第1ユーザU1にとって関心の高い音響の音量が上げられるなどして音響出力を体験することができる。
 また、第1ユーザU1によって関心の高い対象が適切にポインティングされることにより、第1ユーザU1の意図とは異なる音響が強調されてしまうことを防止することができる。
 図6等を参照して説明したように、クライアントシステム3が実行する強調制御は、制御対象の音響の音量を変更する制御とされてもよい。
 関心の高い音響を制御対象として音量を上げる制御などが実行される。
 これにより、第1ユーザU1にとって関心の高い音響についての音量が上げられる、或いは、関心の低い音響についての音量が下げられるなどして、好みの音が相対的に大きくされることでコンサート等に集中することができるため、没入感を高めることができる。
 図11等を参照して説明したように、クライアントシステム3の強調情報生成部21は、第2ユーザU2の発話音声をテキストに変換するテキスト変換部18を備えていてもよい。
 これにより、関心の高い発話音声をテキストに変換することや、関心の低い発話音声をテキストに変換する制御が行われる。
 具体的には、図11等を参照して説明したように、以下のような構成を採ることができる。
 クライアントシステム3のテキスト変換部18は、環境音への関心度が高い場合に第2ユーザU2の発話音声をテキストに変換してもよい。
 例えば、関心の高い発話音声は、テキスト変換されて第1ユーザU1に提示されることで、第2ユーザU2との音声チャットについての第1ユーザU1の聞き逃しを防止することができる。
 また、第3の実施の形態で説明したように、以下のように構成を採ることもできる。
 クライアントシステム3のテキスト変換部18は、発話音声への関心度が高い場合に第2ユーザU2の発話音声をテキストに変換してもよい。
 例えば、関心の低い発話音声は、テキスト変換されて第1ユーザU1に提示されることで、第1ユーザU1が演奏音などの環境音に対する集中を乱すこと無く第2ユーザU2の音声チャットを第1ユーザU1に届けることができる。
 図11等を参照して説明したように、クライアントシステム3のテキスト変換部18は、変換されたテキストを三次元文字情報に更に変換する処理を行ってもよい。
 例えば、発話音声から変換されたテキストを三次元のテキスト情報である三次元オブジェクトとして第1ユーザU1に提示する。
 これにより、発話者である第2ユーザU2に話しかけられた第1ユーザU1は、第2ユーザU2による発話内容を適切に把握することができる。
 また、上述したように、三次元文字情報に基づく三次元オブジェクトについての表示終了タイミングを決定する表示制御部14を備えていてもよい。
 三次元オブジェクトを表示し続けることは第1ユーザU1が演者などを視認する際の障壁となる可能性がある。また、三次元オブジェクトを表示し続けることにより音声チャットに基づく複数の三次元オブジェクトが表示されてしまい、第1ユーザU1の周囲に対する視覚の障害となってしまう虞がある。
 本構成によれば、三次元オブジェクトごとに表示終了タイミングが決定されるため、仮想空間VSにおける第1ユーザU1の視認性を確保することができる。
 上述したように、表示制御部14は、三次元オブジェクトの表示開始から所定時間が経過したタイミングを表示終了タイミングとして決定してもよい。
 所定時間の経過に応じて三次元オブジェクトの表示を終了させることにより、表示中の三次元オブジェクトの数が増大し過ぎてしまうことが防止される。
 これにより、三次元オブジェクトが第1ユーザU1の視界を遮る障害物となってしまうことが防止され、第1ユーザU1の良好な視界を確保することができる。
 上述したように、表示制御部14は、三次元オブジェクトに対する所定操作が行われたタイミングを表示終了タイミングとして決定してもよい。
 三次元オブジェクトに対する表示終了操作が設けられることで、任意の三次元オブジェクトの表示を終了させることができる。
 これにより、第1ユーザU1や第2ユーザU2などの各ユーザUは、音声チャットに基づく不要な三次元オブジェクトを手動で表示しないようにすることができ、利便性の向上を図ることができる。
 特に、音声チャットの発話者である第2ユーザU2にとっては、誤ったチャット入力などを手動で消すことができる。また、音声チャットの受け手である第1ユーザU1にとっては、必要な三次元オブジェクトのみを表示させたままとすることなどが可能となる。
 なお、上述したように、三次元オブジェクトの表示を終了させる操作を実行可能なユーザUを限定してもよい。例えば、第2ユーザU2の発話による音声チャットに基づく三次元オブジェクトについては、第1ユーザU1にのみ表示を終了させる操作が可能とされていてもよい。これにより、手動にて三次元オブジェクトの表示が終了した場合には、第1ユーザU1がチャット内容を確認したことを第2ユーザU2が認識することができる。これにより、円滑なコミュニケーションを図ることが可能となる。
 図11等を参照して説明したように、クライアントシステム3の表示制御部14は、仮想空間VSに配置される他のオブジェクトに三次元オブジェクトとしての三次元テキストが衝突したタイミングを当該三次元テキストの表示終了タイミングとして決定してもよい。
 仮想空間VSに配置された三次元オブジェクトの数が多くなると、三次元オブジェクト同士の衝突が起きやすくなる。従って、衝突によって三次元オブジェクトの表示が終了されることで、仮想空間VSに配置された三次元オブジェクトの数が多くなりすぎることが防止される。
 これにより、仮想空間VSにおけるユーザUの視界が三次元オブジェクトによって妨げられてしまうことを防止し、視界を確保することができる。
 図12及び図13などを参照して説明したように、クライアントシステム3の強調情報生成部21は、関心情報に基づいて視覚的強調制御を行うための制御情報を生成してもよい。
 仮想空間VSにおいて、第1ユーザU1は、発話音声を行った第2ユーザU2などの他のユーザUの位置を把握できない場合があり、誰から音声チャットが届いているかわからない場合がある。本構成によれば、そのような他のユーザUについての視覚的な強調制御を行うことができる。
 これにより、第1ユーザU1は音声チャットの相手を把握することができ、適切なコミュニケーションをとることができる。
 図12等を参照して説明したように、視覚的強調制御は、第2ユーザU2の発話音声への関心が高い場合に第2アバターAT2についての視覚的強調を行うための制御とされてもよい。
 これにより、音声チャットを行った第2ユーザU2に紐づく第2アバターAT2を第1ユーザU1が視認しやすくされる。
 従って、音声チャットの相手ユーザUを把握することができる。
 図13等を参照して説明したように、視覚的強調制御は、第2ユーザU2の発話音声への関心が高い場合に第2ユーザU2の発話を通知するテキスト表示を行うための制御とされてもよい。
 これにより、第1ユーザU1は音声チャットを行ったユーザUを特定することが可能となる。
 従って、適切なコミュニケーションをとることが可能となる。
 図14等を参照して説明したように、強調制御は、第2ユーザU2の発話音声への関心が高い場合に仮想空間VSにおける第2ユーザU2の発話音声の発話位置を変更する制御とされてもよい。
 これにより、音声チャットの相手とされた第2ユーザU2に紐づけられた第2アバターAT2が第1アバターAT1の近くに位置される。
 従って、仮想空間VSにおけるお互いの位置関係に応じた三次元の音響(立体音響)の再生が行われる場合に、第2ユーザU2による発話音声を第1ユーザU1が聞きやすくなるため、適切なコミュニケーションを取ることができる。
 図3等を参照して説明したように、情報処理装置としてのクライアントシステム3は、仮想空間VSにおけるアバターATの位置が音声チャットの許可された許可エリアに含まれているか否かを判定するエリア判定部20を備えていてもよい。
 例えば、仮想空間VSにおいて音声チャットが可能な許可エリアと音声チャットができない不許可エリアが設けられる。
 これにより、不許可エリアに移動することで音声チャットを行わずにコンサートに集中することができる。また、許可エリアに移動することで、音声チャットによる他ユーザUとのコミュニケーションをとることができる。
 図8等を参照して説明したように、クライアントシステム3の強調情報生成部21は、第1アバターAT1が許可エリアに位置している場合に発話音声についての強調制御を行うための制御情報を生成してもよい。
 例えば、不許可エリアに位置している場合には発話音声についての強調制御を行わず、許可エリアに位置している場合に当該強調制御を行うように構成することができる。
 これにより、音声チャットを行いたいと考えて許可エリアに移動しているユーザUに対して発話音声についての強調制御を行うため、適切な制御を行うことができる。
 また、ユーザUが不許可エリアに位置している場合に発話音声についての強調制御を行わないことで、コンサート等に対するユーザUの集中を損なわずに済む。
 本技術における情報処理方法は、コンピュータ装置が実行するものであって、仮想空間VSに配置される第1アバターAT1に紐付く第1ユーザU1の関心情報に基づいて仮想空間VSにおける環境音と仮想空間VSに配置される第2アバターAT2に紐付く第2ユーザU2の発話音声を含む音響についての強調制御を行うための制御情報を生成するものである。
 本技術における記憶媒体は、仮想空間VSに配置される第1アバターAT1に紐付く第1ユーザU1の関心情報に基づいて仮想空間VSにおける環境音と仮想空間VSに配置される第2アバターAT2に紐付く第2ユーザU2の発話音声を含む音響についての強調制御を行うための制御情報を生成する機能を演算処理装置に実行させるプログラムが記憶されたコンピュータ装置が読み取り可能なものである。
 情報処理装置としてのクライアントシステム3に実行させるプログラムは、仮想空間VSに配置される第1アバターAT1に紐付く第1ユーザU1の関心情報に基づいて仮想空間VSにおける環境音と仮想空間VSに配置される第2アバターAT2に紐付く第2ユーザU2の発話音声を含む音響についての強調制御を行うための制御情報を生成する機能を、例えばクライアントシステム3が備えるCPU等の演算処理装置に実行させるプログラムである。
 このようなプログラムにより、上述した音響についての強調制御をマイクロコンピュータ等の演算処理装置により実現できる。
 これらのプログラムはコンピュータ装置等の機器に内蔵されている記録媒体としてのHDD(Hard Disk Drive)や、CPUを有するマイクロコンピュータ内のROM等に予め記録しておくことができる。あるいはまたプログラムは、フレキシブルディスク、CD-ROM(Compact Disk Read Only Memory)、MO(Magneto Optical)ディスク、DVD(Digital Versatile Disc)、ブルーレイディスク(Blu-ray Disc(登録商標))、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
 また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、LAN(Local Area Network)、インターネットなどのネットワークを介してダウンロードすることもできる。
 なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。
 また、上述した各例はいかように組み合わせてもよく、各種の組み合わせを用いた場合であっても上述した種々の作用効果を得ることが可能である。
<9.本技術>
 本技術は以下のような構成を採ることもできる。
(1)
 仮想空間に配置される第1アバターに紐付く第1ユーザの関心情報に基づいて、前記仮想空間における環境音と前記仮想空間に配置される第2アバターに紐付く第2ユーザの発話音声を含む音響についての強調制御を行うための制御情報を生成する強調情報生成部を備えた
 情報処理装置。
(2)
 前記関心情報は、前記環境音への関心度を示す情報とされた
 上記(1)に記載の情報処理装置。
(3)
 前記関心度を示す情報は、前記第1ユーザのポインティング動作によって得られる情報とされた
 上記(2)に記載の情報処理装置。
(4)
 前記強調制御は、制御対象の音響の音量を変更する制御とされた
 上記(1)から上記(3)の何れかに記載の情報処理装置。
(5)
 前記強調情報生成部は、前記第2ユーザの発話音声をテキストに変換するテキスト変換部を備えた
 上記(1)から上記(4)の何れかに記載の情報処理装置。
(6)
 前記テキスト変換部は、前記環境音への関心度が高い場合に前記第2ユーザの発話音声をテキストに変換する
 上記(5)に記載の情報処理装置。
(7)
 前記テキスト変換部は、前記発話音声への関心度が高い場合に前記第2ユーザの発話音声をテキストに変換する
 上記(5)に記載の情報処理装置。
(8)
 前記テキスト変換部は、変換された前記テキストを三次元文字情報に更に変換する処理を行う
 上記(5)から上記(7)の何れかに記載の情報処理装置。
(9)
 前記三次元文字情報に基づく三次元オブジェクトについての表示終了タイミングを決定する表示制御部を備えた
 上記(8)に記載の情報処理装置。
(10)
 前記表示制御部は、前記三次元オブジェクトの表示開始から所定時間が経過したタイミングを前記表示終了タイミングとして決定する
 上記(9)に記載の情報処理装置。
(11)
 前記表示制御部は、前記三次元オブジェクトに対する所定操作が行われたタイミングを前記表示終了タイミングとして決定する
 上記(9)に記載の情報処理装置。
(12)
 前記表示制御部は、前記仮想空間に配置される他のオブジェクトに前記三次元オブジェクトが衝突したタイミングを前記表示終了タイミングとして決定する
 上記(9)に記載の情報処理装置。
(13)
 前記強調情報生成部は、前記関心情報に基づいて視覚的強調制御を行うための制御情報を生成する
 上記(1)から上記(12)の何れかに記載の情報処理装置。
(14)
 前記視覚的強調制御は、前記第2ユーザの発話音声への関心が高い場合に前記第2アバターについての視覚的強調を行うための制御とされた
 上記(13)に記載の情報処理装置。
(15)
 前記視覚的強調制御は、前記第2ユーザの発話音声への関心が高い場合に前記第2ユーザの発話を通知するテキスト表示を行うための制御とされた
 上記(13)に記載の情報処理装置。
(16)
 前記強調制御は、前記第2ユーザの発話音声への関心が高い場合に前記仮想空間における前記第2ユーザの発話音声の発話位置を変更する制御とされた
 上記(1)から上記(15)の何れかに記載の情報処理装置。
(17)
 前記仮想空間におけるアバターの位置が音声チャットの許可された許可エリアに含まれているか否かを判定するエリア判定部を備えた
 上記(1)から上記(16)の何れかに記載の情報処理装置。
(18)
 前記強調情報生成部は、前記第1アバターが前記許可エリアに位置している場合に前記発話音声についての強調制御を行うための制御情報を生成する
 上記(17)に記載の情報処理装置。
(19)
 仮想空間に配置される第1アバターに紐付く第1ユーザの関心情報に基づいて、前記仮想空間における環境音と前記仮想空間に配置される第2アバターに紐付く第2ユーザの発話音声を含む音響についての強調制御を行うための制御情報を生成する処理を、コンピュータ装置が実行する
 情報処理方法。
(20)
 仮想空間に配置される第1アバターに紐付く第1ユーザの関心情報に基づいて、前記仮想空間における環境音と前記仮想空間に配置される第2アバターに紐付く第2ユーザの発話音声を含む音響についての強調制御を行うための制御情報の生成機能を、演算処理装置に実行させるプログラムが記憶されたコンピュータ装置が読み取り可能な
 記憶媒体。
14 表示制御部
18 テキスト変換部
21 強調情報生成部
VS 仮想空間
U1 第1ユーザ
U2 第2ユーザ
AT1 第1アバター
AT2 第2アバター
TX 三次元テキスト

Claims (20)

  1.  仮想空間に配置される第1アバターに紐付く第1ユーザの関心情報に基づいて、前記仮想空間における環境音と前記仮想空間に配置される第2アバターに紐付く第2ユーザの発話音声を含む音響についての強調制御を行うための制御情報を生成する強調情報生成部を備えた
     情報処理装置。
  2.  前記関心情報は、前記環境音への関心度を示す情報とされた
     請求項1に記載の情報処理装置。
  3.  前記関心度を示す情報は、前記第1ユーザのポインティング動作によって得られる情報とされた
     請求項2に記載の情報処理装置。
  4.  前記強調制御は、制御対象の音響の音量を変更する制御とされた
     請求項1に記載の情報処理装置。
  5.  前記強調情報生成部は、前記第2ユーザの発話音声をテキストに変換するテキスト変換部を備えた
     請求項1に記載の情報処理装置。
  6.  前記テキスト変換部は、前記環境音への関心度が高い場合に前記第2ユーザの発話音声をテキストに変換する
     請求項5に記載の情報処理装置。
  7.  前記テキスト変換部は、前記発話音声への関心度が高い場合に前記第2ユーザの発話音声をテキストに変換する
     請求項5に記載の情報処理装置。
  8.  前記テキスト変換部は、変換された前記テキストを三次元文字情報に更に変換する処理を行う
     請求項5に記載の情報処理装置。
  9.  前記三次元文字情報に基づく三次元オブジェクトについての表示終了タイミングを決定する表示制御部を備えた
     請求項8に記載の情報処理装置。
  10.  前記表示制御部は、前記三次元オブジェクトの表示開始から所定時間が経過したタイミングを前記表示終了タイミングとして決定する
     請求項9に記載の情報処理装置。
  11.  前記表示制御部は、前記三次元オブジェクトに対する所定操作が行われたタイミングを前記表示終了タイミングとして決定する
     請求項9に記載の情報処理装置。
  12.  前記表示制御部は、前記仮想空間に配置される他のオブジェクトに前記三次元オブジェクトが衝突したタイミングを前記表示終了タイミングとして決定する
     請求項9に記載の情報処理装置。
  13.  前記強調情報生成部は、前記関心情報に基づいて視覚的強調制御を行うための制御情報を生成する
     請求項1に記載の情報処理装置。
  14.  前記視覚的強調制御は、前記第2ユーザの発話音声への関心が高い場合に前記第2アバターについての視覚的強調を行うための制御とされた
     請求項13に記載の情報処理装置。
  15.  前記視覚的強調制御は、前記第2ユーザの発話音声への関心が高い場合に前記第2ユーザの発話を通知するテキスト表示を行うための制御とされた
     請求項13に記載の情報処理装置。
  16.  前記強調制御は、前記第2ユーザの発話音声への関心が高い場合に前記仮想空間における前記第2ユーザの発話音声の発話位置を変更する制御とされた
     請求項1に記載の情報処理装置。
  17.  前記仮想空間におけるアバターの位置が音声チャットの許可された許可エリアに含まれているか否かを判定するエリア判定部を備えた
     請求項1に記載の情報処理装置。
  18.  前記強調情報生成部は、前記第1アバターが前記許可エリアに位置している場合に前記発話音声についての強調制御を行うための制御情報を生成する
     請求項17に記載の情報処理装置。
  19.  仮想空間に配置される第1アバターに紐付く第1ユーザの関心情報に基づいて、前記仮想空間における環境音と前記仮想空間に配置される第2アバターに紐付く第2ユーザの発話音声を含む音響についての強調制御を行うための制御情報を生成する処理を、コンピュータ装置が実行する
     情報処理方法。
  20.  仮想空間に配置される第1アバターに紐付く第1ユーザの関心情報に基づいて、前記仮想空間における環境音と前記仮想空間に配置される第2アバターに紐付く第2ユーザの発話音声を含む音響についての強調制御を行うための制御情報の生成機能を、演算処理装置に実行させるプログラムが記憶されたコンピュータ装置が読み取り可能な
     記憶媒体。
PCT/JP2022/010264 2021-07-08 2022-03-09 情報処理装置、情報処理方法、記憶媒体 WO2023281820A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-113329 2021-07-08
JP2021113329 2021-07-08

Publications (1)

Publication Number Publication Date
WO2023281820A1 true WO2023281820A1 (ja) 2023-01-12

Family

ID=84801612

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/010264 WO2023281820A1 (ja) 2021-07-08 2022-03-09 情報処理装置、情報処理方法、記憶媒体

Country Status (1)

Country Link
WO (1) WO2023281820A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288101A (ja) * 2001-03-23 2002-10-04 Sony Corp チャット文字表示方法、チャット文字表示プログラム、チャット文字表示プログラム格納媒体、および共有仮想空間表示装置
US20100169796A1 (en) * 2008-12-28 2010-07-01 Nortel Networks Limited Visual Indication of Audio Context in a Computer-Generated Virtual Environment
JP2019030638A (ja) * 2018-07-06 2019-02-28 株式会社コロプラ 情報処理方法、装置、および当該情報処理方法をコンピュータに実行させるためのプログラム
US20190385613A1 (en) * 2018-06-19 2019-12-19 Verizon Patent And Licensing Inc. Methods and Systems for Speech Presentation in an Artificial Reality World

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288101A (ja) * 2001-03-23 2002-10-04 Sony Corp チャット文字表示方法、チャット文字表示プログラム、チャット文字表示プログラム格納媒体、および共有仮想空間表示装置
US20100169796A1 (en) * 2008-12-28 2010-07-01 Nortel Networks Limited Visual Indication of Audio Context in a Computer-Generated Virtual Environment
US20190385613A1 (en) * 2018-06-19 2019-12-19 Verizon Patent And Licensing Inc. Methods and Systems for Speech Presentation in an Artificial Reality World
JP2019030638A (ja) * 2018-07-06 2019-02-28 株式会社コロプラ 情報処理方法、装置、および当該情報処理方法をコンピュータに実行させるためのプログラム

Similar Documents

Publication Publication Date Title
US10445941B2 (en) Interactive mixed reality system for a real-world event
US10432796B2 (en) Methods and apparatus to assist listeners in distinguishing between electronically generated binaural sound and physical environment sound
CN108141696B (zh) 用于空间音频调节的系统和方法
US10595147B2 (en) Method of providing to user 3D sound in virtual environment
US9349264B2 (en) Haptic effects broadcasting during a group event
US20180020312A1 (en) Virtual, augmented, and mixed reality
McGill et al. Acoustic transparency and the changing soundscape of auditory mixed reality
US11275554B2 (en) Information processing apparatus, information processing method, and program
WO2016157993A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP7037654B2 (ja) キャプチャされた空間オーディオコンテンツの提示用の装置および関連する方法
WO2023281820A1 (ja) 情報処理装置、情報処理方法、記憶媒体
JP6526879B1 (ja) データ送信装置、およびプログラム
JP2021508193A5 (ja)
JP6951610B1 (ja) 音声処理システム、音声処理装置、音声処理方法、及び音声処理プログラム
JP2019197497A (ja) ヘッドマウントディスプレイシステム、通知制御装置、通知制御方法、及びプログラム
JP2006094315A (ja) 立体音響再生システム
JP7151707B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2023084933A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2023238637A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
WO2022102446A1 (ja) 情報処理装置、情報処理方法、情報処理システム、及びデータ生成方法
US20230421866A1 (en) Server apparatus of distribution system
US20230218998A1 (en) 3D Spatialisation of Voice Chat
JPWO2020158440A1 (ja) 情報処理装置、情報処理方法、及びプログラムを記載した記録媒体
JP2020014084A (ja) ナビゲーション装置およびナビゲーション方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22837242

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18572475

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE