WO2023238637A1 - 情報処理装置および情報処理方法、並びにプログラム - Google Patents

情報処理装置および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2023238637A1
WO2023238637A1 PCT/JP2023/018870 JP2023018870W WO2023238637A1 WO 2023238637 A1 WO2023238637 A1 WO 2023238637A1 JP 2023018870 W JP2023018870 W JP 2023018870W WO 2023238637 A1 WO2023238637 A1 WO 2023238637A1
Authority
WO
WIPO (PCT)
Prior art keywords
acoustic
user
scene
avatar
voice
Prior art date
Application number
PCT/JP2023/018870
Other languages
English (en)
French (fr)
Inventor
孝悌 清水
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023238637A1 publication Critical patent/WO2023238637A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • G10K15/12Arrangements for producing a reverberation or echo sound using electronic time-delay networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program, and particularly relates to an information processing device, an information processing method, and a program that can provide a more realistic user experience.
  • a metaverse virtual space multiple scenes (virtual spaces) are provided within one world, and a user can freely move his/her avatar between each scene.
  • a user experience is provided in which users of those avatars can communicate with each other by remotely communicating with each other via voice chat.
  • scenes may include various environments such as indoors and outdoors, and environmental sounds with acoustic effects (reverberation effects generated by sound reflection characteristics) suitable for each environment are used.
  • environmental sounds with acoustic effects reverberation effects generated by sound reflection characteristics
  • Patent Document 1 discloses that it is possible to facilitate listening to conversations in a virtual space by transmitting group conversation data indicating conversations by users of user terminals belonging to the conversation group and positional coordinates regarding the conversation group.
  • An online conversation system has been proposed.
  • the present disclosure has been made in view of this situation, and is intended to make it possible to provide a user experience with an increased sense of reality.
  • An information processing device includes a second avatar corresponding to a second user in a scene or a plurality of areas corresponding to a virtual space in which a first avatar corresponding to a first user exists.
  • a voice acquisition unit that acquires the voice of the second user when the first avatar exists; and a voice acquisition unit that acquires the voice of the second user, and the scene or an acoustic environment discrimination processing unit that performs an acoustic environment discrimination process to discriminate the acoustic environment of the area; and an acoustic characteristic that imparts an acoustic characteristic corresponding to a processing result of the acoustic environment discrimination process to the voice of the second user. and a applying section.
  • An information processing method or program provides a second avatar corresponding to a second user in a scene or a plurality of areas corresponding to a virtual space in which a first avatar corresponding to a first user exists.
  • the method includes performing acoustic environment discrimination processing to discriminate the acoustic environment of the area, and assigning acoustic characteristics corresponding to the processing result of the acoustic environment discrimination processing to the voice of the second user.
  • a second avatar corresponding to a second user exists in a scene or multiple areas corresponding to a virtual space in which a first avatar corresponding to a first user exists.
  • the second user's voice is acquired while the first avatar is present, and acoustic environment determination processing is performed to determine the acoustic environment of the scene or area where the first avatar exists based on the collider associated with the scene or area.
  • the second user's voice is given an acoustic characteristic corresponding to the processing result of the acoustic environment discrimination process.
  • FIG. 1 is a block diagram illustrating a configuration example of an embodiment of a metaverse virtual space system to which the present technology is applied.
  • FIG. 3 is a diagram illustrating a scene provided in a metaverse virtual space.
  • FIG. 3 is a diagram illustrating acoustic environment discrimination processing using a scene collider. It is a figure explaining an area.
  • FIG. 2 is a block diagram showing a configuration example of an acoustic characteristic processing section. It is a flow chart explaining the 1st acoustic characteristic processing. Describe the acoustic environment discrimination process when spatial transformation occurs. It is a flowchart explaining the 2nd acoustic characteristic processing. It is a figure explaining acoustic environment discrimination processing when climate change occurs. It is a flowchart explaining the 3rd acoustic characteristic processing.
  • 1 is a block diagram showing a configuration example of an embodiment of a computer to which the present technology is applied.
  • FIG. 1 is a block diagram showing a configuration example of an embodiment of a metaverse virtual space system to which the present technology is applied.
  • the metaverse virtual space system 11 is configured by a server 21 and a plurality of client terminals 22 connected via a network 23 such as the Internet.
  • a network 23 such as the Internet.
  • N users are participating in the metaverse virtual space, and N client terminals 22-1 to 22-N are connected to the network 23. Therefore, in the metaverse virtual space, there can be multiple avatars corresponding to multiple users, one avatar corresponds to one user, and each user has one avatar corresponding to itself. By operating your avatar, you can move within the metaverse virtual space.
  • the client terminals 22-1 to 22-N have the same configuration, and will be simply referred to as client terminals 22 when there is no need to distinguish between them.
  • the server 21 transmits space sharing information necessary for sharing the metaverse virtual space among multiple users and providing a user experience in the metaverse virtual space to the client terminal 22 via the network 23.
  • the space sharing information includes avatar position information indicating the position of each avatar in the metaverse virtual space, avatar motion information indicating the movement of each avatar in the metaverse virtual space, and positions of items owned by each avatar in the metaverse virtual space.
  • This information includes location information of the avatar's possessions indicating the metaverse virtual space, dialogue window AV stream information consisting of video and sound data for carrying out two-way dialogue through the dialogue window without merging the avatars in the metaverse virtual space, and the like.
  • the client terminal 22 reproduces the metaverse virtual space based on the space sharing information transmitted from the server 21 via the network 23.
  • the client terminal 22 also includes a microphone that acquires the voice uttered by the user, and a speaker that outputs voice according to voice data transmitted from the server 21 or another client terminal 22. Then, the client terminal 22 transmits the audio data of the user's voice acquired by the microphone to the server 21, and outputs the voice of another user from the speaker according to the received audio data, thereby sharing the metaverse virtual space.
  • a conversation is held between the existing users. That is, the client terminal 22 displays images of the metaverse virtual space that can be seen by the user's own avatar on the display, and displays sounds (of each scene and area) of the metaverse virtual space that the user's own avatar can hear. (environmental sounds, the voice of the user with whom you are speaking, etc.) are output from the speaker.
  • various devices such as a head-mounted display, a personal computer, a tablet terminal, and a smartphone can be used as the client terminal
  • the metaverse virtual space system 11 configured as described above provides a metaverse virtual space, and the user can operate the client terminal 22 to log in and out of the metaverse virtual space.
  • FIG. 2 shows an example of a metaverse virtual space in which M scenes Scene-1 to Scene-M are provided in one world.
  • the user can operate the client terminal 22 to select a desired scene from Scene-1 to Scene-M, and freely move the avatar to that scene.
  • avatar users who are in the same scene can communicate with each other by having two-way voice calls using voice chat.
  • acoustic characteristics if the scene is outdoors, acoustic characteristics depending on the environment such as a plaza, a street, a natural environment (e.g., a mountaintop, a river, or a forest) are used, and if the scene is indoors, acoustic characteristics are used depending on the environment. Acoustic characteristics are used depending on the environment, such as a cave, church, live hall, or theater.
  • the Metaverse virtual space when the audio uttered by another user who is a conversation partner is acquired, it is appropriate for the acoustic environment at the position where the user's own (first user's) avatar is present in the Metaverse virtual space at that time.
  • the acoustic characteristics are given to the voice of the conversation partner (second user).
  • scene colliders SceneCollider-1 to SceneCollider-1 are installed to cover the ceiling of each space of scenes Scene-1 to Scene-M. SceneCollider-M is placed.
  • each of the scene colliders SceneCollider-1 to SceneCollider-M is associated with a scene audio ID that identifies the acoustic characteristics. Then, by determining the acoustic environment at the position of the user's own avatar through acoustic environment discrimination processing using scene colliders SceneCollider-1 to SceneCollider-M, the acoustic environment at the position of the user's own avatar is compared to the voice of the conversation partner. Acoustic characteristics suitable for the environment can be imparted.
  • the scene collider is arranged to cover the ceiling of the scene space. Then, in the acoustic environment discrimination process, a discrimination light beam is output upward from above each avatar (for example, the position of a virtual camera, the coordinate position of the avatar, etc.), and the scene collider that the discrimination light hits hits, that is, Based on the hit determination of the scene collider, the acoustic environment at each avatar's position can be determined.
  • the scene acoustic ID associated with the scene collider is acquired, and the acoustic characteristics identified by the acquired scene acoustic ID are applied to the voice of the conversation partner. granted to.
  • the avatars of users 2 and 3 exist in the same scene as the avatar of user 1, the avatars of users 2 and 3 are captured by the microphones of the client terminals 22 used by users 2 and 3.
  • Acoustic characteristic processing is performed on the voice obtained by applying acoustic characteristics suitable for the acoustic environment at the position of the user 1's avatar. Then, the audio data given such acoustic characteristics is transmitted from the server 21 to the client terminal 22 used by the user 1, and the audio according to the audio data is output from the speaker of the client terminal 22. In this way, the metaverse virtual space system 11 can provide a more realistic user experience.
  • the acoustic environment of the scene can always be determined based on the scene collider that is installed to cover the scene. . Therefore, in the metaverse virtual space system 11, even if the acoustic environment changes due to moving while voice chatting with the conversation partner, appropriate acoustic characteristics can be added to the voice of the conversation partner in real time.
  • a scene in the metaverse virtual space, can have multiple areas (for example, outdoors, a hallway inside a building, a room inside a building, etc.), and like the above-mentioned scene, environmental sounds in the environment of each area can be
  • the audio characteristics to be assigned are preset.
  • FIG. 4 shows an example of a scene in which one area is provided.
  • an area collider is arranged to cover the ceiling of an area, and each area collider is associated with an area acoustic ID that identifies the acoustic characteristics of each area. Therefore, in the same way as determining the acoustic environment corresponding to a scene as described above, it is possible to determine the acoustic environment corresponding to each area. For example, as shown in FIG. 4, when the avatar of user 1 exists within the area, the acoustic characteristics of the area are applied to the environmental sounds and the voice of the conversation partner, and when the avatar of user 2 exists outside the area. In this case, the acoustic characteristics of the scene are applied to the environmental sounds and the voice of the conversation partner.
  • acoustic characteristics suitable for the acoustic environment at the position where the user's own avatar exists in the metaverse virtual space are determined based on the scene collider or the area collider.
  • acoustic characteristics suitable for each scene or area are imparted to the environmental sound and the voice of the conversation partner, thereby increasing the sense of reality of the metaverse virtual space.
  • FIG. 5 is a block diagram illustrating a configuration example of an acoustic characteristic processing section that executes acoustic characteristic processing for imparting appropriate acoustic characteristics in the metaverse virtual space system 11.
  • the acoustic characteristic processing section 31 includes a virtual space management section 41, an environmental sound acquisition section 42, an audio acquisition section 43, an acoustic environment discrimination processing section 44, an acoustic characteristic imparting section 45, and an audio data output section 46. It is composed of:
  • the virtual space management unit 41 performs various processes related to the management of the metaverse virtual space provided in the metaverse virtual space system 11. For example, the virtual space management unit 41 performs a login process for the user to log into the metaverse virtual space, a logout process for the user to log out from the metaverse virtual space, etc. in response to a user's operation. Further, the virtual space management unit 41 performs avatar movement processing to move the avatar between scenes in accordance with the user's operation, and identifies the preset acoustic characteristics preset in the destination scene to which the avatar has moved. The acoustic ID is supplied to the acoustic characteristic imparting section 45. Furthermore, the virtual space management unit 41 also performs processing related to spatial transformation, which will be described with reference to FIG. 7, which will be described later, and processing related to climate change, which will be described with reference to FIG. 9, which will be described later.
  • the environmental sound acquisition unit 42 acquires the environmental sound in the scene or area where the user's own avatar is present, and supplies it to the acoustic characteristic imparting unit 45 .
  • the audio acquisition unit 43 acquires the audio uttered by the other user with a microphone and transmits it from the client terminal 22.
  • the voice data that comes is input the voice is acquired and supplied to the acoustic characteristic imparting section 45.
  • the acoustic environment discrimination processing unit 44 outputs a discrimination light beam upward from above the user's own avatar, and based on the scene collider or area collider on which the discrimination light beam hits, Performs acoustic environment discrimination processing to discriminate the acoustic environment of the scene or area at the position of the avatar. Then, according to the processing result of the acoustic environment discrimination processing, the acoustic environment discrimination processing unit 44 selects a scene sound ID or an area sound ID associated with the scene collider or area collider on which the discrimination light beam hits, in accordance with the position of the user's own avatar.
  • the acquired acoustic characteristic is acquired as a scene acoustic ID or an area acoustic ID that identifies the acoustic characteristic, and is supplied to the acoustic characteristic imparting section 45.
  • the acoustic characteristic imparting unit 45 imparts the acoustic characteristic identified by the preset acoustic ID supplied from the virtual space management unit 41 to the environmental sound supplied from the environmental sound acquisition unit 42, so that the preset acoustic characteristic is imparted.
  • the environmental sound is supplied to the audio data output section 46.
  • the acoustic characteristic imparting unit 45 imparts the acoustic characteristic identified by the scene acoustic ID or the area acoustic ID supplied from the acoustic environment discrimination processing unit 44 to the voice of the conversation partner supplied from the voice acquisition unit 43. , supplies the voice of the conversation partner, which has been given acoustic characteristics suitable for the position of the user's own avatar, to the voice data output unit 46.
  • the acoustic characteristic imparting unit 45 can adjust the amount of reverb for the conversation partner's voice based on predetermined attribute information. For example, the degree of intimacy and contribution of other users to the user can be used as the attribute information, and the acoustic characteristic imparting unit 45 applies a reverb amount to the voice of a conversation partner with a high degree of intimacy and contribution. Adjust to make it stronger. Thereby, the user can easily notice the voice of a conversation partner with a high degree of familiarity and contribution from among a plurality of conversation partners. Specifically, in scenes such as live music concerts and live handshake events, by increasing the amount of reverb for conversation partners (fans) with high intimacy and contribution, users (streaming person) can easily notice the voice of the other party.
  • predetermined attribute information For example, the degree of intimacy and contribution of other users to the user can be used as the attribute information, and the acoustic characteristic imparting unit 45 applies a reverb amount to the voice of a conversation partner with a high degree of intimacy and contribution.
  • the audio data output unit 46 outputs audio data representing the environmental sounds and voices supplied from the acoustic characteristic imparting unit 45 to each client terminal 22.
  • the acoustic characteristic processing unit 31 is configured as described above, and the acoustic environment discrimination processing unit 44 performs the acoustic environment discrimination processing, so that the conversation partner's voice is given appropriate acoustic characteristics in the scene or area at the avatar's position. can be output, providing a more realistic user experience.
  • the acoustic characteristic processing unit 31 moves the avatar across scenes or areas to Acoustic characteristics appropriate for a scene or area can always be given to the voice of a conversation partner. Therefore, in the metaverse virtual space system 11, it is possible to prevent the user from losing the sense of being in the scene or area, that is, the sense of reality.
  • the position in the virtual space can also be determined by coordinate determination, but in a virtual space with a complex shape, it is assumed that a computational load and erroneous determination will occur.
  • the metaverse virtual space system 11 By performing acoustic environment discrimination processing using a scene collider or an area collider, it is possible to avoid the calculation load and the occurrence of erroneous determinations.
  • each block constituting the acoustic characteristic processing unit 31 may be provided in either the server 21 or the plurality of client terminals 22 constituting the metaverse virtual space system 11, and may be provided in a distributed manner among them. It may also be a configuration.
  • the first acoustic characteristic processing performed in the acoustic characteristic processing section 31 will be described with reference to the flowchart shown in FIG.
  • step S11 the virtual space management unit 41 requests login to the world of the metaverse virtual space. Perform processing.
  • step S12 when the user operates the client terminal 22 to select a desired scene from among a plurality of scenes provided in the world of the metaverse virtual space, the virtual space management unit 41 moves the avatar to the desired scene. perform avatar movement processing. Then, the virtual space management section 41 supplies the acoustic characteristic providing section 45 with a preset acoustic ID that identifies the acoustic characteristic preset in the destination scene to which the avatar has moved.
  • step S13 the environmental sound acquisition unit 42 acquires the environmental sound in the destination scene to which the avatar has moved, that is, the environmental sound in the scene where the user's own avatar is present at the current time after the movement, and the acoustic characteristic imparting unit 45 supply to.
  • the acoustic characteristic imparting section 45 imparts the acoustic characteristic identified by the preset acoustic ID supplied from the virtual space management section 41 in step S12 to the environmental sound supplied from the environmental sound acquisition section 42 when playing back the environmental sound. , outputs an environmental sound with preset acoustic characteristics.
  • step S14 the audio acquisition unit 43 determines whether the audio of another user corresponding to the avatar in the same scene has been input. In step S14, if the audio acquisition unit 43 determines that the audio of another user corresponding to the avatar in the same scene has not been input, the process returns to step S13, and the same process is repeated thereafter. On the other hand, in step S14, if the audio acquisition unit 43 determines that the audio of another user corresponding to the avatar present in the same scene has been input, it acquires the audio of the conversation partner and supplies it to the acoustic characteristic imparting unit 45. , the process proceeds to step S15.
  • step S15 the acoustic environment discrimination processing unit 44 performs an acoustic environment discrimination process to discriminate the acoustic environment at the position of the user's own avatar, and obtains a scene acoustic ID according to the processing result.
  • the scene acoustic ID associated with the scene collider hit by the discrimination light beam outputted upward from above is acquired, and is supplied to the acoustic characteristic imparting section 45.
  • step S16 the acoustic characteristic imparting unit 45 applies an acoustic characteristic according to the scene acoustic ID supplied from the acoustic environment discrimination processing unit 44 in step S15 to the voice of the conversation partner supplied from the voice acquisition unit 43 in step S14. Give characteristics.
  • step S17 the acoustic characteristic imparting unit 45 adjusts the amount of reverberation for the conversation partner's voice to which the acoustic characteristic has been imparted in step S16, based on attribute information (such as intimacy and contribution as described above). Then, the acoustic characteristic imparting unit 45 outputs the conversation partner's voice to which an acoustic characteristic suitable for the position of the user's own avatar is imparted, and the amount of reverberation is adjusted based on predetermined attribute information.
  • attribute information such as intimacy and contribution as described above.
  • step S18 the virtual space management unit 41 determines whether the user has performed a movement operation to move the avatar to another scene. In step S18, if the virtual space management unit 41 determines that a movement operation to move the avatar to another scene has not been performed, the process returns to step S13, and the same process is repeated thereafter. On the other hand, if the virtual space management unit 41 determines in step S18 that a movement operation to move the avatar to another scene has been performed, the process proceeds to step S19.
  • step S19 the virtual space management unit 41 determines whether the user has performed a logout operation to log out from the world of the metaverse virtual space. If the virtual space management unit 41 determines in step S19 that a logout operation has not been performed, the process returns to step S12, and the same process is repeated thereafter. On the other hand, if the virtual space management unit 41 determines in step S19 that a logout operation has been performed, the process proceeds to step S20.
  • step S20 the virtual space management unit 41 performs a logout process to log out from the world of the metaverse virtual space provided by the metaverse virtual space system 11, and then the process ends.
  • the conversation partner is given appropriate acoustic characteristics for the scene to which the avatar moves. can output audio.
  • the acoustic characteristic processing unit 31 can control the acoustic characteristics to be imparted to the voice of another user based on the distance between the user's own avatar and the other user's avatar in the metaverse virtual space. For example, when the distance between the user's own avatar and another user's avatar in the metaverse virtual space exceeds a predetermined value, that is, when the avatars are far apart, the acoustic characteristic processing unit 31 Control (mute) so that the audio cannot be heard. In this way, even if avatars are in the same scene or area, the voices of other users may not necessarily be heard depending on their distance.
  • the acoustic characteristic processing unit 31 can control the acoustic characteristics to be imparted to the voices of other users based on the number of avatars present in the same scene or area. For example, the acoustic characteristics processing unit 31 applies acoustic characteristics based on attribute information (for example, changing the amount of reverberation) only when the number of avatars exceeds a threshold, that is, only when there are too many avatars in a scene or area. adjustment, etc.).
  • attribute information for example, changing the amount of reverberation
  • the metaverse virtual space system 11 can provide the conversation partner's voice with acoustic characteristics appropriate for the scene to which the avatar moves, in conjunction with the movement of the avatar from scene to scene. Furthermore, even if the avatar is not moving through the scene, the metaverse virtual space system 11 can synchronize with the spatial transformation that occurs within the scene, and apply acoustic characteristics appropriate to the transformed space to the voice of the conversation partner. can be granted.
  • a space transformation occurs in which a closed space Space is provided inside a scene Scene so as to cover a plurality of avatars present in that scene.
  • a space collider SpaceCollider is provided to cover the ceiling of the closed space Space, and the space collider SpaceCollider has a space acoustic ID. are associated. Therefore, an avatar in an enclosed space, Space, outputs a discrimination light beam upward from above, and based on the space collider that the discrimination light hits, the acoustic environment at the avatar's position, that is, the acoustic environment suitable for the enclosed space, Space, is determined. Acoustic environment can be determined.
  • the metaverse virtual space system 11 even if a spatial transformation occurs within the scene, when reproducing the environmental sounds in the closed space and the voice of the conversation partner, the acoustic characteristics suitable for the closed space are set for those sounds. can be granted.
  • these sounds when playing back environmental sounds outside the closed space and voices of conversation partners outside the closed space, these sounds are muted or played at a volume that is barely audible. This can give you a more realistic feeling.
  • the second acoustic characteristic processing performed in the acoustic characteristic processing section 31 will be explained with reference to the flowchart shown in FIG.
  • steps S31 to S34 processing similar to steps S11 to S14 in FIG. 6 is performed. Then, in step S34, if the audio acquisition unit 43 determines that the audio of another user corresponding to the avatar present in the same scene has been input, it acquires the audio of the conversation partner and supplies it to the acoustic characteristic imparting unit 45. , the process proceeds to step S35.
  • step S35 the virtual space management unit 41 determines whether or not a spatial transformation has occurred within the current scene. If it is determined that a spatial transformation has not occurred within the current scene, the process proceeds to step S36. move on. Then, in steps S36 to S38, processes similar to steps S15 to S17 in FIG. 6 are performed.
  • step S35 determines in step S35 that a spatial transformation has occurred within the current scene.
  • step S39 the acoustic environment discrimination processing unit 44 performs acoustic environment discrimination processing to discriminate the acoustic environment at the position of the user's own avatar, and acquires a space acoustic ID according to the processing result, that is, the acoustic environment discrimination processing unit 44
  • the space acoustic ID associated with the space collider hit by the discrimination light beam outputted upward from above is acquired, and is supplied to the acoustic characteristic imparting section 45.
  • step S40 the acoustic characteristic imparting unit 45 applies a sound according to the space acoustic ID supplied from the acoustic environment discrimination processing unit 44 in step S39 to the voice of the conversation partner supplied from the voice acquisition unit 43 in step S34. Give characteristics.
  • step S41 the acoustic characteristic imparting unit 45 adjusts the amount of reverberation for the conversation partner's voice to which the acoustic characteristic has been imparted in step S40, based on attribute information (such as intimacy and contribution as described above). Then, the acoustic characteristic imparting unit 45 outputs the conversation partner's voice to which an acoustic characteristic suitable for the position of the user's own avatar is imparted, and the amount of reverberation is adjusted based on predetermined attribute information.
  • attribute information such as intimacy and contribution as described above.
  • step S38 or S41 After processing in step S38 or S41, the process proceeds to step S42. Then, in steps S42 to S44, processes similar to steps S18 to S20 in FIG. 6 are performed.
  • the voice of the conversation partner is outputted with appropriate acoustic characteristics in each space in conjunction with the spatial transformation in the scene. can do.
  • the metaverse virtual space system 11 can cause climate change when the scene is an outdoor virtual space.
  • the virtual space management unit 41 can determine whether climate change has occurred.
  • the acoustic characteristic imparting unit 45 refers to the climate database in which acoustic characteristics corresponding to each climate are registered, and when reproducing the environmental sounds in the scene and the voice of the conversation partner, , it is possible to give those sounds acoustic characteristics suitable for the climate after the change.
  • FIG. 9 shows a snowy night scene as an example of climate change, and an acoustic characteristic that increases the amount of reverb is given to the snowy night.
  • the third acoustic characteristic processing performed in the acoustic characteristic processing section 31 will be described with reference to the flowchart shown in FIG.
  • steps S51 to S54 processing similar to steps S11 to S14 in FIG. 6 is performed. Then, in step S54, if the voice acquisition unit 43 determines that the voice of another user corresponding to the avatar present in the same scene has been input, it acquires the voice of the conversation partner and supplies it to the acoustic characteristic imparting unit 45. , the process proceeds to step S55.
  • step S55 the virtual space management unit 41 determines whether climate change has occurred within the current scene, and if it is determined that climate change has not occurred within the current scene, the process proceeds to step S56. move on. Then, in steps S56 to S58, processes similar to steps S15 to S17 in FIG. 6 are performed.
  • step S55 determines in step S55 that climate change has occurred within the current scene.
  • step S59 the acoustic environment discrimination processing unit 44 performs an acoustic environment discrimination process to discriminate the acoustic environment at the position of the user's own avatar, and obtains a scene acoustic ID according to the processing result.
  • the scene acoustic ID associated with the scene collider hit by the discrimination light beam outputted upward from above is acquired, and is supplied to the acoustic characteristic imparting section 45.
  • step S60 the acoustic characteristic imparting unit 45 applies a sound according to the space acoustic ID supplied from the acoustic environment discrimination processing unit 44 in step S59 to the voice of the conversation partner supplied from the voice acquisition unit 43 in step S54.
  • the weather database is referenced to obtain acoustic characteristics according to the weather in the current scene, and these acoustic characteristics are assigned.
  • step S61 the acoustic characteristic imparting unit 45 adjusts the amount of reverberation for the conversation partner's voice to which the acoustic characteristic has been imparted in step S60, based on attribute information (such as familiarity and contribution as described above). Then, the acoustic characteristic imparting unit 45 outputs the conversation partner's voice, which is imparted with an acoustic characteristic suitable for the position of the user's own avatar and weather information, and whose reverb amount is adjusted based on predetermined attribute information.
  • step S58 or S61 After processing in step S58 or S61, the process proceeds to step S62. Then, in steps S62 to S64, the same processes as steps S18 to S20 in FIG. 6 are performed.
  • the voice of the conversation partner is outputted with appropriate acoustic characteristics in each climate in conjunction with the climate change in the scene. can do.
  • the metaverse virtual space system 11 the user can add sound effects corresponding to the environment, weather, etc. that are perceived as visual information by watching the image of the scene to the voice of the conversation partner, in the same way as playing back environmental sounds. By doing so, when users in the same scene are having a conversation via voice chat, it is possible to maintain the user experience of being in the virtual space. As a result, the metaverse virtual space system 11 can provide the user with experience effects such as a high immersion feeling, a sense of presence, a sense of realism, and a sense of existence, which are different from those of the past. Further, in the metaverse virtual space system 11, the process of adding acoustic characteristics to the user's voice that can be heard by the user himself/herself may be performed depending on the processing capacity of the entire system.
  • the acoustic characteristic imparting unit 45 may adjust the amount of reverberation based on attribute information such as familiarity and contribution level, and may also adjust the amount of reverberation depending on the destination of the utterance, for example. In other words, if the voice is from the user's own conversation partner, the amount of reverberation is suppressed to give priority to ease of listening, while if the voice is not to the user himself, priority is given to the sense of presence and the amount of reverberation of the voice is adjusted to the environment. You can do it like this.
  • the acoustic characteristic imparting unit 45 can detect the emotion of the conversation partner and increase the amount of reverb for the utterances of the conversation partner who has a large amount of emotion such as joy or sadness, so that the listener can easily notice the voice of the conversation partner. can. Further, the acoustic characteristic imparting unit 45 may change the amount of reverberation depending on the distance to the location of the conversation partner. For example, the farther the conversation partner is, the stronger the reverb amount is, so that the listener can listen to the voice of the conversation partner. You can make it easier to notice. The acoustic characteristic imparting unit 45 may also change the amount of reverberation depending on the number of conversation partners.
  • the acoustic characteristic imparting unit 45 may change the amount of reverberation according to the scenario of the performance. For example, in the climax scene, the amount of reverberation of the voice of the conversation partner is increased so that the listener side can easily notice the voice of the conversation partner. You can do it like this.
  • this technology is not limited to application to metaverse virtual spaces; for example, it can be used to exaggerate the sound and add acoustic characteristics to voice chat as an experience in AR (Augmented Reality) space or real space. It can be applied to grant. Additionally, this technology can be applied to a wide range of business areas that require the use of voice chat, such as entertainment, education, and work support.
  • FIG. 11 is a block diagram showing a configuration example of an embodiment of a computer in which a program that executes the series of processes described above is installed.
  • the program can be recorded in advance on the hard disk 105 or ROM 103 as a recording medium built into the computer.
  • the program can be stored (recorded) in a removable recording medium 111 driven by the drive 109.
  • a removable recording medium 111 can be provided as so-called package software.
  • examples of the removable recording medium 111 include a flexible disk, a CD-ROM (Compact Disc Read Only Memory), an MO (Magneto Optical) disk, a DVD (Digital Versatile Disc), a magnetic disk, and a semiconductor memory.
  • the program can also be downloaded to the computer via a communication network or broadcasting network and installed on the built-in hard disk 105.
  • a program can be transferred wirelessly from a download site to a computer via an artificial satellite for digital satellite broadcasting, or transferred to a computer by wire via a network such as a LAN (Local Area Network) or the Internet. be able to.
  • the computer has a built-in CPU (Central Processing Unit) 102, and an input/output interface 110 is connected to the CPU 102 via a bus 101.
  • CPU Central Processing Unit
  • the CPU 102 executes a program stored in a ROM (Read Only Memory) 103 in accordance with the command. .
  • the CPU 102 loads the program stored in the hard disk 105 into the RAM (Random Access Memory) 104 and executes the program.
  • the CPU 102 performs processing according to the above-described flowchart or processing performed according to the configuration of the above-described block diagram. Then, the CPU 102 outputs the processing result from the output unit 106 or transmits it from the communication unit 108 via the input/output interface 110, or records it on the hard disk 105, as necessary.
  • the input unit 107 includes a keyboard, a mouse, a microphone, and the like.
  • the output unit 106 includes an LCD (Liquid Crystal Display), a speaker, and the like.
  • the processing that a computer performs according to a program does not necessarily have to be performed chronologically in the order described as a flowchart. That is, the processing that a computer performs according to a program includes processing that is performed in parallel or individually (for example, parallel processing or processing using objects).
  • program may be processed by one computer (processor) or may be processed in a distributed manner by multiple computers. Furthermore, the program may be transferred to a remote computer and executed.
  • a system refers to a collection of multiple components (devices, modules (components), etc.), regardless of whether all the components are located in the same casing. Therefore, multiple devices housed in separate casings and connected via a network, and a single device with multiple modules housed in one casing are both systems. .
  • the configuration described as one device (or processing section) may be divided and configured as a plurality of devices (or processing sections).
  • the configurations described above as a plurality of devices (or processing units) may be configured as one device (or processing unit).
  • part of the configuration of one device (or processing unit) may be included in the configuration of another device (or other processing unit) as long as the configuration and operation of the entire system are substantially the same. .
  • the present technology can take a cloud computing configuration in which one function is shared and jointly processed by multiple devices via a network.
  • the above-mentioned program can be executed on any device. In that case, it is only necessary that the device has the necessary functions (functional blocks, etc.) and can obtain the necessary information.
  • each step described in the above flowchart can be executed by one device or can be shared and executed by multiple devices.
  • the multiple processes included in that one step can be executed by one device or can be shared and executed by multiple devices.
  • multiple processes included in one step can be executed as multiple steps.
  • processes described as multiple steps can also be executed together as one step.
  • the processing of the steps described in the program may be executed in chronological order according to the order described in this specification, in parallel, or in a manner in which calls are made. It may also be configured to be executed individually at necessary timings such as at certain times. In other words, the processing of each step may be executed in a different order from the order described above, unless a contradiction occurs. Furthermore, the processing of the step of writing this program may be executed in parallel with the processing of other programs, or may be executed in combination with the processing of other programs.
  • the present technology can also have the following configuration. (1) When a second avatar corresponding to a second user exists in a scene or a plurality of areas corresponding to a virtual space in which a first avatar corresponding to a first user exists, the second avatar corresponding to the second user exists.
  • An information processing apparatus comprising: an acoustic characteristic imparting unit that imparts an acoustic characteristic corresponding to a processing result of the acoustic environment discrimination process to the second user's voice.
  • the acoustic environment discrimination processing unit acquires an acoustic ID associated with the collider that is hit by the discrimination light beam outputted upward from above the first avatar in the scene or the area;
  • the information processing device according to (1), wherein the acoustic characteristic imparting unit imparts an acoustic characteristic identified by the acoustic ID to the second user's voice.
  • the first user can select a desired scene from among the plurality of scenes and move the first avatar; (3) above, wherein the acoustic characteristic imparting unit imparts, in conjunction with movement of the first avatar, an acoustic characteristic suitable for the acoustic environment in the scene to which the first avatar moves, to the voice of the second user.
  • the acoustic characteristic imparting unit adjusts the amount of reverberation for the second user's voice based on predetermined attribute information.
  • the acoustic environment discrimination processing unit includes a space collider provided to cover the space after the transformation.
  • the acoustic ID associated with the space collider is acquired by performing the acoustic environment discrimination process of discriminating the acoustic environment of the space using The information processing device according to any one of the above.
  • the acoustic characteristic imparting unit applies an acoustic characteristic suitable for the acoustic environment according to the processing result of the acoustic environment discrimination process, as well as an acoustic characteristic according to the climate after the change.
  • the information processing device according to any one of (3) to (6) above, which acquires acoustic characteristics according to the weather in the current scene by referring to a climate database in which is registered, and assigns those acoustic characteristics. .
  • the acoustic characteristic imparting unit controls the acoustic characteristic imparted to the voice of the second user based on the distance between the first avatar and the second avatar in the virtual space. information processing equipment.
  • the information processing device (9) The information processing device according to (8), wherein the acoustic characteristic imparting unit performs processing so that the second user's voice cannot be heard when the distance exceeds a predetermined value. (10) The information processing device according to (1), wherein the acoustic characteristic imparting unit controls the acoustic characteristic imparted to the second user's voice based on the number of avatars present in the scene or the area. (11) The information according to (10) above, wherein the acoustic characteristic imparting unit adjusts the amount of reverberation for the second user's voice based on predetermined attribute information when the number of avatars exceeds a predetermined value. Processing equipment.
  • the information processing device When a second avatar corresponding to a second user exists in a scene or a plurality of areas corresponding to a virtual space in which a first avatar corresponding to a first user exists, the second avatar corresponding to the second user exists. Obtaining the user's voice; Performing acoustic environment discrimination processing to discriminate the acoustic environment of the scene or the area in which the first avatar exists based on a collider associated with the scene or the area; An information processing method comprising: imparting acoustic characteristics corresponding to a processing result of the acoustic environment discrimination processing to the second user's voice.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本開示は、より現実感を増したユーザ体験を提供することができるようにする情報処理装置および情報処理方法、並びにプログラムに関する。 音声取得部は、第1のユーザに対応する第1のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第2のユーザに対応する第2のアバタが存在しているときに、第2のユーザの音声を取得し、音響環境判別処理部は、シーンまたはエリアに対応付けられているコライダに基づき、第1のアバタが存在しているシーンまたはエリアの音響環境を判別する音響環境判別処理を行い、音響特性付与部は、第2のユーザの音声に対して、音響環境判別処理の処理結果に対応する音響特性を付与する。本技術は、例えば、メタバース仮想空間を提供するシステムに適用できる。

Description

情報処理装置および情報処理方法、並びにプログラム
 本開示は、情報処理装置および情報処理方法、並びにプログラムに関し、特に、より現実感を増したユーザ体験を提供することができるようにした情報処理装置および情報処理方法、並びにプログラムに関する。
 従来、メタバース仮想空間では、1つのワールド内に複数のシーン(仮想空間)が設けられており、ユーザは、自身のアバタを、それぞれのシーンの間で自由に移動させることができる。そして、メタバース仮想空間では、同一のシーンに複数のアバタが入っているとき、それらのアバタのユーザどうしがボイスチャットで遠隔通話することによってコミュニケーションを図ることができるユーザ体験が提供される。
 また、メタバース仮想空間では、屋内や屋外など様々な環境がシーンに設けられていることがあり、それぞれの環境に適した音響効果(音の反射特性で生成される残響効果)を付与した環境音を出力することで、現実感を増したユーザ体験を提供することができる。例えば、メタバース仮想空間におけるシーンが洞窟である場合、洞窟内の水滴や生物などの環境音に対してリバーブを付与することで、ユーザは、洞窟内に居るという現実感を体験することができる。
 また、特許文献1には、会話グループに所属するユーザ端末のユーザによる会話を示すグループ会話データと会話グループに関する位置座標とを送信することで、仮想空間における会話の聴き取りを容易化することができるオンライン会話システムが提案されている。
特開2010-122826号公報
 ところで、従来、上述したように環境に適した音響効果が環境音に対して付与されている。これに対し、例えば、同様の音響効果が、会話相手となる他のユーザの音声に対してリアルタイムに付与されていない場合、ボイスチャットの開始に伴って会話相手の実在感がなくなってしまう結果、メタバース仮想空間に対する現実感が損なわれてしまうことが懸念される。
 本開示は、このような状況に鑑みてなされたものであり、より現実感を増したユーザ体験を提供することができるようにするものである。
 本開示の一側面の情報処理装置は、第1のユーザに対応する第1のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第2のユーザに対応する第2のアバタが存在しているときに、前記第2のユーザの音声を取得する音声取得部と、前記シーンまたは前記エリアに対応付けられているコライダに基づき、前記第1のアバタが存在している前記シーンまたは前記エリアの音響環境を判別する音響環境判別処理を行う音響環境判別処理部と、前記第2のユーザの音声に対して、前記音響環境判別処理の処理結果に対応する音響特性を付与する音響特性付与部とを備える。
 本開示の一側面の情報処理法またはプログラムは、第1のユーザに対応する第1のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第2のユーザに対応する第2のアバタが存在しているときに、前記第2のユーザの音声を取得することと、前記シーンまたは前記エリアに対応付けられているコライダに基づき、前記第1のアバタが存在している前記シーンまたは前記エリアの音響環境を判別する音響環境判別処理を行うことと、前記第2のユーザの音声に対して、前記音響環境判別処理の処理結果に対応する音響特性を付与することとを含む。
 本開示の一側面においては、第1のユーザに対応する第1のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第2のユーザに対応する第2のアバタが存在しているときに第2のユーザの音声が取得され、シーンまたはエリアに対応付けられているコライダに基づき、第1のアバタが存在しているシーンまたはエリアの音響環境を判別する音響環境判別処理が行われ、第2のユーザの音声に対して、音響環境判別処理の処理結果に対応する音響特性が付与される。
本技術を適用したメタバース仮想空間システムの一実施の形態の構成例を示すブロック図である。 メタバース仮想空間に設けられるシーンについて説明する図である。 シーンコライダを利用した音響環境判別処理について説明する図である。 エリアについて説明する図である。 音響特性処理部の構成例を示すブロック図である。 第1の音響特性処理を説明するフローチャートである。 空間変容が発生したときの音響環境判別処理について説明する 第2の音響特性処理を説明するフローチャートである。 気候変動が発生したときの音響環境判別処理について説明する図である。 第3の音響特性処理を説明するフローチャートである。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
 <メタバース仮想空間システムの構成例>
 図1は、本技術を適用したメタバース仮想空間システムの一実施の形態の構成例を示すブロック図である。
 図1に示すように、メタバース仮想空間システム11は、サーバ21と複数のクライアント端末22とが、インターネットなどのネットワーク23を介して接続されて構成されており、それぞれのクライアント端末22のユーザにメタバース仮想空間を提供する。図1に示す例では、N人のユーザがメタバース仮想空間に参加しており、N台のクライアント端末22-1乃至22-Nがネットワーク23に接続されている。従って、メタバース仮想空間には、複数のユーザそれぞれに対応する複数のアバタが存在することができ、1人のユーザに1つのアバタが対応して、ぞれぞれのユーザは、自身に対応するアバタを操作することで、メタバース仮想空間内を移動することができる。なお、クライアント端末22-1乃至22-Nは同様に構成されており、それらを区別する必要がない場合、単にクライアント端末22と称する。
 サーバ21は、複数のユーザでメタバース仮想空間を共有し、メタバース仮想空間におけるユーザ体験を提供するのに必要となる空間共有情報を、ネットワーク23を介してクライアント端末22に送信する。例えば、空間共有情報には、メタバース仮想空間における各アバタの位置を示すアバタ位置情報、メタバース仮想空間における各アバタの動作を表すアバタモーション情報、メタバース仮想空間において各アバタが所有しているアイテムの位置を示すアバタ所有物の位置情報、メタバース仮想空間においてアバタどうしで合流せずに対話窓を介して双方向の対話を行うための映像および音のデータからなる対話窓AVストリーム情報などが含まれる。
 クライアント端末22は、サーバ21からネットワーク23を介して送信されてくる空間共有情報に基づいて、メタバース仮想空間を再現する。また、クライアント端末22は、ユーザが発話した音声を取得するマイク、サーバ21または他のクライアント端末22から送信されてくる音声データに従った音声を出力するスピーカを備えている。そして、クライアント端末22が、マイクにより取得したユーザの音声の音声データをサーバ21に送信するとともに、受信した音声データに従って他のユーザの音声をスピーカから出力することで、メタバース仮想空間を共有しているユーザどうしの会話が行われる。即ち、クライアント端末22は、ユーザ自身のアバタが見ることのできる範囲のメタバース仮想空間の映像をディスプレイに表示し、ユーザ自身のアバタが聞くことのできるメタバース仮想空間の音(各シーンおよび各エリアの環境音や、会話相手となるユーザの音声など)をスピーカから出力する。例えば、クライアント端末22としては、ヘッドマウントディスプレイや、パーソナルコンピュータ、タブレット端末、スマートフォンなどの各種のデバイスを利用することができる。
 このように構成されるメタバース仮想空間システム11によりメタバース仮想空間が提供され、ユーザは、クライアント端末22を操作して、メタバース仮想空間にログインおよびログアウトすることができる。
 また、図2に示すように、メタバース仮想空間では、1つのワールド内に複数のシーン(仮想空間)が設けられている。図2には、1つのワールド内に、M個のシーンScene-1乃至Scene-Mが設けられているメタバース仮想空間の一例が示されている。
 例えば、ユーザは、クライアント端末22を操作して、シーンScene-1乃至Scene-Mのうちの所望のシーンを選択し、そのシーンにアバタを自由に移動させることができる。そして、メタバース仮想空間では、同一のシーンに居るアバタのユーザどうしは、ボイスチャットによる双方向の音声通話を行うことで、互いにコミュニケーションを図ることができる。
 また、メタバース仮想空間では、シーンScene-1乃至Scene-Mそれぞれの環境における環境音(例えば、風音や雨音などのような自然環境で聞こえてくる音や、足音や物音などのような生活環境の中で聞こえてくる音など)に対して付与される音響特性がプリセットされている。そして、ユーザが、シーンScene-1乃至Scene-Mのいずれかにアバタを移動させると、環境音の再生時に、その移動先のシーンにプリセットされている音響特性が環境音に対して付与され、プリセットの音響特性が付与された環境音が出力される。例えば、音響特性の一例として、シーンが屋外であれば、広場や、街路、自然環境(例えば、山頂、河川、または森林)など環境に応じた音響特性が用いられ、シーンが屋内であれば、洞窟、教会、ライブホール、劇場などの環境に応じた音響特性が用いられる。
 さらに、メタバース仮想空間では、会話相手となる他のユーザが発話した音声を取得すると、その時点においてユーザ自身(第1のユーザ)のアバタがメタバース仮想空間で存在している位置における音響環境に適した音響特性が、会話相手(第2のユーザ)の音声に対して付与される。例えば、アバタが存在している位置の音響環境に適した音響特性を特定するために、メタバース仮想空間では、シーンScene-1乃至Scene-Mそれぞれの空間の天井を覆うようにシーンコライダSceneCollider-1乃至SceneCollider-Mが配置されている。また、シーンコライダSceneCollider-1乃至SceneCollider-Mには、それぞれ音響特性を識別するシーン音響IDが対応付けられている。そして、シーンコライダSceneCollider-1乃至SceneCollider-Mを利用した音響環境判別処理により、ユーザ自身のアバタの位置における音響環境を判別することで、会話相手の音声に対して、ユーザ自身のアバタの位置の音響環境に適した音響特性を付与することができる。
 図3を参照して、シーンコライダを利用した音響環境判別処理について説明する。
 図2を参照して上述したように、メタバース仮想空間システム11では、シーンの空間の天井を覆うようにシーンコライダが配置されている。そして、音響環境判別処理では、それぞれのアバタの頭上(例えば、仮想カメラの位置や、アバタの居る座標位置など)から天上向きに判別光線を出力し、その判別光線が当たったシーンコライダによって、即ち、シーンコライダのヒット判定に基づいて、個々のアバタの位置における音響環境を判別することができる。このような音響環境判別処理によって、メタバース仮想空間システム11では、シーンコライダに対応付けられているシーン音響IDが取得され、その取得されたシーン音響IDで識別される音響特性が、会話相手の音声に対して付与される。
 これにより、図3に示すように、ユーザ1のアバタと同じシーンにユーザ2およびユーザ3のアバタが存在している場合、ユーザ2およびユーザ3が使用しているクライアント端末22のマイクにより取得された音声に対し、ユーザ1のアバタの位置における音響環境に適した音響特性を付与する音響特性処理が施される。そして、そのような音響特性が付与された音声データが、ユーザ1が使用しているクライアント端末22にサーバ21から送信され、音声データに従った音声が、クライアント端末22のスピーカから出力される。このように、メタバース仮想空間システム11は、より現実感を増したユーザ体験を提供することができる。
 例えば、シーンコライダを利用した音響環境判別処理によって、アバタが水平方向または垂直方向に移動しても、常に、シーンを覆うように設けられているシーンコライダに基づいてシーンの音響環境を判別することができる。従って、メタバース仮想空間システム11では、会話相手とボイスチャットしながら移動して音響環境が変化したとしても、リアルタイムで適切な音響特性を会話相手の音声に対して付与することができる。
 なお、メタバース仮想空間システム11では、会話相手の音声に対して音響特性を付与するのは必須である一方、例えば、ユーザ自身の音声に対しては、システム全体の処理能力に応じて適用しても適用しなくてもよい。
 また、メタバース仮想空間では、シーンに複数のエリア(例えば、屋外、建物内の廊下、建物内の部屋など)を設けることができ、上述したシーンと同様に、エリアそれぞれの環境における環境音に対して付与される音声特性がプリセットされている。
 例えば、図4には、1つのエリアが設けられたシーンの一例が示されている。
 例えば、エリアの天井を覆うようにエリアコライダが配置されており、エリアコライダには、エリアそれぞれの音響特性を識別するエリア音響IDが対応付けられている。従って、上述したようにシーンに対応する音響環境を判別するのと同様に、それぞれのエリアに対応する音響環境を判別することができる。例えば、図4に示すように、ユーザ1のアバタがエリア内に存在する場合には、エリアの音響特性が環境音および会話相手の音声に対して付与され、ユーザ2のアバタがエリア外に存在する場合には、シーンの音響特性が環境音および会話相手の音声に対して付与される。
 つまり、メタバース仮想空間システム11では、シーンコライダまたはエリアコライダに基づき、ユーザ自身のアバタがメタバース仮想空間で存在している位置における音響環境に適した音響特性が判断される。これにより、シーンまたはエリアそれぞれに適した音響特性が環境音および会話相手の音声に付与されるため、メタバース仮想空間の現実感が増すことになる。
 <音響特性処理部の構成例>
 図5は、メタバース仮想空間システム11において、適切な音響特性を付与するための音響特性処理を実行する音響特性処理部の構成例を示すブロック図である。
 図5に示すように、音響特性処理部31は、仮想空間管理部41、環境音取得部42、音声取得部43、音響環境判別処理部44、音響特性付与部45、および音声データ出力部46を備えて構成される。
 仮想空間管理部41は、メタバース仮想空間システム11において提供されるメタバース仮想空間の管理に関する各種の処理を行う。例えば、仮想空間管理部41は、ユーザによる操作に応じて、ユーザがメタバース仮想空間にログインするためのログイン処理や、ユーザがメタバース仮想空間からログアウトするためのログアウト処理などを行う。また、仮想空間管理部41は、ユーザによる操作に応じて、アバタをシーン間で移動させるためのアバタ移動処理を行い、アバタが移動した移動先のシーンにプリセットされている音響特性を識別するプリセット音響IDを音響特性付与部45に供給する。さらに、仮想空間管理部41は、後述の図7を参照して説明するような空間変容に関する処理や、後述の図9を参照して説明するような気候変動に関する処理なども行う。
 環境音取得部42は、ユーザ自身のアバタが居るシーンまたはエリアにおける環境音を取得して、音響特性付与部45に供給する。
 音声取得部43は、ユーザ自身のアバタと同じシーン内またはエリア内に他のユーザのアバタが存在している場合に、他のユーザが発話した音声をマイクで取得してクライアント端末22から送信されてくる音声データが入力されると、その音声を取得して音響特性付与部45に供給する。
 音響環境判別処理部44は、図3を参照して上述したように、ユーザ自身のアバタの頭上から天上向きに判別光線を出力し、その判別光線が当たったシーンコライダまたはエリアコライダに基づいて、ユーザ自身のアバタの位置におけるシーンまたはエリアの音響環境を判別する音響環境判別処理を行う。そして、音響環境判別処理部44は、音響環境判別処理の処理結果に従って、判別光線が当たったシーンコライダまたはエリアコライダに対応付けられているシーン音響IDまたはエリア音響IDを、ユーザ自身のアバタの位置に適した音響特性を識別するシーン音響IDまたはエリア音響IDとして取得し、音響特性付与部45に供給する。
 音響特性付与部45は、仮想空間管理部41から供給されるプリセット音響IDによって識別される音響特性を、環境音取得部42から供給される環境音に付与し、プリセットの音響特性が付与された環境音を音声データ出力部46に供給する。また、音響特性付与部45は、音響環境判別処理部44からから供給されるシーン音響IDまたはエリア音響IDによって識別される音響特性を、音声取得部43から供給される会話相手の音声に付与し、ユーザ自身のアバタの位置に適した音響特性が付与された会話相手の音声を音声データ出力部46に供給する。
 さらに、音響特性付与部45は、所定の属性情報に基づいて、会話相手の音声に対するリバーブ量を調整することができる。例えば、属性情報には、ユーザ自身に対する他のユーザの親密度および貢献度を用いることができ、音響特性付与部45は、親密度および貢献度が高い会話相手の音声に対してはリバーブ量を強めるように調整を行う。これにより、ユーザが、複数の会話相手の中から、親密度および貢献度が高い会話相手の音声を気づき易くすることができる。具体的には、音楽ライブや握手会ライブなどのシーンにおいて、親密度および貢献度が高い会話相手(ファン)のリバーブ量を強めることで、音楽ライブや握手会ライブなどを行っているユーザ(配信者)が、その会話相手の音声を気づき易くすることができる。
 音声データ出力部46は、音響特性付与部45から供給される環境音および音声を示す音声データを、各クライアント端末22に出力する。
 以上のように音響特性処理部31は構成されており、音響環境判別処理部44が響環境判別処理を行うことによって、アバタの位置のシーンまたはエリアにおいて適切な音響特性を付与した会話相手の音声を出力することができ、より現実感を増したユーザ体験を提供することができる。
 例えば、ユーザが、他のユーザと会話しながらシーンまたはエリアを跨ぐようにアバタを移動させた場合、音響特性処理部31は、アバタがシーンまたはエリアを移動するのに連動させて、移動先のシーンまたはエリアに適切な音響特性を会話相手の音声に対して常に付与することができる。従って、メタバース仮想空間システム11では、ユーザが、そのシーンまたはエリアに居るという感覚、つまり、現実感が損なわれないようにすることができる。なお、座標判定によって仮想空間内の位置を判定することもできるが、複雑な形状の仮想空間においては演算負荷や誤判定が発生することが想定されるのに対し、メタバース仮想空間システム11では、シーンコライダまたはエリアコライダを利用した音響環境判別処理によって、演算負荷や誤判定の発生を回避することができる。
 なお、音響特性処理部31を構成する各ブロックは、メタバース仮想空間システム11を構成するサーバ21と複数のクライアント端末22とのいずれかに設けられていればよく、それらに分散して設けられた構成としてもよい。
 図6に示すフローチャートを参照し、音響特性処理部31において行われる第1の音響特性処理について説明する。
 例えば、ユーザが、クライアント端末22を操作して、メタバース仮想空間システム11により提供されるメタバース仮想空間にログインを要求すると、ステップS11において、仮想空間管理部41は、メタバース仮想空間のワールドへのログイン処理を行う。
 ステップS12において、ユーザが、クライアント端末22を操作して、メタバース仮想空間のワールドに設けられる複数のシーンのうち、所望のシーンを選択すると、仮想空間管理部41は、アバタを所望のシーンに移動させるアバタ移動処理を行う。そして、仮想空間管理部41は、アバタが移動した移動先のシーンにプリセットされている音響特性を識別するプリセット音響IDを音響特性付与部45に供給する。
 ステップS13において、環境音取得部42は、アバタが移動した移動先のシーンにおける環境音、即ち、移動後の現時点においてユーザ自身のアバタが居るシーンにおける環境音を取得して、音響特性付与部45に供給する。音響特性付与部45は、環境音の再生時に、ステップS12で仮想空間管理部41から供給されたプリセット音響IDによって識別される音響特性を、環境音取得部42から供給される環境音に付与し、プリセットの音響特性が付与された環境音を出力する。
 ステップS14において、音声取得部43は、同じシーンに居るアバタに対応する他のユーザの音声が入力されたか否かを判定する。ステップS14において、音声取得部43が、同じシーンに居るアバタに対応する他のユーザの音声が入力されていないと判定した場合、処理はステップS13に戻り、以下、同様の処理が繰り返して行われる。一方、ステップS14において、音声取得部43が、同じシーンに居るアバタに対応する他のユーザの音声が入力されたと判定した場合、その会話相手の音声を取得して音響特性付与部45に供給し、処理はステップS15に進む。
 ステップS15において、音響環境判別処理部44は、ユーザ自身のアバタの位置における音響環境を判別する音響環境判別処理を行い、その処理結果に従ったシーン音響IDを取得し、即ち、ユーザ自身のアバタの頭上から天上向きに出力した判別光線が当たったシーンコライダに対応付けられているシーン音響IDを取得し、音響特性付与部45に供給する。
 ステップS16において、音響特性付与部45は、ステップS14で音声取得部43から供給された会話相手の音声に対して、ステップS15で音響環境判別処理部44から供給されたシーン音響IDに従った音響特性を付与する。
 ステップS17において、音響特性付与部45は、ステップS16で音響特性が付与された会話相手の音声について、属性情報(上述したような親密度や貢献度など)に基づいてリバーブ量を調整する。そして、音響特性付与部45は、ユーザ自身のアバタの位置に適した音響特性が付与され、所定の属性情報に基づいてリバーブ量が調整された会話相手の音声を出力する。
 ステップS18において、仮想空間管理部41は、別のシーンへアバタを移動させる移動操作がユーザにより行われたか否かを判定する。ステップS18において、仮想空間管理部41が、別のシーンへアバタを移動させる移動操作が行われていないと判定した場合、処理はステップS13に戻り、以下、同様の処理が繰り返して行われる。一方、ステップS18において、仮想空間管理部41が、別のシーンへアバタを移動させる移動操作が行われたと判定した場合、処理はステップS19に進む。
 ステップS19において、仮想空間管理部41は、メタバース仮想空間のワールドからログアウトするログアウト操作がユーザにより行われたか否かを判定する。ステップS19において、仮想空間管理部41が、ログアウト操作が行われていないと判定した場合、処理はステップS12に戻り、以下、同様の処理が繰り返して行われる。一方、ステップS19において、仮想空間管理部41が、ログアウト操作が行われたと判定した場合、処理はステップS20に進む。
 ステップS20において、仮想空間管理部41は、メタバース仮想空間システム11により提供されるメタバース仮想空間のワールドからログアウトするログアウト処理を行い、その後、処理は終了される。
 以上のように、音響特性処理部31において第1の音響特性処理が行われることによって、アバタがシーンを移動するのに連動させて、その移動先のシーンにおける適切な音響特性を付与した会話相手の音声を出力することができる。
 また、音響特性処理部31は、ユーザ自身のアバタと他のユーザのアバタとのメタバース仮想空間における距離に基づいて、他のユーザの音声に付与する音響特性を制御することができる。例えば、音響特性処理部31は、ユーザ自身のアバタと他のユーザのアバタとのメタバース仮想空間における距離が所定の値を超えた場合に、即ち、アバタどうしが離れている場合に、他のユーザの音声が聞こえなくなるような制御(ミュート)を行う。このように、同じシーンまたはエリアに居るアバタどうしであっても、それらの距離に応じて、他のユーザの音声が必ずしも聞こえるようにしなくてもよい。
 また、音響特性処理部31は、同じシーンまたはエリアに存在するアバタの人数に基づいて、他のユーザの音声に付与する音響特性を制御することができる。例えば、音響特性処理部31は、アバタの人数が閾値を超えた場合にのみ、即ち、アバタが多すぎるシーンまたはエリアの場合にのみ、属性情報に基づいた音響特性の付与(例えば、リバーブ量の調整など)を行ってもよい。
 <空間変容が発生したときの処理例>
 図7を参照して、空間変容が発生したときの音響環境判別処理について説明する。
 上述したように、メタバース仮想空間システム11は、アバタがシーンを移動するのに連動させて、移動先のシーンに適切な音響特性を会話相手の音声に対して付与することができる。さらに、メタバース仮想空間システム11は、アバタがシーンを移動していなくても、シーン内で空間変容が発生するのに連動させて、変容後の空間に適切な音響特性を会話相手の音声に対して付与することができる。
 例えば、図7に示すように、あるシーンScene内に居る複数のアバタを覆うように、そのシーンSceneの内部に密閉空間Spaceが設けられる空間変容が発生したとする。そして、シーンSceneの天井を覆うようにシーンコライダSceneColliderが設けられていたのと同様に、密閉空間Spaceに天井を覆うようにスペースコライダSpaceColliderが設けられており、スペースコライダSpaceColliderにスペース音響IDが対応付けられている。従って、密閉空間Space内のアバタは、頭上から天上向きに判別光線を出力し、その判別光線が当たったスペースコライダSpaceColliderに基づいて、アバタの位置における音響環境、即ち、密閉空間Spaceに適した音響環境を判別することができる。
 これにより、メタバース仮想空間システム11では、シーン内で空間変容が発生しても、密閉空間内の環境音および会話相手の音声を再生するときには、それらの音に対して密閉空間に適した音響特性を付与することができる。なお、メタバース仮想空間システム11では、密閉空間外の環境音および密閉空間外の会話相手の音声を再生するときには、それらの音をミューティングしたり、微かに聞こえる程度の音量で再生したりすることで、より臨場感を与えることができる。
 図8に示すフローチャートを参照し、音響特性処理部31において行われる第2の音響特性処理について説明する。
 ステップS31乃至S34において、図6のステップS11乃至S14と同様の処理が行われる。そして、ステップS34において、音声取得部43が、同じシーンに居るアバタに対応する他のユーザの音声が入力されたと判定した場合、その会話相手の音声を取得して音響特性付与部45に供給し、処理はステップS35に進む。
 ステップS35において、仮想空間管理部41は、現在のシーン内で空間変容が発生したか否かを判定し、現在のシーン内で空間変容が発生していないと判定した場合、処理はステップS36に進む。そして、ステップS36乃至S38において、図6のステップS15乃至S17と同様の処理が行われる。
 一方、ステップS35において、仮想空間管理部41が、現在のシーン内で空間変容が発生したと判定した場合、処理はステップS39に進む。
 ステップS39において、音響環境判別処理部44は、ユーザ自身のアバタの位置における音響環境を判別する音響環境判別処理を行い、その処理結果に従ったスペース音響IDを取得し、即ち、ユーザ自身のアバタの頭上から天上向きに出力した判別光線が当たったスペースコライダに対応付けられているスペース音響IDを取得し、音響特性付与部45に供給する。
 ステップS40において、音響特性付与部45は、ステップS34で音声取得部43から供給された会話相手の音声に対して、ステップS39で音響環境判別処理部44から供給されたスペース音響IDに従った音響特性を付与する。
 ステップS41において、音響特性付与部45は、ステップS40で音響特性が付与された会話相手の音声について、属性情報(上述したような親密度や貢献度など)に基づいてリバーブ量を調整する。そして、音響特性付与部45は、ユーザ自身のアバタの位置に適した音響特性が付与され、所定の属性情報に基づいてリバーブ量が調整された会話相手の音声を出力する。
 ステップS38またはS41の処理後、処理はステップS42に進む。そして、ステップS42乃至ステップS44において、図6のステップS18乃至S20と同様の処理が行われる。
 以上のように、音響特性処理部31において第2の音響特性処理が行われることによって、シーン内における空間変容に連動させて、それぞれの空間において適切な音響特性を付与した会話相手の音声を出力することができる。
 <気候変動が発生したときの処理例>
 図9を参照して、気候変動が発生したときの音響環境判別処理について説明する。
 メタバース仮想空間システム11は、例えば、シーンが屋外の仮想空間である場合、気候変動を発生させることができる。
 例えば、音響特性処理部31では、仮想空間管理部41が気候変動の発生の有無を判定することができる。そして、気候変動が発生した場合、音響特性付与部45は、それぞれの気候に応じた音響特性が登録されている気候データベースを参照して、シーン内の環境音および会話相手の音声を再生するときには、それらの音に対して変動後の気候に適した音響特性を付与することができる。例えば、図9には、気候変動の一例として、雪の夜となったシーンが示されており、雪の夜には、リバーブ量を増やすような音響特性が付与される。
 図10に示すフローチャートを参照し、音響特性処理部31において行われる第3の音響特性処理について説明する。
 ステップS51乃至S54において、図6のステップS11乃至S14と同様の処理が行われる。そして、ステップS54において、音声取得部43が、同じシーンに居るアバタに対応する他のユーザの音声が入力されたと判定した場合、その会話相手の音声を取得して音響特性付与部45に供給し、処理はステップS55に進む。
 ステップS55において、仮想空間管理部41は、現在のシーン内で気候変動が発生したか否かを判定し、現在のシーン内で気候変動が発生していないと判定した場合、処理はステップS56に進む。そして、ステップS56乃至S58において、図6のステップS15乃至S17と同様の処理が行われる。
 一方、ステップS55において、仮想空間管理部41が、現在のシーン内で気候変動が発生したと判定した場合、処理はステップS59に進む。
 ステップS59において、音響環境判別処理部44は、ユーザ自身のアバタの位置における音響環境を判別する音響環境判別処理を行い、その処理結果に従ったシーン音響IDを取得し、即ち、ユーザ自身のアバタの頭上から天上向きに出力した判別光線が当たったシーンコライダに対応付けられているシーン音響IDを取得し、音響特性付与部45に供給する。
 ステップS60において、音響特性付与部45は、ステップS54で音声取得部43から供給された会話相手の音声に対して、ステップS59で音響環境判別処理部44から供給されたスペース音響IDに従った音響特性に加えて、気候データベースを参照して現在のシーンにおける天候に従った音響特性を取得し、それらの音響特性を付与する。
 ステップS61において、音響特性付与部45は、ステップS60で音響特性が付与された会話相手の音声について、属性情報(上述したような親密度や貢献度など)に基づいてリバーブ量を調整する。そして、音響特性付与部45は、ユーザ自身のアバタの位置および天候情報に適した音響特性が付与され、所定の属性情報に基づいてリバーブ量が調整された会話相手の音声を出力する。
 ステップS58またはS61の処理後、処理はステップS62に進む。そして、ステップS62乃至ステップS64において、図6のステップS18乃至S20と同様の処理が行われる。
 以上のように、音響特性処理部31において第3の音響特性処理が行われることによって、シーン内における気候変動に連動させて、それぞれの気候において適切な音響特性を付与した会話相手の音声を出力することができる。
 このように、メタバース仮想空間システム11では、ユーザが、シーンの映像を見て視覚情報として感じる環境や天候などに応じた音響効果を、環境音の再生と同様に、会話相手の音声に付与することで、同じシーンに居るユーザどうしがボイスチャットで会話しているときに、その仮想空間内に居るようなユーザ体験を維持することができる。これにより、メタバース仮想空間システム11は、従来とは異なる高い没入感や、臨場感、現実感、実在感などのある体験効果をユーザに与えることができる。また、メタバース仮想空間システム11では、ユーザ自身に聞こえる、そのユーザの音声について音響特性を付加する処理は、システム全体の処理能力に応じて行ってもよい。
 なお、上述したように、音響特性付与部45は、親密度や貢献度などの属性情報に基づいてリバーブ量を調整する他、例えば、発話の宛先に応じてリバーブ量を調整してもよい。即ち、ユーザ自身に対する会話相手の音声であればリバーブ量を抑えて、聞き取りやすさを優先にする一方で、ユーザ自身に対する音声でなければ、臨場感を優先にして音声のリバーブ量を環境に合わせるようにしてもよい。
 また、音響特性付与部45は、会話相手の感情を検知して、歓喜や悲しみなどの情動量が大きい相手の発話にはリバーブ量を強めて、聞き手側が会話相手の音声に気づき易くすることができる。また、音響特性付与部45は、会話相手の居る位置までの距離に応じてリバーブ量を変更してもよく、例えば、遠くに居る会話相手ほどリバーブ量を強めて、聞き手側が会話相手の音声に気づき易いようにすることができる。また、音響特性付与部45は、会話相手の人数に応じてリバーブ量を変更してもよく、例えば、会話相手の人数が多いほどリバーブ量を強めて、聞き手側が会話相手の音声に気づき易いようにすることができる。また、音響特性付与部45は、演出のシナリオに応じてリバーブ量を変更してもよく、例えば、クライマックスのシーンでは会話相手の音声のリバーブ量を強めて、聞き手側が会話相手の音声に気づき易いようにすることができる。
 なお、本技術は、メタバース仮想空間に対して適用するのに限定されることなく、例えば、AR(Augmented Reality)空間や現実空間などの体験として音響を誇張してボイスチャットに対して音響特性を付与することに適用することができる。また、本技術は、エンターテイメントや、教育、作業支援などボイスチャットの活用を必要とする幅広いビジネス領域で適用可能である。
 <コンピュータの構成例>
 次に、上述した一連の処理(情報処理方法)は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
 図11は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示すブロック図である。
 プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
 あるいはまた、プログラムは、ドライブ109によって駆動されるリムーバブル記録媒体111に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウェアとして提供することができる。ここで、リムーバブル記録媒体111としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
 なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク105にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
 コンピュータは、CPU(Central Processing Unit)102を内蔵しており、CPU102には、バス101を介して、入出力インタフェース110が接続されている。
 CPU102は、入出力インタフェース110を介して、ユーザによって、入力部107が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、CPU102は、ハードディスク105に格納されたプログラムを、RAM(Random Access Memory)104にロードして実行する。
 これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
 なお、入力部107は、キーボードや、マウス、マイク等で構成される。また、出力部106は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
 ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
 また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
 さらに、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 また、例えば、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。
 また、例えば、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能(機能ブロック等)を有し、必要な情報を得ることができるようにすればよい。
 また、例えば、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。換言するに、1つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を1つのステップとしてまとめて実行することもできる。
 なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。
 なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。
 <構成の組み合わせ例>
 なお、本技術は以下のような構成も取ることができる。
(1)
 第1のユーザに対応する第1のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第2のユーザに対応する第2のアバタが存在しているときに、前記第2のユーザの音声を取得する音声取得部と、
 前記シーンまたは前記エリアに対応付けられているコライダに基づき、前記第1のアバタが存在している前記シーンまたは前記エリアの音響環境を判別する音響環境判別処理を行う音響環境判別処理部と、
 前記第2のユーザの音声に対して、前記音響環境判別処理の処理結果に対応する音響特性を付与する音響特性付与部と
 を備える情報処理装置。
(2)
 前記音響特性を付与した前記第2のユーザの音声を示す情報を、前記第1のユーザに対応する端末へ出力する出力部
 をさらに備える上記(1)に記載の情報処理装置。
(3)
 前記音響環境判別処理部は、前記シーンまたは前記エリアにおける前記第1のアバタの頭上から天上向きに出力した判別光線が当たった前記コライダに対応付けられている音響IDを取得し、
 前記音響特性付与部は、前記第2のユーザの音声に対して、前記音響IDによって識別される音響特性を付与する
 上記(1)に記載の情報処理装置。
(4)
 前記第1のユーザは、複数の前記シーンのうち、所望のシーンを選択して前記第1のアバタを移動させることができ、
 前記音響特性付与部は、前記第1のアバタの移動に連動して、移動先の前記シーンにおける前記音響環境に適した音響特性を前記第2のユーザの音声に対して付与する
 上記(3)に記載の情報処理装置。
(5)
 前記音響特性付与部は、所定の属性情報に基づいて、前記第2のユーザの音声に対するリバーブ量を調整する
 上記(3)または(4)に記載の情報処理装置。
(6)
 前記音響環境判別処理部は、前記シーン内に存在している前記第1のアバタおよび前記第2のアバタを覆うように空間変容が発生した場合、変容後の空間を覆って設けられるスペースコライダを利用して、その空間の前記音響環境を判別する前記音響環境判別処理を行うことで、前記スペースコライダに対応付けられている前記音響IDを取得する
 上記(3)から(5)までのいずれかに記載の情報処理装置。
(7)
 前記音響特性付与部は、前記シーン内において気候変動が発生した場合、前記音響環境判別処理の処理結果に従った前記音響環境に適した音響特性に加えて、変動後の気候に応じた音響特性が登録されている気候データベースを参照して現在のシーンにおける天候に従った音響特性を取得し、それらの音響特性を付与する
 上記(3)から(6)までのいずれかに記載の情報処理装置。
(8)
 前記音響特性付与部は、前記第1のアバタと前記第2のアバタとの前記仮想空間における距離に基づいて、前記第2のユーザの音声に付与する音響特性を制御する
 上記(1)に記載の情報処理装置。
(9)
 前記音響特性付与部は、前記距離が所定の値を超えた場合に、前記第2のユーザの音声を聞こえないように処理を行う
 上記(8)に記載の情報処理装置。
(10)
 前記音響特性付与部は、前記シーンまたは前記エリアに存在するアバタの数に基づいて、前記第2のユーザの音声に付与する音響特性を制御する
 上記(1)に記載の情報処理装置。
(11)
 前記音響特性付与部は、前記アバタの数が所定の値を超えた場合に、所定の属性情報に基づいて、前記第2のユーザの音声に対するリバーブ量を調整する
 上記(10)に記載の情報処理装置。
(12)
 情報処理装置が、
 第1のユーザに対応する第1のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第2のユーザに対応する第2のアバタが存在しているときに、前記第2のユーザの音声を取得することと、
 前記シーンまたは前記エリアに対応付けられているコライダに基づき、前記第1のアバタが存在している前記シーンまたは前記エリアの音響環境を判別する音響環境判別処理を行うことと、
 前記第2のユーザの音声に対して、前記音響環境判別処理の処理結果に対応する音響特性を付与することと
 を含む情報処理方法。
(13)
 情報処理装置のコンピュータに、
 第1のユーザに対応する第1のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第2のユーザに対応する第2のアバタが存在しているときに、前記第2のユーザの音声を取得することと、
 前記シーンまたは前記エリアに対応付けられているコライダに基づき、前記第1のアバタが存在している前記シーンまたは前記エリアの音響環境を判別する音響環境判別処理を行うことと、
 前記第2のユーザの音声に対して、前記音響環境判別処理の処理結果に対応する音響特性を付与することと
 を含む情報処理を実行させるためのプログラム。
 なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 11 メタバース仮想空間システム, 21 サーバ, 22 クライアント端末, 23 ネットワーク, 31 音響特性処理部, 41 仮想空間管理部, 42 環境音取得部, 43 音声取得部, 44 音響環境判別処理部, 45 音響特性付与部, 46 音声データ出力部

Claims (13)

  1.  第1のユーザに対応する第1のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第2のユーザに対応する第2のアバタが存在しているときに、前記第2のユーザの音声を取得する音声取得部と、
     前記シーンまたは前記エリアに対応付けられているコライダに基づき、前記第1のアバタが仮想空間で存在している位置における音響環境を判別する音響環境判別処理を行う音響環境判別処理部と、
     前記第2のユーザの音声に対して、前記音響環境判別処理の処理結果に対応する音響特性を付与する音響特性付与部と
     を備える情報処理装置。
  2.  前記音響特性を付与した前記第2のユーザの音声を示す情報を、前記第1のユーザに対応する端末へ出力する出力部
     をさらに備える請求項1に記載の情報処理装置。
  3.  前記音響環境判別処理部は、前記シーンまたは前記エリアにおける前記第1のアバタの頭上から天上向きに出力した判別光線が当たった前記コライダに対応付けられている音響IDを取得し、
     前記音響特性付与部は、前記第2のユーザの音声に対して、前記音響IDによって識別される音響特性を付与する
     請求項1に記載の情報処理装置。
  4.  前記第1のユーザは、複数の前記シーンのうち、所望のシーンを選択して前記第1のアバタを移動させることができ、
     前記音響特性付与部は、前記第1のアバタの移動に連動して、移動先の前記シーンにおける前記音響環境に適した音響特性を前記第2のユーザの音声に対して付与する
     請求項3に記載の情報処理装置。
  5.  前記音響特性付与部は、所定の属性情報に基づいて、前記第2のユーザの音声に対するリバーブ量を調整する
     請求項3に記載の情報処理装置。
  6.  前記音響環境判別処理部は、前記シーン内に存在している前記第1のアバタおよび前記第2のアバタを覆うように空間変容が発生した場合、変容後の空間を覆って設けられるスペースコライダを利用して、その空間の前記音響環境を判別する前記音響環境判別処理を行うことで、前記スペースコライダに対応付けられている前記音響IDを取得する
     請求項3に記載の情報処理装置。
  7.  前記音響特性付与部は、前記シーン内において気候変動が発生した場合、前記音響環境判別処理の処理結果に従った前記音響環境に適した音響特性に加えて、変動後の気候に応じた音響特性が登録されている気候データベースを参照して現在のシーンにおける天候に従った音響特性を取得し、それらの音響特性を付与する
     請求項2に記載の情報処理装置。
  8.  前記音響特性付与部は、前記第1のアバタと前記第2のアバタとの前記仮想空間における距離に基づいて、前記第2のユーザの音声に付与する音響特性を制御する
     請求項1に記載の情報処理装置。
  9.  前記音響特性付与部は、前記距離が所定の値を超えた場合に、前記第2のユーザの音声を聞こえないように処理を行う
     請求項8に記載の情報処理装置。
  10.  前記音響特性付与部は、前記シーンまたは前記エリアに存在するアバタの数に基づいて、前記第2のユーザの音声に付与する音響特性を制御する
     請求項1に記載の情報処理装置。
  11.  前記音響特性付与部は、前記アバタの数が所定の値を超えた場合に、所定の属性情報に基づいて、前記第2のユーザの音声に対するリバーブ量を調整する
     請求項10に記載の情報処理装置。
  12.  情報処理装置が、
     第1のユーザに対応する第1のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第2のユーザに対応する第2のアバタが存在しているときに、前記第2のユーザの音声を取得することと、
     前記シーンまたは前記エリアに対応付けられているコライダに基づき、前記第1のアバタが存在している前記シーンまたは前記エリアの音響環境を判別する音響環境判別処理を行うことと、
     前記第2のユーザの音声に対して、前記音響環境判別処理の処理結果に対応する音響特性を付与することと
     を含む情報処理方法。
  13.  情報処理装置のコンピュータに、
     第1のユーザに対応する第1のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第2のユーザに対応する第2のアバタが存在しているときに、前記第2のユーザの音声を取得することと、
     前記シーンまたは前記エリアに対応付けられているコライダに基づき、前記第1のアバタが存在している前記シーンまたは前記エリアの音響環境を判別する音響環境判別処理を行うことと、
     前記第2のユーザの音声に対して、前記音響環境判別処理の処理結果に対応する音響特性を付与することと
     を含む情報処理を実行させるためのプログラム。
PCT/JP2023/018870 2022-06-10 2023-05-22 情報処理装置および情報処理方法、並びにプログラム WO2023238637A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-094451 2022-06-10
JP2022094451 2022-06-10

Publications (1)

Publication Number Publication Date
WO2023238637A1 true WO2023238637A1 (ja) 2023-12-14

Family

ID=89118264

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/018870 WO2023238637A1 (ja) 2022-06-10 2023-05-22 情報処理装置および情報処理方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2023238637A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180053311A1 (en) * 2015-11-30 2018-02-22 Tencent Technology (Shenzhen) Company Limited Method, terminal, and storage medium for detecting collision between colliders in real-time virtual scene
JP2019133309A (ja) * 2018-01-30 2019-08-08 株式会社コロプラ プログラム、情報処理装置、及び情報処理方法
EP3595337A1 (en) * 2018-07-09 2020-01-15 Koninklijke Philips N.V. Audio apparatus and method of audio processing
US20210209855A1 (en) * 2018-05-23 2021-07-08 Koninklijke Kpn N.V. Adapting Acoustic Rendering to Image-Based Object
WO2021242327A1 (en) * 2020-05-29 2021-12-02 Google Llc Geometry-aware augmented reality effects with a real-time depth map
US20230031439A1 (en) * 2021-07-30 2023-02-02 Verizon Patent And Licensing Inc. Sound Boundaries for a Virtual Collaboration Space

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180053311A1 (en) * 2015-11-30 2018-02-22 Tencent Technology (Shenzhen) Company Limited Method, terminal, and storage medium for detecting collision between colliders in real-time virtual scene
JP2019133309A (ja) * 2018-01-30 2019-08-08 株式会社コロプラ プログラム、情報処理装置、及び情報処理方法
US20210209855A1 (en) * 2018-05-23 2021-07-08 Koninklijke Kpn N.V. Adapting Acoustic Rendering to Image-Based Object
EP3595337A1 (en) * 2018-07-09 2020-01-15 Koninklijke Philips N.V. Audio apparatus and method of audio processing
WO2021242327A1 (en) * 2020-05-29 2021-12-02 Google Llc Geometry-aware augmented reality effects with a real-time depth map
US20230031439A1 (en) * 2021-07-30 2023-02-02 Verizon Patent And Licensing Inc. Sound Boundaries for a Virtual Collaboration Space

Similar Documents

Publication Publication Date Title
US11386903B2 (en) Methods and systems for speech presentation based on simulated binaural audio signals
US10911882B2 (en) Methods and systems for generating spatialized audio
US10979842B2 (en) Methods and systems for providing a composite audio stream for an extended reality world
US11109177B2 (en) Methods and systems for simulating acoustics of an extended reality world
US11503422B2 (en) Mapping virtual sound sources to physical speakers in extended reality applications
US11082796B2 (en) Methods and systems for generating audio for an extended reality world
JP2024525753A (ja) 仮想メタバースにおける空間化オーディオチャット
Paterson et al. Viking ghost hunt: creating engaging sound design for location–aware applications
JP2023552952A (ja) 音声エミュレーション
WO2023238637A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP7037654B2 (ja) キャプチャされた空間オーディオコンテンツの提示用の装置および関連する方法
US20230379649A1 (en) Extended reality sound simulations
WO2022247492A1 (en) Sound effect simulation by creating virtual reality obstacle
JP6951610B1 (ja) 音声処理システム、音声処理装置、音声処理方法、及び音声処理プログラム
US11665373B2 (en) Virtual spectator experience for live events
Hofmann Study for virtual keyboard instrument and hand tracking in a VR environment
WO2023281820A1 (ja) 情報処理装置、情報処理方法、記憶媒体
WO2022208609A1 (ja) 配信システム、配信方法、及びプログラム
JP7191146B2 (ja) 配信サーバ、配信方法、及びプログラム
WO2024047814A1 (ja) 再生音量制御方法、再生音量制御装置及び再生音量制御プログラム
WO2023084933A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2024047816A1 (ja) 映像関連音再生方法、映像関連音再生装置及び映像関連音再生プログラム
WO2024047815A1 (ja) 盛り上がり尤度制御方法、盛り上がり尤度制御装置及び盛り上がり尤度制御プログラム
US11570568B1 (en) Audio processing methods and systems for a multizone augmented reality space
WO2024014390A1 (ja) 音響信号処理方法、情報生成方法、コンピュータプログラム、及び、音響信号処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23819621

Country of ref document: EP

Kind code of ref document: A1