WO2024014266A1 - 制御装置、制御方法、情報処理装置、情報処理方法、およびプログラム - Google Patents

制御装置、制御方法、情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2024014266A1
WO2024014266A1 PCT/JP2023/023473 JP2023023473W WO2024014266A1 WO 2024014266 A1 WO2024014266 A1 WO 2024014266A1 JP 2023023473 W JP2023023473 W JP 2023023473W WO 2024014266 A1 WO2024014266 A1 WO 2024014266A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
sound effect
sound
speaker
output
Prior art date
Application number
PCT/JP2023/023473
Other languages
English (en)
French (fr)
Inventor
一平 反畑
英寛 小松
龍正 小池
吉弘 田村
義純 田中
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2024014266A1 publication Critical patent/WO2024014266A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working

Definitions

  • the present technology relates to a control device, a control method, an information processing device, an information processing method, and a program that can appropriately output sound effects according to the actions of users located at separate locations.
  • the communication device is equipped with, for example, a camera and a microphone.
  • the video captured by the camera of the communication device used by one user and the sound collected by the speaker are outputted to the communication device used by the other user, so that both users can see each other's face while You can have conversations, etc.
  • the present technology was developed in view of this situation, and is intended to enable sound effects to be appropriately output according to the actions of users who are located at separate locations.
  • a control device outputs a first sound effect according to the behavior of a first user from a first sound effect speaker provided in a space where the first user is present, and A sound effect different from the first sound effect as a second sound effect corresponding to the action of a second user who communicates with the first user using video and audio transmitted and received via the
  • the apparatus further includes a control unit configured to output from a second sound effect speaker provided in a space where the second user is present.
  • An information processing device includes a detection unit that detects a first user's behavior, and a first sound effect corresponding to the first user's behavior in a space where the first user is present.
  • an output control unit that causes an output to be output from a first sound effect speaker installed in the first user, and an action of a second user who communicates with the first user using video and audio transmitted and received via a network
  • Another information processing device causes a second sound effect speaker provided in a space where the second user is present to output a sound effect different from the first sound effect as a second sound effect according to the second user.
  • the communication control unit transmits information indicating the timing at which the first user took a predetermined action.
  • a first sound effect corresponding to an action of a first user is output from a first sound effect speaker provided in a space where the first user is present, and is transmitted via a network.
  • a sound effect different from the first sound effect is used as a second sound effect corresponding to the action of the second user who communicates with the first user using video and audio transmitted and received by the user.
  • the sound is output from a second sound effect speaker installed in the space where the second user is present.
  • a first user's behavior is detected, and a first sound effect corresponding to the first user's behavior is transmitted to a first sound effect provided in a space where the first user is present. is output from the sound effect speaker.
  • a second sound effect corresponding to an action of a second user who communicates with the first user using video and audio transmitted and received via a network may be combined with the first sound effect.
  • the timing at which the first user took a predetermined action is determined by another information processing device that outputs a different sound effect from a second sound effect speaker installed in a space where the second user is present. The information shown will be sent.
  • FIG. 1 is a diagram illustrating a configuration example of a virtual catchball system according to an embodiment of the present technology.
  • FIG. 3 is a diagram showing details of a configuration provided in a space where each user is present. It is a figure which shows the example of the sound effect of the throwing side. It is a figure which shows the example of the sound effect of the throwing side. It is a figure which shows the example of the sound effect of the catching side. It is a figure which shows the example of the sound effect of the catching side.
  • FIG. 3 is a diagram showing types of sound effects.
  • FIG. 2 is a diagram showing an example of a system configuration for realizing a virtual catchball system.
  • FIG. 3 is a diagram showing sounds heard when swinging an arm.
  • FIG. 3 is a diagram showing the sounds heard when a virtual object is thrown.
  • FIG. 3 is a diagram illustrating the sound heard after throwing a virtual object.
  • FIG. 6 is a diagram illustrating other sounds heard after throwing a virtual object. It is a figure showing the sound heard when catching.
  • FIG. 3 is a diagram showing a time series of input and output of video and sound.
  • FIG. 3 is a diagram illustrating an example of a sound space of sounds listened to by each user.
  • FIG. 7 is a diagram illustrating another example of the sound space of sounds listened to by each user.
  • FIG. 2 is a block diagram showing an example of the functional configuration of each device that implements the telepresence system.
  • FIG. 2 is a block diagram showing an example of the functional configuration of each device that implements the sound effect system.
  • 12 is a flowchart illustrating processing of the information processing device on the slowing side. 12 is a flowchart illustrating processing of the information processing device on the catching side. It is a flowchart explaining the processing of a sound effect control server. It is a figure showing another example of composition of a virtual catch ball system. It is a figure showing another example of composition of a virtual catch ball system. It is a figure showing another example of composition of a virtual catch ball system. It is a figure showing another example of composition of a virtual catch ball system. 1 is a block diagram showing an example of the configuration of a computer. FIG.
  • FIG. 1 is a diagram illustrating a configuration example of a virtual catchball system according to an embodiment of the present technology.
  • a virtual catchball system 1 shown in FIG. 1 is a system used for two users located in separate locations to play a virtual catchball through video and sound.
  • a virtual catch ball is played by a virtual object corresponding to a ball used in an actual catch ball being virtually moved between users in accordance with the user's movements.
  • users A and B are shown as people experiencing virtual catch.
  • User A and user B each hold mobile terminals 11A and 11B, such as smartphones, with one hand.
  • user A when user A performs a throw, user A throws a virtual object by swinging the arm holding the mobile terminal 11A, and causes the virtual object to reach the space where user B is present. User B catches the virtual object thrown by user A.
  • user B when user B performs throwing, user B throws the virtual object by swinging the arm holding the mobile terminal 11B, and causes the virtual object to reach the space where user A is present. User A catches the virtual object thrown by user B.
  • the configuration surrounded by broken line #1 is the configuration used by user A
  • the configuration shown surrounded by broken line #2 is the configuration used by user B.
  • the configuration on the user A side and the configuration on the user B side are connected via a network 101 such as the Internet or LAN.
  • a communication management server 111 and a sound effect control server 112 are connected to the network 101 .
  • a communication device 21A, a sound effect speaker 22A, and an information processing device 23A are provided as a configuration on the user A side.
  • the mobile terminal 11A and the information processing device 23A are connected via wireless communication such as wireless LAN or Bluetooth (registered trademark).
  • the communication device 21A is a device with a large display.
  • User A stands at a standing position set in front of the communication device 21A while holding the mobile terminal 11A, and plays a virtual game of catch with the user B.
  • a sound effect speaker 22A composed of a plurality of speakers is provided on the floor between the user A's standing position and the communication device 21A.
  • the configuration on the user B side includes a communication device 21B, a sound effect speaker 22B, and an information processing device 23B.
  • the mobile terminal 11B and the information processing device 23B are connected via wireless communication.
  • User B stands at a standing position set in front of the communication device 21B while holding the mobile terminal 11B, and plays a virtual game of catch with the user A.
  • a sound effect speaker 22B composed of a plurality of speakers is provided on the floor between the user B's standing position and the communication device 21B.
  • Video and audio are transmitted and received between the communication device 21A and the communication device 21B.
  • the communication management server 111 manages transmission and reception of video and audio between the communication device 21A and the communication device 21B.
  • the sound effect control server 112 communicates with the information processing device 23A and also communicates with the information processing device 23B.
  • the sound effect control server 112 transmits information transmitted from the information processing device 23A to the information processing device 23B, and transmits information transmitted from the information processing device 23B to the information processing device 23A.
  • the communication device 21 when there is no need to distinguish between the communication device 21A and the communication device 21B, they will be collectively referred to as the communication device 21.
  • the sound effect speaker 22A and the sound effect speaker 22B When there is no need to distinguish between the sound effect speaker 22A and the sound effect speaker 22B, they are collectively referred to as the sound effect speaker 22, and when there is no need to distinguish between the information processing device 23A and the information processing device 23B, they are collectively referred to as the sound effect speaker 22. It is called an information processing device 23.
  • Other configurations on the user A side and user B side will also be described together in the same manner as appropriate.
  • FIG. 2 is a diagram showing details of the configuration provided in the space where each user is present.
  • FIG. 2 shows a configuration installed in a space where user A is present.
  • the communication device 21A on the user A side is configured by connecting a display 31A, a camera 32A, a microphone 33A, and a speaker 34A to a control device (not shown) such as a PC that controls the overall operation of the communication device 21A. be done.
  • a control device such as a PC that controls the overall operation of the communication device 21A.
  • the display 31A displays the video transmitted from the communication device 21B. User B's whole body is shown in the video transmitted from communication device 21B.
  • the camera 32A photographs the user A who is standing at a distance from the communication device 21A.
  • the video captured by the camera 32A is transmitted to the communication device 21B.
  • the microphone 33A collects sounds from the space where user A is present.
  • the sounds collected by the microphone 33A include various sounds heard in the space where the user A is present, such as the user A's voice, the sound effects output by the sound effect speaker 22A, and the sounds output by the speaker 34A.
  • the sound collected by the microphone 33A is transmitted to the communication device 21B.
  • the speaker 34A outputs the sound of the space where user B is present, which is transmitted from the communication device 21B.
  • the communication device 21B transmits the sound of the space where the user B is present, which is collected by the microphone (microphone 33B) of the communication device 21B.
  • the sound effect speaker 22A connected to the information processing device 23A is composed of four speakers 22A-1 to 22A-4.
  • a speaker 22A-1 is provided at the closest position, and beyond that, a speaker 22A-2, a speaker 22A-3, and a speaker 22A-4 are provided side by side.
  • the speakers 22A-1 to 22A-4 are arranged at regular intervals, for example.
  • the output of sound effects using the speakers 22A-1 to 22A-4 is controlled by the information processing device 23A. Details of the sound effects output from the speakers 22A-1 to 22A-4 will be described later.
  • FIG. 2 shows a configuration installed in a space where user B is present.
  • the configuration on the user B side is the same as the configuration on the user A side. Duplicate explanations will be omitted as appropriate.
  • the communication device 21B on the user B side is configured by connecting a display 31B, a camera 32B, a microphone 33B, and a speaker 34B to a control device (not shown) such as a PC that controls the overall operation of the communication device 21B. be done.
  • a control device such as a PC that controls the overall operation of the communication device 21B.
  • the display 31B displays the video transmitted from the communication device 21A. User A's whole body is shown in the video transmitted from communication device 21A.
  • the camera 32B photographs the user B who is standing at a distance from the communication device 21B.
  • the video captured by the camera 32B is transmitted to the communication device 21A.
  • the microphone 33B collects sounds from the space where user B is present.
  • the sounds collected by the microphone 33B include various sounds that can be heard in the space where the user B is present, such as the user B's voice, the sound effects output by the sound effect speaker 22B, and the sounds output by the speaker 34B.
  • the sound collected by the microphone 33B is transmitted to the communication device 21A.
  • the speaker 34B outputs the sound of the space where the user A is located, which is transmitted from the communication device 21A.
  • the communication device 21A transmits the sound of the space where the user A is present, which is collected by the microphone 33A of the communication device 21A.
  • the sound effect speaker 22B connected to the information processing device 23B is composed of four speakers 22B-1 to 22B-4.
  • a speaker 22B-1 is provided at the closest position, and beyond that, a speaker 22B-2, a speaker 22B-3, and a speaker 22B-4 are provided side by side.
  • the speakers 22B-1 to 22B-4 are arranged at regular intervals, for example.
  • the output of sound effects using the speakers 22B-1 to 22B-4 is controlled by the information processing device 23B. Details of the sound effects output from the speakers 22B-1 to 22B-4 will be described later.
  • each user can see the other person in a remote location and play virtual catch while having a conversation with the other person. It can be carried out.
  • the communication device 21 functions as a window through which the user can see into the space where the other party is.
  • FIG. 3 is a diagram showing an example of sound effects on the throwing side.
  • user A is shown as the user who performs throwing.
  • Speakers 22A-1 to 22A-4 are lined up in order in front of user A, and a display 31A of communication device 21A is provided ahead of the speakers 22A-1 to 22A-4.
  • buttons on the mobile terminal 11A As the button to press at the start of throwing, a physical button on the mobile terminal 11A may be used, or a button displayed on the display of the mobile terminal 11A may be used.
  • an arm waving sound such as "Whoop!” is output from the speaker 22A-1, as shown in the middle row of FIG.
  • the arm waving sound is a sound effect representing that user A is waving his arm.
  • the mobile terminal 11A is equipped with various sensors such as an acceleration sensor.
  • the arm swing sound changes depending on the acceleration of user A's arm swing, such that the faster the acceleration of user A's arm swing, the louder the sound is produced.
  • a release sound such as "Whoosh!” is output from the speaker 22A-1, as shown in the lower part of FIG. Releasing the button is equivalent to throwing the ball in actual catch.
  • the release sound is a sound effect representing that user A has thrown the virtual object.
  • FIG. 4 is a diagram showing an example of a sound effect on the throwing side that is output following the sound effect in FIG. 3.
  • the flying sound is a sound effect that represents that the virtual object thrown by user A is moving toward user B.
  • flying sound is output from the speaker 22A-1 located closest to user A.
  • flying sound is output from the speakers 22A-3 and 22A-4.
  • the speakers used to output the flying sound are sequentially switched from the speaker located close to user A to the speaker located far away.
  • the virtual object is moving (flying) away from user A in the space where user A is present.
  • the flying sound changes according to the speed of the virtual object, such that the faster the speed of the virtual object is, the more intense the sound is.
  • the speed of the virtual object is calculated by the information processing device 23A based on the acceleration in a predetermined period immediately before and after the timing when the user A releases the button, and is reflected in the output of the flying sound.
  • the switching timing of the speakers used to output the flying sound changes depending on the speed of the virtual object. For example, the speakers used to output the flying sound are switched at a faster timing so that the faster the speed of the virtual object is, the faster the sound source position moves.
  • FIG. 5 is a diagram showing an example of sound effects on the catching side.
  • user B is shown as the user who performs catching.
  • speakers 22B-1 to 22B-4 are lined up in order, and a display 31B of communication device 21B is provided ahead of them.
  • the output of the sound effect on the catching side is started, for example, after a time corresponding to the delay between video and audio has elapsed from the timing when user A threw the virtual object.
  • the output of the sound effect on the catching side is started at the same time as the image of user A throwing the virtual object is displayed on the display 31B.
  • the timing for starting output of sound effects on the catching side is controlled by, for example, the sound effect control server 112.
  • a guide sound such as "beep!” is output intermittently three times.
  • the guide sound is output from the speaker 22B-4 located at the farthest position from the user B.
  • the guide sound is emitted from the speaker 22B - 3 and the speaker 22B-2. is output.
  • the three guide sounds are output, for example, at regular time intervals (rhythm).
  • the time interval of the guide sound changes depending on the speed of the virtual object, such that the faster the speed of the virtual object is, the shorter the time interval is output.
  • information on the acceleration measured by the mobile terminal 11A when throwing a virtual object is transmitted from the information processing device 23A to the information processing device 23B via the sound effect control server 112, and is reflected in the output timing of the guide sound. be done.
  • the speakers used to output the guide sound are sequentially switched from the speaker located far away from the user B to the speaker located close to the user B.
  • a virtual object that moves closer to user B is expressed.
  • a catch sound such as "bash!” is emitted from the speaker 22B-1, as shown in the lower part of FIG. Output.
  • the catch sound is a sound effect representing that user B has caught the virtual object.
  • a physical button on the mobile terminal 11B may be used, or a button displayed on the display of the mobile terminal 11B may be used.
  • the catching sound changes depending on the timing of catching by user B, such that the more appropriate the timing of user B pressing the button, that is, the timing of catching the virtual object, the more intense the sound will be output. For example, the closer the interval from the output timing of the third guide sound to the timing when user B presses the button to the time interval of the guide sound, the more appropriate timing is determined as the timing for catching.
  • the degree of appropriateness of the timing of catching is calculated according to the operation of user B, and is reflected in the output of the catch sound.
  • the guide sound is a sound effect that expresses that the virtual object is moving and guides the timing of catching. By timing the catch according to the guide sound, virtual catch becomes more game-like.
  • FIG. 6 is a diagram showing the types of sound effects as described above.
  • arm swing sounds, release sounds, and flying sounds are output as sound effects corresponding to the actions of the throwing user in a space where the throwing user is present.
  • the user performing the throw can recognize the speed of the virtual object.
  • the guide sound and catch sound are output in the space where the catching user is present as sound effects corresponding to the actions of the catching user.
  • the guide sound is a sound effect corresponding to the action of waiting for a virtual object to reach one's location.
  • the catch sound is a sound effect corresponding to the action of catching a virtual object.
  • an anchor sound whose sound source position is fixed may be output while a guide sound whose sound source position moves is being output.
  • an anchor sound such as BGM from one of the sound effect speakers 22 22
  • a user who performs catching will listen to the anchor sound along with the guide sound. This emphasizes the change in the sound source position of the guide sound, making it easier to recognize the time it takes for the virtual object to arrive.
  • the speaker 22A-4 is provided at a position in front of the display 31A with reference to the standing position of the user A, but it is arranged that the speaker 22A-4 is provided at a position at the rear of the display 31A. Good too. Since the flying sound when the virtual object is thrown will be output from behind the user B shown on the display 31A at time t A +3, it is difficult to express that the virtual object has arrived at the space where the user B is. can.
  • the speaker 22B-4 is provided at a position in front of the display 31B with reference to the standing position of the user B, but the speaker 22B-4 may be provided at a position behind the display 31B. Since the first guide sound is output at time tA from behind the user A shown on the display 31B, it is possible to express that the virtual object has moved from the space where the user A is present.
  • FIG. 7 is a diagram showing an example of a system configuration for realizing the virtual catchball system 1.
  • the virtual catchball system 1 is composed of a telepresence system 151 and a sound effect system 152.
  • the telepresence system 151 is a system that realizes communication between users using the communication device 21.
  • the sound effect system 152 is a system that controls the output of sound effects.
  • an audio device 24A is provided between the information processing device 23A and the sound effect speaker 22A. Further, the information processing device 23A is connected to the network 101 via an access point 25A. The audio device 24A and the access point 25A are devices provided in the space where the user A is present.
  • an audio device 24B is provided between the information processing device 23B and the sound effect speaker 22B. Furthermore, the information processing device 23B is connected to the network 101 via an access point 25B. Audio equipment 24B and access point 25B are devices provided in the space where user B is present.
  • the output of sound effects is controlled by a system separate from the system that realizes communication between users.
  • User A and user B will hear the sound of the telepresence system 151 and the sound of the sound effect system 152, respectively.
  • user A will listen to the sound output from the speaker 34A of the communication device 21A via the telepresence system 151 along with the sound effect output from the sound effect speaker 22A. For example, at the timing when a sound effect output in a space where user B is present is collected by the microphone 33B of the communication device 21B, the sound effect is heard from the speaker 34A of the communication device 21A as a sound via the telepresence system 151.
  • user B will listen to the sound output from the speaker 34B of the communication device 21B via the telepresence system 151 along with the sound effect output from the sound effect speaker 22B.
  • the sound effect is heard from the speaker 34B of the communication device 21B as a sound via the telepresence system 151.
  • FIG. 8 is a diagram showing the sounds heard when user A swings his arm.
  • the arm swing sound output from the sound effect speaker 22A is collected by the microphone 33A of the communication device 21A, as shown in balloon #23, and is transmitted to the communication device as sound via the telepresence system 151, as shown in balloon #24.
  • 21B is output from the speaker 34B.
  • User B can recognize that user A has waved his arm from the arm wave sound via the telepresence system 151.
  • FIG. 9 is a diagram showing the sound heard when a virtual object is thrown.
  • the release sound output from the sound effect speaker 22A is collected by the microphone 33A of the communication device 21A, as shown in balloon #33, and is transmitted to the communication device 21B as sound via the telepresence system 151, as shown in balloon #34. is output from the speaker 34B.
  • User B can recognize that user A has thrown the virtual object by the release sound via the telepresence system 151.
  • the release sound is output from the speaker 34B at the same timing as the video displaying the user A throwing the virtual object. be done.
  • FIG. 10 is a diagram showing the sounds heard after throwing a virtual object.
  • a flying sound is output from the sound effect speaker 22A as shown in speech bubble #41.
  • User A can recognize that the virtual object is moving away from the flying sound in which the sound source position moves away from him.
  • the flying sound output from the sound effect speaker 22A is collected by the microphone 33A of the communication device 21A, as shown in balloon #42, and is transmitted as sound via the telepresence system 151 to the communication device 21B, as shown in balloon #43. is output from the speaker 34B.
  • User B can recognize that the virtual object is moving in the space where user A is present by the flying sound via the telepresence system 151.
  • FIG. 11 is a diagram showing other sounds heard after throwing a virtual object.
  • a guide sound is output from the sound effect speaker 22B, as shown in speech bubble #51.
  • User B can recognize that the virtual object is approaching due to the guide sound in which the sound source position moves.
  • the guide sound output from the sound effect speaker 22B is collected by the microphone 33B of the communication device 21B, as shown in balloon #52, and is transmitted as sound via the telepresence system 151 to the communication device 21A, as shown in balloon #53. is output from the speaker 34A.
  • User A can recognize that the virtual object is moving in the space where user B is present by the guide sound via the telepresence system 151.
  • FIG. 12 is a diagram showing the sounds heard when user B is catching.
  • the catch sound output from the sound effect speaker 22B is collected by the microphone 33B of the communication device 21B, as shown in balloon #63, and is transmitted as sound via the telepresence system 151 to the communication device 21A, as shown in balloon #64. is output from the speaker 34A.
  • User A can recognize that user B has caught the virtual object by the catch sound via the telepresence system 151.
  • FIG. 13 is a diagram showing a time series of video and sound input/output.
  • FIG. 13 shows the input and output of video and sound in the space where user A is present.
  • the left end of FIG. 13 shows user A's actions and the timing of operation of the mobile terminal 11A.
  • FIG. 13 shows a time series of input and output of video and sound after the timing when user A caught the virtual object.
  • FIG. 13 shows the input and output of video and sound in the space where user B is present.
  • the right end of FIG. 13 shows user B's actions and the timing of operation of the mobile terminal 11B.
  • an arm-waving sound is output from the sound effect speaker 22A.
  • the arm swing sound output from the sound effect speaker 22A is collected by the microphone 33A of the communication device 21A as shown at the end of the dashed arrow A3.
  • the user A waving his arms is photographed by the camera 32A of the communication device 21A.
  • the output of the arm swing sound, etc. continues until time t1 when user A releases the button.
  • the figure (image) of user A who has caught the virtual object is displayed on the communication device at a timing delayed by a time corresponding to the delay of the telepresence system 151 from time t0. 21B. At this time, a catch sound via the telepresence system 151 is output from the speaker 34B of the communication device 21B.
  • the arm swing sound via the telepresence system 151 is output from the speaker 34B of the communication device 21B.
  • the sound effect speaker 22A starts outputting a flying sound.
  • illustration of the release sound output is omitted.
  • the flying sound output from the sound effect speaker 22A is collected by the microphone 33A of the communication device 21A as shown at the end of the dashed arrow A4.
  • the image of the user A who threw the virtual object is photographed by the camera 32A of the communication device 21A as shown at the tip of the arrow A5.
  • the image of user A throwing the virtual object is displayed on the communication device 21B at a timing delayed from time t1 by a time corresponding to the delay of the telepresence system 151, as shown by arrow A12. Ru.
  • the flying sound via the telepresence system 151 is output from the speaker 34B of the communication device 21B.
  • the sound effect speaker 22B is used at a timing delayed by a time corresponding to the delay of the sound effect system 152 from the time t1 when the user A throws the virtual object. Guide sound output has started.
  • the delay of the sound effect system 152 is the time from when the user on the throwing side throws the virtual object until the information indicating this fact reaches the information processing device 23 on the catching side.
  • the timing of starting output of the guide sound is adjusted using a predetermined adjustment value.
  • the guide sound output from the sound effect speaker 22B is collected by the microphone 33B of the communication device 21B as shown at the end of the broken line arrow A14.
  • a guide sound via the telepresence system 151 is output from the speaker 34A of the communication device 21A at time t2.
  • the timing of time t2 is delayed by a time corresponding to the delay of the telepresence system 151 from the timing when the output of the guide sound is started in the space where user B is present, as shown by arrow A6.
  • a catch sound is output from the sound effect speaker 22B.
  • the catch sound output from the sound effect speaker 22B is collected by the microphone 33A of the communication device 21B as shown at the end of the dashed arrow A15.
  • the catch sound via the telepresence system 151 is output at a timing delayed from time t3 by a time corresponding to the delay of the telepresence system 151, as shown by arrow A7.
  • the image of the user B who caught the virtual object is photographed by the camera 32B of the communication device 21B and displayed on the communication device 21A.
  • FIG. 14 is a diagram showing an example of the sound space of sounds listened to by each user.
  • a flying sound is output from the sound effect speaker 22A in response to user A throwing the virtual object. Further, flying sound via the telepresence system 151 (flying sound output in the space where user B is present and collected by the microphone 33B of the communication device 21B) is output from the speaker 34A of the communication device 21A.
  • the flying sound output in user A's sound space and the flying sound output in user B's sound space are separated by a time corresponding to the delay of the telepresence system 151. It will sound heavy.
  • the overlapping diamonds of different colors indicate that the flying sound is heard twice.
  • a flying sound is output from the sound effect speaker 22B in response to user A throwing a virtual object. Further, flying sound via the telepresence system 151 (flying sound output in the space where user A is present and collected by the microphone 33A of the communication device 21A) is output from the speaker 34B of the communication device 21B.
  • the flying sound output in user B's sound space and the flying sound output in user A's sound space are separated by a timing corresponding to the delay of the telepresence system 151. It will sound heavy.
  • FIG. 16 is a block diagram showing an example of the functional configuration of each device that implements the telepresence system 151.
  • Each functional unit shown in FIG. 16 is realized by a CPU of a computer forming each device executing a predetermined program. Duplicate explanations will be omitted as appropriate.
  • a video acquisition section 211A In the control device 201A that controls the overall operation of the communication device 21A, a video acquisition section 211A, an audio acquisition section 212A, a display control section 213A, an audio output control section 214A, and a communication control section 215A are realized. be done.
  • the video acquisition unit 211A acquires a video of the user A captured by the camera 32A, and outputs the video to the communication control unit 215A.
  • the audio acquisition unit 212A acquires the sound that can be heard in the space where the user A is, collected by the microphone 33A, and outputs it to the communication control unit 215A.
  • the display control unit 213A displays the video received by the communication control unit 215A on the display 31A.
  • the communication control unit 215A receives video data transmitted from the communication device 21B. User B appears in the video transmitted from the communication device 21B.
  • the audio output control unit 214A outputs the audio received by the communication control unit 215A from the speaker 34A.
  • the communication control unit 215A receives audio data transmitted from the communication device 21B.
  • the audio transmitted from the communication device 21B includes user B's audio, sound effects heard in the space where user B is present, and the like.
  • the communication control unit 215A controls communication with the communication management server 111.
  • the communication control unit 215A transmits the video data supplied from the video acquisition unit 211A and the audio data supplied from the audio acquisition unit 212A to the communication management server 111.
  • the communication control unit 215A receives video data transmitted from the communication device 21B via the communication management server 111, and outputs it to the display control unit 213A.
  • the communication control unit 215A receives audio data transmitted from the communication device 21B via the communication management server 111, and outputs it to the audio output control unit 214A.
  • control device 201B that controls the overall operation of the communication device 21B, a video acquisition section 211B, an audio acquisition section 212B, a display control section 213B, an audio output control section 214B, and a communication control section 215B are realized.
  • Each functional unit of the control device 201B has the same function as the corresponding functional unit of the control device 201A.
  • a communication control unit 221 is realized.
  • the communication control unit 221 receives video and audio data transmitted from the control device 201A, and transmits it to the control device 201B. Further, the communication control unit 221 receives video and audio data transmitted from the control device 201B, and transmits it to the control device 201A.
  • FIG. 17 is a block diagram showing an example of the functional configuration of each device that implements the sound effect system 152.
  • Each functional unit shown in FIG. 17 is realized by a CPU of a computer forming each device executing a predetermined program. Duplicate explanations will be omitted as appropriate.
  • a sensor data acquisition section 231A In the information processing device 23A, a sensor data acquisition section 231A, an operation detection section 232A, a sound effect output control section 233A, and a communication control section 234A are realized.
  • the sensor data acquisition unit 231A communicates with the mobile terminal 11A held by the user A, and acquires sensor data measured by various sensors such as an acceleration sensor mounted on the mobile terminal 11A.
  • the sensor data acquired by the sensor data acquisition section 231A is supplied to the sound effect output control section 233A and the communication control section 234A.
  • the operation detection unit 232A communicates with the mobile terminal 11A held by the user A, and detects button operations by the user A. As described above, the buttons on the mobile terminal 11A are operated by the user at the start of a throw, at the time of release, at the time of catching, and the like. Information indicating the content of the user's operation detected by the operation detection unit 232A is supplied to the sound effect output control unit 233A and the communication control unit 234A.
  • the sound effect output control unit 233A drives each speaker of the sound effect speakers 22A and controls the output of sound effects in the space where the user A is present.
  • the sound effect output control unit 233A when user A presses a button as a user on the throwing side, the sound effect output control unit 233A outputs an arm swing sound according to the acceleration until the button is released. Further, when the user A throws the virtual object by releasing the button, the sound effect output control unit 233A calculates the speed of the virtual object based on the acceleration, and outputs a flying sound corresponding to the speed of the virtual object.
  • the sound effect output control unit 233A starts outputting the guide sound in response to user B throwing the virtual object.
  • information indicating the timing of throwing the virtual object and information on acceleration are received by the communication control unit 234A and supplied to the sound effect output control unit 233A.
  • the sound effect output control unit 233A outputs a catch sound.
  • the communication control unit 234A controls communication with the sound effect control server 112.
  • the communication control unit 234A sends information indicating the timing of throwing the virtual object to the sound effect control server 112 along with information on the acceleration measurement results supplied from the sensor data acquisition unit 231. Send to.
  • the information transmitted by the communication control unit 234A is transmitted to the information processing device 23B via the sound effect control server 112.
  • the communication control unit 234A functions as a communication control unit that transmits various information such as information indicating the timing of throwing the virtual object to the information processing device 23B, which is another information processing device.
  • the communication control unit 234A receives the information. and outputs it to the sound effect output control section 233A.
  • a sensor data acquisition section 231B In the information processing device 23B, a sensor data acquisition section 231B, an operation detection section 232B, a sound effect output control section 233B, and a communication control section 234B are implemented.
  • Each functional unit of the information processing device 23B has the same function as the corresponding functional unit of the information processing device 23A.
  • the control unit 251 controls the communication control unit 252 and controls the transmission and reception of information between the information processing device 23A and the information processing device 23B.
  • the control unit 251 when information indicating the timing at which user A threw the virtual object and information on acceleration are transmitted from the information processing device 23A, the control unit 251 causes the information processing device 23B to transmit the information. Further, when information indicating the timing at which user B threw the virtual object and information on acceleration are transmitted from the information processing device 23B, the control unit 251 causes the information processing device 23A to transmit the information.
  • the timing of transmitting information such as information indicating the timing of throwing the virtual object is controlled by the control unit 251 according to the delay of the telepresence system 151 and the like.
  • the control unit 251 causes the sound effect speaker 22A provided in the space where the user A is to output sound effects according to the actions of the user A, and allows the user to communicate using video and audio transmitted and received via the network. It functions as a control unit that causes a sound effect speaker 22B provided in a space where user B is present to output sound effects according to user B's actions with user A.
  • the sound effect control server 112 having the control unit 251 functions as a control device.
  • the communication control unit 252 transmits the information transmitted from the information processing device 23A to the information processing device 23B under the control of the control unit 251. Furthermore, the communication control unit 252 transmits information transmitted from the information processing device 23B to the information processing device 23A.
  • step S1 the sensor data acquisition unit 231A acquires sensor data indicating the measurement result of acceleration transmitted from the mobile terminal 11A.
  • step S2 the sound effect output control unit 233A causes the sound effect speaker 22A to output an arm swing sound according to the acceleration.
  • step S3 the sound effect output control unit 233A determines whether the user A has released the button based on the information supplied from the operation detection unit 232A. If it is determined that the user A has not released the button, the process returns to step S1 and the subsequent processes are repeated.
  • step S3 If it is determined in step S3 that the user A has released the button, the process proceeds to step S4, and the sound effect output control section 233A causes the release sound to be output from the sound effect speaker 22A.
  • step S5 the sound effect output control unit 233A calculates the speed of the virtual object based on the acceleration.
  • step S6 the sound effect output control unit 233A causes the sound effect speaker 22A to output flying sound at a timing according to the speed.
  • step S7 the communication control unit 234A transmits information indicating the timing at which user A threw the virtual object and information on acceleration to the sound effect control server 112.
  • step S11 the sound effect output control unit 233B calculates the speed of the virtual object based on the acceleration acquired by the information processing device 23A, and outputs a guide sound from the sound effect speaker 22B at a timing corresponding to the speed. .
  • step S12 the sound effect output control unit 233B determines whether the user B has pressed the button based on the information supplied from the operation detection unit 232B. If it is determined that the user B has not pressed the button, the process returns to step S11 and the subsequent processes are repeated.
  • step S13 the sound effect output control unit 233B causes the catch sound to be output from the sound effect speaker 22B.
  • step S21 the communication control unit 252 receives information transmitted from the information processing device 23 on the throwing side.
  • step S22 the communication control unit 252 transmits the received information to the information processing device 23 on the catching side at a timing corresponding to the delay between video and audio.
  • the user can distinguish between the sound effects on the throwing side and the sound effects on the catching side, and enjoy playing virtual catch with a sense of realism.
  • FIG. 21 is a diagram showing another configuration example of the virtual catchball system 1.
  • the example in FIG. 21 differs from the configuration of the virtual catchball system 1 described with reference to FIG. 7 and the like in that the telepresence system 151 and the sound effect system 152 can cooperate.
  • delay information which is information regarding the delay between video and audio, is transmitted from the communication management server 111 of the telepresence system 151 to the sound effect control server 112 of the sound effect system 152.
  • the control unit 251 of the sound effect control server 112 receives the delay information transmitted from the communication management server 111, and determines the transmission timing of the information transmitted from one information processing device 23 to the other information processing device 23. Control.
  • the above-mentioned adjustment value that defines the timing to start outputting the guide sound on the catching side is set based on the delay information so that the output of the guide sound starts after the image of the user throwing the virtual object is displayed. .
  • FIG. 22 is a diagram showing another configuration example of the virtual catchball system 1.
  • the information processing device 23 is the client and that information such as information indicating the timing of throwing a virtual object is transmitted and received via the sound effect control server 112.
  • One of them may operate as a master and the other as a slave to perform the above-described processing.
  • the information processing device 23A operates as a master, and the information processing device 23B operates as a slave.
  • the information processing device 23A controls the output of sound effects in the space where the user A is present as described above. Further, the information processing device 23A transmits a command to the information processing device 23B functioning as a slave, and controls the output of sound effects in the space where the user B is present.
  • the command transmission timing is adjusted in consideration of the delay between the information processing device 23A and the information processing device 23B.
  • the information processing device 23A functions as a control device that controls the output of sound effects in the space where user A is present and the output of sound effects in the space where user B is present.
  • FIG. 23 is a diagram showing another configuration example of the virtual catchball system 1.
  • the functions of the information processing device 23A are installed in the communication device 21A, and the functions of the information processing device 23B are installed in the communication device 21B.
  • each functional unit of the communication device 21A described with reference to FIG. 17 is provided in the control device 201A of FIG. 16.
  • each functional unit of the communication device 21B is provided in the control device 201B of FIG. 16.
  • the configuration of the user A side of the telepresence system 151 and the configuration of the user A side of the sound effect system 152 are provided in one device, and the configuration of the user B side of the telepresence system 151 and the configuration of the user B side of the sound effect system 152 are provided in one device. It is possible to provide the configuration on the B side in one device.
  • the mobile terminal 11 having the function of the information processing device 23 communicates with the sound effect control server 112 to transmit and receive information indicating the timing at which the virtual object was thrown.
  • the information processing device 23 may output each sound effect of the throwing side and the catching side according to a command transmitted by the sound effect control server 112. For example, when a user throws a virtual object, information representing this is sent from the information processing device 23 on the throwing side to the sound effect control server 112, and the flying sound is emitted according to the command sent by the sound effect control server 112. Output begins.
  • the device used by the user is a terminal such as a smartphone
  • a dedicated sensor device equipped with an acceleration sensor may also be used.
  • vibrations or the like may be given to the user holding the sensor device in response to the user's own motion or the motion of the other party.
  • the sound effect speaker 22 may be configured with one speaker. In this case, by moving the virtual sound source position, the above-mentioned movement of the sound source position of the flying sound or guide sound is realized.
  • the user's actions such as throwing and catching are detected based on button operations on the mobile terminal 11, they may be detected based on measurement results from a sensor worn by the user. Furthermore, the user's behavior may be detected by analyzing the video captured by the camera.
  • the sound effects output in the space where the user on the throwing side is present are three types of sound effects: arm swing sound, release sound, and flying sound
  • the sound effects output in the space where the user on the catching side is present are the sound effects of arm swing, release sound, and flight sound.
  • a flying sound For example, in a space where a user is on the throwing side, two types of sound effects are output: an arm swing sound and a release sound, and in a space where a user is on the catching side, three types of sound effects are output: a flying sound, a guide sound, and a catch sound. It is possible to do so.
  • the combination of sound effects output in each space can be arbitrary, such as a flying sound being output in either a space where a user on the throwing side is present or a space where a user on the catching side is present. It is possible.
  • FIG. 24 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processes using a program.
  • the information processing device 23, the communication management server 111, the sound effect control server 112, and the control device 201 have the same configuration as that shown in FIG. 24.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input/output interface 1005 is further connected to the bus 1004. Connected to the input/output interface 1005 are an input section 1006 consisting of a keyboard, a mouse, etc., and an output section 1007 consisting of a display, speakers, etc. Further, connected to the input/output interface 1005 are a storage unit 1008 consisting of a hard disk or non-volatile memory, a communication unit 1009 consisting of a network interface, etc., and a drive 1010 for driving a removable medium 1011.
  • the CPU 1001 executes the series of processes described above by, for example, loading a program stored in the storage unit 1008 into the RAM 1003 via the input/output interface 1005 and the bus 1004 and executing it. will be held.
  • a program executed by the CPU 1001 is installed in the storage unit 1008 by being recorded on a removable medium 1011 or provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting.
  • the program executed by the computer may be a program in which processing is performed chronologically in accordance with the order described in this specification, or may be a program in which processing is performed in parallel or at necessary timing such as when a call is made. It may also be a program that is carried out.
  • a system means a collection of multiple components (devices, modules (components), etc.), regardless of whether all the components are in the same casing. Therefore, multiple devices housed in separate casings and connected via a network, and a single device with multiple modules housed in one casing are both systems. .
  • the present technology can take a cloud computing configuration in which one function is shared and jointly processed by multiple devices via a network.
  • each step described in the above flowchart can be executed by one device or can be shared and executed by multiple devices.
  • one step includes multiple processes
  • the multiple processes included in that one step can be executed by one device or can be shared and executed by multiple devices.
  • the present technology can also have the following configuration.
  • a control device comprising: a control unit configured to output sound from a second sound effect speaker provided in a space where the second user is present.
  • the control unit includes: outputting a sound representing a virtual object moving in a space where the first user is present as the first sound effect;
  • the control device according to (1) or (2), wherein a sound representing the virtual object moving in a space where the second user is present is output as the second sound effect.
  • the first sound effect speaker and the second sound effect speaker each include a plurality of speakers,
  • the control unit includes: A speaker that outputs the first sound effect representing the virtual object moving away from the first user is changed from a speaker located close to the first user to a speaker located far from the first user. Switch in order, A speaker that outputs the second sound effect representing the virtual object approaching the second user is changed from a speaker located far from the second user to a speaker located close to the second user.
  • the control device according to (3) above.
  • the control unit delays the output timing of the second sound effect according to the delay between the video and the audio.
  • the control device according to any one of (1) to (4).
  • the control unit transmits the video and the audio from a server that controls transmission and reception of the video and the audio between communication devices provided in a space where the first user is located and a space where the second user is located.
  • the control device according to (5) above, which acquires information regarding the delay.
  • the control device is outputting a first sound effect according to the action of the first user from a first sound effect speaker provided in a space where the first user is present; A second sound effect that is different from the first sound effect as a second sound effect corresponding to the action of a second user who communicates with the first user using video and audio transmitted and received via a network.
  • a control method comprising: outputting sound from a second sound effect speaker provided in a space where the second user is present.
  • a detection unit that detects the behavior of the first user; an output control unit that outputs a first sound effect according to the action of the first user from a first sound effect speaker provided in a space where the first user is present; A second sound effect that is different from the first sound effect as a second sound effect corresponding to the action of a second user who communicates with the first user using video and audio transmitted and received via a network.
  • An information processing device comprising: a communication control unit that transmits a message; (10) The information processing device according to (9), wherein the detection unit detects the behavior of the first user based on information transmitted from a device owned by the first user. (11) The information processing device according to (9) or (10), wherein the output control unit outputs the first sound effect at a timing different from an output timing of the second sound effect. (12) The information processing device according to any one of (9) to (11), wherein the output control unit outputs a sound representing a virtual object moving in a space where the first user is present as the first sound effect. .
  • the first sound effect speaker is composed of a plurality of speakers
  • the output control section includes: A speaker that outputs the first sound effect representing the virtual object moving away from the first user is changed from a speaker located close to the first user to a speaker located far from the first user.
  • the information processing device according to (12) above.
  • the information processing device detecting a first user's behavior; outputting a first sound effect corresponding to the action of the first user from a first sound effect speaker provided in a space where the first user is present; A second sound effect that is different from the first sound effect as a second sound effect corresponding to the action of a second user who communicates with the first user using video and audio transmitted and received via a network.
  • Send information processing method. (15) to the computer, detecting a first user's behavior; outputting a first sound effect according to the action of the first user from a first sound effect speaker provided in a space where the first user is present; A second sound effect that is different from the first sound effect as a second sound effect corresponding to the action of a second user who communicates with the first user using video and audio transmitted and received via a network.

Abstract

本技術は、離れた場所にいるユーザ同士の動作に応じた効果音を適切に出力させることができるようにする制御装置、制御方法、情報処理装置、情報処理方法、およびプログラムに関する。 本技術の一実施の形態に係る制御装置は、第1のユーザの行動に応じた第1の効果音を、第1のユーザがいる空間に設けられた第1の効果音用スピーカから出力させ、ネットワークを介して送受信される映像と音声を用いたコミュニケーションを第1のユーザとの間で行う第2のユーザの行動に応じた第2の効果音として、第1の効果音と異なる効果音を、第2のユーザがいる空間に設けられた第2の効果音用スピーカから出力させる。本技術は、複数のユーザがテレプレゼンスシステムを用いてインタラクションを行うアプリケーションに適用することができる。

Description

制御装置、制御方法、情報処理装置、情報処理方法、およびプログラム
 本技術は、特に、離れた場所にいるユーザ同士の動作に応じた効果音を適切に出力させることができるようにした制御装置、制御方法、情報処理装置、情報処理方法、およびプログラムに関する。
 離れた場所にある空間を映像と音声で繋ぐことによって、あたかも同じ空間にいるかのような自然なコミュニケーションを可能としたテレプレゼンスシステムがある。
 それぞれのユーザがいる空間に設けられたコミュニケーション装置の大型のディスプレイには相手方のユーザが映る映像が表示され、スピーカからは相手方のユーザの音声が出力される。大型のディスプレイとスピーカの他に、例えば、カメラとマイクがコミュニケーション装置に設けられる。
 一方のユーザが使用するコミュニケーション装置のカメラにより撮影された映像とスピーカにより集音された音声が相手方のユーザが使用するコミュニケーション装置において出力されることにより、お互いのユーザは、相手の顔を見ながら会話などを行うことができる。
国際公開第2017/061577号 国際公開第2020/213292号
 このようなテレプレゼンスシステムを利用して仮想的な物体を投げ合うようなアプリケーションが提案されている。仮想的な物体を投げたり受け取ったりすることに応じて効果音が出力される。
 それぞれの空間において同じ効果音が同じタイミングで出力されるとした場合、一方の空間において出力された効果音と、他方の空間において出力され、テレプレゼンスシステムを経由して一方の空間に届く効果音とが二重に聞こえ、臨場感が損なわれてしまうことがある。テレプレゼンスシステムを経由して届く効果音は、システムの遅延などによって通常遅れて聞こえる。
 本技術はこのような状況に鑑みてなされたものであり、離れた場所にいるユーザ同士の動作に応じた効果音を適切に出力させることができるようにするものである。
 本技術の一側面の制御装置は、第1のユーザの行動に応じた第1の効果音を、前記第1のユーザがいる空間に設けられた第1の効果音用スピーカから出力させ、ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第1のユーザとの間で行う第2のユーザの行動に応じた第2の効果音として、前記第1の効果音と異なる効果音を、前記第2のユーザがいる空間に設けられた第2の効果音用スピーカから出力させる制御部を備える。
 本技術の他の側面の情報処理装置は、第1のユーザの行動を検出する検出部と、前記第1のユーザの行動に応じた第1の効果音を、前記第1のユーザがいる空間に設けられた第1の効果音用スピーカから出力させる出力制御部と、ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第1のユーザとの間で行う第2のユーザの行動に応じた第2の効果音として、前記第1の効果音と異なる効果音を、前記第2のユーザがいる空間に設けられた第2の効果音用スピーカから出力させる他の情報処理装置に対して、前記第1のユーザが所定の行動をとったタイミングを示す情報を送信する通信制御部とを備える。
 本技術の一側面においては、第1のユーザの行動に応じた第1の効果音が、前記第1のユーザがいる空間に設けられた第1の効果音用スピーカから出力され、ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第1のユーザとの間で行う第2のユーザの行動に応じた第2の効果音として、前記第1の効果音と異なる効果音が、前記第2のユーザがいる空間に設けられた第2の効果音用スピーカから出力される。
 本技術の他の側面においては、第1のユーザの行動が検出され、前記第1のユーザの行動に応じた第1の効果音が、前記第1のユーザがいる空間に設けられた第1の効果音用スピーカから出力される。また、ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第1のユーザとの間で行う第2のユーザの行動に応じた第2の効果音として、前記第1の効果音と異なる効果音を、前記第2のユーザがいる空間に設けられた第2の効果音用スピーカから出力させる他の情報処理装置に対して、前記第1のユーザが所定の行動をとったタイミングを示す情報が送信される。
本技術の一実施形態に係る仮想キャッチボールシステムの構成例を示す図である。 それぞれのユーザがいる空間に設けられる構成の詳細を示す図である。 スローイング側の効果音の例を示す図である。 スローイング側の効果音の例を示す図である。 キャッチング側の効果音の例を示す図である。 効果音の種類を示す図である。 仮想キャッチボールシステムを実現するシステム構成の例を示す図である。 腕振り時に聞こえる音を示す図である。 仮想物体を投げた時に聞こえる音を示す図である。 仮想物体を投げた後に聞こえる音を示す図である。 仮想物体を投げた後に聞こえる他の音を示す図である。 キャッチング時に聞こえる音を示す図である。 映像と音の入出力の時系列を示す図である。 それぞれのユーザが聴く音の音空間の例を示す図である。 それぞれのユーザが聴く音の音空間の他の例を示す図である。 テレプレゼンスシステムを実現する各装置の機能構成例を示すブロック図である。 効果音システムを実現する各装置の機能構成例を示すブロック図である。 スローイング側の情報処理装置の処理について説明するフローチャートである。 キャッチング側の情報処理装置の処理について説明するフローチャートである。 効果音制御サーバの処理について説明するフローチャートである。 仮想キャッチボールシステムの他の構成例を示す図である。 仮想キャッチボールシステムの他の構成例を示す図である。 仮想キャッチボールシステムの他の構成例を示す図である。 コンピュータの構成例を示すブロック図である。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
 1.仮想キャッチボールシステムの構成
 2.仮想キャッチボールの効果音
 3.各装置の構成例
 4.各装置の動作
 5.変形例
<<仮想キャッチボールシステムの構成>>
 図1は、本技術の一実施形態に係る仮想キャッチボールシステムの構成例を示す図である。
 図1に示す仮想キャッチボールシステム1は、離れた場所にいる2人のユーザが、映像と音を通じて仮想的なキャッチボールを行うことに用いられるシステムである。実際のキャッチボールにおいて用いられるボールに相当する仮想物体が、ユーザの動作に応じてユーザ間を仮想的に移動することによって仮想キャッチボールが行われる。
 図1の例においては、仮想キャッチボールを体験する人物としてユーザAとユーザBが示されている。ユーザAとユーザBは、それぞれ、スマートフォンなどの携帯端末11A,11Bを片手で持っている。
 例えば、ユーザAがスローイングを行う場合、ユーザAは、携帯端末11Aを持っている腕を振ることによって仮想物体を投げ、ユーザBがいる空間に仮想物体を到達させる。ユーザBは、ユーザAが投げた仮想物体をキャッチする。
 同様に、ユーザBがスローイングを行う場合、ユーザBは、携帯端末11Bを持っている腕を振ることによって仮想物体を投げ、ユーザAがいる空間に仮想物体を到達させる。ユーザAは、ユーザBが投げた仮想物体をキャッチする。
 このように、2人のユーザは、スローイングとキャッチングを交互に行うことによって、仮想キャッチボールを続けることになる。
 破線#1で囲んで示す構成が、ユーザAが使用する構成となり、破線#2で囲んで示す構成が、ユーザBが使用する構成となる。ユーザA側の構成とユーザB側の構成は、インターネットやLANなどのネットワーク101を介して接続される。ネットワーク101には、コミュニケーション管理サーバ111と効果音制御サーバ112が接続される。
 破線#1で囲んで示すように、ユーザA側の構成として、コミュニケーション装置21A、効果音用スピーカ22A、および情報処理装置23Aが設けられる。携帯端末11Aと情報処理装置23Aは、無線LAN、Bluetooth(登録商標)などの無線通信を介して接続される。
 コミュニケーション装置21Aは、大型のディスプレイを有する装置である。ユーザAは、コミュニケーション装置21Aの前方に設定された立ち位置に携帯端末11Aを持った状態で立ち、ユーザBとの仮想キャッチボールを行う。ユーザAの立ち位置とコミュニケーション装置21Aの間の床に、複数のスピーカから構成される効果音用スピーカ22Aが設けられる。
 このようなユーザA側の構成と同じ構成がユーザB側にも設けられる。破線#2で囲んで示すように、ユーザB側の構成として、コミュニケーション装置21B、効果音用スピーカ22B、および情報処理装置23Bが設けられる。携帯端末11Bと情報処理装置23Bは、無線通信を介して接続される。
 ユーザBは、コミュニケーション装置21Bの前方に設定された立ち位置に携帯端末11Bを持った状態で立ち、ユーザAとの仮想キャッチボールを行う。ユーザBの立ち位置とコミュニケーション装置21Bの間の床に、複数のスピーカから構成される効果音用スピーカ22Bが設けられる。
 コミュニケーション装置21Aとコミュニケーション装置21Bの間では映像と音声の送受信が行われる。コミュニケーション管理サーバ111は、コミュニケーション装置21Aとコミュニケーション装置21Bの間の映像と音声の送受信を管理する。
 効果音制御サーバ112は、情報処理装置23Aとの間で通信を行うとともに、情報処理装置23Bとの間で通信を行う。効果音制御サーバ112は、情報処理装置23Aから送信されてきた情報を情報処理装置23Bに送信し、情報処理装置23Bから送信されてきた情報を情報処理装置23Aに送信する。
 以下、適宜、コミュニケーション装置21Aとコミュニケーション装置21Bを区別する必要がない場合、まとめて、コミュニケーション装置21という。効果音用スピーカ22Aと効果音用スピーカ22Bを区別する必要がない場合、まとめて、効果音用スピーカ22といい、情報処理装置23Aと情報処理装置23Bを区別する必要がない場合、まとめて、情報処理装置23という。ユーザA側とユーザB側の他の構成についても、適宜、同様にまとめて説明する。
 図2は、それぞれのユーザがいる空間に設けられる構成の詳細を示す図である。
 図2のAは、ユーザAがいる空間に設けられる構成を示す。
 ユーザA側のコミュニケーション装置21Aは、ディスプレイ31A、カメラ32A、マイク33A、およびスピーカ34Aが、コミュニケーション装置21Aの全体の動作を制御するPCなどの制御装置(図示せず)に接続されることによって構成される。
 ディスプレイ31Aは、コミュニケーション装置21Bから送信されてきた映像を表示させる。コミュニケーション装置21Bから送信されてくる映像にはユーザBの全身が映っている。
 カメラ32Aは、コミュニケーション装置21Aから離れた位置に立つユーザAを撮影する。カメラ32Aにより撮影された映像は、コミュニケーション装置21Bに対して送信される。
 マイク33Aは、ユーザAがいる空間の音を集音する。マイク33Aが集音する音には、ユーザAの音声、効果音用スピーカ22Aが出力する効果音、スピーカ34Aが出力する音などの、ユーザAがいる空間において聞こえる各種の音が含まれる。マイク33Aにより集音された音は、コミュニケーション装置21Bに対して送信される。
 スピーカ34Aは、コミュニケーション装置21Bから送信されてきた、ユーザBがいる空間の音を出力する。コミュニケーション装置21Bからは、コミュニケーション装置21Bのマイク(マイク33B)によって集音された、ユーザBがいる空間の音が送信されてくる。
 図2のAに示すように、情報処理装置23Aに接続された効果音用スピーカ22Aは、スピーカ22A-1乃至22A-4の4台のスピーカにより構成される。ユーザAの立ち位置を基準として、最も近い位置にスピーカ22A-1が設けられ、その先に、スピーカ22A-2、スピーカ22A-3、スピーカ22A-4が並べて設けられる。スピーカ22A-1乃至22A-4は例えば等間隔に並べられる。
 スピーカ22A-1乃至22A-4を用いた効果音の出力が情報処理装置23Aにより制御される。スピーカ22A-1乃至22A-4から出力される効果音の詳細については後述する。
 図2のBは、ユーザBがいる空間に設けられる構成を示す。ユーザB側の構成として、ユーザA側の構成と同じ構成が設けられる。重複する説明については適宜省略する。
 ユーザB側のコミュニケーション装置21Bは、ディスプレイ31B、カメラ32B、マイク33B、およびスピーカ34Bが、コミュニケーション装置21Bの全体の動作を制御するPCなどの制御装置(図示せず)に接続されることによって構成される。
 ディスプレイ31Bは、コミュニケーション装置21Aから送信されてきた映像を表示させる。コミュニケーション装置21Aから送信されてくる映像にはユーザAの全身が映っている。
 カメラ32Bは、コミュニケーション装置21Bから離れた位置に立つユーザBを撮影する。カメラ32Bにより撮影された映像は、コミュニケーション装置21Aに対して送信される。
 マイク33Bは、ユーザBがいる空間の音を集音する。マイク33Bが集音する音には、ユーザBの音声、効果音用スピーカ22Bが出力する効果音、スピーカ34Bが出力する音などの、ユーザBがいる空間において聞こえる各種の音が含まれる。マイク33Bにより集音された音は、コミュニケーション装置21Aに対して送信される。
 スピーカ34Bは、コミュニケーション装置21Aから送信されてきた、ユーザAがいる空間の音を出力する。コミュニケーション装置21Aからは、コミュニケーション装置21Aのマイク33Aによって集音された、ユーザAがいる空間の音が送信されてくる。
 図2のBに示すように、情報処理装置23Bに接続された効果音用スピーカ22Bは、スピーカ22B-1乃至22B-4の4台のスピーカにより構成される。ユーザBの立ち位置を基準として、最も近い位置にスピーカ22B-1が設けられ、その先に、スピーカ22B-2、スピーカ22B-3、スピーカ22B-4が並べて設けられる。スピーカ22B-1乃至22B-4は例えば等間隔に並べられる。
 スピーカ22B-1乃至22B-4を用いた効果音の出力が情報処理装置23Bにより制御される。スピーカ22B-1乃至22B-4から出力される効果音の詳細については後述する。
 コミュニケーション装置21Aとコミュニケーション装置21Bの間の映像と音声の送受信がリアルタイムで行われることにより、それぞれのユーザは、離れた場所にいる相手の姿を見て、相手と会話をしながら仮想キャッチボールを行うことができる。コミュニケーション装置21は、相手のいる空間の様子を覗くことができるいわば窓としての機能を有する。
<<仮想キャッチボールの効果音>>
 ここで、効果音用スピーカ22(効果音用スピーカ22A、効果音用スピーカ22B)から出力される効果音について説明する。仮想キャッチボールを演出するための効果音、仮想物体が移動することを表現する効果音などの各種の効果音が効果音用スピーカ22から出力される。
<スローイング側の効果音>
 図3は、スローイング側の効果音の例を示す図である。
 図3の例においては、スローイングを行うユーザとしてユーザAが示されている。ユーザAの前方には、スピーカ22A-1乃至22A-4が順に並び、その先にコミュニケーション装置21Aのディスプレイ31Aが設けられる。
 スローイングを開始するユーザAは、図3の上段に示すように、携帯端末11Aのボタンを押す。スローイングの開始時に押すボタンとして、携帯端末11Aの物理的なボタンが用いられるようにしてもよいし、携帯端末11Aのディスプレイに表示されたボタンが用いられるようにしてもよい。
 ボタンを押しながら振りかぶり、携帯端末11Aを持つ腕を振ることに応じて、図3の中段に示すように、「ヒュー!」などの腕振り音がスピーカ22A-1から出力される。腕振り音は、ユーザAが腕を振っていることを表現する効果音である。
 携帯端末11Aには、加速度センサなどの各種のセンサが搭載されている。ユーザAの腕振り時の加速度が速いほど激しい音が鳴るといったように、腕振り音はユーザAの腕振り時の加速度に応じて変化する。
 周波数、音量、音の種類などを加速度に応じて変化させることによって、腕振り音の変化が実現される。後述する他の効果音の変化も、周波数、音量、音の種類などのうちの少なくともいずれかの組み合わせを変化させることによって実現される。
 携帯端末11Aを持つ腕振りの途中でボタンを離した場合、図3の下段に示すように、「シュッ!」などのリリース音がスピーカ22A-1から出力される。ボタンを離すことは、実際のキャッチボールでいう、ボールを投げることに相当する。ボタンを離すことに応じて、仮想物体の移動が開始される。リリース音は、ユーザAが仮想物体を投げたことを表現する効果音である。
 図4は、図3の効果音に続けて出力されるスローイング側の効果音の例を示す図である。
 ボタンを離すことによって仮想物体を投げた後、「ビューン!」などの飛翔音の出力が開始される。飛翔音は、ユーザAが投げた仮想物体がユーザBに向けて移動していることを表現する効果音である。
 図4の上段に示すように、ユーザAがボタンを離した直後の時刻tにおいては、ユーザAに最も近い位置にあるスピーカ22A-1から飛翔音が出力される。図4の上から2段目、3段目、4段目にそれぞれ示すように、時刻tの後の時刻t+1、時刻t+2、時刻t+3の各時刻においては、スピーカ22A-2、スピーカ22A-3、スピーカ22A-4から飛翔音が出力される。
 このように、飛翔音の出力に用いるスピーカが、ユーザAに近い位置にあるスピーカから、離れた位置にあるスピーカに順に切り替えられる。飛翔音の音源位置が移動することにより、ユーザAがいる空間において、ユーザAから遠ざかるように仮想物体が移動していること(飛んでいること)が表現される。
 仮想物体の速度が速いほど激しい音が鳴るといったように、飛翔音が仮想物体の速度に応じて変化する。例えば、ユーザAがボタンを離すタイミングの直前と直後の所定の期間における加速度に基づいて、仮想物体の速度が情報処理装置23Aにより算出され、飛翔音の出力に反映される。
 また、飛翔音の出力に用いるスピーカの切り替えタイミングが仮想物体の速度に応じて変化する。例えば、仮想物体の速度が速いほど音源位置がより速く移動するように、飛翔音の出力に用いるスピーカがより速いタイミングで切り替えられる。
<キャッチング側の効果音>
 図5は、キャッチング側の効果音の例を示す図である。
 図5の例においては、キャッチングを行うユーザとしてユーザBが示されている。ユーザBの前方には、スピーカ22B-1乃至22B-4が順に並び、その先にコミュニケーション装置21Bのディスプレイ31Bが設けられる。
 キャッチング側の効果音の出力は、例えば、ユーザAが仮想物体を投げたタイミングを基準として、映像と音声の遅延に相当する時間の経過後のタイミングで開始される。これにより、仮想物体を投げるユーザAの映像がディスプレイ31Bに表示されるのに合わせて、キャッチング側の効果音の出力が開始されることになる。このようなキャッチング側における効果音の出力開始のタイミングが例えば効果音制御サーバ112により制御される。
 キャッチング側の効果音として、「ピッ!」などのガイド音が断続的に3回出力される。図5の上段に示すように、キャッチング側における効果音の出力開始時刻である時刻tにおいては、ユーザBから最も離れた位置にあるスピーカ22B-4からガイド音が出力される。図5の上から2段目、3段目にそれぞれ示すように、時刻tの後の時刻t+1、時刻t+2の各時刻において、スピーカ22B-3、スピーカ22B-2からガイド音が出力される。
 3回のガイド音は、例えば一定の時間間隔(リズム)で出力される。仮想物体の速度が速いほど短い時間間隔で出力されるといったように、ガイド音の時間間隔が仮想物体の速度に応じて変化する。例えば、仮想物体を投げるときに携帯端末11Aにより計測された加速度の情報が、効果音制御サーバ112を介して情報処理装置23Aから情報処理装置23Bに対して送信され、ガイド音の出力タイミングに反映される。
 このように、ガイド音の出力に用いられるスピーカが、ユーザBから離れた位置にあるスピーカから、近い位置にあるスピーカに順に切り替えられる。ガイド音の音源位置が移動することにより、ユーザBに近付くように移動する仮想物体が表現される。
 3回のガイド音の出力後の時刻t+3においてユーザBが携帯端末11Bのボタンを押した場合、図5の下段に示すように、「バシッ!」などのキャッチ音がスピーカ22B-1から出力される。キャッチ音は、仮想物体をユーザBがキャッチしたことを表現する効果音である。キャッチ時に押すボタンとして、携帯端末11Bの物理的なボタンが用いられるようにしてもよいし、携帯端末11Bのディスプレイに表示されたボタンが用いられるようにしてもよい。
 ユーザBがボタンを押すタイミング、すなわち、仮想物体をキャッチするタイミングが適切なタイミングであるほど激しい音が出力されるといったように、キャッチ音は、ユーザBによるキャッチングのタイミングに応じて変化する。例えば、3回目のガイド音の出力タイミングからユーザBがボタンを押したタイミングまでの間隔が、ガイド音の時間間隔に近いほど、キャッチングのタイミングとして適切なタイミングとして判断される。情報処理装置23Bにおいては、ユーザBの操作に応じて、キャッチングのタイミングの適切さの程度が算出され、キャッチ音の出力に反映される。
 このように、ユーザBは、ガイド音を聴いて、仮想物体のキャッチングのタイミングを計ることになる。ガイド音は、仮想物体が移動していることを表現するとともに、キャッチングのタイミングをガイドする効果音となる。ガイド音に合わせてキャッチングのタイミングを計ることによって、仮想キャッチボールにゲーム性が生じる。
 ユーザBが仮想物体を仮想的にキャッチした場合、ユーザAとユーザBは役割を交代する。ユーザBがスローイング側のユーザになり、ユーザAがキャッチング側のユーザになることによって、仮想キャッチボールが続けられる。
 ユーザBが仮想物体を投げた場合、図3、図4を参照して説明した効果音と同じ効果音が効果音用スピーカ22Bを用いて情報処理装置23Bにより出力される。また、ユーザAがキャッチングを行う場合、図5を参照して説明した効果音と同じ効果音が効果音用スピーカ22Aを用いて情報処理装置23Aにより出力される。
<効果音のまとめ>
 図6は、以上のような効果音の種類を示す図である。
 図6の上段に示すように、腕振り音、リリース音、飛翔音が、スローイングを行うユーザの行動に応じた効果音として、スローイング側のユーザがいる空間において出力される。
 腕振り音が腕振り動作の加速度に応じて変化することにより、スローイングを行うユーザは、仮想物体の速度を認識することができる。
 また、仮想物体を投げたときに腕振り音の出力が停止し、リリース音と飛翔音が出力されることにより、スローイングを行うユーザは、仮想物体が自分の手元から放たれたことを認識することができる。
 一方、図6の下段に示すように、ガイド音とキャッチ音が、キャッチングを行うユーザの行動に応じた効果音として、キャッチング側のユーザがいる空間において出力される。例えば、ガイド音は、仮想物体が自分の場所に到達するのを待つという行動に応じた効果音である。キャッチ音は、仮想物体をキャッチするという行動に応じた効果音である。
 3回のガイド音が一定の時間間隔で断続的に出力されることにより、キャッチングを行うユーザは、仮想物体が自分の場所に到達するまでのおおよその時間を認識することができる。音源位置が移動するガイド音の出力中に、音源位置が固定のアンカー音が出力されるようにしてもよい。BGMなどのアンカー音が効果音用スピーカ22のいずれかのスピーカから出力されることにより、キャッチングを行うユーザは、ガイド音とともにアンカー音を聴くことになる。これにより、ガイド音の音源位置の変化が強調され、仮想物体が到達するまでの時間の認識が容易になる。
 また、ボタンを押して仮想物体をキャッチしたときにキャッチ音が出力されることにより、キャッチングを行うユーザは、自分の手元に仮想物体が到達したことを認識することができる。
 このように、仮想キャッチボールシステム1においては、スローイング側のユーザがいる空間とキャッチング側のユーザがいる空間のそれぞれの空間において、異なる種類の効果音が、異なるタイミングで出力される。これにより、ユーザ間で移動する仮想物体のやりとり(キャッチボール)を、音だけで成立させることが可能となる。
 図3、図4の例においては、ユーザAの立ち位置を基準として、スピーカ22A-4がディスプレイ31Aの前方の位置に設けられるものとしたが、ディスプレイ31Aの後方の位置に設けられるようにしてもよい。仮想物体を投げたときの飛翔音が、ディスプレイ31Aに映るユーザBの後方から時刻t+3において出力されることになるため、ユーザBがいる空間に仮想物体が到達したことを表現することができる。
 図5の例においては、ユーザBの立ち位置を基準として、スピーカ22B-4がディスプレイ31Bの前方の位置に設けられるものとしたが、ディスプレイ31Bの後方の位置に設けられるようにしてもよい。1回目のガイド音が、ディスプレイ31Bに映るユーザAの後方から時刻tにおいて出力されることになるため、ユーザAがいる空間から仮想物体が移動してきたことを表現することができる。
 このように、ユーザの立ち位置から最も離れた位置にあるスピーカをディスプレイ31の後方に設置することにより、効果音の音響効果を強調することが可能となる。
<各空間で聞こえる音について>
 図7は、仮想キャッチボールシステム1を実現するシステム構成の例を示す図である。
 図7に示すように、仮想キャッチボールシステム1は、テレプレゼンスシステム151と効果音システム152により構成される。テレプレゼンスシステム151は、コミュニケーション装置21を用いたユーザ間のコミュニケーションを実現するシステムである。効果音システム152は、効果音の出力を制御するシステムである。
 図7の例においては、情報処理装置23Aと効果音用スピーカ22Aの間にはオーディオ機器24Aが設けられる。また、情報処理装置23Aは、アクセスポイント25Aを介してネットワーク101に接続される。オーディオ機器24Aとアクセスポイント25Aは、ユーザAがいる空間に設けられるデバイスである。
 同様に、情報処理装置23Bと効果音用スピーカ22Bの間にはオーディオ機器24Bが設けられる。また、情報処理装置23Bは、アクセスポイント25Bを介してネットワーク101に接続される。オーディオ機器24Bとアクセスポイント25Bは、ユーザBがいる空間に設けられるデバイスである。
 このように、効果音の出力は、ユーザ間のコミュニケーションを実現するシステムとは別のシステムによって制御される。ユーザAとユーザBは、それぞれ、テレプレゼンスシステム151の音と効果音システム152の音を聴くことになる。
 具体的には、ユーザAは、効果音用スピーカ22Aから出力される効果音とともに、コミュニケーション装置21Aのスピーカ34Aから出力されるテレプレゼンスシステム151経由の音を聴くことになる。例えばユーザBがいる空間で出力された効果音がコミュニケーション装置21Bのマイク33Bによって集音されたタイミングでは、その効果音が、テレプレゼンスシステム151経由の音としてコミュニケーション装置21Aのスピーカ34Aから聞こえる。
 反対に、ユーザBは、効果音用スピーカ22Bから出力される効果音とともに、コミュニケーション装置21Bのスピーカ34Bから出力されるテレプレゼンスシステム151経由の音を聴くことになる。例えばユーザAがいる空間で出力された効果音がコミュニケーション装置21Aのマイク33Aによって集音されたタイミングでは、その効果音が、テレプレゼンスシステム151経由の音としてコミュニケーション装置21Bのスピーカ34Bから聞こえる。
 図8乃至図12を参照して、仮想キャッチボール中の各タイミングで聞こえる音について説明する。ここでも、上述したようにユーザAがスローイング側のユーザであり、ユーザBがキャッチング側のユーザであるものとする。
・腕振りのタイミング
 図8は、ユーザAの腕振り時に聞こえる音を示す図である。
 吹き出し#21に示すように、携帯端末11Aを持つ腕をユーザAが振った場合、吹き出し#22に示すように腕振り音が効果音用スピーカ22Aから出力される。ユーザAは、目の前にある効果音用スピーカ22Aから出力された腕振り音を聴くことになる。
 効果音用スピーカ22Aから出力された腕振り音は、吹き出し#23に示すようにコミュニケーション装置21Aのマイク33Aによって集音され、吹き出し#24に示すように、テレプレゼンスシステム151経由の音としてコミュニケーション装置21Bのスピーカ34Bから出力される。ユーザBは、テレプレゼンスシステム151経由の腕振り音によって、ユーザAが腕を振ったことを認識することができる。
・仮想物体を投げたタイミング
 図9は、仮想物体を投げた時に聞こえる音を示す図である。
 吹き出し#31に示すように、携帯端末11Aのボタンを離してユーザAが仮想物体を投げた場合、吹き出し#32に示すようにリリース音が効果音用スピーカ22Aから出力される。ユーザAは、目の前にある効果音用スピーカ22Aから出力されたリリース音を聴くことになる。
 効果音用スピーカ22Aから出力されたリリース音は、吹き出し#33に示すようにコミュニケーション装置21Aのマイク33Aによって集音され、吹き出し#34に示すように、テレプレゼンスシステム151経由の音としてコミュニケーション装置21Bのスピーカ34Bから出力される。ユーザBは、テレプレゼンスシステム151経由のリリース音によって、ユーザAが仮想物体を投げたことを認識することができる。
 テレプレゼンスシステム151上で送受信される映像の遅延と音声の遅延が同じである場合、仮想物体を投げているユーザAの姿が映る映像の表示タイミングと同じタイミングで、リリース音がスピーカ34Bから出力される。
・仮想物体を投げた後1
 図10は、仮想物体を投げた後に聞こえる音を示す図である。
 ユーザAが仮想物体を投げた後、吹き出し#41に示すように飛翔音が効果音用スピーカ22Aから出力される。ユーザAは、自分から遠ざかるように音源位置が移動する飛翔音によって、仮想物体が離れていくことを認識することができる。
 効果音用スピーカ22Aから出力された飛翔音は、吹き出し#42に示すようにコミュニケーション装置21Aのマイク33Aによって集音され、吹き出し#43に示すように、テレプレゼンスシステム151経由の音としてコミュニケーション装置21Bのスピーカ34Bから出力される。ユーザBは、テレプレゼンスシステム151経由の飛翔音によって、ユーザAがいる空間において仮想物体が移動していることを認識することができる。
・仮想物体を投げた後2
 図11は、仮想物体を投げた後に聞こえる他の音を示す図である。
 ユーザAが仮想物体を投げた後、吹き出し#51に示すように、ガイド音が効果音用スピーカ22Bから出力される。ユーザBは、音源位置が移動するガイド音によって、仮想物体が近付いていることを認識することができる。
 効果音用スピーカ22Bから出力されたガイド音は、吹き出し#52に示すようにコミュニケーション装置21Bのマイク33Bによって集音され、吹き出し#53に示すように、テレプレゼンスシステム151経由の音としてコミュニケーション装置21Aのスピーカ34Aから出力される。ユーザAは、テレプレゼンスシステム151経由のガイド音によって、ユーザBがいる空間において仮想物体が移動していることを認識することができる。
・キャッチングのタイミング
 図12は、ユーザBのキャッチング時に聞こえる音を示す図である。
 吹き出し#61に示すように、携帯端末11Bのボタンを押してユーザBがキャッチングを行った場合、吹き出し#62に示すようにキャッチ音が効果音用スピーカ22Bから出力される。ユーザBは、目の前にある効果音用スピーカ22Bから出力されたキャッチ音を聴くことになる。
 効果音用スピーカ22Bから出力されたキャッチ音は、吹き出し#63に示すようにコミュニケーション装置21Bのマイク33Bによって集音され、吹き出し#64に示すように、テレプレゼンスシステム151経由の音としてコミュニケーション装置21Aのスピーカ34Aから出力される。ユーザAは、テレプレゼンスシステム151経由のキャッチ音によって、ユーザBが仮想物体をキャッチしたことを認識することができる。
・映像と音の入出力の時系列
 図13は、映像と音の入出力の時系列を示す図である。
 図13の左側が、ユーザAがいる空間における映像と音の入出力を示す。図13の左端にはユーザAの行動と携帯端末11Aの操作のタイミングが示されている。図13には、ユーザAが仮想物体をキャッチしたタイミングを基準として、それ以降の映像と音の入出力の時系列が示されている。
 また、図13の右側が、ユーザBがいる空間における映像と音の入出力を示す。図13の右端にはユーザBの行動と携帯端末11Bの操作のタイミングが示されている。
 時刻t0においてユーザAが仮想物体をキャッチした場合、効果音用スピーカ22Aからキャッチ音が出力される。効果音用スピーカ22Aから出力されたキャッチ音は、破線矢印A1の先に示すようにコミュニケーション装置21Aのマイク33Aにより集音される。このとき、仮想物体をキャッチしたユーザAの姿が、矢印A2の先に示すようにコミュニケーション装置21Aのカメラ32Aにより撮影される。
 仮想物体をキャッチしたことに続けて、ユーザAが振りかぶりって腕を振った場合、効果音用スピーカ22Aから腕振り音が出力される。効果音用スピーカ22Aから出力された腕振り音は、破線矢印A3の先に示すようにコミュニケーション装置21Aのマイク33Aにより集音される。図示を省略しているが、このとき、腕を振っているユーザAの姿が、コミュニケーション装置21Aのカメラ32Aにより撮影される。腕振り音の出力等は、ユーザAがボタンを離す時刻t1まで続けられる。
 ユーザBがいる空間においては、矢印A11に示すように、時刻t0から、テレプレゼンスシステム151の遅延に相当する時間だけ遅れたタイミングで、仮想物体をキャッチしたユーザAの姿(映像)がコミュニケーション装置21Bに表示される。このとき、コミュニケーション装置21Bのスピーカ34Bからは、テレプレゼンスシステム151経由のキャッチ音が出力される。
 その後、振りかぶって腕を振っているユーザAの姿がコミュニケーション装置21Bに表示される。コミュニケーション装置21Bのスピーカ34Bからは、テレプレゼンスシステム151経由の腕振り音が出力される。
 時刻t1において、ユーザAが携帯端末11Aのボタンを離し、仮想物体を投げた場合、効果音用スピーカ22Aを用いた飛翔音の出力が開始される。この例においては、リリース音の出力の図示が省略されている。効果音用スピーカ22Aから出力された飛翔音は、破線矢印A4の先に示すようにコミュニケーション装置21Aのマイク33Aにより集音される。このとき、仮想物体を投げたユーザAの姿が、矢印A5の先に示すようにコミュニケーション装置21Aのカメラ32Aにより撮影される。
 ユーザBがいる空間においては、矢印A12に示すように、時刻t1から、テレプレゼンスシステム151の遅延に相当する時間だけ遅れたタイミングで、仮想物体を投げるユーザAの姿がコミュニケーション装置21Bに表示される。このとき、コミュニケーション装置21Bのスピーカ34Bからは、テレプレゼンスシステム151経由の飛翔音が出力される。
 図13の例においては、矢印A13に示すように、ユーザAが仮想物体を投げた時刻t1から、効果音システム152の遅延に相当する時間だけ遅れたタイミングで、効果音用スピーカ22Bを用いたガイド音の出力が開始されている。効果音システム152の遅延は、スローイング側のユーザが仮想物体を投げてから、そのことを示す情報がキャッチング側の情報処理装置23に到達するまでの時間となる。
 ガイド音の出力開始のタイミングは、所定の調整値を用いて調整される。効果音用スピーカ22Bから出力されたガイド音は、破線矢印A14の先に示すようにコミュニケーション装置21Bのマイク33Bにより集音される。
 ユーザAがいる空間においては、時刻t2において、コミュニケーション装置21Aのスピーカ34Aから、テレプレゼンスシステム151経由のガイド音が出力される。時刻t2のタイミングは、矢印A6に示すように、ユーザBがいる空間においてガイド音の出力が開始されたタイミングから、テレプレゼンスシステム151の遅延に相当する時間だけ遅れたタイミングとなる。
 時刻t3においてユーザBが仮想物体をキャッチした場合、効果音用スピーカ22Bからキャッチ音が出力される。効果音用スピーカ22Bから出力されたキャッチ音は、破線矢印A15の先に示すようにコミュニケーション装置21Bのマイク33Aにより集音される。
 ユーザAがいる空間においては、矢印A7に示すように、時刻t3から、テレプレゼンスシステム151の遅延に相当する時間だけ遅れたタイミングで、テレプレゼンスシステム151経由のキャッチ音が出力される。図示を省略しているが、仮想物体をキャッチしたユーザBの姿は、コミュニケーション装置21Bのカメラ32Bにより撮影され、コミュニケーション装置21Aに表示される。
 このように、ユーザAとユーザBは、それぞれ、自分の行動や相手の行動に応じたテレプレゼンスシステム151の音と効果音システム152の音を聴くことになる。
 図14は、それぞれのユーザが聴く音の音空間の例を示す図である。
 図14に示すように、ユーザAの音空間においては、スローイング側の効果音として腕振り音、リリース音、飛翔音が出力される。また、ユーザBの音空間においては、キャッチング側の効果音としてガイド音とキャッチ音が出力される。
 それぞれのユーザがいる空間が離れた場所にあり音空間が分離している場合において、それぞれ異なる種類の効果音が異なるタイミングでそれぞれの音空間において出力されることにより、効果音が二重に聞こえてしまうことを防ぐことが可能となる。
 例えば、図15に示すように、同じ効果音を用いて仮想物体の移動を表現する場合を考える。ユーザAが仮想物体を投げたことに応じて、飛翔音が同じタイミングでそれぞれの音空間において出力される。
 この場合、ユーザAの音空間に注目すると、ユーザAが仮想物体を投げたことに応じて、飛翔音が効果音用スピーカ22Aから出力される。また、テレプレゼンスシステム151経由の飛翔音(ユーザBがいる空間で出力され、コミュニケーション装置21Bのマイク33Bにより集音された飛翔音)がコミュニケーション装置21Aのスピーカ34Aから出力される。
 ユーザAの音空間においては、ユーザAの音空間で出力された飛翔音と、ユーザBの音空間で出力された飛翔音が、テレプレゼンスシステム151の遅延に相当する時間だけずれたタイミングで二重に聞こえることになる。図15の下方において色が異なる菱形を重ねて示していることは、飛翔音が二重に聞こえることを示す。
 同様に、ユーザBの音空間に注目すると、ユーザAが仮想物体を投げたことに応じて、飛翔音が効果音用スピーカ22Bから出力される。また、テレプレゼンスシステム151経由の飛翔音(ユーザAがいる空間で出力され、コミュニケーション装置21Aのマイク33Aにより集音された飛翔音)がコミュニケーション装置21Bのスピーカ34Bから出力される。
 ユーザBの音空間においては、ユーザBの音空間で出力された飛翔音と、ユーザAの音空間で出力された飛翔音が、テレプレゼンスシステム151の遅延に相当する時間だけずれたタイミングで二重に聞こえることになる。
 異なる種類の効果音を異なるタイミングでそれぞれの音空間において分離して出力させることにより、効果音が二重に聞こえてしまうことを防ぐことが可能となる。すなわち、離れた場所にいるユーザ同士の動作に応じた効果音を適切に出力させることが可能となる。ユーザは、スローイング側の効果音とキャッチング側の効果音を聞き分け、臨場感のある仮想キャッチボールを楽しむことができる。
<<各装置の構成例>>
<テレプレゼンスシステム151の構成>
 図16は、テレプレゼンスシステム151を実現する各装置の機能構成例を示すブロック図である。図16に示す各機能部は、それぞれの装置を構成するコンピュータのCPUが所定のプログラムを実行することによって実現される。重複する説明については適宜省略する。
・制御装置201の構成
 コミュニケーション装置21Aの全体の動作を制御する制御装置201Aにおいては、映像取得部211A、音声取得部212A、表示制御部213A、音声出力制御部214A、および通信制御部215Aが実現される。
 映像取得部211Aは、カメラ32Aにより撮影された、ユーザAが映る映像を取得し、通信制御部215Aに出力する。
 音声取得部212Aは、マイク33Aにより集音された、ユーザAがいる空間で聞こえる音を取得し、通信制御部215Aに出力する。
 表示制御部213Aは、通信制御部215Aにおいて受信された映像をディスプレイ31Aに表示させる。通信制御部215Aにおいては、コミュニケーション装置21Bから送信されてきた映像のデータが受信される。コミュニケーション装置21Bから送信されてきた映像にはユーザBが映っている。
 音声出力制御部214Aは、通信制御部215Aにおいて受信された音声をスピーカ34Aから出力させる。通信制御部215Aにおいては、コミュニケーション装置21Bから送信されてきた音声のデータが受信される。コミュニケーション装置21Bから送信されてきた音声には、ユーザBの音声、ユーザBがいる空間で聞こえる効果音などが含まれる。
 通信制御部215Aは、コミュニケーション管理サーバ111との間の通信を制御する。通信制御部215Aは、映像取得部211Aから供給された映像のデータと音声取得部212Aから供給された音声のデータをコミュニケーション管理サーバ111に送信する。
 また、通信制御部215Aは、コミュニケーション管理サーバ111を介してコミュニケーション装置21Bから送信されてきた映像のデータを受信し、表示制御部213Aに出力する。通信制御部215Aは、コミュニケーション管理サーバ111を介してコミュニケーション装置21Bから送信されてきた音声のデータを受信し、音声出力制御部214Aに出力する。
 コミュニケーション装置21Bの全体の動作を制御する制御装置201Bにおいては、映像取得部211B、音声取得部212B、表示制御部213B、音声出力制御部214B、および通信制御部215Bが実現される。制御装置201Bの各機能部は、対応する制御装置201Aの機能部と同様の機能を有する。
・コミュニケーション管理サーバ111の構成
 コミュニケーション管理サーバ111においては通信制御部221が実現される。通信制御部221は、制御装置201Aから送信されてきた映像と音声のデータを受信し、制御装置201Bに送信する。また、通信制御部221は、制御装置201Bから送信されてきた映像と音声のデータを受信し、制御装置201Aに送信する。
<効果音システム152の構成>
 図17は、効果音システム152を実現する各装置の機能構成例を示すブロック図である。図17に示す各機能部は、それぞれの装置を構成するコンピュータのCPUが所定のプログラムを実行することによって実現される。重複する説明については適宜省略する。
・情報処理装置23の構成
 情報処理装置23Aにおいては、センサデータ取得部231A、操作検出部232A、効果音出力制御部233A、および通信制御部234Aが実現される。
 センサデータ取得部231Aは、ユーザAが持つ携帯端末11Aとの間で通信を行い、携帯端末11Aに搭載された加速度センサなどの各種のセンサにより計測されたセンサデータを取得する。センサデータ取得部231Aにより取得されたセンサデータは効果音出力制御部233Aと通信制御部234Aに供給される。
 操作検出部232Aは、ユーザAが持つ携帯端末11Aとの間で通信を行い、ユーザAによるボタン操作を検出する。上述したように、スローイングの開始時、リリース時、キャッチング時などにおいて、携帯端末11Aのボタンがユーザによって操作される。操作検出部232Aにより検出されたユーザの操作の内容を示す情報は効果音出力制御部233Aと通信制御部234Aに供給される。
 効果音出力制御部233Aは、効果音用スピーカ22Aの各スピーカを駆動し、ユーザAがいる空間における効果音の出力を制御する。
 例えば、ユーザAがスローイング側のユーザとしてボタンを押した場合、効果音出力制御部233Aは、ボタンを離すまでの加速度に応じて腕振り音を出力させる。また、ユーザAがボタンを離すことによって仮想物体を投げた場合、効果音出力制御部233Aは、仮想物体の速度を加速度に基づいて算出し、仮想物体の速度に応じた飛翔音を出力させる。
 また、ユーザAがキャッチング側のユーザである場合、効果音出力制御部233Aは、ユーザBが仮想物体を投げたことに応じて、ガイド音の出力を開始させる。ユーザBが仮想物体を投げた場合、仮想物体を投げたタイミングを示す情報と加速度の情報が通信制御部234Aにおいて受信され、効果音出力制御部233Aに対して供給される。また、ユーザAがボタンを押すことによって仮想物体をキャッチした場合、効果音出力制御部233Aは、キャッチ音を出力させる。
 通信制御部234Aは、効果音制御サーバ112との間の通信を制御する。通信制御部234Aは、スローイングを行うユーザAがボタンを離した場合、仮想物体を投げたタイミングを示す情報を、センサデータ取得部231から供給された加速度の計測結果の情報とともに効果音制御サーバ112に送信する。通信制御部234Aが送信した情報は、効果音制御サーバ112を介して情報処理装置23Bに対して送信される。通信制御部234Aは、仮想物体を投げたタイミングを示す情報などの各種の情報を他の情報処理装置である情報処理装置23Bに対して送信する通信制御部として機能する。
 また、通信制御部234Aは、ユーザBが仮想物体を投げたことに応じて、仮想物体を投げたタイミングを示す情報と加速度の情報が効果音制御サーバ112から送信されてきた場合、それを受信し、効果音出力制御部233Aに出力する。
 情報処理装置23Bにおいては、センサデータ取得部231B、操作検出部232B、効果音出力制御部233B、および通信制御部234Bが実現される。情報処理装置23Bの各機能部は、対応する情報処理装置23Aの機能部と同様の機能を有する。
・効果音制御サーバ112の構成
 効果音制御サーバ112においては制御部251と通信制御部252が実現される。
 制御部251は、通信制御部252を制御し、情報処理装置23Aと情報処理装置23Bの間の情報の送受信を制御する。
 例えば、制御部251は、ユーザAが仮想物体を投げたタイミングを示す情報と加速度の情報が情報処理装置23Aから送信されてきた場合、それらの情報を情報処理装置23Bに送信させる。また、制御部251は、ユーザBが仮想物体を投げたタイミングを示す情報と加速度の情報が情報処理装置23Bから送信されてきた場合、それらの情報を情報処理装置23Aに送信させる。仮想物体を投げたタイミングを示す情報などの送信タイミングが、テレプレゼンスシステム151の遅延などに応じて制御部251により制御される。
 制御部251は、ユーザAの行動に応じた効果音を、ユーザAがいる空間に設けられた効果音用スピーカ22Aから出力させ、ネットワークを介して送受信される映像と音声を用いたコミュニケーションをユーザAとの間で行うユーザBの行動に応じた効果音を、ユーザBがいる空間に設けられた効果音用スピーカ22Bから出力させる制御部として機能する。制御部251を有する効果音制御サーバ112は制御装置として機能する。
 通信制御部252は、制御部251の制御に従って、情報処理装置23Aから送信されてきた情報を情報処理装置23Bに送信する。また、通信制御部252は、情報処理装置23Bから送信されてきた情報を情報処理装置23Aに送信する。
<<各装置の動作>>
 ここで、効果音システム152の各装置の動作について説明する。なお、仮想キャッチボールをユーザAとユーザBが行っている間、テレプレゼンスシステム151においては映像と音声の送受信が続けられる。
<スローイング側の動作>
 はじめに、図18のフローチャートを参照して、スローイング側の情報処理装置23の処理について説明する。スローイング側のユーザがユーザAである場合について説明する。図18の処理は、例えば、ユーザAが携帯端末11Aのボタンを押したときに開始される。
 ステップS1において、センサデータ取得部231Aは、携帯端末11Aから送信された、加速度の計測結果を示すセンサデータを取得する。
 ステップS2において、効果音出力制御部233Aは、加速度に応じた腕振り音を効果音用スピーカ22Aから出力させる。
 ステップS3において、効果音出力制御部233Aは、操作検出部232Aから供給された情報に基づいて、ユーザAがボタンを離したか否かを判定する。ユーザAがボタンを離していないと判定された場合、ステップS1に戻り、それ以降の処理が繰り返される。
 ユーザAがボタンを離したとステップS3において判定された場合、ステップS4に進み、効果音出力制御部233Aは、リリース音を効果音用スピーカ22Aから出力させる。
 ステップS5において、効果音出力制御部233Aは、仮想物体の速度を加速度に基づいて算出する。
 ステップS6において、効果音出力制御部233Aは、速度に応じたタイミングで、飛翔音を効果音用スピーカ22Aから出力させる。
 ステップS7において、通信制御部234Aは、ユーザAが仮想物体を投げたタイミングを示す情報と加速度の情報を効果音制御サーバ112に送信する。
<キャッチング側の動作>
 次に、図19のフローチャートを参照して、キャッチング側の情報処理装置23の処理について説明する。キャッチング側のユーザがユーザBである場合について説明する。図19の処理は、例えば、ユーザAが仮想物体を投げたタイミングを示す情報などが、効果音制御サーバ112を介して送信されてきたときに開始される。
 ステップS11において、効果音出力制御部233Bは、情報処理装置23Aにおいて取得された加速度に基づいて仮想物体の速度を算出し、速度に応じたタイミングで、ガイド音を効果音用スピーカ22Bから出力させる。
 ステップS12において、効果音出力制御部233Bは、操作検出部232Bから供給された情報に基づいて、ユーザBがボタンを押したか否かを判定する。ユーザBがボタンを押していないと判定された場合、ステップS11に戻り、それ以降の処理が繰り返される。
 一方、ユーザBがボタンを押したとステップS12において判定した場合、ステップS13において、効果音出力制御部233Bは、キャッチ音を効果音用スピーカ22Bから出力させる。
<効果音制御サーバ112の動作>
 次に、図20のフローチャートを参照して、効果音制御サーバ112の処理について説明する。
 ステップS21において、通信制御部252は、スローイング側の情報処理装置23から送信されてきた情報を受信する。
 ステップS22において、通信制御部252は、映像と音声の遅延に応じたタイミングで、受信した情報をキャッチング側の情報処理装置23に対して送信する。
 以上の一連の処理により、ユーザは、スローイング側の効果音とキャッチング側の効果音を聞き分け、臨場感のある仮想キャッチボールを楽しむことができる。
<<変形例>>
<システム構成の例>
 図21は、仮想キャッチボールシステム1の他の構成例を示す図である。
 図21の例においては、テレプレゼンスシステム151と効果音システム152が連携可能となっている点で、図7等を参照して説明した仮想キャッチボールシステム1の構成と異なる。矢印A101に示すように、テレプレゼンスシステム151のコミュニケーション管理サーバ111から効果音システム152の効果音制御サーバ112に対して、映像と音声の遅延に関する情報である遅延情報が送信される。
 効果音制御サーバ112の制御部251は、コミュニケーション管理サーバ111から送信されてきた遅延情報を受信し、一方の情報処理装置23から送信されてきた情報の、他方の情報処理装置23に対する送信タイミングを制御する。
 例えば、仮想物体を投げるユーザの姿が表示された後にガイド音の出力が開始されるように、キャッチング側におけるガイド音の出力開始タイミングを規定する上述した調整値が遅延情報に基づいて設定される。
 図22は、仮想キャッチボールシステム1の他の構成例を示す図である。
 以上においては、情報処理装置23がクライアントとなり、仮想物体を投げたタイミングを示す情報などの送受信が効果音制御サーバ112を介して行われるものとしたが、情報処理装置23Aと情報処理装置23Bのうちの一方がマスタ、他方がスレーブとして動作して、上述した処理が行われるようにしてもよい。
 図22の例においては、情報処理装置23Aがマスタ、情報処理装置23Bがスレーブとして動作する。情報処理装置23Aは、ユーザAがいる空間における効果音の出力を上述したようにして制御する。また、情報処理装置23Aは、スレーブとして機能する情報処理装置23Bに対してコマンドを送信し、ユーザBがいる空間における効果音の出力を制御する。コマンドの送信タイミングは、情報処理装置23Aと情報処理装置23Bの間の遅延を考慮して調整される。情報処理装置23Aは、ユーザAがいる空間における効果音の出力とユーザBがいる空間における効果音の出力を制御する制御装置として機能する。
 図23は、仮想キャッチボールシステム1の他の構成例を示す図である。
 図23の例においては、情報処理装置23Aの機能がコミュニケーション装置21Aに搭載され、情報処理装置23Bの機能がコミュニケーション装置21Bに搭載される。例えば、図17を参照して説明したコミュニケーション装置21Aの各機能部が、図16の制御装置201Aに設けられる。また、コミュニケーション装置21Bの各機能部が、図16の制御装置201Bに設けられる。
 このように、テレプレゼンスシステム151のユーザA側の構成と効果音システム152のユーザA側の構成を一つの装置に設けるとともに、テレプレゼンスシステム151のユーザB側の構成と効果音システム152のユーザB側の構成を一つの装置に設けるようにすることが可能である。
 情報処理装置23の機能が携帯端末11に設けられるようにすることが可能である。この場合、情報処理装置23の機能を有する携帯端末11は、効果音制御サーバ112と通信を行い、仮想物体を投げたタイミングを示す情報の送受信などを行うことになる。
 また、効果音制御サーバ112が送信するコマンドに従って、スローイング側の効果音とキャッチング側の効果音のそれぞれの効果音の出力が情報処理装置23により行われるようにしてもよい。例えば、仮想物体をユーザが投げた場合、そのことを表す情報がスローイング側の情報処理装置23から効果音制御サーバ112に対して送信され、効果音制御サーバ112が送信するコマンドに従って、飛翔音の出力が開始される。
<その他の例>
 ユーザが使用するデバイスがスマートフォンなどの端末であるものとしたが、加速度センサを搭載した専用のセンサデバイスが用いられるようにしてもよい。専用のセンサデバイスに触覚センサが設けられる場合、ユーザ自身の動作や相手の動作に応じた振動などがセンサデバイスを持っているユーザに与えられるようにしてもよい。
 効果音の出力用のスピーカとして複数台のスピーカが設けられるものとしたが、効果音用スピーカ22が1台のスピーカによって構成されるようにしてもよい。この場合、仮想的な音源位置を移動させることによって、上述したような、飛翔音やガイド音の音源位置の移動が実現される。
 スローイングやキャッチングなどのユーザの行動が、携帯端末11のボタン操作に基づいて検出されるものとしたが、ユーザが装着するセンサによる計測結果に基づいて検出されるようにしてもよい。また、カメラにより撮影された映像を解析することによってユーザの行動が検出されるようにしてもよい。
 以上においては、スローイング側のユーザがいる空間において出力される効果音が腕振り音、リリース音、飛翔音の3種類の効果音であり、キャッチング側のユーザがいる空間において出力される効果音がガイド音とキャッチ音の2種類の効果音であるものとしたが、それぞれの空間において出力されるこの効果音の組み合わせは一例である。
 例えば、スローイング側のユーザがいる空間において腕振り音とリリース音の2種類の効果音が出力され、キャッチング側のユーザがいる空間において飛翔音、ガイド音、キャッチ音の3種類の効果音が出力されるようにすることが可能である。飛翔音がスローイング側のユーザがいる空間とキャッチング側のユーザがいる空間のいずれかの空間において出力されるといったように、それぞれの空間において出力される効果音の組み合わせを任意の組み合わせとすることが可能である。
・コンピュータの構成例
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
 図24は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。情報処理装置23、コミュニケーション管理サーバ111、効果音制御サーバ112、制御装置201は、図24に示す構成と同様の構成を有する。
 CPU(Central Processing Unit)1001、ROM(Read Only Memory)1002、RAM(Random Access Memory)1003は、バス1004により相互に接続されている。
 バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、キーボード、マウスなどよりなる入力部1006、ディスプレイ、スピーカなどよりなる出力部1007が接続される。また、入出力インタフェース1005には、ハードディスクや不揮発性のメモリなどよりなる記憶部1008、ネットワークインタフェースなどよりなる通信部1009、リムーバブルメディア1011を駆動するドライブ1010が接続される。
 以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを入出力インタフェース1005及びバス1004を介してRAM1003にロードして実行することにより、上述した一連の処理が行われる。
 CPU1001が実行するプログラムは、例えばリムーバブルメディア1011に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部1008にインストールされる。
 コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
<構成の組み合わせ例>
 本技術は、以下のような構成をとることもできる。
(1)
 第1のユーザの行動に応じた第1の効果音を、前記第1のユーザがいる空間に設けられた第1の効果音用スピーカから出力させ、
 ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第1のユーザとの間で行う第2のユーザの行動に応じた第2の効果音として、前記第1の効果音と異なる効果音を、前記第2のユーザがいる空間に設けられた第2の効果音用スピーカから出力させる
 制御部を備える
 制御装置。
(2)
 前記制御部は、前記第1の効果音と前記第2の効果音をそれぞれ異なるタイミングで出力させる
 前記(1)に記載の制御装置。
(3)
 前記制御部は、
 前記第1のユーザがいる空間において移動する仮想物体を表現する音を前記第1の効果音として出力させ、
 前記第2のユーザがいる空間において移動する前記仮想物体を表現する音を前記第2の効果音として出力させる
 前記(1)または(2)に記載の制御装置。
(4)
 前記第1の効果音用スピーカと前記第2の効果音用スピーカは、それぞれ複数のスピーカから構成され、
 前記制御部は、
 前記第1のユーザから離れる前記仮想物体を表現する前記第1の効果音を出力させるスピーカを、前記第1のユーザに近い位置にあるスピーカから、前記第1のユーザから遠い位置にあるスピーカに順に切り替え、
 前記第2のユーザに近付く前記仮想物体を表現する前記第2の効果音を出力させるスピーカを、前記第2のユーザから遠い位置にあるスピーカから、前記第2のユーザに近い位置にあるスピーカに順に切り替える
 前記(3)に記載の制御装置。
(5)
 前記制御部は、前記第1のユーザの行動に応じた行動を前記第2のユーザが行う場合、前記映像と前記音声の遅延に応じて、前記第2の効果音の出力タイミングを遅延させる
 前記(1)乃至(4)のいずれかに記載の制御装置。
(6)
 前記制御部は、前記第1のユーザがいる空間と前記第2のユーザがいる空間にそれぞれ設けられたコミュニケーション装置間における前記映像と前記音声の送受信を制御するサーバから、前記映像と前記音声の遅延に関する情報を取得する
 前記(5)に記載の制御装置。
(7)
 制御装置が、
 第1のユーザの行動に応じた第1の効果音を、前記第1のユーザがいる空間に設けられた第1の効果音用スピーカから出力させ、
 ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第1のユーザとの間で行う第2のユーザの行動に応じた第2の効果音として、前記第1の効果音と異なる効果音を、前記第2のユーザがいる空間に設けられた第2の効果音用スピーカから出力させる
 制御方法。
(8)
 コンピュータに、
 第1のユーザの行動に応じた第1の効果音を、前記第1のユーザがいる空間に設けられた第1の効果音用スピーカから出力させ、
 ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第1のユーザとの間で行う第2のユーザの行動に応じた第2の効果音として、前記第1の効果音と異なる効果音を、前記第2のユーザがいる空間に設けられた第2の効果音用スピーカから出力させる
 処理を実行させるプログラム。
(9)
 第1のユーザの行動を検出する検出部と、
 前記第1のユーザの行動に応じた第1の効果音を、前記第1のユーザがいる空間に設けられた第1の効果音用スピーカから出力させる出力制御部と、
 ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第1のユーザとの間で行う第2のユーザの行動に応じた第2の効果音として、前記第1の効果音と異なる効果音を、前記第2のユーザがいる空間に設けられた第2の効果音用スピーカから出力させる他の情報処理装置に対して、前記第1のユーザが所定の行動をとったタイミングを示す情報を送信する通信制御部と
 を備える情報処理装置。
(10)
 前記検出部は、前記第1のユーザが持つデバイスから送信されてきた情報に基づいて、前記第1のユーザの行動を検出する
 前記(9)に記載の情報処理装置。
(11)
 前記出力制御部は、前記第2の効果音の出力タイミングと異なるタイミングで前記第1の効果音を出力させる
 前記(9)または(10)に記載の情報処理装置。
(12)
 前記出力制御部は、前記第1のユーザがいる空間において移動する仮想物体を表現する音を前記第1の効果音として出力させる
 前記(9)乃至(11)のいずれかに記載の情報処理装置。
(13)
 前記第1の効果音用スピーカは複数のスピーカから構成され、
 前記出力制御部は、
 前記第1のユーザから離れる前記仮想物体を表現する前記第1の効果音を出力させるスピーカを、前記第1のユーザに近い位置にあるスピーカから、前記第1のユーザから遠い位置にあるスピーカに順に切り替える
 前記(12)に記載の情報処理装置。
(14)
 情報処理装置が、
 第1のユーザの行動を検出し、
 前記第1のユーザの行動に応じた第1の効果音を、前記第1のユーザがいる空間に設けられた第1の効果音用スピーカから出力させ、
 ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第1のユーザとの間で行う第2のユーザの行動に応じた第2の効果音として、前記第1の効果音と異なる効果音を、前記第2のユーザがいる空間に設けられた第2の効果音用スピーカから出力させる他の情報処理装置に対して、前記第1のユーザが所定の行動をとったタイミングを示す情報を送信する
 情報処理方法。
(15)
 コンピュータに、
 第1のユーザの行動を検出し、
 前記第1のユーザの行動に応じた第1の効果音を、前記第1のユーザがいる空間に設けられた第1の効果音用スピーカから出力させ、
 ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第1のユーザとの間で行う第2のユーザの行動に応じた第2の効果音として、前記第1の効果音と異なる効果音を、前記第2のユーザがいる空間に設けられた第2の効果音用スピーカから出力させる他の情報処理装置に対して、前記第1のユーザが所定の行動をとったタイミングを示す情報を送信する
 処理を実行させるプログラム。
 1 仮想キャッチボールシステム, 11A,11B 携帯端末, 21A,21B コミュニケーション装置, 22A,22B 効果音用スピーカ, 23A,23B 情報処理装置, 31A,31B ディスプレイ, 32A,32B カメラ, 33A,33B マイク, 34A,34B マイク, 111 コミュニケーション管理サーバ, 112 効果音制御サーバ, 151 テレプレゼンスシステム, 152 効果音システム, 201A,201B 制御装置, 211A,211B 映像取得部, 212A,212B 音声取得部, 213A,213B 表示制御部, 214A,214B 音声出力制御部, 231A,231B センサデータ取得部, 232A,232B 操作検出部, 233A,233B 効果音出力制御部, 234A,234B 通信制御部, 251 制御部, 252 通信制御部

Claims (15)

  1.  第1のユーザの行動に応じた第1の効果音を、前記第1のユーザがいる空間に設けられた第1の効果音用スピーカから出力させ、
     ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第1のユーザとの間で行う第2のユーザの行動に応じた第2の効果音として、前記第1の効果音と異なる効果音を、前記第2のユーザがいる空間に設けられた第2の効果音用スピーカから出力させる
     制御部を備える
     制御装置。
  2.  前記制御部は、前記第1の効果音と前記第2の効果音をそれぞれ異なるタイミングで出力させる
     請求項1に記載の制御装置。
  3.  前記制御部は、
     前記第1のユーザがいる空間において移動する仮想物体を表現する音を前記第1の効果音として出力させ、
     前記第2のユーザがいる空間において移動する前記仮想物体を表現する音を前記第2の効果音として出力させる
     請求項1に記載の制御装置。
  4.  前記第1の効果音用スピーカと前記第2の効果音用スピーカは、それぞれ複数のスピーカから構成され、
     前記制御部は、
     前記第1のユーザから離れる前記仮想物体を表現する前記第1の効果音を出力させるスピーカを、前記第1のユーザに近い位置にあるスピーカから、前記第1のユーザから遠い位置にあるスピーカに順に切り替え、
     前記第2のユーザに近付く前記仮想物体を表現する前記第2の効果音を出力させるスピーカを、前記第2のユーザから遠い位置にあるスピーカから、前記第2のユーザに近い位置にあるスピーカに順に切り替える
     請求項3に記載の制御装置。
  5.  前記制御部は、前記第1のユーザの行動に応じた行動を前記第2のユーザが行う場合、前記映像と前記音声の遅延に応じて、前記第2の効果音の出力タイミングを遅延させる
     請求項1に記載の制御装置。
  6.  前記制御部は、前記第1のユーザがいる空間と前記第2のユーザがいる空間にそれぞれ設けられたコミュニケーション装置間における前記映像と前記音声の送受信を制御するサーバから、前記映像と前記音声の遅延に関する情報を取得する
     請求項5に記載の制御装置。
  7.  制御装置が、
     第1のユーザの行動に応じた第1の効果音を、前記第1のユーザがいる空間に設けられた第1の効果音用スピーカから出力させ、
     ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第1のユーザとの間で行う第2のユーザの行動に応じた第2の効果音として、前記第1の効果音と異なる効果音を、前記第2のユーザがいる空間に設けられた第2の効果音用スピーカから出力させる
     制御方法。
  8.  コンピュータに、
     第1のユーザの行動に応じた第1の効果音を、前記第1のユーザがいる空間に設けられた第1の効果音用スピーカから出力させ、
     ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第1のユーザとの間で行う第2のユーザの行動に応じた第2の効果音として、前記第1の効果音と異なる効果音を、前記第2のユーザがいる空間に設けられた第2の効果音用スピーカから出力させる
     処理を実行させるプログラム。
  9.  第1のユーザの行動を検出する検出部と、
     前記第1のユーザの行動に応じた第1の効果音を、前記第1のユーザがいる空間に設けられた第1の効果音用スピーカから出力させる出力制御部と、
     ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第1のユーザとの間で行う第2のユーザの行動に応じた第2の効果音として、前記第1の効果音と異なる効果音を、前記第2のユーザがいる空間に設けられた第2の効果音用スピーカから出力させる他の情報処理装置に対して、前記第1のユーザが所定の行動をとったタイミングを示す情報を送信する通信制御部と
     を備える情報処理装置。
  10.  前記検出部は、前記第1のユーザが持つデバイスから送信されてきた情報に基づいて、前記第1のユーザの行動を検出する
     請求項9に記載の情報処理装置。
  11.  前記出力制御部は、前記第2の効果音の出力タイミングと異なるタイミングで前記第1の効果音を出力させる
     請求項9に記載の情報処理装置。
  12.  前記出力制御部は、前記第1のユーザがいる空間において移動する仮想物体を表現する音を前記第1の効果音として出力させる
     請求項9に記載の情報処理装置。
  13.  前記第1の効果音用スピーカは複数のスピーカから構成され、
     前記出力制御部は、
     前記第1のユーザから離れる前記仮想物体を表現する前記第1の効果音を出力させるスピーカを、前記第1のユーザに近い位置にあるスピーカから、前記第1のユーザから遠い位置にあるスピーカに順に切り替える
     請求項12に記載の情報処理装置。
  14.  情報処理装置が、
     第1のユーザの行動を検出し、
     前記第1のユーザの行動に応じた第1の効果音を、前記第1のユーザがいる空間に設けられた第1の効果音用スピーカから出力させ、
     ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第1のユーザとの間で行う第2のユーザの行動に応じた第2の効果音として、前記第1の効果音と異なる効果音を、前記第2のユーザがいる空間に設けられた第2の効果音用スピーカから出力させる他の情報処理装置に対して、前記第1のユーザが所定の行動をとったタイミングを示す情報を送信する
     情報処理方法。
  15.  コンピュータに、
     第1のユーザの行動を検出し、
     前記第1のユーザの行動に応じた第1の効果音を、前記第1のユーザがいる空間に設けられた第1の効果音用スピーカから出力させ、
     ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第1のユーザとの間で行う第2のユーザの行動に応じた第2の効果音として、前記第1の効果音と異なる効果音を、前記第2のユーザがいる空間に設けられた第2の効果音用スピーカから出力させる他の情報処理装置に対して、前記第1のユーザが所定の行動をとったタイミングを示す情報を送信する
     処理を実行させるプログラム。
PCT/JP2023/023473 2022-07-13 2023-06-26 制御装置、制御方法、情報処理装置、情報処理方法、およびプログラム WO2024014266A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-112557 2022-07-13
JP2022112557 2022-07-13

Publications (1)

Publication Number Publication Date
WO2024014266A1 true WO2024014266A1 (ja) 2024-01-18

Family

ID=89536441

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/023473 WO2024014266A1 (ja) 2022-07-13 2023-06-26 制御装置、制御方法、情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
WO (1) WO2024014266A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004267433A (ja) * 2003-03-07 2004-09-30 Namco Ltd 音声チャット機能を提供する情報処理装置、サーバおよびプログラム並びに記録媒体
JP2005253871A (ja) * 2004-03-15 2005-09-22 Vr Sports:Kk 通信対戦型バーチャルリアリティテニスゲームシステム
JP2009536406A (ja) * 2006-05-07 2009-10-08 株式会社ソニー・コンピュータエンタテインメント ゲームプレイ中にコンピュータ生成アバターに感情的特徴を与える方法
JP2012533134A (ja) * 2009-07-13 2012-12-20 マイクロソフト コーポレーション ユーザーから学習した入力を介し視覚表示を実写のようにする方法及びシステム
JP2014135000A (ja) * 2013-01-11 2014-07-24 Sony Computer Entertainment Inc 情報処理装置、情報処理方法、携帯端末、およびサーバ
JP2015080087A (ja) * 2013-10-17 2015-04-23 富士通株式会社 音声処理装置、音声処理方法、及びプログラム
JP2019053392A (ja) * 2017-09-13 2019-04-04 株式会社コロプラ 情報処理方法、コンピュータ、及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004267433A (ja) * 2003-03-07 2004-09-30 Namco Ltd 音声チャット機能を提供する情報処理装置、サーバおよびプログラム並びに記録媒体
JP2005253871A (ja) * 2004-03-15 2005-09-22 Vr Sports:Kk 通信対戦型バーチャルリアリティテニスゲームシステム
JP2009536406A (ja) * 2006-05-07 2009-10-08 株式会社ソニー・コンピュータエンタテインメント ゲームプレイ中にコンピュータ生成アバターに感情的特徴を与える方法
JP2012533134A (ja) * 2009-07-13 2012-12-20 マイクロソフト コーポレーション ユーザーから学習した入力を介し視覚表示を実写のようにする方法及びシステム
JP2014135000A (ja) * 2013-01-11 2014-07-24 Sony Computer Entertainment Inc 情報処理装置、情報処理方法、携帯端末、およびサーバ
JP2015080087A (ja) * 2013-10-17 2015-04-23 富士通株式会社 音声処理装置、音声処理方法、及びプログラム
JP2019053392A (ja) * 2017-09-13 2019-04-04 株式会社コロプラ 情報処理方法、コンピュータ、及びプログラム

Similar Documents

Publication Publication Date Title
US10911882B2 (en) Methods and systems for generating spatialized audio
US10105594B2 (en) Wearable garments recognition and integration with an interactive gaming system
CN107852485A (zh) 投影单元
JP5553446B2 (ja) アミューズメントシステム
JP2005346705A (ja) 通信システムにおける多感覚エモティコン
EP3226579B1 (en) Information-processing device, information-processing system, control method, and program
US11109177B2 (en) Methods and systems for simulating acoustics of an extended reality world
JP6329994B2 (ja) ゲームプログラムおよびゲームシステム
JP7465019B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
US11399253B2 (en) System and methods for vocal interaction preservation upon teleportation
JP2023542968A (ja) 定位されたフィードバックによる聴力増強及びウェアラブルシステム
CN110989900B (zh) 交互对象的驱动方法、装置、设备以及存储介质
JP5206151B2 (ja) 音声入力ロボット、遠隔会議支援システム、遠隔会議支援方法
US11275554B2 (en) Information processing apparatus, information processing method, and program
WO2024014266A1 (ja) 制御装置、制御方法、情報処理装置、情報処理方法、およびプログラム
JP2019067222A (ja) 仮想現実を提供するためにコンピュータで実行されるプログラムおよび情報処理装置
JP7124715B2 (ja) 情報処理装置、および情報処理方法、並びにプログラム
KR20230133864A (ko) 스피치 오디오 스트림 중단들을 처리하는 시스템들및 방법들
WO2018198790A1 (ja) コミュニケーション装置、コミュニケーション方法、プログラム、およびテレプレゼンスシステム
US20230362571A1 (en) Information processing device, information processing terminal, information processing method, and program
JP2006094315A (ja) 立体音響再生システム
JP6410346B2 (ja) 遠隔意思疎通装置及びプログラム
JP7087779B2 (ja) 端末装置、会議システム、端末装置の制御方法、及びプログラム
JP5529617B2 (ja) 遠隔会議装置、遠隔会議方法、および遠隔会議プログラム
US20240031758A1 (en) Information processing apparatus, information processing terminal, information processing method, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23839440

Country of ref document: EP

Kind code of ref document: A1