WO2024111646A1 - 立体音響生成装置、立体音響再生装置、立体音響生成方法、立体音響生成プログラム、および、記録媒体 - Google Patents

立体音響生成装置、立体音響再生装置、立体音響生成方法、立体音響生成プログラム、および、記録媒体 Download PDF

Info

Publication number
WO2024111646A1
WO2024111646A1 PCT/JP2023/042057 JP2023042057W WO2024111646A1 WO 2024111646 A1 WO2024111646 A1 WO 2024111646A1 JP 2023042057 W JP2023042057 W JP 2023042057W WO 2024111646 A1 WO2024111646 A1 WO 2024111646A1
Authority
WO
WIPO (PCT)
Prior art keywords
stereophonic
sound
user
data
audio
Prior art date
Application number
PCT/JP2023/042057
Other languages
English (en)
French (fr)
Inventor
由季菜 稲田
史奈 小見山
Original Assignee
Toppanホールディングス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toppanホールディングス株式会社 filed Critical Toppanホールディングス株式会社
Publication of WO2024111646A1 publication Critical patent/WO2024111646A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/54Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/65Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor automatically by game devices or servers from real world data, e.g. measurement in live racing competition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • This disclosure relates to a stereophonic sound generating device, a stereophonic sound reproducing device, a stereophonic sound generating method, a stereophonic sound generating program, and a recording medium.
  • a stereophonic system reproduces sound so that the user can recognize the direction, distance, spread, etc. of the sound in three dimensions.
  • the system described in Patent Document 1 has multiple speakers arranged to surround the user, who is the player of the game, and creates a three-dimensional sound field by controlling the output of each speaker according to the movement of the character operated by the user.
  • a stereophonic generation device comprising: a drawing management unit that places an object within a virtual space in accordance with instructions from a first user via an input device; and a data generation unit that generates stereophonic data for a selected sound, with the emission position of the sound set to match the position of the object.
  • the above configuration allows the sound emission position to be determined three-dimensionally based on the arrangement of objects in three-dimensional space, making it possible to create stereophonic sound through intuitive actions.
  • [Aspect 2] The stereophonic generating device described in [Aspect 1], wherein the drawing management unit places an object in the virtual space as the object, the object indicating a trajectory of movement corresponding to the instruction from the first user, and the data generation unit generates the stereophonic data by setting the emission position of the sound so that it moves along the object.
  • the sound emission position can be defined three-dimensionally by drawing lines, points, etc. in a three-dimensional space, so that stereophonic sound can be created by intuitive operations.
  • a stereophonic generation device as described in [Aspect 2] or [Aspect 3], wherein the stereophonic data includes information specifying a playback speed of the audio, and the data generation unit generates the stereophonic data by setting the playback speed of the audio to a speed corresponding to the speed of the movement.
  • the playback speed of the audio is set according to the speed of the movement for drawing the trajectory, so that the playback speed can be determined by an intuitive action.
  • a stereophonic generating device as described in any one of [Aspect 2] to [Aspect 4], wherein the data generation unit sets the emission position of each of a plurality of sounds so that the sound moves along the object for each sound, and generates the stereophonic data configured so that the plurality of sounds are output in an overlapping manner.
  • the data generation unit sets the emission position of each of a plurality of sounds so that the sound moves along the object for each sound, and generates the stereophonic data configured so that the plurality of sounds are output in an overlapping manner.
  • the stereophonic generating device described in any one of [Aspect 1] to [Aspect 5] further includes a playback control unit that instructs an audio output unit of an output device to play the audio at a volume that corresponds to the set origination position based on the stereophonic data. According to the above configuration, the created stereophonic sound can be easily checked, improving user convenience.
  • the change in the transmission position can be visually grasped, so that the created stereophonic sound can be more intuitively grasped.
  • a stereophonic playback device that controls audio playback using the stereophonic data generated by the stereophonic generation device described in any one of [Aspect 1] to [Aspect 7], comprising: a position management unit that acquires the position of the second user in a real space, which is a space in which the second user actually exists, and associates the position of the real space with a position of the virtual space; and a playback control unit that instructs an audio output unit of an output device to play the audio at a volume corresponding to the relationship between the corresponding origination position and the position of the second user, where the position of the real space corresponding to the origination position of the audio in the virtual space is a corresponding origination position.
  • audio is played back at a volume that corresponds to the user's position in real space, giving the user the impression that the environment in which the user is located is linked to the audio playback situation. This enhances the user's sense of realism.
  • the playback control unit instructs the audio output unit to switch playback from a first audio to a second audio, the second audio being audio played using the stereophonic data, and the specific position in the real space is the corresponding transmission position for the second audio.
  • This is the stereophonic playback device described in [Aspect 11].
  • a stereophonic generation method in which one or more computers place objects in a virtual space in accordance with instructions from a first user via an input device, and generate stereophonic data for a selected sound in which the sound's emission position is set to match the position of the object.
  • the above method allows the sound emission position to be determined three-dimensionally based on the arrangement of objects in three-dimensional space, making it possible to create stereophonic sound through intuitive actions.
  • a stereophonic generation program that causes one or more computers to place objects within a virtual space in accordance with instructions from a first user via an input device, and generate stereophonic data for a selected sound, in which the emission position of the sound is set to match the position of the object.
  • a computer-readable recording medium having recorded thereon the stereophonic sound generation program according to [Aspect 14].
  • the above configuration allows the sound emission position to be determined three-dimensionally based on the arrangement of objects in three-dimensional space, making it possible to create stereophonic sound through intuitive actions.
  • users can create stereophonic sound through intuitive actions.
  • FIG. 1 is a diagram showing the overall configuration of a stereophonic system according to an embodiment
  • FIG. 2 is a diagram showing the functional configuration of a control device of the stereophonic sound generating device according to an embodiment.
  • FIG. 2 is a diagram showing an example of the hardware configuration of a control device of the stereophonic sound generating device according to an embodiment.
  • 3 is a diagram showing a processing procedure of the stereophonic sound generating device according to an embodiment;
  • FIG. 2 is a diagram showing an example of a screen displayed by the stereophonic sound generating device according to an embodiment.
  • FIG. 2 is a diagram illustrating the process of the stereophonic sound generating device according to the embodiment.
  • FIG. 2 is a diagram showing the functional configuration of a control device of the stereophonic sound reproduction device according to an embodiment.
  • FIG. 2 is a diagram showing an example of the hardware configuration of a control device of the stereophonic sound reproduction device according to an embodiment.
  • 3 is a flowchart showing a processing procedure of the stereophonic sound reproduction device according to an embodiment.
  • FIG. 2 is a diagram showing an example of a screen displayed by the stereophonic sound reproduction device according to the embodiment.
  • 3 is a flowchart showing a processing procedure of the stereophonic sound reproduction device according to an embodiment.
  • the stereophonic system 100 includes a stereophonic generating device 10 and a stereophonic reproducing device 50.
  • the stereophonic generating device 10 is a device that generates stereophonic data
  • the stereophonic reproducing device 50 is a device that reproduces sound based on the stereophonic data.
  • the stereophonic data includes at least sound information and position information.
  • the sound information is information that indicates the flow of changes in pitch and length of sound, in other words, music data such as songs and natural sounds.
  • the position information is information that indicates the position of the source of sound indicated by the sound information in three-dimensional space. Note that the user of the stereophonic generating device 10 and the user of the stereophonic reproducing device 50 may be the same person or different people.
  • the stereophonic sound generating device 10 comprises a control device 20, an input device 30, and an output device 40.
  • the input device 30 accepts instructions input by the user's actions and sends a signal corresponding to the input to the control device 20.
  • the user's actions include operations on the input device 30 such as pressing a button, and physical movements such as gestures and hand movements.
  • the output device 40 includes a display unit and an audio output unit, and upon receiving data and signals from the control device 20, displays an image on the display unit and outputs audio from the audio output unit.
  • the control device 20 generates a virtual space and displays it on the display unit of the output device 40, and generates stereophonic data based on the user's instructions for the virtual space received from the input device 30.
  • the control device 20, the input device 30, and the output device 40 may be assembled together, or at least some of the components of these devices may be arranged separately from the other components.
  • the control device 20 and the components of the input device 30 and the output device 40 may be connected by wire or wirelessly. Communication via a network such as the Internet or short-range wireless communication such as Bluetooth (registered trademark) may be used to exchange signals and data between the control device 20 and the components of the input device 30 and the output device 40.
  • a network such as the Internet or short-range wireless communication such as Bluetooth (registered trademark)
  • Bluetooth registered trademark
  • the stereophonic sound generating device 10 may also include a position detection device that detects the position and posture of the user.
  • the position detection device sends a signal corresponding to the detected position and posture to the control device 20.
  • an example in which the control device 20 and the output device 40 are integrated is a head-mounted display for VR (Virtual Reality).
  • a controller attached to the head-mounted display is the input device 30, and the stereophonic sound generating device 10 also includes the position detection device.
  • the position detection device includes an inertial sensor, an infrared emitting device and its light receiving device, and a device for head tracking such as a camera.
  • the input device 30 is configured to be able to detect bodily movements such as gestures and hand movements as well as operations on the input device 30 as user actions, and includes an inertial sensor, an infrared emitting device and its light receiving device, and a device for motion capture such as a camera. Note that the input device 30 may also serve as at least a part of the position detection device.
  • the stereophonic sound generating device 10 may be a head-mounted display in which the control device 20, input device 30, and output device 40 are integrated. In this case, the stereophonic sound generating device 10 does not need to have a controller separate from the head-mounted display.
  • the input device 30 detects the line of sight of a user wearing the head-mounted display, and selects a menu area or an object in a virtual space displayed on the output device 40 provided in the head-mounted display. Also, for example, the input device 30 detects the movement of the user's hands or fingers, and deforms or moves the menu area or the object in the virtual space.
  • Such an input device 30 may include a camera provided in the head-mounted display.
  • the control device 20 may also be a server, a personal computer, a smartphone, etc. If the control device 20 is a server, the input device 30 and output device 40 for each user can be used to generate stereophonic data in parallel for each of multiple users.
  • the input device 30 may also be a mouse, keyboard, touch panel, etc.
  • the display unit of the output device 40 may include a display panel such as a liquid crystal panel, and the audio output unit of the output device 40 may be a speaker, earphones, headphones, etc.
  • the stereophonic sound reproduction device 50 comprises a control device 60, a position detection device 70, an input device 80, and an output device 90.
  • the position detection device 70 detects the position and orientation of the user in real space, and sends a signal corresponding to the detected position and orientation to the control device 60.
  • the position detection device 70 is carried or worn by the user, and detects the position and orientation of the position detection device 70 as the user's position and orientation.
  • the position detection device 70 may be attached above the user, such as on the ceiling of the facility where the stereophonic sound is reproduced, and detects the user's position and orientation.
  • the input device 80 receives instructions input by the user's actions and sends a signal corresponding to the input to the control device 60.
  • the output device 90 includes a display section and an audio output section, and receives data and signals from the control device 60, displays an image on the display section, and outputs audio from the audio output section. Specifically, the display section overlays an image of real space with an image based on data from the control device 60.
  • the image of real space may be an image transmitted through the display section, or may be an image captured by a capture section included in the stereophonic sound reproduction device 50, as long as it is an image of the real space around the user.
  • the control device 60 instructs the output device 90 to reproduce the stereophonic data based on the user's position and orientation in real space.
  • the control device 60, the position detection device 70, the input device 80, and the output device 90 may be assembled as a single unit, or at least some of the components of these devices may be arranged separately from the other components.
  • the control device 60 and the components of the position detection device 70, the input device 80, and the output device 90 may be connected by wire or wirelessly. Communication via a network such as the Internet or short-range wireless communication such as Bluetooth (registered trademark) may be used to exchange signals and data between the control device 60 and the components of the position detection device 70, the input device 80, and the output device 90.
  • a network such as the Internet or short-range wireless communication such as Bluetooth (registered trademark)
  • Bluetooth registered trademark
  • a smartphone or a tablet terminal is an example of a device in which the control device 60, position detection device 70, input device 80, and output device 90 are integrated.
  • the position detection device 70 includes an inertial sensor and an infrared emitting device and a light receiving device therefor, and the input device 80 includes a touch panel.
  • the display unit of the output device 90 may include a display panel such as a liquid crystal panel, and the audio output unit of the output device 90 may be a speaker, earphones, headphones, etc.
  • control device 60 may be a server. If the control device 60 is a server, the position detection device 70, input device 80, and output device 90 for each user can be used to play stereophonic data in parallel for each of multiple users.
  • the control device 60, position detection device 70, and output device 90 may be integrated into a head-mounted display for AR (Augmented Reality) or MR (Mixed Reality), and the input device 80 may also constitute a head-mounted display, or the input device 80 may be a controller. If the position detection device 70 is installed at a location away from the user, it is sufficient that the position detection device 70 includes an infrared emitting device, a light receiving device for the infrared emitting device, and a device for head tracking such as a camera.
  • the stereophonic sound generating device 10 and the stereophonic sound reproducing device 50 may be capable of transmitting and receiving data to each other via a network such as the Internet.
  • the stereophonic sound generating device 10 may then transmit the generated stereophonic sound data to the stereophonic sound reproducing device 50.
  • the control device 20 includes a control unit 21 and a storage unit 22. Furthermore, when the control device 20 communicates with the input device 30 or the output device 40, the control device 20 includes a communication unit 23.
  • the communication unit 23 performs communication processing between the control device 20 and the input device 30 or the output device 40, such as connecting with the communication destination device and sending and receiving data.
  • the control unit 21 executes the stereophonic generation program stored in the memory unit 22, thereby functioning as a virtual space management unit 21a, a drawing management unit 21b, a data generation unit 21c, and a playback control unit 21d.
  • the virtual space management unit 21a generates a virtual space VS.
  • the virtual space VS may be a space in which no objects are placed, or a space in which objects such as structures and natural objects according to the theme of the stereophonic sound to be created are placed.
  • the virtual space management unit 21a instructs the display unit of the output device 40 to display an image of the virtual space VS as seen from a viewpoint within the virtual space VS.
  • the virtual space management unit 21a also manages the placement of drawing objects, which are objects used when drawing lines in the virtual space VS.
  • the drawing objects include an operation object that is moved to draw a line, and a movement assist object that is used to expand the movement range of the operation object.
  • the virtual space management unit 21a also manages the display of a menu area for instructing audio selection and playback of the generated stereophonic data.
  • the drawing management unit 21b draws a line in the virtual space VS according to instructions from the user via the input device 30. In other words, the drawing management unit 21b generates a linear object at the position specified by the user. This linear object is the trajectory line TL. The drawing management unit 21b then records the position of the trajectory line TL in the virtual space VS and the drawing speed of the trajectory line TL that reflects the user's actions.
  • the data generating unit 21c generates stereophonic data based on the data of the target voice, which is the selected voice, and the position and drawing speed of the trajectory line TL.
  • the data generating unit 21c sets the emission position of the target voice so that it moves along the trajectory line TL, sets the playback speed of the target voice to a speed corresponding to the drawing speed, and generates stereophonic data including information indicating these settings.
  • the emission position of the target voice is set to three-dimensional coordinates that match the coordinates of the trajectory line TL.
  • the target audio is the audio that is the target of the specified calling location.
  • the stereophonic data generated by the data generating unit 21c includes audio information, location information, and playback speed information that indicates the playback speed of the audio.
  • the playback control unit 21d controls the playback of the stereophonic data generated by the data generation unit 21c.
  • the playback control unit 21d instructs the output device 40 to play the audio represented by the stereophonic data at a volume and speed that correspond to the set origination location.
  • the storage unit 22 stores various programs and data necessary for the control unit 21 to execute processing.
  • the storage unit 22 stores a stereophonic generation program as an example of such a program.
  • the storage unit 22 also stores virtual space data 22a and audio data 22b as examples of such data.
  • the virtual space data 22a includes data necessary for generating the virtual space VS, such as information about a three-dimensional Cartesian coordinate system set for the space, position information for objects to be placed in the space, and information for drawing.
  • the audio data 22b is data of audio that can be selected as a target audio.
  • the audio data 22b includes information corresponding to the above-mentioned audio information, and the audio represented by the audio data 22b does not have a transmission location set.
  • the audio data 22b may include sounds representing the sound of waves, sounds of seagulls crying and flapping wings, sounds of whales crying and moving, and the like.
  • the storage unit 22 also stores the stereophonic data generated by the data generating unit 21c.
  • the control device 20 is a computer device, and includes electronic circuits that are arithmetic devices such as a CPU (Central Processing Unit), MPU (Micro Processing Unit), and GPU (Graphics Processing Unit), memories such as ROM (Read Only Memory), RAM (Random Access Memory), registered memory, and unbuffered memory, and storage such as SSD (Solid State Drive) and HDD (Hard Disk Drive).
  • the arithmetic device loads the operating system and various programs from the storage into memory, and executes commands retrieved from the memory.
  • the control device 20 may include an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • control device 20 includes the communication unit 23
  • the control device 20 includes a communication interface.
  • the communication interface is implemented as hardware, software, or a combination of these.
  • FIG. 3 shows an example of the hardware configuration of the control device 20.
  • the control device 20 includes a CPU 201, a communication device 202, a ROM 203, a RAM 204, and a storage 205.
  • the CPU 201 is connected to each of the communication device 202, the ROM 203, the RAM 204, and the storage 205 via a bus 206, thereby transmitting data and signals via the bus 206.
  • the CPU 201, the ROM 203, and the RAM 204 correspond to the control unit 21
  • the storage 205 corresponds to the memory unit 22
  • the communication device 202 corresponds to the communication unit 23.
  • control device 20 is not limited to performing software processing for all of the processes it executes.
  • the control device 20 may be equipped with a dedicated hardware circuit (e.g., an application specific integrated circuit: ASIC) that performs hardware processing for at least some of the processes it executes. That is, the control device 20 may be configured as a circuit including 1) one or more processors that operate according to a computer program (software), 2) one or more dedicated hardware circuits that execute at least some of the various processes, or 3) a combination thereof.
  • the processor includes a calculation device such as a CPU and memory such as RAM and ROM, and the memory stores program code or instructions configured to cause the calculation device to execute the processes.
  • the memory i.e., computer-readable medium, includes any available medium that can be accessed by a general-purpose or dedicated computer.
  • control device 20 may be realized by multiple information processing devices.
  • One information processing device is a single computer device.
  • control device 20 may be composed of one or multiple information processing devices.
  • an image of the virtual space VS seen from an initial viewpoint is displayed on the display unit of the output device 40 based on instructions from the control device 20 (step S10).
  • the initial viewpoint may be a viewpoint within the virtual space VS that has been set in advance, or, if the stereophonic sound generating device 10 is configured to be able to detect the position and posture of the user, the initial viewpoint may be set within the virtual space VS according to the position and posture of the user.
  • the viewpoint can be changed from the initial viewpoint according to instructions from the user via the input device 30, or in response to changes in the user's position or posture detected by the stereophonic sound generating device 10.
  • the control device 20 moves the viewpoint in response to the instructions or changes in the user's position or posture, and controls the display of the output device 40 so that the movement of the viewpoint is reflected in the display on the display unit.
  • a target voice is selected based on a user instruction (step S11). For example, a predetermined operation on the input device 30 causes the control device 20 to display a menu area on the display of the output device 40, and further, when an area showing voice selection in the menu area is selected, the control device 20 causes a voice selection area A1 showing selectable voices to be displayed on the display of the output device 40.
  • FIG. 5 shows an example of the voice selection area A1. A desired voice is selected in the voice selection area A1 by the user via the input device 30, and the selected voice is set as the target voice.
  • the control device 20 places an operation object in the virtual space VS (step S12).
  • the operation object is reflected in the display on the display unit of the output device 40.
  • the operation object has a shape and size that can be grasped, such as a circle or sphere, and is placed near the user's viewpoint in the virtual space VS.
  • the operation object may have an appearance that indicates the target voice using characters, etc.
  • the control device 20 moves the control object and generates a trajectory line TL at a position corresponding to the trajectory of the movement of the control object (step S13).
  • the movement of the control object and the generation of the trajectory line TL are reflected in the display on the display unit of the output device 40.
  • the user places the control object at a desired starting point by, for example, grabbing it, and moves the control object from the starting point along a desired trajectory to a desired end point.
  • a trajectory line TL is formed at the position where the control object passed.
  • FIG. 6 shows a schematic diagram of how the trajectory line TL is generated when the stereophonic sound generating device 10 is embodied in a head-mounted display and its controller, and the movement of an operation object is instructed by the user's hand movements.
  • the user Ur is placed at the viewpoint position set in the virtual space VS, and is looking at the virtual space VS from the outside.
  • a trajectory line TL is formed in the virtual space VS at the position where the control object OD passed through.
  • An image of the virtual space VS seen from the viewpoint is displayed on the display unit of the output device 40, and the range of the virtual space VS displayed on the display unit changes as the viewpoint moves in accordance with the user's movements.
  • the controller which is the input device 30, to grasp the control object OD and further moves the controller by moving their hand
  • the control object OD moves to reflect the movement of the hand, i.e., the movement of the controller.
  • a trajectory line TL is drawn at the position where the control object OD passed through, at a speed according to the movement speed of the control object OD.
  • a movement assist object may be used to move the operation object OD to an area that is out of reach, such as above.
  • the movement assist object is rod-shaped, and the operation object OD is supported at the tip of the movement assist object.
  • the control device 20 sets the emission position of the target voice along the trajectory line TL and sets the playback speed of the target voice to a speed corresponding to the drawing speed of the trajectory line TL, thereby generating stereophonic data (step S14). That is, the control device 20 sets the emission position of the target voice to move over time from the start point to the end point of the trajectory line TL. It is preferable that the moving speed of the emission position is a speed corresponding to the drawing speed of the trajectory line TL.
  • control device 20 sets the playback speed in association with the emission position of the target voice so that the playback speed of the target voice is faster at positions where the drawing speed of the trajectory line TL is fast and the playback speed of the target voice is slower at positions where the drawing speed of the trajectory line TL is slow.
  • the playback speed is set so that the position and drawing speed of the trajectory line TL correspond to the emission position and playback speed of the target voice.
  • stereophonic data is generated.
  • the user can specify the sound emission position three-dimensionally by drawing a line in three-dimensional space, so that stereophonic sound can be created by an intuitive action.
  • the playback speed can also be specified by the intuitive action of changing the drawing speed.
  • steps S10 and S12 are performed by the virtual space management unit 21a
  • the processes in steps S11 and S13 are performed by the drawing management unit 21b
  • the process in step S14 is performed by the data generation unit 21c.
  • the control device 20 instructs the output device 40 to play the sound indicated by the sound information contained in the stereophonic data at a volume according to the origination position indicated by the position information, and at a speed indicated by the playback speed information. This process is performed by the playback control unit 21d.
  • the sound is attenuated.
  • the distance between the transmission position and the user's position is greater than or equal to a predetermined distance, the sound is muted.
  • the volume of the sound output from each of the left and right earphones and multiple speakers that make up the sound output unit is controlled so that the sound is heard from the direction of the transmission position.
  • Such volume control can be performed taking into consideration the position of the audio output unit relative to the user. Furthermore, if the user's position in the virtual space VS changes, the volume is changed according to the change in distance and direction from the user's position to the transmission position.
  • the control device 20 preferably moves a mark indicating the sound's originating position in the virtual space VS along a trajectory line TL in accordance with the movement of the originating position.
  • the control device 20 causes an image of the virtual space VS showing the sound's originating position on the trajectory line TL to be displayed on the display unit of the output device 40. This allows the user to visually grasp the change in the originating position during playback of the sound, thereby allowing the user to more intuitively grasp the created stereophonic sound.
  • a transmission position and a playback speed are set for each of a plurality of target voices according to the trajectory line TL for each target voice, and stereophonic data is generated that is configured so that these target voices are output in a superimposed manner.
  • this stereophonic data is played back, each voice is played back at a playback speed that follows the drawing speed of the trajectory line TL for each voice, so that the transmission position changes from the start point of the trajectory line TL for each voice toward the end point of the trajectory line TL for each voice.
  • the stereophonic sound generating device 10 of the present embodiment makes it possible to create diverse and flexible stereophonic sounds through intuitive operations.
  • the object generated in the virtual space VS in response to the user's movements is not limited to being a continuous line, but may be a point, a surface, a broken line that extends with some breaks, etc.
  • a surface-shaped object can be considered, for example, as a collection of multiple points, or an object that indicates an area filled with lines. In essence, it is sufficient that an object indicating the trajectory of movement corresponding to an instruction from the user via the input device 30 is placed in the virtual space VS. The location of the object may then be regarded as the location from which the target voice is emitted.
  • the target sound is the sound of rain
  • the user draws multiple dots to represent rain
  • multiple dot-like objects are placed at the positions indicated by this action.
  • the emission position of the target sound is then set to move along these dot-like objects. This creates a three-dimensional sound in which the emission position of the sound of rain moves over the multiple dots in the order in which the dots are drawn.
  • the audio is played back so that the emission position changes along the dashed line and the audio is interrupted where the dashed line is broken by playing back the stereophonic data.
  • the transmission position of the target voice does not have to move in the order in which it is drawn, so long as it is set to move along the object.
  • the transmission position may be set to move from the end point of the trajectory line TL to the start point, i.e., in the opposite direction to the progress of the drawing.
  • the transmission position may be set to move from the back of the surface to the front of the user. In this way, when the movement of the transmission position is set to be different from the progress of the drawing, it is sufficient that the movement manner of the transmission position can be set by instructions from the user via the input device 30 after drawing, i.e., after the object is generated.
  • the transmission position is set in accordance with the drawing progress, it is possible to create 3D sound more intuitively, while if the transmission position can be set differently from the drawing progress, there is more freedom in how the transmission position moves, and more diverse expressions are possible with 3D sound.
  • elements other than the sound emission position and playback speed may be configurable.
  • the directivity of the sound may be configurable. Specifically, it may be possible to set whether the sound is emitted in all directions from the emission position, or whether it is emitted in a specific direction, such as a direction toward the user or a direction away from the user.
  • Such information defining the directivity of the sound is included in the stereophonic data as directional information.
  • the speed that is used as the reference for the playback speed i.e., the speed recorded as the drawing speed, may be changeable after the object is generated.
  • the playback speed may be changeable after the object is generated, or may be set arbitrarily regardless of the object's drawing speed.
  • the target voice which is associated with an object and has its transmission position set to move, may be changeable after the object is generated.
  • the tone and texture of the target voice may be changeable.
  • the target voice may be changeable from a sound indicating light rain such as "rustling" to a sound indicating heavy rain such as "thud.”
  • the target voice may be changeable from a sound indicating normal footsteps such as "thud thud” to a sound indicating dry metallic footsteps such as "clang thud.” In this way, by changing the tone and texture of the target voice, it is also possible to change the texture of the event that the target voice represents.
  • the appearance of the object may be changed depending on the target voice.
  • the pitch of the target voice may be expressed by the color of the object.
  • the object may be a warm color
  • the target voice is a low-pitched voice
  • the object may be a cool color.
  • an effect such as reverberation
  • the object may have an appearance according to that effect.
  • the effect applied to the target voice may be expressed by the thickness or texture of the trajectory line TL.
  • the appearance of such objects may also change within a single object.
  • the effect of the target voice may be set after the object is generated.
  • a reverberation effect according to the transmission position may be applied to the sound.
  • the reverberation effect is set based on the structure of the virtual space VS and the transmission position, taking into account the reverberation within the virtual space VS.
  • the virtual space VS may be a space in which the user can be active, just like a real space, such as a store or an event venue. The user may then create stereophonic sound by placing sounds around the structures and decorations in the virtual space VS.
  • the virtual space VS may also be generated based on data of existing virtual spaces or the import of drawing data of the space.
  • an object with an appearance that corresponds to the sound may be used as a mark to indicate the position from which the sound is originating.
  • an object with a decorative shape such as a star may be used, or if the sound is the cry of a seagull, an object in the shape of a seagull may be used.
  • Identification information of the trajectory may be displayed near the object indicating the trajectory.
  • One example of the identification information is a file name.
  • the display of the identification information may be placed in the virtual space VS, or may be included in the display image in the output device 40.
  • the playback start time and playback end time for each sound may be arbitrarily set for each sound.
  • Such adjustments related to the time axis of the playback for each sound may be made using a two-dimensional plane with one axis being the time axis.
  • the two-dimensional plane may be displayed on the output device 40 together with the virtual space VS, or may be displayed separately from the virtual space VS.
  • the stereophonic sound reproduction device 50 is used to provide a specific scene, i.e., a stereophonic sound, to a user in a real space, for example, at an event.
  • the control device 60 includes a control unit 61 and a storage unit 62. Furthermore, when the control device 60 communicates with the position detection device 70, the input device 80, or the output device 90, the control device 60 includes a communication unit 63.
  • the communication unit 63 performs communication processing between the control device 60 and the position detection device 70, the input device 80, or the output device 90, such as connecting to the communication destination device and sending and receiving data.
  • the position detection device 70 uses a sensor technology that uses light, such as LiDAR (Light Detection and Ranging), to record the arrangement of structures in the real space RS in three dimensions, and calculate the user's position and orientation based on the detection of the distance between each structure and the position detection device 70.
  • LiDAR Light Detection and Ranging
  • the position management unit 61a also associates the real space RS with the acoustic space AS.
  • the acoustic space AS is a virtual three-dimensional space in which the position from which the sound is emitted is defined by the stereophonic data 62a stored in the memory unit 62. If the stereophonic data 62a is data generated by the stereophonic generating device 10, the acoustic space AS coincides with the virtual space VS.
  • the playback control unit 61b uses the stereophonic data 62a to instruct the audio output unit of the output device 90 to play audio according to the user's position and orientation acquired by the position management unit 61a.
  • the playback control unit 61b controls the volume according to the positional relationship between the user and the position in the real space RS that corresponds to the position from which the audio is emitted in the acoustic space AS, based on the correspondence between the real space RS and the acoustic space AS.
  • the playback control unit 61b instructs the audio output unit of the output device 90 to switch the audio being played.
  • the storage unit 62 stores various programs and data necessary for the control unit 61 to execute processing.
  • the storage unit 62 stores a stereophonic playback program as an example of such a program.
  • the storage unit 62 also stores the above-mentioned stereophonic data 62a as an example of such data.
  • the stereophonic data 62a includes at least audio information and position information.
  • the audio information is information that indicates the flow of changes in pitch and length of sound
  • the position information is information that specifies the position from which the sound indicated by the audio information is emitted in the acoustic space AS.
  • the stereophonic data 62a may be data generated by the stereophonic sound generating device 10, or may be data generated by a device other than the stereophonic sound generating device 10.
  • the control device 60 is a computer device, and includes electronic circuits that are arithmetic devices such as a CPU, MPU, and GPU, memories such as ROM, RAM, registered memory, and unbuffered memory, and storage such as an SSD or HDD.
  • the arithmetic devices load the operating system and various programs from the storage into the memory, and execute commands retrieved from the memory.
  • the control device 60 may also include integrated circuits such as an ASIC and an FPGA.
  • control device 60 includes the communication unit 63
  • the control device 60 includes a communication interface.
  • the communication interface is implemented as hardware, software, or a combination of these.
  • FIG. 8 shows an example of the hardware configuration of the control device 60.
  • the control device 60 includes a CPU 601, a communication device 602, a ROM 603, a RAM 604, and a storage 605.
  • the CPU 601 is connected to each of the communication device 602, the ROM 603, the RAM 604, and the storage 605 via a bus 606, thereby transmitting data and signals through the bus 606.
  • the CPU 601, the ROM 603, and the RAM 604 correspond to the control unit 61
  • the storage 605 corresponds to the memory unit 62
  • the communication device 602 corresponds to the communication unit 63.
  • control device 60 is not limited to performing software processing for all of the processes it executes.
  • the control device 60 may be equipped with a dedicated hardware circuit (e.g., an application specific integrated circuit: ASIC) that performs hardware processing for at least some of the processes it executes. That is, the control device 60 may be configured as a circuit including 1) one or more processors that operate according to a computer program (software), 2) one or more dedicated hardware circuits that execute at least some of the various processes, or 3) a combination thereof.
  • the processor includes a calculation device such as a CPU and memory such as RAM and ROM, and the memory stores program code or instructions configured to cause the calculation device to execute the processes.
  • the memory i.e., computer-readable medium, includes any available medium that can be accessed by a general-purpose or dedicated computer.
  • control device 60 may be realized by multiple information processing devices.
  • One information processing device is a single computer device.
  • control device 60 may be composed of one or multiple information processing devices.
  • FIG. 9 shows the flow of processing by the stereophonic sound reproducing apparatus 50.
  • FIG. 10 shows an example in which the stereophonic sound reproducing device 50 is a smartphone.
  • a mark M1 for determining a reference position is displayed on the display unit of the output device 90 by superimposing it on an image of the user's surroundings in the real space RS based on an instruction from the control device 60.
  • a predetermined operation such as the selection of an area to instruct the setting is performed on the input device 80, so that a position superimposed on the mark M1 in the image of the real space RS is set as a reference position of the real space RS, and a direction corresponding to the orientation of the mark M1 is set as a reference direction of the real space RS.
  • the position and direction in the real space RS are specified based on the arrangement of structures recorded three-dimensionally in advance in the real space RS. Then, the position and direction of the real space RS are associated with the position and direction of the acoustic space AS so that the reference position and reference direction of the real space RS coincide with the reference position and reference direction previously determined in the acoustic space AS.
  • the method may be different from that described above.
  • the position and orientation of the user in the real space RS may be set as the reference position and reference direction of the real space RS and may be associated with the reference position and reference direction of the acoustic space AS.
  • the reference position and reference direction of the real space RS may not be set using a display unit
  • the output device 90 may not include a display unit
  • the stereophonic sound reproduction device 50 may not include an input device 80.
  • the position detection device 70 may be installed at a location away from the user to detect the position and orientation of the user.
  • the audio output unit of the output device 90 may be attached to or carried by the user, or may be located at a location away from the user.
  • a specific direction in the real space RS may be set in advance as the reference direction.
  • the direction of the display device relative to the user may be set as the reference direction.
  • the direction of the display device relative to the user is identified using a marker or a sensor.
  • step S21 when a predetermined condition for playback is met, such as a predetermined operation being performed on the input device 80 to instruct playback, audio based on the stereophonic data 62a is played by the audio output section of the output device 90 based on an instruction from the control device 60 (step S21). If there are multiple stereophonic data 62a that can be played, the stereophonic sound to be played may be selected before or after matching between the real space RS and the acoustic space AS.
  • control device 60 instructs the output device 90 to play the sound defined by the audio information contained in the stereophonic data 62a at a volume that corresponds to the corresponding transmission position, which is a position in the real space RS that corresponds to the transmission position defined in the acoustic space AS, and the position of the user in the real space RS.
  • the transmission position of the sound in the acoustic space AS is defined by the position information contained in the stereophonic data 62a.
  • the sound is attenuated.
  • the distance between the corresponding transmission location and the user's location is greater than or equal to a predetermined distance, the sound is muted.
  • the volume of the sound output from each of the left and right earphones and multiple speakers that make up the sound output unit is controlled so that the sound can be heard from the direction of the corresponding transmission location.
  • Such volume control can be performed taking into consideration the position of the audio output unit relative to the user. Furthermore, if the user's position or orientation in the real space RS changes, the volume will change according to the change in distance and direction from the user's position to the corresponding transmission position.
  • the stereophonic data 62a contains information that specifies elements other than sound and position, such as playback speed information indicating the playback speed, these elements are also reflected in the playback status.
  • step S20 is performed by the position management section 61a
  • step S21 is performed by the playback control section 61b.
  • the scene is switched from a first scene to a second scene by switching the sound being played.
  • the first scene is a scene on the sea, and sounds such as the sounds of seagulls and waves are played.
  • the second scene is an underwater scene, and sounds such as the sound of diving and the flow of water underwater are played.
  • steps S20 and S21 are the same as those shown in FIG. 9.
  • the process of step S21 reproduces stereophonic sound corresponding to the first scene.
  • the control device 60 determines whether a switching condition, which is a condition set as a trigger for switching scenes, has been met (step S22). If the switching condition has not been met (negative determination in step S22), the control device 60 waits until the switching condition is met. During the wait, playback of the audio corresponding to the first scene continues.
  • a switching condition which is a condition set as a trigger for switching scenes
  • the switching condition may include, for example, a condition regarding the user's position in the real space RS.
  • the condition regarding the user's position may be a condition regarding the relationship between a specific position in the real space RS and the user's position, and the specific position may be the corresponding transmission position for the sound of the second scene.
  • the switching condition may be that the user has moved a predetermined distance from the position at which playback of the sound of the first scene began. In this case, this condition is a condition related to the user's position in real space RS. In addition, for example, the switching condition may be that the user has moved within or outside a predetermined range from a reference position in real space RS. In this case, the reference position in real space RS corresponds to the specific position described above. In addition, for example, the switching condition may be that the user has moved within a predetermined range from a position in real space RS that corresponds to the transmission position in acoustic space AS of the sound of the second scene. In this case, this condition is a condition related to the relationship between the corresponding transmission position and the user's position.
  • an element other than the user's position may be set as a switching condition, so long as it is an element that the stereophonic sound reproduction device 50 can detect.
  • a user's body gesture or hand movement may be set as a switching condition, or, if the control device 60 is a server and stereophonic sound is being reproduced by multiple users in parallel, the switching condition may be that multiple users make specific body gestures or hand movements.
  • the control device 60 instructs the audio output section of the output device 90 to switch playback from the audio of the first scene to the audio of the second scene (step S23).
  • This causes stereophonic audio corresponding to the second scene to be played instead of the first scene. That is, based on the audio information and position information contained in the stereophonic data 62a, audio is played at a volume that corresponds to the user's position and orientation in the real space RS.
  • a scene on the sea where the sounds of seagulls and waves are played can be switched to an underwater scene where the sound of diving is played followed by the sound of flowing water as the user moves and approaches a specific location, making it possible to create a story-like presentation.
  • scene switching enables a more diverse presentation using stereophonic sound, enhancing the user's sense of realism and interest.
  • the switching conditions include conditions related to the user's position in real space RS
  • the scene is switched in accordance with the user's movements, and the spatial relationship between the real space RS and the user is reflected in the sound, further enhancing the user's sense of realism.
  • the audio of the multiple scenes to be switched may include audio that is not stereophonic, that is, audio that does not have a specified transmission location and is output at a predetermined volume regardless of the user's location. In short, it is sufficient that at least one of the multiple scenes involves the playback of audio using stereophonic data 62a.
  • the configuration and operation of the stereophonic sound reproducing device 50 described above may be modified as follows. ⁇ A sound using the stereophonic data 62a may be reproduced while the virtual space is displayed on the display unit of the output device 90.
  • the virtual space is a space in which the user can be active, such as a store or an event venue, in the same way as in the real space.
  • the control device 60 instead of associating the real space RS with the acoustic space AS, the control device 60 associates the position and direction of the virtual space with the acoustic space AS, and controls the reproduction so that the sound is reproduced at a volume corresponding to the position of the virtual space corresponding to the sound transmission position defined in the acoustic space AS and the position of the user in the virtual space.
  • the display unit only needs to display an image based on the data from the control device 20, and does not need to make the image of the real space visible.
  • the virtual space displayed on the display unit may be generated based on the import of existing virtual space data or drawing data of the space.
  • the sound emission position is set so as to move along an object showing a trajectory drawn in the virtual space VS. Therefore, by drawing lines, points, etc. in a three-dimensional space, the sound emission position can be defined three-dimensionally, so that stereophonic sound can be created by intuitive operations.
  • the playback speed of the sound is set according to the drawing speed, that is, the speed of the movement for drawing the above-mentioned trajectory, so that the playback speed can be determined by an intuitive action.
  • stereophonic data is configured so that multiple sounds, each with its own emission position set according to an object for each sound, are output in a layered manner, complex stereophonic sounds in which multiple sounds are emitted from different emission positions and the emission positions change can be easily created through intuitive operations.
  • the stereophonic sound generating device 10 can play back sound using the generated stereophonic sound data, the created stereophonic sound can be easily checked, improving user convenience. (5) If the position of origin of the sound being played back based on the stereophonic data in the stereophonic generating device 10 is shown on an object, the user can visually grasp the change in the origin of the sound, thereby more intuitively grasping the created stereophonic sound.
  • the stereophonic sound reproduction device 50 associates the real space RS with the acoustic space AS, and reproduces the sound at a volume that corresponds to the relationship between the position in the real space RS that corresponds to the position from which the sound is emitted in the acoustic space AS and the user's position. This gives the user the impression that the sound is linked to the environment in which the user is present, enhancing the user's sense of realism.
  • the stereophonic sound reproduction device 50 switches the sound being reproduced, enabling a wider variety of stereophonic effects, enhancing the user's sense of realism and interest.
  • the conditions for switching the audio include conditions related to the user's position in the real space RS
  • the scene is switched in accordance with the user's movement, and the spatial relationship between the real space RS and the user is reflected in the audio, thereby further enhancing the user's sense of presence.
  • the above conditions relate to the relationship between a specific position in the real space RS and the user's position, a performance that is more closely related to the spatial relationship can be achieved, and if the specific position is a position in the real space RS that corresponds to the position from which sound is emitted in the acoustic space AS, a performance that effectively links the real space RS with stereophonic sound can be achieved. This increases the user's sense of realism and interest.
  • a stereophonic system including a stereophonic generating device and a stereophonic reproducing device
  • the stereophonic sound generating device comprises: a drawing management unit that, in accordance with an instruction from a first user via an input device, places an object indicating a trajectory of a movement corresponding to the instruction in a virtual space; a data generating unit that generates stereophonic data for the selected sound, the data generating unit setting a sound emission position so as to move along the object;
  • the stereophonic sound reproducing device comprises: a position management unit that acquires a position of the second user in a real space, which is a space in which the second user actually exists, and associates the position of the real space with a position of the virtual space; a playback control unit that controls playback of audio using the stereophonic data, wherein a position in the real space that corresponds to a position from which the audio is emitted in
  • the use of the stereophonic sound generating device allows the first user to define the sound emission position three-dimensionally by drawing lines in three-dimensional space, allowing the first user to create stereophonic sound through intuitive actions. Furthermore, the use of the stereophonic sound reproducing device gives the second user the impression that the sound is linked to the environment in which the second user is located, enhancing the sense of realism for the second user.
  • a stereophonic reproduction device that controls reproduction of audio using stereophonic data including audio information and position information that defines a transmission position of the audio indicated by the audio information in an audio space that is a virtual three-dimensional space, a position management unit that acquires a position of the user in a real space, which is a space in which the user actually exists, and associates the position of the real space with a position of the acoustic space; a playback control unit that instructs an audio output unit of an output device to play the audio at a volume corresponding to a relationship between the corresponding transmission position and the user's position, the corresponding transmission position being a position in the real space that corresponds to the transmission position of the audio in the acoustic space.
  • audio is played back at a volume that corresponds to the user's position in real space, giving the user the impression that the environment in which the user is located is linked to the audio playback situation. This enhances the user's sense of realism.
  • REFERENCE SIGNS LIST 10 3D sound generating device 20: control device 30: input device 40: output device 50: 3D sound reproducing device 60: control device 70: position detection device 80: input device 90: output device 100: 3D sound system

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

立体音響システムを構成する立体音響生成装置は、入力装置を通じたユーザからの指示に従って、当該指示に対応する動きの軌跡を示すオブジェクトを仮想空間内に配置する。立体音響生成装置はさらに、選択された音声について、上記オブジェクトに沿って移動するように音声の発信位置を設定した立体音響データを生成する。

Description

立体音響生成装置、立体音響再生装置、立体音響生成方法、立体音響生成プログラム、および、記録媒体
 本開示は、立体音響生成装置、立体音響再生装置、立体音響生成方法、立体音響生成プログラム、および、記録媒体に関する。
 立体音響システムは、ユーザに対して、音の方向、距離、拡がり等を三次元的に認識させるように音声を再生する。例えば、特許文献1に記載のシステムは、ゲームのプレイヤであるユーザを囲むように配置された複数のスピーカーを備え、ユーザの操作キャラクターの動きに応じて各スピーカーの出力を制御することで、立体的な音場を形成する。
特開2022-34160号公報
 ところで、音声データの作成や編集のための従来のソフトウェアは、一方の軸を時間軸とする二次元平面に波形等で表された音声に対し、所望の操作を加えるように構成されている。これに対し、立体音響のデータは、音の発信位置等の三次元の情報を含むように生成する必要があるため、二次元平面を用いた表現によっては直感的な操作によるデータの生成が困難であるという問題が生じている。
 上記課題を解決するための立体音響生成装置、立体音響再生装置、立体音響生成方法、立体音響生成プログラム、および、記録媒体の各態様を記載する。
 [態様1]入力装置を通じた第1ユーザからの指示に従って、オブジェクトを仮想空間内に配置する描画管理部と、選択された音声について、前記オブジェクトの位置と一致するように前記音声の発信位置を設定した立体音響データを生成するデータ生成部と、を備える立体音響生成装置。
 上記構成によれば、三次元空間におけるオブジェクトの配置に基づいて、音声の発信位置を三次元的に規定できるため、直感的な動作によって立体音響を作成することができる。
 [態様2]前記描画管理部は、前記オブジェクトとして、前記第1ユーザからの前記指示に対応する動きの軌跡を示すオブジェクトを前記仮想空間内に配置し、前記データ生成部は、前記オブジェクトに沿って移動するように前記音声の前記発信位置を設定することにより、前記立体音響データを生成する、[態様1]に記載の立体音響生成装置。
 上記構成によれば、三次元空間で線や点等を描くことにより、音声の発信位置を三次元的に規定できるため、直感的な動作によって立体音響を作成することができる。
 [態様3]前記描画管理部が配置する前記オブジェクトには、線状のオブジェクトが含まれる[態様2]に記載の立体音響生成装置。
 上記構成によれば、より直感的な動作で、音声の発信位置の移動態様を規定することができる。
 [態様4]前記立体音響データは、前記音声の再生速度を規定する情報を含み、前記データ生成部は、前記音声の再生速度を、前記動きの速度に対応する速度に設定して、前記立体音響データを生成する、[態様2]または[態様3]に記載の立体音響生成装置。
 上記構成によれば、上記軌跡を描くための動きの速度に応じて音声の再生速度が設定されるため、直感的な動作によって再生速度を規定できる。
 [態様5]前記データ生成部は、複数の音声の各々について、前記音声ごとの前記オブジェクトに沿って移動するように各音声の発信位置を設定し、前記複数の音声が重ねて出力されるように構成された前記立体音響データを生成する、[態様2]~[態様4]のいずれか1つに記載の立体音響生成装置。
 上記構成によれば、複数の音声がそれぞれの発信位置から発せられ、かつ発信位置が変化するという複雑な立体音響を、直感的な動作によって容易に作成することができる。
 [態様6]前記立体音響データに基づいて、設定された前記発信位置に応じた音量での前記音声の再生を、出力装置が有する音声出力部に指示する再生制御部をさらに備える、[態様1]~[態様5]のいずれか1つに記載の立体音響生成装置。
 上記構成によれば、作成した立体音響の確認が容易であり、ユーザの利便性が高められる。
 [態様7]前記立体音響データに基づき再生されている前記音声の発信位置を前記オブジェクト上に示した前記仮想空間の画像を、前記出力装置が有する表示部に表示させる、[態様6]に記載の立体音響生成装置。
 上記構成によれば、発信位置の変化を視覚的に把握できるため、作成した立体音響をより直感的に捉えることができる。
 [態様8][態様1]~[態様7]のいずれか1つに記載の立体音響生成装置によって生成された前記立体音響データを用いて、音声の再生を制御する立体音響再生装置であって、第2ユーザが実在する空間である現実空間での前記第2ユーザの位置を取得するとともに、前記現実空間の位置と前記仮想空間の位置とを対応付ける位置管理部と、前記仮想空間での前記音声の前記発信位置に対応する前記現実空間の位置が対応発信位置であり、前記対応発信位置と前記第2ユーザの位置との関係に応じた音量での前記音声の再生を、出力装置が有する音声出力部に指示する再生制御部と、を備える立体音響再生装置。
 上記構成によれば、現実空間でのユーザの位置に応じた音量で音声が再生されるため、ユーザのいる環境と音声の再生状況とが結びついた印象がユーザに与えられる。それゆえ、ユーザの臨場感が高められる。
 [態様9]再生対象の音声の切り換えの条件が設定されており、前記条件が成立したとき、前記再生制御部は、再生する音声の切り替えを前記音声出力部に指示する、[態様8]に記載の立体音響再生装置。
 上記構成によれば、立体音響による多様な演出が可能であり、ユーザの臨場感および興趣が高められる。
 [態様10]前記条件は、前記現実空間での前記第2ユーザの位置に関する条件を含む、[態様9]に記載の立体音響再生装置。
 上記構成によれば、現実空間とユーザとの空間的な関わりが音声に反映されることから、ユーザの臨場感がより高められる。
 [態様11]前記条件は、前記現実空間での特定の位置と前記第2ユーザの位置との関係に関する条件を含む、[態様10]に記載の立体音響再生装置。
 上記構成によれば、上記空間的な関わりとより関連の深い演出が可能である。
 [態様12]前記再生制御部は、前記条件が成立したとき、第1の音声から第2の音声への再生の切り替えを前記音声出力部に指示し、前記第2の音声は、前記立体音響データを用いて再生される音声であり、前記現実空間での前記特定の位置は、前記第2の音声についての前記対応発信位置である、[態様11]に記載の立体音響再生装置。
 上記構成によれば、現実空間とユーザとの空間的な関わりに立体音響を効果的に関連付けた演出が可能である。したがって、ユーザの臨場感や興趣が高められる。
 [態様13]1または複数のコンピュータが、入力装置を通じた第1ユーザからの指示に従って、オブジェクトを仮想空間内に配置することと、選択された音声について、前記オブジェクトの位置と一致するように前記音声の発信位置を設定した立体音響データを生成することと、を実行する立体音響生成方法。
 上記方法によれば、三次元空間におけるオブジェクトの配置に基づいて、音声の発信位置を三次元的に規定できるため、直感的な動作によって立体音響を作成することができる。
 [態様14]1または複数のコンピュータに、入力装置を通じた第1ユーザからの指示に従って、オブジェクトを仮想空間内に配置することと、選択された音声について、前記オブジェクトの位置と一致するように前記音声の発信位置を設定した立体音響データを生成することと、を実行させる立体音響生成プログラム。
 [態様15][態様14]に記載の立体音響生成プログラムを記録したコンピュータ読み取り可能な記録媒体。
 上記構成によれば、三次元空間におけるオブジェクトの配置に基づいて、音声の発信位置を三次元的に規定できるため、直感的な動作によって立体音響を作成することができる。
 本開示によれば、ユーザが直感的な動作によって立体音響を作成することができる。
一実施形態の立体音響システムの全体構成を示す図。 一実施形態における立体音響生成装置の制御装置の機能的構成を示す図。 一実施形態における立体音響生成装置の制御装置のハードウェア構成の一例を示す図。 一実施形態における立体音響生成装置の処理の手順を示す図。 一実施形態の立体音響生成装置が表示する画面の一例を示す図。 一実施形態の立体音響生成装置の処理内容を模式的に示す図。 一実施形態における立体音響再生装置の制御装置の機能的構成を示す図。 一実施形態における立体音響再生装置の制御装置のハードウェア構成の一例を示す図。 一実施形態における立体音響再生装置の処理の手順を示す図。 一実施形態の立体音響再生装置が表示する画面の一例を示す図。 一実施形態における立体音響再生装置の処理の手順を示す図。
 図面を参照して、立体音響システムの一実施形態を説明する。
 [立体音響システムの全体構成]
 図1を参照して、立体音響システムの全体構成を説明する。図1に示すように、立体音響システム100は、立体音響生成装置10と立体音響再生装置50とを備えている。立体音響生成装置10は、立体音響データを生成する装置であり、立体音響再生装置50は、立体音響データに基づいて音声を再生する装置である。立体音響データは、音声情報と位置情報とを少なくとも含む。音声情報は、音の高低および長短の変化の流れを示す情報であり、言い換えれば、楽曲や自然音等の音楽のデータである。位置情報は、音声情報が示す音声についての、三次元空間での発信源の位置を示す情報である。なお、立体音響生成装置10のユーザと、立体音響再生装置50のユーザとは、同一の人物であってもよいし、異なる人物であってもよい。
 立体音響生成装置10は、制御装置20と、入力装置30と、出力装置40とを備えている。入力装置30は、ユーザの動作による指示の入力を受け付けて、入力に応じた信号を制御装置20に送る。ユーザの動作には、ボタンの押下等の入力装置30に対する操作、および、身振りや手振りといった身体の動きが含まれる。出力装置40は、表示部および音声出力部を含み、制御装置20からのデータや信号を受けて、表示部に画像を表示し、音声出力部から音声を出力する。制御装置20は、仮想空間を生成して出力装置40の表示部に表示させ、入力装置30から受けた仮想空間に対するユーザの指示に基づいて、立体音響データを生成する。
 制御装置20、入力装置30、および、出力装置40は、一体に組み付けられていてもよいし、これらの装置の構成部の少なくとも一部が他の構成部と分離して配置されていてもよい。制御装置20と、入力装置30および出力装置40の構成部とは、有線または無線で接続されていてもよい。制御装置20と、入力装置30および出力装置40の構成部との間での信号やデータの授受には、インターネット等のネットワークを介した通信や、Bluetooth(登録商標)等の近距離無線通信が用いられてもよい。この場合、各装置20,30,40は、利用する通信方式に応じた通信機能を有していればよい。
 また、立体音響生成装置10は、ユーザの位置や姿勢を検出する位置検出装置を備えていてもよい。位置検出装置は、検出された位置や姿勢に応じた信号を制御装置20に送る。
 例えば、制御装置20と出力装置40とが一体となった例は、VR(Virtual Reality)用のヘッドマウントディスプレイである。この場合、ヘッドマウントディスプレイに付属するコントローラーが入力装置30であり、立体音響生成装置10は、上記位置検出装置も備えている。位置検出装置は、慣性センサ、赤外線等の射出装置とその受光装置、カメラ等のヘッドトラッキングのための装置を含む。入力装置30は、ユーザの動作として、入力装置30に対する操作に加えて、身振りや手振り等の身体の動きを検出可能に構成されており、慣性センサ、赤外線等の射出装置とその受光装置、カメラ等のモーションキャプチャのための装置を含む。なお、入力装置30が位置検出装置の少なくとも一部を兼ねていてもよい。
 また例えば、立体音響生成装置10は、制御装置20、入力装置30、および、出力装置40が一体となったヘッドマウントディスプレイであってもよい。この場合、立体音響生成装置10は、ヘッドマウントディスプレイとは別体のコントローラーを備えていなくてよい。例えば、入力装置30が、ヘッドマウントディスプレイを装着したユーザの視線を検出することにより、ヘッドマウントディスプレイが備える出力装置40に表示されたメニュー領域や仮想空間のオブジェクトが選択される。また例えば、入力装置30が、ユーザの手や指の動きを検出することにより、メニュー領域や仮想空間のオブジェクトの変形や移動が行われる。こうした入力装置30は、ヘッドマウントディスプレイに設けられたカメラを含んでいればよい。
 その他、制御装置20は、サーバ、パーソナルコンピュータ、スマートフォン等であってもよい。制御装置20がサーバであれば、ユーザごとの入力装置30および出力装置40を用いて、複数のユーザの各々による立体音響データの生成を並行して実施することができる。また、入力装置30は、マウス、キーボード、タッチパネル等であってもよいし、出力装置40の表示部は、液晶パネル等の表示パネルを含んでいればよく、出力装置40の音声出力部は、スピーカー、イヤホン、ヘッドホン等であればよい。
 立体音響再生装置50は、制御装置60と、位置検出装置70と、入力装置80と、出力装置90とを備えている。位置検出装置70は、現実空間でのユーザの位置および向きを検出し、検出された位置および向きに応じた信号を制御装置60に送る。例えば、位置検出装置70は、ユーザに携帯または装着され、ユーザの位置および向きとして、位置検出装置70の位置および向きを検出する。あるいは、位置検出装置70は、立体音響が再生される施設の天井等、ユーザの上方に取り付けられて、ユーザの位置および向きを検出してもよい。
 入力装置80は、ユーザの動作による指示の入力を受け付けて、入力に応じた信号を制御装置60に送る。出力装置90は、表示部および音声出力部を含み、制御装置60からのデータや信号を受けて、表示部に画像を表示し、音声出力部から音声を出力する。具体的には、表示部では、現実空間の像と制御装置60からのデータに基づく画像とが重ねられる。現実空間の像は、表示部を透過した像であってもよいし、立体音響再生装置50が備える撮影部による撮影像であってもよく、ユーザの周囲の現実空間の像であればよい。
 制御装置60は、現実空間でのユーザの位置および向きに基づいて、立体音響データの再生を出力装置90に指示する。
 制御装置60、位置検出装置70、入力装置80、および、出力装置90は、一体に組み付けられていてもよいし、これらの装置の構成部の少なくとも一部が他の構成部と分離して配置されていてもよい。制御装置60と、位置検出装置70、入力装置80、および、出力装置90の構成部とは、有線または無線で接続されていてもよい。制御装置60と、位置検出装置70、入力装置80、および、出力装置90の構成部との間での信号やデータの授受には、インターネット等のネットワークを介した通信や、Bluetooth(登録商標)等の近距離無線通信が用いられてもよい。この場合、各装置60,70,80,90は、利用する通信方式に応じた通信機能を有していればよい。
 例えば、制御装置60、位置検出装置70、入力装置80、および、出力装置90が一体となった例は、スマートフォンやタブレット端末である。位置検出装置70は、慣性センサや、赤外線等の射出装置とその受光装置を含み、入力装置80は、タッチパネルを含む。出力装置90の表示部は、液晶パネル等の表示パネルを含んでいればよく、出力装置90の音声出力部は、スピーカー、イヤホン、ヘッドホン等であればよい。
 その他、制御装置60は、サーバであってもよい。制御装置60がサーバであれば、ユーザごとの位置検出装置70、入力装置80、および、出力装置90を用いて、複数のユーザの各々による立体音響データの再生を並行して実施することができる。また、制御装置60と位置検出装置70と出力装置90とは、これらが一体となったAR(Augmented Reality)やMR(Mixed Reality)用のヘッドマウントディスプレイであってもよく、さらに、入力装置80もヘッドマウントディスプレイを構成していてもよいし、入力装置80はコントローラーであってもよい。また、位置検出装置70がユーザから離れた位置に設置される場合、位置検出装置70は、赤外線等の射出装置とその受光装置や、カメラ等のヘッドトラッキングのための装置を含んでいればよい。
 立体音響生成装置10と立体音響再生装置50とは、インターネット等のネットワークを介して、相互にデータの送信および受信が可能であってもよい。そして、立体音響生成装置10が、生成した立体音響データを、立体音響再生装置50に送信してもよい。
 [立体音響生成装置の構成]
 立体音響生成装置10について、制御装置20の詳細な構成を説明する。本実施形態では、制御装置20によって生成された仮想的な三次元空間である仮想空間VSにて、ユーザは、立体音響を構成する音声の発信位置を、線で描くことにより規定する。
 まず、図2を参照して、制御装置20の機能的構成を説明する。図2に示すように、制御装置20は、制御部21と記憶部22とを備えている。また、制御装置20が、入力装置30や出力装置40と通信を行う場合には、制御装置20は、通信部23を備えている。通信部23は、通信先の装置との接続およびデータの送受信等、制御装置20と入力装置30または出力装置40との通信処理を行う。
 制御部21は、記憶部22に格納された立体音響生成プログラムを実行することにより、仮想空間管理部21a、描画管理部21b、データ生成部21c、および、再生制御部21dとして機能する。
 仮想空間管理部21aは、仮想空間VSを生成する。仮想空間VSは、オブジェクトが何も配置されていない空間であってもよいし、作成対象の立体音響のテーマに応じた構造物や自然物等のオブジェクトが配置された空間であってもよい。仮想空間管理部21aは、仮想空間VS内の視点から見た仮想空間VSの画像の表示を、出力装置40の表示部に指示する。
 また、仮想空間管理部21aは、仮想空間VS内に線を描く際に用いられるオブジェクトである描画用オブジェクトの配置を管理する。描画用オブジェクトには、線を描くために動かされる操作オブジェクトや、操作オブジェクトの移動範囲を広げるために用いられる移動補助オブジェクトが含まれる。
 また、仮想空間管理部21aは、音声の選択や生成された立体音響データの再生を指示するためのメニュー領域の表示を管理する。
 描画管理部21bは、入力装置30を通じたユーザからの指示に従って、仮想空間VSに線を描く。言い換えれば、描画管理部21bは、ユーザから指示された位置に、線状のオブジェクトを生成する。この線状のオブジェクトが軌跡線TLである。そして、描画管理部21bは、仮想空間VSにおける軌跡線TLの位置と、ユーザの動作が反映された軌跡線TLの描画速度とを記録する。
 データ生成部21cは、選択された音声である対象音声のデータと、軌跡線TLの位置および描画速度とに基づいて、立体音響データを生成する。詳細には、データ生成部21cは、軌跡線TLに沿って移動するように対象音声の発信位置を設定するとともに、対象音声の再生速度を描画速度に応じた速度に設定し、これらの設定を示す情報を含む立体音響データを生成する。これにより、対象音声の発信位置が、軌跡線TLの座標と一致した三次元座標に設定される。
 対象音声は、言い換えれば、発信位置の規定対象の音声である。データ生成部21cによって生成される立体音響データは、音声情報および位置情報に加えて、音声の再生速度を示す再生速度情報を含む。
 再生制御部21dは、データ生成部21cが生成した立体音響データの再生を制御する。詳細には、再生制御部21dは、立体音響データの示す音声が、設定された発信位置に応じた音量、および、設定された速度で再生されるように、当該音声の再生を出力装置40に指示する。
 記憶部22は、制御部21による処理の実行に必要な各種のプログラムやデータを記憶している。記憶部22は、こうしたプログラムの例として、立体音響生成プログラムを記憶している。また、記憶部22は、こうしたデータの例として、仮想空間データ22a、および、音声データ22bを記憶している。
 仮想空間データ22aは、仮想空間VSの生成に必要なデータ、例えば、空間に対して設定される三次元直交座標系の情報、空間に配置されるオブジェクトの位置情報や描画のための情報を含む。
 音声データ22bは、対象音声として選択可能な音声のデータである。音声データ22bは、上述した音声情報に対応する情報を含み、音声データ22bが示す音声には、発信位置は設定されていない。一例では、海をテーマとする立体音響が作成対象であるとき、音声データ22bには、波の音を示す音声、カモメの鳴き声や羽ばたきの音声、クジラの鳴き声や移動音の音声等が含まれてもよい。
 なお、記憶部22には、データ生成部21cによって生成された立体音響データも記憶される。
 続いて、上記機能を有する制御装置20の物理的な構成、すなわちハードウェア構成を説明する。制御装置20は、コンピュータ装置であり、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等の演算装置である電子回路、ROM(Read Only Memory)、RAM(Random Access Memory)、レジスタードメモリ、アンバッファードメモリ等のメモリ、および、SSD(Solid State Drive)、HDD(Hard Disk Drive)等のストレージを備える。演算装置は、ストレージからオペレーティングシステムや各種プログラムをメモリにロードし、メモリから取り出した命令を実行する。制御装置20は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路を備えてもよい。
 また、制御装置20が通信部23を備える場合、制御装置20は、通信インターフェースを備えている。通信インターフェースは、ハードウェア、ソフトウェア、または、これらの組み合わせとして実装されている。
 図3は、制御装置20のハードウェア構成の一例を示す。制御装置20は、CPU201、通信装置202、ROM203、RAM204、および、ストレージ205を備えている。CPU201と、通信装置202、ROM203、RAM204、および、ストレージ205の各々とは、バス206を介して接続されており、これにより、バス206を通じてデータや信号が伝送される。上記構成においては、CPU201、ROM203、および、RAM204が制御部21に対応し、ストレージ205が記憶部22に対応し、通信装置202が通信部23に対応する。
 なお、制御装置20は、自身が実行する全ての処理についてソフトウェア処理を行うものに限られない。上述のように、制御装置20は、自身が実行する処理の少なくとも一部についてハードウェア処理を行う専用のハードウェア回路(例えば特定用途向け集積回路:ASIC)を備えてもよい。すなわち、制御装置20は、1)コンピュータプログラム(ソフトウェア)に従って動作する1つ以上のプロセッサ、2)各種処理のうち少なくとも一部の処理を実行する1つ以上の専用のハードウェア回路、あるいは3)それらの組み合わせ、を含む回路(circuitry)として構成し得る。プロセッサは、CPU等の演算装置ならびに、RAMおよびROM等のメモリを含み、メモリは、処理を演算装置に実行させるように構成されたプログラムコードまたは指令を格納している。メモリすなわちコンピュータ可読媒体は、汎用または専用のコンピュータでアクセスできるあらゆる利用可能な媒体を含む。
 また、制御装置20の機能は、複数の情報処理装置によって実現されてもよい。1つの情報処理装置は単体のコンピュータ装置である。すなわち、制御装置20は、1または複数の情報処理装置から構成されていればよい。
 [立体音響生成装置の動作]
 図4~図6を参照して、立体音響生成装置10の動作を説明する。図4は、立体音響生成装置10による処理の流れを示す。
 図4に示すように、立体音響生成装置10の利用が開始されると、制御装置20の指示に基づいて、初期視点から見た仮想空間VSの画像が、出力装置40の表示部に表示される(ステップS10)。初期視点は、予め設定された仮想空間VS内の視点であってもよいし、立体音響生成装置10がユーザの位置や姿勢を検出可能に構成されている場合には、ユーザの位置や姿勢に応じて仮想空間VS内に初期視点が設定されてもよい。
 視点は、入力装置30を通じたユーザからの指示に従って、あるいは、立体音響生成装置10が検出したユーザの位置や姿勢の変化に応じて、初期視点から変更可能である。制御装置20は、上記指示あるいはユーザの位置や姿勢の変化に対応するように視点を移動させ、視点の移動が表示部の表示に反映されるように、出力装置40の表示を制御する。
 続いて、ユーザの指示に基づき、対象音声が選択される(ステップS11)。例えば、入力装置30に対する所定の操作により、制御装置20は、メニュー領域を出力装置40の表示部に表示させ、さらに、メニュー領域にて音声の選択を示す領域が選択されることにより、制御装置20は、選択可能な音声が示された音声選択領域A1を出力装置40の表示部に表示させる。図5は、音声選択領域A1の一例を示す。入力装置30を通じて、ユーザによって音声選択領域A1のなかで所望の音声が選択されることにより、選択された音声が対象音声に設定される。
 対象音声が選択されると、制御装置20が仮想空間VSに操作オブジェクトを配置する(ステップS12)。これにより、操作オブジェクトが出力装置40の表示部の表示に反映される。操作オブジェクトは、例えば円や球のように、掴むことが可能な形状および大きさを有し、仮想空間VS内のユーザの視点の付近に配置される。操作オブジェクトは、文字等により対象音声を示す外観を有していてもよい。
 入力装置30を通じたユーザからの指示に従って、制御装置20は、操作オブジェクトを移動させ、操作オブジェクトの移動の軌跡に対応する位置に、軌跡線TLを生成する(ステップS13)。これにより、操作オブジェクトの移動および軌跡線TLの生成が出力装置40の表示部の表示に反映される。
 具体的には、ユーザは、操作オブジェクトを掴むなどして、操作オブジェクトを所望の始点に配置し、始点から所望の軌道を通って所望の終点まで操作オブジェクトを移動させる。その結果、操作オブジェクトが通った位置に軌跡線TLが形成される。
 図6は、立体音響生成装置10がヘッドマウントディスプレイとそのコントローラーに具体化され、ユーザの手の動きによって、操作オブジェクトの移動が指示される場合について、軌跡線TLの生成態様を模式的に示す。図6においては、理解を容易にするために、仮想空間VSに設定される視点の位置にユーザUrを配置し、仮想空間VSを外側から見ている。
 図6に示すように、仮想空間VSにおいて、操作オブジェクトODが通った位置に、軌跡線TLが形成される。出力装置40の表示部には、上記視点から見た仮想空間VSの画像が表示され、ユーザの動きに応じて視点が動くように、表示部に表示される仮想空間VSの範囲が変わる。ユーザが、操作オブジェクトODを掴むように入力装置30であるコントローラーを操作し、さらに、手を動かすことによってコントローラーを移動させると、手の動き、すなわちコントローラーの動きが反映されるように、操作オブジェクトODが移動する。そして、操作オブジェクトODが通った位置に、操作オブジェクトODの移動速度に応じた速度で、軌跡線TLが描かれる。
 例えば、ユーザUrを囲むように軌跡線TLを形成することも可能であるし、動植物等の輪郭の絵や模様を構成するように軌跡線TLを形成することも可能である。手が届かない上方等の領域へ操作オブジェクトODを移動させるために、移動補助オブジェクトが用いられてもよい。例えば、移動補助オブジェクトは棒状であり、移動補助オブジェクトの先端部に操作オブジェクトODが支持される。移動補助オブジェクトを掴んで移動させることにより、操作オブジェクトODを掴んで移動させるよりも広い範囲に操作オブジェクトODを移動させることができる。
 図4に戻り、軌跡線TLが生成されると、制御装置20は、軌跡線TLに沿って対象音声の発信位置を設定するとともに、対象音声の再生速度を軌跡線TLの描画速度に応じた速度に設定することにより、立体音響データを生成する(ステップS14)。すなわち、制御装置20は、軌跡線TLの始点から終点に向けて、時間の経過とともに対象音声の発信位置が移動するように設定する。発信位置の移動速度は、軌跡線TLの描画速度に対応する速度であることが好ましい。また、制御装置20は、軌跡線TLの描画速度が速い位置では、対象音声の再生速度が速くなり、軌跡線TLの描画速度が遅い位置では、対象音声の再生速度が遅くなるように、対象音声の発信位置に対応付けて再生速度を設定する。言い換えれば、軌跡線TLの位置と描画速度が、対象音声の発信位置と再生速度に対応するように、再生速度が設定される。
 これにより、立体音響データが生成される。本実施形態の立体音響生成装置10によれば、ユーザは、三次元空間で線を描くことにより、音声の発信位置を三次元的に規定できるため、直感的な動作によって立体音響を作成することができる。また、再生速度についても、描画速度の変更という直感的な動作によって規定できる。
 なお、図4に示したフローにおいて、ステップS10,S12の処理は、仮想空間管理部21aとしての処理であり、ステップS11,S13の処理は、描画管理部21bとしての処理であり、ステップS14の処理は、データ生成部21cとしての処理である。
 生成された立体音響データに基づく音声をユーザが確認したい場合には、メニュー領域にて音声の再生を示す領域が選択されることにより、立体音響生成装置10にて立体音響データを用いて音声が再生される。詳細には、制御装置20は、立体音響データが含む音声情報の示す音声が、位置情報が示す発信位置に応じた音量、および、再生速度情報が示す速度で再生されるように、出力装置40に指示する。この処理は、再生制御部21dとしての処理である。
 例えば、仮想空間VSでの発信位置とユーザの位置、すなわちユーザの視点とが近いほど、音量が大きくされる。あるいは、発信位置とユーザの位置との距離が所定距離以上である場合に、音声が減衰される。あるいは、発信位置とユーザの位置との距離が所定距離以上である場合に、音声が消音される。また、ユーザの視点に対する発信位置の方向に応じて、発信位置の方から音声が聞こえるように、音声出力部を構成する左右のイヤホンや複数のスピーカーの各々から出力される音声の音量が制御される。
 こうした音量の制御は、ユーザに対する音声出力部の位置を考慮して行われればよい。また、仮想空間VSでのユーザの位置が変化した場合には、ユーザの位置から発信位置までの距離や方向の変化に応じて、音量が変更される。
 立体音響データに基づく音声の再生中には、制御装置20は、仮想空間VSにて、音声の発信位置を示すマークを、発信位置の移動に伴って軌跡線TL上を移動させることが好ましい。言い換えれば、制御装置20は、音声の発信位置を軌跡線TL上に示した仮想空間VSの画像を、出力装置40の表示部に表示させる。これにより、ユーザは、音声の再生中に、発信位置の変化を視覚的に把握できるため、作成した立体音響をより直感的に捉えることができる。
 図4のステップS11~ステップS14の処理が繰り返されることにより、複数の対象音声の各々について、対象音声ごとの軌跡線TLに従った発信位置および再生速度が設定され、これらの対象音声が重ねて出力されるように構成された立体音響データが生成される。この立体音響データが再生されると、各音声が、音声ごとの軌跡線TLの始点から終点に向かって発信位置が変化するように、音声ごとの軌跡線TLの描画速度に沿った再生速度で、再生される。
 これにより、複数の音声がそれぞれの発信位置から発せられ、かつ発信位置が変化するという複雑な立体音響も、直感的な動作によって容易に作成することができる。
 例えば、海をテーマとする立体音響が作成対象であるとき、ユーザが、カモメの音声を選択して、ユーザの上方を囲むように軌跡線TLを描き、波の音声を選択して、ユーザの横を通るように軌跡線TLを描き、クジラの音を選択して、ユーザの足元を囲むように軌跡線TLを描いたとする。これにより生成された立体音響データを再生すると、ユーザの上空をカモメが旋回し、ユーザの横を波が通り、ユーザの足元をクジラが泳ぐかのように、音声がユーザに聞こえる。
 このように、本実施形態の立体音響生成装置10によれば、直感的な動作によって、多様で自由度の高い立体音響の作成が可能である。
 [変形例] 
 上述した立体音響生成装置10の構成および動作は下記のように変更されてもよい。
 ・ユーザの動作に応じて仮想空間VS内に生成されるオブジェクトは、ひとつながりの線状に限らず、点状、面状、途切れつつ延びる線である破線状等であってもよい。面状のオブジェクトは、例えば、複数の点の集合、あるいは、線で塗りつぶされた領域を示すオブジェクトとも捉えられる。要は、入力装置30を通じたユーザからの指示に従って、当該指示に対応する動きの軌跡を示すオブジェクトが仮想空間VS内に配置されればよい。そして、オブジェクトの存在位置が、対象音声の発信位置とされればよい。
 例えば、対象音声が雨の音である場合に、ユーザが雨を表現して複数の点を描くように動作すると、この動作によって指示された位置に、複数の点状のオブジェクトが配置される。そして、対象音声の発信位置が、この複数の点状のオブジェクトに沿って移動するように設定される。これにより、雨の音の発信位置が、点の描かれた順に、複数の点上を移動する立体音響が生成される。
 また例えば、破線状のオブジェクトに沿って対象音声の発信位置が設定された場合には、立体音響データの再生によって、破線に沿って発信位置が変化しつつ、破線の途切れている部分では音声が途切れるように、音声が再生される。
 ・対象音声の発信位置は、オブジェクトに沿って移動するように設定されていれば、描画された順に移動しなくてもよい。例えば、オブジェクトが線状の軌跡線TLである場合には、軌跡線TLの描かれた終点から始点に向かって移動するように、すなわち、描画の進行とは逆方向に、発信位置が設定されてもよい。また例えば、オブジェクトが面状である場合には、ユーザに対して面の奥から手前に向かって移動するように発信位置が設定されてもよい。このように、描画の進行とは異なるように発信位置の移動が設定される場合には、描画後、すなわちオブジェクトの生成後に、入力装置30を通じたユーザからの指示によって、発信位置の移動態様が設定可能であればよい。
 なお、描画の進行に沿って発信位置が設定されれば、より直感的に立体音響の作成が可能である一方、描画の進行とは異なるように発信位置が設定可能であれば、発信位置の移動態様についての自由度が高められ、立体音響にてより多様な表現も可能である。
 ・上記軌跡を示すオブジェクトの生成後に、入力装置30を通じたユーザからの指示によって、オブジェクトの拡大や縮小といった大きさの変更、および、仮想空間VS内でのオブジェクト全体の位置の移動の少なくとも一方が可能であってもよい。これにより、対象音声の発信位置が位置する仮想空間VS内の領域の変更が可能である。こうした構成によれば、一般的な画像の編集と同様に、立体音響の編集が直感的にかつ容易に可能である。
 ・立体音響データにて、音声の発信位置および再生速度以外の要素が設定可能であってもよい。例えば、音声の指向性が設定可能であってもよい。具体的には、音声が発信位置から全方向に発信されるか、例えばユーザに近づく方向やユーザから離れる方向等の特定の方向に発信されるか等が設定可能であってもよい。こうした音声の指向性を規定する情報は、指向性情報として立体音響データに含まれる。
 ・再生速度の基準とされる速度、すなわち、描画速度として記録されている速度は、オブジェクトの生成後に変更可能であってもよい。あるいは、再生速度は、オブジェクトの生成後に変更可能であってもよいし、オブジェクトの描画速度に関わらず任意に設定可能であってもよい。
 ・オブジェクトと対応付けられて発信位置の移動が設定される対象音声が、オブジェクトの生成後に変更可能であってもよい。例えば、対象音声の音色や音の質感が変更可能であってもよい。具体例としては、対象音声が雨の音である場合に、「サーサー」といった弱い雨を示す音声から、「ザーザー」といった強い雨を示す音声に、対象音声が変更可能とされる。また、他の具体例としては、対象音声が足音である場合に、「トントン」といった普通の靴音を示す音声から、「カンカン」といった金属系の乾いた靴音を示す音声に、対象音声が変更可能とされる。このように、対象音声の音色や音の質感の変更によって、対象音声が表現する事象の質感を変更することもできる。
 こうした構成によれば、作成した立体音響を試聴した後に、ユーザのイメージに合うように、音色や音の質感を変えることも可能であり、立体音響を直感的にかつ容易に編集可能である。
 ・対象音声に応じて、オブジェクトの外観が変更されてもよい。例えば、対象音声の音の高低が、オブジェクトの色で表現されてもよい。具体的には、対象音声が高い音である場合、オブジェクトが暖色系の色とされ、対象音声が低い音である場合、オブジェクトが寒色系の色とされる。また例えば、対象音声に反響等の効果が付されている場合、オブジェクトが効果に応じた外観とされてもよい。具体的には、軌跡線TLの太さや質感によって、対象音声に付されている効果が表現されてもよい。また、こうしたオブジェクトの外観は、1つのオブジェクトの中で変化してもよい。なお、対象音声の効果はオブジェクトの生成後に設定可能であってもよい。
 ・立体音響データにて、発信位置に応じた残響効果が音声に付されてもよい。すなわち、仮想空間VSの構造および発信位置に基づき、仮想空間VS内での反響を加味して、残響効果が設定される。
 ・仮想空間VSは、店舗やイベント会場等のように、現実空間と同様にユーザが活動可能な空間であってもよい。そして、ユーザは、こうした仮想空間VS内の構造物や装飾の周囲に音を配置するように、立体音響を作成してもよい。また、仮想空間VSは、既存の仮想空間のデータや、空間の図面データの取り込みに基づき生成されてもよい。
 ・立体音響データの再生に際して、音声の発信位置を示すマークとして、音声に応じた外観のオブジェクトが用いられてもよい。例えば、星形のような装飾的な形状のオブジェクトが用いられてもよいし、音声がカモメの鳴き声である場合にはカモメの形状のオブジェクトが用いられてもよい。
 ・上記軌跡を示すオブジェクトの付近に、軌跡の識別情報が表示されてもよい。識別情報の一例は、ファイル名である。識別情報の表示は、仮想空間VS内に配置されてもよいし、出力装置40における表示画像に含められてもよい。こうした構成によれば、複数の対象音声の各々について軌跡線TL等の上記軌跡を示すオブジェクトが生成された場合に、どの対象音声に対応する軌跡かの識別が容易である。
 ・立体音響データは、発信位置が規定されない、すなわち、ユーザの位置に関わらず所定の音量で出力される音声を示す情報を含んでいてもよく、こうした音声は、立体音響データの再生時にBGMとして機能してもよい。
 ・立体音響データが、発信位置の規定された複数の音声が重ねて出力されるように構成されている場合、各音声の再生開始時間や再生終了時間が音声ごとに任意に設定可能であってもよい。こうした音声ごとの再生の時間軸に関わる調整は、一方の軸を時間軸とする二次元平面を用いて実施可能であってもよい。当該二次元平面は、出力装置40において、仮想空間VSと共に表示されてもよいし、仮想空間VSとは別に表示されてもよい。
 [立体音響再生装置の構成]
 立体音響再生装置50について、制御装置60の詳細な構成を説明する。立体音響再生装置50は、例えばイベント等において、現実空間にいるユーザに、立体音響によって演出される特定の場面、すなわちシーンを提供するために用いられる。
 まず、図7を参照して、制御装置60の機能的構成を説明する。図7に示すように、制御装置60は、制御部61と記憶部62とを備えている。また、制御装置60が、位置検出装置70や入力装置80や出力装置90と通信を行う場合には、制御装置60は、通信部63を備えている。通信部63は、通信先の装置との接続およびデータの送受信等、制御装置60と、位置検出装置70、入力装置80、または、出力装置90との通信処理を行う。
 制御部61は、記憶部22に格納された立体音響再生プログラムを実行することにより、位置管理部61aおよび再生制御部61bとして機能する。
 位置管理部61aは、位置検出装置70からの信号に基づいて、ユーザが実際に存在する三次元空間である現実空間RSでの、ユーザの位置および向きを取得する。現実空間RSでのユーザの位置および向きは、現実空間RSの基準位置に対する相対的な位置および向きであればよい。
 例えば、位置検出装置70がLiDAR(Light Detection And Ranging)等の光を利用したセンサ技術を用いることにより、現実空間RSにおける構造物の配置が三次元的に記録され、各構造物と位置検出装置70との距離の検出に基づいて、ユーザの位置および向きが算出される。
 また、位置管理部61aは、現実空間RSと音響空間ASとを対応付ける。音響空間ASは、記憶部62に格納された立体音響データ62aにて音声の発信位置が規定されている仮想的な三次元空間である。立体音響データ62aが立体音響生成装置10によって生成されたデータである場合、音響空間ASは、仮想空間VSと一致する。
 再生制御部61bは、立体音響データ62aを用いて、位置管理部61aが取得したユーザの位置および向きに応じて、音声の再生を出力装置90の音声出力部に指示する。すなわち、再生制御部61bは、現実空間RSと音響空間ASとの対応付けに基づいて、音響空間ASでの音声の発信位置に対応する現実空間RSの位置とユーザとの位置関係に応じて、音量を制御する。
 また、再生制御部61bは、シーンの切り換えのトリガーとして予め設定されているユーザの位置等の条件が成立したとき、再生される音声の切り替えを出力装置90の音声出力部に指示する。
 記憶部62は、制御部61による処理の実行に必要な各種のプログラムやデータを記憶している。記憶部62は、こうしたプログラムの例として、立体音響再生プログラムを記憶している。また、記憶部62は、こうしたデータの例として、上記立体音響データ62aを記憶している。
 立体音響データ62aは、音声情報と位置情報とを少なくとも含む。音声情報は、上述のように、音の高低および長短の変化の流れを示す情報であり、位置情報は、音声情報が示す音声の発信位置を、音響空間ASにて規定した情報である。立体音響データ62aは、立体音響生成装置10によって生成されたデータであってもよいし、立体音響生成装置10とは異なる装置によって生成されたデータであってもよい。
 続いて、上記機能を有する制御装置60の物理的な構成、すなわちハードウェア構成を説明する。制御装置60は、コンピュータ装置であり、CPU、MPU、GPU等の演算装置である電子回路、ROM、RAM、レジスタードメモリ、アンバッファードメモリ等のメモリ、および、SSD、HDD等のストレージを備える。演算装置は、ストレージからオペレーティングシステムや各種プログラムをメモリにロードし、メモリから取り出した命令を実行する。制御装置60は、ASIC、FPGA等の集積回路を備えてもよい。
 また、制御装置60が通信部63を備える場合、制御装置60は、通信インターフェースを備えている。通信インターフェースは、ハードウェア、ソフトウェア、または、これらの組み合わせとして実装されている。
 図8は、制御装置60のハードウェア構成の一例を示す。制御装置60は、CPU601、通信装置602、ROM603、RAM604、および、ストレージ605を備えている。CPU601と、通信装置602、ROM603、RAM604、および、ストレージ605の各々とは、バス606を介して接続されており、これにより、バス606を通じてデータや信号が伝送される。上記構成においては、CPU601、ROM603、および、RAM604が制御部61に対応し、ストレージ605が記憶部62に対応し、通信装置602が通信部63に対応する。
 なお、制御装置60は、自身が実行する全ての処理についてソフトウェア処理を行うものに限られない。上述のように、制御装置60は、自身が実行する処理の少なくとも一部についてハードウェア処理を行う専用のハードウェア回路(例えば特定用途向け集積回路:ASIC)を備えてもよい。すなわち、制御装置60は、1)コンピュータプログラム(ソフトウェア)に従って動作する1つ以上のプロセッサ、2)各種処理のうち少なくとも一部の処理を実行する1つ以上の専用のハードウェア回路、あるいは3)それらの組み合わせ、を含む回路(circuitry)として構成し得る。プロセッサは、CPU等の演算装置ならびに、RAMおよびROM等のメモリを含み、メモリは、処理を演算装置に実行させるように構成されたプログラムコードまたは指令を格納している。メモリすなわちコンピュータ可読媒体は、汎用または専用のコンピュータでアクセスできるあらゆる利用可能な媒体を含む。
 また、制御装置60の機能は、複数の情報処理装置によって実現されてもよい。1つの情報処理装置は単体のコンピュータ装置である。すなわち、制御装置60は、1または複数の情報処理装置から構成されていればよい。
 [立体音響再生装置の動作]
 図9~図11を参照して、立体音響再生装置50の動作を説明する。図9は、立体音響再生装置50による処理の流れを示す。
 図9に示すように、立体音響再生装置50の利用が開始されると、制御装置60が、現実空間RSと音響空間ASとの対応付けを実施する(ステップS20)。
 図10は、一例として、立体音響再生装置50がスマートフォンである場合を示す。例えば、図10に示すように、制御装置60の指示に基づき、出力装置90の表示部に、現実空間RSにおけるユーザの周囲の像に重ねて、基準位置を定めるためのマークM1が表示される。入力装置80に対して、設定を指示する領域の選択等の所定の操作が行われることにより、現実空間RSの像のなかでマークM1と重ねられた位置が、現実空間RSの基準位置に設定され、マークM1の向きに対応する方向が現実空間RSの基準方向に設定される。現実空間RSにおける位置および方向は、現実空間RSにて予め三次元的に記録された構造物の配置等に基づき特定される。そして、現実空間RSの基準位置および基準方向が、音響空間ASにて予め定められている基準位置および基準方向と一致するように、現実空間RSの位置および方向と音響空間ASの位置および方向とが対応付けられる。
 なお、現実空間RSと音響空間ASとの三次元的な対応付けが可能であれば、その方法は上記とは異なってもよい。例えば、現実空間RSにおけるユーザの位置および向きが、現実空間RSの基準位置および基準方向とされて、音響空間ASの基準位置および基準方向と対応付けられてもよい。こうした構成においては、表示部を利用した現実空間RSの基準位置および基準方向の設定は実施されなくてよく、出力装置90は表示部を含んでいなくてもよいし、さらに、立体音響再生装置50は入力装置80を備えていなくてもよい。また、位置検出装置70は、ユーザとは離れた位置に設置されて、ユーザの位置および向きを検出してもよい。この場合、出力装置90の音声出力部は、ユーザに装着あるいは携帯されてもよいし、ユーザから離れた場所に配置されてもよい。
 また、現実空間RSでの特定の方向が基準方向として予め設定されていてもよい。例えば、大型のディスプレイ等である表示装置が配置され、この表示装置に、立体音響によって演出されるシーンに関連する映像が表示される場合、ユーザに対する表示装置の方向が基準方向とされてもよい。ユーザに対する表示装置の方向は、マーカーやセンサを利用して特定される。こうした構成によれば、立体音響と、基準方向に合わせた映像等である立体音響以外の要素とを組み合わせた演出が可能であるため、ユーザの臨場感や興趣がより高められる。
 続いて、入力装置80に対して再生を指示する所定の操作が行われること等、再生のための所定の条件が満たされると、制御装置60からの指示に基づき、立体音響データ62aに基づく音声が出力装置90の音声出力部によって再生される(ステップS21)。再生可能な立体音響データ62aが複数ある場合には、再生対象の立体音響が、現実空間RSと音響空間ASとの対応付けの前もしくは後に選択されてもよい。
 詳細には、制御装置60は、立体音響データ62aが含む音声情報によって規定される音声が、音響空間ASにて規定されている発信位置に対応する現実空間RSの位置である対応発信位置と、現実空間RSでのユーザの位置とに応じた音量で再生されるように、出力装置90に指示する。音響空間ASでの音声の発信位置は、立体音響データ62aが含む位置情報によって規定されている。
 例えば、対応発信位置とユーザの位置とが近いほど、音量が大きくされる。あるいは、対応発信位置とユーザの位置との距離が所定距離以上である場合に、音声が減衰される。あるいは、対応発信位置とユーザの位置との距離が所定距離以上である場合に、音声が消音される。また、ユーザの位置および向きに対する対応発信位置の方向に応じて、対応発信位置の方から音声が聞こえるように、音声出力部を構成する左右のイヤホンや複数のスピーカーの各々から出力される音声の音量が制御される。
 こうした音量の制御は、ユーザに対する音声出力部の位置を考慮して行われればよい。また、現実空間RSでのユーザの位置や向きが変化した場合には、ユーザの位置から対応発信位置までの距離や方向の変化に応じて、音量が変更される。
 また、立体音響データ62aに、再生速度を示す再生速度情報のように、音声および位置以外の要素を規定する情報が含まれている場合には、こうした要素についても、再生状況に反映される。
 このように、現実空間RSでのユーザの位置や向きに応じて立体音響を構成する音声が再生されることから、ユーザのいる環境と音声とが結びついた印象がユーザに与えられるため、ユーザの臨場感が高められる。
 なお、図9に示したフローにおいて、ステップS20の処理は、位置管理部61aとしての処理であり、ステップS21の処理は、再生制御部61bとしての処理である。
 続いて、トリガーによってシーンが切り換えられる形態について説明する。例として、再生される音声の切り換えにより、第1シーンから第2シーンへとシーンが切り換えられる場合について説明する。例えば、第1シーンは、海上のシーンであり、カモメの音や波の音といった音声が再生される。そして、第2シーンは、海中のシーンであり、飛び込み音や海中の水の流れといった音声が再生される。
 図11に示す立体音響再生装置50による処理の流れのうち、ステップS20およびステップS21の処理は、図9に示した処理と同じである。ステップS21の処理によって、第1シーンに対応する立体音響の音声が再生される。
 第1シーンの音声の再生開始後、制御装置60は、シーンの切り替えのトリガーとして設定されている条件である切替条件が成立したかを判断する(ステップS22)。切換条件が成立していない場合には(ステップS22で否定判定)、制御装置60は、切替条件の成立まで待機する。待機中は、第1シーンに対応する音声の再生が継続される。
 切替条件は、例えば、現実空間RSでのユーザの位置に関する条件を含んでいてもよい。さらに、上記ユーザの位置に関する条件は、現実空間RSでの特定の位置とユーザの位置との関係に関する条件であってもよいし、上記特定の位置は、第2シーンの音声についての上記対応発信位置であってもよい。
 例えば、ユーザが、第1シーンの音声の再生開始時の位置から所定距離だけ移動したことが切替条件とされてもよい。この場合、この条件は、現実空間RSでのユーザの位置に関する条件である。また例えば、現実空間RSの基準位置から所定範囲内もしくは所定範囲外にユーザが移動したことが切替条件とされてもよい。この場合、現実空間RSの基準位置は、上記特定の位置に対応する。また例えば、第2シーンの音声の音響空間ASでの発信位置に対応する現実空間RSでの位置から所定範囲内にユーザが移動したことが切替条件とされてもよい。この場合、この条件は、対応発信位置とユーザの位置との関係に関する条件である。
 また、立体音響再生装置50が検出可能な要素であれば、ユーザの位置以外の要素が、切替条件とされてもよい。例えば、ユーザの身振りや手振りが、切替条件とされてもよいし、制御装置60がサーバであって複数のユーザによる立体音響の再生が並行されている場合、複数のユーザが所定の身振りや手振りを行うことが、切替条件とされてもよい。
 切替条件が成立したと判断される場合(ステップS22で肯定判定)、制御装置60は、第1シーンの音声から第2シーンの音声への再生の切り替えを、出力装置90の音声出力部に指示する(ステップS23)。これにより、第1シーンに替えて第2シーンに対応する立体音響の音声が再生される。すなわち、立体音響データ62aが含む音声情報および位置情報に基づいて、現実空間RSでのユーザの位置や向きに応じた音量で音声が再生される。
 上記構成によれば、例えば、カモメの音や波の音が再生されている海上のシーンから、ユーザが移動して特定の位置に近づくと、飛び込み音に続けて海中の水の流れが再生される海中のシーンに切り替わるというように、物語のような演出が可能である。
 以上のように、シーンの切り替えが行われることで、立体音響によるより多様な演出が可能であり、ユーザの臨場感および興趣が高められる。特に、切替条件が、現実空間RSでのユーザの位置に関する条件を含む場合、ユーザの移動に合わせてシーンが切り換えられるため、現実空間RSとユーザとの空間的な関わりが音声に反映されることから、ユーザの臨場感がより高められる。
 なお、上記では、2つのシーンが切り換えられる例を説明したが、3つ以上のシーンが、それぞれの切替条件の成立を契機に、順に切り替えられてもよい。また、切り替えられる複数のシーンの音声には、立体音響ではない音声、すなわち、発信位置が規定されておらず、ユーザの位置に関わらず所定の音量で出力される音声が含まれてもよい。要は、複数のシーンの少なくとも1つが、立体音響データ62aを用いた音声の再生を伴えばよい。
 [変形例] 
 上述した立体音響再生装置50の構成および動作は下記のように変更されてもよい。
 ・出力装置90の表示部に仮想空間が表示されている状態で、立体音響データ62aを用いた音声が再生されてもよい。仮想空間は、例えば、店舗やイベント会場等のように、現実空間と同様にユーザが活動可能な空間である。この場合、制御装置60は、現実空間RSと音響空間ASとの対応付けに代えて、仮想空間と音響空間ASとの位置および方向を対応付け、音響空間ASにて規定されている音声の発信位置に対応する仮想空間の位置と、仮想空間内でのユーザの位置とに応じた音量で音声が再生されるように、再生を制御する。こうした構成においては、表示部は、制御装置20からのデータに基づく画像を表示すればよく、現実空間の像を視認可能とする必要はない。表示部に表示される仮想空間は、既存の仮想空間のデータや、空間の図面データの取り込みに基づき生成されてもよい。
 以上説明したように、上記実施形態によれば、以下の効果が得られる。
 (1)立体音響生成装置10にて、仮想空間VS内に描かれた軌跡を示すオブジェクトに沿って移動するように、音声の発信位置が設定される。したがって、三次元空間で線や点等を描くことにより、音声の発信位置を三次元的に規定できるため、直感的な動作によって立体音響を作成することができる。
 また、上記オブジェクトが線状であれば、より直感的な動作で、音声の発信位置の移動態様を規定することができる。
 (2)描画速度、すなわち、上記軌跡を描くための動きの速度に応じて音声の再生速度が設定されるため、直感的な動作によって再生速度を規定できる。
 (3)立体音響データが、音声ごとのオブジェクトに沿って発信位置が設定された複数の音声が重ねて出力されるように構成される形態であれば、複数の音声がそれぞれの発信位置から発せられ、かつ発信位置が変化するという複雑な立体音響を、直感的な動作によって容易に作成することができる。
 (4)立体音響生成装置10にて、生成された立体音響データを用いた音声の再生が可能であるため、作成した立体音響の確認が容易であり、ユーザの利便性が高められる。
 (5)立体音響生成装置10にて、立体音響データに基づき再生されている音声の発信位置が、オブジェクト上に示される形態であれば、ユーザは、発信位置の変化を視覚的に把握できるため、作成した立体音響をより直感的に捉えることができる。
 (6)立体音響再生装置50にて、現実空間RSと音響空間ASとが対応付けられ、音響空間ASでの音声の発信位置に対応する現実空間RSの位置と、ユーザの位置との関係に応じた音量で、音声が再生される。したがって、ユーザのいる環境と音声とが結びついた印象がユーザに与えられるため、ユーザの臨場感が高められる。
 (7)立体音響再生装置50にて、所定の条件が成立したとき、再生する音声が切り換えられるため、立体音響によるより多様な演出が可能であり、ユーザの臨場感および興趣が高められる。
 (8)音声の切り換え、すなわちシーンの切り替えの条件が、現実空間RSでのユーザの位置に関する条件を含む場合、ユーザの移動に合わせてシーンが切り換えられるため、現実空間RSとユーザとの空間的な関わりが音声に反映されることから、ユーザの臨場感がより高められる。
 特に、上記条件が、現実空間RSでの特定の位置とユーザの位置との関係に関する条件であれば、上記空間的な関わりとより関連の深い演出が可能であり、上記特定の位置が、音響空間ASでの音声の発信位置に対応する現実空間RSの位置であれば、現実空間RSと立体音響とを効果的に関連付けた演出が可能である。したがって、ユーザの臨場感や興趣が高められる。
 [付記]
 上記各実施形態および変形例から把握できる技術的思想について以下に記載する。
 (A)立体音響生成装置と立体音響再生装置とを備える立体音響システムであって、
 前記立体音響生成装置は、
 入力装置を通じた第1ユーザからの指示に従って、当該指示に対応する動きの軌跡を示すオブジェクトを仮想空間内に配置する描画管理部と、
 選択された音声について、前記オブジェクトに沿って移動するように前記音声の発信位置を設定した立体音響データを生成するデータ生成部と、を備え、
 前記立体音響再生装置は、
 第2ユーザが実在する空間である現実空間での前記第2ユーザの位置を取得するとともに、前記現実空間の位置と前記仮想空間の位置とを対応付ける位置管理部と、
 前記立体音響データを用いた音声の再生を制御する再生制御部であって、前記仮想空間での前記音声の発信位置に対応する前記現実空間の位置が対応発信位置であり、前記対応発信位置と前記第2ユーザの位置との関係に応じた音量での前記音声の再生を、出力装置が有する音声出力部に指示する再生制御部と、を備える
 立体音響システム。
 上記構成によれば、立体音響生成装置を用いることで、三次元空間で線を描くことにより、音声の発信位置を三次元的に規定できるため、第1ユーザは、直感的な動作によって立体音響を作成することができる。そして、立体音響再生装置を用いることで、第2ユーザのいる環境と音声とが結びついた印象が第2ユーザに与えられるため、第2ユーザの臨場感が高められる。
 (B)音声情報と、前記音声情報が示す音声の発信位置を、仮想的な三次元空間である音響空間にて規定した位置情報とを含む立体音響データを用いて、前記音声の再生を制御する立体音響再生装置であって、
 ユーザが実在する空間である現実空間での前記ユーザの位置を取得するとともに、前記現実空間の位置と前記音響空間の位置とを対応付ける位置管理部と、
 前記音響空間での前記音声の発信位置に対応する前記現実空間の位置が対応発信位置であり、前記対応発信位置と前記ユーザの位置との関係に応じた音量での前記音声の再生を、出力装置が有する音声出力部に指示する再生制御部と、を備える
 立体音響再生装置。
 上記構成によれば、現実空間でのユーザの位置に応じた音量で音声が再生されるため、ユーザのいる環境と音声の再生状況とが結びついた印象がユーザに与えられる。それゆえ、ユーザの臨場感が高められる。
 10…立体音響生成装置
 20…制御装置
 30…入力装置
 40…出力装置
 50…立体音響再生装置
 60…制御装置
 70…位置検出装置
 80…入力装置
 90…出力装置
 100…立体音響システム

Claims (15)

  1.  入力装置を通じた第1ユーザからの指示に従って、オブジェクトを仮想空間内に配置する描画管理部と、
     選択された音声について、前記オブジェクトの位置と一致するように前記音声の発信位置を設定した立体音響データを生成するデータ生成部と、を備える
     立体音響生成装置。
  2.  前記描画管理部は、前記オブジェクトとして、前記第1ユーザからの前記指示に対応する動きの軌跡を示すオブジェクトを前記仮想空間内に配置し、
     前記データ生成部は、前記オブジェクトに沿って移動するように前記音声の前記発信位置を設定することにより、前記立体音響データを生成する
     請求項1に記載の立体音響生成装置。
  3.  前記描画管理部が配置する前記オブジェクトには、線状のオブジェクトが含まれる
     請求項2に記載の立体音響生成装置。
  4.  前記立体音響データは、前記音声の再生速度を規定する情報を含み、
     前記データ生成部は、前記音声の再生速度を、前記動きの速度に対応する速度に設定して、前記立体音響データを生成する
     請求項2に記載の立体音響生成装置。
  5.  前記データ生成部は、複数の音声の各々について、前記音声ごとの前記オブジェクトに沿って移動するように各音声の発信位置を設定し、前記複数の音声が重ねて出力されるように構成された前記立体音響データを生成する
     請求項2に記載の立体音響生成装置。
  6.  前記立体音響データに基づいて、設定された前記発信位置に応じた音量での前記音声の再生を、出力装置が有する音声出力部に指示する再生制御部をさらに備える
     請求項2に記載の立体音響生成装置。
  7.  前記立体音響データに基づき再生されている前記音声の前記発信位置を前記オブジェクト上に示した前記仮想空間の画像を、前記出力装置が有する表示部に表示させる
     請求項6に記載の立体音響生成装置。
  8.  請求項1に記載の立体音響生成装置によって生成された前記立体音響データを用いて、音声の再生を制御する立体音響再生装置であって、
     第2ユーザが実在する空間である現実空間での前記第2ユーザの位置を取得するとともに、前記現実空間の位置と前記仮想空間の位置とを対応付ける位置管理部と、
     前記仮想空間での前記音声の前記発信位置に対応する前記現実空間の位置が対応発信位置であり、前記対応発信位置と前記第2ユーザの位置との関係に応じた音量での前記音声の再生を、出力装置が有する音声出力部に指示する再生制御部と、を備える
     立体音響再生装置。
  9.  再生対象の音声の切り換えの条件が設定されており、前記条件が成立したとき、前記再生制御部は、再生する音声の切り替えを前記音声出力部に指示する
     請求項8に記載の立体音響再生装置。
  10.  前記条件は、前記現実空間での前記第2ユーザの位置に関する条件を含む
     請求項9に記載の立体音響再生装置。
  11.  前記条件は、前記現実空間での特定の位置と前記第2ユーザの位置との関係に関する条件を含む
     請求項10に記載の立体音響再生装置。
  12.  前記再生制御部は、前記条件が成立したとき、第1の音声から第2の音声への再生の切り替えを前記音声出力部に指示し、
     前記第2の音声は、前記立体音響データを用いて再生される音声であり、
     前記現実空間での前記特定の位置は、前記第2の音声についての前記対応発信位置である
     請求項11に記載の立体音響再生装置。
  13.  1または複数のコンピュータが、
     入力装置を通じた第1ユーザからの指示に従って、オブジェクトを仮想空間内に配置することと、
     選択された音声について、前記オブジェクトの位置と一致するように前記音声の発信位置を設定した立体音響データを生成することと、を実行する
     立体音響生成方法。
  14.  1または複数のコンピュータに、
     入力装置を通じた第1ユーザからの指示に従って、オブジェクトを仮想空間内に配置することと、
     選択された音声について、前記オブジェクトの位置と一致するように前記音声の発信位置を設定した立体音響データを生成することと、を実行させる
     立体音響生成プログラム。
  15.  請求項14に記載の立体音響生成プログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2023/042057 2022-11-25 2023-11-22 立体音響生成装置、立体音響再生装置、立体音響生成方法、立体音響生成プログラム、および、記録媒体 WO2024111646A1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2022188445 2022-11-25
JP2022-188445 2022-11-25
JP2022188446 2022-11-25
JP2022-188446 2022-11-25

Publications (1)

Publication Number Publication Date
WO2024111646A1 true WO2024111646A1 (ja) 2024-05-30

Family

ID=91196088

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/042057 WO2024111646A1 (ja) 2022-11-25 2023-11-22 立体音響生成装置、立体音響再生装置、立体音響生成方法、立体音響生成プログラム、および、記録媒体

Country Status (1)

Country Link
WO (1) WO2024111646A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020195487A (ja) * 2019-05-31 2020-12-10 株式会社ユニバーサルエンターテインメント 座標データ生成装置及び座標データ生成方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020195487A (ja) * 2019-05-31 2020-12-10 株式会社ユニバーサルエンターテインメント 座標データ生成装置及び座標データ生成方法

Similar Documents

Publication Publication Date Title
US11669298B2 (en) Virtual and real object recording in mixed reality device
KR102609668B1 (ko) 가상, 증강, 및 혼합 현실
US11832086B2 (en) Spatial audio downmixing
JP6055657B2 (ja) ゲームシステム、ゲーム処理制御方法、ゲーム装置、および、ゲームプログラム
KR20150141156A (ko) 오디오 트랙들을 통해 햅틱 효과들을 제공하는 햅틱 디바이스들 및 방법들
CN113508361A (zh) 用于呈现计算机生成现实文件的设备、方法和计算机可读介质
EP3647915A1 (en) Systems and methods for providing customizable haptic playback
JP2008200295A (ja) ゲーム装置、プログラム及び情報記憶媒体
CN113544634A (zh) 用于构成cgr文件的设备、方法和图形用户界面
JP2009505207A (ja) 対話型娯楽システム及びその動作方法
JPH10137445A (ja) ゲーム装置、画像音響処理装置および記録媒体
CN110915240B (zh) 向用户提供交互式音乐创作的方法
WO2024111646A1 (ja) 立体音響生成装置、立体音響再生装置、立体音響生成方法、立体音響生成プログラム、および、記録媒体
Leslie et al. Grainstick: A collaborative, interactive sound installation
JP2002373350A (ja) 画像処理装置
JP6817281B2 (ja) 音声生成プログラム、および音声生成装置
JP7053074B1 (ja) 鑑賞システム、鑑賞装置及びプログラム
WO2023281820A1 (ja) 情報処理装置、情報処理方法、記憶媒体
WO2020100543A1 (ja) 情報処理システム、触覚提示装置、触覚提示方法、および記憶媒体
KR20230073080A (ko) 사용자 입력에 기반하여 사운드를 제공하는 전자 장치 및 그 동작 방법
KR20230073115A (ko) 사용자 입력에 기반하여 사운드를 제공하는 전자 장치 및 그 동작 방법
JP5389876B2 (ja) 音声制御装置、音声制御方法、及び音声制御プログラム
Kajastila Interaction with eyes-free and gestural interfaces
CN115564916A (zh) 虚拟场景的编辑方法、装置、计算机设备及存储介质
Gehring Interactive Entertainment with Three-Dimensional Sound