WO2024014390A1 - 音響信号処理方法、情報生成方法、コンピュータプログラム、及び、音響信号処理装置 - Google Patents

音響信号処理方法、情報生成方法、コンピュータプログラム、及び、音響信号処理装置 Download PDF

Info

Publication number
WO2024014390A1
WO2024014390A1 PCT/JP2023/025120 JP2023025120W WO2024014390A1 WO 2024014390 A1 WO2024014390 A1 WO 2024014390A1 JP 2023025120 W JP2023025120 W JP 2023025120W WO 2024014390 A1 WO2024014390 A1 WO 2024014390A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
information
listener
sound data
wind
Prior art date
Application number
PCT/JP2023/025120
Other languages
English (en)
French (fr)
Inventor
陽 宇佐見
智一 石川
成悟 榎本
康太 中橋
宏幸 江原
摩里子 山田
修二 宮阪
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Publication of WO2024014390A1 publication Critical patent/WO2024014390A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present disclosure relates to an acoustic signal processing method and the like.
  • Patent Document 1 discloses a technology related to a stereophonic sound calculation method, which is an acoustic signal processing method.
  • the volume sound pressure
  • the listener observeer
  • an object of the present disclosure is to provide an acoustic signal processing method that can give a listener a sense of presence.
  • An acoustic signal processing method includes first position information indicating a position of an object in a virtual space, first sound data indicating a first sound caused by the object, and processing means for the first sound data.
  • a determining step of determining a processing means for processing the first sound data a first processing step of processing the first sound data with the determined processing means, and the processed first sound data.
  • an information generation method includes first sound data indicating a first sound occurring at a position related to a position of a listener in a virtual space, and a first position indicating a position of an object in the virtual space.
  • the method includes a first generation step of generating first object audio information including information regarding the object that reproduces sound and the first position information.
  • an acoustic signal processing method includes the first object audio information generated by the above information generation method, the acquired first sound data, and the listener of the first sound. a third obtaining step of obtaining second position information indicating the position of the object, and based on the first position information included in the obtained first object audio information and the second position information obtained, a second calculation step of calculating a distance between an object and the listener; and a second processing step of processing the first sound data so that the volume of the first sound decreases as the calculated distance increases. and a second output step of outputting the processed first sound data.
  • an acoustic signal processing method includes the first object audio information generated by the above information generation method, the acquired first sound data, and the listener of the first sound. a third obtaining step of obtaining second position information indicating the position of the object, and based on the first position information included in the obtained first object audio information and the second position information obtained, a second calculation step of calculating a distance between the object that radiates wind and the listener; and processing the first sound data so that the volume of the first sound decreases as the calculated distance increases. and a second output step of outputting the processed first sound data.
  • an acoustic signal processing method includes the first object audio information generated by the above information generation method, the acquired first sound data, and the listener of the first sound.
  • an acoustic signal processing method includes the first object audio information generated by the information generation method, the acquired first sound data, and the listener of the first sound. a third obtaining step of obtaining second position information indicating the position of the object; and based on the first position information included in the obtained first object audio information and the second position information obtained, a second calculation step of calculating a distance between the object that radiates wind and the listener, and a direction between two points connecting the object and the listener; and a direction between the front direction and the calculated two points.
  • an acoustic signal processing method includes the first object audio information generated by the above information generation method, the acquired first sound data, the first position information, and the object a third acquisition step of acquiring second object audio information associated with second sound data indicating a second sound caused by a sound, and a sound arrives at a first sound signal based on the acquired first sound data; A second sound signal based on the second sound data indicated by the acquired second object audio information is dependent on the direction in which the sound arrives.
  • the method includes a second processing step of convolving a head-related transfer function, and a second output step of outputting the unprocessed first sound signal and the processed second sound signal.
  • an acoustic signal processing method includes the first object audio information generated by the above information generation method, the acquired first sound data, the first position information, and the object a third acquisition step of acquiring second object audio information associated with second sound data indicating a second sound caused by the wind; and wind arrives at the first sound signal based on the acquired first sound data. processing that is direction-dependent, and convolutes a head-related transfer function that is dependent on the direction in which the sound arrives, with a second sound signal based on the second sound data indicated by the acquired second object audio information; and a second output step of outputting the processed first sound signal and the processed second sound signal.
  • an acoustic signal processing method includes the first object audio information generated by the above-described information generation method, the acquired first sound data, and an object different from the object. and acquiring third object audio information in which third position information indicating the position of another object in the virtual space and third sound data indicating a third sound generated at the position of the other object are associated.
  • an information generation method includes a generation position of a first wind blowing in a virtual space, a first wind direction of the first wind, and a first assumed wind speed that is a wind speed of the first wind.
  • a fourth acquisition step of acquiring a second generation step of generating fourth object audio information in which the acquired occurrence position, the first wind direction, and the first assumed wind speed are associated; and a representative wind speed;
  • a third output step of outputting the stored aerodynamic sound core information includes a generation position of a first wind blowing in a virtual space, a first wind direction of the first wind, and a first assumed wind speed that is a wind speed of the first wind.
  • an acoustic signal processing method includes the fourth object audio information and the aerodynamic sound core information output by the above information generation method, and a second object audio information indicating the position of the listener in the virtual space.
  • a third calculation step of calculating the distance of the aerodynamic sound a third processing step of processing the aerodynamic sound data so that the volume of the aerodynamic sound is attenuated as the calculated distance increases; and a fourth output step of outputting data.
  • an acoustic signal processing method includes the fourth object audio information outputted by the above information generation method and the aerodynamic sound core including data indicating a distribution of frequency components of the aerodynamic sound.
  • the method includes a third processing step of processing the aerodynamic sound data so as to shift the aerodynamic sound data, and a fourth outputting step of outputting the processed aerodynamic sound data.
  • an information generation method includes a sixth acquisition step of acquiring a second wind direction of a second wind blowing in a virtual space and a second assumed wind speed that is a wind speed of the second wind; a third generation step of generating fifth object audio information in which the second wind direction and the second assumed wind speed are associated with each other; a storage step of storing aerodynamic sound core information including aerodynamic sound data indicating an aerodynamic sound generated by reaching , and outputting the generated fifth object audio information and the stored aerodynamic sound core information. and a fifth output step.
  • an information generation method includes: a generation position of a first wind blowing in a virtual space, a first direction of the first wind, and a first assumed wind speed that is a wind speed of the first wind; a seventh acquisition step of acquiring a second wind direction of a second wind blowing in the virtual space and a second assumed wind speed that is a wind speed of the second wind, the acquired generation position, the first wind direction, and the second wind speed; a fourth generation step of generating fourth object audio information associated with the first assumed wind speed, and generating fifth object audio information associated with the acquired second wind direction and the second assumed wind speed; , a sixth output step of outputting the generated fourth object audio information and the generated fifth object audio information.
  • the acoustic signal processing method includes second position information indicating the position of the listener in the virtual space, and the fourth object audio information or the fourth object audio information output by the information generation method described above.
  • the aerodynamic sound data included in the aerodynamic sound core information is processed not based on the position indicated by the acquired second position information.
  • a program according to one aspect of the present disclosure causes a computer to execute the above acoustic signal processing method.
  • a program according to one aspect of the present disclosure causes a computer to execute the above information generation method.
  • the acoustic signal processing device includes processing for first position information indicating a position of an object in a virtual space, first sound data indicating a first sound caused by the object, and the first sound data.
  • a first acquisition unit that acquires object information including first identification information indicating a means, and second position information indicating a position of the listener of the first sound in the virtual space;
  • a first calculation unit that calculates a distance between the object and the listener based on the first location information included in the first location information and the second location information that is obtained;
  • a determining unit that determines a processing unit that processes the first sound data among the two processing units;
  • a first processing unit that processes the first sound data with the determined processing unit;
  • a first output section that outputs sound data.
  • the acoustic signal processing method it is possible to provide a listener with a sense of presence.
  • FIG. 1 is a diagram for explaining a first example of aerodynamic noise (wind noise) that occurs as an object moves (changes in position).
  • FIG. 2 is a diagram for explaining a second example of aerodynamic noise (wind noise) that occurs as an object moves (changes in position).
  • FIG. 3 is a diagram for explaining a third example of aerodynamic noise (wind noise) that occurs as an object moves (changes in position).
  • FIG. 4A is a diagram for explaining aerodynamic sound generated when wind radiated from an object reaches the ears of a listener.
  • FIG. 4B is a diagram showing a method of measuring the attenuation of the volume of the second aerodynamic sound depending on the distance from the wind source.
  • FIG. 4C is a diagram showing the measurement results from the experiment described in FIG.
  • FIG. 4B is a diagram showing the frequency characteristics of the collected sound.
  • FIG. 4D is a diagram in which the frequency characteristics of the second aerodynamic sound and the motor sound at each distance are converted into volume and plotted for each distance.
  • FIG. 5A is a diagram illustrating a listener's personal space.
  • FIG. 5B is a diagram showing an immersive audio playback system that is an example of a system to which the audio processing or decoding processing of the present disclosure can be applied.
  • FIG. 5C is a functional block diagram showing the configuration of an encoding device that is an example of the encoding device of the present disclosure.
  • FIG. 5D is a functional block diagram showing the configuration of a decoding device that is an example of the decoding device of the present disclosure.
  • FIG. 5E is a functional block diagram showing the configuration of an encoding device that is another example of the encoding device of the present disclosure.
  • FIG. 5F is a functional block diagram showing the configuration of a decoding device that is another example of the decoding device of the present disclosure.
  • FIG. 5G is a functional block diagram showing the configuration of a decoder that is an example of the decoder in FIG. 5D or 5F.
  • FIG. 5H is a functional block diagram showing the configuration of a decoder that is another example of the decoder in FIG. 5D or 5F.
  • FIG. 5I is a diagram illustrating an example of the physical configuration of an acoustic signal processing device.
  • FIG. 5J is a diagram illustrating an example of the physical configuration of an encoding device.
  • FIG. 6 is a block diagram showing the functional configuration of the acoustic signal processing device according to the embodiment.
  • FIG. 7 is a flowchart of operation example 1 of the acoustic signal processing device according to the embodiment.
  • FIG. 8 is a diagram showing a bat, which is an object, and a listener according to operation example 1.
  • FIG. 9 is a block diagram showing the functional configuration of an acoustic signal processing device according to modification 1.
  • FIG. 10 is a diagram showing four strangers and a listener according to Modification 1.
  • FIG. 11 is a flowchart of the second operation example of the acoustic signal processing device according to the first modification.
  • FIG. 12 is a block diagram showing the functional configuration of an acoustic signal processing device according to modification 2.
  • FIG. 12 is a block diagram showing the functional configuration of an acoustic signal processing device according to modification 2.
  • FIG. 13 is a diagram showing an object and a plurality of sounds according to Modification 2.
  • FIG. 14 is a flowchart of operation example 3 of the acoustic signal processing device according to modification 2.
  • FIG. 15 is a diagram illustrating a case where the object according to Modification 2 is an electric fan.
  • FIG. 16 is a diagram showing a case where the object according to Modification 2 is a zombie.
  • FIG. 17 is a block diagram showing the functional configuration of an information generation device and an acoustic signal processing device according to modification 3.
  • FIG. 18 is a diagram showing a fan, which is an object, and a listener according to Modification 3.
  • FIG. 19 is a diagram for explaining directivity information and unit distance information according to Modification 3.
  • FIG. 20 is a diagram for explaining the processing of the second processing unit according to the third modification.
  • FIG. 21 is a diagram for explaining other processing of the second processing section according to modification example 3.
  • FIG. 22 is a flowchart of operation example 4 of the information generation device according to modification 3.
  • FIG. 23 is a flowchart of operation example 5 of the acoustic signal processing device according to modification 3.
  • FIG. 24 is a block diagram showing the functional configuration of an information generation device and an acoustic signal processing device according to modification 4.
  • FIG. 25 is a diagram for explaining the processing on the first sound data according to the fourth modification.
  • FIG. 26 is a flowchart of operation example 6 of the acoustic signal processing device according to modification 4.
  • FIG. 27 is a flowchart of operation example 7 of the acoustic signal processing device according to modification 4.
  • FIG. 28 is a block diagram showing the functional configuration of an information generation device and an acoustic signal processing device according to modification 5.
  • FIG. 29 is a flowchart of operation example 8 of the acoustic signal processing device according to modification 5.
  • FIG. 30 is a block diagram showing the functional configuration of an information generation device and an acoustic signal processing device according to modification 6.
  • FIG. 31 is a flowchart of operation example 9 of the information generation device according to modification 6.
  • FIG. 32 is a flowchart of operation example 10 of the acoustic signal processing device according to modification example 6.
  • FIG. 33 is a flowchart of operation example 11 of the acoustic signal processing device according to modification 6.
  • FIG. 34 is a block diagram showing the functional configuration of an information generation device and an acoustic signal processing device according to Modification Example 7.
  • FIG. 35 is a diagram illustrating an example of an image displayed on a display unit according to Modification Example 7.
  • FIG. 36 is a flowchart of operation example 12 of the information generation device according to modification example 7.
  • FIG. 37 is a flowchart of operation example 13 of the acoustic signal processing device according to modification 7.
  • FIG. 38 is a block diagram showing the functional configuration of an information generation device and an acoustic signal processing device according to Modification Example 8.
  • FIG. 39 is a flowchart of operation example 14 of the information generation device according to modification 8.
  • FIG. 40 is a diagram showing an example of a functional block diagram and steps for explaining a case where the rendering unit in FIGS. 5G and 5H performs pipeline processing.
  • Patent Document 1 discloses a technology related to a stereophonic sound calculation method, which is an acoustic signal processing method.
  • the volume sound pressure
  • the volume is controlled so that it changes in inverse proportion to the distance between the sound source and the listener (observer). More specifically, the volume is controlled to attenuate inversely as the distance increases. This allows the listener to recognize the distance between the object that emits the sound, that is, the sound source, and the listener himself/herself.
  • the sound that has been controlled in this way can be heard by the user (listener) in virtual reality (VR) or augmented reality (AR). It is used in applications to reproduce three-dimensional sound in a space where
  • Aerodynamic sound is sound based on pressure fluctuations such as air vortices generated when wind collides with an object or when an object moves through the air.
  • FIG. 1 is a diagram for explaining a first example of aerodynamic noise (wind noise) that occurs as an object moves (changes in position).
  • the object is a baseball bat B.
  • this object (bat B) moves (changes in position), that is, when bat B is swung, wind noise is generated.
  • Listener L can recognize that bat B has been swung by listening to this wind noise.
  • the volume of this wind noise attenuates as the distance between the bat B and the listener L increases, and more specifically, it attenuates as the square of the distance between the bat B and the listener L.
  • FIG. 2 is a diagram for explaining a second example of aerodynamic noise (wind noise) that occurs as an object moves (changes in position).
  • the object is an ambulance A.
  • this object ambulance A
  • wind noise is generated.
  • Listener L can recognize that ambulance A is traveling by listening to this wind noise.
  • the volume of this wind noise decreases as the distance between ambulance A and listener L increases. It is attenuated by the square of the distance.
  • ambulance A is also an object that emits a siren sound.
  • the volume of this siren sound attenuates inversely as the distance between the ambulance A and the listener L increases.
  • Patent Document 1 Let us consider a case where the technology disclosed in Patent Document 1 is applied to both wind noise and siren sound from ambulance A in a virtual space.
  • the listener L will hear the siren sound whose volume is controlled to attenuate in inverse proportion to the distance between the ambulance A and the listener L.
  • the siren sound to which the technology disclosed in Patent Document 1 is applied in the virtual space is similar to the siren sound that the listener L hears in the real space, and the listener L is unlikely to feel discomfort.
  • the listener L will also hear wind noise whose volume is controlled to attenuate in inverse proportion to the distance between the ambulance A and the listener L.
  • the wind noise to which the technology disclosed in Patent Document 1 is applied in the virtual space is different from the wind noise that the listener L hears in the real space.
  • the listener L feels uncomfortable, and it is difficult for the listener L to obtain a sense of realism. Therefore, even in such a case, there is a need for an acoustic signal processing method that can give the listener L a sense of presence.
  • the ambulance A is an object that generates multiple sounds (siren sound and wind noise). Such an object is not limited to the ambulance A.
  • FIG. 3 is a diagram for explaining a third example of aerodynamic noise (wind noise) that occurs as an object moves (changes in position).
  • an electric fan F is illustrated as such an object.
  • this electric fan F moves (rotate), wind noise is generated. Similar to the wind noise caused by the bat B and the wind noise caused by the ambulance A, the volume of the wind noise caused by the fan F decreases as the distance between the fan F and the listener L increases. It is attenuated by the square of the distance between the listener L and the listener L. Further, the electric fan F is also an object that emits a motor sound, which is the sound of the motor provided in the electric fan F operating. In real space, the volume of this motor sound attenuates inversely as the distance between the electric fan F and the listener L increases.
  • the electric fan F is also an object that generates multiple sounds (motor sound and wind noise).
  • the first sound is wind noise.
  • a second sound aerodynamic sound generated when wind radiated from an object reaches the listener L's ears, will be described (see Non-Patent Documents 2 and 3).
  • the ear refers to at least one of the pinna and the external ear.
  • Object audio information is, for example, data in which a sound signal (sound data) indicating a sound is associated with position information indicating a position where the sound is generated. For example, consider now the example shown in FIG. 4A.
  • FIG. 4A is a diagram for explaining the aerodynamic sound generated when the wind W radiated from the object reaches the ears of the listener L.
  • This aerodynamic sound which is the second sound, is a sound that is generated depending on the shape of the listener L's ears, for example, when the wind W generated by the electric fan F, which is the object, reaches the listener L.
  • the aerodynamic sound wind noise
  • the second sound that is emitted from the object and reaches listener L's ears.
  • the aerodynamic sound generated when the arriving wind W collides with the ear of the listener L may be referred to as a second aerodynamic sound.
  • the sounds caused by the electric fan F which is an object, are three sounds including the first aerodynamic sound (wind noise) and motor sound described in FIG. 3, and the second aerodynamic sound.
  • the motor sound and the second aerodynamic sound are three sounds including the first aerodynamic sound (wind noise) and motor sound described in FIG. 3, and the second aerodynamic sound.
  • a sound signal (sound data) indicating the motor sound is associated with position information indicating the position where the motor sound is generated.
  • the position where the motor sound is generated is the position of the electric fan F.
  • a sound signal (sound data) indicating the second aerodynamic sound is associated with position information indicating the position where the second aerodynamic sound is generated.
  • the position where the second aerodynamic sound is generated is the position of the listener L.
  • the volume is controlled so that it is attenuated in inverse proportion to the distance between the fan F, which is the position where the motor sound is generated, and the listener L, so that the listener L does not feel uncomfortable. You can hear motor sounds that are difficult to remember.
  • FIG. 4B is a diagram showing a method for measuring the attenuation of the volume of the second aerodynamic sound depending on the distance from the wind source (that is, the position where the wind W is generated (fan F)).
  • the wind source that is, the position where the wind W is generated (fan F)
  • microphones dummy head microphones
  • FIG. 4C is a diagram showing the measurement results from the experiment described in FIG. 4B, and is a diagram showing the frequency characteristics of the collected sound. More specifically, in FIG. 4C (a), the microphone is placed at a 1 m position, in FIG. 4C (b), a microphone is placed at a 2 m position, and in FIG. 4C (c), a microphone is placed at a 4 m position. Indicates when is placed.
  • the line (first line) in which the frequency components of 1 kHz or less are greatly increased indicates the frequency characteristics of the sound collected in the direction in which the wind W hits the microphone. Therefore, the first line shows the frequency characteristic of the sum of the motor sound and the second aerodynamic sound.
  • the other line shows the frequency characteristics of sound collected in a direction where the wind W does not hit the microphone. Therefore, the second line shows the frequency characteristics of only the motor sound.
  • the first and second lines overlap in frequency components of about 1 kHz or more, so the frequency components of the second aerodynamic sound can be represented by the components of the first line of 1 kHz or less. . It goes without saying that the frequency components of the motor sound can be represented by the entire second line.
  • FIG. 4D is a diagram in which the frequency characteristics of the thus identified second aerodynamic sound and motor sound at each distance are converted into volume and plotted for each distance.
  • motor noise tends to attenuate in proportion to distance (inversely proportional to the first power of distance).
  • the second aerodynamic sound tends to be attenuated by the 2.5th power of the distance (inversely proportional to the 2.5th power of the distance).
  • FIG. 4D observation data at positions of 50 cm and 3 m, which are not shown in FIG. 4B, are also plotted.
  • the volume is the same as that of the fan at the position where the wind W is generated.
  • the listener L can hear the second aerodynamic sound that is less likely to make him feel uncomfortable.
  • the distance may be associated with the frequency characteristic of the second aerodynamic sound at that distance, and the frequency characteristic may be acquired using the distance as an index and the volume may be controlled.
  • wind speed attenuates depending on distance, so the wind speed and the frequency characteristics of the second aerodynamic sound at that wind speed are associated, and the frequency characteristics are obtained using the wind speed calculated from the distance as an index.
  • the volume may also be controlled.
  • the inventors of the present application had predicted that the distance attenuation index of the second aerodynamic sound would be 4 (inversely proportional to the fourth power of the distance).
  • the second aerodynamic sound is thought to originate from the so-called cavity sound, which is the aerodynamic sound that occurs when wind hits an object with an uneven surface, and the volume of the cavity sound is amplified in proportion to the fourth power of the wind speed.
  • wind speed is said to be inversely proportional to distance
  • the distance attenuation index of the second aerodynamic sound is about 2.5.
  • the auricle is not a simple cavity, but a cavity with a parabolic shape, so it captures the wind W more efficiently.
  • the above index cannot be limited to 2.5.
  • the second aerodynamic sound originates from the cavity sound, we believe that the above index does not exceed 4.
  • the position where the second aerodynamic sound is generated is the ear position of the listener L. Therefore, even if the listener L moves, the position where the second aerodynamic sound is generated, that is, the distance between the ear position of the listener L and the position of the listener L, is always constant, so the volume of the second aerodynamic sound is However, it cannot be controlled to attenuate according to the distance. Therefore, when the object audio information according to the conventional technology is used, the listener L ends up hearing the second aerodynamic sound that feels strange. Therefore, there is a need for an acoustic signal processing method that can give the listener L a sense of presence.
  • FIG. 5A is a diagram illustrating listener L's personal space.
  • Personal space is the limited range within which you allow others to approach you (listener L in this case), that is, your psychological territory. This indicates that for the listener L in the virtual space, there is a sense of distance between the listener L and the other person that cannot be expressed by physical distance alone. Personal space is classified into four categories: close distance (45 cm or less), individual distance (greater than 45 cm and less than 120 cm), social distance (greater than 120 cm and less than 360 cm), and public distance (greater than 360 cm).
  • the listener L is controlled so that the volume of the other person's voice is attenuated in inverse proportion to the distance between the other person and the listener L, regardless of the relationship between the other person and the listener L. You will hear the voice of the person. In other words, whether the other person is a person with whom listener L has a high degree of familiarity or a person with whom listener L has a low degree of familiarity, the voice of the other person is uniformly controlled to be attenuated.
  • the acoustic signal processing method provides first position information indicating the position of an object in a virtual space, first sound data indicating a first sound caused by the object, and the first sound data.
  • the processing means for the volume of the first sound can be changed according to the first identification information, so that the first sound in the virtual space that the listener hears is different from the one in the real space that the listener listens to.
  • the sound is similar to the first sound, and more specifically, the sound is a reproduction of the first sound in real space. Therefore, the listener is unlikely to feel any discomfort, and the listener can experience a sense of realism. In other words, the acoustic signal processing method can give listeners a sense of realism.
  • the first processing means may process the first sound data so that the volume attenuates in inverse proportion as the calculated distance increases.
  • the second processing means processes the first sound data so that the volume increases or decreases in a manner different from that of the first processing means as the calculated distance increases.
  • the first processing means processes the first sound data so that the volume attenuates inversely as the distance increases, or the first processing means processes the first sound data so that the volume attenuates as the distance increases. Since the second processing means that increases and decreases in different manners is used, the first sound in the virtual space that the listener hears becomes a sound that is more similar to the first sound that the listener hears in the real space. For this reason, the listener is less likely to feel a sense of discomfort, and the listener can experience a greater sense of realism. In other words, the acoustic signal processing method can provide listeners with a greater sense of presence.
  • the acquired object information may include a second sound that is a sound different from the first sound and that is caused by the object. data, and second identification information indicating a processing means for the second sound data, and in the determining step, based on the second identification information included in the acquired object information, the first processing means and the Among the second processing means, a processing means for processing the second sound data is determined, and in the first processing step, the second sound data is processed by the determined processing means, and in the first output step, , outputs the processed second sound data, and the object is an object associated with a plurality of sound data including the first sound data and the second sound data.
  • This is a signal processing method.
  • the processing means for the volume of the second sound can be changed according to the second identification information, so that the second sound in the virtual space that the listener listens to also changes in the real space that the listener listens to.
  • the sound becomes similar to the second sound, and more specifically, the volume balance between the first sound and the second sound changes like the volume balance that occurs in real space, depending on the calculated distance. For this reason, the listener is less likely to feel a sense of discomfort, and the listener can experience a greater sense of realism.
  • the acoustic signal processing method can provide listeners with a greater sense of presence.
  • the second processing means processes the first sound data so that the volume is attenuated by the x power of the distance (x ⁇ 1).
  • the processing means is a processing means for:
  • the second processing means that processes the first sound data so that the volume is attenuated by the x power of the distance.
  • the first identification information includes information that the processing means for the first sound data is the second processing means, and the value of x.
  • the first identification information can indicate that the processing means is the second processing means, and in the first processing step, the first sound data can be processed according to the value of x indicated by the first identification information. can.
  • the first identification information Indicates that the processing means for the data is the second processing means, and that the x is ⁇ , the ⁇ is a real number, and the ⁇ satisfies the following formula, ⁇ >1
  • the first sound data can be processed according to ⁇ , which is the value of x indicated by the first identification information. can.
  • the first identification information indicates that the processing means for the first sound data is the second processing means, and that the x is ⁇ , the ⁇ is a real number, and the ⁇ satisfies the following formula, ⁇ >2
  • the x indicated by the first identification information is The first sound data can be processed according to the value ⁇ .
  • the ⁇ and the ⁇ satisfy the following formula, ⁇
  • This is an acoustic signal processing method according to a seventh aspect.
  • the first sound data can be processed using ⁇ or ⁇ that satisfies ⁇ .
  • the acoustic signal processing method according to the ninth aspect of the present disclosure includes a first reception step of accepting an operation for specifying the value of the ⁇ or the ⁇ from the user, the acoustic signal processing method according to the seventh or eighth aspect. This is a processing method.
  • the first sound data can be processed using the value of ⁇ or ⁇ specified by the user.
  • the first identification information is information indicating whether or not to execute the first processing means
  • the second processing means is processing means for processing the first sound data so that the volume becomes a predetermined value when the calculated distance is within a predetermined threshold.
  • the volume becomes a predetermined value only when the distance is within a predetermined threshold, which makes it possible to produce an unrealistic effect and to create a natural It is possible to use a second processing means for processing the first sound data so as to also provide a distance attenuation effect.
  • the acoustic signal processing method according to the eleventh aspect of the present disclosure is the acoustic signal processing method according to the tenth aspect, in which the predetermined threshold value is a value according to a personal space.
  • the first sound data can be processed using a predetermined threshold value that corresponds to the personal space. It can create a sense of distance.
  • the acoustic signal processing method includes a first reception step of receiving an operation for specifying that the predetermined threshold value is a first specified value from a user.
  • 3 is an acoustic signal processing method according to an embodiment.
  • the first sound data can be processed using the first specified value specified by the user.
  • the information generation method includes first sound data indicating a first sound occurring at a position related to the listener's position in the virtual space, and first sound data indicating the position of the object in the virtual space. and a second acquisition step of acquiring first position information, and from the acquired first sound data and the acquired first position information, a position related to the position of the listener due to the object.
  • the method includes a first generation step of generating first object audio information including information regarding the object that reproduces the first sound and the first position information.
  • first object audio information in which the first sound data indicating the first sound generated at a position related to the listener's position due to the object is associated with the position of the object.
  • this first object audio information is used in an acoustic signal processing method, the first sound data is processed so that the volume of the first sound decreases as the distance between the object and the listener increases.
  • the first sound that the listener hears in the virtual space becomes a sound similar to the first sound that the listener hears in the real space, and more specifically, the first sound that the listener hears in the real space is reproduced. It becomes a sound. Therefore, the listener is unlikely to feel any discomfort, and the listener can experience a sense of realism.
  • the information generation method can give listeners a sense of realism.
  • the object emits wind
  • the listener is exposed to the emitted wind
  • the first sound is emitted from the object.
  • the information generation method according to the thirteenth aspect is an aerodynamic sound generated when the wind reaches the ears of the listener.
  • the first sound can be an aerodynamic sound (second aerodynamic sound) generated when the wind radiated from an object reaches the listener's ears.
  • the first object audio information that further includes unit distance information is generated, and the unit distance information is a reference distance. and aerodynamic sound data indicating the aerodynamic sound at a position separated by the unit distance from the position of the object.
  • first object audio information including unit distance information can be generated.
  • the first sound (second aerodynamic sound) in the virtual space that the listener hears is determined based on the unit distance and the aerodynamic sound data.
  • the sound is more similar to the first sound (second aerodynamic sound) that the listener hears in the real space. For this reason, the listener is less likely to feel a sense of discomfort, and the listener can experience a greater sense of realism. In other words, the information generation method can provide listeners with a greater sense of realism.
  • the first object audio information further including directional information is generated, and the directional information is
  • the aerodynamic sound data shown in the unit distance information is information indicating characteristics according to the direction of the wind, and the aerodynamic sound data shown in the unit distance information is located at the position of the object in the front direction in which the object shown in the directional information radiates the wind.
  • the information generation method according to a fifteenth aspect is data that indicates the aerodynamic sound at a position separated by the unit distance from.
  • first object audio information including directional information can be generated.
  • the first sound (second aerodynamic sound) in the virtual space that the listener hears is based on unit distance, aerodynamic sound data, and directional information. Based on this, the sound becomes more similar to the first sound (second aerodynamic sound) in the real space that the listener hears. For this reason, the listener is less likely to feel a sense of discomfort, and the listener can experience a greater sense of realism. In other words, the information generation method can provide listeners with a greater sense of realism.
  • the first sound data indicating the first sound generated from the object is 13th to 16th aspects of generating the first object audio information further including flag information indicating whether or not to perform a process of convolving a head-related transfer function that depends on the direction in which the sound arrives with the first sound signal based on the first sound signal.
  • first object audio information including flag information can be generated.
  • the first sound in the virtual space that the listener listens to is a head-related transfer function convoluted with the first sound signal based on the first sound data. Since the first sound may be mixed in, the sound becomes more similar to the first sound that the listener hears in the real space. For this reason, the listener is less likely to feel a sense of discomfort, and the listener can experience a greater sense of realism. In other words, the information generation method can provide listeners with a greater sense of realism.
  • the acoustic signal processing method includes the first object audio information generated by the information generation method according to the thirteenth aspect, the acquired first sound data, and the first object audio information generated by the information generation method according to the thirteenth aspect.
  • a second output step of outputting the processed first sound data includes the first object audio information generated by the information generation method according to the thirteenth aspect, the acquired first sound data, and the first object audio information generated by the information generation method according to the thirteenth aspect.
  • first object audio information is acquired in which first sound data indicating a first sound occurring at a position related to the listener's position due to the object is associated with the position of the object. be able to. Therefore, by processing the first sound data so that the volume of the first sound attenuates as the distance between the object and the listener increases, the first sound in the virtual space that the listener hears is The sound is similar to the first sound in the real space that is heard by the user, and more specifically, the sound is a reproduction of the first sound in the real space. Therefore, the listener is unlikely to feel any discomfort, and the listener can experience a sense of realism. In other words, the acoustic signal processing method can give listeners a sense of realism.
  • the acoustic signal processing method includes the first object audio information generated by the information generation method according to the fourteenth aspect, the acquired first sound data, and the first object audio information generated by the information generation method according to the fourteenth aspect.
  • the method includes a second processing step of processing the first sound data, and a second output step of outputting the processed first sound data.
  • an acoustic signal processing method in which the first sound can be made into an aerodynamic sound (second aerodynamic sound) generated when the wind radiated from the object reaches the ears of the listener.
  • the acoustic signal processing method includes the first object audio information generated by the information generation method according to the fifteenth aspect, the acquired first sound data, and the first object audio information generated by the information generation method according to the fifteenth aspect.
  • the first object audio information including unit distance information can be acquired. Therefore, the first sound (second aerodynamic sound) in the virtual space that the listener hears is the first sound (second aerodynamic sound) in the real space that the listener hears, based on the unit distance and aerodynamic sound data.
  • the sound will be more similar. For this reason, the listener is less likely to feel a sense of discomfort, and the listener can experience a greater sense of realism. In other words, the acoustic signal processing method can provide listeners with a greater sense of presence.
  • the acoustic signal processing method includes the first object audio information generated by the information generation method according to the sixteenth aspect, the acquired first sound data, and the first object audio information generated by the information generation method according to the sixteenth aspect.
  • processing the first sound data so that the volume of the first sound is attenuated according to the calculated distance and the unit distance when the calculated distance is larger than the unit distance indicated by 2 processing steps, and a second output step of outputting the processed first sound data.
  • the first object audio information including directional information can be acquired. Therefore, the first sound (second aerodynamic sound) in the virtual space that the listener hears is determined based on the unit distance, aerodynamic sound data, and directional information. 2 aerodynamic sound). For this reason, the listener is less likely to feel a sense of discomfort, and the listener can experience a greater sense of realism. In other words, the acoustic signal processing method can provide listeners with a greater sense of presence.
  • the acoustic signal processing method may include the first object audio information generated by the information generation method according to any one of the thirteenth to sixteenth aspects, the acquired a third acquisition step of acquiring second object audio information in which first sound data and second sound data indicating a second sound caused by the object are associated with the first position information; A first sound signal based on one sound data is not subjected to a process of convolving a head-related transfer function that depends on the direction in which the sound arrives, and is based on the second sound data indicated by the acquired second object audio information. a second processing step of convolving the second sound signal with a head-related transfer function that depends on the direction in which the sound arrives, and convolving the unprocessed first sound signal and the processed second sound signal; and a second output step of outputting.
  • the second sound in the virtual space that the listener hears is convoluted with the head-related transfer function on the second sound signal based on the second sound data, so the second sound in the real space that the listener hears is the same as the second sound in the real space that the listener hears. It becomes a sound similar to , and more specifically, it becomes a sound that reproduces the second sound in real space. For this reason, the listener is less likely to feel a sense of discomfort, and the listener can experience a greater sense of realism. In other words, the acoustic signal processing method can provide listeners with a greater sense of presence.
  • the acoustic signal processing method may include the first object audio information generated by the information generation method according to any one of the fourteenth to sixteenth aspects; a third acquisition step of acquiring second object audio information in which first sound data and second sound data indicating a second sound caused by the object are associated with the first position information; A first sound signal based on one sound data is processed depending on the direction in which the wind arrives, and a second sound signal based on the second sound data indicated by the second object audio information obtained is a second processing step of convolving a head-related transfer function that depends on the direction of arrival; and a second output step of outputting the processed first sound signal and the processed second sound signal.
  • the first sound (second aerodynamic sound) in the virtual space that the listener hears is processed depending on the direction in which the wind arrives in the first sound signal based on the first sound data.
  • the sound is similar to the first sound (second aerodynamic sound) in the real space that the user listens to, and more specifically, the sound is a reproduction of the first sound (second aerodynamic sound) in the real space.
  • the head-related transfer function is convolved with the second sound signal based on the second sound data
  • the second sound in the virtual space that the listener hears becomes the second sound in the real space that the listener hears. It becomes a similar sound, and more specifically, it becomes a sound that reproduces the second sound in real space. For this reason, the listener is less likely to feel a sense of discomfort, and the listener can experience a greater sense of realism.
  • the acoustic signal processing method can provide listeners with a greater sense of presence.
  • the acoustic signal processing method may include the first object audio information generated by the information generation method according to any one of the fourteenth to sixteenth aspects, the acquired one sound data, third position information indicating the position of another object in the virtual space that is an object different from the object, and third sound data indicating a third sound generated at the position of the other object.
  • the acoustic signal processing method can provide listeners with a greater sense of presence.
  • a first assumption that is a generation position of a first wind blowing in a virtual space, a first wind direction of the first wind, and a wind speed of the first wind is provided.
  • the aerodynamic sound data is processed so that the volume of the aerodynamic sound (second aerodynamic sound) is attenuated as the distance between the object and the listener increases.
  • the aerodynamic sound (second aerodynamic sound) that the listener hears in the virtual space becomes a sound similar to the aerodynamic sound (second aerodynamic sound) that the listener hears in the real space, and is more specific.
  • the aerodynamic sound (second aerodynamic sound) in the real space is reproduced. Therefore, the listener is unlikely to feel any discomfort, and the listener can experience a sense of realism.
  • the information generation method can give listeners a sense of realism.
  • the first assumed wind speed is the first assumed wind speed at a position that is a reference distance away from the generation position in the direction of the first wind direction.
  • the wind speed is 1 wind.
  • the wind speed of the first wind at a position a unit distance away can be used as the first assumed wind speed.
  • the information generation method includes a second reception step of accepting an operation from the user to specify that the unit distance is a second designated value. It's a method.
  • the fourth object audio information can be generated using the unit distance that is the second specified value specified by the user.
  • the information generation method includes a second reception step of accepting an operation from a user to designate directional information indicating characteristics according to the direction of the first wind,
  • the fourth object audio information is generated in which the acquired occurrence position, the first wind direction, and the first assumed wind speed are associated with the directional information indicated by the accepted operation.
  • the acoustic signal processing method includes the fourth object audio information and the aerodynamic sound core information output by the information generation method according to any one of the twenty-sixth to twenty-eighth aspects. and second position information indicating the position of the listener in the virtual space, the generation position included in the acquired fourth object audio information, and the second acquired second position information. a third calculation step of calculating a distance between the generation position and the listener based on position information; and a third calculation step of calculating the aerodynamic sound data such that the volume of the aerodynamic sound is attenuated as the calculated distance increases. and a fourth output step of outputting the processed aerodynamic sound data.
  • the aerodynamic sound data is processed so that the volume of the aerodynamic sound (second aerodynamic sound) is attenuated as the distance between the object and the listener increases, so that the aerodynamic sound (second aerodynamic sound) in the virtual space that the listener hears is
  • the second aerodynamic sound) is a sound similar to the aerodynamic sound in real space (second aerodynamic sound) that the listener hears, and more specifically, the aerodynamic sound in real space (second aerodynamic sound) is reproduced.
  • the sound will be as follows. Therefore, the listener is unlikely to feel any discomfort, and the listener can experience a sense of realism. In other words, the acoustic signal processing method can give listeners a sense of realism.
  • the aerodynamic sound data is processed, and the wind speed reaching the ear is such that the wind speed decreases as the calculated distance increases.
  • the aerodynamic sound data is processed based on the wind speed reaching the ears, so the aerodynamic sound (second aerodynamic sound) in the virtual space that the listener hears is different from the aerodynamic sound (second aerodynamic sound) in the real space that the listener hears.
  • the sound is more similar to the second aerodynamic sound).
  • the listener is less likely to feel a sense of discomfort, and the listener can experience a greater sense of realism.
  • the acoustic signal processing method can provide listeners with a greater sense of presence.
  • the wind speed reaching the ear is a value that is attenuated by the z power of a value obtained by dividing the calculated distance by the unit distance.
  • the aerodynamic sound (second aerodynamic sound) in the virtual space that the listener hears is different from the aerodynamic sound (second aerodynamic sound) in the real space that the listener hears. ), the sound is more similar to For this reason, the listener is less likely to feel a sense of discomfort, and the listener can experience a greater sense of realism. In other words, the acoustic signal processing method can provide listeners with a greater sense of presence.
  • the aerodynamic sound (second aerodynamic sound) in the virtual space that the listener hears is different from the aerodynamic sound (second aerodynamic sound) in the real space that the listener hears. ), the sound is more similar to For this reason, the listener is less likely to feel a sense of discomfort, and the listener can experience a greater sense of realism. In other words, the acoustic signal processing method can provide listeners with a greater sense of presence.
  • the volume of the aerodynamic sound is attenuated by the ⁇ power of the value obtained by dividing the representative wind speed by the ear-reaching wind speed.
  • This is the acoustic signal processing method according to the 31st aspect, which processes the aerodynamic sound data.
  • the aerodynamic sound data is processed so that the volume of the aerodynamic sound (second aerodynamic sound) becomes a more accurate volume, so that the aerodynamic sound (second aerodynamic sound) heard by the listener in the virtual space is The sound is more similar to the aerodynamic sound (second aerodynamic sound) in the real space that the listener hears. For this reason, the listener is less likely to feel a sense of discomfort, and the listener can experience a greater sense of realism. In other words, the acoustic signal processing method can provide listeners with a greater sense of presence.
  • the ⁇ and the z satisfy the following formula, ⁇ z ⁇ 4
  • the aerodynamic sound (second aerodynamic sound) in the virtual space that the listener hears is different from the aerodynamic sound (second aerodynamic sound) in the real space that the listener hears. ), the sound is more similar to For this reason, the listener is less likely to feel a sense of discomfort, and the listener can experience a greater sense of realism. In other words, the acoustic signal processing method can provide listeners with a greater sense of presence.
  • the acoustic signal processing method may include the fourth object audio information outputted by the information generation method according to any one of the twenty-sixth to twenty-eighth aspects, and the aerodynamic sound a fifth acquisition step of acquiring the aerodynamic sound core information including data indicating the distribution of frequency components of the sound and second position information indicating the position of the listener in the virtual space; and the acquired fourth object audio.
  • the method includes a third processing step of processing the aerodynamic sound data so as to shift the distribution of the frequency components of the aerodynamic sound to a lower frequency side, and a fourth outputting step of outputting the processed aerodynamic sound data.
  • the fifth acquisition step it is possible to acquire the fourth object audio information in which the occurrence position, the first wind direction, and the first assumed wind speed are associated. Therefore, as the distance between the object and the listener increases, the distribution of the frequency components of the aerodynamic sound (second aerodynamic sound) is shifted to the lower frequency side.
  • the aerodynamic sound in the virtual space (second aerodynamic sound) that the listener hears is similar to the aerodynamic sound in the real space (second aerodynamic sound), and more specifically, the aerodynamic sound in the real space. (second aerodynamic sound) becomes the reproduced sound. Therefore, the listener is unlikely to feel any discomfort, and the listener can experience a sense of realism. In other words, the acoustic signal processing method can give listeners a sense of realism.
  • the third processing step based on the ear-reaching wind speed that is the wind speed of the first wind when it reaches the ear of the listener,
  • the acoustic signal processing method according to the thirty-fifth aspect, wherein the aerodynamic sound data is processed, and the wind speed reaching the ear is such that the wind speed decreases as the calculated distance increases.
  • the aerodynamic sound data is processed based on the wind speed reaching the ears, so the aerodynamic sound (second aerodynamic sound) in the virtual space that the listener hears is different from the aerodynamic sound (second aerodynamic sound) in the real space that the listener hears.
  • the sound is more similar to the second aerodynamic sound).
  • the listener is less likely to feel a sense of discomfort, and the listener can experience a greater sense of realism.
  • the acoustic signal processing method can provide listeners with a greater sense of presence.
  • the wind speed reaching the ear is a value that is attenuated by the z power of a value obtained by dividing the calculated distance by the unit distance.
  • the aerodynamic sound (second aerodynamic sound) in the virtual space that the listener hears is different from the aerodynamic sound (second aerodynamic sound) in the real space that the listener hears. ), the sound is more similar to For this reason, the listener is less likely to feel a sense of discomfort, and the listener can experience a greater sense of realism. In other words, the acoustic signal processing method can provide listeners with a greater sense of presence.
  • the aerodynamic sound (second aerodynamic sound) in the virtual space that the listener hears is different from the aerodynamic sound (second aerodynamic sound) in the real space that the listener hears. ), the sound is more similar to For this reason, the listener is less likely to feel a sense of discomfort, and the listener can experience a greater sense of realism. In other words, the acoustic signal processing method can provide listeners with a greater sense of presence.
  • the distribution of the frequency components of the aerodynamic sound is the opposite of the value obtained by dividing the representative wind speed by the ear-reaching wind speed.
  • the aerodynamic sound (second aerodynamic sound) in the virtual space that the listener hears is different from the aerodynamic sound (second aerodynamic sound) in the real space that the listener hears. ), the sound is more similar to For this reason, the listener is less likely to feel a sense of discomfort, and the listener can experience a greater sense of realism. In other words, the acoustic signal processing method can provide listeners with a greater sense of presence.
  • the information generation method includes a sixth acquisition step of acquiring a second wind direction of a second wind blowing in the virtual space and a second assumed wind speed that is the wind speed of the second wind.
  • a fifth output step of outputting includes a sixth acquisition step of acquiring a second wind direction of a second wind blowing in the virtual space and a second assumed wind speed that is the wind speed of the second wind.
  • the information generation method can give listeners a sense of realism.
  • a first assumption that is a generation position of a first wind blowing in a virtual space, a first wind direction of the first wind, and a wind speed of the first wind is provided.
  • fourth object audio information in which the occurrence position, first wind direction, and first assumed wind speed are associated
  • fifth object audio information in which the second wind direction and second assumed wind speed are associated.
  • This allows two types of wind to be created in the same virtual space: wind whose source can be identified (fans, exhaust vents, vents, etc.) and wind whose source cannot be identified (naturally occurring breeze, etc.). storms, etc.) can be generated.
  • this fourth object audio information is used in the acoustic signal processing method, the aerodynamic sound data is processed based on the position indicated by the second position information, so that the aerodynamic sound data is processed based on the position indicated by the second position information.
  • the aerodynamic sound caused by the first wind is similar to the aerodynamic sound caused by the first wind (second aerodynamic sound) in the real space that the listener hears, and more specifically, in the real space.
  • the aerodynamic sound (second aerodynamic sound) caused by the first wind is reproduced.
  • this fifth object audio information is used in the acoustic signal processing method, the aerodynamic sound data is processed not based on the position indicated by the second position information, so that the aerodynamic sound data is processed in the virtual space where the listener listens.
  • the aerodynamic sound caused by the second wind is a sound similar to the aerodynamic sound caused by the second wind (second aerodynamic sound) in the real space that the listener hears, and more specifically, This is the sound that reproduces the aerodynamic sound caused by the second wind (second aerodynamic sound). Therefore, the listener is unlikely to feel any discomfort, and the listener can experience a sense of realism. In other words, the information generation method can give listeners a sense of realism.
  • the generated fourth object audio information is This is an information generation method according to a forty-first aspect.
  • the information generation method can determine whether or not the fourth object audio information can be output based on the generation position.
  • the generated fifth object audio information is This is an information generation method according to a forty-second aspect.
  • the information generation method can determine whether to output the fifth object audio information according to the generation position.
  • the information generation method may include a representative wind speed and aerodynamic sound data indicating aerodynamic sound generated when the wind at the representative wind speed reaches the listener's ears in the virtual space.
  • the information generation method includes a storing step of storing aerodynamic sound core information including the aerodynamic sound core information, and the sixth output step outputs the stored aerodynamic sound core information.
  • the aerodynamic sound core information can be commonly applied to the first wind and the second wind.
  • the memory area for storing information can be reduced, and the aerodynamic sound (secondary aerodynamic sound) caused by the first wind in the virtual space that the listener hears is the same as that of the first wind in the real space that the listener hears.
  • the sound is similar to aerodynamic sound (secondary aerodynamic sound), and the aerodynamic sound (secondary aerodynamic sound) caused by the second wind in the virtual space that the listener hears is the same as the aerodynamic sound caused by the second wind in the real space that the listener hears.
  • the sound is similar to the second aerodynamic sound. Therefore, the listener is unlikely to feel any discomfort, and the listener can experience a sense of realism. In other words, the information generation method can give listeners a sense of realism.
  • the information generation method includes the step of displaying an image in which a wind speed and a word expressing the wind speed are linked, and the image displayed as the first assumed wind speed.
  • information according to a forty-fourth aspect, comprising: accepting a first operation for specifying the wind speed indicated by the image; and accepting a second operation for specifying the wind speed indicated by the image displayed as the second assumed wind speed; This is the generation method.
  • the wind speed specified by the user can be used as the first assumed wind speed, and the wind speed specified by the user can be used as the second assumed wind speed.
  • the acoustic signal processing method may include second position information indicating the position of the listener in the virtual space, and the fourth position information outputted by the information generation method according to the forty-fourth aspect.
  • the aerodynamic sound data included in the aerodynamic sound core information is processed based on the position indicated by the acquired second position information. and a seventh output step of outputting the processed aerodynamic sound data.
  • the fourth object audio information or the fifth object audio information can be acquired. Therefore, by processing the aerodynamic sound data based on the position indicated by the second position information, the aerodynamic sound caused by the first wind (second aerodynamic sound) in the virtual space that the listener hears is The sound is similar to the aerodynamic sound caused by the first wind (second aerodynamic sound) in real space, and more specifically, the sound is a reproduction of the aerodynamic sound caused by the first wind (second aerodynamic sound) in real space. Become.
  • the aerodynamic sound caused by the second wind (second aerodynamic sound) in the virtual space that the listener hears is The sound is similar to the aerodynamic sound caused by the second wind in the real space (second aerodynamic sound), and more specifically, the sound is a reproduction of the aerodynamic sound caused by the second wind in the real space (second aerodynamic sound). becomes. Therefore, the listener is unlikely to feel any discomfort, and the listener can experience a sense of realism. In other words, the acoustic signal processing method can give listeners a sense of realism.
  • a computer program according to a forty-seventh aspect of the present disclosure is a computer program for causing a computer to execute the acoustic signal processing method described above.
  • the computer can execute the above acoustic signal processing method according to the computer program.
  • a computer program according to a forty-eighth aspect of the present disclosure is a computer program for causing a computer to execute the information generation method described above.
  • the computer can execute the above information generation method according to the computer program.
  • the acoustic signal processing device provides first position information indicating a position of an object in a virtual space, first sound data indicating a first sound caused by the object, and the first sound data.
  • a first acquisition unit that acquires object information including first identification information indicating a processing means and second position information indicating a position of a listener of the first sound in the virtual space; and the acquired object information.
  • a first calculation unit that calculates a distance between the object and the listener based on the first position information included in the first position information and the second position information acquired; 1 processing means for processing the volume according to the calculated distance based on the first identification information; and processing the volume according to the distance calculated in a manner different from the first processing means.
  • a determining section that determines the processing means that processes the first sound data
  • a first processing section that processes the first sound data with the determined processing means
  • a first processing section that processes the first sound data with the determined processing means
  • a first output section that outputs one-tone data.
  • the processing means for the volume of the first sound can be changed according to the first identification information, so that the first sound in the virtual space that the listener hears is different from the one in the real space that the listener listens to.
  • the sound is similar to the first sound, and more specifically, the sound is a reproduction of the first sound in real space. Therefore, the listener is unlikely to feel any discomfort, and the listener can experience a sense of realism. In other words, the acoustic signal processing device can give listeners a sense of realism.
  • ordinal numbers such as first and second are sometimes attached to elements. These ordinal numbers are attached to elements to identify them and do not necessarily correspond to any meaningful order. These ordinal numbers may be replaced, newly added, or removed as appropriate.
  • each figure is a schematic diagram and is not necessarily strictly illustrated. Therefore, the scale etc. of each figure do not necessarily match.
  • substantially the same configurations are denoted by the same reference numerals, and overlapping explanations will be omitted or simplified.
  • FIG. 5B is a diagram showing an immersive audio playback system A0000, which is an example of a system to which the audio processing or decoding processing of the present disclosure can be applied.
  • the stereophonic sound reproduction system A0000 includes an audio signal processing device A0001 and an audio presentation device A0002.
  • the audio signal processing device A0001 performs audio processing on the audio signal emitted by the virtual sound source, and generates an audio signal after the audio processing that is presented to the listener (that is, the listener).
  • the audio signal is not limited to voices, but may be any audible sound.
  • Acoustic processing is, for example, a signal applied to an audio signal in order to reproduce one or more sound-related effects that a sound generated from a sound source undergoes from the time the sound is emitted until the listener hears it. It is processing.
  • the acoustic signal processing device A0001 performs acoustic processing based on information describing factors that cause the above-mentioned sound-related effects.
  • the spatial information includes, for example, information indicating the positions of sound sources, listeners, and surrounding objects, information indicating the shape of the space, parameters related to sound propagation, and the like.
  • the acoustic signal processing device A0001 is, for example, a PC (Personal Computer), a smartphone, a tablet, or a game console.
  • the signal after the acoustic processing is presented to the listener (user) from the audio presentation device A0002.
  • the audio presentation device A0002 is connected to the audio signal processing device A0001 via wireless or wired communication.
  • the acoustically processed audio signal generated by the audio signal processing device A0001 is transmitted to the audio presentation device A0002 via wireless or wired communication.
  • the audio presentation device A0002 is configured with a plurality of devices such as a right ear device and a left ear device
  • the acoustic signal processing device A0001 communicates between the plurality of devices or with each of the plurality of devices. Now, multiple devices can synchronize and present sound.
  • the audio presentation device A0002 is, for example, a headphone, an earphone, a head-mounted display that is worn on the listener's head, or a surround speaker configured with a plurality of fixed speakers.
  • stereophonic sound reproduction system A0000 may be used in combination with an image presentation device or a stereoscopic video presentation device that visually provides an ER (Extended Reality) experience including AR/VR.
  • FIG. 5B shows an example of a system configuration in which the acoustic signal processing device A0001 and the audio presentation device A0002 are separate devices
  • a stereophonic sound reproduction system to which the acoustic signal processing method or decoding method of the present disclosure is applicable is not limited to the configuration of FIG. 5B.
  • the audio signal processing device A0001 may be included in the audio presentation device A0002, and the audio presentation device A0002 may perform both audio processing and sound presentation.
  • the acoustic signal processing device A0001 and the audio presentation device A0002 may share the audio processing described in this disclosure, or may be connected to the audio signal processing device A0001 or the audio presentation device A0002 via a network.
  • a server may perform some or all of the audio processing described in this disclosure.
  • the audio signal processing device A0001 is referred to as the audio signal processing device A0001, but the audio signal processing device A0001 decodes a bit stream generated by encoding at least a part of data of the audio signal or spatial information used for audio processing.
  • the audio signal processing device A0001 may be called a decoding device.
  • FIG. 5C is a functional block diagram showing the configuration of encoding device A0100, which is an example of the encoding device of the present disclosure.
  • Input data A0101 is data to be encoded that includes spatial information and/or audio signals that are input to encoder A0102. Details of the spatial information will be explained later.
  • Encoder A0102 encodes input data A0101 to generate encoded data A0103.
  • the encoded data A0103 is, for example, a bitstream generated by encoding processing.
  • Memory A0104 stores encoded data A0103.
  • the memory A0104 may be, for example, a hard disk, an SSD (Solid-State Drive), or other memory.
  • the encoding device A0100 may store converted data generated by converting a bitstream into a predetermined data format in the memory A0104.
  • the converted data may be, for example, a file containing one or more bitstreams or a multiplexed stream.
  • the file is a file having a file format such as ISOBMFF (ISO Base Media File Format).
  • the encoded data A0103 is in the format of multiple packets generated by dividing the above bitstream or file.
  • the encoding device A0100 may include a conversion unit (not shown) or a CPU (Central Processing The conversion process may be performed by Unit.
  • FIG. 5D is a functional block diagram showing the configuration of a decoding device A0110, which is an example of a decoding device of the present disclosure.
  • the memory A0114 stores, for example, the same data as the encoded data A0103 generated by the encoding device A0100. Memory A0114 reads the stored data and inputs it as input data A0113 to decoder A0112. Input data A0113 is, for example, a bitstream to be decoded.
  • the memory A0114 may be, for example, a hard disk or SSD, or other memory.
  • the decoding device A0110 may not directly use the data stored in the memory A0114 as the input data A0113, but may use converted data generated by converting the read data as the input data A0113.
  • the data before conversion may be, for example, multiplexed data storing one or more bitstreams.
  • the multiplexed data may be a file having a file format such as ISOBMFF, for example.
  • the data before conversion may be in the form of a plurality of packets generated by dividing the above bitstream or file.
  • the decoding device A0110 may include a conversion unit (not shown) or may perform the conversion process using a CPU.
  • Decoder A0112 decodes input data A0113 to generate audio signal A0111 to be presented to the listener.
  • FIG. 5E is a functional block diagram showing the configuration of encoding device A0120, which is another example of the encoding device of the present disclosure.
  • components having the same functions as those in FIG. 5C are given the same reference numerals as those in FIG. 5C, and descriptions of these components will be omitted.
  • the encoding device A0100 stores the encoded data A0103 in the memory A0104, whereas the encoding device A0120 differs from the encoding device A0100 in that it includes a transmitter A0121 that transmits the encoded data A0103 to the outside. .
  • the transmitter A0121 transmits a transmission signal A0122 to another device or server based on the encoded data A0103 or data in another data format generated by converting the encoded data A0103.
  • the data used to generate the transmission signal A0122 is, for example, the bit stream, multiplexed data, file, or packet described in connection with the encoding device A0100.
  • FIG. 5F is a functional block diagram showing the configuration of a decoding device A0130, which is another example of the decoding device of the present disclosure.
  • FIG. 5F components having the same functions as those in FIG. 5D are given the same reference numerals as those in FIG. 5D, and descriptions of these components will be omitted.
  • the decoding device A0110 reads the input data A0113 from the memory A0114, whereas the decoding device A0130 differs from the decoding device A0110 in that it includes a receiving section A0131 that receives the input data A0113 from the outside.
  • the receiving unit A0131 receives the received signal A0132, acquires received data, and outputs input data A0113 that is input to the decoder A0112.
  • the received data may be the same as the input data A0113 input to the decoder A0112, or may be data in a data format different from the input data A0113. If the received data is in a data format different from the input data A0113, the receiving unit A0131 may convert the received data into the input data A0113, or the converting unit (not shown) included in the decoding device A0130 or the CPU converts the received data. may be converted into input data A0113.
  • the received data is, for example, the bit stream, multiplexed data, file, or packet described in connection with the encoding device A0120.
  • FIG. 5G is a functional block diagram showing the configuration of decoder A0200, which is an example of decoder A0112 in FIG. 5D or 5F.
  • the input data A0113 is a coded bitstream and includes coded audio data, which is a coded audio signal, and metadata used for audio processing.
  • the spatial information management unit A0201 acquires the metadata included in the input data A0113 and analyzes the metadata.
  • the metadata includes information describing elements that act on sounds that are placed in the sound space.
  • the spatial information management unit A0201 manages spatial information necessary for audio processing obtained by analyzing metadata, and provides the spatial information to the rendering unit A0203.
  • the information used for acoustic processing is called spatial information in this disclosure, it may be called by other names.
  • the information used for the acoustic processing may be called, for example, sound space information or scene information.
  • the spatial information input to the rendering unit A0203 may be called a spatial state, a sound spatial state, a scene state, or the like.
  • spatial information may be managed for each sound space or for each scene. For example, when expressing different rooms as virtual spaces, each room may be managed as a scene with a different sound space, or even if the space is the same, spatial information may be managed as different scenes depending on the scene to be expressed. Good too.
  • an identifier for identifying each piece of spatial information may be assigned.
  • the spatial information data may be included in a bitstream that is a form of input data, or the bitstream may include a spatial information identifier and the spatial information data may be obtained from a source other than the bitstream. If the bitstream includes only a spatial information identifier, the spatial information identifier is used during rendering, even if the spatial information data stored in the memory of the acoustic signal processing device A0001 or an external server is acquired as input data. good.
  • the information managed by the spatial information management unit A0201 is not limited to the information included in the bitstream.
  • the input data A0113 may include data that is not included in the bitstream and indicates the characteristics or structure of a space obtained from a software application or server that provides VR or AR.
  • the input data A0113 may include data indicating the characteristics or position of the listener or object, as data not included in the bitstream.
  • the input data A0113 includes information indicating the position of the listener acquired by a sensor included in the terminal including the decoding device, or information indicating the position of the terminal estimated based on the information acquired by the sensor. It's okay to stay.
  • the spatial information management unit A0201 may communicate with an external system or server to acquire spatial information and the position of the listener.
  • the spatial information management unit A0201 may acquire clock synchronization information from an external system and perform processing to synchronize with the clock of the rendering unit A0203.
  • the space in the above description may be a virtually created space, that is, a VR space, or may be a real space (that is, a real space) or a virtual space corresponding to a real space, that is, an AR space or an MR ( It may be a mixed reality space.
  • the virtual space may be called a sound field or a sound space.
  • the information indicating the position in the above explanation may be information such as coordinate values indicating the position in space, information indicating a relative position with respect to a predetermined reference position, or information indicating the position in space. It may also be information indicating positional movement or acceleration.
  • the audio data decoder A0202 decodes the encoded audio data included in the input data A0113 to obtain an audio signal.
  • the encoded audio data acquired by the stereophonic sound reproduction system A0000 is, for example, a bitstream encoded in a predetermined format such as MPEG-H 3D Audio (ISO/IEC 23008-3).
  • MPEG-H 3D Audio is only an example of an encoding method that can be used to generate encoded audio data included in a bitstream, and bitstreams and encoded audio encoded with other encoding methods can be used. It may be included as data.
  • the encoding methods used are MP3 (MPEG-1 Audio Layer-3), AAC (Advanced Audio Coding), WMA (Windows Media Audio), AC3 (Audio Codec-3), Vorb If you use a lossy codec such as Alternatively, a reversible codec such as ALAC (Apple Lossless Audio Codec) or FLAC (Free Lossless Audio Codec) may be used, or any encoding method other than the above may be used.
  • PCM pulse code modulation
  • data may be a type of encoded audio data.
  • the decoding process may also be a process of converting an N-bit binary number into a number format (e.g., floating point format) that can be processed by the rendering unit A0203. good.
  • a number format e.g., floating point format
  • the rendering unit A0203 receives the audio signal and the spatial information, performs acoustic processing on the audio signal using the spatial information, and outputs the audio signal A0111 after the acoustic processing.
  • the spatial information management unit A0201 Before starting rendering, the spatial information management unit A0201 reads the metadata of the input signal, detects rendering items such as objects or sounds defined by the spatial information, and sends them to the rendering unit A0203. After the rendering starts, the spatial information management unit A0201 grasps temporal changes in the spatial information and the position of the listener, updates and manages the spatial information. Then, the spatial information management unit A0201 transmits the updated spatial information to the rendering unit A0203. The rendering unit A0203 generates and outputs an audio signal to which acoustic processing has been added based on the audio signal included in the input data and the spatial information received from the spatial information management unit A0201.
  • the spatial information update process and the audio signal output process with added acoustic processing may be executed in the same thread, or the spatial information management unit A0201 and the rendering unit A0203 may be allocated to separate threads. . If spatial information update processing and audio signal output processing with acoustic processing are processed in different threads, the startup frequency of the threads may be set individually, or the processing may be executed in parallel. good.
  • the spatial information may be updated periodically at preset times or periods, or may be updated when preset conditions are met. Furthermore, the spatial information may be updated manually by the listener or the administrator of the sound space, or may be triggered by a change in the external system. For example, a listener can operate a controller to instantaneously warp the standing position of their avatar, instantaneously advance or reverse the time, or the administrator of a virtual space can suddenly change the environment of the place. In such a case, the thread in which the spatial information management unit A0201 is arranged may be activated as a one-time interrupt process in addition to regular activation.
  • the role of the information update thread that executes spatial information update processing is, for example, to update the position or orientation of the listener's avatar placed in the virtual space based on the position or orientation of the VR goggles worn by the listener. , and the position of an object moving in the virtual space, which are performed within a processing thread that is started at a relatively low frequency of about several tens of Hz. Processing that reflects the nature of the direct sound may be performed in such a processing thread that occurs less frequently. This is because the nature of direct sound changes less frequently than the frequency of occurrence of audio processing frames for audio output. Rather, by doing so, the computational load of the process can be relatively reduced, and if information is updated unnecessarily quickly, there is a risk of generating pulseive noise, so this risk can also be avoided. can.
  • FIG. 5H is a functional block diagram showing the configuration of decoder A0210, which is another example of decoder A0112 in FIG. 5D or 5F.
  • FIG. 5H differs from FIG. 5G in that the input data A0113 includes an uncoded audio signal instead of encoded audio data.
  • Input data A0113 includes a bitstream including metadata and an audio signal.
  • the spatial information management unit A0211 is the same as the spatial information management unit A0201 in FIG. 5G, so a description thereof will be omitted.
  • the rendering unit A0213 is the same as the rendering unit A0203 in FIG. 5G, so a description thereof will be omitted.
  • the configuration in FIG. 5H is called a decoder, but it may also be called an audio processing unit that performs audio processing.
  • a device including the audio processing unit may be called an audio processing device instead of a decoding device.
  • the acoustic signal processing device A0001 may be called an acoustic processing device.
  • FIG. 5I is a diagram illustrating an example of the physical configuration of an acoustic signal processing device. Note that the acoustic signal processing device in FIG. 5I may be a decoding device. Further, a part of the configuration described here may be included in the audio presentation device A0002. Further, the acoustic signal processing device shown in FIG. 5I is an example of the above-mentioned acoustic signal processing device A0001.
  • the acoustic signal processing device in FIG. 5I includes a processor, a memory, a communication IF, a sensor, and a speaker.
  • the processor is, for example, a CPU (Central Processing Unit), a DSP (Digital Signal Processor), or a GPU (Graphics Processing Unit), and the CPU, DSP, or GPU stores information in a memory.
  • the sound processing of the present disclosure or Decoding processing may also be performed.
  • the processor may be a dedicated circuit that performs signal processing on audio signals, including the acoustic processing of the present disclosure.
  • the memory is composed of, for example, RAM (Random Access Memory) or ROM (Read Only Memory).
  • the memory may include a magnetic storage medium such as a hard disk or a semiconductor memory such as a solid state drive (SSD).
  • SSD solid state drive
  • the term "memory” may include an internal memory built into a CPU or GPU.
  • the communication IF Inter Face
  • the acoustic signal processing device shown in FIG. 5I has a function of communicating with other communication devices via a communication IF, and acquires a bitstream to be decoded.
  • the obtained bitstream is stored in a memory, for example.
  • the communication module is composed of, for example, a signal processing circuit and an antenna compatible with the communication method.
  • Bluetooth registered trademark
  • WIGIG registered trademark
  • LTE Long Term Evolution
  • NR New Radio
  • Wi-Fi registered trademark
  • the communication IF is not a wireless communication method as described above, but a wired communication method such as Ethernet (registered trademark), USB (Universal Serial Bus), or HDMI (registered trademark) (High-Definition Multimedia Interface). Good too.
  • the sensor performs sensing to estimate the position or orientation of the listener. Specifically, the sensor detects the position of the listener based on the detection result of one or more of the position, orientation, movement, velocity, angular velocity, acceleration, etc. of a part or the entire body such as the listener's head. and/or estimating the orientation and generating position information indicating the position and/or orientation of the listener.
  • the position information may be information indicating the position and/or orientation of the listener in real space, or may be information indicating the position and/or orientation of the listener based on the position and/or orientation of the listener at a predetermined point in time. It may also be information that indicates.
  • the position information may be information indicating a relative position and/or orientation with respect to a stereophonic sound reproduction system or an external device including a sensor.
  • the sensor may be, for example, an imaging device such as a camera, or a distance measuring device such as LiDAR (Light Detection and Ranging), and captures the movement of the listener's head and processes the captured image to detect the listener. Head movement may also be detected. Further, as a sensor, a device that performs position estimation using radio in an arbitrary frequency band such as millimeter waves may be used.
  • an imaging device such as a camera
  • a distance measuring device such as LiDAR (Light Detection and Ranging)
  • LiDAR Light Detection and Ranging
  • the acoustic signal processing device shown in FIG. 5I may acquire position information from an external device including a sensor via a communication IF.
  • the acoustic signal processing device may not include a sensor.
  • the external device is, for example, the audio presentation device A0002 described with reference to FIG. 5B or the stereoscopic video playback device worn on the listener's head.
  • the sensor is configured by combining various sensors such as a gyro sensor and an acceleration sensor.
  • the senor may detect, as the speed of movement of the listener's head, the angular velocity of rotation around at least one of the three axes orthogonal to each other in the sound space, or The acceleration of displacement with one direction of displacement may be detected.
  • the senor may detect, as the amount of movement of the listener's head, the amount of rotation about at least one of three mutually orthogonal axes in the sound space, or the amount of rotation about at least one of the three axes orthogonal to each other in the sound space. It is also possible to detect the amount of displacement in which the direction of displacement is . Specifically, the sensor detects 6DoF (position (x, y, z) and angle (yaw, pitch, roll) as the position of the listener.
  • the sensor is a sensor used to detect movement, such as a gyro sensor or an acceleration sensor. It is composed of a combination of various sensors.
  • the senor only needs to be able to detect the position of the listener, and may be realized by a camera, a GPS (Global Positioning System) receiver, or the like. Position information obtained by performing self-position estimation using LiDAR (Laser Imaging Detection and Ranging) or the like may be used.
  • the sensor is built into the smartphone when the audio signal reproduction system is implemented by the smartphone.
  • the senor includes a temperature sensor such as a thermocouple that detects the temperature of the acoustic signal processing device shown in FIG. It may also include a sensor for detection.
  • a temperature sensor such as a thermocouple that detects the temperature of the acoustic signal processing device shown in FIG. It may also include a sensor for detection.
  • a speaker includes, for example, a diaphragm, a drive mechanism such as a magnet or a voice coil, and an amplifier, and presents an audio signal after acoustic processing to a listener as sound.
  • the speaker operates a drive mechanism in response to an audio signal (more specifically, a waveform signal representing a sound waveform) amplified via an amplifier, and causes the drive mechanism to vibrate a diaphragm.
  • an audio signal more specifically, a waveform signal representing a sound waveform
  • the diaphragm vibrating in response to the audio signal generates sound waves that propagate through the air and are transmitted to the listener's ears, where the listener perceives the sound.
  • the audio signal presentation means is the same as described above. Not limited to configuration.
  • the audio signal after acoustic processing may be output to an external audio presentation device A0002 connected via a communication module. Communication performed by the communication module may be wired or wireless.
  • the acoustic signal processing device shown in FIG. 5I may include a terminal for outputting an audio analog signal, and a cable such as an earphone may be connected to the terminal to present the audio signal from the earphone.
  • the audio presentation device A0002 is headphones, earphones, head-mounted display, neck speaker, wearable speaker, or surround speaker composed of a plurality of fixed speakers attached to the listener's head or part of the body. etc. play the audio signal.
  • FIG. 5J is a diagram illustrating an example of the physical configuration of an encoding device. Further, the encoding device shown in FIG. 5J is an example of the aforementioned encoding devices A0100 and A0120.
  • the encoding device in FIG. 5J includes a processor, a memory, and a communication IF.
  • the processor is, for example, a CPU (Central Processing Unit) or a DSP (Digital Signal Processor), and the encoding process of the present disclosure may be implemented by the CPU or GPU executing a program stored in a memory.
  • the processor may be a dedicated circuit that performs signal processing on audio signals, including the encoding process of the present disclosure.
  • the memory is composed of, for example, RAM (Random Access Memory) or ROM (Read Only Memory).
  • the memory may include a magnetic storage medium such as a hard disk or a semiconductor memory such as a solid state drive (SSD).
  • SSD solid state drive
  • the term "memory” may include an internal memory built into a CPU or GPU.
  • the communication IF (Inter Face) is, for example, a communication module compatible with a communication method such as Bluetooth (registered trademark) or WIGIG (registered trademark).
  • the encoding device has a function of communicating with other communication devices via a communication IF, and transmits an encoded bitstream.
  • the communication module is composed of, for example, a signal processing circuit and an antenna compatible with the communication method.
  • Bluetooth registered trademark
  • WIGIG registered trademark
  • LTE Long Term Evolution
  • NR New Radio
  • Wi-Fi registered trademark
  • the communication IF is not a wireless communication method as described above, but a wired communication method such as Ethernet (registered trademark), USB (Universal Serial Bus), or HDMI (registered trademark) (High-Definition Multimedia Interface). Good too.
  • FIG. 6 is a block diagram showing the functional configuration of the acoustic signal processing device 100 according to this embodiment.
  • the acoustic signal processing device 100 is a device for processing and outputting first sound data indicating a first sound caused by an object in a virtual space (sound reproduction space).
  • the acoustic signal processing device 100 according to the present embodiment is a device that is applied to various applications in a virtual space such as virtual reality or augmented reality (VR/AR), for example.
  • VR/AR augmented reality
  • the object in the virtual space is not particularly limited as long as it is included in the content displayed on the display unit 30 that displays the content (video as an example here) executed in the virtual space.
  • the object is a moving object, and includes, for example, an object representing an animal or plant, an artificial object, a natural object, or the like.
  • objects representing man-made objects include vehicles, bicycles, and airplanes.
  • examples of objects representing man-made objects include sports equipment such as baseball bats and tennis rackets, furniture such as desks, chairs, electric fans, and wall clocks, and buildings such as apartment complexes and commercial facilities. Examples include.
  • the object may be at least one of an object that can be moved and an object that can be moved within the content, but is not limited thereto.
  • the fan F shown in FIGS. 3 and 4A is installed on the floor, and the blades of the fan F move (rotate) even if the fan F itself does not move. Such an electric fan F is also included in the object.
  • the first sound is a sound caused by the object.
  • the first sound is a sound generated by an object. More specifically, the first sound is as follows.
  • An example of the first sound according to the present embodiment is an aerodynamic sound (wind noise) that occurs as an object moves in the virtual space, and is the first aerodynamic sound.
  • Wind noise is a sound indicating a vortex line of air generated when the wind W collides with an object.
  • An example of the first sound according to the present embodiment is an aerodynamic sound (second aerodynamic sound) generated when the wind W radiated from an object reaches the ear of the listener L in the virtual space.
  • the second aerodynamic sound is a sound generated depending on the shape of the listener L's ears, for example, when the wind W generated by the electric fan F, which is an object, reaches the listener L. More specifically, the second aerodynamic sound is a sound caused by the wind W generated by the movement of air due to the movement of the object.
  • the acoustic signal processing device 100 generates first sound data representing a first sound in the virtual space and outputs it to the headphones 20.
  • the headphone 20 is a device that reproduces the first sound and is an audio output device. More specifically, the headphones 20 reproduce the first sound based on the first sound data output by the acoustic signal processing device 100. Thereby, the listener L can listen to the first sound. Note that instead of the headphones 20, other output channels such as a speaker may be used.
  • the headphones 20 include a head sensor section 21 and an output section 22.
  • the head sensor unit 21 senses the position of the listener L defined by the coordinates of the horizontal plane and the height in the vertical direction in the virtual space, and generates second position information indicating the position of the listener L of the first sound in the virtual space. is output to the acoustic signal processing device 100.
  • the head sensor section 21 senses information on 6 DoF (Degrees of Freedom) of the head of the listener L.
  • the head sensor section 21 may be an inertial measurement unit (IMU), an accelerometer, a gyroscope, a magnetic sensor, or a combination thereof.
  • the output unit 22 is a device that reproduces the sound that reaches the listener L in the sound reproduction space. More specifically, the output unit 22 reproduces the first sound based on first sound data indicating the first sound that has been processed by the audio signal processing device 100 and output from the audio signal processing device 100. .
  • the display unit 30 is a display device that displays content (video) including objects in virtual space. Processing for the display unit 30 to display content will be described later.
  • the display unit 30 is realized by, for example, a display panel such as a liquid crystal panel or an organic EL (Electro Luminescence) panel.
  • the acoustic signal processing device 100 includes a first acquisition unit 110, a first calculation unit 120, a determination unit 130, a first processing unit 140, a first output unit 150, and a first reception unit 110.
  • the storage unit 160 includes a storage unit 160 and a storage unit 170.
  • the first acquisition unit 110 acquires object information and second position information.
  • the object information includes first position information indicating the position of the object in the virtual space, first sound data indicating a first sound caused by the object, and first identification information indicating a processing means for the first sound data. In other words, it is information about the object.
  • the object information may include shape information indicating the shape of the object.
  • the second position information is information indicating the position of the listener L in the virtual space.
  • the first acquisition unit 110 may acquire the object information and the second position information from, for example, an input signal, or may acquire the object information and the second position information from other sources. Input signals are explained below.
  • the input signal is composed of, for example, spatial information, sensor information, and sound data (audio signal). Further, the above information and sound data may be included in one input signal, or the above information and sound data may be included in a plurality of separate signals.
  • the input signal may include a bitstream composed of sound data and metadata (control information), and in this case, the metadata may include spatial information and information that identifies the sound data.
  • the first position information, second position information, shape information, and availability information described above may be included in the input signal. More specifically, the first information, shape information, and availability information may be included in the spatial information, and the second information may be generated based on information acquired from sensor information.
  • the sensor information may be acquired from the head sensor section 21 or from another external device.
  • Spatial information is information about the sound space (three-dimensional sound field) created by the three-dimensional sound reproduction system, and is composed of information about objects included in the sound space and information about listeners.
  • the objects there are sound source objects that emit sounds and serve as sound sources, and non-sound objects that do not emit sounds.
  • a non-sounding object functions as an obstacle object that reflects the sound emitted by a sound source object, but a sound source object may also function as an obstacle object that reflects the sound emitted by another sound source object. Obstacle objects may also be referred to as reflective objects.
  • Information commonly given to sound source objects and non-sounding objects includes position information, shape information, and a volume attenuation rate when an object reflects sound.
  • the positional information is expressed by coordinate values of three axes, for example, the X-axis, Y-axis, and Z-axis, in Euclidean space, but does not necessarily have to be three-dimensional information.
  • the position information may be, for example, two-dimensional information expressed by coordinate values of two axes, an X axis and a Y axis.
  • the position information of an object is determined by a representative position of a shape expressed by a mesh or voxels.
  • the shape information may include information regarding the material of the surface.
  • the attenuation rate may be expressed as a real number less than or equal to 1 or greater than or equal to 0, or may be expressed as a negative decibel value.
  • the volume is not amplified by reflection, so the attenuation rate is set to a negative decibel value, but for example, in order to create the eerie feeling of an unreal space, the attenuation rate is set to a value of 1 or higher, that is, A positive decibel value may be set.
  • the attenuation factor may be set to a different value for each frequency band that constitutes a plurality of frequency bands, or may be set independently for each frequency band.
  • a corresponding attenuation rate value may be used based on information regarding the surface material.
  • the information commonly assigned to the sound source object and the non-sound object may include information indicating whether the object belongs to a living thing or information indicating whether the object is a moving body. . If the object is a moving body, the position information may move over time, and the changed position information or the amount of change is transmitted to the rendering units A0203 and A0213.
  • the information regarding the sound source object includes, in addition to the information commonly given to the above-mentioned sound source object and non-sounding object, sound data and information necessary to radiate the sound data into the sound space.
  • the sound data is data that expresses the sound perceived by the listener, indicating information regarding the frequency and intensity of the sound.
  • the sound data is typically a PCM signal, but may also be data compressed using an encoding method such as MP3. In that case, since the signal needs to be decoded at least before reaching the generation unit (generation unit 907 described later in FIG. 40), the rendering units A0203 and A0213 may include a decoding unit (not shown). . Alternatively, the signal may be decoded by the audio data decoder A0202.
  • At least one sound data may be set for one sound source object, and multiple sound data may be set. Further, identification information for identifying each piece of sound data may be added, and the identification information of the sound data may be held as metadata as information regarding the sound source object.
  • Information necessary to radiate sound data into a sound space includes, for example, information on a reference volume that is used as a reference when playing sound data, information on the position of a sound source object, information on the orientation of a sound source object, and information on the sound source. Information regarding the directionality of the sound emitted by the object may also be included.
  • the reference volume information is, for example, the effective value of the amplitude value of the sound data at the sound source position when the sound data is radiated into the sound space, and may be expressed as a decibel (db) value in floating point.
  • db decibel
  • the reference volume information indicates that the sound is radiated into the sound space from the position indicated by the above position information at the same volume without increasing or decreasing the volume of the signal level indicated by the sound data. It may be shown.
  • the reference volume information may indicate that the volume of the signal level indicated by the sound data is approximately halved and the sound is radiated into the sound space from the position indicated by the above position information.
  • the reference volume information may be provided to one piece of sound data or to a plurality of pieces of sound data all at once.
  • the volume information included in the information necessary to radiate sound data into the sound space may include, for example, information indicating time-series fluctuations in the volume of the sound source. For example, if the sound space is a virtual conference room and the sound source is a speaker, the volume changes intermittently over a short period of time. Expressing this more simply, it can be said that sound parts and silent parts occur alternately. Furthermore, when the sound space is a concert hall and the sound source is a performer, the volume is maintained for a certain period of time. Further, when the sound space is a battlefield and the sound source is an explosive, the volume of the explosion sound becomes loud for a moment and remains silent thereafter. In this way, the information on the volume of the sound source includes not only information on the volume of the sound but also information on the transition of the volume of the sound, and such information may be used as information indicating the nature of the sound data.
  • the information on the transition in sound volume may be data showing frequency characteristics in time series.
  • the information on the change in sound volume may be data indicating the duration of a sound section.
  • the information on the transition in sound volume may be data indicating a time series of the duration of a sound section and the time length of a silent section.
  • Information on the transition of sound volume is a time series listing of multiple sets of duration times during which the amplitude of the sound signal can be considered to be stationary (can be considered to be approximately constant) and data on the amplitude value of the signal during that time. It may also be data.
  • the information on the transition in sound volume may be data on a duration that allows the frequency characteristics of the sound signal to be considered to be stationary.
  • the information on the transition in sound volume may be data that lists, in chronological order, a plurality of sets of durations during which the frequency characteristics of the sound signal can be considered to be stationary, and data on the frequency characteristics during that period.
  • the information on the change in sound volume may be in a data format, for example, data indicating the outline of a spectrogram. Further, the volume serving as a reference for the frequency characteristics may be used as the reference volume.
  • the information indicating the reference volume and the nature of the sound data may be used not only to calculate the volume of the direct sound or reflected sound that the listener perceives, but also in the selection process for selecting whether or not to make the listener perceive it. good.
  • Information regarding the direction is typically expressed as yaw, pitch, and roll.
  • the rotation may be omitted and expressed using azimuth (yaw) and elevation (pitch).
  • the orientation information may change over time, and if it changes, it is transmitted to the rendering units A0203 and A0213.
  • the information regarding the listener is information regarding the position and orientation of the listener in the sound space.
  • the position information is expressed as a position on the XYZ axes of Euclidean space, it does not necessarily have to be three-dimensional information, and may be two-dimensional information.
  • Information regarding orientation is typically expressed as yaw, pitch, and roll. Alternatively, the information regarding the direction may be expressed by azimuth (yaw) and elevation (pitch), omitting the rotation of roll.
  • the position information and orientation information may change over time, and when they change, they are transmitted to the rendering units A0203 and A0213.
  • the sensor information is information that includes the amount of rotation or displacement detected by a sensor worn by the listener, and the position and orientation of the listener.
  • the sensor information is transmitted to the rendering units A0203 and A0213, and the rendering units A0203 and A0213 update information on the position and orientation of the listener based on the sensor information.
  • position information obtained by a mobile terminal estimating its own position using, for example, GPS, a camera, or LiDAR (Laser Imaging Detection and Ranging) may be used. Further, information acquired from outside through a communication module other than the sensor may be detected as sensor information.
  • Information indicating the temperature of the acoustic signal processing device 100 and information indicating the remaining amount of the battery may be acquired from the sensor as the sensor information.
  • Information indicating the computational resources (CPU capacity, memory resources, PC performance) of the acoustic signal processing device 100 or the audio presentation device A0002 may be acquired in real time as sensor information.
  • the first acquisition unit 110 acquires object information from the storage unit 170, but is not limited to this, and may acquire object information from a device other than the acoustic signal processing device 100 (for example, a server device 10 such as a cloud server). You can. Further, the first acquisition unit 110 acquires the second position information from the headphones 20 (more specifically, the head sensor unit 21), but is not limited thereto.
  • an object in the virtual space is included in the content (video) displayed on the display unit 30, and is at least one of the following: an object that can be moved within the content, and an object that can be moved. good.
  • the object in the virtual space is the bat B shown in FIG.
  • the first position information is information indicating where the bat B in the virtual space is located in the virtual space at a certain point in time. Note that in the virtual space, the bat B may move as the bat B is swung. Therefore, the first acquisition unit 110 continuously acquires the first position information. The first acquisition unit 110 acquires the first position information, for example, every time the spatial information is updated by the spatial information management units A0201 and A0211.
  • the sound data including the first sound data described in this specification may be a sound signal such as PCM (Pulse Code Modulation) data, and is not limited to this, but may also be information for indicating the nature of the sound. That's fine.
  • PCM Pulse Code Modulation
  • the sound signal is a noise signal with a volume of
  • the data may include information indicating that the volume is X decibels and information indicating that the volume is X decibels.
  • the sound data related to the sound data may be PCM data itself indicating the sound signal.
  • the data may include information indicating that the component is a noise signal and information indicating the Peak/Dip of the frequency component.
  • a sound signal based on sound data means PCM data indicating the sound data.
  • the first identification information will be further explained.
  • the first identification information is information indicating a processing means for the first sound data. That is, in this embodiment, a first processing means and a second processing means are provided as processing means for the first sound data. The first processing means and the second processing means are means for processing the volume of the first sound indicated by the first sound data, and process the first sound data in mutually different manners.
  • the first identification information is information indicating that the processing means for the first sound data is the first processing means, the second processing means, or both the first processing means and the second processing means. It is.
  • the type of processing means indicated by the first identification information is determined in advance according to the object indicated by the first identification information. For example, what kind of processing means the first identification information indicates is determined in advance by the creator of the content (video) shown on the display unit 30 or the like.
  • the shape information is information indicating the shape of an object (for example, bat B) in the virtual space.
  • the shape information indicates the shape of the object, and more specifically indicates the three-dimensional shape of the object as a rigid body.
  • the shape of the object is represented by, for example, a sphere, a rectangular parallelepiped, a cube, a polyhedron, a cone, a pyramid, a cylinder, a prism, or a combination thereof.
  • the shape information may be expressed, for example, as mesh data, or as a set of a plurality of surfaces consisting of, for example, voxels, a three-dimensional point group, or vertices having three-dimensional coordinates.
  • the first position information includes object identification information for identifying the object
  • the first identification information also includes object identification information for identifying the object
  • the shape information also includes object identification information for identifying the object. Contains object identification information.
  • the first acquisition unit 110 separately acquires the first position information, first sound data, first identification information, and shape information
  • the first position information, first sound data, first identification information, and shape information are By referring to the object identification information included in each piece of information, the object indicated by each of the first position information, first sound data, first identification information, and shape information is identified.
  • the objects indicated by each of the first position information, first sound data, first identification information, and shape information are the same bat B.
  • each of the first position information, first sound data, first identification information, and shape information acquired by the first acquisition unit 110 is obtained by referring to the four object identification information.
  • the one-sound data, the first identification information, and the shape information are information related to bat B. Therefore, the first position information, the first sound data, the first identification information, and the shape information are linked as information indicating about the bat B.
  • the listener L can move in the virtual space.
  • the second position information is information indicating where the listener L in the virtual space is at a certain point in time. Note that since the listener L can move in the virtual space, the first acquisition unit 110 continuously acquires the second position information. The first acquisition unit 110 acquires the first position information, for example, every time the spatial information is updated by the spatial information management units A0201 and A0211.
  • first position information, first sound data, first identification information, shape information, etc. may be included in metadata, control information, or header information included in the input signal.
  • first sound data is a sound signal (PCM data)
  • information identifying the sound signal may be included in metadata, control information, or header information; May be included. That is, the acoustic signal processing device 100 (more specifically, the first acquisition unit 110) acquires metadata, control information, or header information included in the input signal, and based on the metadata, control information, or header information, Sound processing may also be performed.
  • the acoustic signal processing device 100 (more specifically, the first acquisition unit 110) only needs to acquire the above-mentioned first position information, first sound data, first identification information, and shape information, and the acquisition source is It is not limited to input signals.
  • the first sound data and metadata may be stored in one input signal, or may be stored separately in multiple input signals.
  • a sound signal other than the first sound data may be stored in the input signal as audio content information.
  • the audio content information is preferably subjected to encoding processing such as MPEG-H 3D Audio (ISO/IEC 23008-3) (hereinafter referred to as MPEG-H 3D Audio).
  • MPEG-H 3D Audio MPEG-H 3D Audio
  • the technology used for encoding processing is not limited to MPEG-H 3D Audio, and other known technologies may be used.
  • information such as the above-mentioned first position information, first sound data, first identification information, and shape information may be subjected to encoding processing.
  • the audio signal processing device 100 acquires the audio signal and metadata included in the encoded bitstream.
  • audio content information is acquired and decoded.
  • the acoustic signal processing device 100 functions as a decoder included in a decoding device, and more specifically, functions as rendering units A0203 and A0213 included in the decoder.
  • audio content information in this disclosure is interpreted as information including the sound signal itself, first position information, first sound data, first identification information, and shape information, depending on the technical content. shall be.
  • the second position information is also subjected to encoding processing. That is, the first acquisition unit 110 acquires and decodes the second position information.
  • the first acquisition unit 110 outputs the acquired object information and second position information to the first calculation unit 120 and the determination unit 130.
  • the first calculation unit 120 calculates the relationship between the object (for example, the bat B) and the listener L based on the first position information included in the object information acquired by the first acquisition unit 110 and the acquired second position information. Calculate distance. As described above, the first acquisition unit 110 acquires the first position information and second position information in the virtual space every time the spatial information is updated by the spatial information management units A0201 and A0211. The first calculation unit 120 calculates the distance between the object and the listener L in the virtual space based on the plurality of first position information and the plurality of second position information acquired every time the spatial information is updated. The first calculation unit 120 outputs the calculated distance between the object and the listener L to the determination unit 130.
  • the determining unit 130 determines which of the first processing unit and the second processing unit is to process the first sound data, based on the first identification information included in the object information acquired by the first acquisition unit 110.
  • the first processing means is a processing means that processes the volume according to the distance calculated by the first calculation unit 120.
  • the second processing means is a processing means that processes the volume according to the distance calculated by the first calculation unit 120 in a manner different from that of the first processing means.
  • the first identification information indicates the processing means for the first sound data
  • the determining unit 130 determines the processing means for processing the first sound data according to the processing means indicated by the first identification information. For example, when the first identification information indicates the first processing means as the processing means for the first sound data, the determining unit 130 determines that the processing means for processing the first sound data is the first processing means. do.
  • the first processing unit 140 processes the first sound data using the processing means determined by the determining unit 130. For example, when the determining unit 130 determines that the processing means that processes the first sound data is the first processing means, the first processing unit 140 processes the first sound data with the first processing means. .
  • the first output unit 150 outputs the first sound data processed by the first processing unit 140.
  • the first output unit 150 outputs the first sound data to the headphones 20.
  • the headphones 20 can reproduce the first sound indicated by the output first sound data.
  • the first reception unit 160 receives an operation from a user of the audio signal processing device 100 (for example, a creator of content executed in a virtual space).
  • the first reception unit 160 is specifically implemented using a hardware button, but may also be implemented using a touch panel or the like.
  • the operation may include an operation of specifying a file name, and the file includes object information including the first position information, first sound data, first identification information, shape information, etc. according to a predetermined rule.
  • the object information may be a formatted file, and the first reception unit 160 may receive the object information by deformatting the file. This is not limited to the first reception section 160, but also applies to the reception section 41, second reception section 51, and third reception section 61, which will be described later.
  • the storage unit 170 stores computer programs executed by the first acquisition unit 110, first calculation unit 120, determination unit 130, first processing unit 140, first output unit 150, and first reception unit 160, and object information. It is a storage device in which information is stored.
  • the shape information is information used to generate an image of the object in the virtual space, and is also information indicating the shape of the object (bat B).
  • the shape information is information that is also used to generate content (video) displayed on the display unit 30.
  • the first acquisition unit 110 also outputs the acquired shape information to the display unit 30.
  • the display unit 30 acquires the shape information output by the first acquisition unit 110.
  • the display unit 30 further acquires attribute information indicating attributes (such as color) other than the shape of the object (bat B) in the virtual space.
  • the display unit 30 may directly acquire the attribute information from a device (server device 10) other than the acoustic signal processing device 100, or may acquire the attribute information from the acoustic signal processing device 100.
  • the display unit 30 generates and displays content (video) based on the acquired shape information and attribute information.
  • the first processing means is a processing means that processes the first sound data so that the volume attenuates inversely as the distance calculated by the first calculation unit 120 increases.
  • V1 is expressed by (Equation 1).
  • the second processing means is a processing means that processes the first sound data so that the volume increases or decreases in a manner different from that of the first processing means as the distance calculated by the first calculation unit 120 increases.
  • the second processing means is a processing means that processes the first sound data so that the volume is attenuated by the x power of the distance (x ⁇ 1).
  • V2 is expressed by (Equation 2). Note that " ⁇ " in (Formula 2) represents an operator that calculates a power.
  • the first identification information is also information indicating that the processing means for the first sound data is the second processing means and the value of x. More specifically, when the first sound is an aerodynamic sound that occurs as the object moves, that is, a first aerodynamic sound (wind noise), the first identification information indicates that the processing means for the first sound data is a second aerodynamic sound. This indicates that it is a processing means, that the above x is ⁇ , that ⁇ is a real number, and that ⁇ satisfies (Formula 3).
  • the first reception unit 160 receives an operation for specifying the value of ⁇ from the user of the acoustic signal processing device 100.
  • x indicated in the first identification information included in the object information stored in the storage unit 170 becomes ⁇ .
  • x indicated in the first identification information is updated to become ⁇ .
  • the first processing means processes the first sound data according to (Equation 1) and the second processing means performs processing on the first sound data according to (Equation 2)
  • a monotonically decreasing function such as an inversely proportional function is often used for this function f.
  • a different function may be used.
  • the functions to be used are set in advance by the system designer. Alternatively, a plurality of functions may be prepared in advance, and the plurality of functions may be switched and used using parameters such as object information or the position of the object, or the state or position of the listener as an index.
  • a structure may be used in which the volume V4 for the distance d is used as a table.
  • the system designer can design the table with a high degree of freedom, taking into account the balance between reality in the real space and special effects (for example, immersion and entertainment) in the virtual space.
  • the tables to be used are set in advance by the system designer.
  • a plurality of tables may be prepared in advance, and the plurality of functions may be switched and used using parameters such as object information or the position of the object, or the state or position of the listener as an index.
  • FIG. 7 is a flowchart of operation example 1 of the acoustic signal processing device 100 according to the present embodiment.
  • FIG. 8 is a diagram showing a bat B and a listener L, which are objects according to operation example 1.
  • the first sound is a sound caused by the bat B, which is an object, and is a first aerodynamic sound (wind noise) generated as the bat B moves.
  • the first receiving unit 160 receives an operation for specifying the value of ⁇ , which is an example of x shown in the first identification information (S10).
  • This step S10 corresponds to a first reception step.
  • x indicated in the first identification information included in the object information stored in the storage unit 170 becomes ⁇ .
  • the first acquisition unit 110 acquires object information including first position information, first sound data, and first identification information, and second position information (S20). This step S20 corresponds to the first acquisition step.
  • the first calculation unit 120 determines whether or not the object is received based on the first position information included in the object information acquired by the first acquisition unit 110 and the second position information acquired by the first acquisition unit 110.
  • the distance D to the listener L is calculated (S30). That is, here, the first calculation unit 120 calculates the distance D between the bat B and the listener L. This step S30 corresponds to the first calculation step.
  • the determining unit 130 processes the first sound data among the first processing means and the second processing means based on the first identification information included in the object information acquired by the first acquisition unit 110.
  • a processing means is determined (S40). This step S40 corresponds to a determining step.
  • the first processing unit 140 processes the first sound data using the processing means determined by the determining unit 130 (S50). This step S50 corresponds to the first processing step.
  • step S40 if it is determined in step S40 that the processing means is the first processing means, the first processing unit 140 processes the first sound data using the first processing means. Further, for example, if it is determined in step S40 that the processing means is the second processing means, the first processing section 140 processes the first sound data using the second processing means.
  • the second processing means is the processing means that processes the first sound data so that the volume is attenuated by the x power of the distance D. I will explain it as if it were. From step S10, since x is ⁇ , at this time, if the volume of the first sound processed by the second processing means is V2, V2 is expressed by (Equation 4).
  • is 2.
  • the first output unit 150 outputs the first sound data processed by the first processing unit 140 (S60). This step S60 corresponds to the first output step.
  • the processing means for the volume of the first sound can be changed according to the first identification information, the first sound in the virtual space that the listener L listens to is The sound is similar to the first sound in the real space that is heard, and more specifically, the sound is a reproduction of the first sound in the real space. Therefore, the listener L is less likely to feel a sense of discomfort, and the listener L can experience a sense of realism.
  • the first sound is a first aerodynamic sound (wind noise).
  • the first processing means processes the first sound data so that the volume attenuates in inverse proportion as the distance D increases, or the first processing means processes the first sound data so that the volume decreases as the distance D increases.
  • a second processing means is used which increases or decreases in a different manner. Therefore, the first sound (wind noise) that the listener L hears in the virtual space becomes a sound that is more similar to the first sound (wind noise) that the listener L hears in the real space. Therefore, the listener L is less likely to feel a sense of discomfort, and the listener L is able to obtain a more realistic sensation.
  • Modification 1 of the embodiment Modification 1 of the embodiment will be described below. In the following, differences from the embodiments will be mainly described, and descriptions of common features will be omitted or simplified.
  • FIG. 9 is a block diagram showing the functional configuration of an acoustic signal processing device 100a according to this modification.
  • the acoustic signal processing device 100a can create a personal space according to the listener L and a sense of distance between the listener L and another person that cannot be expressed only by physical distance, in a virtual space.
  • the acoustic signal processing device 100a has the same configuration as the acoustic signal processing device 100 according to the embodiment, except that it includes a first processing section 140a instead of the first processing section 140.
  • FIG. 10 is a diagram showing four strangers A1 to D1 and a listener L according to this modification.
  • each of the four strangers A1 to D1 is classified into four categories of personal space: close distance, individual distance, social distance, and public distance.
  • listener L can allow stranger A1 to approach to close distance, allow stranger B1 to approach to individual distance, allow stranger C1 to approach to social distance, and allow stranger D1 to approach to public distance. I can tolerate that.
  • the first sound when the object is the other person A1, the first sound is the other person A1's voice.
  • the first sound when the object is the other person B1, the first sound is the other person B1's voice, and when the object is the other person C1, the first sound is the other person C1's voice, and when the object is the other person D1, the first sound is the other person's voice. In some cases, the first sound is the voice of the other person D1.
  • the first acquisition unit 110 included in the acoustic signal processing device 100a acquires object information and second position information corresponding to another person who corresponds to the object.
  • object information corresponding to each of the four strangers A1 to D1 and the object information corresponding to the stranger A1 may be described as object information A1.
  • object information corresponding to the other person B1 may be described as object information B1, object information corresponding to the other person C1 as object information C1, and object information corresponding to the other person D1 as object information D1. Note that if there is no need to identify each of the object information A1 to D1, it may be simply written as object information.
  • the first processing unit 140a processes the first sound data using the processing means determined by the determination unit 130.
  • the first example, second example, and third example processing methods performed by the first processing unit 140a will be described.
  • the second processing means when the distance D calculated by the first calculation unit 120 is within a predetermined threshold, sets the first sound data so that the volume becomes a predetermined value. It is a processing means for processing.
  • This predetermined threshold value is a value depending on personal space.
  • the second processing means processes the first sound data according to the distance D so that the volume heard by the listener L becomes a predetermined value.
  • the predetermined values include, for example, a value VH indicating a higher volume and a value VL indicating a lower volume than the VH. More specifically, VH is a volume loud enough to make listener L feel alienated when someone else approaches listener L, and VL is the volume at which listener L feels that someone else approaches listener L. It's about the same volume.
  • the second processing means when the object is a stranger classified into the category of close distance, such as stranger A1, will be explained.
  • the listener L is close to the other person A1 and allows him to approach the other person A1 up to a close distance (45 cm or less). Therefore, the second processing means sets the second processing means so that the volume of the voice of the other person A1 becomes VL when the distance D is 45 cm or less, and attenuates as the distance D increases when the distance D is larger than 45 cm.
  • the second processing means when the object is a stranger classified into an individual distance category such as stranger B1 will be explained.
  • the listener L is somewhat close to the other person B1, and allows him to approach the other person B1 up to an individual distance (greater than 45 cm and less than 120 cm). Therefore, the second processing means sets the volume of the voice of the other person B1 to VH if the distance D is 45 cm or less, and VL if the distance D is greater than 45 cm and 120 cm or less, and If the distance D is greater than 120 cm, the processing means processes the first sound data so that it is attenuated as the distance D increases.
  • the second processing means when the object is a stranger classified into a social distance category such as stranger C1 will be described.
  • the listener L is not very close to the other person C1 and is allowed to approach the other person C1 within a social distance (greater than 120 cm and less than 350 cm). Therefore, the second processing means sets the volume of the voice of the other person C1 to VH if the distance D is 120 cm or less, and VL if the distance D is greater than 120 cm and 350 cm or less, and If the distance D is greater than 350 cm, the processing means processes the first sound data so that it is attenuated as the distance D increases.
  • the second processing means when the object is a stranger classified into the public distance category, such as stranger D1, will be explained.
  • the listener L is not close to the other person D1 and allows him to approach the other person D1 within a public distance (350 cm). Therefore, the second processing means sets the sound volume of the voice of the other person D1 to VH when the distance D is 350 cm or less, and attenuates as the distance D increases when the distance D is larger than 350 cm.
  • the category in the personal space into which each of the strangers A1 to D1 is classified is indicated in the first identification information included in the corresponding object information A1 to D1.
  • the predetermined threshold value is a value depending on the personal space, but for example, the first reception unit 160 receives an operation from the user that specifies that the predetermined threshold value is the first specified value, and The first specified value specified by the received operation may be the predetermined threshold value.
  • the determining unit 130 determines whether or not to execute the first processing means based on the first identification information acquired by the first acquisition unit 110. and determines to execute the second processing means regardless of whether the first processing means is executed.
  • the first identification information is information indicating whether or not to execute the first processing means, and is information not indicating whether or not to execute the second processing means.
  • the first processing section 140a executes the first processing means on the first sound data when the decision section 130 decides to execute the first processing means, and the first processing section 140a executes the first processing means on the first sound data. If it is determined not to perform the first processing means, the first processing means is not performed on the first sound data. Furthermore, the first processing unit 140a executes the second processing means on the first sound data, regardless of whether or not the first processing means has been performed on the first sound data.
  • the second processing means when the distance D calculated by the first calculation unit 120 is within a predetermined threshold, the second processing means according to the present modification adjusts the first sound so that the volume becomes a predetermined value. It is a processing means for processing data.
  • This predetermined threshold value is a value depending on personal space.
  • the attenuation is inversely proportional to the distance D increasing.
  • the first sound data is processed as follows.
  • the second processing means is executed on the first sound data processed by the first processing means.
  • the second processing means sets the volume of the voice of the other person B1 to be VH if the distance D is 45 cm, and the volume of the voice of the other person B1 to be VL if the distance D is 120 cm. This is a processing means for processing the first sound data.
  • the first sound data processed by the first processing means and the second processing means attenuates inversely as the distance D increases, and if the distance D is 45 cm, the volume of the voice of the other person B1 becomes VH. , and if the distance D is 120 cm, this indicates that the volume of the voice of the other person B1 is VL.
  • the second processing means processes the first sound data so that when the object is the other person A1 and the distance D is 45 cm, the volume of the voice of the other person A1 becomes VL. It is a means.
  • the second processing means is configured such that when the object is the other person C1, the volume of the voice of the other person C1 becomes VH if the distance D is 120 cm, and even if the distance D is 350 cm,
  • it is a processing means that processes the first sound data so that the volume of the voice of the other person C1 becomes VL.
  • the second processing means processes the first sound data so that when the object is the other person D1 and the distance D is 350 cm, the volume of the voice of the other person D1 becomes VH. It is a means.
  • the second processing means is a processing means that processes the first sound data so that the volume is attenuated by the distance D to the x power (x ⁇ 1). Then, the higher the degree of intimacy between the listener L and the other person, the smaller the value of x related to the other person.
  • the value of x is 0.9, and the object is a stranger classified into the individual distance category such as stranger B1. In this case, the value of x is 1.5.
  • the value of x is 2.0, and if the object is a stranger classified into the public distance category such as stranger D1, the value of x is 2.0. In one case, the value of x is 3.0.
  • various variables are set so that when a person with whom you are not close is approaching, the volume of the voice is so loud that it makes you feel alienated, but conversely, Since you don't want to hear unpleasant voices, you can set the volume to a low level.
  • the first processing means is intended to reproduce a physical phenomenon
  • the second processing means is intended to reproduce an increase or decrease in volume due to psychological distance that cannot be expressed by physical distance. may be used.
  • FIG. 11 is a flowchart of operation example 2 of the acoustic signal processing device 100a according to this modification.
  • the first receiving unit 160 receives an operation from the user to specify that the predetermined threshold value is the first designated value (S11).
  • the predetermined threshold value is a value depending on personal space. Note that in the case of the third example described above, this step S11 may not be performed.
  • the first acquisition unit 110 acquires object information including first position information, first sound data, and first identification information, and second position information (S20).
  • the object information acquired in step S20 is at least one of the four object information A1 to D1.
  • the first calculation unit 120 calculates the object (another person's ) and the listener L is calculated (S30).
  • the determining unit 130 processes the first sound data among the first processing means and the second processing means based on the first identification information included in the object information acquired by the first acquisition unit 110.
  • a processing means is determined (S40).
  • the first processing unit 140a processes the first sound data using the processing means determined by the determining unit 130 (S50). As explained above, the first sound data is processed using any of the methods of the first to third examples.
  • the first output unit 150 outputs the first sound data processed by the first processing unit 140a (S60).
  • the second processing means processes the first sound data so that the volume becomes a predetermined value when the distance D is within a predetermined threshold. Can be used. Furthermore, in the first processing step, the first sound data can be processed using a predetermined threshold value that is a value depending on the personal space. Therefore, the acoustic signal processing device 100a according to the present modification executes the second processing means, which has a different predetermined value for each person who is an object. It is possible to create a sense of distance between the listener L and another person in a virtual space, which cannot be expressed in a virtual space.
  • Modification 2 of embodiment Modification 2 of the embodiment will be described below. In the following, differences from the embodiments will be mainly described, and descriptions of common features will be omitted or simplified.
  • FIG. 12 is a block diagram showing the functional configuration of an acoustic signal processing device 100b according to this modification.
  • the acoustic signal processing device 100b can process a plurality of sound data.
  • the acoustic signal processing device 100b has the same configuration as the acoustic signal processing device 100 according to the embodiment, except that it includes a first processing section 140b instead of the first processing section 140.
  • FIG. 13 is a diagram showing an object and a plurality of sounds according to this modification.
  • the object in the virtual space is an ambulance A.
  • the plurality of sounds includes three sounds, and more specifically, two first sounds and one second sound.
  • the two first sounds and one second sound are sounds caused by the ambulance A, which is the object. In order to identify the two first sounds, they will be described as a first sound A2 and a first sound B2.
  • the first sound A2 is an aerodynamic sound (first aerodynamic sound) that occurs as the object (ambulance A) moves, that is, it is a wind noise.
  • the first sound B2 is an aerodynamic sound generated when the wind W radiated from the object (ambulance A) reaches the ear of the listener L, that is, a second aerodynamic sound. That is, as shown in FIG. 13, the wind W radiated from the object includes the wind caused by the movement of an object such as a moving body (ambulance A).
  • the second sound is a sound different from the two first sounds, and more specifically, is the siren sound emitted from the ambulance A.
  • the ambulance A is an object that generates a plurality of sounds including a wind noise (first aerodynamic sound), a second aerodynamic sound, and a siren sound.
  • the object information acquired by the first acquisition unit 110 includes first position information, first sound data indicating the first sound, first identification information, and second sound data indicating the second sound. and second identification information indicating a processing means for the second sound data.
  • the first sound data includes first sound data A2 indicating the first sound A2 and first sound data B2 indicating the first sound B2.
  • the first identification information includes first identification information A2 indicating a processing means for the first sound data A2 and first identification information B2 indicating a processing means for the first sound data B2.
  • the first sound B2 (second sound First sound data B2 indicating aerodynamic sound) is associated with the first sound data B2. Furthermore, in the real space, the second aerodynamic sound is generated in the ears of the listener L, but here, the position of the ambulance A in the virtual space is treated as if it were the position of the sound source.
  • the ambulance A is an object that is associated with a plurality of sound data including first sound data and second sound data (here, two sound data).
  • the determining unit 130 determines a processing means to process the first sound data A2 based on the first identification information A2, and processes the first sound data B2 based on the first identification information B2.
  • a processing means for processing the second sound data is determined based on the second identification information.
  • the first processing unit 140b processes the first sound data A2 with the processing means determined based on the first identification information A2, and processes the first sound data A2 with the processing means determined based on the first identification information B2.
  • the first sound data B2 is processed, and the second sound data is processed by a processing means determined based on the second identification information.
  • the second processing means is a processing means that processes the first sound data so that the volume is attenuated by the distance D to the x power (x ⁇ 1). Since the first sound A2 is the first aerodynamic sound, the first identification information A2 indicates that the processing means for the first sound data A2 is the second processing means, and that x is ⁇ and ⁇ is a real number. This shows that ⁇ satisfies (Equation 5).
  • the first identification information B2 indicates that the processing means for the first sound data B2 is the second processing means, and that x is ⁇ and ⁇ is a real number. This shows that ⁇ satisfies (Equation 6).
  • is 2 and ⁇ is 2.5.
  • the first sound data B2 indicating the first sound B2 (second aerodynamic sound) is associated with the position of the object (ambulance A). For this reason, the first processing unit 140b processes the first sound data B2 so that the volume of the first sound B2 decreases as the distance D increases.
  • the sound B2 (second aerodynamic sound) can be made similar to the first sound B2 (second aerodynamic sound) in the real space that the listener L listens to.
  • FIG. 14 is a flowchart of operation example 3 of the acoustic signal processing device 100b according to this modification.
  • the first reception unit 160 performs an operation to specify the value of ⁇ , which is an example of x shown in the first identification information A2, and an operation to specify the value of ⁇ , which is an example of x shown in the first identification information B2.
  • An operation for specifying a certain value of ⁇ is accepted (S10b). This step S10b corresponds to the first reception step.
  • x indicated in the first identification information A2 included in the object information stored in the storage unit 170 becomes ⁇
  • x indicated in the first identification information B2 becomes ⁇
  • the first acquisition unit 110 includes first position information, first sound data A2, first identification information A2, first sound data B2, first identification information B2, second sound data, and second identification information.
  • the first calculation unit 120 calculates the object (ambulance) based on the first position information included in the object information acquired by the first acquisition unit 110 and the second position information acquired by the first acquisition unit The distance D between A) and the listener L is calculated (S30).
  • the determining unit 130 determines the first sound data A2 and the first sound based on the first identification information A2, the first identification information B2, and the second identification information included in the object information acquired by the first acquisition unit 110.
  • a processing means for processing the data B2 and the second sound data is determined (S40b). This step S40b corresponds to a determining step.
  • the first processing unit 140b processes the first sound data A2, the first sound data B2, and the second sound data using the processing means determined by the determining unit 130 (S50b).
  • This step S50b corresponds to the first processing step.
  • the first output unit 150 outputs the first sound data A2, first sound data B2, and second sound data processed by the first processing unit 140b (S60b). This step S60b corresponds to the first output step.
  • the processing means for the volume of the first sound can be changed according to the first identification information
  • the processing means for the volume of the second sound can be changed according to the second identification information. Therefore, the first sound and the second sound in the virtual space that the listener L listens to are similar to the first sound and the second sound, respectively, that the listener L listens to in the real space. Furthermore, since the first sound A2 is the first aerodynamic sound and the first sound B2 is the second aerodynamic sound, the first sound data A2 and the first sound data B2 are subjected to second processing with different values of x. The means are carried out.
  • each of the first sound A2 (first aerodynamic sound) and the first sound B2 (second aerodynamic sound) in the virtual space that the listener L hears is the first sound in the real space that the listener L hears.
  • the sounds are similar to A2 (first aerodynamic sound) and first sound B2 (second aerodynamic sound).
  • the listener L is less likely to feel a sense of discomfort, and the listener L is able to obtain a more realistic sensation.
  • the object is the ambulance A, but the object is not limited to this.
  • the object is an object that generates multiple sounds, that is, if it is an object that is associated with multiple sound data including first sound data and second sound data (two sound data in the above example), this The same processing as in the modified example is performed.
  • a first example and a second example of objects to which such similar processing is performed will be described below.
  • FIG. 15 is a diagram showing a case where the object according to this modification is an electric fan F.
  • a first aerodynamic sound that is, a wind noise, which is generated as the object, the electric fan F, moves, and more specifically, the blades of the electric fan F rotate, is used.
  • a second aerodynamic sound generated when the wind W radiated from the object (fan F) reaches the ear of the listener L is used.
  • the motor sound of electric fan F is used as the second sound.
  • the first and second sounds in the virtual space that listener L listens to are similar to the first and second sounds in the real space that listener L listens to, respectively. It becomes a sound. For this reason, the listener L is less likely to feel a sense of discomfort, and the listener L can obtain a more realistic sensation.
  • the volume varies depending on whether the distance D is within a predetermined threshold.
  • a second processing means for processing the first sound data may be used.
  • the second processing means processes the first sound data so that the volume becomes a predetermined value when the distance D is within a predetermined threshold.
  • the second processing means may be the following processing means.
  • the second processing means of the first example of Modification 2 may, for example, determine that the value of x when the distance D is within a predetermined threshold is larger than the value of x when the distance D is outside the predetermined threshold.
  • the first sound data may be processed by a processing means such that the first sound data is processed.
  • the object is Zombie Z that appears in the content displayed on the display unit 30.
  • FIG. 16 is a diagram showing a case where the object according to this modification is a zombie Z.
  • the object Zombie Z generates one first sound and one second sound.
  • the first sound is a groan made by Zombie Z
  • the second sound is the footsteps of Zombie Z.
  • the second processing means is a processing means for processing the first sound data so that the volume is attenuated by the distance D to the x power (x ⁇ 1), and it is preferable that x be a value larger than 1. .
  • step S50b shown in FIG. 14 for example, the first processing unit 140b processes the first sound data with the second processing means, and processes the second sound data with the first processing means.
  • the volume of a human voice attenuates inversely as the distance D between the creature and the listener L increases.
  • the first sound data representing the first sound which is Zombie Z's groan
  • listener L will hear the same voice (groan) as in real space.
  • the first sound data is purposely processed by the second processing means, in other words, it is processed so that a groan that is different from that in real space is heard, so that the listener L can hear the sound of a imaginary creature. You can experience the eeriness of Zombie Z.
  • the second processing means determines, for example, that the value of x when distance D is within a predetermined threshold is
  • the first sound data may be processed so as to have a larger value than the value of x outside the threshold.
  • FIG. 17 is a block diagram showing the functional configurations of the information generation device 40 and the acoustic signal processing device 200 according to this modification.
  • the information generation device 40 and the acoustic signal processing device 200 according to this modification are configured to listen to the second aerodynamic sound that makes the listener L feel uncomfortable, as explained in (Findings that formed the basis of the present disclosure). It is possible to suppress the problem of storage.
  • FIG. 18 is a diagram showing a fan F and a listener L, which are objects according to this modification.
  • the information generation device 40 is a device that generates first object audio information and outputs it to the audio signal processing device 200.
  • the acoustic signal processing device 200 is a device that acquires the output first object audio information and outputs sound data to the headphones 20 based on the acquired first object audio information.
  • the information generation device 40 includes a reception section 41, a second acquisition section 42, a first generation section 43, an output section 44, and a storage section 45.
  • the reception unit 41 receives an operation from a user of the information generation device 40 (for example, a creator of content executed in a virtual space).
  • the reception unit 41 is implemented using a hardware button, but may also be implemented using a touch panel or the like.
  • the second acquisition unit 42 acquires first sound data indicating a first sound occurring at a position related to the position of the listener L in the virtual space, and first position information indicating the position of the object in the virtual space.
  • the object is an object that radiates wind W, and is a fan F as shown in FIG.
  • the listener L is in a position where the listener L is exposed to the wind W radiated from the electric fan F.
  • the first sound is a sound that occurs at a position related to the position of the listener L, and here, the position related to the position of the listener L is the position of the listener L's ears.
  • the first sound is a sound caused by the object and generated at a position related to the position of the listener L (that is, the position of the ear of the listener L). More specifically, the first sound according to this modification is an aerodynamic sound (second aerodynamic sound) generated when the wind W radiated from the electric fan F, which is an object, reaches the ear of the listener L.
  • the reception unit 41 receives an operation indicating the first sound data and first position information from the user. That is, the first sound data and first position information are input by the user operating the reception unit 41, and the second acquisition unit 42 acquires the input first sound data and first position information. .
  • the first generation unit 43 is an object that reproduces the first sound at a position related to the position of the listener L due to the object from the first sound data and the first position information acquired by the second acquisition unit 42. generating first object audio information including information regarding the object and first position information;
  • the information regarding the object indicates that the object is electric fan F, that the object itself causes the first sound to be reproduced, and so on.
  • the first sound ( The first sound data indicating the second aerodynamic sound is associated with the second aerodynamic sound. Furthermore, in the real space, the second aerodynamic sound is generated at the ears of the listener L, but here, the position of the electric fan F in the virtual space is treated as if it were the position of the sound source.
  • the first generation unit 43 may generate first object audio information including directivity information and unit distance information.
  • the directional information is information indicating characteristics according to the direction of the wind W radiated from the electric fan F.
  • the directional information is, for example, a database in which the wind speed for each direction in which the wind W is radiated or the attenuation rate of the volume of the second aerodynamic sound are stored in SOFA (Spatially Oriented Format for Acoustics) format.
  • the unit distance information is information that includes a unit distance that is a reference distance, and aerodynamic sound data that indicates aerodynamic sound at a position that is a unit distance away from the position of the object indicated by the first position information.
  • the aerodynamic sound data indicated in this unit distance information is data indicating aerodynamic sound (second aerodynamic sound) at a position a unit distance away from the object position in the front direction in which the object indicated in the directional information radiates wind W. It is.
  • FIG. 19 is a diagram for explaining directivity information and unit distance information according to this modification.
  • the front direction of the wind W radiated from the object (fan F) is defined as the direction Df.
  • a direction that makes an angle ⁇ 1 with the direction Df is a direction D31
  • a direction that makes an angle ⁇ 2 with the direction Df is a direction D32.
  • a unit distance is shown, and a circle is shown at a position that is a unit distance away from the object (fan F). In other words, the radius of the circle is the unit distance.
  • wsF be the wind speed of the wind W at a position a unit distance away from the object (fan F) in the direction DF.
  • ws1 be the wind speed of the wind W at a position a unit distance away from the object (fan F) in the direction D31
  • ws2 be the wind speed of the wind W at a position a unit distance away from the object (fan F) in the direction D32.
  • ws1 and ws2 satisfy (Formula 8) and (Formula 9).
  • the directivity information is a database that shows values such as C1 and C2 (C1 and C2 are constants) for each angle such as ⁇ 1 and ⁇ 2. Note that C1 is described as a value at angle ⁇ 1 indicated by the directivity information, and C2 is described as a value at angle ⁇ 2 indicated by the directivity information.
  • the first generation unit 43 generates first object audio information that further includes flag information.
  • the flag information indicates whether processing is performed to convolve the sound data (here, aerodynamic sound data) indicating the sound generated from the object (fan F) with a head-related transfer function that depends on the direction in which the sound arrives. This is information indicating whether or not.
  • the directivity information, unit distance information, and flag information may be stored in the storage unit 45 in advance, for example.
  • the first generation unit 43 may acquire the directivity information, unit distance information, and flag information from the storage unit 45, and similarly to the first sound data and the first position information, the first generation unit 43 acquires the information by operating the reception unit 41. You may.
  • the output unit 44 outputs the first sound data and first position information acquired by the second acquisition unit 42 and the first object audio information generated by the first generation unit 43 to the acoustic signal processing device 200. .
  • the storage unit 45 is a storage device that stores computer programs executed by the reception unit 41, the second acquisition unit 42, the first generation unit 43, and the output unit 44.
  • the acoustic signal processing device 200 includes a third acquisition section 210, a second calculation section 220, a second processing section 240, a second output section 250, and a storage section 270.
  • the third acquisition unit 210 receives the first object audio information generated by the information generation device 40, the first sound data acquired by the information generation device 40, and a second position indicating the position of the listener L of the first sound. Get information.
  • the third acquisition unit 210 acquires the second position information from the headphones 20 (more specifically, the head sensor unit 21), but is not limited thereto.
  • the second calculation unit 220 calculates the distance between the object (fan F) and the listener L based on the first position information included in the first object audio information acquired by the third acquisition unit 210 and the second position information acquired. Calculate the distance D from The second calculation unit 220 calculates the distance D using the same method as the first calculation unit 120 according to the embodiment.
  • the second calculation unit 220 determines whether the object (fan F) is received based on the first position information included in the first object audio information acquired by the third acquisition unit 210 and the second position information acquired. A direction between two points connecting the listener L is calculated.
  • the second processing unit 240 processes the first sound data so that the volume of the first sound decreases as the distance D calculated by the second calculation unit 220 increases.
  • the second processing unit 240 may process the first sound data using the second processing means shown in the second modification of the embodiment.
  • is preferably used as the value of x to process the first sound data. At this time, for example, ⁇ is 2.5.
  • first sound data indicating the first sound (second aerodynamic sound) is associated with the position of the object (fan F).
  • the second processing unit 240 processes the first sound data B2 so that the volume of the first sound B2 decreases as the distance D increases.
  • the sound (second aerodynamic sound) can be made similar to the first sound (second aerodynamic sound) in the real space that the listener L listens to.
  • the second processing unit 240 performs the following processing when the calculated distance D is larger than the unit distance indicated by the unit distance information included in the first object audio information acquired by the third acquisition unit 210. good. That is, in this case, the second processing unit 240 processes the first sound data so that the volume of the first sound is attenuated according to the calculated distance D and the unit distance. This process will be explained using FIG. 20.
  • FIG. 20 is a diagram for explaining the processing of the second processing unit 240 according to this modification.
  • FIG. 20 shows the positional relationship between the object (electric fan F) and the listener L.
  • the listener L is located in the front direction of the wind W radiated from the object (fan F).
  • the unit distance information indicates aerodynamic sound data indicating aerodynamic sound at a position that is a unit distance away from the object position in the front direction.
  • the first sound data corresponds to the aerodynamic sound data.
  • the second processing unit 240 adds the first sound to the aerodynamic sound data indicating the aerodynamic sound at a position unit distance away from the object position. Perform processing to attenuate the volume of (second aerodynamic sound).
  • the second processing unit 240 calculates the angle between the front direction of the wind W radiated from the object (the electric fan F) and the direction between the two points calculated by the second calculation unit 220 and the characteristics indicated by the directivity information.
  • the first sound data may be processed so as to control the volume of the first sound. This process will be explained using FIG. 21.
  • FIG. 21 is a diagram for explaining other processing of the second processing unit 240 according to this modification.
  • FIG. 21 shows the positional relationship between the object (fan F) and the listener L.
  • the listener L is located in the direction D31 from the object (fan F). In this case, the angle between the front direction and the two-point direction is ⁇ 1. If the listener L is in the position of the listener L shown in FIG. 21 (the position of the listener L shown with the solid line) compared to the case where the listener L is in the front direction position (the position of the listener L shown with the broken line) Then, the wind speed of the wind W that the listener L receives becomes lower.
  • the wind speed experienced by the listener L located in the position shown in FIG. 21 is the value obtained by multiplying the wind speed experienced by the listener L located in the front direction by the above C1. Since the volume of the first sound (second aerodynamic sound) that the listener L hears changes depending on the wind speed that the listener L receives, the second processing unit 240 changes the volume of the first sound data (here, the second aerodynamic sound) depending on the wind speed. , aerodynamic sound data shown in unit distance information).
  • the second processing section 240 performs both the processing explained in FIG. 20 and the processing explained in FIG. It is preferable to output it to 250.
  • the second output unit 250 outputs the first sound data (aerodynamic sound data) processed by the second processing unit 240.
  • the second output unit 250 outputs the first sound data to the headphones 20.
  • the headphones 20 can reproduce the first sound indicated by the output first sound data.
  • the storage unit 270 is a storage device that stores computer programs executed by the third acquisition unit 210, the second calculation unit 220, the second processing unit 240, and the second output unit 250.
  • FIG. 22 is a flowchart of operation example 4 of the information generation device 40 according to this modification.
  • the receiving unit 41 receives an operation indicating first sound data and first position information from the user (S110). That is, the first sound data and the first position information are input by the user operating the reception unit 41.
  • the second acquisition unit 42 acquires first sound data indicating a first sound occurring at a position related to the position of the listener L in the virtual space, and first position information indicating the position of the object in the virtual space. (S120).
  • the second acquisition unit 42 acquires the first sound data and first position information input in step S110. This step S120 corresponds to the second acquisition step.
  • the first generation unit 43 generates object-related information, first position information, unit distance information, and directional information from the first sound data and first position information acquired by the second acquisition unit 42.
  • the first object audio information including the first object audio information is generated (S130). Further, the generated first object audio information may include flag information. This step S130 corresponds to the first generation step.
  • the output unit 44 sends the first sound data and first position information acquired by the second acquisition unit 42 and the first object audio information generated by the first generation unit 43 to the acoustic signal processing device 200.
  • Output (S140)
  • FIG. 23 is a flowchart of operation example 5 of the acoustic signal processing device 200 according to this modification.
  • the third acquisition unit 210 acquires the first object audio information generated by the information generation device 40, the first sound data acquired by the information generation device 40, and the first sound data output from the headphones 20.
  • second position information is acquired (S210). This step S210 corresponds to the third acquisition step.
  • the second calculation unit 220 calculates the object (fan F) based on the first position information included in the first object audio information acquired by the third acquisition unit 210 and the acquired second position information.
  • the distance D to the listener L is calculated, and based on the first position information included in the first object audio information acquired by the third acquisition unit 210 and the acquired second position information, A direction between two points connecting F) and listener L is calculated. (S220).
  • This step S220 corresponds to the second calculation step.
  • the second processing section 240 controls the volume of the first sound based on the angle formed by the front direction and the direction between the two points calculated by the second calculation section 220 and the characteristics indicated by the directivity information. and according to the calculated distance D and the unit distance when the calculated distance D is larger than the unit distance indicated by the unit distance information included in the first object audio information acquired by the third acquisition unit 210.
  • the first sound data is processed so that the volume of the first sound is attenuated (S230).
  • the second processing unit 240 adds a signal to the first sound signal based on the first sound data, depending on the direction in which the sound arrives, according to the flag information. It is determined whether or not to perform the process of convolving the head-related transfer function.
  • the second processing unit 240 performs a process of convolving a head-related transfer function with the first sound signal based on the first sound data according to the flag information (S240). These steps S230 and S240 correspond to the second processing step.
  • the second output unit 250 outputs the first sound data (first sound signal) processed by the second processing unit 240 (S250).
  • This step S250 corresponds to the second output step.
  • the first sound data indicating the first sound (second aerodynamic sound) generated at a position related to the position of the listener L due to the object is associated with the position of the object.
  • First object audio information may be generated.
  • the first sound data is processed so that the volume of the first sound (second aerodynamic sound) is attenuated as the distance D between the object and the listener L increases.
  • the first sound (second aerodynamic sound) that the listener L hears in the virtual space is similar to the first sound (second aerodynamic sound) that the listener L hears in the real space. In other words, the listener L does not hear the first sound (second aerodynamic sound) that makes him feel uncomfortable, and the listener L can obtain a sense of presence.
  • Modification 4 of embodiment Modification 4 of the embodiment will be described below. In the following, differences from the third modification of the embodiment will be mainly described, and descriptions of common features will be omitted or simplified.
  • FIG. 24 is a block diagram showing the functional configuration of the information generation device 40 and the acoustic signal processing device 200c according to this modification.
  • the acoustic signal processing device 200c is the same as the acoustic signal processing device 200 according to modification 3, except that the second calculation section 220 is not provided, and the second processing section 240c is provided instead of the second processing section 240. have the same configuration.
  • the acoustic signal processing device 200c is a device that handles a first sound caused by an object and generated at a position related to the position of the listener L, and a second sound caused by the object.
  • the object according to this modification is an ambulance A, as in the second modification.
  • the first sound is an aerodynamic sound caused by the wind W radiated from the object (ambulance A) reaching the ears of the listener L, that is, a second aerodynamic sound.
  • the second sound is a siren sound emitted from ambulance A.
  • the acoustic signal processing device 200c includes a third acquisition section 210, a second processing section 240c, a second output section 250, and a storage section 270.
  • the third acquisition unit 210 acquires the first object audio information generated by the information generation device 40, the first sound data acquired by the information generation device 40, and the second object audio information.
  • the second object audio information is information in which first position information indicating the position of the object (ambulance A) in the virtual space and second sound data indicating the second sound caused by the object (ambulance A) are associated.
  • the second object audio information is data in which second sound data indicating a second sound and first position information indicating a position where the second sound is generated are associated, so the second object audio information is disclosed in Patent Document 1. This corresponds to object audio information in conventional technologies such as .
  • the second object audio information is preferably generated by the information generation device 40 and output to the acoustic signal processing device 200c.
  • the third acquisition unit 210 acquires the output second object audio information.
  • the second processing unit 240c processes the first sound data acquired by the third acquisition unit 210 and the second sound data included in the second object audio information acquired by the third acquisition unit 210 as follows. .
  • the second processing unit 240c performs a process of convolving a head-related transfer function that depends on the direction in which the sound arrives with a second sound signal based on the second sound data indicated by the second object audio information acquired by the third acquisition unit 210. do.
  • the second processing unit 240c does not perform a process of convolving the first sound signal based on the first sound data acquired by the third acquisition unit 210 with a head-related transfer function that depends on the direction in which the sound arrives.
  • the second processing unit 240c may cause the first sound signal based on the first sound data acquired by the third acquisition unit 210 to depend on the direction in which the wind W arrives from the ambulance A to the listener L. Process. Another example of processing will be described using FIG. 25.
  • FIG. 25 is a diagram for explaining the processing on the first sound data according to this modification.
  • the speed at which the wind W arrives and the amount of air flow differ between the right ear and the left ear of the listener L.
  • the wind W arrives at the left ear faster and has a larger air volume, and the wind W arrives at the right ear more slowly and has a smaller air volume.
  • the second processing unit 240c may perform the following processing on the first sound data as processing that depends on the direction in which the wind W arrives from the ambulance A to the listener L.
  • the first sound data is processed so that the first sound (second aerodynamic sound) heard by listener L becomes a sound that simulates the time difference and air volume ratio of reaching both ears of listener L. good. This allows the listener L to perceive the direction of the source of the wind W.
  • the first object audio information includes whether the second processing unit 240c does not perform a process of convolving the head-related transfer function with the first sound signal, or the wind W arrives from the ambulance A to the listener L on the first sound signal. Contains processing information indicating whether direction-dependent processing is to be performed.
  • the second processing unit 240c processes the first sound signal according to the processing information included in the first object audio information.
  • the second output section 250 outputs the second sound signal processed by the second processing section 240c. If the second processing section 240c does not process the first sound signal, the second output section 250 outputs the unprocessed first sound signal. Furthermore, when the second processing section 240c processes the first sound signal, the second output section 250 outputs the processed first sound signal.
  • the storage unit 270 stores the head-related transfer function used by the second processing unit 240c and information necessary for processing depending on the direction in which the wind W arrives from the ambulance A to the listener L. has been done.
  • FIG. 26 is a flowchart of operation example 6 of the acoustic signal processing device 200c according to this modification.
  • the second processing section 240c does not process the first sound signal.
  • the third acquisition unit 210 collects the first object audio information generated by the information generation device 40, the first sound data acquired by the information generation device 40, and the first position information. Second object audio information associated with the second sound data is acquired (S310). This step S310 corresponds to the third acquisition step.
  • the second processing unit 240c does not perform a process of convolving the first sound signal based on the first sound data acquired by the third acquisition unit 210 with a head-related transfer function that depends on the direction in which the sound arrives (S320).
  • the second processing unit 240c performs a process of convolving a head-related transfer function that depends on the direction in which the sound arrives with a second sound signal based on the second sound data indicated by the second object audio information acquired by the third acquisition unit 210. (S330). These steps S320 and S330 correspond to the second processing step.
  • the second output unit 250 outputs the first sound signal that has not been processed by the second processing unit 240c and the second sound signal that has been processed by the second processing unit 240c (S340). This step S340 corresponds to the second output step.
  • FIG. 27 is a flowchart of operation example 7 of the acoustic signal processing device 200c according to this modification.
  • the second processing section 240c processes the first sound signal.
  • step S310 is performed.
  • the second processing unit 240c performs processing on the first sound signal based on the first sound data acquired by the third acquisition unit 210, depending on the direction in which the wind W arrives from the ambulance A to the listener L (S320c). .
  • step S330 is performed.
  • the second output unit 250 outputs the first sound signal processed by the second processing unit 240c and the second sound signal processed by the second processing unit 240c (S340c).
  • the second sound in the virtual space that the listener L listens to is the real space that the listener L listens to, since the head-related transfer function is convolved with the second sound signal based on the second sound data.
  • the sound is similar to the second note in . For this reason, the listener L is less likely to feel a sense of discomfort, and the listener L can obtain a more realistic sensation.
  • the first sound in the virtual space that the listener L listens to is processed depending on the direction in which the wind W arrives on the first sound signal based on the first sound data.
  • the sound is similar to the first sound that listener L hears in real space. For this reason, the listener L is less likely to feel a sense of discomfort, and the listener L can obtain a more realistic sensation.
  • FIG. 28 is a block diagram showing the functional configuration of the information generation device 40 and the acoustic signal processing device 200d according to this modification.
  • the acoustic signal processing device 200d has the same configuration as the acoustic signal processing device 200c according to the fourth modification, except that it includes a second processing section 240d instead of the second processing section 240c.
  • the first sound (second aerodynamic sound) caused by the ambulance A, which is one object is generated at a position related to the position of the listener L, and the sound caused by the ambulance A, which is the one object.
  • the second sound (siren sound) was handled.
  • the first sound (second aerodynamic sound) generated at a position related to the position of the listener L due to the ambulance A, which is one object is a different object from the one object. In this case, a third sound caused by another object in the virtual space is handled.
  • the other object is included in the content displayed on the display unit 30 that displays the content (video as an example here) executed in the virtual space, there are no particular restrictions on the other object. Not done.
  • One object and one other object are provided within the same virtual space. Note that for the sake of simplicity, one object may be simply referred to as an object, and another object may simply be referred to as another object.
  • the third sound is a sound that occurs at the position of another object in the virtual space. Note that the third sound is a different sound from the first aerodynamic sound and the second aerodynamic sound.
  • the third acquisition unit 210 acquires the first object audio information generated by the information generation device 40, the first sound data acquired by the information generation device 40, and the third object audio information.
  • the third object audio information is information in which third position information indicating the position of another object in the virtual space is associated with third sound data indicating a third sound generated at the position of the other object.
  • the third object audio information is data in which third sound data indicating a third sound and third position information indicating a position where the third sound is generated are associated, so the third object audio information is disclosed in Patent Document 1. This corresponds to object audio information in conventional technologies such as .
  • the third object audio information is preferably generated by the information generation device 40 and output to the acoustic signal processing device 200d.
  • the third acquisition unit 210 acquires the output third object audio information.
  • the second processing unit 240d processes the first sound data acquired by the third acquisition unit 210 and the third sound data included in the third object audio information acquired by the third acquisition unit 210 as follows. .
  • the second processing unit 240d processes the first sound signal based on the first sound data depending on the direction in which the wind W arrives from the ambulance A to the listener L. Further, the second processing unit 240d performs a process of convolving a head-related transfer function that depends on the direction in which the sound arrives with a third sound signal based on the third sound data indicated by the acquired third object audio information. That is, in this modification, the second processing section 240d performs the same processing as the processing explained in FIG. 25 on the first sound signal. Further, the second processing unit 240d performs the same processing on the third sound signal as the second sound signal according to the fourth modification.
  • the second output unit 250 outputs the first sound signal processed by the second processing unit 240d and the third sound signal processed by the second processing unit 240d.
  • FIG. 29 is a flowchart of operation example 8 of the acoustic signal processing device 200d according to this modification.
  • the third acquisition unit 210 acquires the first object audio information generated by the information generation device 40, the first sound data acquired by the information generation device 40, and the position of another object.
  • Third object audio information in which third position information indicating the object is associated with third sound data indicating the third sound generated at the position of the other object is acquired (S310d). This step S310d corresponds to the third acquisition step.
  • the second processing unit 240d performs processing on the first sound signal based on the first sound data acquired by the third acquisition unit 210, depending on the direction in which the wind W arrives from the ambulance A to the listener L (S320c). .
  • the second processing unit 240d performs a process of convolving a head-related transfer function that depends on the direction in which the sound arrives with a third sound signal based on the third sound data indicated by the third object audio information acquired by the third acquisition unit 210. (S330d). These steps S320c and S330d correspond to the second processing step.
  • the second output unit 250 outputs the first sound signal processed by the second processing unit 240d and the third sound signal processed by the second processing unit 240d (S340d).
  • This step S340d corresponds to the second output step.
  • the first and third sounds in the virtual space that the listener L listens to are The sound is similar to the first and third sounds in the real space to be heard. For this reason, the listener L is less likely to feel a sense of discomfort, and the listener L can obtain a more realistic sensation.
  • FIG. 30 is a block diagram showing the functional configurations of the information generation device 50 and the acoustic signal processing device 400 according to this modification.
  • the information generation device 50 and the acoustic signal processing device 400 according to the present modification generate the second aerodynamic sound that makes the listener L feel uncomfortable, as explained in (Findings that formed the basis of the present disclosure). It is possible to suppress the occurrence of the problem of having to listen to the music.
  • the object is the electric fan F, as in modification 3, but the object is not limited to this, and any object that can radiate wind W may be used.
  • the wind W radiated from the object includes the wind caused by the movement of an object such as a moving body (ambulance A).
  • the information generation device 50 is a device that generates fourth object audio information and outputs it to the audio signal processing device 400.
  • the acoustic signal processing device 400 is a device that acquires the output fourth object audio information and outputs sound data to the headphones 20 based on the acquired fourth object audio information.
  • the information generation device 50 includes a second reception section 51, a fourth acquisition section 52, a second generation section 53, a third output section 54, and a storage section 55.
  • the second reception unit 51 receives an operation from a user of the information generation device 50 (for example, a creator of content executed in a virtual space).
  • the second reception unit 51 is specifically implemented using a hardware button, but may also be implemented using a touch panel or the like.
  • the fourth acquisition unit 52 acquires the generation position of the first wind blowing in the virtual space, the first direction of the first wind, and the first assumed wind speed.
  • the first wind blowing in the virtual space is the wind W radiated from the electric fan F, which is the object.
  • the first wind generation position is the position where the electric fan F is placed.
  • the electric fan F which is the object that radiates the first wind, blows in the virtual space (more specifically, in the virtual space where the listener L is located). space). That is, it is sufficient that the electric fan F is placed outside the virtual space where the listener L is present, and that the first wind, which is the wind W radiated from the electric fan F, reaches the virtual space.
  • the electric fan F which is the object that emits the first wind, may be placed in the virtual space where the listener L is present.
  • the first wind direction is the direction of the first wind, and is the front direction of the wind W radiated from the object (fan F), for example, the direction Df shown in FIG. 19.
  • the first assumed wind speed may be the wind speed of the first wind, and here, it is the wind speed of the first wind at a position a unit distance, which is a reference distance, from the generation position in the direction of the first wind direction. That is, the first assumed wind speed is, for example, the wind speed wsF shown in FIG. 19.
  • the first wind which is the wind W radiated from the electric fan F, which is an object, is blowing, so this wind W (first wind) reaches the listener L's ears.
  • the aerodynamic sound (second aerodynamic sound) produced by this will be heard.
  • the second reception unit 51 receives an operation from the user that indicates the first wind generation position, first wind direction, and first assumed wind speed. That is, when the user operates the second reception unit 51, the first wind generation position, first wind direction, and first assumed wind speed are input, and the fourth acquisition unit 52 receives the input first wind The occurrence position, first wind direction, and first assumed wind speed are acquired.
  • the second reception unit 51 accepts an operation from the user to specify that the unit distance is the second specified value. That is, by the user operating the second reception unit 51, the unit distance is set to be the second specified value.
  • the second generation unit 53 generates fourth object audio information in which the occurrence position acquired by the fourth acquisition unit 52, the first wind direction, and the first assumed wind speed are associated.
  • the second reception unit 51 accepts an operation from the user to specify directional information indicating characteristics according to the direction of the first wind.
  • the directivity information is the same as the information explained in FIG. 19 and the like.
  • the second generation unit 53 generates the generation position, the first wind direction, the first assumed wind speed, and the directional information indicated by the operation accepted by the second reception unit 51. Generating associated fourth object audio information.
  • the storage unit 55 is a storage device that stores computer programs and the like executed by the second reception unit 51, fourth acquisition unit 52, second generation unit 53, and third output unit 54.
  • the storage unit 55 stores an aerodynamic sound core that includes a representative wind speed and aerodynamic sound data indicating an aerodynamic sound (second aerodynamic sound) generated when the wind at the representative wind speed reaches the ears of the listener L in the virtual space. It is assumed that the information is stored. However, the aerodynamic sound core information does not necessarily need to be stored in the information generation device 50, and may be stored in a memory independent from the information generation device 50.
  • the second reception unit 51 receives an operation indicating aerodynamic sound core information from the user. That is, the aerodynamic sound core information is input by the user operating the second reception unit 51, and the input aerodynamic sound core information is stored in the storage unit 55.
  • the aerodynamic sound core information includes a representative wind speed indicating an example of one wind speed value, and aerodynamic sound data indicating the aerodynamic sound generated when the wind at this representative wind speed reaches the listener L's ears.
  • the aerodynamic sound data indicating the aerodynamic sound indicates the volume of the second aerodynamic sound.
  • the aerodynamic sound core information may include data (hereinafter sometimes referred to as frequency data) indicating the distribution of frequency components of the aerodynamic sound.
  • the frequency data is data indicating the frequency characteristics of the aerodynamic sound (second aerodynamic sound).
  • Such aerodynamic sound core information can also be used by the third processing unit 440, which will be described later, to determine the volume of the second aerodynamic sound that the listener L hears from the wind speed reaching the ear.
  • the aerodynamic sound core information may include a plurality of sets of representative wind speeds and aerodynamic sound data at the representative wind speeds. For example, as shown in FIG. 4C, the wind speed at each position where the wind speed differs due to the difference in distance from the wind W source is taken as the representative wind speed, and a set is created using the representative wind speed and the frequency data corresponding to the representative wind speed.
  • the aerodynamic sound core information may include a plurality of such sets.
  • the aerodynamic sound core information configured in this manner can also be used by the third processing unit 440, which will be described later, to determine the volume of the second aerodynamic sound heard by the listener L using the wind speed reaching the ears as an index.
  • the third output unit 54 outputs the fourth object audio information generated by the second generation unit 53 and the aerodynamic sound core information stored in the storage unit 55 to the acoustic signal processing device 400.
  • the acoustic signal processing device 400 includes a fifth acquisition section 410, a third calculation section 420, a third processing section 440, a fourth output section 450, and a storage section 470.
  • the fifth acquisition unit 410 acquires the fourth object audio information and aerodynamic sound core information output by the information generation device 50, and second position information indicating the position of the listener L in the virtual space.
  • the fifth acquisition unit 410 acquires the second position information from the headphones 20 (more specifically, the head sensor unit 21), but is not limited thereto. Further, here, the aerodynamic sound core information includes frequency data.
  • the third calculation unit 420 calculates the occurrence position (that is, electric fan F) and the listener based on the occurrence position included in the fourth object audio information acquired by the fifth acquisition unit 410 and the acquired second position information. Calculate the distance D from L. The third calculation unit 420 calculates the distance D using the same method as the first calculation unit 120 according to the embodiment.
  • the third calculation unit 420 calculates whether the object (electric fan F) and the listener L Calculate the direction between the two points.
  • the third processing unit 440 processes the aerodynamic sound data so that the volume of the aerodynamic sound attenuates as the distance D calculated by the third calculation unit 420 increases.
  • the third processing unit 440 determines that the volume of the aerodynamic sound (second aerodynamic sound) is a value obtained by dividing the representative wind speed by the ear-reaching wind speed, which is the wind speed of the first wind when it reaches the ear of the listener L. It is preferable to process the aerodynamic sound data so that it is attenuated by the ⁇ power of . That is, the third processing unit 440 processes the aerodynamic sound data based on the distance D, the representative wind speed, and the ear-reaching wind speed. Note that the wind speed at the ear decreases as the distance D calculated by the third calculation unit 420 increases. Further, the wind speed reaching the ear is a value that is attenuated by the z power of the value obtained by dividing the distance D calculated by the third calculation unit 420 by the unit distance.
  • the third processing unit 440 performs the following processing.
  • be the angle between the first wind direction, which is the front direction of the wind W (for example, the direction Df shown in FIG. 19), and the calculated direction between two points.
  • the ear-reaching wind speed which is the wind speed of the first wind when it reaches the ear of the listener L, is Se1 satisfies (Formula 10).
  • Se1 First assumed wind speed x Value at angle ⁇ indicated by directivity information x ⁇ (unit distance that is the reference distance/distance D) ⁇ ... (Formula 10)
  • the value at the angle ⁇ (angle ⁇ 1) indicated by the directivity information is C1.
  • the value obtained by dividing the representative wind speed by the ear reaching wind speed Se1 is set as R1.
  • V3 which is the volume of the second aerodynamic sound heard by the listener L, satisfies (Formula 11).
  • V3 Volume indicated by aerodynamic sound data of aerodynamic sound core information ⁇ ⁇ (1/R1) ⁇ ... (Formula 11)
  • z preferably satisfies (Formula 12).
  • ⁇ and z preferably satisfy (Formula 13).
  • the method for determining the volume V3 of the second aerodynamic sound heard by the listener L from the ear-reaching wind speed Se1 is not limited to the above method.
  • the aerodynamic sound core information includes a plurality of sets of representative wind speeds and frequency data at those wind speeds, and the third processing unit 440 detects the frequency data for the representative wind speed close to Se1 and applies the frequency data.
  • a second aerodynamic sound having a predetermined volume may be generated. That is, instead of calculating the volume V3 from Se1 using a mathematical formula, the aerodynamic sound data may be detected using Se1 as an index, and the predetermined volume may be achieved by applying this data.
  • the fourth output unit 450 outputs the aerodynamic sound data processed by the third processing unit 440.
  • the fourth output unit 450 outputs aerodynamic sound data to the headphones 20.
  • the headphones 20 can reproduce the second aerodynamic sound indicated by the output aerodynamic sound data.
  • the storage unit 470 is a storage device that stores computer programs executed by the fifth acquisition unit 410, the third calculation unit 420, the third processing unit 440, and the fourth output unit 450.
  • the third processing unit 440 may perform the following processing.
  • the third processing unit 440 processes the aerodynamic sound data so that the distribution of frequency components of the aerodynamic sound (second aerodynamic sound) is shifted to the lower frequency side as the distance D calculated by the third calculation unit 420 increases. do.
  • the third processing unit 440 processes the aerodynamic sound data so as to shift the distribution of the frequency components of the aerodynamic sound to a frequency that is a reciprocal of the value obtained by dividing the representative wind speed by the ear-reaching wind speed (R1 above). Process.
  • the distribution of frequency components included in the aerodynamic sound core information is processed by the third processing unit 440 and shifted to a frequency obtained by multiplying the frequency by the reciprocal of R1. distribution of frequency components.
  • the third processing unit 440 processes the aerodynamic sound data based on the distance D, the representative wind speed, and the ear-reaching wind speed.
  • the wind speed reaching the ear decreases as the calculated distance D increases.
  • the ear-reaching wind speed is a value that is attenuated by the z power of the value obtained by dividing the calculated distance D by the unit distance. Also in this case, z satisfies the above (Formula 12).
  • FIG. 31 is a flowchart of operation example 9 of the information generation device 50 according to this modification.
  • the second reception unit 51 receives an operation from the user specifying that the unit distance is a second specified value, and specifies directivity information indicating characteristics according to the direction of the first wind.
  • the operation to do so is accepted (S410).
  • the second reception unit 51 preferably receives an operation indicating the generation position of the first wind, the first wind direction, and the first assumed wind speed from the user. That is, when the user operates the second reception unit 51, the unit distance, directional information, first wind generation position, first wind direction, and first assumed wind speed are input. This step S410 corresponds to the second reception step.
  • the fourth acquisition unit 52 acquires the first wind generation position, the first wind direction of the first wind, and the first wind direction at a position that is a reference distance away from the generation position in the direction of the first wind direction.
  • the first assumed wind speed which is the wind speed of one wind, is acquired (S420). Further, the fourth acquisition unit 52 may also acquire directivity information.
  • the fourth acquisition unit 52 acquires the generation position of the first wind, the first direction of the first wind, the first assumed wind speed, and the directivity information input in step S410. This step S420 corresponds to the fourth acquisition step.
  • the second generation unit 53 generates fourth object audio information in which the occurrence position, the first wind direction, the first assumed wind speed, and the directional information are associated (S430).
  • This step S430 corresponds to the second generation step.
  • the storage unit 55 stores aerodynamic sound core information including the representative wind speed and aerodynamic sound data indicating the aerodynamic sound generated when the wind at the representative wind speed reaches the ears of the listener L (S440).
  • This aerodynamic sound core information may include data indicating the distribution of frequency components of aerodynamic sound.
  • This step S440 corresponds to a storage step.
  • the third output unit 54 outputs the fourth object audio information generated by the second generation unit 53 and the aerodynamic sound core information stored in the storage unit 55 to the acoustic signal processing device 400 (S450).
  • This step S450 corresponds to the third output step.
  • FIG. 32 is a flowchart of operation example 10 of the acoustic signal processing device 400 according to this modification.
  • Operation example 10 is an example in which the third processing unit 440 controls the volume of aerodynamic sound.
  • the fifth acquisition unit 410 acquires the fourth object audio information and aerodynamic sound core information output by the information generation device 50, and second position information indicating the position of the listener L in the virtual space. (S510). This step S510 corresponds to the fifth acquisition step.
  • the third calculation unit 420 calculates the relationship between the generation position and the listener L based on the generation position included in the fourth object audio information acquired by the fifth acquisition unit 410 and the acquired second position information.
  • a distance D is calculated (S520).
  • the third calculation unit 420 calculates the object (fan F) based on the occurrence position included in the fourth object audio information acquired by the fifth acquisition unit 410 and the acquired second position information.
  • a direction between two points connecting listener L is calculated. This step S520 corresponds to the third calculation step.
  • the third processing unit 440 processes the aerodynamic sound data so that the volume of the aerodynamic sound decreases as the distance D calculated by the third calculation unit 420 increases (S530). More specifically, the third processing unit 440 processes the aerodynamic sound data so that the volume of the aerodynamic sound is attenuated by the ⁇ power of the value obtained by dividing the representative wind speed by the ear-reaching wind speed. This step S530 corresponds to the third processing step.
  • the fourth output unit 450 outputs the aerodynamic sound data processed by the third processing unit 440 (S540). This step S540 corresponds to the fourth output step.
  • FIG. 33 is a flowchart of operation example 11 of the acoustic signal processing device 400 according to this modification.
  • Operation example 11 is an example in which the third processing unit 440 controls the frequency component of aerodynamic sound.
  • the fifth acquisition unit 410 acquires the fourth object audio information output by the information generation device 50 and aerodynamic sound core information including data indicating the distribution of frequency components of the aerodynamic sound, and the virtual space.
  • second position information indicating the position of the listener L at (S510f). This step S510f corresponds to the fifth acquisition step.
  • step S520 is performed.
  • the third processing unit 440 processes the aerodynamic sound data so as to shift the distribution of frequency components of the aerodynamic sound toward lower frequencies as the distance D calculated by the third calculation unit 420 increases (S530f ). More specifically, the third processing unit 440 processes the aerodynamic sound so as to shift the distribution of the frequency components of the aerodynamic sound to a frequency that is the reciprocal of the value obtained by dividing the representative wind speed by the ear-reaching wind speed (R1 above).
  • the sound data is processed (S530f). This step S530f corresponds to the third processing step.
  • the fourth output unit 450 outputs the aerodynamic sound data processed by the third processing unit 440 (S540). This step S540 corresponds to the fourth output step.
  • the information generation method can generate fourth object audio information in which the occurrence position, the first wind direction, and the first assumed wind speed are associated.
  • the acoustic signal processing method processes the aerodynamic sound data such that, for example, the volume of the aerodynamic sound (second aerodynamic sound) is attenuated as the distance D between the object and the listener L increases.
  • the acoustic signal processing method processes the aerodynamic sound data so that the distribution of the frequency components of the aerodynamic sound is shifted to the lower frequency side as the distance D between the object and the listener L increases. .
  • the aerodynamic sound (second aerodynamic sound) in the virtual space that the listener L hears is similar to the aerodynamic sound (second aerodynamic sound) that the listener L hears in the real space. That is, the listener L does not hear the aerodynamic sound (second aerodynamic sound) that makes him feel uncomfortable, and the listener L can obtain a sense of presence.
  • Modification 7 of embodiment Modification 7 of the embodiment will be described below. In the following, the differences from the sixth modification of the embodiment will be mainly explained, and the explanation of the common points will be omitted or simplified.
  • FIG. 34 is a block diagram showing the functional configurations of the information generation device 60 and the acoustic signal processing device 500 according to this modification.
  • the information generation device 60 and the acoustic signal processing device 500 according to the present modification generate the second aerodynamic sound that makes the listener L feel uncomfortable, as explained in (Findings that formed the basis of the present disclosure). It is possible to suppress the occurrence of the problem of having to listen to the music.
  • the object is a fan F, as in modification 6.
  • the first wind which is the wind W radiated from the electric fan F, which is an object in the virtual space
  • a first wind and a second wind that is different from the first wind are handled.
  • the first wind according to the present modification is the wind W radiated from the electric fan F, which is an object in the virtual space, as in the sixth modification.
  • the second wind does not need to be a wind caused by an object in the virtual space.
  • the second wind is a wind that is a wind that occurs in nature in real space and is reproduced in virtual space (hereinafter referred to as natural wind). Furthermore, since the second wind is a natural wind, its generation position cannot be specified in virtual space.
  • the information generation device 60 is a device that generates fourth object audio information related to the first style and fifth object audio information related to the second style, and outputs it to the acoustic signal processing device 500.
  • the acoustic signal processing device 500 acquires the outputted fourth object audio information and fifth object audio information, and transmits the sound data to the headphones 20 based on the acquired fourth object audio information and fifth object audio information. It is an output device.
  • the information generation device 60 includes a third reception section 61, a seventh acquisition section 62, a fourth generation section 63, a sixth output section 64, a storage section 65, and a display section 66.
  • the third reception unit 61 receives an operation from a user of the information generation device 60 (for example, a creator of content executed in a virtual space).
  • the third reception unit 61 is specifically implemented using a hardware button, but may also be implemented using a touch panel or the like.
  • the seventh acquisition unit 62 acquires the generation position of the first wind blowing in the virtual space, the first wind direction of the first wind, the first assumed wind speed, the second wind direction of the second wind blowing in the virtual space, and the second assumed wind speed. Get wind speed and.
  • the first wind blowing in the virtual space is the wind W radiated from the electric fan F, which is the object, as in Modification 6.
  • the first wind generation position is the position where the electric fan F is placed.
  • the electric fan F which is the object that radiates this first wind, blows in the virtual space (more specifically, It does not need to be located within the virtual space in which the listener L is present. That is, as in Modification 6, the electric fan F, which is the object that emits the first wind, may or may not be placed in the virtual space where the listener L is present.
  • the first wind direction is the direction of the first wind, and is the front direction of the wind W radiated from the object (fan F), for example, the direction Df shown in FIG. 19.
  • the first assumed wind speed according to this modification may be any value as long as it indicates the wind speed of the first wind.
  • the first assumed wind speed is the wind speed of the first wind at a position that is a unit distance away from the generation position in the direction of the first wind direction, which is a reference distance. That is, the first assumed wind speed is, for example, the wind speed wsF shown in FIG. 19.
  • the first wind which is the wind W radiated from the electric fan F, which is an object, is blowing, so this wind W (first wind) reaches the listener L's ears.
  • the aerodynamic sound (second aerodynamic sound) produced by this will be heard.
  • the second wind is a natural wind
  • the second wind direction is the direction of the second wind.
  • the second wind direction indicates south-southwest.
  • the second assumed wind speed is the wind speed of the second wind. Since the second wind is a natural wind, the second assumed wind speed exhibits a constant value regardless of the location in the virtual space. In other words, the listener L is exposed to the second wind having a constant wind speed, regardless of the position of the listener L in the virtual space.
  • the listener L will hear at least one of the second aerodynamic sound caused by the first wind and the second aerodynamic sound caused by the second wind.
  • the third reception unit 61 receives an operation from the user indicating the first wind generation position, first wind direction, first assumed wind speed, second wind direction, and second expected wind speed. That is, when the user operates the third reception unit 61, the first wind generation position, first wind direction, first assumed wind speed, second wind direction, and second assumed wind speed are input, and the seventh acquisition unit 62 The input first wind generation position, first wind direction, first assumed wind speed, second wind direction, and second assumed wind speed are acquired. The details of the process in which the third reception unit 61 receives an operation indicating the first assumed wind speed and the second assumed wind speed from the user will be described later using the process of the display unit 66.
  • the third reception unit 61 accepts an operation from the user to specify that the unit distance is the second designated value. That is, by the user operating the third reception unit 61, the unit distance is set to be the second designated value.
  • the fourth generation unit 63 generates fourth object audio information in which the occurrence position acquired by the seventh acquisition unit 62, the first wind direction, and the first assumed wind speed are associated.
  • the fourth generation unit 63 generates fifth object audio information in which the second wind direction and second assumed wind speed acquired by the seventh acquisition unit 62 are associated.
  • the third reception unit 61 accepts an operation from the user to specify directional information indicating characteristics according to the direction of the first wind.
  • the directivity information is the same as the information explained in FIG. 19 and the like.
  • the fourth generation unit 63 generates the generation position, the first wind direction, the first assumed wind speed, and the directional information indicated by the operation accepted by the third reception unit 61. Generating associated fourth object audio information.
  • the storage unit 65 is a storage device that stores computer programs executed by the third reception unit 61, the seventh acquisition unit 62, the fourth generation unit 63, the sixth output unit 64, and the display unit 66. Note that the storage unit 65 stores an aerodynamic sound core that includes a representative wind speed and aerodynamic sound data indicating an aerodynamic sound (second aerodynamic sound) generated when the wind at the representative wind speed reaches the ears of the listener L in the virtual space. Information is stored.
  • the third reception unit 61 receives an operation indicating aerodynamic sound core information from the user. That is, the aerodynamic sound core information is input by the user operating the third reception unit 61, and the input aerodynamic sound core information is stored in the storage unit 65.
  • the aerodynamic sound core information includes a representative wind speed indicating an example of one wind speed value, and aerodynamic sound data indicating the aerodynamic sound generated when the wind at this representative wind speed reaches the listener L's ears.
  • the aerodynamic sound data indicating the aerodynamic sound indicates the volume of the second aerodynamic sound.
  • the sixth output unit 64 outputs the fourth object audio information generated by the fourth generation unit 63 and the fifth object audio information generated by the fourth generation unit 63. More specifically, when the first wind generation position is in a virtual space (more specifically, the virtual space where the listener L is present), the sixth output unit 64 outputs the output signal generated by the fourth generation unit 63. output the fourth object audio information. The sixth output unit 64 outputs the fifth object audio information generated by the fourth generation unit 63 when the first wind generation position is not in the virtual space. The sixth output unit 64 outputs the fourth object audio information or the fifth object audio information to the audio signal processing device 500. Further, the sixth output unit 64 outputs the aerodynamic sound core information stored in the storage unit 65 to the acoustic signal processing device 500.
  • the display unit 66 is a display device that displays an image in which wind speeds and words expressing the wind speeds are linked.
  • the display unit 30 is realized by, for example, a display panel such as a liquid crystal panel or an organic EL (Electro Luminescence) panel.
  • FIG. 35 is a diagram showing an example of an image displayed on the display section 66 according to this modification.
  • the image is an image in which a wind speed and a word expressing the wind speed are linked.
  • the image shows that, for example, when the wind speed is 0.0-0.2 [m/s], the word expressing the wind speed is "peaceful.”
  • the image may include characters, figures, illustrations, and the like.
  • the third reception unit 61 receives a first operation from the user to specify the wind speed indicated by the image displayed as the first assumed wind speed, and a second operation to specify the wind speed indicated by the image displayed as the second assumed wind speed. Accept operations. That is, when the user operates the third reception unit 61, the first assumed wind speed and the second assumed wind speed are input, and the seventh acquisition unit 62 acquires the inputted first assumed wind speed and second assumed wind speed. .
  • the acoustic signal processing device 500 When the information generation device 60 outputs the fourth object audio information, the acoustic signal processing device 500 performs processing on the second aerodynamic sound caused by the first wind related to the fourth object audio information. Further, when the information generation device 60 outputs the fifth object audio information, the acoustic signal processing device 500 performs processing on the second aerodynamic sound caused by the second wind related to the fifth object audio information.
  • the acoustic signal processing device 500 includes an eighth acquisition section 510, a third calculation section 420, a fourth processing section 540, a seventh output section 550, and a storage section 570.
  • the eighth acquisition unit 510 acquires the fourth object audio information or the fifth object audio information output by the information generation device 60.
  • the eighth acquisition unit 510 acquires the second position information indicating the position of the listener L in the virtual space and the aerodynamic sound core information output by the information generation device 60.
  • the eighth acquisition unit 510 acquires the second position information from the headphones 20 (more specifically, the head sensor unit 21), but is not limited thereto.
  • the eighth acquisition unit 510 acquires the fourth object audio information.
  • 3 calculation unit 420 performs the following processing.
  • the third calculation unit 420 calculates the occurrence position (that is, electric fan F) and the reception based on the occurrence position included in the fourth object audio information acquired by the eighth acquisition unit 510 and the acquired second position information.
  • the distance D to the listener L is calculated.
  • the third calculation unit 420 calculates the distance D using the same method as the first calculation unit 120 according to the embodiment.
  • the third calculation unit 420 calculates whether the object (fan F) and the listener L Calculate the direction between the two points.
  • the fourth processing unit 540 converts the aerodynamic sound data included in the aerodynamic sound core information into the second position information acquired by the eighth acquisition unit 510. Process based on the position indicated by . In other words, in this case, processing is performed for the second aerodynamic sound caused by the first wind. More specifically, like the third processing unit 440 according to the sixth modification, the fourth processing unit 540 operates so that the volume of the aerodynamic sound is attenuated as the distance D calculated by the third calculation unit 420 increases. It is recommended to process aerodynamic sound data.
  • the distance D calculated by the third calculation unit 420 is a value that depends on the position indicated by the second position information.
  • the aerodynamic sound data processed by the fourth processing unit 540 is data indicating the second aerodynamic sound caused by the first wind.
  • the fourth processing unit 540 converts the aerodynamic sound data included in the aerodynamic sound core information into the second position information acquired by the eighth acquisition unit 510. Processing is not based on the position indicated by . Since the second wind is a natural wind, the second assumed wind speed of the second wind does not depend on the position of the listener L indicated by the second position information and exhibits a constant value. Therefore, the fourth processing unit 540 processes the aerodynamic sound data without depending on the position indicated by the second position information.
  • the fourth processing unit 540 performs the following processing.
  • the value obtained by dividing the representative wind speed by the ear reaching wind speed Se2 is set as R2.
  • V5 which is the volume of the second aerodynamic sound heard by the listener L, satisfies (Formula 15).
  • V5 Volume indicated by aerodynamic sound data of aerodynamic sound core information ⁇ ⁇ (1/R2) ⁇ ... (Formula 15)
  • the storage unit 570 is a storage device that stores computer programs executed by the eighth acquisition unit 510, the third calculation unit 420, the fourth processing unit 540, and the seventh output unit 550.
  • the first wind which is the wind W radiated from the object
  • the second wind which is the natural wind
  • processing that does not depend on the position of the listener L is performed, rather than processing that depends on the position of the listener L.
  • FIG. 36 is a flowchart of operation example 12 of the information generation device 60 according to this modification.
  • the display unit 66 displays an image in which a wind speed is associated with a word expressing the wind speed (S610).
  • the third reception unit 61 receives a first operation from the user to specify the wind speed indicated by the image displayed as the first assumed wind speed, and a second operation to specify the wind speed indicated by the image displayed as the second assumed wind speed. 2 operation is accepted (S620).
  • the third reception unit 61 preferably receives an operation indicating the generation position of the first wind, the first wind direction, and the second wind direction from the user. That is, when the user operates the third reception unit 61, the first wind generation position, first wind direction, first estimated wind speed, second wind direction, and second estimated wind speed are input. This step S620 corresponds to the third reception step.
  • the seventh acquisition unit 62 acquires the generation position of the first wind, the first wind direction of the first wind, the first assumed wind speed that is the wind speed of the first wind, the second wind direction of the second wind, and the first wind direction of the first wind.
  • the second assumed wind speed which is the wind speed of the second wind, is acquired (S630).
  • the seventh acquisition unit 62 acquires the first wind generation position, first wind direction, first assumed wind speed, second wind direction, and second assumed wind speed input in step S620. This step S630 corresponds to the seventh acquisition step.
  • the fourth generation unit 63 generates fourth object audio information in which the generation position, the first wind direction, and the first assumed wind speed are associated, and the second wind direction and the second assumed wind speed are associated with each other.
  • Fifth object audio information is generated (S640). This step S640 corresponds to the fourth generation step.
  • the storage unit 65 stores aerodynamic sound core information including the representative wind speed and aerodynamic sound data indicating the aerodynamic sound (second aerodynamic sound) generated when the wind at the representative wind speed reaches the ears of the listener L. It is stored (S650).
  • This step S650 corresponds to a storage step.
  • the sixth output unit 64 outputs the fourth object audio information generated by the fourth generation unit 63 when the first wind generation position is in the virtual space, and outputs the fourth object audio information generated by the fourth generation unit 63 when the first wind generation position is not in the virtual space. If so, the fifth object audio information generated by the fourth generation unit 63 is output (S660). At this time, the sixth output section 64 may also output the aerodynamic sound core information stored in the storage section 65. This step S660 corresponds to the sixth output step.
  • FIG. 37 is a flowchart of operation example 13 of the acoustic signal processing device 500 according to this modification.
  • the eighth acquisition unit 510 acquires the second position information indicating the position of the listener L in the virtual space and the fourth object audio information or the fifth object audio output by the information generation device 60. information (S710). Further, at this time, the eighth acquisition unit 510 may also acquire aerodynamic sound core information. This step S710 corresponds to the eighth acquisition step.
  • the third calculation unit 420 performs the following processing. That is, the third calculation unit 420 calculates the distance between the generation position and the listener L based on the generation position included in the fourth object audio information acquired by the eighth acquisition unit 510 and the acquired second position information. D is calculated (S720). Note that at this time, the third calculation unit 420 calculates the object (fan F) based on the occurrence position included in the fourth object audio information acquired by the eighth acquisition unit 510 and the acquired second position information. A direction between two points connecting listener L is calculated.
  • the fourth processing unit 540 processes the aerodynamic sound data included in the aerodynamic sound core information based on the position indicated by the acquired second position information, and processes the aerodynamic sound data included in the aerodynamic sound core information based on the position indicated by the acquired second position information, If the object audio information is acquired, the aerodynamic sound data included in the aerodynamic sound core information is processed without being based on the position indicated by the acquired second position information (S730). This step S730 corresponds to the fourth processing step.
  • the seventh output unit 550 outputs the aerodynamic sound data processed by the fourth processing unit 540 (S740). This step S740 corresponds to the seventh output step.
  • the information generation method includes fourth object audio information associated with an occurrence position, a first wind direction, and a first assumed wind speed, and a fifth object associated with a second wind direction and a second assumed wind speed. Audio information can be generated.
  • the acoustic signal processing method processes the aerodynamic sound data based on the position indicated by the second position information, so that the aerodynamic sound caused by the first wind (the second aerodynamic sound The sound) is similar to the aerodynamic sound caused by the first wind (second aerodynamic sound) in the real space that the listener L listens to.
  • the acoustic signal processing method processes the aerodynamic sound data not based on the position indicated by the second position information, so that the aerodynamic sound due to the second wind in the virtual space listened to by the listener L (The second aerodynamic sound) is a sound similar to the aerodynamic sound caused by the second wind in the real space that the listener L listens to (second aerodynamic sound). That is, the listener L does not hear the aerodynamic sound (second aerodynamic sound) that makes him feel uncomfortable, and the listener L can obtain a sense of presence.
  • Modification 8 of embodiment Modification 8 of the embodiment will be described below. In the following, differences from Modified Example 7 of the embodiment will be mainly described, and description of common features will be omitted or simplified.
  • FIG. 38 is a block diagram showing the functional configurations of the information generation device 70 and the acoustic signal processing device 500 according to this modification.
  • the information generation device 70 according to this modification includes a sixth acquisition section 72, a third generation section 73, and a fifth output section 74 instead of the seventh acquisition section 62, fourth generation section 63, and sixth output section 64.
  • the information generation device 70 has the same configuration as the information generation device 70 according to Modification Example 7, except for the following points and the fact that the display unit 66 is not provided.
  • the information generation device 70 is a device that generates fifth object audio information related to the second wind and outputs it to the audio signal processing device 500.
  • the acoustic signal processing device 500 is a device that acquires the output fifth object audio information and outputs sound data to the headphones 20 based on the acquired fifth object audio information.
  • the information generation device 70 includes a third reception section 61, a sixth acquisition section 72, a third generation section 73, a fifth output section 74, and a storage section 75.
  • the third reception unit 61 receives an operation from a user of the information generation device 70 (for example, a creator of content executed in a virtual space).
  • the third reception unit 61 is specifically implemented using a hardware button, but may also be implemented using a touch panel or the like.
  • the sixth acquisition unit 72 acquires the second wind direction and second assumed wind speed of the second wind blowing in the virtual space.
  • the third reception unit 61 accepts an operation indicating the second wind direction and second assumed wind speed from the user. That is, the second wind direction and the second assumed wind speed are input by the user operating the third reception unit 61, and the sixth acquisition unit 72 acquires the inputted second wind direction and second assumed wind speed.
  • the third generation unit 73 generates fifth object audio information in which the second wind direction and second assumed wind speed acquired by the sixth acquisition unit 72 are associated.
  • the storage unit 75 is a storage device that stores computer programs executed by the third reception unit 61, the sixth acquisition unit 72, the third generation unit 73, and the fifth output unit 74. Note that the storage unit 75 stores an aerodynamic sound core including a representative wind speed and aerodynamic sound data indicating aerodynamic sound (second aerodynamic sound) generated when the wind at the representative wind speed reaches the ear of the listener L in the virtual space. Information is stored.
  • the fifth output unit 74 outputs the fifth object audio information generated by the third generation unit 73 and the aerodynamic sound core information stored in the storage unit 75 to the acoustic signal processing device 500.
  • the acoustic signal processing device 500 performs processing on the second aerodynamic sound caused by the second wind related to the fifth object audio information.
  • the eighth acquisition unit 510 acquires the fifth object audio information and aerodynamic sound core information output by the information generation device 70.
  • the fourth processing unit 540 processes the aerodynamic sound data included in the aerodynamic sound core information, regardless of the position indicated by the second position information acquired by the eighth acquisition unit 510.
  • the fourth processing unit 540 performs the same processing as when the fifth object audio information is acquired in the seventh modification.
  • FIG. 39 is a flowchart of operation example 14 of the information generation device 70 according to this modification.
  • the third reception unit 61 receives an operation indicating the second wind direction and second assumed wind speed from the user (S810).
  • the sixth acquisition unit 72 acquires the second wind direction of the second wind and the second assumed wind speed that is the wind speed of the second wind (S820).
  • the sixth acquisition unit 72 acquires the second wind direction and second assumed wind speed input in step S810.
  • This step S820 corresponds to the sixth acquisition step.
  • the third generation unit 73 generates fifth object audio information in which the second wind direction and the second assumed wind speed are associated (S830). This step S830 corresponds to the third generation step.
  • the storage unit 75 stores aerodynamic sound core information including the representative wind speed and aerodynamic sound data indicating the aerodynamic sound generated when the wind at the representative wind speed reaches the ears of the listener L (S840). .
  • This step S840 corresponds to a storage step.
  • the fifth output unit 74 outputs the fifth object audio information generated by the third generation unit 73 (S850). At this time, the fifth output section 74 may also output the aerodynamic sound core information stored in the storage section 75. This step S850 corresponds to the fifth output step.
  • processing is performed by the acoustic signal processing device 500, and the listener L hears the second aerodynamic sound caused by the second wind.
  • the assumed wind speed was processed as being always constant at a given value, but in real space, the wind speed, especially the wind speed of natural wind, fluctuates slowly. Therefore, if aerodynamic sound is generated in a virtual space with the assumed wind speed always constant, it would be somewhat unnatural from the perspective of daily life. Therefore, for example, if the assumed wind speed is given as S, the reality will be increased by varying the assumed wind speed gently and irregularly around S. Even in that case, the process of generating aerodynamic sound may be performed according to the method shown in the above embodiment, assuming that the wind speed that fluctuates from moment to moment is the assumed wind speed at that moment. The same applies to the wind direction.
  • the fact that the wind direction is constant also causes unnaturalness. Therefore, by adding a volume ratio, phase difference, or time difference between the aerodynamic sound signal output for the left ear and the aerodynamic sound signal output for the right ear, the wind direction is fluctuated. It may also be controlled to express things.
  • FIG. 40 is a diagram showing an example of a functional block diagram and steps for explaining a case where the rendering units A0203 and A0213 in FIGS. 5G and 5H perform pipeline processing.
  • the rendering unit 900 which is an example of the rendering units A0203 and A0213 in FIGS. 5G and 5H, will be used.
  • Pipeline processing refers to dividing the process for adding sound effects into multiple processes and executing each process one by one in sequence. In each of the divided processes, for example, signal processing of an audio signal or generation of parameters used for signal processing is executed.
  • the rendering unit 900 in this embodiment includes processing that performs, for example, a reverberation effect, early reflected sound, distance attenuation effect, binaural processing, etc. as pipeline processing.
  • the above processing is an example, and other processing may be included, or some processing may not be included.
  • the rendering unit 900 may include diffraction processing or occlusion processing as pipeline processing, or may omit reverberation processing, for example, if it is unnecessary.
  • each process may be expressed as a stage, and an audio signal such as a reflected sound generated as a result of each process may be expressed as a rendering item.
  • the order of each stage in pipeline processing and the stages included in pipeline processing are not limited to the example shown in FIG. 40.
  • the rendering unit 900 does not need to include all the stages shown in FIG. 40, some stages may be omitted, or other stages may exist in addition to the rendering unit 900.
  • Each process analyzes the metadata included in the input signal and calculates the parameters necessary to generate reflected sound.
  • the rendering unit 900 includes a reverberation processing unit 901, an early reflection processing unit 902, a distance attenuation processing unit 903, a selection unit 904, a calculation unit 906, a generation unit 907, and a binaural processing unit 905.
  • the reverberation processing section 901 performs the reverberation processing step
  • the early reflection processing section 902 performs the initial reflection processing step
  • the distance attenuation processing section 903 performs the distance attenuation processing step
  • the selection section 904 performs the selection processing step
  • the binaural processing section 905 performs the selection processing step.
  • An example in which a binaural processing step is performed will be described.
  • the reverberation processing unit 901 In the reverberation processing step, the reverberation processing unit 901 generates an audio signal indicating reverberant sound or parameters necessary for generating the audio signal.
  • Reverberant sound is sound that includes reverberant sound that reaches the listener as reverberation after the direct sound.
  • reverberant sound occurs relatively late after the early reflected sound (described later) reaches the listener (for example, about 100-odd milliseconds from the arrival of the direct sound), and occurs more times than the early reflected sound ( For example, it is reverberant sound that reaches the listener after being reflected several dozen times.
  • the reverberation processing unit 901 refers to the audio signal and spatial information included in the input signal, and performs calculations using a predetermined function prepared in advance for generating reverberant sound.
  • the reverberation processing unit 901 may generate reverberation by applying a known reverberation generation method to the sound signal.
  • a known reverberation generation method is, for example, the Schroeder method, but is not limited thereto.
  • the reverberation processing unit 901 uses the shape and acoustic characteristics of the sound reproduction space indicated by the spatial information when applying known reverberation generation processing. Thereby, the reverberation processing unit 901 can calculate parameters for generating an audio signal indicating reverberation.
  • the early reflection processing unit 902 calculates parameters for generating early reflection sound based on spatial information.
  • Early reflected sound is a reflection that reaches the listener through one or more reflections relatively early after the direct sound reaches the listener from the sound source object (for example, about several tens of milliseconds after the direct sound arrives). It's a sound.
  • the early reflection processing unit 902 refers to the sound signal and metadata, and uses the shape and size of the three-dimensional sound field (space), the position of objects such as structures, and the reflectance of the object to determine the sound source object. Calculate the path of the reflected sound that reflects from the object and reaches the listener. Further, the early reflection processing unit 902 may also calculate the route of the direct sound. The information on the route is used as a parameter for generating the early reflected sound, and may also be used as a parameter for the selection process of the reflected sound in the selection unit 904.
  • the distance attenuation processing unit 903 calculates the volume that reaches the listener based on the difference between the length of the direct sound path and the length of the reflected sound path calculated by the early reflection processing unit 902.
  • the volume of direct sound that reaches the listener is attenuated in proportion to the distance to the listener (inversely proportional to the distance) relative to the volume of the sound source, so the volume of direct sound is calculated by dividing the volume of the sound source by the length of the direct sound path.
  • the volume of the reflected sound can be calculated by dividing the volume of the sound source by the length of the path of the reflected sound.
  • the selection unit 904 selects the sound to be generated.
  • the selection process may be performed based on the parameters calculated in the previous step.
  • the sounds that are not selected in the selection process do not need to be subjected to the processes after the selection process in the pipeline process.
  • the computational load on the acoustic signal processing device 100 can be reduced more than when deciding not to perform only binaural processing for unselected sounds. It becomes possible.
  • the selection process described in this embodiment is executed as part of the pipeline process
  • the selection process is executed in the order that is earlier among the multiple processes in the pipeline process. If set, more processes subsequent to the selection process can be omitted, and the amount of calculations can be further reduced. For example, if the selection process is executed before the calculation unit 906 and the generation unit 907 process, it is possible to omit the process for the aerodynamic sound related to the object that is determined not to be selected, and the acoustic signal processing device 100 can be reduced.
  • parameters calculated in part of the pipeline processing that generates rendering items may be used by the selection unit 904 or the calculation unit 906.
  • the binaural processing unit 905 performs signal processing on the direct sound audio signal so that it is perceived as sound reaching the listener from the direction of the sound source object. Further, the binaural processing unit 905 performs signal processing so that the reflected sound is perceived as sound reaching the listener from the obstacle object involved in the reflection.
  • the HRIRHead-Related Impulse Responses) DB Data base
  • the position and direction of the listening point may be changed according to the movement of the listener's head, for example. Additionally, information indicating the position of the listener may be obtained from a sensor.
  • HRIR Head-Related Impulse Responses
  • HRIR head-Related Impulse Responses
  • HRIR transforms the head-related transfer function, which expresses changes in sound caused by surrounding objects including the ear shell, head, and shoulders, as a transfer function, from the expression in the frequency domain to the expression in the time domain. This is the response characteristic converted to .
  • HRIR DB is a database containing such information.
  • the rendering unit 900 may include a processing unit that is not shown.
  • it may include a diffraction processing section or an occlusion processing section.
  • the diffraction processing unit executes processing to generate an audio signal representing a sound including diffracted sound caused by an obstacle between a listener and a sound source object in a three-dimensional sound field (space).
  • Diffraction sound is sound that, when there is an obstacle between the sound source object and the listener, reaches the listener from the sound source object by going around the obstacle.
  • the diffraction processing unit refers to the sound signal and metadata, and uses the position of the sound source object in the three-dimensional sound field (space), the position of the listener, and the position, shape, and size of obstacles to generate the sound source object.
  • a route is calculated to reach the listener by bypassing obstacles, and diffraction sound is generated based on the route.
  • the occlusion processing unit generates an audio signal that can be heard when there is a sound source object on the other side of the obstacle object, based on the spatial information acquired in any step and information such as the material of the obstacle object.
  • the position information given to the sound source object is defined as a "point" in the virtual space, and the details of the invention have been described assuming that the sound source object is a so-called "point sound source.”
  • a spatially extended sound source that is not a point sound source may be defined as an object having a length, size, shape, etc. In such a case, the distance between the listener and the sound source or the direction of arrival of the sound is not determined, so the reflected sound caused by it does not need to be analyzed, or the selection unit 904 may not be able to analyze it regardless of the analysis result.
  • the processing may be limited to "select" processing.
  • the processing of the present disclosure may be applied assuming that a representative point such as the center of gravity of the object is determined and the sound is generated from that representative point, but in that case, the processing of the present disclosure may be applied to the spatial expansion information of the sound source.
  • the processing of the present disclosure may be applied after adjusting the threshold value accordingly.
  • the bitstream includes, for example, an audio signal and metadata.
  • the audio signal is sound data representing a sound, indicating information regarding the frequency and intensity of the sound.
  • the spatial information included in the metadata is information regarding the space in which the listener who listens to the sound based on the audio signal is located. Specifically, spatial information is used to localize the sound image of the sound to a predetermined position in a sound space (for example, within a three-dimensional sound field), that is, to make the listener perceive it as a sound arriving from a predetermined direction. This is information regarding the predetermined position (localization position).
  • the spatial information includes, for example, sound source object information and position information indicating the position of the listener.
  • Sound source object information is information about an object that generates a sound based on an audio signal, that is, represents an object that reproduces an audio signal, and is a sound space that is a virtual space that corresponds to the real space in which the object is placed. This is information regarding a virtual object (sound source object) placed in the .
  • the sound source object information includes, for example, information indicating the position of the sound source object placed in the sound space, information regarding the direction of the sound source object, information regarding the directionality of the sound emitted by the sound source object, and information indicating whether the sound source object belongs to a living creature. information, and information indicating whether the sound source object is a moving object.
  • the audio signal corresponds to one or more sound source objects indicated by the sound source object information.
  • a bitstream is composed of, for example, metadata (control information) and an audio signal.
  • the audio signal and metadata may be stored in one bitstream or separately in multiple bitstreams. Similarly, the audio signal and metadata may be stored in one file, or may be stored separately in multiple files.
  • a bitstream may exist for each sound source or for each playback time.
  • a bitstream exists for each playback time, a plurality of bitstreams may be processed in parallel at the same time.
  • Metadata may be provided for each bitstream, or may be provided all at once as information for controlling multiple bitstreams. Further, metadata may be provided for each playback time.
  • Audio signals and metadata when stored separately in multiple bitstreams or files, include information indicating which bitstreams or files are associated with one or some bitstreams or files.
  • Each bitstream or file may include information indicating other bitstreams or files associated with it.
  • the related bitstreams or files are, for example, bitstreams or files that may be used simultaneously during audio processing.
  • the related bitstream or file may include a bitstream or file that collectively describes information indicating other related bitstreams or files.
  • the information indicating the other related bitstream or file is, for example, an identifier indicating the other bitstream, a file name indicating the other file, a URL (Uniform Resource Locator), or a URI (Uniform Resource Identifier). be.
  • the first acquisition unit 110 identifies or acquires the bitstream or file based on information indicating other related bitstreams or files.
  • the bitstream may include information indicating another related bitstream
  • the bitstream may include information indicating a bitstream or file related to another bitstream or file.
  • the file containing information indicating a related bitstream or file may be a control file such as a manifest file used for content distribution, for example.
  • the metadata may be obtained from sources other than the bitstream of the audio signal.
  • the metadata that controls audio or the metadata that controls video may be obtained from sources other than the bitstream, or both metadata may be obtained from sources other than the bitstream.
  • the audio signal playback system transfers the metadata that can be used to control the video to a display device that displays the image, or It may also have a function of outputting to a stereoscopic video playback device that plays back stereoscopic video.
  • Metadata may be information used to describe a scene expressed in a sound space.
  • the term "scene” refers to a collection of all elements representing three-dimensional images and audio events in a sound space, which are modeled by an audio signal reproduction system using metadata. That is, the metadata here may include not only information that controls audio processing but also information that controls video processing. Of course, the metadata may include information for controlling only one of the audio processing and the video processing, or may include information used for controlling both.
  • the audio signal playback system generates virtual sound effects by performing acoustic processing on the audio signal using metadata included in the bitstream and additionally acquired interactive listener position information.
  • acoustic processing on the audio signal using metadata included in the bitstream and additionally acquired interactive listener position information.
  • a case will be described in which early reflection processing, obstacle processing, diffraction processing, blocking processing, and reverberation processing are performed among the acoustic effects, but other acoustic processing will be performed using metadata. You may go.
  • an audio signal reproduction system may add acoustic effects such as distance attenuation effects, localization, and Doppler effects.
  • information for switching on/off of all or part of the sound effects and priority information may be added as metadata.
  • the encoded metadata includes information regarding the sound space including the sound source object and the obstacle object, and how to localize the sound image of the sound to a predetermined position in the sound space (that is, a sound arriving from a predetermined direction). information regarding the localization position at the time of perception).
  • an obstacle object is an object that can affect the sound perceived by the listener by, for example, blocking or reflecting the sound until the sound emitted by the sound source object reaches the listener. be.
  • Obstacle objects may include animals such as people, or moving objects such as machines, in addition to stationary objects.
  • other sound source objects can become obstacle objects for any sound source object.
  • Obstacle objects can include non-sounding objects that do not emit sounds, such as building materials or inanimate objects, and sound source objects that emit sounds.
  • the metadata includes the shape of the sound space, shape information and position information of obstacle objects existing in the sound space, shape information and position information of sound source objects existing in the sound space, and the position and orientation of the listener in the sound space. Contains all or part of the information represented.
  • the sound space may be either a closed space or an open space.
  • the metadata also includes information representing the reflectance of structures that can reflect sound in the sound space, such as floors, walls, or ceilings, and the reflectance of obstacle objects that exist in the sound space.
  • the reflectance is a ratio of energy between reflected sound and incident sound, and is set for each frequency band of sound. Of course, the reflectance may be set uniformly regardless of the frequency band of the sound.
  • parameters such as a uniformly set attenuation rate, diffracted sound, early reflected sound, etc. may be used, for example.
  • reflectance was mentioned as a parameter related to the obstacle object or sound source object included in the metadata, but information other than reflectance may be included.
  • the information other than the reflectance may include information regarding the material of the object as metadata related to both the sound source object and the non-sound object.
  • information other than reflectance may include parameters such as diffusivity, transmittance, and sound absorption coefficient.
  • Information regarding the sound source object may include volume, radiation characteristics (directivity), playback conditions, number and type of sound sources emitted from one object, information specifying the sound source area in the object, and the like.
  • the playback conditions may determine whether the sound is a continuous sound or a sound triggered by an event.
  • the sound source area in an object may be determined based on the relative relationship between the position of the listener and the position of the object, or may be determined using the object as a reference. When the sound source area of an object is determined by the relative relationship between the listener's position and the object's position, the surface where the listener is viewing the object is used as a reference, and sound C is heard from the right side of the object as seen from the listener, and sound C is heard from the left side.
  • the listener can be made to perceive that the sound E is being emitted.
  • the sound source region of an object is defined with the object as a reference, which sound is emitted from which region of the object can be fixed regardless of the direction in which the listener is viewing. For example, when looking at an object from the front, a listener can be made to perceive that high sounds are coming from the right side and low sounds are coming from the left side. In this case, when the listener goes behind the object, the listener can be made to perceive that low sounds are coming from the right side and high sounds are coming from the left side when viewed from the back side.
  • Metadata regarding the space can include time to early reflections, reverberation time, ratio of direct sound to diffuse sound, etc. When the ratio of direct sound to diffused sound is zero, only direct sound can be perceived by the listener.
  • the acoustic signal processing method includes first position information indicating the position of an object in a virtual space, first sound data indicating a first sound caused by the object, and first position information indicating a processing means for the first sound data.
  • the first processing means processes the volume according to the distance D
  • the second processing means processes the volume according to the distance D calculated in a manner different from that of the first processing means, which processes the first sound data.
  • a first processing step of processing the first sound data with the determined processing means and a first output step of outputting the processed first sound data.
  • the processing means for the volume of the first sound can be changed according to the first identification information, so that the first sound in the virtual space that listener L listens to is different from the real space that listener L listens to. It becomes a sound similar to the first sound in , and more specifically, it becomes a sound that reproduces the first sound in real space. Therefore, the listener L is less likely to feel a sense of discomfort, and the listener L can experience a sense of realism. In other words, the acoustic signal processing method can give the listener L a sense of realism.
  • the first processing means is a processing means that processes the first sound data so that the volume attenuates in inverse proportion as the calculated distance D increases;
  • the second processing means is a processing means that processes the first sound data so that the volume increases or decreases in a manner different from that of the first processing means as the calculated distance D increases.
  • the first processing means processes the first sound data so that the volume attenuates in inverse proportion as the distance D increases, or the first processing means Since a second processing means is used that increases or decreases in a manner different from that of becomes. For this reason, the listener L is less likely to feel a sense of discomfort, and the listener L can obtain a more realistic sensation. In other words, the acoustic signal processing method can give the listener L a sense of realism.
  • the acquired object information includes second sound data indicating a second sound that is different from the first sound and is caused by the object, and processing for the second sound data. and second identification information indicating the means, and in the determining step, processing the second sound data of the first processing means and the second processing means based on the second identification information included in the acquired object information.
  • the second sound data is processed by the determined processing means, and in the first output step, the processed second sound data is output, and the object is configured to process the first sound data and the second sound data. This is an object associated with a plurality of sound data including the second sound data.
  • the processing means for the volume of the second sound can be changed according to the second identification information, so that the second sound in the virtual space that the listener L listens to also changes in the real space that the listener L listens to. More specifically, depending on the calculated distance D, the volume balance between the first sound and the second sound changes like the volume balance that occurs in real space. For this reason, the listener L is less likely to feel a sense of discomfort, and the listener L can obtain a more realistic sensation. In other words, the acoustic signal processing method can give the listener L a sense of realism.
  • the second processing means is a processing means that processes the first sound data so that the volume is attenuated by the distance D to the x power (x ⁇ 1).
  • the second processing means is a processing means that processes the first sound data so that the volume attenuates according to the distance D to the x power (x ⁇ 1), and more specifically, the volume decreases as the distance D increases.
  • This processing means processes the first sound data so as to attenuate the distance D to the x power (x ⁇ 1).
  • the second processing means that processes the first sound data so that the volume is attenuated by the x power of the distance D.
  • the first identification information indicates that the processing means for the first sound data is the second processing means, and indicates the value of x.
  • the first identification information can indicate that the processing means is the second processing means, and in the first processing step, the first sound data can be processed according to the value of x indicated by the first identification information. can.
  • the first identification information indicates that the processing means for the first sound data is the second processing means. This shows that x is ⁇ , ⁇ is a real number, and ⁇ satisfies the following formula.
  • the first sound data can be processed according to ⁇ , which is the value of x indicated by the first identification information. can.
  • the first identification information is , indicates that the processing means for the first sound data is the second processing means, x is ⁇ , ⁇ is a real number, and ⁇ satisfies the following formula.
  • the first identification information is The first sound data can be processed according to ⁇ , which is the value of x.
  • ⁇ and ⁇ satisfy the following formula.
  • the first sound data can be processed using ⁇ or ⁇ that satisfies ⁇ .
  • the acoustic signal processing method includes a first reception step of accepting an operation for specifying a value of ⁇ or ⁇ from a user.
  • the first sound data can be processed using the value of ⁇ or ⁇ specified by the user.
  • the first identification information is information indicating whether or not to execute the first processing means
  • the first identification information is determined based on the acquired first identification information. and determines whether or not to execute the first processing means, and determines to execute the second processing means regardless of whether or not the first processing means is executed, and the second processing means , processing means for processing the first sound data so that the volume becomes a predetermined value when the calculated distance D is within a predetermined threshold value.
  • the volume becomes a predetermined value only when the distance D is within a predetermined threshold, so that it is possible to produce an unrealistic effect, and it is possible to produce an unrealistic effect.
  • a second processing means can be used to process the first sound data so that a natural distance attenuation effect can also be imparted.
  • the predetermined threshold value is a value depending on the personal space.
  • the first sound data can be processed using a predetermined threshold value that corresponds to the personal space. It can create a sense of distance.
  • the acoustic signal processing method includes a first reception step of receiving an operation from the user to designate that the predetermined threshold value is a first designated value.
  • the first sound data can be processed using the first specified value specified by the user.
  • the information generation method includes first sound data indicating a first sound occurring at a position related to the position of the listener L in the virtual space, and a first position indicating the position of the object in the virtual space.
  • first object audio information in which the first sound data indicating the first sound generated at a position related to the position of the listener L due to the object is associated with the position of the object.
  • the first sound data is processed so that the volume of the first sound is attenuated as the distance D between the object and the listener L increases.
  • the first sound in the virtual space that the listener L hears becomes a sound similar to the first sound in the real space that the listener L hears, and more specifically, the first sound in the real space that the listener L listens to.
  • the sound is reproduced. Therefore, the listener L is less likely to feel a sense of discomfort, and the listener L can experience a sense of realism.
  • the information generation method can give the listener L a sense of realism.
  • the object emits wind W
  • the listener L is exposed to the emitted wind W
  • the first sound is generated when the wind W emitted from the object is received. This is aerodynamic sound that is generated when it reaches the ears of listener L.
  • the first sound can be an aerodynamic sound (second aerodynamic sound) generated when the wind W radiated from the object reaches the ear of the listener L.
  • first object audio information that further includes unit distance information is generated, and the unit distance information includes a unit distance that is a reference distance, and This information includes aerodynamic sound data indicating aerodynamic sound at a position a unit distance away from the object position.
  • first object audio information including unit distance information can be generated.
  • the first sound (second aerodynamic sound) in the virtual space that the listener L listens to is based on the unit distance and the aerodynamic sound data.
  • the sound is more similar to the first sound (second aerodynamic sound) that the listener L hears in the real space. For this reason, the listener L is less likely to feel a sense of discomfort, and the listener L can obtain a more realistic sensation.
  • the information generation method can give the listener L a sense of realism.
  • first object audio information including directional information is further generated, and the directional information has characteristics according to the direction of the radiated wind.
  • the aerodynamic sound data shown in the unit distance information is data showing the aerodynamic sound at a position unit distance away from the object position in the front direction where the object shown in the directional information radiates wind. .
  • first object audio information including directional information can be generated.
  • the first sound (second aerodynamic sound) in the virtual space that the listener L listens to has unit distance, aerodynamic sound data, and directional information. Based on this, the sound becomes more similar to the first sound (second aerodynamic sound) in the real space that the listener L listens to. For this reason, the listener L is less likely to feel a sense of discomfort, and the listener L can obtain a more realistic sensation.
  • the information generation method can give the listener L a sense of realism.
  • the first generation step when playing the first sound, a sound is added to the first sound signal based on the first sound data indicating the first sound generated from the object.
  • First object audio information is generated that further includes flag information indicating whether or not to perform a process of convolving a head-related transfer function that depends on the direction in which the object arrives.
  • first object audio information including flag information can be generated.
  • the first sound in the virtual space that listener L listens to has a head-related transfer function in the first sound signal based on the first sound data. Since the convolution may occur, the sound becomes more similar to the first sound in the real space that the listener L listens to. For this reason, the listener L is less likely to feel a sense of discomfort, and the listener L can obtain a more realistic sensation.
  • the information generation method can give the listener L a sense of realism.
  • the acoustic signal processing method indicates the first object audio information generated by the information generation method, the acquired first sound data, and the position of the listener L of the first sound.
  • the first object audio information is acquired in which the first sound data indicating the first sound generated at a position related to the position of the listener L due to the object is associated with the position of the object. can do. Therefore, as the first sound data is processed so that the volume of the first sound is attenuated as the distance D between the object and the listener L increases, the first sound in the virtual space that the listener L listens to is , the sound is similar to the first sound in the real space that the listener L listens to, and more specifically, the sound is a reproduction of the first sound in the real space. Therefore, the listener L is less likely to feel a sense of discomfort, and the listener L can experience a sense of realism. In other words, the acoustic signal processing method can give the listener L a sense of realism.
  • the acoustic signal processing method indicates the first object audio information generated by the information generation method, the acquired first sound data, and the position of the listener L of the first sound.
  • an acoustic signal processing method is realized in which the first sound can be made into an aerodynamic sound (second aerodynamic sound) generated when the wind W radiated from the object reaches the ear of the listener L.
  • the acoustic signal processing method indicates the first object audio information generated by the information generation method, the acquired first sound data, and the position of the listener L of the first sound.
  • the first object audio information including unit distance information can be acquired. Therefore, the first sound (second aerodynamic sound) in the virtual space that listener L hears is the first sound (second aerodynamic sound) in the real space that listener L hears based on the unit distance and aerodynamic sound data. sound). For this reason, the listener L is less likely to feel a sense of discomfort, and the listener L can obtain a more realistic sensation. In other words, the acoustic signal processing method can give the listener L a sense of realism.
  • the acoustic signal processing method indicates the first object audio information generated by the information generation method, the acquired first sound data, and the position of the listener L of the first sound.
  • the method includes a second processing step of processing the first sound data such that the volume of the first sound is attenuated according to a unit distance, and a second output step of outputting the processed first sound data.
  • the first object audio information including directional information can be acquired. Therefore, the first sound (second aerodynamic sound) in the virtual space that the listener L hears is the first sound in the real space that the listener L hears based on the unit distance, aerodynamic sound data, and directional information. (The second aerodynamic sound) becomes a more similar sound. For this reason, the listener L is less likely to feel a sense of discomfort, and the listener L can obtain a more realistic sensation. In other words, the acoustic signal processing method can give the listener L a sense of realism.
  • the acoustic signal processing method includes the first object audio information generated by the information generation method, the acquired first sound data, and the first position information and the second object audio information caused by the object. a third acquisition step of acquiring second object audio information associated with second sound data indicating a sound; and a third acquisition step of acquiring second object audio information associated with second sound data representing a sound; A process of convolving a head-related transfer function that depends on the direction in which the sound arrives with a second sound signal based on the second sound data indicated by the acquired second object audio information without performing a process of convolving the partial transfer function. and a second output step of outputting an unprocessed first sound signal and a processed second sound signal.
  • the second sound in the virtual space that the listener L listens to is the same as the second sound in the real space that the listener L listens to, since the head-related transfer function is convolved with the second sound signal based on the second sound data.
  • the sound is similar to the second sound, and more specifically, the sound is a reproduction of the second sound in real space.
  • the listener L is less likely to feel a sense of discomfort, and the listener L can obtain a more realistic sensation.
  • the acoustic signal processing method can give the listener L a sense of realism.
  • the acoustic signal processing method includes the first object audio information generated by the information generation method, the acquired first sound data, and the first position information and the second object audio information caused by the object. a third acquisition step of acquiring second object audio information associated with second sound data indicating a sound; and processing dependent on the direction in which the wind W arrives at the first sound signal based on the acquired first sound data. and a second processing step of convolving a head-related transfer function that depends on the direction in which the sound arrives with a second sound signal based on the second sound data indicated by the acquired second object audio information; and a second output step of outputting a processed first sound signal and a processed second sound signal.
  • the first sound (second aerodynamic sound) in the virtual space that the listener L listens to is processed depending on the direction in which the wind W arrives in the first sound signal based on the first sound data.
  • the sound is similar to the first sound (second aerodynamic sound) in the real space that listener L hears, and more specifically, the sound is a reproduction of the first sound (second aerodynamic sound) in the real space.
  • the second sound in the virtual space that the listener L listens to is the second sound in the real space that the listener L listens to. It becomes a sound similar to the sound, and more specifically, it becomes a sound that reproduces the second sound in real space. For this reason, the listener L is less likely to feel a sense of discomfort, and the listener L can obtain a more realistic sensation.
  • the acoustic signal processing method can give the listener L a sense of realism.
  • the acoustic signal processing method includes the first object audio information generated by the information generation method, the acquired first sound data, and an object different from the object in the virtual space.
  • the first sound signal based on the first sound data obtained is subjected to processing depending on the direction in which the wind W arrives, and the third sound signal based on the third sound data indicated by the acquired third object audio information is and a second output step of outputting a processed first sound signal and a processed third sound signal.
  • the first sound (second aerodynamic sound) and the third sound in the virtual space that the listener L hears are The sound is similar to the first sound (second aerodynamic sound) and third sound that the listener L hears in the real space. For this reason, the listener L is less likely to feel a sense of discomfort, and the listener L can obtain a more realistic sensation. In other words, the acoustic signal processing method can give the listener L a sense of realism.
  • the information generation method acquires the generation position of the first wind blowing in the virtual space, the first wind direction of the first wind, and the first assumed wind speed that is the wind speed of the first wind.
  • the aerodynamic sound data is such that the volume of the aerodynamic sound (second aerodynamic sound) is attenuated as the distance D between the object and the listener L increases.
  • the aerodynamic sound (second aerodynamic sound) in the virtual space that listener L hears becomes a sound similar to the aerodynamic sound (second aerodynamic sound) in the real space that listener L hears.
  • the sound is a reproduction of the aerodynamic sound (second aerodynamic sound) in real space. Therefore, the listener L is less likely to feel a sense of discomfort, and the listener L can experience a sense of realism.
  • the information generation method can give the listener L a sense of realism.
  • the first assumed wind speed is the wind speed of the first wind at a position that is a unit distance away from the generation position in the direction of the first wind direction, which is a reference distance.
  • the wind speed of the first wind at a position a unit distance away can be used as the first assumed wind speed.
  • the information generation method includes a second reception step of receiving an operation from the user to designate that the unit distance is a second designated value.
  • the fourth object audio information can be generated using the unit distance that is the second specified value specified by the user.
  • the information generation method includes a second reception step of accepting an operation from the user to specify directional information indicating characteristics according to the direction of the first wind, and in the second generation step, the information generation method includes the acquisition fourth object audio information is generated in which the generated position, first wind direction, and first assumed wind speed are associated with directional information indicated by the accepted operation.
  • the acoustic signal processing method includes the fourth object audio information and the aerodynamic sound core information output by the information generation method, and second position information indicating the position of the listener L in the virtual space. and a third step of calculating the distance D between the generation position and the listener L based on the generation position included in the acquired fourth object audio information and the acquired second position information. a calculation step, a third processing step of processing the aerodynamic sound data so that the volume of the aerodynamic sound is attenuated as the calculated distance D increases, and a fourth outputting step of outputting the processed aerodynamic sound data. include.
  • the aerodynamic sound data is processed so that the volume of the aerodynamic sound (second aerodynamic sound) is attenuated as the distance D between the object and the listener L increases, so that the aerodynamic sound data is processed so that the volume of the aerodynamic sound (second aerodynamic sound) is attenuated as the distance D between the object and the listener L increases.
  • the aerodynamic sound (second aerodynamic sound) is a sound similar to the aerodynamic sound (second aerodynamic sound) in the real space that the listener L listens to, and more specifically, the aerodynamic sound (second aerodynamic sound) in the real space.
  • the listener L is less likely to feel a sense of discomfort, and the listener L can experience a sense of realism.
  • the acoustic signal processing method can give the listener L a sense of realism.
  • the aerodynamic sound data is processed based on the ear-reaching wind speed, which is the wind speed of the first wind when it reaches the ear of the listener L.
  • the wind speed at the ear decreases as the calculated distance D increases.
  • the aerodynamic sound data is processed based on the wind speed reaching the ears, so the aerodynamic sound (second aerodynamic sound) in the virtual space that listener L hears is the same as the aerodynamic sound in the real space that listener L hears.
  • the sound is more similar to the sound (second aerodynamic sound).
  • the listener L is less likely to feel a sense of discomfort, and the listener L can obtain a more realistic sensation.
  • the acoustic signal processing method can give the listener L a sense of realism.
  • the wind speed reaching the ear is a value that is attenuated by the z power of the value obtained by dividing the calculated distance D by the unit distance.
  • the acoustic signal processing method can give the listener L a sense of realism.
  • z satisfies the following formula.
  • the acoustic signal processing method can give the listener L a sense of realism.
  • the aerodynamic sound data is processed such that the volume of the aerodynamic sound is attenuated by the ⁇ power of the value obtained by dividing the representative wind speed by the ear-reaching wind speed. Process.
  • the aerodynamic sound data is processed so that the volume of the aerodynamic sound (second aerodynamic sound) becomes a more accurate volume, so the aerodynamic sound (second aerodynamic sound) in the virtual space that listener L listens to is , the sound is more similar to the aerodynamic sound (second aerodynamic sound) in the real space that the listener L listens to. For this reason, the listener L is less likely to feel a sense of discomfort, and the listener L can obtain a more realistic sensation. In other words, the acoustic signal processing method can give the listener L a sense of realism.
  • ⁇ and z satisfy the following formula.
  • the acoustic signal processing method can give the listener L a sense of realism.
  • the acoustic signal processing method includes the fourth object audio information outputted by the information generation method, aerodynamic sound core information including data indicating the distribution of frequency components of aerodynamic sound, and virtual a fifth acquisition step of acquiring second position information indicating the position of the listener L in space; a generation position included in the acquired fourth object audio information; and a second position information indicating the position of the listener L in space; A third calculation step of calculating the distance D between the position and the listener L, and processing the aerodynamic sound data so that as the calculated distance D increases, the distribution of the frequency components of the aerodynamic sound is shifted to the lower frequency side.
  • the method includes a third processing step and a fourth output step of outputting the processed aerodynamic sound data.
  • the aerodynamic sound data is processed so that as the distance D between the object and the listener L increases, the distribution of the frequency components of the aerodynamic sound (second aerodynamic sound) is shifted to the lower frequency side.
  • the aerodynamic sound (second aerodynamic sound) in the virtual space that listener L hears is similar to the aerodynamic sound (second aerodynamic sound) in the real space that listener L hears, and more specifically, The aerodynamic sound (second aerodynamic sound) is reproduced. Therefore, the listener L is less likely to feel a sense of discomfort, and the listener L can experience a sense of realism. In other words, the acoustic signal processing method can give the listener L a sense of realism.
  • the aerodynamic sound data is processed based on the ear-reaching wind speed, which is the wind speed of the first wind when it reaches the ear of the listener L.
  • the wind speed at the ear decreases as the calculated distance D increases.
  • the aerodynamic sound data is processed based on the wind speed reaching the ears, so the aerodynamic sound (second aerodynamic sound) in the virtual space that listener L hears is the same as the aerodynamic sound in the real space that listener L hears.
  • the sound is more similar to the sound (second aerodynamic sound).
  • the listener L is less likely to feel a sense of discomfort, and the listener L can obtain a more realistic sensation.
  • the acoustic signal processing method can give the listener L a sense of realism.
  • the wind speed reaching the ear is a value that is attenuated by the z power of the value obtained by dividing the calculated distance D by the unit distance.
  • the acoustic signal processing method can give the listener L a sense of realism.
  • z satisfies the following formula.
  • the acoustic signal processing method can give the listener L a sense of realism.
  • the distribution of the frequency components of the aerodynamic sound is shifted to a frequency that is the reciprocal of the value obtained by dividing the representative wind speed by the ear-reaching wind speed. Then, the aerodynamic sound data is processed.
  • the acoustic signal processing method can give the listener L a sense of realism.
  • the information generation method includes a sixth acquisition step of acquiring a second wind direction of a second wind blowing in a virtual space and a second assumed wind speed that is a wind speed of the second wind; a third generation step of generating fifth object audio information in which a second wind direction and a second assumed wind speed are associated with each other; a representative wind speed; and the wind of the representative wind speed reaching the listener L's ears in the virtual space.
  • the fifth object audio information in which the second wind direction and the second assumed wind speed are associated.
  • this fifth object audio information is used in the acoustic signal processing method, it is possible to reproduce the wind W (natural wind blowing outdoors) for which the source of the wind W is not determined, and the aerodynamic sound data is used as the second object audio information.
  • the aerodynamic sound caused by the second wind (second aerodynamic sound) in the virtual space that the listener L hears is the same as the aerodynamic sound (second aerodynamic sound) that the listener L hears in the real space.
  • the sound is similar to the aerodynamic sound caused by the second wind (second aerodynamic sound), and more specifically, the sound is a reproduction of the aerodynamic sound caused by the second wind (second aerodynamic sound) in real space. Therefore, the listener L is less likely to feel a sense of discomfort, and the listener L can experience a sense of realism. In other words, the information generation method can give the listener L a sense of realism.
  • the information generation method includes the generation position of the first wind blowing in the virtual space, the first wind direction of the first wind, the first assumed wind speed that is the wind speed of the first wind, and the virtual space. a seventh acquisition step of acquiring a second direction of the second wind blowing at a fourth generation step of generating fourth object audio information in which the acquired second wind direction and second assumed wind speed are associated; and a sixth output step of outputting the generated fifth object audio information.
  • the aerodynamic sound data is processed based on the position indicated by the second position information, so that the virtual space where the listener L listens is
  • the aerodynamic sound caused by the first wind is a sound similar to the aerodynamic sound caused by the first wind (second aerodynamic sound) in the real space that listener L listens to.
  • the sound is a reproduction of the aerodynamic sound (second aerodynamic sound) caused by the first wind in the space.
  • the aerodynamic sound data is processed not based on the position indicated by the second position information, so that the virtual space in which the listener L listens
  • the aerodynamic sound caused by the second wind (second aerodynamic sound) at is similar to the aerodynamic sound caused by the second wind (second aerodynamic sound) in the real space that listener L listens to, and more specifically, This is a sound that reproduces the aerodynamic sound caused by the second wind (second aerodynamic sound) in real space. Therefore, the listener L is less likely to feel a sense of discomfort, and the listener L can experience a sense of realism. In other words, the information generation method can give the listener L a sense of realism.
  • the sixth output step outputs the generated fourth object audio information when the first wind generation position is in the virtual space.
  • the information generation method can determine whether or not the fourth object audio information can be output based on the generation position.
  • the sixth output step outputs the generated fifth object audio information when the first wind generation position is not in the virtual space.
  • the information generation method can determine whether to output the fifth object audio information according to the generation position.
  • An information generation method includes an aerodynamic sound core including a representative wind speed and aerodynamic sound data indicating aerodynamic sound generated when the wind at the representative wind speed reaches the ear of a listener L in a virtual space.
  • the method includes a storage step of storing information, and a sixth output step outputs the stored aerodynamic sound core information.
  • the aerodynamic sound core information can be commonly applied to the first wind and the second wind.
  • the memory area for storing information can be reduced, and the aerodynamic sound (second aerodynamic sound) caused by the first wind in the virtual space that listener L hears is the same as the first aerodynamic sound (second aerodynamic sound) in the real space that listener L hears.
  • the sound is similar to the aerodynamic sound caused by the wind (second aerodynamic sound), and the aerodynamic sound caused by the second wind (second aerodynamic sound) in the virtual space that listener L hears is similar to the aerodynamic sound caused by the second wind (second aerodynamic sound) that listener L hears in the real space.
  • the sound is similar to the aerodynamic sound caused by the second wind (secondary aerodynamic sound). Therefore, the listener L is less likely to feel a sense of discomfort, and the listener L can experience a sense of realism. In other words, the information generation method can give the listener L a sense of realism.
  • the information generation method includes a display step of displaying an image in which a wind speed and a word expressing the wind speed are linked, and a step of specifying a wind speed indicated by the image displayed as a first assumed wind speed.
  • the method includes a third reception step of accepting a first operation and a second operation of specifying a wind speed indicated by the image displayed as a second assumed wind speed.
  • the wind speed specified by the user can be used as the first assumed wind speed, and the wind speed specified by the user can be used as the second assumed wind speed.
  • the acoustic signal processing method includes second position information indicating the position of the listener L in the virtual space, and fourth object audio information or fifth object audio information output by the above information generation method. and when the fourth object audio information is acquired, the aerodynamic sound data included in the aerodynamic sound core information is processed based on the position indicated by the acquired second position information; When the object audio information is acquired, a fourth processing step of processing the aerodynamic sound data included in the aerodynamic sound core information without depending on the position indicated by the acquired second position information, and processing the processed aerodynamic sound data. and a seventh output step of outputting.
  • the fourth object audio information or the fifth object audio information can be acquired. Therefore, by processing the aerodynamic sound data based on the position indicated by the second position information, the aerodynamic sound caused by the first wind (second aerodynamic sound) in the virtual space listened to by the listener L is The sound is similar to the aerodynamic sound caused by the first wind (second aerodynamic sound) in the real space to be heard, and more specifically, the aerodynamic sound caused by the first wind (second aerodynamic sound) in the real space is reproduced. It becomes a sound.
  • the aerodynamic sound caused by the second wind (second aerodynamic sound) in the virtual space listened to by the listener L is The sound is similar to the aerodynamic sound caused by the second wind in the real space (second aerodynamic sound) that is heard by the user, and more specifically, the aerodynamic sound caused by the second wind in the real space (second aerodynamic sound) is reproduced. It makes a sound. Therefore, the listener L is less likely to feel a sense of discomfort, and the listener L can experience a sense of realism. In other words, the acoustic signal processing method can give the listener L a sense of realism.
  • the computer programs according to the present embodiment and Modifications 1 to 8 are computer programs for causing a computer to execute the acoustic signal processing method described above.
  • the computer can execute the above acoustic signal processing method according to the computer program.
  • the computer programs according to the present embodiment and Modifications 1 to 8 are computer programs for causing a computer to execute the information generation method described above.
  • the computer can execute the above information generation method according to the computer program.
  • the acoustic signal processing device 100 includes first position information indicating the position of an object in a virtual space, first sound data indicating a first sound caused by the object, and first sound data indicating a processing means for the first sound data. 1 identification information, and second position information indicating the position of the listener L of the first sound in the virtual space; and the first position information included in the acquired object information. and a first calculation unit 120 that calculates the distance D between the object and the listener L based on the acquired second position information, and a distance D that is calculated based on the first identification information included in the acquired object information.
  • the first processing means processes the volume according to the distance D calculated in a manner different from that of the first processing means
  • the second processing means processes the volume according to the distance D calculated in a manner different from that of the first processing means.
  • a determining section 130 that determines a processing means for processing data, a first processing section 140 that processes the first sound data with the determined processing means, and a first output section 150 that outputs the processed first sound data. , is provided.
  • the processing means for the volume of the first sound can be changed according to the first identification information, so that the first sound in the virtual space that listener L listens to is different from the real space that listener L listens to. It becomes a sound similar to the first sound in , and more specifically, it becomes a sound that reproduces the first sound in real space. Therefore, the listener L is less likely to feel a sense of discomfort, and the listener L can experience a sense of realism. In other words, the acoustic signal processing device 100 can give the listener L a sense of presence.
  • the acoustic signal processing method, acoustic signal processing device, information generation method, and information generation device have been described based on the embodiments and modified examples.
  • the examples are not limited.
  • other embodiments of the present disclosure may be implemented by arbitrarily combining the components described in this specification or by excluding some of the components.
  • the present invention also includes modifications obtained by making various modifications that a person skilled in the art can think of without departing from the gist of the present disclosure, that is, the meaning of the words described in the claims, to the above-described embodiments and modifications. Included in disclosure.
  • the information generation method includes: a generation position of a first wind blowing in a virtual space; a first wind direction of the first wind; and a first assumed wind speed that is a wind speed of the first wind.
  • the method includes a determining step of determining which of the fourth object audio information and the fifth object audio information generated in the fourth generating step is to be output.
  • the determining step includes determining whether the generated fourth object audio information or fifth object audio information is generated according to the generation position of the first wind.
  • the information generation method according to the fiftieth aspect further includes a sixth output step of outputting the determined object audio information.
  • the determining step outputs the generated fourth object audio information when the generation position of the first wind is in the virtual space.
  • the sixth output step outputs the fourth object audio information.
  • the determining step may include not outputting the generated fourth object audio information when the generation position of the first wind is not in the virtual space.
  • the fourth The information generation method according to the fiftieth aspect includes determining not to output any of the object audio information and the fifth object audio information.
  • the determining step outputs the generated fifth object audio information when the generation position of the first wind is not in the virtual space.
  • the sixth output step outputs the fifth object audio information.
  • Some of the components constituting the above acoustic signal processing device and information generation device may be a computer system consisting of a microprocessor, ROM, RAM, hard disk unit, display unit, keyboard, mouse, etc. good.
  • a computer program is stored in the RAM or hard disk unit.
  • the microprocessor achieves its functions by operating according to the computer program.
  • a computer program is configured by combining a plurality of instruction codes indicating instructions to a computer in order to achieve a predetermined function.
  • a system LSI is a super-multifunctional LSI manufactured by integrating multiple components onto a single chip, and specifically, it is a computer system that includes a microprocessor, ROM, RAM, etc. .
  • a computer program is stored in the RAM. The system LSI achieves its functions by the microprocessor operating according to the computer program.
  • Some of the components constituting the above-mentioned acoustic signal processing device and information generation device may be composed of an IC card or a single module that is removable from each device.
  • the IC card or the module is a computer system composed of a microprocessor, ROM, RAM, etc.
  • the IC card or the module may include the above-mentioned super multifunctional LSI.
  • the IC card or the module achieves its functions by the microprocessor operating according to a computer program. This IC card or this module may be tamper resistant.
  • some of the components constituting the above-mentioned acoustic signal processing device and information generation device may store the computer program or the digital signal on a computer-readable recording medium, such as a flexible disk, a hard disk, or a CD-ROM. It may be recorded in a ROM, MO, DVD, DVD-ROM, DVD-RAM, BD (Blu-ray (registered trademark) Disc), semiconductor memory, or the like. Further, it may be a digital signal recorded on these recording media.
  • a computer-readable recording medium such as a flexible disk, a hard disk, or a CD-ROM. It may be recorded in a ROM, MO, DVD, DVD-ROM, DVD-RAM, BD (Blu-ray (registered trademark) Disc), semiconductor memory, or the like. Further, it may be a digital signal recorded on these recording media.
  • some of the components constituting the above acoustic signal processing device and information generation device may transmit the computer program or the digital signal to a telecommunication line, a wireless or wired communication line, a network such as the Internet, or data broadcasting. It may also be transmitted via a network such as
  • the present disclosure may be the method described above. Moreover, it may be a computer program that implements these methods by a computer, or it may be a digital signal composed of the computer program.
  • the present disclosure also provides a computer system including a microprocessor and a memory, wherein the memory stores the computer program, and the microprocessor may operate according to the computer program. .
  • the present disclosure can be used in an acoustic signal processing method, an acoustic signal processing device, an information generation method, and an information generation device, and is particularly applicable to an acoustic system.
  • Server device 20 Headphones 21 Head sensor sections 22, 44 Output sections 30, 66 Display sections 40, 50, 60, 70 Information generation device 41 Reception section 42 Second acquisition section 43 First generation section 45, 55, 65, 75 Storage unit 51 Second reception unit 52 Fourth acquisition unit 53 Second generation unit 54 Third output unit 61 Third reception unit 62 Seventh acquisition unit 63 Fourth generation unit 64 Sixth output unit 72 Sixth acquisition unit 73 Third Generation unit 74 Fifth output unit 100, 100a, 100b, 200, 200c, 200d, 400, 500, A0001 Acoustic signal processing device 110 First acquisition unit 120 First calculation unit 130 Determination unit 140, 140a, 140b First processing unit 150 First output section 160 First reception section 170, 270, 470, 570 Storage section 210 Third acquisition section 220 Second calculation section 240, 240c, 240d Second processing section 250 Second output section 410 Fifth acquisition section 420 3 calculation section 440 3rd processing section 450 4th output section 510 8th acquisition section 540 4th processing section 550 7th output section 901 Reverberation processing section 902 Early reflection

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

音響信号処理方法は、仮想空間におけるオブジェクトの位置を示す第1位置情報とオブジェクトに起因する第1音を示す第1音データと第1音データに対する処理手段を示す第1識別情報とを含むオブジェクト情報、及び、受聴者の位置を示す第2位置情報を取得する第1取得ステップと、取得されたオブジェクト情報が含む第1位置情報、及び、取得された第2位置情報に基づいて、オブジェクトと受聴者との距離を算出する第1算出ステップと、取得されたオブジェクト情報が含む第1識別情報に基づいて、算出された距離に応じた音量の処理をする第1処理手段、及び、第1処理手段とは異なる態様で算出された距離に応じた音量の処理をする第2処理手段のうち、第1音データを処理する処理手段を決定する決定ステップと、決定された処理手段で第1音データを処理する第1処理ステップと、処理された第1音データを出力する第1出力ステップと、を含む。

Description

音響信号処理方法、情報生成方法、コンピュータプログラム、及び、音響信号処理装置
 本開示は、音響信号処理方法などに関する。
 特許文献1では、音響信号処理方法である立体音響計算方法に係る技術が開示されている。この音響信号処理方法では、音量(音圧)が音源と受聴者(観測者)との距離に反比例して変化するように制御される。
特開2013―201577号公報 国際公開第2021/180938号
飯田 明由 空力騒音の物理 4 疑似音波と遠距離場 [online]、[令和5年6月21日検索]、インターネット(URL:https://fluid.mech.kogakuin.ac.jp/~iida/Lectures/master/aeroacoustic.pdf) 空気調和・衛生工学会著、空気調和設備計画設計の実務の知識(改訂4版)、オーム社、2017年3月24日、p236 Yoshinori Dobashi、他2名、Real-time rendering of aerodynamic sound using sound textures based on computational fluid dynamics、ACM Transactions on Graphics、Vol. 22、 No. 3、p732-740
 ところで、特許文献1が示す技術では、受聴者に臨場感を与えることが困難な場合がある。
 そこで、本開示は、受聴者に臨場感を与えることができる音響信号処理方法などを提供することを目的とする。
 本開示の一態様に係る音響信号処理方法は、仮想空間におけるオブジェクトの位置を示す第1位置情報と前記オブジェクトに起因する第1音を示す第1音データと前記第1音データに対する処理手段を示す第1識別情報とを含むオブジェクト情報、及び、前記仮想空間における前記第1音の受聴者の位置を示す第2位置情報を取得する第1取得ステップと、取得された前記オブジェクト情報が含む前記第1位置情報、及び、取得された前記第2位置情報に基づいて、前記オブジェクトと前記受聴者との距離を算出する第1算出ステップと、取得された前記オブジェクト情報が含む前記第1識別情報に基づいて、算出された前記距離に応じた音量の処理をする第1処理手段、及び、前記第1処理手段とは異なる態様で算出された前記距離に応じた音量の処理をする第2処理手段のうち、前記第1音データを処理する処理手段を決定する決定ステップと、決定された前記処理手段で前記第1音データを処理する第1処理ステップと、処理された前記第1音データを出力する第1出力ステップと、を含む。
 また、本開示の一態様に係る情報生成方法は、仮想空間における受聴者の位置に関連する位置で生じる第1音を示す第1音データと、前記仮想空間におけるオブジェクトの位置を示す第1位置情報とを取得する第2取得ステップと、取得された前記第1音データと取得された前記第1位置情報とから、前記オブジェクトに起因して前記受聴者の位置に関連する位置で前記第1音を再生させる前記オブジェクトに関する情報と前記第1位置情報とを含む第1オブジェクトオーディオ情報を生成する第1生成ステップと、を含む。
 また、本開示の一態様に係る音響信号処理方法は、上記の情報生成方法によって生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記第1音の前記受聴者の前記位置を示す第2位置情報を取得する第3取得ステップと、取得された前記第1オブジェクトオーディオ情報が含む前記第1位置情報、及び、取得された前記第2位置情報に基づいて、前記オブジェクトと前記受聴者との距離を算出する第2算出ステップと、算出された前記距離が増加するほど、前記第1音の音量が減衰するように前記第1音データを処理する第2処理ステップと、処理された前記第1音データを出力する第2出力ステップとを含む。
 また、本開示の一態様に係る音響信号処理方法は、上記の情報生成方法によって生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記第1音の前記受聴者の前記位置を示す第2位置情報を取得する第3取得ステップと、取得された前記第1オブジェクトオーディオ情報が含む前記第1位置情報、及び、取得された前記第2位置情報に基づいて、前記風を放射する前記オブジェクトと前記受聴者との距離を算出する第2算出ステップと、算出された前記距離が増加するほど、前記第1音の音量が減衰するように前記第1音データを処理する第2処理ステップと、処理された前記第1音データを出力する第2出力ステップとを含む。
 また、本開示の一態様に係る音響信号処理方法は、上記の情報生成方法によって生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記第1音の前記受聴者の前記位置を示す第2位置情報を取得する第3取得ステップと、取得された前記第1オブジェクトオーディオ情報が含む前記第1位置情報、及び、取得された前記第2位置情報に基づいて、前記風を放射する前記オブジェクトと前記受聴者との距離を算出する第2算出ステップと、取得された前記第1オブジェクトオーディオ情報が含む前記単位距離情報が示す前記単位距離よりも算出された前記距離が大きい場合に、算出された前記距離と前記単位距離とに応じて、前記第1音の音量が減衰するように前記第1音データを処理する第2処理ステップと、処理された前記第1音データを出力する第2出力ステップとを含む。
 また、本開示の一態様に係る音響信号処理方法は、上記の情報生成方法によって生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記第1音の前記受聴者の前記位置を示す第2位置情報を取得する第3取得ステップと、取得された前記第1オブジェクトオーディオ情報が含む前記第1位置情報、及び、取得された前記第2位置情報に基づいて、前記風を放射する前記オブジェクトと前記受聴者との距離、及び、前記オブジェクトと前記受聴者とを結ぶ二点間方向を算出する第2算出ステップと、前記正面方向と算出された二点間方向とがなす角度及び前記指向性情報が示す前記特性に基づいて前記第1音の音量を制御するように、かつ、取得された前記第1オブジェクトオーディオ情報が含む前記単位距離情報が示す前記単位距離よりも算出された前記距離が大きい場合に算出された前記距離と前記単位距離とに応じて前記第1音の音量が減衰するように、前記第1音データを処理する第2処理ステップと、処理された前記第1音データを出力する第2出力ステップとを含む。
 また、本開示の一態様に係る音響信号処理方法は、上記の情報生成方法で生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記第1位置情報と前記オブジェクトに起因する第2音を示す第2音データとが関連付けられた第2オブジェクトオーディオ情報を取得する第3取得ステップと、取得された前記第1音データに基づく第1音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をせず、かつ、取得された前記第2オブジェクトオーディオ情報が示す前記第2音データに基づく第2音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をする第2処理ステップと、処理されていない前記第1音信号、及び、処理された前記第2音信号を出力する第2出力ステップとを含む。
 また、本開示の一態様に係る音響信号処理方法は、上記の情報生成方法で生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記第1位置情報と前記オブジェクトに起因する第2音を示す第2音データとが関連付けられた第2オブジェクトオーディオ情報を取得する第3取得ステップと、取得された前記第1音データに基づく第1音信号に風が到来する方向に依存した処理をし、かつ、取得された前記第2オブジェクトオーディオ情報が示す前記第2音データに基づく第2音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をする第2処理ステップと、処理された前記第1音信号、及び、処理された前記第2音信号を出力する第2出力ステップとを含む。
 また、本開示の一態様に係る音響信号処理方法は、上記の情報生成方法で生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記オブジェクトとは異なるオブジェクトであって前記仮想空間における他のオブジェクトの位置を示す第3位置情報と前記他のオブジェクトの前記位置で発生する第3音を示す第3音データとが関連付けられた第3オブジェクトオーディオ情報を取得する第3取得ステップと、取得された前記第1音データに基づく第1音信号に風が到来する方向に依存した処理をし、かつ、取得された前記第3オブジェクトオーディオ情報が示す前記第3音データに基づく第3音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をする第2処理ステップと、処理された前記第1音信号、及び、処理された前記第3音信号を出力する第2出力ステップとを含む。
 また、本開示の一態様に係る情報生成方法は、仮想空間で吹く第1風の発生位置と、前記第1風の第1風向と、前記第1風の風速である第1想定風速とを取得する第4取得ステップと、取得された前記発生位置と、前記第1風向と、前記第1想定風速とが関連付けられた第4オブジェクトオーディオ情報を生成する第2生成ステップと、代表風速と、前記代表風速の風が前記仮想空間における受聴者の耳に到達することで生じる空力音を示す空力音データとを含む空力音コア情報を記憶する記憶ステップと、生成された前記第4オブジェクトオーディオ情報と、記憶されている前記空力音コア情報とを出力する第3出力ステップとを含む。
 また、本開示の一態様に係る音響信号処理方法は、上記の情報生成方法で出力された前記第4オブジェクトオーディオ情報及び前記空力音コア情報と、前記仮想空間における前記受聴者の位置を示す第2位置情報とを取得する第5取得ステップと、取得された前記第4オブジェクトオーディオ情報が含む前記発生位置、及び、取得された前記第2位置情報に基づいて、前記発生位置と前記受聴者との距離を算出する第3算出ステップと、算出された前記距離が増加するほど、前記空力音の音量が減衰するように前記空力音データを処理する第3処理ステップと、処理された前記空力音データを出力する第4出力ステップとを含む。
 また、本開示の一態様に係る音響信号処理方法は、上記の情報生成方法で出力された前記第4オブジェクトオーディオ情報、及び、前記空力音の周波数成分の分布を示すデータを含む前記空力音コア情報と、前記仮想空間における前記受聴者の位置を示す第2位置情報とを取得する第5取得ステップと、取得された前記第4オブジェクトオーディオ情報が含む前記発生位置、及び、取得された前記第2位置情報に基づいて、前記発生位置と前記受聴者との距離を算出する第3算出ステップと、算出された前記距離が増加するほど、前記空力音の前記周波数成分の分布を低周波数側にシフトするように前記空力音データを処理する第3処理ステップと、処理された前記空力音データを出力する第4出力ステップとを含む。
 また、本開示の一態様に係る情報生成方法は、仮想空間で吹く第2風の第2風向と、前記第2風の風速である第2想定風速とを取得する第6取得ステップと、取得された前記第2風向と、前記第2想定風速とが関連付けられた第5オブジェクトオーディオ情報を生成する第3生成ステップと、代表風速と、前記代表風速の風が前記仮想空間における受聴者の耳に到達することで生じる空力音を示す空力音データとを含む空力音コア情報を記憶する記憶ステップと、生成された前記第5オブジェクトオーディオ情報と、記憶されている前記空力音コア情報とを出力する第5出力ステップとを含む。
 また、本開示の一態様に係る情報生成方法は、仮想空間で吹く第1風の発生位置と、前記第1風の第1風向と、前記第1風の風速である第1想定風速と、前記仮想空間で吹く第2風の第2風向と、前記第2風の風速である第2想定風速とを取得する第7取得ステップと、取得された前記発生位置と前記第1風向と前記第1想定風速とが関連付けられた第4オブジェクトオーディオ情報を生成し、かつ、取得された前記第2風向と前記第2想定風速とが関連付けられた第5オブジェクトオーディオ情報を生成する第4生成ステップと、生成された前記第4オブジェクトオーディオ情報と生成された前記第5オブジェクトオーディオ情報とを出力する第6出力ステップを含む。
 また、本開示の一態様に係る音響信号処理方法は、前記仮想空間における前記受聴者の位置を示す第2位置情報と、上記の情報生成方法により出力された前記第4オブジェクトオーディオ情報又は前記第5オブジェクトオーディオ情報を取得する第8取得ステップと、前記第4オブジェクトオーディオ情報が取得された場合には、前記空力音コア情報が含む前記空力音データを取得された前記第2位置情報が示す前記位置に基づいて処理し、前記第5オブジェクトオーディオ情報が取得された場合には、前記空力音コア情報が含む前記空力音データを取得された前記第2位置情報が示す前記位置に基づかずに処理する第4処理ステップと、処理された前記空力音データを出力する第7出力ステップとを含む。
 また、本開示の一態様に係るプログラムは、上記の音響信号処理方法をコンピュータに実行させる。
 また、本開示の一態様に係るプログラムは、上記の情報生成方法をコンピュータに実行させる。
 また、本開示の一態様に係る音響信号処理装置は、仮想空間におけるオブジェクトの位置を示す第1位置情報と前記オブジェクトに起因する第1音を示す第1音データと前記第1音データに対する処理手段を示す第1識別情報とを含むオブジェクト情報、及び、前記仮想空間における前記第1音の受聴者の位置を示す第2位置情報を取得する第1取得部と、取得された前記オブジェクト情報が含む前記第1位置情報、及び、取得された前記第2位置情報に基づいて、前記オブジェクトと前記受聴者との距離を算出する第1算出部と、取得された前記オブジェクト情報が含む前記第1識別情報に基づいて、算出された前記距離に応じた音量の処理をする第1処理手段、及び、前記第1処理手段とは異なる態様で算出された前記距離に応じた音量の処理をする第2処理手段のうち、前記第1音データを処理する処理手段を決定する決定部と、決定された前記処理手段で前記第1音データを処理する第1処理部と、処理された前記第1音データを出力する第1出力部と、を備える。
 なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
 本開示の一態様に係る音響信号処理方法によれば、受聴者に臨場感を与えることができる。
図1は、オブジェクトの移動(位置の変化)にともない発生する空力音(風切り音)の第1例を説明するための図である。 図2は、オブジェクトの移動(位置の変化)にともない発生する空力音(風切り音)の第2例を説明するための図である。 図3は、オブジェクトの移動(位置の変化)にともない発生する空力音(風切り音)の第3例を説明するための図である。 図4Aは、オブジェクトから放射された風が受聴者の耳に到達することで生じる空力音を説明するための図である。 図4Bは、第2空力音の、風源からの距離による音量の減衰を計測する方法を示す図である。 図4Cは、図4Bで説明された実験による計測結果を示す図であり、収音された音の周波数特性が示される図である。 図4Dは、第2空力音とモーター音との各距離における周波数特性が音量に換算され距離ごとにプロットされた図である。 図5Aは、受聴者のパーソナルスペースについて説明する図である。 図5Bは、本開示の音響処理又は復号処理が適用可能なシステムの一例である立体音響(Immersive Audio)再生システムを示す図である。 図5Cは、本開示の符号化装置の一例である符号化装置の構成を示す機能ブロック図である。 図5Dは、本開示の復号装置の一例である復号装置の構成を示す機能ブロック図である。 図5Eは、本開示の符号化装置の別の一例である符号化装置の構成を示す機能ブロック図である。 図5Fは、本開示の復号装置の別の一例である復号装置の構成を示す機能ブロック図である。 図5Gは、図5D又は図5Fにおけるデコーダの一例であるデコーダの構成を示す機能ブロック図である。 図5Hは、図5D又は図5Fにおけるデコーダの別の一例であるデコーダの構成を示す機能ブロック図である。 図5Iは、音響信号処理装置の物理的構成の一例を示す図である。 図5Jは、符号化装置の物理的構成の一例を示す図である。 図6は、実施の形態に係る音響信号処理装置の機能構成を示すブロック図である。 図7は、実施の形態に係る音響信号処理装置の動作例1のフローチャートである。 図8は、動作例1に係るオブジェクトであるバットと受聴者とを示す図である。 図9は、変形例1に係る音響信号処理装置の機能構成を示すブロック図である。 図10は、変形例1に係る4人の他人と受聴者とを示す図である。 図11は、変形例1に係る音響信号処理装置の動作例2のフローチャートである。 図12は、変形例2に係る音響信号処理装置の機能構成を示すブロック図である。 図13は、変形例2に係るオブジェクト及び複数の音を示す図である。 図14は、変形例2に係る音響信号処理装置の動作例3のフローチャートである。 図15は、変形例2に係るオブジェクトが扇風機である場合を示す図である。 図16は、変形例2に係るオブジェクトがゾンビである場合を示す図である。 図17は、変形例3に係る情報生成装置及び音響信号処理装置の機能構成を示すブロック図である。 図18は、変形例3に係るオブジェクトである扇風機と受聴者とを示す図である。 図19は、変形例3に係る指向性情報及び単位距離情報を説明するための図である。 図20は、変形例3に係る第2処理部の処理を説明するための図である。 図21は、変形例3に係る第2処理部の他の処理を説明するための図である。 図22は、変形例3に係る情報生成装置の動作例4のフローチャートである。 図23は、変形例3に係る音響信号処理装置の動作例5のフローチャートである。 図24は、変形例4に係る情報生成装置及び音響信号処理装置の機能構成を示すブロック図である。 図25は、変形例4に係る第1音データへの処理を説明するための図である。 図26は、変形例4に係る音響信号処理装置の動作例6のフローチャートである。 図27は、変形例4に係る音響信号処理装置の動作例7のフローチャートである。 図28は、変形例5に係る情報生成装置及び音響信号処理装置の機能構成を示すブロック図である。 図29は、変形例5に係る音響信号処理装置の動作例8のフローチャートである。 図30は、変形例6に係る情報生成装置及び音響信号処理装置の機能構成を示すブロック図である。 図31は、変形例6に係る情報生成装置の動作例9のフローチャートである。 図32は、変形例6に係る音響信号処理装置の動作例10のフローチャートである。 図33は、変形例6に係る音響信号処理装置の動作例11のフローチャートである。 図34は、変形例7に係る情報生成装置及び音響信号処理装置の機能構成を示すブロック図である。 図35は、変形例7に係る表示部に表示される画像の一例を示す図である。 図36は、変形例7に係る情報生成装置の動作例12のフローチャートである。 図37は、変形例7に係る音響信号処理装置の動作例13のフローチャートである。 図38は、変形例8に係る情報生成装置及び音響信号処理装置の機能構成を示すブロック図である。 図39は、変形例8に係る情報生成装置の動作例14のフローチャートである。 図40は、図5G及び図5Hのレンダリング部がパイプライン処理を行う場合を説明するための機能ブロック図及びステップの一例を示す図である。
 (本開示の基礎となった知見)
 従来、仮想空間において、受聴者が受聴する音の音量(音圧)が制御される音響信号処理方法が知られている。
 特許文献1では、音響信号処理方法である立体音響計算方法に係る技術が開示されている。この音響信号処理方法では、音量(音圧)が音源と受聴者(観測者)との距離に反比例して変化するように制御される。より具体的には、音量が、当該距離が増加するに従って反比例して減衰するように制御される。これにより、受聴者は、音を発するオブジェクトつまりは音源と受聴者自身との距離を認識することができる。
 このような制御が行われた音は、仮想現実(バーチャル・リアリティ:VR(Virtual Reality))、又は、拡張現実(オーグメンテッド・リアリティ:AR(Augmented Reality))などの、ユーザ(受聴者)が存在する空間において立体的な音を再生するためのアプリケーションにおいて、利用されている。
 ところで、現実空間においては、受聴者が受聴する音の音量が、音を発するオブジェクトと受聴者自身との距離の反比例とは異なる条件に従って減衰する音の例が知られている。
 このような音として、以下2つの音を例示する。
 1つ目の音は、オブジェクトの移動にともない生じる空力音(所謂風切り音)である(非特許文献1参照)。空力音(風切り音)は、風がオブジェクトに衝突したり、空気中をオブジェクトが移動したりすることによって生じる空気の渦列などの圧力変動に基づく音である。 
 図1は、オブジェクトの移動(位置の変化)にともない発生する空力音(風切り音)の第1例を説明するための図である。なお図1においては、オブジェクトは、野球のバットBである。このオブジェクト(バットB)が移動(位置の変化)したとき、つまりはバットBがスイングされたときに、風切り音が生じる。受聴者Lは、この風切り音を受聴することで、バットBがスイングされたことを認識することができる。現実空間においては、この風切り音の音量は、バットBと受聴者Lとの距離が増加するに従って減衰し、より具体的には、バットBと受聴者Lとの距離の2乗で減衰する。
 仮に、仮想空間において、このような風切り音に特許文献1に開示される技術が適用された場合には、受聴者Lは、音量がバットBと受聴者Lとの距離に反比例して減衰するように制御された風切り音を受聴することとなる。つまりは、仮想空間で特許文献1に開示される技術が適用された風切り音は、現実空間で受聴者Lが受聴する風切り音とは異なる音となってしまう。仮想空間において、受聴者Lが特許文献1に開示される技術が適用された風切り音を受聴すると、当該風切り音は現実空間で受聴者Lが受聴する風切り音とは異なる音であるため、受聴者Lは違和感を覚えてしまい、受聴者Lは臨場感を得ることが難しい。そのため、受聴者Lに臨場感を与えることができる音響信号処理方法などが求められている。
 図2は、オブジェクトの移動(位置の変化)にともない発生する空力音(風切り音)の第2例を説明するための図である。なお図2においては、オブジェクトは、救急車Aである。このオブジェクト(救急車A)が移動(位置の変化)したとき、つまりは救急車Aが走行しているときに、風切り音が生じる。受聴者Lは、この風切り音を受聴することで、救急車Aが走行していることを認識することができる。現実空間においては、上記バットBによる風切り音と同様に、この風切り音の音量は、救急車Aと受聴者Lとの距離が増加するに従って減衰し、より具体的には、救急車Aと受聴者Lとの距離の2乗で減衰する。
 さらに、図2においては、救急車Aはサイレン音を発するオブジェクトでもある。このサイレン音は、現実空間においては、音量が救急車Aと受聴者Lとの距離が増加するに従って反比例して減衰する。
 仮に、仮想空間において、救急車Aによる風切り音及びサイレン音の両方に特許文献1に開示される技術が適用された場合について検討する。
 この場合、サイレン音については、受聴者Lは、音量が救急車Aと受聴者Lとの距離に反比例して減衰するように制御されたサイレン音を受聴することとなる。つまりは、仮想空間で特許文献1に開示される技術が適用されたサイレン音は、現実空間で受聴者Lが受聴するサイレン音と同様の音となり、受聴者Lは、違和感を覚えにくい。
 一方で、この場合、風切り音についても、受聴者Lは、音量が救急車Aと受聴者Lとの距離に反比例して減衰するように制御された風切り音を受聴することとなる。つまりは、仮想空間で特許文献1に開示される技術が適用された風切り音は、現実空間で受聴者Lが受聴する風切り音とは異なる音となってしまう。仮想空間において、受聴者Lが特許文献1に開示される技術が適用された風切り音を受聴すると、受聴者Lは違和感を覚えてしまい、受聴者Lは臨場感を得ることが難しい。そのため、このような場合でも、受聴者Lに臨場感を与えることができる音響信号処理方法などが求められている。
 なお、上記の通り、救急車Aは、複数の音(サイレン音及び風切り音)を発生させるオブジェクトである。このようなオブジェクトは、救急車Aに限られない。
 図3は、オブジェクトの移動(位置の変化)にともない発生する空力音(風切り音)の第3例を説明するための図である。図3においては、このようなオブジェクトとして、扇風機Fが例示されている。
 この扇風機Fの複数の羽根が移動(回転)したときに、風切り音が生じる。上記バットBによる風切り音及び救急車Aによる風切り音と同様に、この扇風機Fによる風切り音の音量は、扇風機Fと受聴者Lとの距離が増加するに従って減衰し、より具体的には、扇風機Fと受聴者Lとの距離の2乗で減衰する。また、扇風機Fは、扇風機Fが備えるモーターが稼働する音であるモーター音を発するオブジェクトでもある。このモーター音は、現実空間においては、音量が扇風機Fと受聴者Lとの距離が増加するに従って反比例して減衰する。
 このように、扇風機Fも、複数の音(モーター音及び風切り音)を発生させるオブジェクトである。
 従って、オブジェクトが救急車Aである場合と同様に、仮想空間において、扇風機Fによる風切り音及びモーター音の両方に特許文献1に開示される技術が適用された場合には、受聴者Lは違和感を覚えてしまい、受聴者Lは臨場感を得ることが難しい。特に、図3が示すように、受聴者Lが(a)の位置から(b)の位置へ移動する場合に、つまりは、扇風機Fと受聴者Lとの距離が変化する場合に、その違和感が大きくなってしまう。そのため、受聴者Lに臨場感を与えることができる音響信号処理方法などが求められている。
 上記の通り1つ目の音として風切り音を説明した。続いて、さらに2つ目の音である、オブジェクトから放射された風が受聴者Lの耳に到達することで生じる空力音について説明する(非特許文献2及び3参照)。なお、耳とは、耳介及び外耳の少なくとも一方を意味する。
 特許文献1に開示される技術を含む従来の技術では、オブジェクトオーディオ情報が用いられていた。オブジェクトオーディオ情報とは、例えば音を示す音信号(音データ)と当該音が発生する位置を示す位置情報とが関連付けられたデータである。例えばここで、図4Aが示す例について検討する。
 図4Aは、オブジェクトから放射された風Wが受聴者Lの耳に到達することで生じる空力音を説明するための図である。2つ目の音であるこの空力音は、オブジェクトである扇風機Fによる風Wが受聴者Lに達した場合に、例えば受聴者Lの耳の形状に応じて生じる音である。なお、以下では識別のため、オブジェクトの移動(位置の変化)にともない発生する空力音(風切り音)を第1空力音、2つ目の音であるオブジェクトから放出されて受聴者Lの耳に到達する風Wが受聴者Lの耳に衝突することで生じる空力音を第2空力音と記載する場合がある。
 図4Aにおいては、オブジェクトである扇風機Fに起因する音は、図3で説明した第1空力音(風切り音)及びモーター音と、第2空力音とを含む3つの音である。ここでは、モーター音及び第2空力音に着目する。
 例えばモーター音について、オブジェクトオーディオ情報が用いられると、モーター音を示す音信号(音データ)と、当該モーター音が発生する位置を示す位置情報とが関連付けられる。オブジェクトオーディオ情報では、当該モーター音が発生する位置は、扇風機Fの位置となる。
 また、第2空力音について、オブジェクトオーディオ情報が用いられると、第2空力音を示す音信号(音データ)と、当該第2空力音が発生する位置を示す位置情報とが関連付けられる。オブジェクトオーディオ情報では、当該第2空力音が発生する位置は、受聴者Lの位置となる。
 ここで、モーター音については、音量が、モーター音が発生する位置である扇風機Fと、受聴者Lとの距離に反比例して減衰するように制御されることで、受聴者Lは、違和感を覚えにくいモーター音を受聴することができる。
 また、第2空力音については、風Wが発生する位置である扇風機Fと、受聴者Lとの距離によって音量がどのように減衰するかは、モーター音又は第1空力音のような定説はない。しかしながら、距離によって音量の増減が生じることは生活の実感からみて明らかである。そこで本願発明者らは、扇風機とダミーヘッドマイクロホンとを用いて、その増減の傾向を実験的に明らかにした。
 図4Bは、第2空力音の、風源(つまりは風Wが発生する位置(扇風機F))からの距離による音量の減衰を計測する方法を示す図である。収音は、図4Bに示すように、扇風機から1m、2m、4m等の各位置にダミーヘッドマイクロホン(以下マイクロホンと記載)が置かれて、風Wが当たる際に生じる音が収音された。扇風機Fの前面の網が外されたので収音される音は、第2空力音及びモーター音のみとなり、網による第1空力音は除外されている。
 図4Cは、図4Bで説明された実験による計測結果を示す図であり、収音された音の周波数特性が示される図である。より具体的には、図4Cの(a)は1mの位置にマイクロホンが置かれ、図4Cの(b)は2mの位置にマイクロホンが置かれ、図4Cの(c)は4mの位置にマイクロホンが置かれた場合を示す。1kHz以下の周波数成分が大きく盛り上がっている線(第1線)は風Wがマイクロホンの当たる方向で収音した音の周波数特性を示している。従って、第1線は、モーター音と第2空力音との合算の周波数特性を示している。もう一方の線(第2線)は風Wがマイクロホンに当たらない方向で収音した音の周波数特性を示している。従って、第2線は、モーター音のみの周波数特性を示している。いずれのグラフについても、約1kHz以上の周波数成分では第1線と第2線とは重なっているので、第2空力音の周波数成分は、第1線の1kHz以下の成分で代表させることができる。モーター音の周波数成分は、第2線全体で代表させることができることは言うまでもない。
 図4Dは、そのようにして特定した第2空力音とモーター音との各距離における周波数特性が音量に換算され距離ごとにプロットされた図である。モーター音については、通説通り、距離に比例して減衰(距離の1乗に反比例)する、という傾向となっている。一方、第2空力音については、距離の2.5乗で減衰(距離の2.5乗に反比例)する、という傾向となっていることがわかる。(図4Dでは、図4Bでは図示していない、50cm、3mの位置での観測データもプロットされている。)そこで、第2空力音については、音量が、風Wが発生する位置である扇風機Fと、受聴者Lとの距離の2.5乗で減衰するように制御することで、受聴者Lは、違和感を覚えにくい第2空力音を受聴することができる。或いは、距離とその距離における第2空力音の周波数特性とを関連付けておいて、距離をインデックスとして周波数特性が取得され音量が制御されてもよい。勿論、風速は距離に応じて減衰することが知られているので、風速とその風速における第2空力音の周波数特性とを関連付けておいて、距離によって算出された風速をインデックスとして周波数特性が取得され音量が制御されてもよいことは言うまでもない。
 ところで、本願発明者らは、第2空力音の距離減衰の指数は4(距離の4乗に反比例)と予想していた。これは、第2空力音は、表面に凹凸のある物体に風があたったときの生じる空力音、所謂キャビティ音に由来すると考えており、キャビティ音の音量は風速の4乗に比例して増幅し、風速は距離に反比例すると言われているので、距離の4乗の反比例するものと考えていた。ところが、上記のような実験によって、第2空力音の距離減衰の指数は2.5程度とわかった。これは、耳介は単純なキャビティではなく、パラボラ形状を伴ったキャビティなので、風Wをより効率的にとらえるからではないかと考えている。一方で、耳介の形状には個人差があるので、上記指数は2.5には限定できない。しかしながら、第2空力音はキャビティ音に由来するのであるから、上記指数は4は超えないと考えている。
 一方で、第2空力音については、第2空力音が発生する位置が受聴者Lの耳の位置である。従って、受聴者Lが移動しても、第2空力音が発生する位置、つまり受聴者Lの耳の位置と受聴者Lの位置との距離が常に一定であるため、第2空力音の音量が、当該距離に応じて減衰するように制御されることができない。従って、従来の技術に係るオブジェクトオーディオ情報が用いられると、受聴者Lは、違和感を覚える第2空力音を受聴することになってしまう。そのため、受聴者Lに臨場感を与えることができる音響信号処理方法などが求められている。
 さらに、現実空間においては、パーソナルスペースが有ることが知られている。図5Aは、受聴者Lのパーソナルスペースについて説明する図である。
 パーソナルスペースとは、他人が自分(ここでは受聴者L)に近づくことを許せる限界の範囲、つまり心理的な縄張りのことである。これは、仮想空間での受聴者Lにとって他人ごとに、物理的距離だけでは表現できない受聴者Lと他人との距離感があることを示している。パーソナルスペースは、密接距離(45cm以下)、個体距離(45cmより大きく120cm以下)、社会距離(120cmより大きく360cm以下)及び公衆距離(360cmより大きい)の4つのカテゴリーに分類される。
 この物理的距離だけでは表現できない受聴者Lと他人との距離感を、仮想空間で演出する際に、例えば全ての他人の発する声に特許文献1に開示される技術が一律に適用された場合について検討する。
 この場合、受聴者Lは、当該他人と受聴者Lとの関係性に依存せずに、当該他人の声の音量が当該他人と受聴者Lとの距離に反比例して減衰するように制御された声を受聴することとなる。つまり、他人が受聴者Lにとって親しさの度合いが高い人であっても親しさの度合いが低い人であっても、一律に当該他人の声が減衰するように制御される。
 このため、受聴者Lに応じたパーソナルスペース、及び、物理的距離だけでは表現できない受聴者Lと他人との距離感を、仮想空間で演出することが困難となり、受聴者Lは違和感を覚えてしまい、受聴者Lは臨場感を得ることが難しい。そのため、受聴者Lに臨場感を与えることができる音響信号処理方法などが求められている。
 そこで、本開示の第1態様に係る音響信号処理方法は、仮想空間におけるオブジェクトの位置を示す第1位置情報と前記オブジェクトに起因する第1音を示す第1音データと前記第1音データに対する処理手段を示す第1識別情報とを含むオブジェクト情報、及び、前記仮想空間における前記第1音の受聴者の位置を示す第2位置情報を取得する第1取得ステップと、取得された前記オブジェクト情報が含む前記第1位置情報、及び、取得された前記第2位置情報に基づいて、前記オブジェクトと前記受聴者との距離を算出する第1算出ステップと、取得された前記オブジェクト情報が含む前記第1識別情報に基づいて、算出された前記距離に応じた音量の処理をする第1処理手段、及び、前記第1処理手段とは異なる態様で算出された前記距離に応じた音量の処理をする第2処理手段のうち、前記第1音データを処理する処理手段を決定する決定ステップと、決定された前記処理手段で前記第1音データを処理する第1処理ステップと、処理された前記第1音データを出力する第1出力ステップと、を含む。
 これにより、第1識別情報に応じて第1音の音量の処理手段が変更されることができるため、受聴者が受聴する仮想空間での第1音は、受聴者が受聴する現実空間での第1音に似た音となり、より具体的には、現実空間での第1音が再現された音となる。このため、受聴者は違和感を覚え難く、受聴者は臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感を与えることができる。
 また、例えば、本開示の第2態様に係る音響信号処理方法は、前記第1処理手段は、音量が、算出された前記距離が増加するに従って反比例して減衰するように前記第1音データを処理する処理手段であり、前記第2処理手段は、音量が、算出された前記距離が増加するに従って前記第1処理手段とは異なる態様で増減するように前記第1音データを処理する処理手段である、第1態様に係る音響信号処理方法である。
 これにより、第1識別情報に応じて、音量が距離が増加するに従って反比例して減衰するように第1音データを処理する第1処理手段又は音量が距離が増加するに従って第1処理手段とは異なる態様で増減するような第2処理手段が用いられるため、受聴者が受聴する仮想空間での第1音は、受聴者が受聴する現実空間での第1音により似た音となる。このため、受聴者は違和感をより覚え難く、受聴者は臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感をより与えることができる。
 また、例えば、本開示の第3態様に係る音響信号処理方法は、取得された前記オブジェクト情報は、前記第1音とは異なる音であって前記オブジェクトに起因する第2音を示す第2音データと、前記第2音データに対する処理手段を示す第2識別情報とを含み、前記決定ステップでは、取得された前記オブジェクト情報が含む前記第2識別情報に基づいて、前記第1処理手段及び前記第2処理手段のうち、前記第2音データを処理する処理手段を決定し、前記第1処理ステップでは、決定された前記処理手段で前記第2音データを処理し、前記第1出力ステップでは、処理された前記第2音データを出力し、前記オブジェクトは、前記第1音データ及び前記第2音データを含む複数の音データと関連付けられるオブジェクトである、第1又は第2態様に係る音響信号処理方法である。
 これにより、第2識別情報に応じて第2音の音量の処理手段が変更されることができるため、受聴者が受聴する仮想空間での第2音も、受聴者が受聴する現実空間での第2音に似た音となり、より具体的には、算出された距離に応じて、第1音と第2音との音量バランスが現実空間で生じる音量バランスのように変動する。このため、受聴者は違和感をより覚え難く、受聴者は臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感をより与えることができる。
 また、例えば、本開示の第4態様に係る音響信号処理方法は、前記第2処理手段は、音量が、前記距離のx乗(x≠1)で減衰するように前記第1音データを処理する処理手段である、第2態様に係る音響信号処理方法である。
 これにより、第1処理ステップでは、音量が距離のx乗で減衰するように第1音データを処理する第2処理手段を用いることができる。
 また、例えば、本開示の第5態様に係る音響信号処理方法は、前記第1識別情報は、前記第1音データに対する前記処理手段が前記第2処理手段であること、及び、前記xの値を示す、第4態様に係る音響信号処理方法である。
 これにより、第1識別情報は処理手段が第2処理手段であることを示すことができ、第1処理ステップでは第1識別情報が示すxの値にしたがって、第1音データを処理することができる。
 また、例えば、本開示の第6態様に係る音響信号処理方法は、前記第1音が、前記オブジェクトの移動にともない生じる空力音である場合には、前記第1識別情報は、前記第1音データに対する処理手段が前記第2処理手段であること、及び、前記xがαであり前記αが実数であり前記αが下記式を満たすことを示す、
 α>1
 第4態様に係る音響信号処理方法である。
 これにより、第1処理ステップでは、第1音が空力音(第1空力音)である場合に、第1識別情報が示すxの値であるαにしたがって、第1音データを処理することができる。
 また、例えば、本開示の第7態様に係る音響信号処理方法は、前記第1音が前記オブジェクトから放射された風が前記受聴者の耳に到達することで生じる空力音である場合には、前記第1識別情報は、前記第1音データに対する処理手段が前記第2処理手段であること、及び、前記xがβであり前記βが実数であり前記βが下記式を満たすことを示す、
 β>2
 第6態様に係る音響信号処理方法である。
 これにより、第1処理ステップでは、第1音がオブジェクトから放射された風が受聴者の耳に到達することで生じる空力音(第2空力音)である場合に、第1識別情報が示すxの値であるβにしたがって、第1音データを処理することができる。
 また、例えば、本開示の第8態様に係る音響信号処理方法は、前記α及び前記βは、下記式を満たす、
 α<β
 第7態様に係る音響信号処理方法である。
 これにより、第1処理ステップでは、α<βを満たすα又はβを用いて第1音データを処理することができる。
 また、例えば、本開示の第9態様に係る音響信号処理方法は、ユーザから前記α又は前記βの値を指定する操作を受付ける第1受付ステップを含む、第7又は第8態様に係る音響信号処理方法である。
 これにより、第1処理ステップでは、ユーザに指定されたα又はβの値を用いて第1音データを処理することができる。
 また、例えば、本開示の第10態様に係る音響信号処理方法は、前記第1識別情報は、前記第1処理手段を実行するか否かを示す情報であり、前記決定ステップでは、取得された前記第1識別情報に基づいて、前記第1処理手段を実行するか否かを決定し、かつ、前記第1処理手段が実行されるか否かに関わらず、前記第2処理手段を実行することを決定し、前記第2処理手段は、算出された前記距離が所定の閾値以内である場合に、音量が、所定の値となるように前記第1音データを処理する処理手段である、第2態様に係る音響信号処理方法である。
 これにより、第1処理ステップでは、距離が所定の閾値以内である場合にだけ、音量が所定の値となることで、非現実的な効果を演出することができ、かつ、現実的に生じる自然な距離減衰効果も付与することができるように第1音データを処理する第2処理手段を用いることができる。
 また、例えば、本開示の第11態様に係る音響信号処理方法は、前記所定の閾値は、パーソナルスペースに応じた値である、第10態様に係る音響信号処理方法である。
 これにより、第1処理ステップでは、パーソナルスペースに応じた値である所定の閾値を用いて、第1音データを処理することができるので、物理的な距離による距離減衰効果では表現できない心理的な距離感を演出することができる。
 また、例えば、本開示の第12態様に係る音響信号処理方法は、ユーザから前記所定の閾値が第1指定値であることを指定する操作を受付ける第1受付ステップを含む、第10又は第11態様に係る音響信号処理方法である。
 これにより、第1処理ステップでは、ユーザに指定された第1指定値を用いて第1音データを処理することができる。
 また、例えば、本開示の第13態様に係る情報生成方法は、仮想空間における受聴者の位置に関連する位置で生じる第1音を示す第1音データと、前記仮想空間におけるオブジェクトの位置を示す第1位置情報とを取得する第2取得ステップと、取得された前記第1音データと取得された前記第1位置情報とから、前記オブジェクトに起因して前記受聴者の位置に関連する位置で前記第1音を再生させる前記オブジェクトに関する情報と前記第1位置情報とを含む第1オブジェクトオーディオ情報を生成する第1生成ステップと、を含む。
 これにより、オブジェクトの位置に、オブジェクトに起因して受聴者の位置に関連する位置で生じる第1音を示す第1音データが関連付けられた第1オブジェクトオーディオ情報を生成することができる。この第1オブジェクトオーディオ情報が音響信号処理方法で用いられた場合には、オブジェクトと受聴者との距離が増加するほど第1音の音量が減衰するように第1音データが処理されることで、受聴者が受聴する仮想空間での第1音は、受聴者が受聴する現実空間での第1音に似た音となり、より具体的には、現実空間での第1音が再現された音となる。このため、受聴者は違和感を覚え難く、受聴者は臨場感を得ることができる。つまりは、情報生成方法は、受聴者に臨場感を与えることができる。
 また、例えば、本開示の第14態様に係る情報生成方法は、前記オブジェクトは、風を放射し、前記受聴者は、放射された前記風を浴び、前記第1音は、前記オブジェクトから放射された前記風が前記受聴者の耳に到達することで生じる空力音である、第13態様に係る情報生成方法である。
 これにより、第1音を、オブジェクトから放射された風が受聴者の耳に到達することで生じる空力音(第2空力音)とすることができる情報生成方法が実現される。
 また、例えば、本開示の第15態様に係る情報生成方法は、前記第1生成ステップでは、さらに単位距離情報を含む前記第1オブジェクトオーディオ情報を生成し、前記単位距離情報は、基準となる距離である単位距離と、前記オブジェクトの前記位置から前記単位距離離れた位置における前記空力音を示す空力音データとを含む情報である、第14態様に係る情報生成方法である。
 これにより、単位距離情報を含む第1オブジェクトオーディオ情報を生成することができる。この第1オブジェクトオーディオ情報が音響信号処理方法で用いられた場合には、受聴者が受聴する仮想空間での第1音(第2空力音)は、単位距離及び空力音データに基づいて、受聴者が受聴する現実空間での第1音(第2空力音)により似た音となる。このため、受聴者は違和感をより覚え難く、受聴者は臨場感をより得ることができる。つまりは、情報生成方法は、受聴者に臨場感をより与えることができる。
 また、例えば、本開示の第16態様に係る情報生成方法は、前記第1生成ステップでは、さらに指向性情報を含む前記第1オブジェクトオーディオ情報を生成し、前記指向性情報は、放射された前記風の方向に応じた特性を示す情報であり、前記単位距離情報に示される前記空力音データは、前記指向性情報に示される前記オブジェクトが前記風を放射する正面方向に、前記オブジェクトの前記位置から前記単位距離離れた位置における前記空力音を示すデータである、第15態様に係る情報生成方法である。
 これにより、指向性情報を含む第1オブジェクトオーディオ情報を生成することができる。この第1オブジェクトオーディオ情報が音響信号処理方法で用いられた場合には、受聴者が受聴する仮想空間での第1音(第2空力音)は、単位距離、空力音データ及び指向性情報に基づいて、受聴者が受聴する現実空間での第1音(第2空力音)により似た音となる。このため、受聴者は違和感をより覚え難く、受聴者は臨場感をより得ることができる。つまりは、情報生成方法は、受聴者に臨場感をより与えることができる。
 また、例えば、本開示の第17態様に係る情報生成方法は、前記第1生成ステップでは、前記第1音の再生時において、前記オブジェクトから生じた前記第1音を示す前記第1音データに基づく第1音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理を行うか否かを示すフラグ情報をさらに含む前記第1オブジェクトオーディオ情報を生成する、第13~第16態様のいずれか1つの態様に係る情報生成方法である。
 これにより、フラグ情報を含む第1オブジェクトオーディオ情報を生成することができる。この第1オブジェクトオーディオ情報が音響信号処理方法で用いられた場合には、受聴者が受聴する仮想空間での第1音は、第1音データに基づく第1音信号に頭部伝達関数が畳み込まれる場合があるため、受聴者が受聴する現実空間での第1音により似た音となる。このため、受聴者は違和感をより覚え難く、受聴者は臨場感をより得ることができる。つまりは、情報生成方法は、受聴者に臨場感をより与えることができる。
 また、例えば、本開示の第18態様に係る音響信号処理方法は、第13態様に係る情報生成方法によって生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記第1音の前記受聴者の前記位置を示す第2位置情報を取得する第3取得ステップと、取得された前記第1オブジェクトオーディオ情報が含む前記第1位置情報、及び、取得された前記第2位置情報に基づいて、前記オブジェクトと前記受聴者との距離を算出する第2算出ステップと、算出された前記距離が増加するほど、前記第1音の音量が減衰するように前記第1音データを処理する第2処理ステップと、処理された前記第1音データを出力する第2出力ステップとを含む。
 これにより、第3取得ステップでは、オブジェクトの位置に、オブジェクトに起因して受聴者の位置に関連する位置で生じる第1音を示す第1音データが関連付けられた第1オブジェクトオーディオ情報を取得することができる。したがって、オブジェクトと受聴者との距離が増加するほど第1音の音量が減衰するように第1音データが処理されることで、受聴者が受聴する仮想空間での第1音は、受聴者が受聴する現実空間での第1音に似た音となり、より具体的には、現実空間での第1音が再現された音となる。このため、受聴者は違和感を覚え難く、受聴者は臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感を与えることができる。
 また、例えば、本開示の第19態様に係る音響信号処理方法は、第14態様に係る情報生成方法によって生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記第1音の前記受聴者の前記位置を示す第2位置情報を取得する第3取得ステップと、取得された前記第1オブジェクトオーディオ情報が含む前記第1位置情報、及び、取得された前記第2位置情報に基づいて、前記風を放射する前記オブジェクトと前記受聴者との距離を算出する第2算出ステップと、算出された前記距離が増加するほど、前記第1音の音量が減衰するように前記第1音データを処理する第2処理ステップと、処理された前記第1音データを出力する第2出力ステップとを含む。
 これにより、第1音を、オブジェクトから放射された風が受聴者の耳に到達することで生じる空力音(第2空力音)とすることができる音響信号処理方法が実現される。
 また、例えば、本開示の第20態様に係る音響信号処理方法は、第15態様に係る情報生成方法によって生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記第1音の前記受聴者の前記位置を示す第2位置情報を取得する第3取得ステップと、取得された前記第1オブジェクトオーディオ情報が含む前記第1位置情報、及び、取得された前記第2位置情報に基づいて、前記風を放射する前記オブジェクトと前記受聴者との距離を算出する第2算出ステップと、取得された前記第1オブジェクトオーディオ情報が含む前記単位距離情報が示す前記単位距離よりも算出された前記距離が大きい場合に、算出された前記距離と前記単位距離とに応じて、前記第1音の音量が減衰するように前記第1音データを処理する第2処理ステップと、処理された前記第1音データを出力する第2出力ステップとを含む。
 これにより、第3取得ステップでは、単位距離情報を含む第1オブジェクトオーディオ情報を取得することができる。したがって、受聴者が受聴する仮想空間での第1音(第2空力音)は、単位距離及び空力音データに基づいて、受聴者が受聴する現実空間での第1音(第2空力音)により似た音となる。このため、受聴者は違和感をより覚え難く、受聴者は臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感をより与えることができる。
 また、例えば、本開示の第21態様に係る音響信号処理方法は、第16態様に係る情報生成方法によって生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記第1音の前記受聴者の前記位置を示す第2位置情報を取得する第3取得ステップと、取得された前記第1オブジェクトオーディオ情報が含む前記第1位置情報、及び、取得された前記第2位置情報に基づいて、前記風を放射する前記オブジェクトと前記受聴者との距離、及び、前記オブジェクトと前記受聴者とを結ぶ二点間方向を算出する第2算出ステップと、前記正面方向と算出された二点間方向とがなす角度及び前記指向性情報が示す前記特性に基づいて前記第1音の音量を制御するように、かつ、取得された前記第1オブジェクトオーディオ情報が含む前記単位距離情報が示す前記単位距離よりも算出された前記距離が大きい場合に算出された前記距離と前記単位距離とに応じて前記第1音の音量が減衰するように、前記第1音データを処理する第2処理ステップと、処理された前記第1音データを出力する第2出力ステップとを含む。
 これにより、第3取得ステップでは、指向性情報を含む第1オブジェクトオーディオ情報を取得することができる。したがって、受聴者が受聴する仮想空間での第1音(第2空力音)は、単位距離、空力音データ及び指向性情報に基づいて、受聴者が受聴する現実空間での第1音(第2空力音)により似た音となる。このため、受聴者は違和感をより覚え難く、受聴者は臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感をより与えることができる。
 また、例えば、本開示の第22態様に係る音響信号処理方法は、第13~16態様のいずれか1つの態様に係る情報生成方法で生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記第1位置情報と前記オブジェクトに起因する第2音を示す第2音データとが関連付けられた第2オブジェクトオーディオ情報を取得する第3取得ステップと、取得された前記第1音データに基づく第1音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をせず、かつ、取得された前記第2オブジェクトオーディオ情報が示す前記第2音データに基づく第2音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をする第2処理ステップと、処理されていない前記第1音信号、及び、処理された前記第2音信号を出力する第2出力ステップとを含む。
 これにより、受聴者が受聴する仮想空間での第2音は、第2音データに基づく第2音信号に頭部伝達関数が畳み込まれるため、受聴者が受聴する現実空間での第2音に似た音となり、より具体的には、現実空間での第2音が再現された音となる。このため、受聴者は違和感をより覚え難く、受聴者は臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感をより与えることができる。
 また、例えば、本開示の第23態様に係る音響信号処理方法は、第14~16態様のいずれか1つの態様に係る情報生成方法で生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記第1位置情報と前記オブジェクトに起因する第2音を示す第2音データとが関連付けられた第2オブジェクトオーディオ情報を取得する第3取得ステップと、取得された前記第1音データに基づく第1音信号に風が到来する方向に依存した処理をし、かつ、取得された前記第2オブジェクトオーディオ情報が示す前記第2音データに基づく第2音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をする第2処理ステップと、処理された前記第1音信号、及び、処理された前記第2音信号を出力する第2出力ステップとを含む。
 これにより、受聴者が受聴する仮想空間での第1音(第2空力音)は、第1音データに基づく第1音信号に風が到来する方向に依存した処理が行われるため、受聴者が受聴する現実空間での第1音(第2空力音)に似た音となり、より具体的には、現実空間での第1音(第2空力音)が再現された音となる。さらに、受聴者が受聴する仮想空間での第2音は、第2音データに基づく第2音信号に頭部伝達関数が畳み込まれるため、受聴者が受聴する現実空間での第2音に似た音となり、より具体的には、現実空間での第2音が再現された音となる。このため、受聴者は違和感をより覚え難く、受聴者は臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感をより与えることができる。
 また、例えば、本開示の第24態様に係る音響信号処理方法は、第14~16態様のいずれか1つの態様に係る情報生成方法で生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記オブジェクトとは異なるオブジェクトであって前記仮想空間における他のオブジェクトの位置を示す第3位置情報と前記他のオブジェクトの前記位置で発生する第3音を示す第3音データとが関連付けられた第3オブジェクトオーディオ情報を取得する第3取得ステップと、取得された前記第1音データに基づく第1音信号に風が到来する方向に依存した処理をし、かつ、取得された前記第3オブジェクトオーディオ情報が示す前記第3音データに基づく第3音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をする第2処理ステップと、処理された前記第1音信号、及び、処理された前記第3音信号を出力する第2出力ステップとを含む。
 これにより、仮想空間にオブジェクト及び他のオブジェクトを含む複数のオブジェクトが設けられた場合に、受聴者が受聴する仮想空間での第1音(第2空力音)及び第3音は、それぞれ受聴者が受聴する現実空間での第1音(第2空力音)及び第3音に似た音となる。このため、受聴者は違和感をより覚え難く、受聴者は臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感をより与えることができる。
 また、例えば、本開示の第25態様に係る情報生成方法は、仮想空間で吹く第1風の発生位置と、前記第1風の第1風向と、前記第1風の風速である第1想定風速とを取得する第4取得ステップと、取得された前記発生位置と、前記第1風向と、前記第1想定風速とが関連付けられた第4オブジェクトオーディオ情報を生成する第2生成ステップと、代表風速と、前記代表風速の風が前記仮想空間における受聴者の耳に到達することで生じる空力音を示す空力音データとを含む空力音コア情報を記憶する記憶ステップと、生成された前記第4オブジェクトオーディオ情報と、記憶されている前記空力音コア情報とを出力する第3出力ステップとを含む。
 これにより、発生位置、第1風向及び第1想定風速が関連付けられた第4オブジェクトオーディオ情報を生成することができる。この第4オブジェクトオーディオ情報が音響信号処理方法で用いられた場合には、オブジェクトと受聴者との距離が増加するほど空力音(第2空力音)の音量が減衰するように空力音データが処理されることで、受聴者が受聴する仮想空間での空力音(第2空力音)は、受聴者が受聴する現実空間での空力音(第2空力音)に似た音となり、より具体的には、現実空間での空力音(第2空力音)が再現された音となる。このため、受聴者は違和感を覚え難く、受聴者は臨場感を得ることができる。つまりは、情報生成方法は、受聴者に臨場感を与えることができる。
 また、例えば、本開示の第26態様に係る情報生成方法は、前記第1想定風速は、前記第1風向の方向に前記発生位置から基準となる距離である単位距離離れた位置での前記第1風の風速である、第25態様に係る情報生成方法である。
 これにより、第1想定風速として、単位距離離れた位置での第1風の風速を用いることができる。
 また、例えば、本開示の第27態様に係る情報生成方法は、ユーザから前記単位距離が第2指定値であることを指定する操作を受付ける第2受付ステップを含む、第26態様に係る情報生成方法である。
 これにより、ユーザに指定された第2指定値である単位距離を用いて第4オブジェクトオーディオ情報を生成することができる。
 また、例えば、本開示の第28態様に係る情報生成方法は、ユーザから前記第1風の方向に応じた特性を示す指向性情報を指定する操作を受付ける第2受付ステップを含み、前記第2生成ステップでは、取得された前記発生位置、前記第1風向及び前記第1想定風速と、受付けられた前記操作が示す前記指向性情報とが関連付けられた前記第4オブジェクトオーディオ情報を生成する、第26又は第27態様に係る情報生成方法である。
 これにより、発生位置、第1風向、第1想定風速及びユーザに指定された指向性情報が関連付けられた第4オブジェクトオーディオ情報を生成することができる。
 また、例えば、本開示の第29態様に係る音響信号処理方法は、第26~28態様のいずれか1つの態様に係る情報生成方法で出力された前記第4オブジェクトオーディオ情報及び前記空力音コア情報と、前記仮想空間における前記受聴者の位置を示す第2位置情報とを取得する第5取得ステップと、取得された前記第4オブジェクトオーディオ情報が含む前記発生位置、及び、取得された前記第2位置情報に基づいて、前記発生位置と前記受聴者との距離を算出する第3算出ステップと、算出された前記距離が増加するほど、前記空力音の音量が減衰するように前記空力音データを処理する第3処理ステップと、処理された前記空力音データを出力する第4出力ステップとを含む。
 これにより、第5取得ステップでは、発生位置、第1風向及び第1想定風速が関連付けられた第4オブジェクトオーディオ情報を取得することができる。したがって、オブジェクトと受聴者との距離が増加するほど空力音(第2空力音)の音量が減衰するように空力音データが処理されることで、受聴者が受聴する仮想空間での空力音(第2空力音)は、受聴者が受聴する現実空間での空力音(第2空力音)に似た音となり、より具体的には、現実空間での空力音(第2空力音)が再現された音となる。このため、受聴者は違和感を覚え難く、受聴者は臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感を与えることができる。
 また、例えば、本開示の第30態様に係る音響信号処理方法は、前記第3処理ステップでは、前記受聴者の耳に到達したときの前記第1風の風速である耳到達風速に基づいて、前記空力音データを処理し、前記耳到達風速は、算出された前記距離が増加するほど、前記風速が減速する、第29態様に係る音響信号処理方法である。
 これにより、耳到達風速に基づいて、空力音データが処理されるため、受聴者が受聴する仮想空間での空力音(第2空力音)は、受聴者が受聴する現実空間での空力音(第2空力音)により似た音となる。このため、受聴者は違和感をより覚え難く、受聴者は臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感をより与えることができる。
 また、例えば、本開示の第31態様に係る音響信号処理方法は、前記耳到達風速は、算出された前記距離を前記単位距離で割った値のz乗で減衰する値である、第30態様に係る音響信号処理方法である。
 これにより、より正確な耳到達風速が算出されるため、受聴者が受聴する仮想空間での空力音(第2空力音)は、受聴者が受聴する現実空間での空力音(第2空力音)により似た音となる。このため、受聴者は違和感をより覚え難く、受聴者は臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感をより与えることができる。
 また、例えば、本開示の第32態様に係る音響信号処理方法は、前記zは、下記式を満たす、
 z=1
 第31態様に係る音響信号処理方法である。
 これにより、より正確な耳到達風速が算出されるため、受聴者が受聴する仮想空間での空力音(第2空力音)は、受聴者が受聴する現実空間での空力音(第2空力音)により似た音となる。このため、受聴者は違和感をより覚え難く、受聴者は臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感をより与えることができる。
 また、例えば、本開示の第33態様に係る音響信号処理方法は、前記第3処理ステップでは、前記空力音の音量が、前記代表風速を前記耳到達風速で割った値のγ乗で減衰するように、前記空力音データを処理する、第31態様に係る音響信号処理方法である。
 これにより、空力音(第2空力音)の音量がより正確な音量となるように空力音データが処理されるため、受聴者が受聴する仮想空間での空力音(第2空力音)は、受聴者が受聴する現実空間での空力音(第2空力音)により似た音となる。このため、受聴者は違和感をより覚え難く、受聴者は臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感をより与えることができる。
 また、例えば、本開示の第34態様に係る音響信号処理方法は、前記γ及び前記zは、下記式を満たす、
 γ×z<4
 第33態様に係る音響信号処理方法である。
 これにより、より正確な耳到達風速が算出されるため、受聴者が受聴する仮想空間での空力音(第2空力音)は、受聴者が受聴する現実空間での空力音(第2空力音)により似た音となる。このため、受聴者は違和感をより覚え難く、受聴者は臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感をより与えることができる。
 また、例えば、本開示の第35態様に係る音響信号処理方法は、第26~28態様のいずれか1つの態様に係る情報生成方法で出力された前記第4オブジェクトオーディオ情報、及び、前記空力音の周波数成分の分布を示すデータを含む前記空力音コア情報と、前記仮想空間における前記受聴者の位置を示す第2位置情報とを取得する第5取得ステップと、取得された前記第4オブジェクトオーディオ情報が含む前記発生位置、及び、取得された前記第2位置情報に基づいて、前記発生位置と前記受聴者との距離を算出する第3算出ステップと、算出された前記距離が増加するほど、前記空力音の前記周波数成分の分布を低周波数側にシフトするように前記空力音データを処理する第3処理ステップと、処理された前記空力音データを出力する第4出力ステップとを含む。
 これにより、第5取得ステップでは、発生位置、第1風向及び第1想定風速が関連付けられた第4オブジェクトオーディオ情報を取得することができる。したがって、オブジェクトと受聴者との距離が増加するほど空力音(第2空力音)の周波数成分の分布が低周波数側にシフトされるように空力音データが処理されることで、受聴者が受聴する仮想空間での空力音(第2空力音)は、受聴者が受聴する現実空間での空力音(第2空力音)に似た音となり、より具体的には、現実空間での空力音(第2空力音)が再現された音となる。このため、受聴者は違和感を覚え難く、受聴者は臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感を与えることができる。
 また、例えば、本開示の第36態様に係る音響信号処理方法は、前記第3処理ステップでは、前記受聴者の耳に到達したときの前記第1風の風速である耳到達風速に基づいて、前記空力音データを処理し、前記耳到達風速は、算出された前記距離が増加するほど、前記風速が減速する、第35態様に係る音響信号処理方法である。
 これにより、耳到達風速に基づいて、空力音データが処理されるため、受聴者が受聴する仮想空間での空力音(第2空力音)は、受聴者が受聴する現実空間での空力音(第2空力音)により似た音となる。このため、受聴者は違和感をより覚え難く、受聴者は臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感をより与えることができる。
 また、例えば、本開示の第37態様に係る音響信号処理方法は、前記耳到達風速は、算出された前記距離を前記単位距離で割った値のz乗で減衰する値である、第36態様に係る音響信号処理方法である。
 これにより、より正確な耳到達風速が算出されるため、受聴者が受聴する仮想空間での空力音(第2空力音)は、受聴者が受聴する現実空間での空力音(第2空力音)により似た音となる。このため、受聴者は違和感をより覚え難く、受聴者は臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感をより与えることができる。
 また、例えば、本開示の第38態様に係る音響信号処理方法は、前記zは、下記式を満たす、
 z=1
 第37態様に係る音響信号処理方法である。
 これにより、より正確な耳到達風速が算出されるため、受聴者が受聴する仮想空間での空力音(第2空力音)は、受聴者が受聴する現実空間での空力音(第2空力音)により似た音となる。このため、受聴者は違和感をより覚え難く、受聴者は臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感をより与えることができる。
 また、例えば、本開示の第39態様に係る音響信号処理方法は、前記第3処理ステップでは、前記空力音の前記周波数成分の分布を、前記代表風速を前記耳到達風速で割った値の逆数倍の周波数にシフトさせるように、前記空力音データを処理する、第36~第38態様のいずれか1つの態様に係る音響信号処理方法である。
 これにより、より正確な耳到達風速が算出されるため、受聴者が受聴する仮想空間での空力音(第2空力音)は、受聴者が受聴する現実空間での空力音(第2空力音)により似た音となる。このため、受聴者は違和感をより覚え難く、受聴者は臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感をより与えることができる。
 また、例えば、本開示の第40態様に係る情報生成方法は、仮想空間で吹く第2風の第2風向と、前記第2風の風速である第2想定風速とを取得する第6取得ステップと、取得された前記第2風向と、前記第2想定風速とが関連付けられた第5オブジェクトオーディオ情報を生成する第3生成ステップと、代表風速と、前記代表風速の風が前記仮想空間における受聴者の耳に到達することで生じる空力音を示す空力音データとを含む空力音コア情報を記憶する記憶ステップと、生成された前記第5オブジェクトオーディオ情報と、記憶されている前記空力音コア情報とを出力する第5出力ステップとを含む。
 これにより、第2風向と第2想定風速とが関連付けられた第5オブジェクトオーディオ情報を生成することができる。この第5オブジェクトオーディオ情報が音響信号処理方法で用いられた場合には、風の発生源が定まらない風(屋外に吹く自然な風)を再現することができ、空力音データが第2位置情報が示す位置に基づかずに処理されることで、受聴者が受聴する仮想空間での第2風による空力音(第2空力音)は、受聴者が受聴する現実空間での第2風による空力音(第2空力音)に似た音となり、より具体的には、現実空間での第2風による空力音(第2空力音)が再現された音となる。このため、受聴者は違和感を覚え難く、受聴者は臨場感を得ることができる。つまりは、情報生成方法は、受聴者に臨場感を与えることができる。
 また、例えば、本開示の第41態様に係る情報生成方法は、仮想空間で吹く第1風の発生位置と、前記第1風の第1風向と、前記第1風の風速である第1想定風速と、前記仮想空間で吹く第2風の第2風向と、前記第2風の風速である第2想定風速とを取得する第7取得ステップと、取得された前記発生位置と前記第1風向と前記第1想定風速とが関連付けられた第4オブジェクトオーディオ情報を生成し、かつ、取得された前記第2風向と前記第2想定風速とが関連付けられた第5オブジェクトオーディオ情報を生成する第4生成ステップと、生成された前記第4オブジェクトオーディオ情報と生成された前記第5オブジェクトオーディオ情報とを出力する第6出力ステップとを含む。
 これにより、発生位置と第1風向と第1想定風速とが関連付けられた第4オブジェクトオーディオ情報、及び、第2風向と第2想定風速とが関連付けられた第5オブジェクトオーディオ情報を生成することができるので、同一の仮想空間に、2種類の風、すなわち、風の発生源が特定できる風(扇風機、排気孔、風穴など)と風の発生源が特定できない風(自然に生じているそよ風、暴風など)とが生成されることができる。さらに、この第4オブジェクトオーディオ情報が音響信号処理方法で用いられた場合には、空力音データが第2位置情報が示す位置に基づいて処理されることで、受聴者が受聴する仮想空間での第1風による空力音(第2空力音)は、受聴者が受聴する現実空間での第1風による空力音(第2空力音)に似た音となり、より具体的には、現実空間での第1風による空力音(第2空力音)が再現された音となる。さらに、この第5オブジェクトオーディオ情報が音響信号処理方法で用いられた場合には、空力音データが第2位置情報が示す位置に基づかずに処理されることで、受聴者が受聴する仮想空間での第2風による空力音(第2空力音)は、受聴者が受聴する現実空間での第2風による空力音(第2空力音)に似た音となり、より具体的には、現実空間での第2風による空力音(第2空力音)が再現された音となる。このため、受聴者は違和感を覚え難く、受聴者は臨場感を得ることができる。つまりは、情報生成方法は、受聴者に臨場感を与えることができる。
 また、例えば、本開示の第42態様に係る情報生成方法は、前記第6出力ステップは、前記第1風の前記発生位置が前記仮想空間にある場合、生成された前記第4オブジェクトオーディオ情報を出力する、第41態様に係る情報生成方法である。
 これにより、情報生成方法は、発生位置に応じて第4オブジェクトオーディオ情報の出力の可否を判断することができる。
 また、例えば、本開示の第43態様に係る情報生成方法は、前記第6出力ステップは、前記第1風の前記発生位置が前記仮想空間にない場合、生成された前記第5オブジェクトオーディオ情報を出力する、第42態様に係る情報生成方法である。
 これにより、情報生成方法は、発生位置に応じて第5オブジェクトオーディオ情報の出力の可否を判断することができる。
 また、例えば、本開示の第44態様に係る情報生成方法は、代表風速と、前記代表風速の風が前記仮想空間における受聴者の耳に到達することで生じる空力音を示す空力音データとを含む空力音コア情報を記憶する記憶ステップを含み、前記第6出力ステップでは、記憶されている前記空力音コア情報を出力する、第43態様に係る情報生成方法である。
 これにより、出力された空力音コア情報が含む空力音データが音響信号処理方法で用いられた場合には、空力音コア情報を第1風、第2風に共通に適用できるので、空力音コア情報を格納するメモリ領域を少なくすることができ、しかも、受聴者が受聴する仮想空間での第1風による空力音(第2空力音)は受聴者が受聴する現実空間での第1風による空力音(第2空力音)に似た音となり、受聴者が受聴する仮想空間での第2風による空力音(第2空力音)は受聴者が受聴する現実空間での第2風による空力音(第2空力音)に似た音となる。このため、受聴者は違和感を覚え難く、受聴者は臨場感を得ることができる。つまりは、情報生成方法は、受聴者に臨場感を与えることができる。
 また、例えば、本開示の第45態様に係る情報生成方法は、風速と前記風速を表現する言葉とが紐づけられた画像を表示する表示ステップと、前記第1想定風速として表示された前記画像が示す前記風速を指定する第1操作を受付け、前記第2想定風速として表示された前記画像が示す前記風速を指定する第2操作を受付ける第3受付ステップとを含み、第44態様に係る情報生成方法である。
 これにより、ユーザに指定された風速を第1想定風速として、かつ、ユーザに指定された風速を第2想定風速として利用することができる。
 また、例えば、本開示の第43態様に係る音響信号処理方法は、前記仮想空間における前記受聴者の位置を示す第2位置情報と、第44態様に係る情報生成方法により出力された前記第4オブジェクトオーディオ情報又は前記第5オブジェクトオーディオ情報を取得する第8取得ステップと、前記第4オブジェクトオーディオ情報が取得された場合には、前記空力音コア情報が含む前記空力音データを取得された前記第2位置情報が示す前記位置に基づいて処理し、前記第5オブジェクトオーディオ情報が取得された場合には、前記空力音コア情報が含む前記空力音データを取得された前記第2位置情報が示す前記位置に基づかずに処理する第4処理ステップと、処理された前記空力音データを出力する第7出力ステップとを含む。
 これにより、第8取得ステップでは、第4オブジェクトオーディオ情報又は第5オブジェクトオーディオ情報を取得することができる。従って、空力音データが第2位置情報が示す位置に基づいて処理されることで、受聴者が受聴する仮想空間での第1風による空力音(第2空力音)は、受聴者が受聴する現実空間での第1風による空力音(第2空力音)に似た音となり、より具体的には、現実空間での第1風による空力音(第2空力音)が再現された音となる。さらに、空力音データが第2位置情報が示す位置に基づかずに処理されることで、受聴者が受聴する仮想空間での第2風による空力音(第2空力音)は、受聴者が受聴する現実空間での第2風による空力音(第2空力音)に似た音となり、より具体的には、現実空間での第2風による空力音(第2空力音)が再現された音となる。このため、受聴者は違和感を覚え難く、受聴者は臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者に臨場感を与えることができる。
 また、本開示の第47態様に係るコンピュータプログラムは、上記記載の音響信号処理方法をコンピュータに実行させるためのコンピュータプログラムである。
 これにより、コンピュータが、コンピュータプログラムに従って、上記の音響信号処理方法を実行することができる。
 また、本開示の第48態様に係るコンピュータプログラムは、上記記載の情報生成方法をコンピュータに実行させるためのコンピュータプログラムである。
 これにより、コンピュータが、コンピュータプログラムに従って、上記の情報生成方法を実行することができる。
 また、本開示の第49態様に係る音響信号処理装置は、仮想空間におけるオブジェクトの位置を示す第1位置情報と前記オブジェクトに起因する第1音を示す第1音データと前記第1音データに対する処理手段を示す第1識別情報とを含むオブジェクト情報、及び、前記仮想空間における前記第1音の受聴者の位置を示す第2位置情報を取得する第1取得部と、取得された前記オブジェクト情報が含む前記第1位置情報、及び、取得された前記第2位置情報に基づいて、前記オブジェクトと前記受聴者との距離を算出する第1算出部と、取得された前記オブジェクト情報が含む前記第1識別情報に基づいて、算出された前記距離に応じた音量の処理をする第1処理手段、及び、前記第1処理手段とは異なる態様で算出された前記距離に応じた音量の処理をする第2処理手段のうち、前記第1音データを処理する処理手段を決定する決定部と、決定された前記処理手段で前記第1音データを処理する第1処理部と、処理された前記第1音データを出力する第1出力部と、を備える。
 これにより、第1識別情報に応じて第1音の音量の処理手段が変更されることができるため、受聴者が受聴する仮想空間での第1音は、受聴者が受聴する現実空間での第1音に似た音となり、より具体的には、現実空間での第1音が再現された音となる。このため、受聴者は違和感を覚え難く、受聴者は臨場感を得ることができる。つまりは、音響信号処理装置は、受聴者に臨場感を与えることができる。
 さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
 以下、実施の形態について図面を参照しながら具体的に説明する。
 なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。
 また、以下の説明において、第1及び第2等の序数が要素に付けられている場合がある。これらの序数は、要素を識別するため、要素に付けられており、意味のある順序に必ずしも対応しない。これらの序数は、適宜、入れ替えられてもよいし、新たに付与されてもよいし、取り除かれてもよい。
 また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、各図において縮尺などは必ずしも一致していない。各図において、実質的に同一の構成に対しては同一の符号を付しており、重複する説明は省略又は簡略化する。
 本明細書において、垂直などの要素間の関係性を示す用語、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数%程度の差異をも含むことを意味する表現である。
 (実施の形態)
 [本開示の音響処理技術又は符号化/復号技術を適用可能な装置例]
 (立体音響再生システム)
 図5Bは、本開示の音響処理又は復号処理が適用可能なシステムの一例である立体音響(Immersive Audio)再生システムA0000を示す図である。立体音響再生システムA0000は、音響信号処理装置A0001と音声提示装置A0002とを含む。
 音響信号処理装置A0001は、仮想音源が発した音声信号に対して音響処理を施して、リスナ(つまりは受聴者)に対して提示される音響処理後の音声信号を生成する。音声信号は声に限らず可聴音であればよい。音響処理とは、例えば、音源から発生した音が、当該音が発せられてからリスナが聴くまでの間に受ける一又は複数の音に関する作用を再現するために音声信号に対して施される信号処理である。音響信号処理装置A0001は、上述した音に関する作用を引き起こす要因を記述した情報に基づいて音響処理を実施する。空間情報は、例えば、音源、リスナ、周囲のオブジェクトの位置を示す情報、空間の形状を示す情報、音の伝搬に関するパラメータなどを含む。音響信号処理装置A0001は、例えば、PC(Personal Computer)、スマートフォン、タブレット、またはゲームコンソールなどである。
 音響処理後の信号は、音声提示装置A0002からリスナ(ユーザ)に提示される。音声提示装置A0002は、無線又は有線の通信を介して音響信号処理装置A0001と接続されている。音響信号処理装置A0001で生成された音響処理後の音声信号は、無線または有線の通信を介して音声提示装置A0002に伝送される。音声提示装置A0002が、例えば、右耳用のデバイスと左耳用のデバイスなど複数のデバイスで構成されている場合、複数のデバイス間または複数のデバイスのそれぞれと音響信号処理装置A0001が通信することで、複数のデバイスは同期して音を提示する。音声提示装置A0002は、例えば、リスナの頭部に装着されるヘッドフォン、イヤホン、ヘッドマウントディスプレイ、または固定された複数のスピーカで構成されたサラウンドスピーカーなどである。
 なお、立体音響再生システムA0000は、視覚的にAR/VRを含むER(Extended Reality)体験を提供する画像提示装置又は立体映像提示装置と組み合わせて用いられてもよい。
 なお、図5Bは、音響信号処理装置A0001と音声提示装置A0002とが別々の装置であるシステム構成例を示しているが、本開示の音響信号処理方法または復号方法が適用可能な立体音響再生システムは図5Bの構成に限定されない。例えば、音響信号処理装置A0001が音声提示装置A0002に含まれ、音声提示装置A0002が音響処理と音の提示との両方を行ってもよい。また、音響信号処理装置A0001と音声提示装置A0002とが本開示で説明する音響処理を分担して実施してもよいし、音響信号処理装置A0001又は音声提示装置A0002とネットワークを介して接続されたサーバが本開示で説明する音響処理の一部又は全体を実施してもよい。
 なお、上記説明では、音響信号処理装置A0001と呼んでいるが、音響信号処理装置A0001が音声信号又は音響処理に用いる空間情報の少なくとも一部のデータを符号化して生成されたビットストリームを復号して音響処理を実施する場合、音響信号処理装置A0001は復号装置と呼ばれてもよい。
 (符号化装置の例)
 図5Cは、本開示の符号化装置の一例である符号化装置A0100の構成を示す機能ブロック図である。
 入力データA0101はエンコーダA0102に入力される空間情報及び/又は音声信号を含む符号化対象となるデータである。空間情報の詳細については後で説明する。
 エンコーダA0102は、入力データA0101を符号化して、符号化データA0103を生成する。符号化データA0103は、例えば、符号化処理によって生成されたビットストリームである。
 メモリA0104は、符号化データA0103を格納する。メモリA0104は、例えば、ハードディスク又はSSD(Solid-State Drive)であってもよいし、その他のメモリであってもよい。
 なお、上記説明ではメモリA0104に記憶される符号化データA0103の一例として符号化処理によって生成されたビットストリームを挙げたが、ビットストリーム以外のデータであってもよい。例えば、符号化装置A0100は、ビットストリームを所定のデータフォーマットに変換して生成された変換後のデータをメモリA0104に記憶してもよい。変換後のデータは、例えば、一又は複数のビットストリームを格納したファイル又は多重化ストリームであってもよい。ここで、ファイルは、例えばISOBMFF(ISO Base Media File Formatなどのファイルフォーマットを有するファイルである。また、符号化データA0103は、上記のビットストリーム又はファイルを分割して生成された複数のパケットの形式であってもよい。エンコーダA0102で生成されたビットストリームをビットストリームとは異なるデータに変換する場合、符号化装置A0100は、図示されていない変換部を備えていてもよいし、CPU(Central Processing Unitで変換処理を行ってもよい。
 (復号装置の例)
 図5Dは、本開示の復号装置の一例である復号装置A0110の構成を示す機能ブロック図である。
 メモリA0114は、例えば、符号化装置A0100で生成された符号化データA0103と同じデータを格納している。メモリA0114は、保存されているデータを読み出し、デコーダA0112の入力データA0113として入力する。入力データA0113は、例えば、復号対象となるビットストリームである。メモリA0114は、例えば、ハードディスク又はSSDであってもよいし、その他のメモリであってもよい。
 なお、復号装置A0110は、メモリA0114が記憶しているデータをそのまま入力データA0113とするのではなく、読み出したデータを変換して生成された変換後のデータを入力データA0113としてもよい。変換前のデータは、例えば、一又は複数のビットストリームを格納した多重化データであってもよい。ここで、多重化データは、例えばISOBMFFなどのファイルフォーマットを有するファイルであってもよい。また、変換前のデータは、上記のビットストリーム又はファイルを分割して生成された複数のパケットの形式であってもよい。メモリA0114から読み出したビットストリームとは異なるデータをビットストリームに変換する場合、復号装置A0110は、図示されていない変換部を備えていてもよいし、CPUで変換処理を行ってもよい。
 デコーダA0112は、入力データA0113を復号して、リスナに提示される音声信号A0111を生成する。
 (符号化装置の別の例)
 図5Eは、本開示の符号化装置の別の一例である符号化装置A0120の構成を示す機能ブロック図である。図5Eでは、図5Cの構成と同じ機能を有する構成に図5Cの構成と同じ符号を付しており、これらの構成については説明を省略する。
 符号化装置A0100は符号化データA0103をメモリA0104に記憶していたのに対し、符号化装置A0120は符号化データA0103を外部に対して送信する送信部A0121を備える点で符号化装置A0100と異なる。
 送信部A0121は、符号化データA0103又は符号化データA0103を変換して生成した別のデータ形式のデータに基づいて送信信号A0122を別の装置又はサーバに対して送信する。送信信号A0122の生成に用いられるデータは、例えば、符号化装置A0100で説明したビットストリーム、多重化データ、ファイル、又はパケットである。
 (復号装置の別の例)
 図5Fは、本開示の復号装置の別の一例である復号装置A0130の構成を示す機能ブロック図である。図5Fでは、図5Dの構成と同じ機能を有する構成に図5Dの構成と同じ符号を付しており、これらの構成については説明を省略する。
 復号装置A0110は入力データA0113をメモリA0114から読み出していたのに対し、復号装置A0130は入力データA0113を外部から受信する受信部A0131を備える点で復号装置A0110と異なる。
 受信部A0131は、受信信号A0132を受信して受信データを取得し、デコーダA0112に入力される入力データA0113を出力する。受信データは、デコーダA0112に入力される入力データA0113と同じであってもよいし、入力データA0113とは異なるデータ形式のデータであってもよい。受信データが、入力データA0113と異なるデータ形式のデータの場合、受信部A0131が受信データを入力データA0113に変換してもよいし、復号装置A0130が備える図示されていない変換部又はCPUが受信データを入力データA0113に変換してもよい。受信データは、例えば、符号化装置A0120で説明したビットストリーム、多重化データ、ファイル、又はパケットである。
 (デコーダの機能説明)
 図5Gは、図5D又は図5FにおけるデコーダA0112の一例であるデコーダA0200の構成を示す機能ブロック図である。
 入力データA0113は符号化されたビットストリームであり、符号化された音声信号である符号化音声データと音響処理に用いるメタデータとを含んでいる。
 空間情報管理部A0201は、入力データA0113に含まれるメタデータを取得して、メタデータを解析する。メタデータは、音空間に配置された音に作用する要素を記述した情報を含む。空間情報管理部A0201は、メタデータを解析して得られた音響処理に必要な空間情報を管理し、レンダリング部A0203に対して空間情報を提供する。なお、本開示では音響処理に用いる情報が空間情報と呼ばれているが、それ以外の呼び方であってもよい。当該音響処理に用いる情報は、例えば、音響処理に用いる情報を音空間情報と呼ばれてもよいし、シーン情報と呼ばれてもよい。また、音響処理に用いる情報が経時的に変化する場合、レンダリング部A0203に入力される空間情報は、空間状態、音空間状態、シーン状態などと呼ばれてもよい。
 また、空間情報は音空間ごと又はシーンごとに管理されていてもよい。例えば、異なる部屋を仮想空間として表現する場合、それぞれの部屋が異なる音空間のシーンとして管理されてもよいし、同じ空間であっても表現する場面に応じて異なるシーンとして空間情報が管理されてもよい。空間情報の管理において、それぞれの空間情報を識別する識別子が付与されておいてもよい。空間情報のデータは、入力データの一形態であるビットストリームに含まれていてもよいし、ビットストリームが空間情報の識別子を含み、空間情報のデータはビットストリーム以外から取得してもよい。ビットストリームに空間情報の識別子のみが含まれる場合、レンダリング時に空間情報の識別子を用いて、音響信号処理装置A0001のメモリ又は外部のサーバに記憶された空間情報のデータが入力データとして取得されてもよい。
 なお、空間情報管理部A0201が管理する情報は、ビットストリームに含まれる情報に限定されない。例えば、入力データA0113は、ビットストリームには含まれないデータとして、VR又はARを提供するソフトウェアアプリケーション又はサーバから取得された空間の特性又は構造を示すデータを含んでいてもよい。また、例えば、入力データA0113は、ビットストリームには含まれないデータとして、リスナ又はオブジェクトの特性又は位置などを示すデータを含んでいてもよい。また、入力データA0113は、リスナの位置を示す情報として復号装置を含む端末が備えるセンサで取得された情報、又は、センサで取得された情報に基づいて推定された端末の位置を示す情報を含んでいてもよい。つまり、空間情報管理部A0201は外部のシステム又はサーバと通信し、空間情報及びリスナの位置を取得してもよい。また、空間情報管理部A0201が外部のシステムからクロック同期情報を取得し、レンダリング部A0203のクロックと同期する処理を実行してもよい。なお、上記の説明における空間は、仮想的に形成された空間、つまりVR空間であってもよいし、実空間(つまりは現実空間)又は実空間に対応する仮想空間、つまりAR空間又はMR(Mixed Reality)空間であってもよい。また、仮想空間は音場又は音空間と呼ばれてもよい。また、上記の説明における位置を示す情報は、空間内における位置を示す座標値などの情報であってもよいし、所定の基準位置に対する相対位置を示す情報であってもよいし、空間内の位置の動き又は加速度を示す情報であってもよい。
 音声データデコーダA0202は、入力データA0113に含まれる符号化音声データを復号して、音声信号を取得する。
 立体音響再生システムA0000が取得する符号化音声データは、例えば、MPEG-H 3D Audio(ISO/IEC 23008-3)等の所定の形式で符号化されたビットストリームである。なお、MPEG-H 3D Audioはあくまでビットストリームに含まれる符号化音声データを生成する際に利用可能な符号化方式の一例であり、他の符号化方式で符号化されたビットストリームと符号化音声データとして含んでいてもよい。例えば、用いられる符号化方式は、MP3(MPEG-1 Audio Layer-3)、AAC(Advanced Audio Coding)、WMA(Windows Media Audio)、AC3(Audio Codec―3)、Vorbisなどの非可逆コーデックであってもよいし、ALAC(Apple Lossless Audio Codec)、FLAC(Free Lossless Audio Codec)などの可逆コーデックであってもよいし、上記以外の任意の符号化方式が用いられてもよい。例えば、PCM(pulse code modulation)データが符号化音声データの一種であるとしてもよい。この場合、復号処理は、例えば、当該PCMデータの量子化ビット数がNである場合、Nビットの二進数を、レンダリング部A0203が処理できる数形式(例えば浮動小数点形式)に変換する処理としてもよい。
 レンダリング部A0203は、音声信号と空間情報とを入力とし、空間情報を用いて音声信号に音響処理を施して、音響処理後の音声信号A0111を出力する。
 空間情報管理部A0201は、レンダリングを開始する前に、入力信号のメタデータを読み込み、空間情報で規定されたオブジェクト又は音などのレンダリングアイテムを検出し、レンダリング部A0203に送信する。レンダリング開始後、空間情報管理部A0201は、空間情報及びリスナの位置の経時的な変化を把握し、空間情報を更新して管理する。そして、空間情報管理部A0201は、更新された空間情報をレンダリング部A0203に送信する。レンダリング部A0203は入力データに含まれる音声信号と、空間情報管理部A0201から受信した空間情報とに基づいて音響処理を付加した音声信号を生成し出力する。
 空間情報の更新処理と、音響処理を付加した音声信号の出力処理とが同じスレッドで実行されてもよいし、空間情報管理部A0201とレンダリング部A0203とはそれぞれ独立したスレッドに配分してもよい。空間情報の更新処理と、音響処理を付加した音声信号の出力処理とが異なるスレッドで処理される場合、スレッドの起動頻度が個々に設定されてもよいし、平行して処理が実行されてもよい。
 空間情報管理部A0201とレンダリング部A0203とが異なる独立したスレッドで処理を実行することで、レンダリング部A0203に優先的に演算資源を割り当てることができるので、僅かな遅延も許容できないような出音処理の場合、例えば、1サンプル(0.02msec)でも遅延した場合にプチっというノイズが発生するような出音処理であっても安全に実施することができる。その際、空間情報管理部A0201には演算資源の割り当てが制限される。しかし、空間情報の更新は、音声信号の出力処理と比較して、低頻度の処理(例えば、受聴者の顔の向きの更新のような処理)である。このため、音声信号の出力処理のように必ずしも瞬間的に応答しなければならないというものではないので、演算資源の割り当てを制限しても受聴者の与える音響的な品質に大きな影響はない。
 空間情報の更新は、予め設定された時間又は期間ごとに定期的に実行されてもよいし、予め設定された条件が満たされた場合に実行されてもよい。また、空間情報の更新は、リスナ又は音空間の管理者によって手動で実行されてもよいし、外部システムの変化をトリガとして実行されてもよい。例えば、受聴者がコントローラーを操作して、自身のアバターの立ち位置を瞬間的にワープしたり、時刻を瞬時に進めたり戻したり、或いは、仮想空間の管理者が、突如、場の環境を変更するような演出を施したりした場合、空間情報管理部A0201が配置されたスレッドは、定期的な起動に加えて、単発的な割り込み処理として起動されてもよい。
 空間情報の更新処理を実行する情報更新スレッドが担う役割は、例えば、受聴者が装着しているVRゴーグルの位置又は向きに基づいて、仮想空間内に配置された受聴者のアバターの位置又は向きを更新する処理、及び、仮想空間内を移動している物体の位置の更新などであり、数10Hz程度の比較的低頻度で起動する処理スレッド内で賄われるものである。そのような、発生頻度の低い処理スレッドで直接音の性質を反映させる処理が行われるようにしてもよい。それは、オーディオ出力のためのオーディオ処理フレームの発生頻度より直接音の性質が変動する頻度が低いためである。むしろそうすることで、当該処理の演算負荷を相対的に小さくすることができるし、不必要に速い頻度で情報を更新するとパルシブなノイズが発生するリスクが生じるので、そのリスクを回避することもできる。
 図5Hは、図5D又は図5FにおけるデコーダA0112の別の一例であるデコーダA0210の構成を示す機能ブロック図である。
 図5Hは、入力データA0113が、符号化音声データではなく符号化されていない音声信号を含んでいる点で図5Gと異なる。入力データA0113は、メタデータを含むビットストリームと音声信号を含む。
 空間情報管理部A0211は、図5Gの空間情報管理部A0201と同じであるため説明を省略する。
 レンダリング部A0213は、図5Gのレンダリング部A0203と同じであるため説明を省略する。
 なお、上記説明では図5Hの構成がデコーダと呼ばれているが、音響処理を実施する音響処理部と呼ばれてもよい。また、音響処理部を含む装置が復号装置ではなく音響処理装置と呼ばれてもよい。また、音響信号処理装置A0001が音響処理装置と呼ばれてもよい。
 (音響信号処理装置の物理的構成)
 図5Iは、音響信号処理装置の物理的構成の一例を示す図である。なお、図5Iの音響信号処理装置は、復号装置であってもよい。また、ここで説明する構成の一部は音声提示装置A0002に備えられていてもよい。また、図5Iに示される音響信号処理装置は、上記の音響信号処理装置A0001の一例である。
 図5Iの音響信号処理装置は、プロセッサと、メモリと、通信IFと、センサと、スピーカとを備える。
 プロセッサは、例えば、CPU(Central Processing Unit又はDSP(Digital Signal Processor)又はGPU(Graphics Processing Unit)であり、当該CPU又はDSP又はGPUがメモリに記憶されたプログラム実行することで本開示の音響処理又はデコード処理を実施してもよい。また、プロセッサは、本開示の音響処理を含む音声信号に対する信号処理を行う専用回路であってもよい。
 メモリは、例えば、RAM(Random Access Memory)又はROM(Read Only Memory)で構成される。メモリは、ハードディスクなどの磁気記憶媒体又はSSD(Solid State Drive)などの半導体メモリなどを含んでいてもよい。また、CPU又はGPUに組み込まれた内部メモリを含めてメモリと呼ばれてもよい。
 通信IF(Inter Face)は、例えば、Bluetooth(登録商標)又はWIGIG(登録商標)などの通信方式に対応した通信モジュールである。図5Iに示される音響信号処理装置は、通信IFを介して他の通信装置と通信を行う機能を有し、復号対象のビットストリームを取得する。取得したビットストリームは、例えば、メモリに格納される。
 通信モジュールは、例えば、通信方式に対応した信号処理回路とアンテナとで構成される。上記の例では、通信方式としてBluetooth(登録商標)又はWIGIG(登録商標)を例に挙げたが、LTE(Long Term Evolution)、NR(New Radio)、又はWi-Fi(登録商標)などの通信方式に対応していてもよい。また、通信IFは、上記のような無線通信方式ではなく、Ethernet(登録商標)、USB(Universal Serial Bus)、HDMI(登録商標)(High-Definition Multimedia Interface)などの有線の通信方式であってもよい。
 センサは、リスナの位置又は向きを推定するためのセンシングを行う。具体的には、センサは、リスナの頭部など身体の一部又は全体の位置、向き、動き、速度、角速度、又は加速度などのうちいずれか一つ又は複数の検出結果に基づいてリスナの位置及び/又は向きを推定し、リスナの位置及び/又は向きを示す位置情報を生成する。なお、位置情報は実空間におけるリスナの位置及び/又は向きを示す情報であってもよいし、所定の時点におけるリスナの位置及び/又は向きを基準としたリスナの位置及び/又は向きの変位を示す情報であってもよい。また、位置情報は、立体音響再生システム又はセンサを備える外部装置との相対的な位置及び/又は向きを示す情報であってもよい。
 センサは、例えば、カメラなどの撮像装置又はLiDAR(Light Detection And Ranging)などの測距装置であってもよく、リスナの頭部の動きを撮像し、撮像された画像を処理することでリスナの頭部の動きを検知してもよい。また、センサとして例えばミリ波などの任意の周波数帯域の無線を用いて位置推定を行う装置を用いてもよい。
 なお、図5Iに示される音響信号処理装置は、センサを備える外部の機器から通信IFを介して位置情報を取得してもよい。この場合、音響信号処理装置はセンサを含んでいなくてもよい。ここで、外部の機器とは、例えば図5Bで説明した音声提示装置A0002又は、リスナの頭部に装着される立体映像再生装置などである。このときセンサは、例えば、ジャイロセンサ及び加速度センサなど各種のセンサを組み合わせて構成される。
 センサは、例えば、リスナの頭部の動きの速度として、音空間内で互いに直交する3軸の少なくとも1つを回転軸とする回転の角速度を検知してもよいし、上記3軸の少なくとも1つを変位方向とする変位の加速度を検知してもよい。
 センサは、例えば、リスナの頭部の動きの量として、音空間内で互いに直交する3軸の少なくとも1つを回転軸とする回転量を検知してもよいし、上記3軸の少なくとも1つを変位方向とする変位量を検知してもよい。具体的には、センサは、リスナの位置として6DoF(位置(x、y、z)及び角度(yaw、pitch、roll)を検知する。センサは、ジャイロセンサ及び加速度センサなど動きの検知に使用される各種のセンサを組み合わせて構成される。
 なお、センサは、リスナの位置を検出できればよく、カメラ又はGPS(Global Positioning System)受信機などにより実現されてもよい。LiDAR(Laser Imaging Detection and Ranging)等を用いて自己位置推定を実施して得られた位置情報を用いてもよい。例えば、センサは、音声信号再生システムがスマートフォンにより実現される場合には、スマートフォンに内蔵される。
 また、センサには、図5Iに示される音響信号処理装置の温度を検出する熱電対などの温度センサ、及び、音響信号処理装置が備える、又は音響信号処理装置と接続されたバッテリの残量を検出するセンサなどが含まれていてもよい。
 スピーカは、例えば、振動板と、マグネット又はボイスコイル等の駆動機構とアンプとを有し、音響処理後の音声信号を音としてリスナに提示する。スピーカは、アンプを介して増幅させた音声信号(より具体的には、音の波形を示す波形信号)に応じて駆動機構を動作させ、駆動機構によって振動板を振動させる。このようにして、音声信号に応じて振動する振動板は、音波を発生させ、音波が空気を伝搬してリスナの耳に伝達し、リスナが音を知覚する。
 なお、ここでは図5Iに示される音響信号処理装置がスピーカを備え、当該スピーカを介して音響処理後の音声信号を提示する場合を例に挙げて説明したが、音声信号の提示手段は上記の構成に限定されない。例えば、通信モジュールで接続された外部の音声提示装置A0002に音響処理後の音声信号が出力されてもよい。通信モジュールで行う通信は有線でも無線でもよい。また別の例として、図5Iに示される音響信号処理装置が音声のアナログ信号を出力する端子を備え、端子にイヤホンなどのケーブルを接続してイヤホンなどから音声信号を提示してもよい。上記の場合、音声提示装置A0002であるリスナの頭部又は体の一部に装着されるヘッドフォン、イヤホン、ヘッドマウントディスプレイ、ネックスピーカー、ウェアラブルスピーカー、又は固定された複数のスピーカで構成されたサラウンドスピーカーなどが音声信号を再生する。
 (符号化装置の物理的構成)
 図5Jは、符号化装置の物理的構成の一例を示す図である。また、図5Jに示される符号化装置は、上記の符号化装置A0100及びA0120などの一例である。
 図5Jの符号化装置は、プロセッサと、メモリと、通信IFとを備える。
 プロセッサは、例えば、CPU(Central Processing Unit又はDSP(Digital Signal Processor)であり、当該CPU又はGPUがメモリに記憶されたプログラム実行することで本開示の符号化処理を実施してもよい。また、プロセッサは、本開示の符号化処理を含む音声信号に対する信号処理を行う専用回路であってもよい。
 メモリは、例えば、RAM(Random Access Memory)又はROM(Read Only Memory)で構成される。メモリは、ハードディスクなどの磁気記憶媒体又はSSD(Solid State Drive)などの半導体メモリなどを含んでいてもよい。また、CPU又はGPUに組み込まれた内部メモリを含めてメモリと呼ばれてもよい。
 通信IF(Inter Face)は、例えば、Bluetooth(登録商標)又はWIGIG(登録商標)などの通信方式に対応した通信モジュールである。符号化装置は、通信IFを介して他の通信装置と通信を行う機能を有し、符号化されたビットストリームを送信する。
 通信モジュールは、例えば、通信方式に対応した信号処理回路とアンテナとで構成される。上記の例では、通信方式としてBluetooth(登録商標)又はWIGIG(登録商標)を例に挙げたが、LTE(Long Term Evolution)、NR(New Radio)、又はWi-Fi(登録商標)などの通信方式に対応していてもよい。また、通信IFは、上記のような無線通信方式ではなく、Ethernet(登録商標)、USB(Universal Serial Bus)、HDMI(登録商標)(High-Definition Multimedia Interface)などの有線の通信方式であってもよい。
 [構成]
 まず、実施の形態に係る音響信号処理装置100の構成について説明する。図6は、本実施の形態に係る音響信号処理装置100の機能構成を示すブロック図である。
 本実施の形態に係る音響信号処理装置100は、仮想空間(音再生空間)におけるオブジェクトに起因する第1音を示す第1音データを処理して出力するための装置である。本実施の形態に係る音響信号処理装置100は、一例として仮想現実又は拡張現実(VR/AR)などの仮想空間における様々なアプリケーションに応用される装置である。
 仮想空間におけるオブジェクトは、当該仮想空間内で実行されるコンテンツ(ここでは一例として映像)を表示する表示部30に表示される当該コンテンツに含まれるものであれば、特に限定されない。当該オブジェクトは、移動体であり、例えば、動植物、人工物又は自然物などを示すオブジェクトを含む。人工物を示すオブジェクトの例として、車両、自転車及び航空機などが挙げられる。また、人工物を示すオブジェクトの例として、野球用のバット及びテニス用のラケットなどのスポーツ用品と、机、椅子、扇風機及び柱時計などの家具と、集合住宅及び商業施設などの建築物と、などが挙げられる。なお、オブジェクトは、一例としては、当該コンテンツ内にて移動し得るもの、及び、移動され得るもののうち少なくとも一方であるとよいがこれに限られない。なお、図3及び図4Aが示す扇風機Fが床に設置され、扇風機F自体が移動しなくても、扇風機Fの羽根が移動(回転)する。このような扇風機Fも、当該オブジェクトに含まれる。
 第1音は、オブジェクトに起因する音である。例えば、第1音は、オブジェクトが発生させる音である。第1音は、より具体的には、以下の通りである。
 本実施の形態に係る第1音の一例は、仮想空間内において、オブジェクトの移動にともない生じる空力音(風切り音)であり、第1空力音である。風切り音は、風Wがオブジェクトに衝突することによって生じる空気の渦列を示す音である。
 本実施の形態に係る第1音の一例は、仮想空間内において、オブジェクトから放射された風Wが受聴者Lの耳に到達することで生じる空力音(第2空力音)である。第2空力音は、オブジェクトである扇風機Fによる風Wが受聴者Lに達した場合に、例えば受聴者Lの耳の形状に応じて生じる音である。より具体的には、第2空力音とは、当該オブジェクトの移動による空気の移動によって生じる風Wに起因する音である。
 音響信号処理装置100は、仮想空間における第1音を示す第1音データを生成して、ヘッドフォン20に出力する。
 次に、ヘッドフォン20について説明する。
 ヘッドフォン20は、第1音を再生する装置であり、音声出力装置である。より具体的には、ヘッドフォン20は、音響信号処理装置100によって出力された第1音データに基づいて、第1音を再生する。これにより受聴者Lは、第1音を受聴することができる。なお、ヘッドフォン20にかえて、スピーカなど他の出力チャンネルが用いられてもよい。
 図6が示すように、ヘッドフォン20は、頭部センサ部21と、出力部22とを備える。
 頭部センサ部21は、仮想空間における水平面の座標及び垂直方向の高さで定められる受聴者Lの位置をセンシングして、仮想空間における第1音の受聴者Lの位置を示す第2位置情報を音響信号処理装置100に出力する。
 頭部センサ部21は、受聴者Lの頭部の6DoF(Degrees of Freedom)の情報をセンシングするとよい。例えば、頭部センサ部21は、慣性測定ユニット(IMU:Inertial Measurement Unit)、加速度計、ジャイロスコープ、磁気センサ又はこれらの組合せであるとよい。
 出力部22は、音再生空間において受聴者Lに到達する音を再生する装置である。より具体的には、出力部22は、音響信号処理装置100によって処理されかつ音響信号処理装置100から出力された上記第1音を示す第1音データに基づいて、上記第1音を再生する。
 続いて、表示部30について説明する。
 表示部30は、仮想空間におけるオブジェクトを含むコンテンツ(映像)を表示する表示装置である。表示部30がコンテンツを表示するための処理については、後述する。表示部30は、例えば、液晶パネル又は有機EL(Electro Luminescence)パネルなどの表示パネルによって実現される。
 さらに、図6が示す音響信号処理装置100について説明する。
 図6が示すように、音響信号処理装置100は、第1取得部110と、第1算出部120と、決定部130と、第1処理部140と、第1出力部150と、第1受付部160と、記憶部170とを備える。
 第1取得部110は、オブジェクト情報及び第2位置情報を取得する。オブジェクト情報は、仮想空間におけるオブジェクトの位置を示す第1位置情報と、オブジェクトに起因する第1音を示す第1音データと、第1音データに対する処理手段を示す第1識別情報とを含む情報であり、つまりは、オブジェクトに関する情報である。なお、オブジェクト情報には、オブジェクトの形状を示す形状情報が含まれていてもよい。第2位置情報とは、上記の通り、仮想空間における受聴者Lの位置を示す情報である。第1取得部110は、例えば入力信号から、オブジェクト情報及び第2位置情報を取得してもよいし、それ以外からオブジェクト情報及び第2位置情報を取得してもよい。入力信号については、下記で説明する。
 入力信号は、例えば、空間情報とセンサ情報と音データ(音声信号)とで構成される。また、上記の情報と音データとは1つの入力信号に含まれていてもよいし、複数の別々の信号に上述の情報と音データとが含まれていてもよい。入力信号は、音データとメタデータ(制御情報)とで構成されるビットストリームを含んでいてもよく、その場合メタデータに空間情報及び音データを識別する情報が含まれていてもよい。
 上記で説明した、第1位置情報、第2位置情報、形状情報、及び、可否情報は入力信号に含まれていてもよい。より具体的には、第1情報、形状情報、及び、可否情報は空間情報に含まれていてもよく、第2情報はセンサ情報から取得される情報に基づいて生成されてもよい。センサ情報は、頭部センサ部21から取得されてもよく、他の外部装置から取得されてもよい。
 空間情報は、立体音響再生システムが作り出す音空間(三次元音場)に関する情報であって、音空間に含まれるオブジェクトに関する情報とリスナに関する情報とで構成される。オブジェクトには、音を発し音源となる音源オブジェクトと、音を発しない非発音オブジェクトとが存在する。非発音オブジェクトは、音源オブジェクトが発した音を反射する障害物オブジェクトとして機能するが、音源オブジェクトが別の音源オブジェクトが発した音を反射する障害物オブジェクトとして機能する場合もある。障害物オブジェクトは反射オブジェクトと呼ばれてもよい。
 音源オブジェクトと非発音オブジェクトとに共通して付与される情報として、位置情報、形状情報、及び、オブジェクトが音を反射する際の音量の減衰率などがある。
 位置情報は、ユークリッド空間の例えばX軸、Y軸、Z軸の3軸の座標値で表されるが、必ずしも三次元情報でなくてもよい。位置情報は、例えば、X軸、Y軸の2軸の座標値で表される二次元情報であってもよい。オブジェクトの位置情報は、メッシュ又はボクセルで表現される形状の代表位置で定められる。
 形状情報は、表面の素材に関する情報を含んでいてもよい。
 減衰率は、1以下又は0以上の実数で表現してもよいし、マイナスのデシベル値で表現してもよい。実空間では反射によって音量が増幅することはないため、減衰率はマイナスのデシベル値が設定されるが、例えば、非現実空間の不気味さを演出するために、あえて1以上の減衰率、すなわち、プラスのデシベル値が設定されてもよい。また、減衰率は、複数の周波数帯域を構成する周波数帯域毎に異なる値が設定されてもよいし、周波数帯域毎に独立に値が設定されてもよい。また、減衰率がオブジェクト表面の素材の種類ごとに設定されている場合、表面の素材に関する情報に基づいて対応する減衰率の値が用いられてもよい。
 また、音源オブジェクトと非発音オブジェクトとに共通して付与される情報は、オブジェクトが生物に属するか否かを示す情報又は、オブジェクトが動体であるか否かを示す情報などを含んでいてもよい。オブジェクトが動体である場合、位置情報は時間とともに移動してもよく、変化した位置情報又は変化量がレンダリング部A0203及びA0213に伝送される。
 音源オブジェクトに関する情報は、上述した音源オブジェクトと非発音オブジェクトとに共通して付与される情報に加えて、音データと音データを音空間内に放射するために必要な情報とを含む。音データは、音の周波数及び強弱に関する情報などを示す、リスナに知覚される音が表現されたデータである。音データは、典型的にはPCM信号であるが、MP3等の符号化方式を用いて圧縮されたデータであってもよい。その場合は、少なくとも当該信号が生成部(図40で後述する生成部907)に到達するまでに復号化される必要があるため、レンダリング部A0203及びA0213に図示しない復号部を含んでいてもよい。或いは、当該信号は、音声データデコーダA0202で復号化してもよい。
 1つの音源オブジェクトに対して少なくとも1つの音データが設定されていればよく、複数の音データが設定されていてもよい。また、それぞれの音データを識別する識別情報が付与され、音源オブジェクトに関する情報として、音データの識別情報がメタデータとして保持されてもよい。
 音データを音空間内に放射するために必要な情報として、例えば、音データを再生する際に基準となる基準音量の情報、音源オブジェクトの位置に関する情報、音源オブジェクトの向きに関する情報、及び、音源オブジェクトが発する音の指向性に関する情報などが含まれていてもよい。
 基準音量の情報は、例えば、音データを音空間に放射する際の音源位置における音データの振幅値の実効値であって、デシベル(db)値として浮動小数点で表されてもよい。例えば基準音量が0dbの場合、基準音量の情報は、音データが示す信号レベルの音量を増減させることなくそのままの音量で上記位置に関する情報が指し示す位置から音空間に対して音を放射することを示しているものとしてもよい。基準音量の情報は、-6dbの場合、音データが示す信号レベルの音量を約半分にして上記位置に関する情報が指し示す位置から音空間に対して音を放射することを示しているものとしてもよい。基準音量の情報は、1つの音データに対して又は複数の音データに対してまとめて付与されてもよい。
 音データを音空間内に放射するために必要な情報に含まれる音量の情報として、例えば、音源の音量の時系列的な変動を示す情報が含まれていてもよい。例えば、音空間が仮想会議室であり、音源が話者である場合、音量は短い時間で断続的に遷移する。それをさらに単純に表現すれば、有音部分と無音部分とが交互に発生する、とも言える。また、音空間がコンサートホールであり、音源が演奏者である場合、音量は一定の時間長維持される。また、音空間が戦場であり、音源が爆発物である場合、爆発音の音量は一瞬だけ大となり以降は無音であり続ける。このように音源の音量の情報は、音の大きさの情報のみならず、音の大きさの遷移の情報を含むものであり、そのような情報を音データの性質を示す情報としてもよい。
 ここで、音の大きさの遷移の情報は、周波数特性を時系列に示したデータであってもよい。音の大きさの遷移の情報は、有音である区間の継続時間長を示したデータであってもよい。音の大きさの遷移の情報は、有音である区間の継続時間長と無音である区間の時間長との時系列を示したデータであってもよい。音の大きさの遷移の情報は、音信号の振幅が定常的であるとみなせる(概ね一定であるとみなせる)継続時間とその間の当該信号の振幅値のデータとを複数組時系列で列挙したデータなどであってもよい。音の大きさの遷移の情報は、音信号の周波数特性が定常的であるとみなせる継続時間のデータであってもよい。音の大きさの遷移の情報は、音信号の周波数特性が定常的であるとみなせる継続時間とその間の当該周波数特性のデータとを複数組時系列で列挙したデータなどであってもよい。音の大きさの遷移の情報は、データの形式として例えば、スペクトログラムの概形を示すデータであってもよい。また、上記周波数特性の基準となる音量を上記基準音量としてもよい。基準音量の情報と音データの性質とを示す情報は、リスナに知覚させる直接音又は反射音の音量を算出する他、リスナに知覚させるか否か選択をするための選択処理に用いられてもよい。
 向きに関する情報は、典型的には、yaw、pitch、rollで表現される。または、rollの回転を省略し、アジマス(yaw)、エレベーション(pitch)で表現してもよい。向き情報は時間とともに変化してもよく、変化した場合、レンダリング部A0203及びA0213に伝送される。
 リスナに関する情報は、音空間におけるリスナの位置情報と向きとに関する情報である。位置情報はユークリッド空間のXYZ軸の位置で表されるが、必ずしも三次元情報でなくてもよく、二次元情報であってもよい。向きに関する情報は、典型的には、yaw、pitch、rollで表現される。または、向きに関する情報は、rollの回転を省略し、アジマス(yaw)、エレベーション(pitch)で表現してもよい。位置情報と向き情報とは時間とともに変化してもよく、変化した場合、レンダリング部A0203及びA0213に伝送される。
 センサ情報は、リスナが装着するセンサで検知された回転量又は変位量等とリスナの位置及び向きとを含む情報である。センサ情報はレンダリング部A0203及びA0213に伝送され、レンダリング部A0203及びA0213はセンサ情報に基づいてリスナの位置及び向きの情報を更新する。センサ情報は、例えば携帯端末がGPS、カメラ、又はLiDAR(Laser Imaging Detection and Ranging)等を用いて自己位置推定を実施して得られた位置情報が用いられてもよい。またセンサ以外から、通信モジュールを通じて外部から取得した情報がセンサ情報として検出されてもよい。センサから、音響信号処理装置100の温度を示す情報、及び、バッテリの残量を示す情報が、センサ情報として、取得されてもよい。音響信号処理装置100又は音声提示装置A0002の演算資源(CPU能力、メモリ資源、PC性能)を示す情報などがセンサ情報として、リアルタイムで取得されてもよい。
 本実施の形態においては、第1取得部110は、オブジェクト情報を記憶部170から取得するがこれに限られず、音響信号処理装置100以外の装置(例えばクラウドサーバなどのサーバ装置10)から取得してもよい。また、第1取得部110は、第2位置情報をヘッドフォン20(より具体的には、頭部センサ部21)から取得するがこれに限られない。
 ここで、オブジェクト情報が含む情報を説明する。
 まずは、第1位置情報について説明する。
 上記の通り、仮想空間におけるオブジェクトは、表示部30に表示されるコンテンツ(映像)に含まれるものであり、当該コンテンツ内にて移動し得るもの、及び、移動され得るもののうち少なくとも一方であるとよい。例えば、仮想空間におけるオブジェクトは、図1が示すバットBである。
 第1位置情報は、仮想空間におけるバットBが、ある時点において、仮想空間内のどの位置にあるのかを示す情報である。なお、仮想空間においては、バットBがスイングされることでバットBは移動する可能性がある。このため、第1取得部110は、継続的に第1位置情報を取得する。第1取得部110は、例えば、空間情報管理部A0201及びA0211で実行される空間情報の更新ごとに第1位置情報を取得する。
 さらに、第1音を示す第1音データについて説明する。
 本明細書で説明される第1音データを含む音データは、PCM(Pulse Code Modulation)データのような音信号であってもよく、また、これに限られず、音の性質を示すための情報であればよい。
 一例として仮に音信号が、音量がXデシベルの雑音信号である場合に、当該音データに係る音データは、当該音信号を示すPCMデータそのものであってもよく、成分が雑音信号であることを示す情報及び音量がXデシベルであることを示す情報からなるデータであってもよい。他の一例として仮に音信号が、周波数成分のPeak/Dipが所定の特性である雑音信号である場合に、当該音データに係る音データは、当該音信号を示すPCMデータそのものであってもよく、成分が雑音信号であることを示す情報及び周波数成分のPeak/Dipを示す情報からなるデータであってもよい。
 なお、本明細書では、音データに基づく音信号とは、当該音データを示すPCMデータであることを意味する。
 さらに第1識別情報について説明する。
 第1識別情報は、第1音データに対する処理手段を示す情報である。つまり、本実施の形態においては、第1音データに対する処理手段として、第1処理手段及び第2処理手段が設けられている。第1処理手段及び第2処理手段は、いずれも第1音データが示す第1音の音量の処理をする手段であり、互いに異なる態様で第1音データを処理する。第1識別情報は、第1音データに対する処理手段が、第1処理手段であること、第2処理手段であること、又は、第1処理手段及び第2処理手段の両方であることを示す情報である。
 第1識別情報がどのような処理手段を示すかについては、第1識別情報が示すオブジェクトに応じて、予め決定されている。例えば、第1識別情報がどのような処理手段を示すかについては、表示部30に示されるコンテンツ(映像)の作成者などによって、予め定められている。
 次に、形状情報について説明する。
 形状情報は、仮想空間におけるオブジェクト(例えばバットB)の形状を示す情報である。形状情報は、オブジェクトの形状を示し、より具体的には、オブジェクトの剛体として三次元形状を示す。オブジェクトの形状は、例えば、球体、直方体、立方体、多面体、円錐、角錐、円柱、角柱など、またこれらの組み合わせなどにより示される。なお、形状情報は、例えばメッシュデータ、又は、例えばボクセル、三次元点群もしくは三次元座標を持つ頂点からなる複数の面の集合として表現されてもよい。
 なお、第1位置情報にはオブジェクトを識別するためのオブジェクト識別情報が含まれ、第1識別情報にもオブジェクトを識別するためのオブジェクト識別情報が含まれ、形状情報にもオブジェクトを識別するためのオブジェクト識別情報が含まれている。
 このため、第1取得部110が第1位置情報、第1音データ、第1識別情報及び形状情報を別個で取得したとしても、第1位置情報、第1音データ、第1識別情報及び形状情報のそれぞれに含まれるオブジェクト識別情報が参照されることで、第1位置情報、第1音データ、第1識別情報及び形状情報のそれぞれが示すオブジェクトが識別される。例えばここでは、第1位置情報、第1音データ、第1識別情報及び形状情報のそれぞれが示すオブジェクトが、同一のバットBであることが容易に識別することができる。つまり、第1取得部110が取得した第1位置情報、第1音データ、第1識別情報及び形状情報のそれぞれは、4つのオブジェクト識別情報が参照されることで当該第1位置情報、当該第1音データ、当該第1識別情報及び当該形状情報がバットBに係る情報であることが明らかになる。従って、当該第1位置情報、当該第1音データ、当該第1識別情報及び当該形状情報はバットBについて示す情報として紐づけられる。
 続いて、第2位置情報について説明する。
 受聴者Lは、仮想空間において移動し得る。第2位置情報は、仮想空間における受聴者Lが、ある時点において、仮想空間内のどの位置に居るのかを示す情報である。なお、受聴者Lは仮想空間において移動することができるため、第1取得部110は継続的に第2位置情報を取得する。第1取得部110は、例えば、空間情報管理部A0201及びA0211で実行される空間情報の更新ごとに第1位置情報を取得する。
 なお、上記の第1位置情報、第1音データ、第1識別情報及び形状情報などは、入力信号に含まれるメタデータ、制御情報又はヘッダ情報に含まれていてもよい。第1音データが音信号(PCMデータ)の場合、音信号を識別する情報がメタデータ、制御情報又はヘッダ情報に含まれていてもよく、音信号はメタデータ、制御情報又はヘッダ情報以外に含まれていてもよい。つまり、音響信号処理装置100(より具体的には、第1取得部110)は、入力信号に含まれるメタデータ、制御情報又はヘッダ情報を取得し、メタデータ、制御情報又はヘッダ情報に基づいて音響処理を行ってもよい。なお、音響信号処理装置100(より具体的には、第1取得部110)は、上記の第1位置情報、第1音データ、第1識別情報及び形状情報を取得すればよく、取得先は入力信号に限定されない。第1音データとメタデータは一つの入力信号に格納されていてもよいし、複数の入力信号に別々に格納されていてもよい。
 また、入力信号に第1音データ以外の音信号がオーディオコンテンツ情報として格納されていてもよい。オーディオコンテンツ情報は、MPEG-H 3D Audio(ISO/IEC 23008-3)(以下、MPEG-H 3D Audioと記載)などの符号化処理が施されているとよい。また、符号化処理に用いる技術はMPEG-H 3D Audioに限られず、公知の他の技術が用いられてもよい。また、上記の第1位置情報、第1音データ、第1識別情報及び形状情報などの情報を符号化処理対象としてもよい。
 つまり、音響信号処理装置100は、符号化されたビットストリームに含まれる音信号及びメタデータを取得する。音響信号処理装置100においては、オーディオコンテンツ情報が取得されて復号される。本実施の形態においては、音響信号処理装置100は、復号装置が備えるデコーダとして機能し、より具体的には、当該デコーダが有するレンダリング部A0203及びA0213として機能する。なお、本開示におけるオーディオコンテンツ情報という用語は、技術内容に即して、音信号そのものや、第1位置情報、第1音データ、第1識別情報及び形状情報を含む情報として読み替えて解釈するものとする。
 また、第2位置情報も符号化処理が施されているとよい。つまり、第1取得部110は、第2位置情報を取得して復号する。
 第1取得部110は、取得したオブジェクト情報及び第2位置情報を第1算出部120及び決定部130に出力する。
 第1算出部120は、第1取得部110によって取得されたオブジェクト情報が含む第1位置情報、及び、取得された第2位置情報に基づいて、オブジェクト(例えばバットB)と受聴者Lとの距離を算出する。上記の通り、第1取得部110は仮想空間における第1位置情報及び第2位置情報を空間情報管理部A0201及びA0211で実行される空間情報の更新ごとに取得している。第1算出部120は、空間情報の更新ごとに取得された複数の第1位置情報及び複数の第2位置情報に基づいて、仮想空間においてオブジェクトと受聴者Lとの距離を算出する。第1算出部120は、算出されたオブジェクトと受聴者Lとの距離を、決定部130に出力する。
 決定部130は、第1取得部110によって取得されたオブジェクト情報が含む第1識別情報に基づいて、第1処理手段及び第2処理手段のうち、第1音データを処理する処理手段を決定する。第1処理手段とは、第1算出部120によって算出された距離に応じた音量の処理をする処理手段である。第2処理手段は、第1処理手段とは異なる態様で第1算出部120によって算出された距離に応じた音量の処理をする処理手段である。
 上記の通り、第1識別情報は第1音データに対する処理手段を示し、決定部130は第1識別情報が示す処理手段に従って、第1音データを処理する処理手段を決定する。例えば、第1識別情報に第1音データに対する処理手段として第1処理手段が示されている場合に、決定部130は第1音データを処理する処理手段が第1処理手段であることを決定する。
 第1処理部140は、決定部130によって決定された処理手段で第1音データを処理する。例えば、決定部130が、第1音データを処理する処理手段が第1処理手段であることを決定した場合には、第1処理部140は、第1処理手段で第1音データを処理する。
 第1出力部150は、第1処理部140によって処理された第1音データを出力する。ここでは、第1出力部150は、第1音データをヘッドフォン20に出力する。これにより、ヘッドフォン20は、出力された第1音データが示す第1音を再生することができる。
 第1受付部160は、音響信号処理装置100のユーザ(例えば、仮想空間内で実行されるコンテンツの作成者)からの操作を受付ける。第1受付部160は、具体的には、ハードウェアボタンで実現されるが、タッチパネルなどによって実現されてもよい。当該操作は、ファイル名を指定する操作を含んでいてもよく、当該ファイルは、上記の第1位置情報、第1音データ、第1識別情報及び形状情報などを含むオブジェクト情報を所定の規則でフォーマットしたファイルであってもよく、第1受付部160は、当該ファイルをデフォーマットすることで、オブジェクト情報を受け付けるようにしてもよい。これは、第1受付部160に限らず、後述の受付部41、第2受付部51、第3受付部61も同様である。
 記憶部170は、第1取得部110、第1算出部120、決定部130、第1処理部140、第1出力部150及び第1受付部160が実行するコンピュータプログラムなどと、オブジェクト情報とが記憶される記憶装置である。
 ここで、本実施の形態に係る形状情報について再度説明する。形状情報は、仮想空間におけるオブジェクトの映像の生成のために用いられる情報であってオブジェクト(バットB)の形状を示す情報でもある。つまり、形状情報は、表示部30に表示されるコンテンツ(映像)を生成するためにも用いられる情報である。
 第1取得部110は、取得した形状情報を表示部30にも出力する。表示部30は、第1取得部110によって出力された形状情報を取得する。表示部30は、さらに、オブジェクト(バットB)の仮想空間における形状以外の属性(色彩など)を示す属性情報を取得する。表示部30は、属性情報を、音響信号処理装置100以外の装置(サーバ装置10)から直接取得してもよく、音響信号処理装置100から取得してもよい。表示部30は、取得した形状情報及び属性情報に基づいて、コンテンツ(映像)を生成して、表示する。
 また、第1処理手段及び第2処理手段について、再度説明する。
 第1処理手段は、音量が、第1算出部120によって算出された距離が増加するに従って反比例して減衰するように第1音データを処理する処理手段である。
 当該距離をDとし、第1処理手段によって処理された第1音の音量をV1とすると、V1は、(式1)で示される。
 V1 ∝ (1/D)・・・(式1)
 また、第2処理手段は、音量が、第1算出部120によって算出された距離が増加するに従って第1処理手段とは異なる態様で増減するように第1音データを処理する処理手段である。一例として、第2処理手段は、音量が、距離のx乗(x≠1)で減衰するように第1音データを処理する処理手段である。このとき、第2処理手段によって処理された第1音の音量をV2とすると、V2は、(式2)で示される。なお、(式2)における「^」はべき乗を求める演算子を表す。
 V2 ∝ (1/D)^x・・・(式2)
 また、本実施の形態においては、第1識別情報は、第1音データに対する処理手段が第2処理手段であること、及び、xの値を示す情報でもある。より具体的には、第1音がオブジェクトの移動にともない生じる空力音つまりは第1空力音(風切り音)である場合には、第1識別情報は、第1音データに対する処理手段が第2処理手段であること、及び、上記のxがαでありαが実数でありαが(式3)を満たすことを示す。
 α>1・・・(式3)
 なお、第1受付部160は、音響信号処理装置100のユーザからαの値を指定する操作を受付ける。これにより、例えば記憶部170に記憶されているオブジェクト情報が含む第1識別情報に示されるxが、αとなる。つまりは、第1識別情報に示されるxがαとなるように更新される。
 さらに、ここでは第1処理手段として(式1)、第2処理手段として(式2)に従い第1音データに対する処理を施すことが説明されているが、それには限定されない。例えば、第1算出部120によって算出された距離であるdを引数とする関数fを用いて、V3=f(d^r)(rは1以上の実数)として算出したV3が音量として用いられても良い。この関数fには反比例関数のような単調減少関数が用いられることが多いが、実空間でのリアリティさと仮想空間での特殊効果(例えば没入感やエンターテイメント性)とのバランスを鑑みて、単調減少関数とは異なる関数が用いられても良い。使用される関数は、システム設計者が事前に設定しておく。また複数の関数を事前に用意しておき、オブジェクト情報又はオブジェクトの位置、受聴者の状態又は位置といったパラメータを指標にして当該複数の関数が切り替えられて使用されても良い。
 さらに、関数fを用いる代わりに、距離であるdに対する音量V4をテーブルとして持つ構造が用いられても良い。どのようなテーブルにするかは実空間でのリアリティさと仮想空間での特殊効果(例えば没入感やエンターテイメント性)のバランスを鑑みて、システム設計者が自由度高く設計することができる。使用するテーブルは、システム設計者が事前に設定しておく。また複数のテーブルを事前に用意しておき、オブジェクト情報又はオブジェクトの位置、受聴者の状態又は位置といったパラメータを指標にして当該複数の関数が切り替えられて使用されても良い。
 以下、音響信号処理装置100によって行われる音響信号処理方法の動作例1について説明する。
 [動作例1]
 図7は、本実施の形態に係る音響信号処理装置100の動作例1のフローチャートである。図8は、動作例1に係るオブジェクトであるバットBと受聴者Lとを示す図である。
 なお、本動作例においては、第1音は、オブジェクトであるバットBに起因する音であって、バットBの移動にともない生じる第1空力音(風切り音)である。
 図7が示すように、はじめに、第1受付部160は、第1識別情報に示されるxの一例であるαの値を指定する操作を受付ける(S10)。このステップS10が第1受付ステップに相当する。
 これにより、記憶部170に記憶されているオブジェクト情報が含む第1識別情報に示されるxが、αとなる。
 さらに、第1取得部110は、第1位置情報と第1音データと第1識別情報とを含むオブジェクト情報、及び、第2位置情報を取得する(S20)。このステップS20が第1取得ステップに相当する。
 次に、第1算出部120は、第1取得部110によって取得されたオブジェクト情報が含む第1位置情報、及び、第1取得部110によって取得された第2位置情報に基づいて、オブジェクトと受聴者Lとの距離Dを算出する(S30)。つまりここでは、第1算出部120は、バットBと受聴者Lとの距離Dを算出する。このステップS30が第1算出ステップに相当する。
 続いて、決定部130は、第1取得部110によって取得されたオブジェクト情報が含む第1識別情報に基づいて、第1処理手段、及び、第2処理手段のうち、第1音データを処理する処理手段を決定する(S40)。このステップS40が決定ステップに相当する。
 次に、第1処理部140は、決定部130によって決定された処理手段で第1音データを処理する(S50)。このステップS50が第1処理ステップに相当する。
 例えば、ステップS40で処理手段が第1処理手段であると決定された場合には、第1処理部140は、第1処理手段で、第1音データを処理する。また、例えば、ステップS40で処理手段が第2処理手段であると決定された場合には、第1処理部140は、第2処理手段で、第1音データを処理する。ここでは、ステップS40で処理手段が第2処理手段であると決定されており、第2処理手段は、音量が、距離Dのx乗で減衰するように第1音データを処理する処理手段であるとして説明する。ステップS10より、xがαであるため、このとき、第2処理手段によって処理された第1音の音量をV2とすると、V2は、(式4)で示される。
 V2 ∝ (1/D)^α・・・(式4)
 なお例えば、αは、2である。
 第1出力部150は、第1処理部140によって処理された第1音データを出力する(S60)。このステップS60が第1出力ステップに相当する。
 本実施の形態においては、第1識別情報に応じて第1音の音量の処理手段が変更されることができるため、受聴者Lが受聴する仮想空間での第1音は、受聴者Lが受聴する現実空間での第1音に似た音となり、より具体的には、現実空間での第1音が再現された音となる。このため、受聴者Lは違和感を覚え難く、受聴者Lは臨場感を得ることができる。
 さらに、本実施の形態においては、第1音は、第1空力音(風切り音)である。また、第1識別情報に応じて、音量が距離Dが増加するに従って反比例して減衰するように第1音データを処理する第1処理手段又は音量が距離Dが増加するに従って第1処理手段とは異なる態様で増減するような第2処理手段が用いられる。このため、受聴者Lが受聴する仮想空間での第1音(風切り音)は、受聴者Lが受聴する現実空間での第1音(風切り音)により似た音となる。従って、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。
 (実施の形態の変形例1)
 以下、実施の形態の変形例1について説明する。以下では、実施の形態との相違点を中心に説明し、共通点の説明を省略又は簡略化する。
 [構成]
 まず、本実施の形態の変形例1に係る音響信号処理装置100aの構成について説明する。図9は、本変形例に係る音響信号処理装置100aの機能構成を示すブロック図である。
 本変形例に係る音響信号処理装置100aは、受聴者Lに応じたパーソナルスペース、及び、物理的距離だけでは表現できない受聴者Lと他人との距離感を、仮想空間で演出することができる。音響信号処理装置100aは、第1処理部140にかえて第1処理部140aを備える点を除いて、実施の形態に係る音響信号処理装置100と同じ構成を有する。
 本変形例においては、仮想空間におけるオブジェクトは、受聴者L以外の他人である。図10は、本変形例に係る4人の他人A1~D1と受聴者Lとを示す図である。図10においては、4人の他人A1~D1のそれぞれが、パーソナルスペースの密接距離、個体距離、社会距離及び公衆距離の4つのカテゴリーのそれぞれに分類される。
 例えば、受聴者Lとの親しさの度合いは、他人A1、他人B1、他人C1及び他人D1の順に低くなるとする。そして、受聴者Lは、他人A1が密接距離まで近づくことを許容でき、他人B1が個体距離まで近づくことを許容でき、他人C1が社会距離まで近づくことを許容でき、他人D1が公衆距離まで近づくことを許容できる。
 そして、本変形例においては、オブジェクトが他人A1である場合には、第1音は他人A1の声である。同様に、オブジェクトが他人B1である場合には、第1音は他人B1の声であり、オブジェクトが他人C1である場合には、第1音は他人C1の声であり、オブジェクトが他人D1である場合には、第1音は他人D1の声である。
 音響信号処理装置100aが備える第1取得部110は、オブジェクトに該当する他人に対応するオブジェクト情報及び第2位置情報を取得する。4人の他人A1~D1のそれぞれに対応するオブジェクト情報があり、他人A1に対応するオブジェクト情報をオブジェクト情報A1と記載する場合がある。同様に、他人B1に対応するオブジェクト情報をオブジェクト情報B1、他人C1に対応するオブジェクト情報をオブジェクト情報C1、他人D1に対応するオブジェクト情報をオブジェクト情報D1と記載する場合がある。なお、オブジェクト情報A1~D1のそれぞれを識別する必要が無い場合には、単にオブジェクト情報と記載する場合がある。
 本変形例に係る第1処理部140aは、決定部130によって決定された処理手段で第1音データを処理する。ここで、第1処理部140aが行う第1例、第2例及び第3例の処理方法について説明する。
 <第1例>
 まずは第1例の処理方法について説明する。
 第1例では、本変形例に係る第2処理手段は、第1算出部120によって算出された距離Dが所定の閾値以内である場合に、音量が所定の値となるように第1音データを処理する処理手段である。この所定の閾値は、パーソナルスペースに応じた値である。
 つまり、第2処理手段は、距離Dに応じて、受聴者Lが受聴する音量が所定の値となるように、第1音データを処理する。所定の値は、例えばより大きな音量を示すVHという値と当該VHより小さな音量を示すVLという値とを示す。より具体的には、VHは、他人が受聴者Lに近づいたことが受聴者Lにとって疎ましく感じる程度に大きい音量であり、VLは、他人が受聴者Lに近づいたことを受聴者Lが感じる程度の音量である。
 まずは、本変形例において、オブジェクトが他人A1などの密接距離のカテゴリーに分類される他人である場合の第2処理手段について説明する。受聴者Lは、他人A1と親しく、密接距離(45cm以下)まで近づくことを許容する。従って、第2処理手段は、他人A1の声の音量が距離Dが45cm以下であればVLとなるように、かつ、距離Dが45cmよりも大きければ距離Dが増加するに従って減衰するように第1音データを処理する処理手段である。
 続いて、オブジェクトが他人B1などの個体距離のカテゴリーに分類される他人である場合の第2処理手段について説明する。受聴者Lは、他人B1と少し親しく、個体距離(45cmより大きく120cm以下)まで近づくことを許容する。従って、第2処理手段は、他人B1の声の音量が距離Dが45cm以下であればVHとなるように、かつ、距離Dが45cmより大きく120cm以下であればVLとなるように、かつ、距離Dが120cmよりも大きければ距離Dが増加するに従って減衰するように第1音データを処理する処理手段である。
 次に、オブジェクトが他人C1などの社会距離のカテゴリーに分類される他人である場合の第2処理手段について説明する。受聴者Lは、他人C1と少し親しくなく、社会距離(120cmより大きく350cm以下)まで近づくことを許容する。従って、第2処理手段は、他人C1の声の音量が距離Dが120cm以下であればVHとなるように、かつ、距離Dが120cmより大きく350cm以下であればVLとなるように、かつ、距離Dが350cmよりも大きければ距離Dが増加するに従って減衰するように第1音データを処理する処理手段である。
 次に、オブジェクトが他人D1などの公衆距離のカテゴリーに分類される他人である場合の第2処理手段について説明する。受聴者Lは、他人D1と親しくなく、公衆距離(350cm)まで近づくことを許容する。従って、第2処理手段は、他人D1の声の音量が距離Dが350cm以下であればVHとなるように、かつ、距離Dが350cmよりも大きければ距離Dが増加するに従って減衰するように第1音データを処理する処理手段である。
 なお、他人A1~D1のそれぞれがパーソナルスペースのどのカテゴリーに分類されるかは、対応するオブジェクト情報A1~D1に含まれる第1識別情報に示されているとよい。
 また、上記の通り、所定の閾値はパーソナルスペースに応じた値であるが、例えば、第1受付部160が、ユーザから所定の閾値が第1指定値であることを指定する操作を受付け、受付けられた操作が指定する第1指定値が所定の閾値となってもよい。
 <第2例>
 続いて第2例の処理方法について説明する。
 第2例では、第1処理部140aの処理が行われる前に、決定部130が、第1取得部110によって取得された第1識別情報に基づいて、第1処理手段を実行するか否かを決定し、かつ、第1処理手段が実行されるか否かに関わらず、第2処理手段を実行することを決定する。なお、第2例では、第1識別情報は、第1処理手段を実行するか否かを示す情報であり、第2処理手段を実行するか否かを示さない情報である。
 つまり第1処理部140aは、決定部130によって第1処理手段を実行することが決定された場合には第1音データに対し第1処理手段を実行し、決定部130によって第1処理手段を実行しないことが決定された場合には第1音データに対し第1処理手段を実行しない。そしてさらに、第1音データに対して第1処理手段が実行されたか否かに関わらず、第1処理部140aは、第1音データに対して第2処理手段を実行する。
 第2例においても、本変形例に係る第2処理手段は、第1算出部120によって算出された距離Dが所定の閾値以内である場合に、音量が所定の値となるように第1音データを処理する処理手段である。この所定の閾値は、パーソナルスペースに応じた値である。
 以下では、第1音データに対して第1処理手段及び第2処理手段の両方が実行される例について説明する。
 まずは、第1処理手段が実行されることで、オブジェクト(例えば他人B1)と受聴者Lとの距離Dが所定の閾値以内か否かに関わらず、距離Dが増加するに従って反比例して減衰するように第1音データが処理される。そしてさらに、第1処理手段で処理された第1音データに対して、第2処理手段が実行される。第2例に係る第2処理手段は、距離Dが45cmであれば他人B1の声の音量がVHとなるように、かつ、距離Dが120cmであれば他人B1の声の音量がVLとなるように第1音データを処理する処理手段である。
 従って、第1処理手段及び第2処理手段が実行された第1音データは、距離Dが増加するに従って反比例して減衰し、かつ、距離Dが45cmであれば他人B1の声の音量がVHであり、かつ、距離Dが120cmであれば他人B1の声の音量がVLであることを示す。
 なお、第2例に係る第2処理手段は、オブジェクトが他人A1である場合には距離Dが45cmであれば他人A1の声の音量がVLとなるように、第1音データを処理する処理手段である。
 また、第2例に係る第2処理手段は、オブジェクトが他人C1である場合には距離Dが120cmであれば他人C1の声の音量がVHとなるように、かつ、距離Dが350cmであれば他人C1の声の音量がVLとなるように、第1音データを処理する処理手段である。
 また、第2例に係る第2処理手段は、オブジェクトが他人D1である場合には距離Dが350cmであれば他人D1の声の音量がVHとなるように、第1音データを処理する処理手段である。
 <第3例>
 続いて第3例の処理方法について説明する。
 第3例では、本変形例に係る第2処理手段は、音量が、距離Dのx乗(x≠1)で減衰するように第1音データを処理する処理手段である。そして、受聴者Lと他人との親しさの程度が高いほど、当該他人に係るxの値が小さくなる。
 例えば、オブジェクトが他人A1などの密接距離のカテゴリーに分類される他人である場合には、xの値は0.9であり、オブジェクトが他人B1などの個体距離のカテゴリーに分類される他人である場合には、xの値は、1.5である。また例えば、オブジェクトが他人C1などの社会距離のカテゴリーに分類される他人である場合には、xの値は2.0であり、オブジェクトが他人D1などの公衆距離のカテゴリーに分類される他人である場合には、xの値は、3.0である。
 上記の第1例から第3例は、いずれも、親密でない他人が近づいてきた場合、それを疎ましく感じる様な大きな音量の声となるように、各種変数が設定されているが、逆に、疎ましい声は聴きたくないのだから、小さな音量となるように設定してもよい。つまり、第1処理手段は物理的な現象を再現することを意図しているのに対し、第2処理手段は、物理的な距離では表現できない心理的な距離による音量の増減を演出するために用いられてもよい。
 以下、音響信号処理装置100aによって行われる音響信号処理方法の動作例2について説明する。
 [動作例2]
 図11は、本変形例に係る音響信号処理装置100aの動作例2のフローチャートである。
 図11が示すように、はじめに、第1受付部160は、ユーザから所定の閾値が第1指定値であることを指定する操作を受付ける(S11)。一例として所定の閾値はパーソナルスペースに応じた値である。なお、上記の第3例の場合には、このステップS11が行われなくてもよい。
 さらに、第1取得部110は、第1位置情報と第1音データと第1識別情報とを含むオブジェクト情報、及び、第2位置情報を取得する(S20)。ステップS20で取得されるオブジェクト情報は、4つのオブジェクト情報A1~D1のうち少なくとも1つである。
 次に、第1算出部120は、第1取得部110によって取得されたオブジェクト情報が含む第1位置情報、及び、第1取得部110によって取得された第2位置情報に基づいて、オブジェクト(他人)と受聴者Lとの距離Dを算出する(S30)。
 続いて、決定部130は、第1取得部110によって取得されたオブジェクト情報が含む第1識別情報に基づいて、第1処理手段、及び、第2処理手段のうち、第1音データを処理する処理手段を決定する(S40)。
 次に、第1処理部140aは、決定部130によって決定された処理手段で第1音データを処理する(S50)。上記説明の通り、第1例~第3例のいずれかの方法が用いられて、第1音データが処理される。
 第1出力部150は、第1処理部140aによって処理された第1音データを出力する(S60)。
 例えば本変形例においては、受聴者Lと親しくない他人D1が350cmまで近づいた場合には、受聴者Lは、疎ましく感じるVHの音量の他人D1の声を受聴することとなる。一方で、受聴者Lと親しい他人A1が45cmまで近づいた場合には、受聴者Lは、近づいたことを感じるVLの音量の他人A1の声を受聴することとなる。つまり、親しくない他人D1の声は疎ましい程度に、親しい他人A1の声は聞こえる程度に、音量が制御される。このため、本変形例においては、受聴者Lに応じたパーソナルスペース、及び、物理的距離だけでは表現できない受聴者Lと他人との距離感を、仮想空間で演出することができる。
 以上まとめると、本変形例においては、第1処理ステップでは、距離Dが所定の閾値以内である場合に、音量が、所定の値となるように第1音データを処理する第2処理手段を用いることができる。さらに、第1処理ステップでは、パーソナルスペースに応じた値である所定の閾値を用いて、第1音データを処理することができる。従って、本変形例に係る音響信号処理装置100aは、オブジェクトである他人ごとに所定の値が異なる第2処理手段を実行することで、受聴者Lに応じたパーソナルスペース、及び、物理的距離だけでは表現できない受聴者Lと他人との距離感を、仮想空間で演出することができる。
 (実施の形態の変形例2)
 以下、実施の形態の変形例2について説明する。以下では、実施の形態との相違点を中心に説明し、共通点の説明を省略又は簡略化する。
 [構成]
 まず、本実施の形態の変形例2に係る音響信号処理装置100bの構成について説明する。図12は、本変形例に係る音響信号処理装置100bの機能構成を示すブロック図である。
 本変形例に係る音響信号処理装置100bは、複数の音データを処理することができる。音響信号処理装置100bは、第1処理部140にかえて第1処理部140bを備える点を除いて、実施の形態に係る音響信号処理装置100と同じ構成を有する。
 図13は、本変形例に係るオブジェクト及び複数の音を示す図である。本変形例においては、仮想空間におけるオブジェクトは、救急車Aである。複数の音は、3つの音を含み、より具体的には、2つの第1音と1つの第2音とを含む。
 2つの第1音及び1つの第2音は、オブジェクトである救急車Aに起因する音である。2つの第1音を識別のため、第1音A2及び第1音B2と記載する。
 第1音A2は、オブジェクト(救急車A)の移動にともない生じる空力音(第1空力音)であり、つまりは、風切り音である。第1音B2は、オブジェクト(救急車A)から放射された風Wが受聴者Lの耳に到達することで生じる空力音、つまりは、第2空力音である。つまり、オブジェクトから放射された風Wとは、図13が示すように、移動体などのオブジェクト(救急車A)が移動したことにより巻き起こる風も含む。
 第2音は、2つの第1音とは異なる音であり、より具体的には、救急車Aから発されるサイレン音である。このように、救急車Aは、風切り音(第1空力音)、第2空力音及びサイレン音を含む複数の音を発生させるオブジェクトである。
 本変形例においては、第1取得部110が取得するオブジェクト情報は、第1位置情報と、第1音を示す第1音データと、第1識別情報と、第2音を示す第2音データと、第2音データに対する処理手段を示す第2識別情報とを含む。なお、第1音データは、第1音A2を示す第1音データA2及び第1音B2を示す第1音データB2を含む。また、第1識別情報は、第1音データA2に対する処理手段を示す第1識別情報A2及び第1音データB2に対する処理手段を示す第1識別情報B2を含む。
 また、本変形例に係るオブジェクト情報においては、第1位置情報が示すオブジェクト(救急車A)の位置に、オブジェクトに起因して受聴者Lの位置に関連する位置で生じる第1音B2(第2空力音)を示す第1音データB2が関連付けられている。さらに言えば、現実空間においては、第2空力音は、受聴者Lの耳で発生するが、ここでは仮想空間における救急車Aの位置が音源の位置であるかのように取り扱われる。
 つまり、救急車Aは、第1音データ及び第2音データ(ここでは2つの音データ)を含む複数の音データと関連付けられるオブジェクトである。
 本変形例においては、決定部130は、第1識別情報A2に基づいて第1音データA2を処理する処理手段を決定し、第1識別情報B2に基づいて第1音データB2を処理する処理手段を決定し、第2識別情報に基づいて第2音データを処理する処理手段を決定する。
 本変形例においては、第1処理部140bは、第1識別情報A2に基づいて決定された処理手段で第1音データA2を処理し、第1識別情報B2に基づいて決定された処理手段で第1音データB2を処理し、第2識別情報に基づいて決定された処理手段で第2音データを処理する。
 また、実施の形態と同じく、第2処理手段は、音量が、距離Dのx乗(x≠1)で減衰するように第1音データを処理する処理手段である。そして、第1音A2は第1空力音であることから、第1識別情報A2は、第1音データA2に対する処理手段が第2処理手段であること、及び、xがαでありαが実数でありαが(式5)を満たすことを示す。
 α>1・・・(式5)
 また、第1音B2が第2空力音であることから、第1識別情報B2は、第1音データB2に対する処理手段が第2処理手段であること、及び、xがβでありβが実数でありβが(式6)を満たすことを示す。
 β>2・・・(式6)
 なお、α及びβは、(式7)を満たす。
 α<β・・・(式7)
 例えば、αは2であり、βは2.5である。
 なお、この第1音B2について更に記載する。上記の通り、オブジェクト情報においては、オブジェクト(救急車A)の位置に第1音B2(第2空力音)を示す第1音データB2が関連付けられている。このため、第1処理部140bは、距離Dが増加するほど第1音B2の音量が減衰するように第1音データB2を処理することで、受聴者Lが受聴する仮想空間での第1音B2(第2空力音)を、受聴者Lが受聴する現実空間での第1音B2(第2空力音)に似た音とすることができる。
 以下、音響信号処理装置100bによって行われる音響信号処理方法の動作例3について説明する。
 [動作例3]
 図14は、本変形例に係る音響信号処理装置100bの動作例3のフローチャートである。
 図14が示すように、はじめに、第1受付部160は、第1識別情報A2に示されるxの一例であるαの値を指定する操作と、第1識別情報B2に示されるxの一例であるβの値を指定する操作とを受付ける(S10b)。このステップS10bが第1受付ステップに相当する。
 これにより、記憶部170に記憶されているオブジェクト情報が含む第1識別情報A2に示されるxがαとなり、第1識別情報B2に示されるxがβとなる。
 さらに、第1取得部110は、第1位置情報と第1音データA2と第1識別情報A2と第1音データB2と第1識別情報B2と第2音データと第2識別情報とを含むオブジェクト情報、及び、第2位置情報を取得する(S20b)。このステップS20bが第1取得ステップに相当する。
 次に、第1算出部120は、第1取得部110によって取得されたオブジェクト情報が含む第1位置情報、及び、第1取得部110によって取得された第2位置情報に基づいて、オブジェクト(救急車A)と受聴者Lとの距離Dを算出する(S30)。
 続いて、決定部130は、第1取得部110によって取得されたオブジェクト情報が含む第1識別情報A2、第1識別情報B2及び第2識別情報に基づいて、第1音データA2、第1音データB2及び第2音データを処理する処理手段を決定する(S40b)。このステップS40bが決定ステップに相当する。
 次に、第1処理部140bは、決定部130によって決定された処理手段で第1音データA2、第1音データB2及び第2音データを処理する(S50b)。このステップS50bが第1処理ステップに相当する。
 第1出力部150は、第1処理部140bによって処理された第1音データA2、第1音データB2及び第2音データを出力する(S60b)。このステップS60bが第1出力ステップに相当する。
 本変形例においては、第1識別情報に応じて第1音の音量の処理手段が変更され、かつ、第2識別情報に応じて第2音の音量の処理手段が変更されることができる。従って、受聴者Lが受聴する仮想空間での第1音及び第2音のそれぞれは、受聴者Lが受聴する現実空間での第1音及び第2音のそれぞれに似た音となる。さらに、第1音A2が第1空力音であり、第1音B2が第2空力音であることから、第1音データA2及び第1音データB2のそれぞれに異なるxの値で第2処理手段が実行される。よって、受聴者Lが受聴する仮想空間での第1音A2(第1空力音)及び第1音B2(第2空力音)のそれぞれは、受聴者Lが受聴する現実空間での第1音A2(第1空力音)及び第1音B2(第2空力音)のそれぞれに似た音となる。以上より、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。
 なお、本変形例の上記説明においては、オブジェクトは、救急車Aであったがこれに限られない。
 オブジェクトが複数の音を発生させるオブジェクトである場合、つまりは、第1音データ及び第2音データ(上記では2つの音データ)を含む複数の音データと関連付けられるオブジェクトである場合には、本変形例と同様の処理が行われる。このような同様の処理が行われるオブジェクトについて、以下第1例及び第2例を説明する。
 <第1例>
 第1例においては、オブジェクトが扇風機Fである。図15は、本変形例に係るオブジェクトが扇風機Fである場合を示す図である。この場合、第1音A2として、オブジェクトである扇風機Fの移動、より具体的には、扇風機Fの羽根の回転にともない生じる第1空力音、つまりは、風切り音が用いられる。第1音B2として、第1音がオブジェクト(扇風機F)から放射された風Wが受聴者Lの耳に到達することで生じる第2空力音が用いられる。第2音は、扇風機Fのモーター音が用いられる。
 この第1例においても、受聴者Lが受聴する仮想空間での第1音及び第2音のそれぞれは、受聴者Lが受聴する現実空間での第1音及び第2音のそれぞれに似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。
 なお、この変形例2の第1例においても、実施の形態の変形例1の第1例及び第2例で示されたような、距離Dが所定の閾値以内か否かによって音量が異なるように第1音データを処理する第2処理手段が用いられてもよい。
 実施の形態の変形例1の第1例及び第2例では、第2処理手段は、距離Dが所定の閾値以内である場合に音量が所定の値となるように第1音データを処理する処理手段であったが、これに限られず、変形例2の第1例では、第2処理手段は、以下の処理手段であってもよい。変形例2の第1例の第2処理手段は、例えば、距離Dが所定の閾値以内の場合のxの値が、距離Dが所定の閾値外の場合のxの値に比べて大きい値となるように、第1音データが処理される処理手段であってもよい。
 <第2例>
 第2例においては、オブジェクトは、表示部30に表示されるコンテンツに登場するゾンビZである。図16は、本変形例に係るオブジェクトがゾンビZである場合を示す図である。オブジェクトであるゾンビZは、1つの第1音及び1つの第2音を発生させる。例えば第1音は、ゾンビZが発するうめき声であり、第2音は、ゾンビZの歩みによる足音である。この場合に、第2処理手段は、音量が、距離Dのx乗(x≠1)で減衰するように第1音データを処理する処理手段であり、xが1より大きい値であるとよい。
 図14が示すステップS50bにおいて、例えば、第1処理部140bは、第2処理手段で第1音データを処理し、第1処理手段で第2音データを処理する。
 現実空間においては、人の音声(うめき声)は、音量が当該生物と受聴者Lとの距離Dが増加するに従って反比例して減衰する。つまりは、仮に、ゾンビZのうめき声である第1音を示す第1音データが第1処理手段で処理された場合には、受聴者Lは、現実空間と同じ声(うめき声)を、受聴する。しかしながら、第1音データがあえて第2処理手段で処理されることで、つまりは、現実空間とは異なるうめき声が受聴されるように処理されることで、受聴者Lは、空想上の生物であるゾンビZの不気味さを体験することができる。
 この変形例2の第2例でも、変形例2の第1例と同じように、第2処理手段は、例えば、距離Dが所定の閾値以内の場合のxの値が、距離Dが所定の閾値外の場合のxの値に比べて大きい値となるように、第1音データが処理される処理手段であってもよい。
 (実施の形態の変形例3)
 以下、実施の形態の変形例3について説明する。以下では、実施の形態との相違点を中心に説明し、共通点の説明を省略又は簡略化する。
 [構成]
 まず、本実施の形態の変形例3に係る情報生成装置40及び音響信号処理装置200の構成について説明する。図17は、本変形例に係る情報生成装置40及び音響信号処理装置200の機能構成を示すブロック図である。
 本変形例に係る情報生成装置40及び音響信号処理装置200は、(本開示の基礎となった知見)で説明された、受聴者Lが違和感を覚える第2空力音を受聴することになってしまうという問題の発生を抑制することができる。図18は、本変形例に係るオブジェクトである扇風機Fと受聴者Lとを示す図である。
 情報生成装置40は、第1オブジェクトオーディオ情報を生成して、音響信号処理装置200へ出力する装置である。音響信号処理装置200は、出力された第1オブジェクトオーディオ情報を取得して、取得された第1オブジェクトオーディオ情報に基づいて、音データをヘッドフォン20へ出力する装置である。
 まずは、図17が示す情報生成装置40について説明する。
 情報生成装置40は、受付部41と、第2取得部42と、第1生成部43と、出力部44と、記憶部45とを備える。
 受付部41は、情報生成装置40のユーザ(例えば、仮想空間内で実行されるコンテンツの作成者)からの操作を受付ける。受付部41は、具体的には、ハードウェアボタンで実現されるが、タッチパネルなどによって実現されてもよい。
 第2取得部42は、仮想空間における受聴者Lの位置に関連する位置で生じる第1音を示す第1音データと、仮想空間におけるオブジェクトの位置を示す第1位置情報とを取得する。本変形例においては、オブジェクトは、風Wを放射するオブジェクトであり、図18が示すように扇風機Fである。また、仮想空間において、受聴者Lは、扇風機Fから放射された風Wを浴びる位置に居る。第1音は、受聴者Lの位置に関連する位置で生じる音であり、ここでは、受聴者Lの位置に関連する位置とは、受聴者Lの耳の位置である。つまり、第1音は、オブジェクトに起因して受聴者Lの位置に関連する位置(つまりは受聴者Lの耳の位置)で発生する音である。より具体的には、本変形例に係る第1音は、オブジェクトである扇風機Fから放射された風Wが受聴者Lの耳に到達することで生じる空力音(第2空力音)である。
 なお、本変形例においては、受付部41は、ユーザから第1音データと第1位置情報とを示す操作を受付ける。つまり、ユーザが受付部41を操作することで、第1音データと第1位置情報とが入力され、第2取得部42は、入力された第1音データと第1位置情報とを取得する。
 第1生成部43は、第2取得部42によって取得された第1音データと第1位置情報とから、オブジェクトに起因して受聴者Lの位置に関連する位置で第1音を再生させるオブジェクトに関する情報と第1位置情報とを含む第1オブジェクトオーディオ情報を生成する。
 なお、上記オブジェクトに関する情報には、オブジェクトが扇風機Fであること、オブジェクトが自身に起因して第1音を再生させることなどが示されている。
 また、本変形例に係る第1オブジェクトオーディオ情報においては、第1位置情報が示すオブジェクト(扇風機F)の位置に、オブジェクトに起因して受聴者Lの位置に関連する位置で生じる第1音(第2空力音)を示す第1音データが関連付けられている。さらに言えば、現実空間においては、第2空力音は、受聴者Lの耳で発生するが、ここでは仮想空間における扇風機Fの位置が音源の位置であるかのように取り扱われる。
 なお、第1生成部43は、指向性情報及び単位距離情報を含む第1オブジェクトオーディオ情報を生成してもよい。
 指向性情報は、扇風機Fから放射された風Wの方向に応じた特性を示す情報である。指向性情報は、例えば、風Wが放射される方向ごとの風速、或いは当該第2空力音の音量の減衰率がSOFA(Spatially Oriented Format for Acoustics)形式で格納されたデータベースである。
 また、単位距離情報とは、基準となる距離である単位距離と、第1位置情報が示すオブジェクトの位置から単位距離離れた位置における空力音を示す空力音データとを含む情報である。この単位距離情報に示される空力音データは、指向性情報に示されるオブジェクトが風Wを放射する正面方向に、オブジェクトの位置から単位距離離れた位置における空力音(第2空力音)を示すデータである。
 ここで、図19を用いて、指向性情報及び単位距離情報を説明する。
 図19は、本変形例に係る指向性情報及び単位距離情報を説明するための図である。オブジェクト(扇風機F)から放射された風Wの正面方向を方向Dfとする。ここで方向Dfとのなす角度がθ1である方向を方向D31、方向Dfとのなす角度がθ2である方向を方向D32とする。図19には、単位距離が示されており、オブジェクト(扇風機F)から単位距離離れた位置には円が図示されている。換言すると当該円の半径が単位距離である。
 オブジェクト(扇風機F)から方向DFに単位距離離れた位置での風Wの風速をwsFとする。そして、オブジェクト(扇風機F)から方向D31に単位距離離れた位置での風Wの風速をws1、オブジェクト(扇風機F)から方向D32に単位距離離れた位置での風Wの風速をws2、とすると、ws1及びws2は、(式8)及び(式9)を満たす。
 ws1 = wsF × C1・・・(式8)
 ws2 = wsF × C2・・・(式9)
 指向性情報は、例えばθ1及びθ2などの角度ごとのC1及びC2(C1及びC2は定数)などの値を示すデータベースである。なお、C1は指向性情報が示す角度θ1における値と記載され、C2は指向性情報が示す角度θ2における値と記載される。
 上記の例では、風速に関する指向性について述べたが、当該風Wによる音(第2空力音)の音量に関する指向性を同様の方法で記載してもよい。
 また、第1生成部43は、フラグ情報をさらに含む第1オブジェクトオーディオ情報を生成する。フラグ情報は、音の再生時において、オブジェクト(扇風機F)から生じた音を示す音データ(ここでは空力音データ)に、音が到来する方向に依存する頭部伝達関数を畳み込む処理を行うか否かを示す情報である。
 指向性情報、単位距離情報及びフラグ情報は、例えば、記憶部45に予め記憶されているとよい。第1生成部43は、指向性情報、単位距離情報及びフラグ情報を、記憶部45から取得してもよく、第1音データ及び第1位置情報と同じく受付部41が操作されることによって取得してもよい。
 出力部44は、第2取得部42によって取得された第1音データ及び第1位置情報と、第1生成部43によって生成された第1オブジェクトオーディオ情報とを、音響信号処理装置200へ出力する。
 記憶部45は、受付部41、第2取得部42、第1生成部43及び出力部44が実行するコンピュータプログラムなどが記憶される記憶装置である。
 さらに、図17が示す音響信号処理装置200について説明する。
 図17が示すように、音響信号処理装置200は、第3取得部210と、第2算出部220と、第2処理部240と、第2出力部250と、記憶部270とを備える。
 第3取得部210は、情報生成装置40によって生成された第1オブジェクトオーディオ情報、情報生成装置40によって取得された第1音データ、及び、第1音の受聴者Lの位置を示す第2位置情報を取得する。第3取得部210は、第2位置情報をヘッドフォン20(より具体的には、頭部センサ部21)から取得するがこれに限られない。
 第2算出部220は、第3取得部210によって取得された第1オブジェクトオーディオ情報が含む第1位置情報、及び、取得された第2位置情報に基づいて、オブジェクト(扇風機F)と受聴者Lとの距離Dを算出する。第2算出部220は、実施の形態に係る第1算出部120と同様の方法で、距離Dを算出する。
 さらに、第2算出部220は、第3取得部210によって取得された第1オブジェクトオーディオ情報が含む第1位置情報、及び、取得された第2位置情報に基づいて、オブジェクト(扇風機F)と受聴者Lとを結ぶ二点間方向を算出する。
 第2処理部240は、第2算出部220によって算出された距離Dが増加するほど、第1音の音量が減衰するように第1音データを処理する。例えば、第2処理部240は、実施の形態の変形例2で示した第2処理手段で第1音データを処理するとよい。上記の通り、第1音が第2空力音であることから、xの値としてβが用いられて、第1音データが処理されるとよい。このとき、例えば、βは2.5である。
 また、本変形例に係る第1オブジェクトオーディオ情報においては、オブジェクト(扇風機F)の位置に第1音(第2空力音)を示す第1音データが関連付けられている。このため、第2処理部240は、距離Dが増加するほど第1音B2の音量が減衰するように第1音データB2を処理することで、受聴者Lが受聴する仮想空間での第1音(第2空力音)を、受聴者Lが受聴する現実空間での第1音(第2空力音)に似た音とすることができる。
 また、第2処理部240は、第3取得部210によって取得された第1オブジェクトオーディオ情報が含む単位距離情報が示す単位距離よりも算出された距離Dが大きい場合に、以下の処理を行うとよい。つまりは、第2処理部240は、この場合に、算出された距離Dと単位距離とに応じて、第1音の音量が減衰するように第1音データを処理する。この処理について、図20を用いて説明する。
 図20は、本変形例に係る第2処理部240の処理を説明するための図である。図20には、オブジェクト(扇風機F)及び受聴者Lの位置関係が示されている。受聴者Lは、オブジェクト(扇風機F)から放射された風Wの正面方向に位置している。上記説明の通り、単位距離情報には、オブジェクトの位置から当該正面方向に単位距離離れた位置における空力音を示す空力音データが示されている。図20が示す例においては、第1音データが当該空力音データに相当する。第2処理部240は、単位距離よりも算出された距離Dが大きい場合に、オブジェクトの位置から単位距離離れた位置における空力音を示す空力音データに、距離Dが増加するほど、第1音(第2空力音)の音量が減衰するような処理をする。
 さらに、第2処理部240は、オブジェクト(扇風機F)から放射された風Wの正面方向と第2算出部220によって算出された二点間方向とがなす角度及び指向性情報が示す特性に基づいて第1音の音量を制御するように、第1音データを処理するとよい。この処理について図21を用いて説明する。
 図21は、本変形例に係る第2処理部240の他の処理を説明するための図である。図21には、オブジェクト(扇風機F)及び受聴者Lの位置関係が示されている。受聴者Lは、オブジェクト(扇風機F)から方向D31の方向に位置している。この場合、上記正面方向と上記二点間方向とがなす角度は、θ1である。仮に受聴者Lが正面方向の位置(破線で示される受聴者Lの位置)に居る場合に比べ、図21に示される受聴者Lの位置(実線で示される受聴者Lの位置)に居る場合に、受聴者Lが受ける風Wの風速は、低くなる。
 図21に示される位置に居る受聴者Lが受ける風速は、正面方向の位置に居る受聴者Lが受ける風速に上記C1が乗算された値となる。受聴者Lが受聴する第1音(第2空力音)の音量は受聴者Lが受ける風速に応じて変化するため、第2処理部240は、当該風速に応じて第1音データ(ここでは、単位距離情報に示される空力音データ)を処理するとよい。
 なお、第2処理部240は、図20で説明された処理と図21で説明された処理との両方を行って、処理された1つの第1音データ(空力音データ)が第2出力部250に出力されるとよい。
 第2出力部250は、第2処理部240によって処理された第1音データ(空力音データ)を出力する。ここでは、第2出力部250は、第1音データをヘッドフォン20に出力する。これにより、ヘッドフォン20は、出力された第1音データが示す第1音を再生することができる。
 記憶部270は、第3取得部210と、第2算出部220と、第2処理部240と、第2出力部250とが実行するコンピュータプログラムなどが記憶される記憶装置である。
 以下、情報生成装置40によって行われる情報生成方法の動作例4と、音響信号処理装置200によって行われる音響信号処理方法の動作例5とについて説明する。
 [動作例4]
 図22は、本変形例に係る情報生成装置40の動作例4のフローチャートである。
 図22が示すように、はじめに、受付部41は、ユーザから第1音データと第1位置情報とを示す操作を受付ける(S110)。つまり、ユーザが受付部41を操作することで、第1音データと第1位置情報とが入力される。
 次に、第2取得部42は、仮想空間における受聴者Lの位置に関連する位置で生じる第1音を示す第1音データと、仮想空間におけるオブジェクトの位置を示す第1位置情報とを取得する(S120)。ここでは、第2取得部42は、ステップS110で入力された第1音データと第1位置情報とを取得する。このステップS120が第2取得ステップに相当する。
 続いて、第1生成部43は、第2取得部42によって取得された第1音データ及び第1位置情報から、オブジェクトに関する情報と、第1位置情報と、単位距離情報と、指向性情報とを含む第1オブジェクトオーディオ情報を生成する(S130)。また、生成された第1オブジェクトオーディオ情報は、フラグ情報を含んでいてもよい。このステップS130が第1生成ステップに相当する。
 さらに、出力部44は、第2取得部42によって取得された第1音データ及び第1位置情報と、第1生成部43によって生成された第1オブジェクトオーディオ情報とを、音響信号処理装置200へ出力する(S140)。
 [動作例5]
 図23は、本変形例に係る音響信号処理装置200の動作例5のフローチャートである。
 図23が示すように、はじめに、第3取得部210は、情報生成装置40によって生成された第1オブジェクトオーディオ情報、情報生成装置40によって取得された第1音データ、及び、ヘッドフォン20から出力された第2位置情報を取得する(S210)。このステップS210が第3取得ステップに相当する。
 次に、第2算出部220は、第3取得部210によって取得された第1オブジェクトオーディオ情報が含む第1位置情報、及び、取得された第2位置情報に基づいて、オブジェクト(扇風機F)と受聴者Lとの距離Dを算出し、かつ、第3取得部210によって取得された第1オブジェクトオーディオ情報が含む第1位置情報、及び、取得された第2位置情報に基づいて、オブジェクト(扇風機F)と受聴者Lとを結ぶ二点間方向を算出する。(S220)。このステップS220が第2算出ステップに相当する。
 続いて、第2処理部240は、上記正面方向と第2算出部220によって算出された二点間方向とがなす角度及び指向性情報が示す特性に基づいて第1音の音量を制御するように、かつ、第3取得部210によって取得された第1オブジェクトオーディオ情報が含む単位距離情報が示す単位距離よりも算出された距離Dが大きい場合に算出された距離Dと単位距離とに応じて第1音の音量が減衰するように、第1音データを処理する(S230)。
 さらに、第2処理部240は、第1オブジェクトオーディオ情報にフラグ情報が含まれている場合には、当該フラグ情報に従って、第1音データに基づく第1音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理を行うか否かを決定する。ここでは、一例として、第2処理部240は、フラグ情報に従って、第1音データに基づく第1音信号に頭部伝達関数を畳み込む処理を行う(S240)。このステップS230及びS240が第2処理ステップに相当する。
 そして、第2出力部250は、第2処理部240によって処理された第1音データ(第1音信号)を出力する(S250)。このステップS250が第2出力ステップに相当する。
 本変形例に係る情報生成方法は、オブジェクトの位置に、オブジェクトに起因して受聴者Lの位置に関連する位置で生じる第1音(第2空力音)を示す第1音データが関連付けられた第1オブジェクトオーディオ情報を生成することができる。さらに、本変形例に係る音響信号処理方法は、オブジェクトと受聴者Lとの距離Dが増加するほど第1音(第2空力音)の音量が減衰するように第1音データを処理することで、受聴者Lが受聴する仮想空間での第1音(第2空力音)は、受聴者Lが受聴する現実空間での第1音(第2空力音)に似た音となる。つまり、受聴者Lは、違和感を覚える第1音(第2空力音)を受聴することがなく、受聴者Lは臨場感を得ることができる。
 (実施の形態の変形例4)
 以下、実施の形態の変形例4について説明する。以下では、実施の形態の変形例3との相違点を中心に説明し、共通点の説明を省略又は簡略化する。
 [構成]
 まず、本実施の形態の変形例4に係る情報生成装置40及び音響信号処理装置200cの構成について説明する。図24は、本変形例に係る情報生成装置40及び音響信号処理装置200cの機能構成を示すブロック図である。
 本変形例においては、変形例3に係る情報生成装置40が用いられる。音響信号処理装置200cは、第2算出部220を備えない点、及び、第2処理部240にかえて第2処理部240cを備える点を除いて、変形例3に係る音響信号処理装置200と同じ構成を備える。
 本変形例においては、音響信号処理装置200cは、オブジェクトに起因して受聴者Lの位置に関連する位置で生じる第1音と、当該オブジェクトに起因する第2音とを取り扱う装置である。本変形例に係るオブジェクトは、変形例2と同じく救急車Aである。
 第1音は、オブジェクト(救急車A)から放射された風Wが受聴者Lの耳に到達することで生じる空力音、つまりは、第2空力音である。第2音は、救急車Aから発されるサイレン音である。
 図24が示すように、音響信号処理装置200cは、第3取得部210と、第2処理部240cと、第2出力部250と、記憶部270とを備える。
 本変形例に係る第3取得部210は、情報生成装置40で生成された第1オブジェクトオーディオ情報、情報生成装置40で取得された第1音データ、及び、第2オブジェクトオーディオ情報を取得する。第2オブジェクトオーディオ情報は、仮想空間におけるオブジェクト(救急車A)の位置を示す第1位置情報と、オブジェクト(救急車A)に起因する第2音を示す第2音データとが関連付けられた情報である。なお、第2オブジェクトオーディオ情報は、第2音を示す第2音データと当該第2音が発生する位置を示す第1位置情報とが関連付けられたデータであるため、特許文献1に開示される技術などの従来の技術におけるオブジェクトオーディオ情報に相当する。
 第2オブジェクトオーディオ情報は、情報生成装置40で生成され音響信号処理装置200cに出力されるとよい。第3取得部210は、出力された第2オブジェクトオーディオ情報を取得する。
 第2処理部240cは、第3取得部210によって取得された第1音データ、及び、第3取得部210によって取得された第2オブジェクトオーディオ情報が含む第2音データを以下のように処理する。
 まずは、第2音データへの処理について説明する。
 第2処理部240cは、第3取得部210によって取得された第2オブジェクトオーディオ情報が示す第2音データに基づく第2音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をする。
 続いて、第1音データへの処理について説明する。
 一例として、第2処理部240cは、第3取得部210によって取得された第1音データに基づく第1音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をしない。また他の一例として、第2処理部240cは、第3取得部210によって取得された第1音データに基づく第1音信号に、風Wが救急車Aから受聴者Lへ到来する方向に依存した処理をする。この他の一例の処理について、図25を用いて説明する。
 図25は、本変形例に係る第1音データへの処理を説明するための図である。
 図25が示すように、オブジェクト(救急車A)と受聴者Lとの位置関係によっては、受聴者Lの右耳及び左耳で、風Wの到達の速さ及び風量が異なる。図25では、左耳では風Wの到達がより速くかつ風量がより大きく、右耳では風Wの到達がより遅くかつ風量がより小さい。
 このため、第2処理部240cは、風Wが救急車Aから受聴者Lへ到来する方向に依存した処理として、以下の処理を第1音データへ行うとよい。つまり、受聴者Lが受聴する第1音(第2空力音)が受聴者Lの両耳に到達する時間差及び風量比が模擬された音となるように、第1音データへ処理を行うとよい。これにより、受聴者Lは、風Wの発生源の方向を知覚させることができる。
 なお、第1オブジェクトオーディオ情報には、第2処理部240cが、第1音信号に頭部伝達関数を畳み込む処理をしないか、第1音信号に風Wが救急車Aから受聴者Lへ到来する方向に依存した処理をするかを示す処理情報が含まれている。第2処理部240cは、第1オブジェクトオーディオ情報が含む処理情報に従って、第1音信号への処理を行う。
 本変形例に係る第2出力部250は、第2処理部240cで処理された第2音信号を出力する。第2処理部240cが第1音信号を処理しなかった場合には、第2出力部250は、処理されていない第1音信号を出力する。また、第2処理部240cが第1音信号を処理した場合には、第2出力部250は、処理された第1音信号を出力する。
 また、本変形例に係る記憶部270には、第2処理部240cが用いる頭部伝達関数、及び、風Wが救急車Aから受聴者Lへ到来する方向に依存した処理に必要な情報が記憶されている。
 以下、音響信号処理装置200cによって行われる音響信号処理方法の動作例5及び動作例6について説明する。
 [動作例6]
 図26は、本変形例に係る音響信号処理装置200cの動作例6のフローチャートである。本動作例においては、第2処理部240cは、第1音信号を処理しない例である。
 図26が示すように、はじめに、第3取得部210は、情報生成装置40で生成された第1オブジェクトオーディオ情報、情報生成装置40で取得された第1音データ、及び、第1位置情報と第2音データとが関連付けられた第2オブジェクトオーディオ情報を取得する(S310)。このステップS310が第3取得ステップに相当する。
 第2処理部240cは、第3取得部210によって取得された第1音データに基づく第1音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をしない(S320)。
 第2処理部240cは、第3取得部210によって取得された第2オブジェクトオーディオ情報が示す第2音データに基づく第2音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をする(S330)。このステップS320及びS330が第2処理ステップに相当する。
 第2出力部250は、第2処理部240cで処理されていない第1音信号、及び、第2処理部240cで処理された第2音信号を出力する(S340)。このステップS340が第2出力ステップに相当する。
 [動作例7]
 図27は、本変形例に係る音響信号処理装置200cの動作例7のフローチャートである。本動作例においては、第2処理部240cは、第1音信号を処理する例である。
 図27が示すように、はじめに、ステップS310が行われる。
 第2処理部240cは、第3取得部210によって取得された第1音データに基づく第1音信号に、風Wが救急車Aから受聴者Lへ到来する方向に依存した処理をする(S320c)。
 続いて、ステップS330が行われる。
 そして、第2出力部250は、第2処理部240cで処理された第1音信号、及び、第2処理部240cで処理された第2音信号を出力する(S340c)。
 本変形例においては、受聴者Lが受聴する仮想空間での第2音は、第2音データに基づく第2音信号に頭部伝達関数が畳み込まれるため、受聴者Lが受聴する現実空間での第2音に似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。
 また、動作例7においては、受聴者Lが受聴する仮想空間での第1音は、第1音データに基づく第1音信号に風Wが到来する方向に依存した処理が行われるため、受聴者Lが受聴する現実空間での第1音に似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。
 (実施の形態の変形例5)
 以下、実施の形態の変形例5について説明する。以下では、実施の形態の変形例4との相違点を中心に説明し、共通点の説明を省略又は簡略化する。
 [構成]
 まず、本実施の形態の変形例5に係る情報生成装置40及び音響信号処理装置200dの構成について説明する。図28は、本変形例に係る情報生成装置40及び音響信号処理装置200dの機能構成を示すブロック図である。
 本変形例においては、変形例4に係る情報生成装置40が用いられる。音響信号処理装置200dは、第2処理部240cにかえて第2処理部240dを備える点を除いて、変形例4に係る音響信号処理装置200cと同じ構成を備える。
 変形例4では、1つのオブジェクトである救急車Aに起因して受聴者Lの位置に関連する位置で生じる第1音(第2空力音)と、当該1つのオブジェクトである救急車Aに起因する音である第2音(サイレン音)とが取り扱われた。そして、変形例5では、1つのオブジェクトである救急車Aに起因して受聴者Lの位置に関連する位置で生じる第1音(第2空力音)と、当該1つのオブジェクトとは異なるオブジェクトであって仮想空間における他の1つのオブジェクトに起因する第3音とが取り扱われる。
 他の1つのオブジェクトは、1つのオブジェクトと同じく、仮想空間内で実行されるコンテンツ(ここでは一例として映像)を表示する表示部30に表示される当該コンテンツに含まれるものであれば、特に限定されない。1つのオブジェクト及び他の1つのオブジェクトは、同じ仮想空間内に設けられている。なお、簡単のため、以下、1つのオブジェクトを単にオブジェクトと、他の1つのオブジェクトを単に他のオブジェクトと記載する場合がある。
 第3音は、仮想空間において、他の1つのオブジェクトの位置で発生する音である。なお、第3音は、第1空力音及び第2空力音とは異なる音である。
 このように、本変形例においては、第1音及び第3音、さらに言えば1つのオブジェクト及び他の1つのオブジェクトを含む複数のオブジェクトが取り扱われる。
 本変形例に係る第3取得部210は、情報生成装置40で生成された第1オブジェクトオーディオ情報、情報生成装置40で取得された第1音データ、及び、第3オブジェクトオーディオ情報を取得する。第3オブジェクトオーディオ情報は、仮想空間における他のオブジェクトの位置を示す第3位置情報と他のオブジェクトの位置で発生する第3音を示す第3音データとが関連付けられた情報である。なお、第3オブジェクトオーディオ情報は、第3音を示す第3音データと当該第3音が発生する位置を示す第3位置情報とが関連付けられたデータであるため、特許文献1に開示される技術などの従来の技術におけるオブジェクトオーディオ情報に相当する。
 第3オブジェクトオーディオ情報は、情報生成装置40で生成され音響信号処理装置200dに出力されるとよい。第3取得部210は、出力された第3オブジェクトオーディオ情報を取得する。
 第2処理部240dは、第3取得部210によって取得された第1音データ、及び、第3取得部210によって取得された第3オブジェクトオーディオ情報が含む第3音データを以下のように処理する。
 第2処理部240dは、第1音データに基づく第1音信号に風Wが救急車Aから受聴者Lへ到来する方向に依存した処理をする。また、第2処理部240dは、取得された第3オブジェクトオーディオ情報が示す第3音データに基づく第3音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をする。つまり本変形例においては、第2処理部240dは、第1音信号に、図25で説明された処理と同じ処理を行う。また、第2処理部240dは、第3音信号に、変形例4に係る第2音信号と同じ処理を行う。
 そして、本変形例に係る第2出力部250は、第2処理部240dで処理された第1音信号、及び、第2処理部240dで処理された第3音信号を出力する。
 以下、音響信号処理装置200dによって行われる音響信号処理方法の動作例8について説明する。
 [動作例8]
 図29は、本変形例に係る音響信号処理装置200dの動作例8のフローチャートである。
 図29が示すように、はじめに、第3取得部210は、情報生成装置40で生成された第1オブジェクトオーディオ情報、情報生成装置40で取得された第1音データ、及び、他のオブジェクトの位置を示す第3位置情報と他のオブジェクトの位置で発生する第3音を示す第3音データとが関連付けられた第3オブジェクトオーディオ情報を取得する(S310d)。このステップS310dが第3取得ステップに相当する。
 第2処理部240dは、第3取得部210によって取得された第1音データに基づく第1音信号に、風Wが救急車Aから受聴者Lへ到来する方向に依存した処理をする(S320c)。
 第2処理部240dは、第3取得部210によって取得された第3オブジェクトオーディオ情報が示す第3音データに基づく第3音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をする(S330d)。このステップS320c及びS330dが第2処理ステップに相当する。
 そして、第2出力部250は、第2処理部240dで処理された第1音信号、及び、第2処理部240dで処理された第3音信号を出力する(S340d)。このステップS340dが第2出力ステップに相当する。
 本変形例においては、仮想空間にオブジェクト及び他のオブジェクトを含む複数のオブジェクトが設けられた場合に、受聴者Lが受聴する仮想空間での第1音及び第3音は、それぞれ受聴者Lが受聴する現実空間での第1音及び第3音に似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。
 (実施の形態の変形例6)
 以下、実施の形態の変形例6について説明する。以下では、実施の形態の変形例3との相違点を中心に説明し、共通点の説明を省略又は簡略化する。
 [構成]
 まず、本実施の形態の変形例6に係る情報生成装置50及び音響信号処理装置400の構成について説明する。図30は、本変形例に係る情報生成装置50及び音響信号処理装置400の機能構成を示すブロック図である。
 本変形例に係る情報生成装置50及び音響信号処理装置400は、変形例3と同じく、(本開示の基礎となった知見)で説明された、受聴者Lが違和感を覚える第2空力音を受聴することになってしまうという問題の発生を抑制することができる。本変形例においては、変形例3と同じく、オブジェクトは扇風機Fであるが、これに限られず、風Wを放射することができるオブジェクトであればよい。また、オブジェクトから放射された風Wとは、図13が示すように、移動体などのオブジェクト(救急車A)が移動したことにより巻き起こる風も含む。
 情報生成装置50は、第4オブジェクトオーディオ情報を生成して、音響信号処理装置400へ出力する装置である。音響信号処理装置400は、出力された第4オブジェクトオーディオ情報を取得して、取得された第4オブジェクトオーディオ情報に基づいて、音データをヘッドフォン20へ出力する装置である。
 まずは、図30が示す情報生成装置50について説明する。
 情報生成装置50は、第2受付部51と、第4取得部52と、第2生成部53と、第3出力部54と、記憶部55とを備える。
 第2受付部51は、情報生成装置50のユーザ(例えば、仮想空間内で実行されるコンテンツの作成者)からの操作を受付ける。第2受付部51は、具体的には、ハードウェアボタンで実現されるが、タッチパネルなどによって実現されてもよい。
 第4取得部52は、仮想空間で吹く第1風の発生位置と、第1風の第1風向と、第1想定風速とを取得する。
 本変形例においては、仮想空間で吹く第1風は、オブジェクトである扇風機Fから放射された風Wである。つまり第1風の発生位置は、扇風機Fが配置された位置である。なお、本変形例においては、第1風が仮想空間で吹いていればよく、この第1風を放射するオブジェクトである扇風機Fが、仮想空間(より具体的には、受聴者Lが居る仮想空間)内に配置されている必要はない。つまり、扇風機Fは、受聴者Lが居る仮想空間外に配置され、この扇風機Fから放射された風Wである第1風が当該仮想空間に到達していればよい。また、当然ながら、第1風を放射するオブジェクトである扇風機Fが、受聴者Lが居る仮想空間内に配置されていてもよい。
 第1風向は、第1風の風向であり、オブジェクト(扇風機F)から放射された風Wの正面方向であり、例えば図19が示す方向Dfである。第1想定風速は、第1風の風速であれば良く、ここでは、第1風向の方向に発生位置から基準となる距離である単位距離離れた位置での第1風の風速である。つまり、第1想定風速は、例えば図19が示す風速wsFである。
 上記の通り仮想空間ではオブジェクトである扇風機Fから放射された風Wである第1風が吹いていることから、受聴者Lは、この風W(第1風)が受聴者Lの耳に到達することで生じる空力音(第2空力音)を受聴することとなる。
 なお、本変形例においては、第2受付部51が、ユーザから第1風の発生位置、第1風向、及び、第1想定風速を示す操作を受付ける。つまり、ユーザが第2受付部51を操作することで、第1風の発生位置、第1風向、及び、第1想定風速が入力され、第4取得部52は、入力された第1風の発生位置、第1風向、及び、第1想定風速を取得する。
 第2受付部51が、ユーザから単位距離が第2指定値であることを指定する操作を受付けているとよい。つまり、ユーザが第2受付部51を操作することで、単位距離が第2指定値であることが設定される。
 第2生成部53は、第4取得部52によって取得された発生位置と、第1風向と、第1想定風速とが関連付けられた第4オブジェクトオーディオ情報を生成する。
 なお、第2受付部51が、ユーザから第1風の方向に応じた特性を示す指向性情報を指定する操作を受付けているとよい。指向性情報は、図19などで説明された情報と同じである。このような操作が受付けられている場合には、第2生成部53は、発生位置、第1風向及び第1想定風速と、第2受付部51によって受付けられた操作が示す指向性情報とが関連付けられた第4オブジェクトオーディオ情報を生成する。
 記憶部55は、第2受付部51、第4取得部52、第2生成部53及び第3出力部54が実行するコンピュータプログラムなどが記憶される記憶装置である。なお、記憶部55には、代表風速と、代表風速の風が仮想空間における受聴者Lの耳に到達することで生じる空力音(第2空力音)を示す空力音データとを含む空力音コア情報が記憶されているものとする。ただし、空力音コア情報は、必ずしも情報生成装置50に記憶されていなくてもよく、情報生成装置50からは独立したメモリに記憶されていてもよい。
 なお、本変形例においては、第2受付部51が、ユーザから空力音コア情報を示す操作を受付ける。つまり、ユーザが第2受付部51を操作することで、空力音コア情報が入力され、記憶部55に、入力された空力音コア情報が記憶される。
 空力音コア情報には、1つの風速の値の例を示す代表風速、及び、この代表風速の風が受聴者Lの耳に到達することで生じる空力音を示す空力音データが示されており、後述する音響信号処理装置400での情報処理に用いられるデータベースである。空力音(第2空力音)を示す空力音データは、当該第2空力音の音量などを示す。また空力音コア情報は、空力音の周波数成分の分布を示すデータ(以下周波数データと記載する場合がある)を含むとよい。例えば、周波数データは、空力音(第2空力音)の周波数特性が示されたデータである。
 このような空力音コア情報は、後述する第3処理部440において、受聴者Lが受聴する第2空力音の音量を、耳到達風速から求めるために用いることもできる。
 なお、空力音コア情報は、代表風速とその代表風速における空力音データの組を、複数組備えていてもよい。例えば、図4Cに示したように、風Wの発生源からの距離が異なるために風速が異なるそれぞれの位置における風速を代表風速とし、代表風速と当該代表風速に対応する周波数データとで組を成し、空力音コア情報は、そのような組を複数組備えてもよい。このように構成された空力音コア情報は、後述する第3処理部440において、受聴者Lが受聴する第2空力音の音量を、耳到達風速をインデックスとして求めるために用いることもできる。
 第3出力部54は、第2生成部53によって生成された第4オブジェクトオーディオ情報と、記憶部55に記憶されている空力音コア情報とを、音響信号処理装置400へ出力する。
 さらに、図30が示す音響信号処理装置400について説明する。
 図30が示すように、音響信号処理装置400は、第5取得部410と、第3算出部420と、第3処理部440と、第4出力部450と、記憶部470とを備える。
 第5取得部410は、情報生成装置50によって出力された第4オブジェクトオーディオ情報及び空力音コア情報と、仮想空間における受聴者Lの位置を示す第2位置情報とを取得する。第5取得部410は、第2位置情報をヘッドフォン20(より具体的には、頭部センサ部21)から取得するがこれに限られない。またここでは、空力音コア情報は、周波数データを含む。
 第3算出部420は、第5取得部410によって取得された第4オブジェクトオーディオ情報が含む発生位置、及び、取得された第2位置情報に基づいて、発生位置(つまりは扇風機F)と受聴者Lとの距離Dを算出する。第3算出部420は、実施の形態に係る第1算出部120と同様の方法で、距離Dを算出する。
 さらに、第3算出部420は、第5取得部410によって取得された第4オブジェクトオーディオ情報が含む発生位置、及び、取得された第2位置情報に基づいて、オブジェクト(扇風機F)と受聴者Lとを結ぶ二点間方向を算出する。
 第3処理部440は、第3算出部420によって算出された距離Dが増加するほど、空力音の音量が減衰するように空力音データを処理する。
 ここでは、第3処理部440は、空力音(第2空力音)の音量が、代表風速を、受聴者Lの耳に到達したときの第1風の風速である耳到達風速で割った値のγ乗で減衰するように、空力音データを処理するとよい。つまり、第3処理部440は、距離Dと、代表風速と、耳到達風速とに基づいて、空力音データを処理する。なお、耳到達風速は、第3算出部420によって算出された距離Dが増加するほど、風速が減速する。また、耳到達風速は、第3算出部420によって算出された距離Dを単位距離で割った値のz乗で減衰する値である。
 より具体的には、第3処理部440は、以下の処理を行う。
 まずは、風Wの正面方向である第1風向(例えば図19が示す方向Df)と、算出された二点間方向とがなす角度をθとする。この場合、受聴者Lの耳に到達したときの第1風の風速である耳到達風速をSe1とすると、Se1は、(式10)を満たす。
 Se1 = 第1想定風速 × 指向性情報が示す角度θにおける値 ×{(基準となる距離である単位距離/距離D)}^z・・・(式10)
 例えば、θがθ1であれば、指向性情報が示す角度θ(角度θ1)における値は、C1である。また、代表風速を耳到達風速Se1で割った値をR1とする。さらに、受聴者Lが受聴する第2空力音の音量であるV3は、(式11)を満たす。
 V3 = 空力音コア情報の空力音データが示す音量 × {(1/R1)}^γ・・・(式11)
 また、zは、(式12)を満たすとよい。
 z=1・・・(式12)
 さらに、γ及びzは、(式13)を満たすとよい。
 γ×z < 4・・・(式13)
 耳到達風速Se1から受聴者Lが受聴する第2空力音の音量V3を求める方法は上記に限らない。例えば、空力音コア情報が、代表風速とその風速における周波数データとの組を複数組備えておき、第3処理部440がSe1に近い代表風速に対する周波数データを検出し、その周波数データを適用することで所定の音量を有する第2空力音を生成してもよい。すなわち、音量V3をSe1から数式によって計算して求めるのではなく、Se1をインデックスとして空力音データが検出され、それを適用することによって所定の音量が達成されるようにしてもよい。第2空力音の音量は、風速が小さいほど小さいのだから、代表風速の小さい周波数データを適用すれば結果的に得られる音量が小さくなるように空力音コア情報を備えてあるはずである。Se1は距離Dが大きくなるにつれて小さくなるのだから、距離Dが大きくなるにつれて音響V3が小さくなるように制御できる。
 第4出力部450は、第3処理部440によって処理された空力音データを出力する。ここでは、第4出力部450は、空力音データをヘッドフォン20に出力する。これにより、ヘッドフォン20は、出力された空力音データが示す第2空力音を再生することができる。
 記憶部470は、第5取得部410と、第3算出部420と、第3処理部440と、第4出力部450とが実行するコンピュータプログラムなどが記憶される記憶装置である。
 なお、第5取得部410が取得した空力音コア情報に、周波数データが含まれている場合には、第3処理部440は、以下の処理を行うとよい。
 第3処理部440は、第3算出部420によって算出された距離Dが増加するほど、空力音(第2空力音)の周波数成分の分布を低周波数側にシフトするように空力音データを処理する。
 ここでは、第3処理部440は、空力音の周波数成分の分布を、代表風速を耳到達風速で割った値(上記のR1)の逆数倍の周波数にシフトさせるように、空力音データを処理する。つまり、空力音コア情報に含まれる周波数成分の分布(処理前の周波数成分の分布)は、第3処理部440に処理されることで、当該周波数にR1の逆数が乗算された周波数へシフトされた周波数成分の分布となる。
 このように、第3処理部440は、距離Dと代表風速と耳到達風速とに基づいて、空力音データを処理する。耳到達風速は、算出された距離Dが増加するほど、風速が減速する。また、耳到達風速は、算出された距離Dを単位距離で割った値のz乗で減衰する値である。また、この場合においてもzは、上記(式12)を満たす。
 以下、情報生成装置50によって行われる情報生成方法の動作例9と、音響信号処理装置400によって行われる音響信号処理方法の動作例10及び動作例11とについて説明する。
 [動作例9]
 図31は、本変形例に係る情報生成装置50の動作例9のフローチャートである。
 図31が示すように、はじめに、第2受付部51は、ユーザから単位距離が第2指定値であることを指定する操作と、第1風の方向に応じた特性を示す指向性情報を指定する操作とを受付ける(S410)。なお、このとき第2受付部51は、ユーザから第1風の発生位置、第1風向、及び、第1想定風速を示す操作を受付けるとよい。つまり、ユーザが第2受付部51を操作することで、単位距離、指向性情報、第1風の発生位置、第1風向、及び、第1想定風速が入力される。このステップS410が第2受付ステップに相当する。
 次に、第4取得部52は、第1風の発生位置と、第1風の第1風向と、第1風向の方向に発生位置から基準となる距離である単位距離離れた位置での第1風の風速である第1想定風速とを取得する(S420)。また、第4取得部52は、指向性情報も取得するとよい。ここでは、第4取得部52は、ステップS410で入力された第1風の発生位置、第1風の第1風向、第1想定風速、及び、指向性情報を取得する。このステップS420が第4取得ステップに相当する。
 次に、第2生成部53は、発生位置と、第1風向と、第1想定風速と、指向性情報とが関連付けられた第4オブジェクトオーディオ情報を生成する(S430)。このステップS430が第2生成ステップに相当する。
 次に、記憶部55には、代表風速と、代表風速の風が受聴者Lの耳に到達することで生じる空力音を示す空力音データとを含む空力音コア情報が記憶される(S440)。この空力音コア情報は、空力音の周波数成分の分布を示すデータを含む場合がある。このステップS440が記憶ステップに相当する。
 第3出力部54は、第2生成部53によって生成された第4オブジェクトオーディオ情報と、記憶部55に記憶されている空力音コア情報とを、音響信号処理装置400へ出力する(S450)。このステップS450が第3出力ステップに相当する。
 [動作例10]
 図32は、本変形例に係る音響信号処理装置400の動作例10のフローチャートである。動作例10は、第3処理部440が空力音の音量を制御する例である。
 図32が示すように、はじめに、第5取得部410は、情報生成装置50によって出力された第4オブジェクトオーディオ情報及び空力音コア情報と、仮想空間における受聴者Lの位置を示す第2位置情報とを取得する(S510)。このステップS510が第5取得ステップに相当する。
 次に、第3算出部420は、第5取得部410によって取得された第4オブジェクトオーディオ情報が含む発生位置、及び、取得された第2位置情報に基づいて、発生位置と受聴者Lとの距離Dを算出する(S520)。なお、このとき、第3算出部420は、第5取得部410によって取得された第4オブジェクトオーディオ情報が含む発生位置、及び、取得された第2位置情報に基づいて、オブジェクト(扇風機F)と受聴者Lとを結ぶ二点間方向を算出する。このステップS520が第3算出ステップに相当する。
 続いて、第3処理部440は、第3算出部420によって算出された距離Dが増加するほど、空力音の音量が減衰するように空力音データを処理する(S530)。より具体的には、第3処理部440は、空力音の音量が、代表風速を耳到達風速で割った値のγ乗で減衰するように、空力音データを処理する。このステップS530が第3処理ステップに相当する。
 第4出力部450は、第3処理部440によって処理された空力音データを出力する(S540)。このステップS540が第4出力ステップに相当する。
 [動作例11]
 図33は、本変形例に係る音響信号処理装置400の動作例11のフローチャートである。動作例11は、第3処理部440が空力音の周波数成分を制御する例である。
 図33が示すように、はじめに、第5取得部410は、情報生成装置50によって出力された第4オブジェクトオーディオ情報及び空力音の周波数成分の分布を示すデータを含む空力音コア情報と、仮想空間における受聴者Lの位置を示す第2位置情報とを取得する(S510f)。このステップS510fが第5取得ステップに相当する。
 次に、ステップS520の処理が行われる。
 続いて、第3処理部440は、第3算出部420によって算出された距離Dが増加するほど、空力音の周波数成分の分布を低周波数側にシフトするように空力音データを処理する(S530f)。より具体的には、第3処理部440は、空力音の周波数成分の分布を、代表風速を耳到達風速で割った値(上記のR1)の逆数倍の周波数にシフトさせるように、空力音データを処理する(S530f)。このステップS530fが第3処理ステップに相当する。
 第4出力部450は、第3処理部440によって処理された空力音データを出力する(S540)。このステップS540が第4出力ステップに相当する。
 本変形例に係る情報生成方法は、発生位置、第1風向及び第1想定風速が関連付けられた第4オブジェクトオーディオ情報を生成することができる。本変形例に係る音響信号処理方法は、例えば、オブジェクトと受聴者Lとの距離Dが増加するほど空力音(第2空力音)の音量が減衰するように空力音データを処理する。また例えば、本変形例に係る音響信号処理方法は、オブジェクトと受聴者Lとの距離Dが増加するほど空力音の周波数成分の分布が低周波数側にシフトされるように空力音データを処理する。従って、受聴者Lが受聴する仮想空間での空力音(第2空力音)は、受聴者Lが受聴する現実空間での空力音(第2空力音)に似た音となる。つまり、受聴者Lは、違和感を覚える空力音(第2空力音)を受聴することがなく、受聴者Lは臨場感を得ることができる。
 (実施の形態の変形例7)
 以下、実施の形態の変形例7について説明する。以下では、実施の形態の変形例6との相違点を中心に説明し、共通点の説明を省略又は簡略化する。
 [構成]
 まず、本実施の形態の変形例7に係る情報生成装置60及び音響信号処理装置500の構成について説明する。図34は、本変形例に係る情報生成装置60及び音響信号処理装置500の機能構成を示すブロック図である。
 本変形例に係る情報生成装置60及び音響信号処理装置500は、変形例6と同じく、(本開示の基礎となった知見)で説明された、受聴者Lが違和感を覚える第2空力音を受聴することになってしまうという問題の発生を抑制することができる。本変形例においては、変形例6と同じく、オブジェクトは扇風機Fである。
 変形例6においては、仮想空間におけるオブジェクトである扇風機Fから放射された風Wである第1風が取り扱われた。変形例7においては、第1風と、第1風とは異なる風である第2風とが取り扱われる。本変形例に係る第1風は、変形例6と同じく、仮想空間におけるオブジェクトである扇風機Fから放射された風Wである。また、第2風は、仮想空間におけるオブジェクトに起因する風である必要はない。本変形例においては、第2風は、現実空間において自然界で発生した風が仮想空間で再現された風(以下、自然風)である。また、第2風は、自然風であるため、その発生位置を仮想空間で特定されることはできない風である。
 情報生成装置60は、第1風に係る第4オブジェクトオーディオ情報及び第2風に係る第5オブジェクトオーディオ情報を生成して、音響信号処理装置500へ出力する装置である。音響信号処理装置500は、出力された第4オブジェクトオーディオ情報及び第5オブジェクトオーディオ情報を取得して、取得された第4オブジェクトオーディオ情報及び第5オブジェクトオーディオ情報に基づいて、音データをヘッドフォン20へ出力する装置である。
 まずは、図34が示す情報生成装置60について説明する。
 情報生成装置60は、第3受付部61と、第7取得部62と、第4生成部63と、第6出力部64と、記憶部65と、表示部66とを備える。
 第3受付部61は、情報生成装置60のユーザ(例えば、仮想空間内で実行されるコンテンツの作成者)からの操作を受付ける。第3受付部61は、具体的には、ハードウェアボタンで実現されるが、タッチパネルなどによって実現されてもよい。
 第7取得部62は、仮想空間で吹く第1風の発生位置と、第1風の第1風向と、第1想定風速と、仮想空間で吹く第2風の第2風向と、第2想定風速とを取得する。
 本変形例においては、仮想空間で吹く第1風は、変形例6と同じく、オブジェクトである扇風機Fから放射された風Wである。つまり第1風の発生位置は、扇風機Fが配置された位置である。なお、本変形例においても、変形例6と同じく、第1風が仮想空間で吹いていればよく、この第1風を放射するオブジェクトである扇風機Fが、仮想空間(より具体的には、受聴者Lが居る仮想空間)内に配置されている必要はない。つまり、変形例6と同じく、第1風を放射するオブジェクトである扇風機Fが、受聴者Lが居る仮想空間内に配置されていても、配置されていなくてもよい。
 第1風向は、第1風の風向であり、オブジェクト(扇風機F)から放射された風Wの正面方向であり、例えば図19が示す方向Dfである。本変形例に係る第1想定風速は、第1風の風速を示せばどのような値であってもよい。ここでは、第1想定風速は、変形例6と同じく、第1風向の方向に発生位置から基準となる距離である単位距離離れた位置での第1風の風速である。つまり、第1想定風速は、例えば図19が示す風速wsFである。
 上記の通り仮想空間ではオブジェクトである扇風機Fから放射された風Wである第1風が吹いていることから、受聴者Lは、この風W(第1風)が受聴者Lの耳に到達することで生じる空力音(第2空力音)を受聴することとなる。
 また、第2風は自然風であり、第2風向は、第2風の風向きである。例えば第2風が南南西の風である場合には、第2風向は、南南西を示す。この場合、仮想空間における方向を示す幾何学的、或いは、数学的な方向と、東西南北を示す地理的な方向との関係性が予め定められていることが必要であることは言うまでもない。
 第2想定風速は、第2風の風速である。第2風は自然風であるため、仮想空間内の場所に依存せず、第2想定風速は一定の値を示す。つまり、仮想空間の受聴者Lの位置に依存せず、受聴者Lは、一定の風速の第2風を浴びることとなる。
 また、仮想空間内で第2風が吹いていることから、受聴者Lは、第2風が受聴者Lの耳に到達することで生じる空力音(第2空力音)を受聴することとなる。
 従って、本変形例においては、受聴者Lは、第1風による第2空力音、及び、第2風による第2空力音の少なくとも一方を受聴することとなる。
 なお、本変形例においては、第3受付部61が、ユーザから第1風の発生位置、第1風向、第1想定風速、第2風向及び第2想定風速を示す操作を受付ける。つまり、ユーザが第3受付部61を操作することで、第1風の発生位置、第1風向、第1想定風速、第2風向及び第2想定風速が入力され、第7取得部62は、入力された第1風の発生位置、第1風向、第1想定風速、第2風向及び第2想定風速を取得する。第3受付部61が、ユーザから第1想定風速及び第2想定風速を示す操作を受付ける処理の詳細については、表示部66の処理を用いて、後述する。
 第3受付部61が、ユーザから単位距離が第2指定値であることを指定する操作を受付けているとよい。つまり、ユーザが第3受付部61を操作することで、単位距離が第2指定値であることが設定される。
 第4生成部63は、第7取得部62によって取得された発生位置と、第1風向と、第1想定風速とが関連付けられた第4オブジェクトオーディオ情報を生成する。第4生成部63は、第7取得部62によって取得された第2風向と第2想定風速とが関連付けられた第5オブジェクトオーディオ情報を生成する。
 なお、第3受付部61が、ユーザから第1風の方向に応じた特性を示す指向性情報を指定する操作を受付けているとよい。指向性情報は、図19などで説明された情報と同じである。このような操作が受付けられている場合には、第4生成部63は、発生位置、第1風向及び第1想定風速と、第3受付部61によって受付けられた操作が示す指向性情報とが関連付けられた第4オブジェクトオーディオ情報を生成する。
 記憶部65は、第3受付部61、第7取得部62、第4生成部63、第6出力部64及び表示部66が実行するコンピュータプログラムなどが記憶される記憶装置である。なお、記憶部65には、代表風速と、代表風速の風が仮想空間における受聴者Lの耳に到達することで生じる空力音(第2空力音)を示す空力音データとを含む空力音コア情報が記憶されている。
 なお、本変形例においては、第3受付部61が、ユーザから空力音コア情報を示す操作を受付ける。つまり、ユーザが第3受付部61を操作することで、空力音コア情報が入力され、記憶部65に、入力された空力音コア情報が記憶される。
 空力音コア情報には、1つの風速の値の例を示す代表風速、及び、この代表風速の風が受聴者Lの耳に到達することで生じる空力音を示す空力音データが示されており、後述する音響信号処理装置500での情報処理に用いられるデータベースである。空力音(第2空力音)を示す空力音データは、当該第2空力音の音量などを示す。
 第6出力部64は、第4生成部63によって生成された第4オブジェクトオーディオ情報と、第4生成部63によって生成された第5オブジェクトオーディオ情報とを出力する。より具体的には、第6出力部64は、第1風の発生位置が仮想空間(より具体的には、受聴者Lが居る仮想空間)にある場合には、第4生成部63によって生成された第4オブジェクトオーディオ情報を出力する。第6出力部64は、第1風の発生位置が仮想空間にない場合には、第4生成部63によって生成された第5オブジェクトオーディオ情報を出力する。第6出力部64は、第4オブジェクトオーディオ情報又は第5オブジェクトオーディオ情報を、音響信号処理装置500へ出力する。また、第6出力部64は、記憶部65に記憶されている空力音コア情報を、音響信号処理装置500へ出力する。
 表示部66は、風速と当該風速を表現する言葉とが紐づけられた画像を表示する表示装置である。表示部30は、例えば、液晶パネル又は有機EL(Electro Luminescence)パネルなどの表示パネルによって実現される。
 図35は、本変形例に係る表示部66に表示される画像の一例を示す図である。当該画像は、風速と当該風速を表現する言葉とが紐づけられた画像である。当該画像には、例えば、風速が0.0-0.2[m/s]である場合には、当該風速を表現する言葉が「平穏」であることが示されている。また、当該風速の風が吹いている場合の「陸上」及び「海上」での風の説明が表示されている。また、画像とは、文字、図形及びイラストなどを含めばよい。
 ユーザは、表示部66に表示された当該画像を視認する。そして、第3受付部61は、ユーザから、第1想定風速として表示された画像が示す風速を指定する第1操作、及び、第2想定風速として表示された画像が示す風速を指定する第2操作を受付ける。つまり、ユーザが第3受付部61を操作することで、第1想定風速及び第2想定風速が入力され、第7取得部62は、入力された第1想定風速及び第2想定風速を取得する。
 さらに、図34が示す音響信号処理装置500について説明する。
 音響信号処理装置500は、情報生成装置60によって第4オブジェクトオーディオ情報が出力された場合には、第4オブジェクトオーディオ情報に係る第1風による第2空力音についての処理を行う。また、音響信号処理装置500は、情報生成装置60によって第5オブジェクトオーディオ情報が出力された場合には、第5オブジェクトオーディオ情報に係る第2風による第2空力音についての処理を行う。
 図34が示すように、音響信号処理装置500は、第8取得部510と、第3算出部420と、第4処理部540と、第7出力部550と、記憶部570とを備える。
 第8取得部510は、情報生成装置60によって出力された第4オブジェクトオーディオ情報又は第5オブジェクトオーディオ情報を取得する。第8取得部510は、仮想空間における受聴者Lの位置を示す第2位置情報と、情報生成装置60によって出力された空力音コア情報とを取得する。第8取得部510は、第2位置情報をヘッドフォン20(より具体的には、頭部センサ部21)から取得するがこれに限られない。
 第8取得部510が第4オブジェクトオーディオ情報を取得した場合、つまりは、第1風の発生位置が仮想空間(より具体的には、受聴者Lが居る仮想空間)にある場合には、第3算出部420は、以下の処理を行う。つまり第3算出部420は、第8取得部510によって取得された第4オブジェクトオーディオ情報が含む発生位置、及び、取得された第2位置情報に基づいて、発生位置(つまりは扇風機F)と受聴者Lとの距離Dを算出する。第3算出部420は、実施の形態に係る第1算出部120と同様の方法で、距離Dを算出する。
 さらに、第3算出部420は、第8取得部510によって取得された第4オブジェクトオーディオ情報が含む発生位置、及び、取得された第2位置情報に基づいて、オブジェクト(扇風機F)と受聴者Lとを結ぶ二点間方向を算出する。
 第4処理部540は、第8取得部510によって第4オブジェクトオーディオ情報が取得された場合には、空力音コア情報が含む空力音データを、第8取得部510によって取得された第2位置情報が示す位置に基づいて処理する。つまりこの場合には、第1風による第2空力音についての処理が行われる。より具体的には、第4処理部540は、変形例6に係る第3処理部440と同じく、第3算出部420によって算出された距離Dが増加するほど、空力音の音量が減衰するように空力音データを処理するとよい。第3算出部420によって算出された距離Dは、第2位置情報が示す位置に依存する値である。この場合に第4処理部540によって処理された空力音データは、第1風による第2空力音を示すデータである。
 第4処理部540は、第8取得部510によって第5オブジェクトオーディオ情報が取得された場合には、空力音コア情報が含む空力音データを、第8取得部510によって取得された第2位置情報が示す位置に基づかずに処理する。第2風は自然風であるため、第2風の第2想定風速は、第2位置情報が示す受聴者Lの位置に依存せず、一定の値を示す。従って、第4処理部540は、第2位置情報が示す位置に依存せずに、空力音データを処理する。
 例えば、第5オブジェクトオーディオ情報が取得された場合には、第4処理部540は、以下の処理を行う。
 第2風が受聴者Lの耳に到達したときの第2風の風速である耳到達風速をSe2とすると、Se2は、(式14)を満たす。
 Se2 = 第2想定風速・・・(式14)
 また、代表風速を耳到達風速Se2で割った値をR2とする。さらに、受聴者Lが受聴する第2空力音の音量であるV5は、(式15)を満たす。
 V5 = 空力音コア情報の空力音データが示す音量 × {(1/R2)}^γ・・・(式15)
 記憶部570は、第8取得部510と、第3算出部420と、第4処理部540と、第7出力部550とが実行するコンピュータプログラムなどが記憶される記憶装置である。
 つまり、本変形例においては、オブジェクトから放射された風Wである第1風については、受聴者Lの位置に応じて処理が行われる。しかし、自然風である第2風については、受聴者Lの位置に応じた処理ではなく、受聴者Lの位置に依存しない処理が行われる。
 以下、情報生成装置60によって行われる情報生成方法の動作例12と、音響信号処理装置500によって行われる音響信号処理方法の動作例13とについて説明する。
 [動作例12]
 図36は、本変形例に係る情報生成装置60の動作例12のフローチャートである。
 図36が示すように、はじめに、表示部66は、風速と当該風速を表現する言葉とが紐づけられた画像を表示する(S610)。
 次に、第3受付部61は、ユーザから、第1想定風速として表示された画像が示す風速を指定する第1操作、及び、第2想定風速として表示された画像が示す風速を指定する第2操作を受付ける(S620)。なお、このとき第3受付部61は、ユーザから第1風の発生位置、第1風向、及び、第2風向を示す操作を受付けるとよい。つまり、ユーザが第3受付部61を操作することで、第1風の発生位置、第1風向、第1想定風速、第2風向及び第2想定風速が入力される。このステップS620が第3受付ステップに相当する。
 次に、第7取得部62は、第1風の発生位置と、第1風の第1風向と、第1風の風速である第1想定風速と、第2風の第2風向と、第2風の風速である第2想定風速とを取得する(S630)。ここでは、第7取得部62は、ステップS620で入力された第1風の発生位置、第1風向、第1想定風速、第2風向及び第2想定風速を取得する。このステップS630が第7取得ステップに相当する。
 次に、第4生成部63は、発生位置と第1風向と第1想定風速とが関連付けられた第4オブジェクトオーディオ情報を生成し、かつ、第2風向と第2想定風速とが関連付けられた第5オブジェクトオーディオ情報を生成する(S640)。このステップS640が第4生成ステップに相当する。
 次に、記憶部65には、代表風速と、代表風速の風が受聴者Lの耳に到達することで生じる空力音(第2空力音)を示す空力音データとを含む空力音コア情報が記憶される(S650)。このステップS650が記憶ステップに相当する。
 第6出力部64は、第1風の発生位置が仮想空間にある場合には第4生成部63によって生成された第4オブジェクトオーディオ情報を出力し、第1風の発生位置が仮想空間にない場合には第4生成部63によって生成された第5オブジェクトオーディオ情報を出力する(S660)。このとき、第6出力部64は、記憶部65に記憶されている空力音コア情報も出力するとよい。このステップS660が第6出力ステップに相当する。
 [動作例13]
 図37は、本変形例に係る音響信号処理装置500の動作例13のフローチャートである。
 図37が示すように、はじめに、第8取得部510は、仮想空間における受聴者Lの位置を示す第2位置情報と、情報生成装置60によって出力された第4オブジェクトオーディオ情報又は第5オブジェクトオーディオ情報とを取得する(S710)。またこのとき、第8取得部510は、空力音コア情報も取得するとよい。このステップS710が第8取得ステップに相当する。
 次に、第8取得部510が第4オブジェクトオーディオ情報を取得した場合には、第3算出部420は、以下の処理を行う。つまり、第3算出部420は、第8取得部510によって取得された第4オブジェクトオーディオ情報が含む発生位置、及び、取得された第2位置情報に基づいて、発生位置と受聴者Lとの距離Dを算出する(S720)。なお、このとき、第3算出部420は、第8取得部510によって取得された第4オブジェクトオーディオ情報が含む発生位置、及び、取得された第2位置情報に基づいて、オブジェクト(扇風機F)と受聴者Lとを結ぶ二点間方向を算出する。
 続いて、第4処理部540は、第4オブジェクトオーディオ情報が取得された場合には空力音コア情報が含む空力音データを取得された第2位置情報が示す位置に基づいて処理し、第5オブジェクトオーディオ情報が取得された場合には空力音コア情報が含む空力音データを取得された第2位置情報が示す位置に基づかずに処理する(S730)。このステップS730が第4処理ステップに相当する。
 第7出力部550は、第4処理部540によって処理された空力音データを出力する(S740)。このステップS740が第7出力ステップに相当する。
 本変形例に係る情報生成方法は、発生位置と第1風向と第1想定風速とが関連付けられた第4オブジェクトオーディオ情報、及び、第2風向と第2想定風速とが関連付けられた第5オブジェクトオーディオ情報を生成することができる。本変形例に係る音響信号処理方法は、空力音データを第2位置情報が示す位置に基づいて処理することで、受聴者Lが受聴する仮想空間での第1風による空力音(第2空力音)は、受聴者Lが受聴する現実空間での第1風による空力音(第2空力音)に似た音となる。さらに、本変形例に係る音響信号処理方法は、空力音データを第2位置情報が示す位置に基づかずに処理することで、受聴者Lが受聴する仮想空間での第2風による空力音(第2空力音)は、受聴者Lが受聴する現実空間での第2風による空力音(第2空力音)に似た音となる。つまり、受聴者Lは、違和感を覚える空力音(第2空力音)を受聴することがなく、受聴者Lは臨場感を得ることができる。
 (実施の形態の変形例8)
 以下、実施の形態の変形例8について説明する。以下では、実施の形態の変形例7との相違点を中心に説明し、共通点の説明を省略又は簡略化する。
 [構成]
 まず、本実施の形態の変形例8に係る情報生成装置70及び音響信号処理装置500の構成について説明する。図38は、本変形例に係る情報生成装置70及び音響信号処理装置500の機能構成を示すブロック図である。
 本変形例においては、変形例7に係る音響信号処理装置500が用いられる。本変形例に係る情報生成装置70は、第7取得部62、第4生成部63及び第6出力部64にかえて第6取得部72、第3生成部73及び第5出力部74を備える点と、表示部66とを備えない点とを除いて、変形例7に係る情報生成装置70と同じ構成を有する。
 変形例7においては、第1風と、自然風である第2風とが取り扱われた。本変形例においては、第1風は取り扱わず、自然風である第2風を取り扱う。
 情報生成装置70は、第2風に係る第5オブジェクトオーディオ情報を生成して、音響信号処理装置500へ出力する装置である。音響信号処理装置500は、出力された第5オブジェクトオーディオ情報を取得して、取得された第5オブジェクトオーディオ情報に基づいて、音データをヘッドフォン20へ出力する装置である。
 まずは、図38が示す情報生成装置70について説明する。
 情報生成装置70は、第3受付部61と、第6取得部72と、第3生成部73と、第5出力部74と、記憶部75とを備える。
 第3受付部61は、情報生成装置70のユーザ(例えば、仮想空間内で実行されるコンテンツの作成者)からの操作を受付ける。第3受付部61は、具体的には、ハードウェアボタンで実現されるが、タッチパネルなどによって実現されてもよい。
 第6取得部72は、仮想空間で吹く第2風の第2風向と、第2想定風速とを取得する。
 本変形例においても、仮想空間内で第2風が吹いていることから、受聴者Lは、第2風が受聴者Lの耳に到達することで生じる空力音(第2空力音)を受聴することとなる。
 なお、第3受付部61が、ユーザから第2風向及び第2想定風速を示す操作を受付ける。つまり、ユーザが第3受付部61を操作することで、第2風向及び第2想定風速が入力され、第6取得部72は、入力された第2風向及び第2想定風速を取得する。
 第3生成部73は、第6取得部72によって取得された第2風向と第2想定風速とが関連付けられた第5オブジェクトオーディオ情報を生成する。
 記憶部75は、第3受付部61、第6取得部72、第3生成部73及び第5出力部74が実行するコンピュータプログラムなどが記憶される記憶装置である。なお、記憶部75には、代表風速と、代表風速の風が仮想空間における受聴者Lの耳に到達することで生じる空力音(第2空力音)を示す空力音データとを含む空力音コア情報が記憶されている。
 第5出力部74は、第3生成部73によって生成された第5オブジェクトオーディオ情報と、記憶部75に記憶されている空力音コア情報とを、音響信号処理装置500へ出力する。
 さらに、図38が示す音響信号処理装置500について説明する。
 本変形例に係る音響信号処理装置500は、第5オブジェクトオーディオ情報に係る第2風による第2空力音についての処理を行う。
 第8取得部510は、情報生成装置70によって出力された第5オブジェクトオーディオ情報と空力音コア情報とを取得する。
 第4処理部540は、空力音コア情報が含む空力音データを、第8取得部510によって取得された第2位置情報が示す位置に基づかずに処理する。第4処理部540は、変形例7において第5オブジェクトオーディオ情報が取得された場合と同じ処理を行う。
 以下、情報生成装置70によって行われる情報生成方法の動作例14について説明する。
 [動作例14]
 図39は、本変形例に係る情報生成装置70の動作例14のフローチャートである。
 図39が示すように、はじめに、第3受付部61は、ユーザから第2風向及び第2想定風速を示す操作を受付ける(S810)。
 次に、第6取得部72は、第2風の第2風向と、第2風の風速である第2想定風速とを取得する(S820)。ここでは、第6取得部72は、ステップS810で入力された第2風向及び第2想定風速を取得する。このステップS820が第6取得ステップに相当する。
 次に、第3生成部73は、第2風向と第2想定風速とが関連付けられた第5オブジェクトオーディオ情報を生成する(S830)。このステップS830が第3生成ステップに相当する。
 次に、記憶部75には、代表風速と、代表風速の風が受聴者Lの耳に到達することで生じる空力音を示す空力音データとを含む空力音コア情報が記憶される(S840)。このステップS840が記憶ステップに相当する。
 第5出力部74は、第3生成部73によって生成された第5オブジェクトオーディオ情報を出力する(S850)。このとき、第5出力部74は、記憶部75に記憶されている空力音コア情報も出力するとよい。このステップS850が第5出力ステップに相当する。
 そしてさらに、音響信号処理装置500により処理が行われ、受聴者Lは、第2風による第2空力音を受聴することとなる。
 なお、上記記載したすべての実施例において、想定風速は与えられた値で常に一定であるとして処理したが、実空間においては、風速、特に自然風の風速は、緩やかに変動している。従って、仮想空間において、想定風速を常に一定として空力音が生成されると、生活の実感からみてやや不自然である。そこで、例えば想定風速がSとして与えられた場合、Sを中心として、想定風速を緩やかに、かつ不規則に変動させることで、リアリティが増すこととなる。その場合であっても、空力音を生成する処理は、時々刻々に変動する風速をその瞬間の想定風速であるとして、上記実施例で示した方式に従えばよい。また、風向についても同様である。特に自然風においては風向が一定であることも不自然さの要因となる。そこで、左耳のために出力される空力音の信号と右耳のために出力される空力音の信号との間に音量比、位相差又は時間差等がつけられることで、風向が揺らいていることを表現するように制御してもよい。
 続いて、パイプライン処理について説明する。
 上述の音響信号処理装置100で行われる処理の一部または全ては、例えば特許文献2で説明されているようなパイプライン処理の一部として行われてもよい。図40は、図5G及び図5Hのレンダリング部A0203及びA0213がパイプライン処理を行う場合を説明するための機能ブロック図及びステップの一例を示す図である。図40での説明においては、図5G及び図5Hのレンダリング部A0203及びA0213の一例であるレンダリング部900を用いて説明する。
 パイプライン処理とは、音響効果を付与するための処理を複数の処理に分割し、各処理を1つずつ順番に実行することを指す。分割された処理のそれぞれでは、例えば、音声信号に対する信号処理、又は信号処理に用いるパラメータの生成などが実行される。
 本実施の形態におけるレンダリング部900は、パイプライン処理として、例えば残響効果、初期反射音、距離減衰効果、バイノーラル処理などを施す処理を含む。ただし、上記の処理は一例であり、それ以外の処理を含んでいてもよいし、一部の処理を含んでいなくてもよい。例えば、レンダリング部900がパイプライン処理として、回折処理又はオクルージョン処理を含んでいてもよいし、例えば残響処理が不要な場合は省略されてもよい。また、それぞれの処理をステージと表現し、それぞれの処理の結果生成される反射音などの音声信号をレンダリングアイテムと表現してもよい。パイプライン処理における各ステージの順番と、パイプライン処理に含まれるステージとは図40に示した例に限られない。
 なお、図40で示すすべてのステージがレンダリング部900に備わっていなくてもよく、一部のステージが省略されたり、レンダリング部900以外に他のステージが存在したりしてもよい。
 パイプライン処理の一例として、残響処理、初期反射処理、距離減衰処理、選択処理、生成処理、バイノーラル処理のそれぞれで行われる処理について説明する。それぞれの処理では入力信号に含まれるメタデータを解析して、反射音の生成に必要なパラメータを算出する。
 なお、図40においては、レンダリング部900は、残響処理部901、初期反射処理部902、距離減衰処理部903、選択部904、算出部906、生成部907及びバイノーラル処理部905を備える。ここでは、残響処理部901が残響処理ステップを、初期反射処理部902が初期反射処理ステップを、距離減衰処理部903が距離減衰処理ステップを、選択部904が選択処理ステップを、バイノーラル処理部905がバイノーラル処理ステップを行う例について説明する。
 残響処理ステップでは、残響処理部901が残響音を示す音声信号又は音声信号の生成に必要なパラメータを生成する。残響音とは、直接音の後に残響としてリスナに到達する残響音を含む音である。一例として、残響音は、後述する初期反射音がリスナへ到達した後の比較的後期(例えば、直接音の到達時から百数十ms程度)の段階で、初期反射音よりも多くの回数(例えば、数十回)の反射を経てリスナへ到達する残響音である。残響処理部901は、入力信号に含まれる音声信号及び空間情報を参照し、事前に準備してある残響音を生成するための所定の関数を用いて計算する。
 残響処理部901は、当該音信号に、公知の残響生成方法を適用して、残響を生成してもよい。公知の残響生成方法とは、一例として、シュレーダー法であるが、これに限られない。また、残響処理部901は、公知の残響生成処理を適用する際に、空間情報が示す音再生空間の形状及び音響特性を用いる。これにより、残響処理部901は、残響を示す音声信号を生成するためのパラメータを算出することができる。
 初期反射処理ステップでは、初期反射処理部902が、空間情報に基づいて、初期反射音を生成するためのパラメータを算出する。初期反射音は、音源オブジェクトから直接音がリスナへ到達した後の比較的初期(例えば、直接音の到達時から数十ms程度)の段階で、1回以上の反射を経てリスナへ到達する反射音である。初期反射処理部902は、例えば音信号及びメタデータを参照し、三次元音場(空間)の形状、大きさ、構造物等のオブジェクトの位置、及びオブジェクトの反射率等を用いて、音源オブジェクトからオブジェクトで反射してリスナに到達する反射音の経路を計算する。また、初期反射処理部902が直接音の経路も算出してもよい。当該経路の情報が初期反射音を生成するためのパラメータとして用いられるとともに、選択部904における反射音の選択処理のためのパラメータとして用いられてもよい。
 距離減衰処理ステップでは、距離減衰処理部903が、初期反射処理部902が算出した直接音の経路の長さと反射音の経路の長さとの差に基づいて、リスナに到達する音量を算出する。リスナに到達する音量は、音源の音量に対して、リスナまでの距離に比例して減衰(距離に反比例)するので、直接音の音量は、音源の音量を直接音の経路の長さで除して得ることができ、反射音の音量は、音源の音量を反射音のパスの長さで除して算出することができる。
 選択処理ステップでは、選択部904が、生成する音を選択する。それ以前のステップで算出されたパラメータに基づいて、選択処理が実行されてもよい。
 選択処理がパイプライン処理の一部で実行される場合、選択処理において選択されなかった音については、パイプライン処理における選択処理以降の処理を実行する対象としなくてもよい。選択されなかった音について選択処理以降の処理を実行しないことで、選択されなかった音についてバイノーラル処理のみを実行しないことを決定する場合よりも、音響信号処理装置100の演算負荷を低減することが可能になる。
 また、本実施の形態で説明した選択処理がパイプライン処理の一部で実行される場合、選択処理の順番が、パイプライン処理における複数の処理の順番のうちより早い順番で実行されるように設定すると、より多くの選択処理以降の処理を省略できるため、より多くの演算量を削減することができる。例えば算出部906及び生成部907が処理より前の順番で選択処理が実行されると、選択しないことが決定されたオブジェクトに係る空力音についての処理を省略することができ、より音響信号処理装置100における演算量を削減することが出来る。
 また、レンダリングアイテムを生成するパイプライン処理の一部で算出されたパラメータが、選択部904又は算出部906で用いられてもよい。
 バイノーラル処理ステップでは、バイノーラル処理部905が、直接音の音声信号に対して音源オブジェクトの方向からリスナに到達する音として知覚されるように、信号処理を実行する。さらにバイノーラル処理部905は、反射音が反射に関わる障害物オブジェクトからリスナに到達する音として知覚されるように、信号処理を実行する。音空間におけるリスナの座標及び向き(つまり、受聴点の位置及び向き)に基づいて、音源オブジェクトの位置又は障害物オブジェクトの位置から音がリスナに到達するように、HRIRHead―Related Impulse Responses) DB(Data base)を適用する処理を実行する。なお、受聴点は、例えば、リスナの頭部の動きに合わせてその位置及び方向が変化されてもよい。また、リスナの位置を示す情報がセンサから取得されてもよい。
 パイプライン処理及びバイノーラル処理に用いるプログラム、音響処理に必要な空間情報、HRIR DB、及び、閾値データなどその他のパラメータは、音響信号処理装置100に備わるメモリ又は外部から取得する。HRIR(Head―Related Impulse Responses)とは、1個のインパルスを発生させたときの応答特性である。言い換えれば、HRIRとは、耳殻、人頭及び肩まで含めた周辺物によって生じる音の変化を伝達関数として表現した頭部伝達関数をフーリエ変換することで、周波数領域における表現から時間領域における表現に変換された応答特性である。HRIR DBは、このような情報を含むデータベースである。
 また、パイプライン処理の一例として、レンダリング部900は図示していない処理部を含んでいてもよい。例えば、回折処理部又はオクルージョン処理部を含んでいてもよい。
 回折処理部は、三次元音場(空間)におけるリスナと音源オブジェクトとの間にある障害物に起因する回折音を含む音を示す音声信号を生成する処理を実行する。回折音は、音源オブジェクトとリスナとの間に障害物がある場合に、当該障害物を回り込むようにして音源オブジェクトからリスナへ到達する音である。
 回折処理部は、例えば音信号及びメタデータを参照し、三次元音場(空間)における音源オブジェクトの位置、リスナの位置、並びに障害物の位置、形状、及び大きさ等を用いて、音源オブジェクトから障害物を迂回してリスナへと到達する経路を計算し、当該経路に基づいて回折音を生成する。
 オクルージョン処理部は、いずれかのステップで取得した空間情報及び障害物オブジェクトの材質などの情報に基づいて、障害物オブジェクトの向こう側に音源オブジェクトがある場合に漏れ聞こえる音声信号を生成する。
 なお、上記実施の形態では、音源オブジェクトに付与する位置情報は、仮想空間内における「点」として定義したものであり、所謂「点音源」であるとして発明の詳細を説明した。一方で、仮想空間における音源を定義する方法として、長さ、大きさ又は形状などを有する物体として、点音源でない、空間的に拡張された音源を定義する場合もある。そのような場合は、リスナと音源との距離又は音の到来方向が確定しないので、それに起因する反射音は解析が行われるまでもなく、或いは解析結果の如何にかかわらず、上記選択部904で「選択する」方の処理に限定してもよい。そうすることによって、反射音を選択しないことによって生じるかもしれない音質の劣化を避けることができるからである。又は、当該物体の重心など代表点が定められて、その代表点から音が発生しているとして本開示の処理を適用してもよいが、その場合は、音源の空間的な拡張の情報に応じて閾値を調整した上で本開示の処理を適用してもよい。
 続いて、ビットストリームの構造例について説明する。
 ビットストリームには、例えば、音声信号と、メタデータと、が含まれる。音声信号は、音の周波数及び強弱に関する情報などを示す、音が表現された音データである。メタデータに含まれる空間情報は、音声信号に基づく音を聞くリスナが位置する空間に関する情報である。具体的には、空間情報は、当該音の音像を、音空間(例えば、三次元音場内)における所定の位置に定位させる際の、つまり、リスナに所定方向から到達する音として知覚させる際の当該所定の位置(定位位置)に関する情報である。空間情報には、例えば、音源オブジェクト情報と、リスナの位置を示す位置情報と、が含まれる。
 音源オブジェクト情報は、音声信号に基づく音を発生させる、つまり、音声信号を再生する物体を示すオブジェクトの情報であって、当該物体が配置される実空間に対応する仮想的な空間である音空間に配置される仮想的なオブジェクト(音源オブジェクト)に関する情報である。音源オブジェクト情報は、例えば、音空間に配置される音源オブジェクトの位置を示す情報、音源オブジェクトの向きに関する情報、音源オブジェクトが発する音の指向性に関する情報、音源オブジェクトが生物に属するか否かを示す情報、及び、音源オブジェクトが動体であるか否かを示す情報などを含む。例えば、音声信号は、音源オブジェクト情報が示す1以上の音源オブジェクトに対応している。
 ビットストリームのデータ構造の一例として、ビットストリームは、例えばメタデータ(制御情報)と音声信号とで構成される。
 音声信号とメタデータとは一つのビットストリームに格納されていてもよいし、複数のビットストリームに別々に格納されていてもよい。同様に音声信号とメタデータとは一つのファイルに格納されていてもよいし、複数のファイルに別々に格納されていてもよい。
 ビットストリームは音源ごとに存在してもよいし、再生時間ごとに存在してもよい。再生時間ごとにビットストリームが存在する場合、同時に複数のビットストリームが並列で処理されてもよい。
 メタデータは、ビットストリームごとに付与されてもよく、複数のビットストリームを制御する情報としてまとめて付与されてもよい。また、メタデータは、再生時間ごとに付与されてもよい。
 音声信号とメタデータとは、複数のビットストリーム又は複数のファイルに別々に格納されている場合、一つ又は一部のビットストリーム又はファイルに関連する他のビットストリーム又はファイルを示す情報が含まれていてもよいし、全てのビットストリーム又はファイルのそれぞれに関連する他のビットストリーム又はファイルを示す情報が含まれていてもよい。ここで、関連するビットストリーム又はファイルとは、例えば、音響処理の際に同時に用いられる可能性のあるビットストリーム又はファイルである。また、関連するビットストリーム又はファイルには、関連する他のビットストリーム又はファイルを示す情報をまとめて記述したビットストリーム又はファイルが含まれていてもよい。ここで、関連する他のビットストリーム又はファイルを示す情報とは、例えば当該他のビットストリームを示す識別子又は他のファイルを示すファイル名又はURL(Uniform Resource Locator)又はURI(Uniform Resource Identifier)などである。この場合、第1取得部110は、関連する他のビットストリーム又はファイルを示す情報に基づいてビットストリーム又はファイルを特定又は取得する。また、ビットストリーム内に関連する他のビットストリームを示す情報が含まれていると共に、ビットストリーム内に別のビットストリーム又はファイルに関連するビットストリーム又はファイルを示す情報を含めていてもよい。ここで、関連するビットストリーム又はファイルを示す情報を含むファイルとは、例えばコンテンツの配信に用いられるマニフェストファイルなどの制御ファイルであってもよい。
 なお、全てのメタデータ又は一部のメタデータは音声信号のビットストリーム以外から取得されてもよい。例えば、音響を制御するメタデータと映像を制御するメタデータとのいずれかがビットストリーム以外から取得されてもよいし、両方のメタデータがビットストリーム以外から取得されてもよい。また、映像を制御するメタデータが音声信号再生システムで取得されるビットストリームに含まれる場合は、音声信号再生システムは映像の制御に用いることができるメタデータを、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置に対して出力する機能を備えていてもよい。
 さらに、メタデータに含まれる情報の例について説明する。
 メタデータは、音空間で表現されるシーンを記述するために用いられる情報であってもよい。ここでシーンとは、メタデータを用いて、音声信号再生システムでモデリングされる、音空間における三次元映像及び音響イベントを表すすべての要素の集合体を指す用語である。つまり、ここでいうメタデータとは、音響処理を制御する情報だけでなく、映像処理を制御する情報も含んでいてもよい。勿論、メタデータには、音響処理と映像処理とのいずれか一方だけを制御する情報が含まれていてもよいし、両方の制御に用いられる情報が含まれていてもよい。
 音声信号再生システムは、ビットストリームに含まれるメタデータ及び、追加で取得されるインタラクティブなリスナの位置情報などを用いて、音声信号に音響処理を行うことで、仮想的な音響効果を生成する。本実施の形態では、音響効果のうち、初期反射処理と、障害物処理と、回折処理と、遮断処理と、残響処理とを行う場合を説明するが、メタデータを用いてほかの音響処理を行ってもよい。例えば、音声信号再生システムは、距離減衰効果、ローカリゼーション、ドップラー効果などの音響効果を付加することが考えられる。また、音響効果の全て又は一部のオンオフを切り替える情報、優先度情報をメタデータとして付加してもよい。
 また、一例として、符号化されたメタデータは、音源オブジェクト及び障害物オブジェクトを含む音空間に関する情報と、当該音の音像を音空間内において所定位置に定位させる(つまり、所定方向から到達する音として知覚させる)際の定位位置に関する情報とを含む。ここで、障害物オブジェクトは、音源オブジェクトが発する音がリスナへと到達するまでの間において、例えば音を遮ったり、音を反射したりして、リスナが知覚する音に影響を及ぼし得るオブジェクトである。障害物オブジェクトは、静止物体の他に、人等の動物、又は機械等の動体を含み得る。また、音空間に複数の音源オブジェクトが存在する場合、任意の音源オブジェクトにとっては、他の音源オブジェクトは障害物オブジェクトとなり得る。建材又は無生物などの音を発しないオブジェクトである非発音オブジェクトも、音を発する音源オブジェクトも障害物オブジェクトとなり得る。
 メタデータには、音空間の形状、音空間に存在する障害物オブジェクトの形状情報及び位置情報、音空間に存在する音源オブジェクトの形状情報及び位置情報、並びに音空間におけるリスナの位置及び向きをそれぞれ表す情報のすべて又は一部が含まれる。
 音空間は、閉空間又は開空間のいずれであってもよい。また、メタデータには、例えば床、壁、又は天井等の音空間において音を反射し得る構造物の反射率、及び音空間に存在する障害物オブジェクトの反射率を表す情報が含まれる。ここで、反射率は、反射音と入射音とのエネルギーの比であって、音の周波数帯域ごとに設定されている。勿論、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。音空間が開空間の場合は、例えば一律で設定された減衰率、回折音、初期反射音などのパラメータが用いられてもよい。
 上記説明では、メタデータに含まれる障害物オブジェクト又は音源オブジェクトに関するパラメータとして、反射率を挙げたが反射率以外の情報を含んでいてもよい。例えば、反射率以外の情報は、音源オブジェクト及び非発音オブジェクトの両方に関わるメタデータとして、オブジェクトの素材に関する情報を含んでいてもよい。具体的には、反射率以外の情報は、拡散率、透過率、吸音率などのパラメータを含んでいてもよい。
 音源オブジェクトに関する情報として、音量、放射特性(指向性)、再生条件、ひとつのオブジェクトから発せられる音源の数及び種類、並びに、オブジェクトにおける音源領域を指定する情報などを含めてもよい。再生条件では例えば、継続的に流れ続ける音なのかイベント発動する音なのかが定められてもよい。オブジェクトにおける音源領域は、リスナの位置とオブジェクトの位置との相対的な関係で定めてもよいし、オブジェクトを基準として定めてもよい。オブジェクトにおける音源領域がリスナの位置とオブジェクトの位置との相対的な関係で定められる場合、リスナがオブジェクトを見ている面を基準とし、リスナから見てオブジェクトの右側からは音C、左側からは音Eが発せられているようにリスナに知覚させることができる。オブジェクトにおける音源領域がオブジェクトを基準として定められる場合、リスナの見ている方向に関わらず、オブジェクトのどの領域からどの音を出すかは固定にすることができる。例えばオブジェクトを正面から見たときの右側からは高い音、左側からは低い音が流れているようにリスナに知覚させることができる。この場合、リスナがオブジェクトの背面に回り込んだ場合、背面から見て右側からは低い音、左側からは高い音が流れているようにリスナに知覚させることができる。
 空間に関するメタデータとして、初期反射音までの時間、残響時間、直接音と拡散音との比率などを含めることができる。直接音と拡散音との比率がゼロの場合、直接音のみをリスナに知覚させることができる。
 (効果など)
 本実施の形態に係る音響信号処理方法は、仮想空間におけるオブジェクトの位置を示す第1位置情報とオブジェクトに起因する第1音を示す第1音データと第1音データに対する処理手段を示す第1識別情報とを含むオブジェクト情報、及び、仮想空間における第1音の受聴者Lの位置を示す第2位置情報を取得する第1取得ステップと、取得されたオブジェクト情報が含む第1位置情報、及び、取得された第2位置情報に基づいて、オブジェクトと受聴者Lとの距離Dを算出する第1算出ステップと、取得されたオブジェクト情報が含む第1識別情報に基づいて、算出された距離Dに応じた音量の処理をする第1処理手段、及び、第1処理手段とは異なる態様で算出された距離Dに応じた音量の処理をする第2処理手段のうち、第1音データを処理する処理手段を決定する決定ステップと、決定された処理手段で第1音データを処理する第1処理ステップと、処理された第1音データを出力する第1出力ステップと、を含む。
 これにより、第1識別情報に応じて第1音の音量の処理手段が変更されることができるため、受聴者Lが受聴する仮想空間での第1音は、受聴者Lが受聴する現実空間での第1音に似た音となり、より具体的には、現実空間での第1音が再現された音となる。このため、受聴者Lは違和感を覚え難く、受聴者Lは臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感を与えることができる。
 本実施の形態に係る音響信号処理方法では、第1処理手段は、音量が、算出された距離Dが増加するに従って反比例して減衰するように第1音データを処理する処理手段であり、第2処理手段は、音量が、算出された距離Dが増加するに従って第1処理手段とは異なる態様で増減するように第1音データを処理する処理手段である。
 これにより、第1識別情報に応じて、音量が距離Dが増加するに従って反比例して減衰するように第1音データを処理する第1処理手段又は音量が距離Dが増加するに従って第1処理手段とは異なる態様で増減するような第2処理手段が用いられるため、受聴者Lが受聴する仮想空間での第1音は、受聴者Lが受聴する現実空間での第1音により似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感をより与えることができる。
 本実施の形態に係る音響信号処理方法では、取得されたオブジェクト情報は、第1音とは異なる音であってオブジェクトに起因する第2音を示す第2音データと、第2音データに対する処理手段を示す第2識別情報とを含み、決定ステップでは、取得されたオブジェクト情報が含む第2識別情報に基づいて、第1処理手段及び第2処理手段のうち、第2音データを処理する処理手段を決定し、第1処理ステップでは、決定された処理手段で第2音データを処理し、第1出力ステップでは、処理された第2音データを出力し、オブジェクトは、第1音データ及び第2音データを含む複数の音データと関連付けられるオブジェクトである。
 これにより、第2識別情報に応じて第2音の音量の処理手段が変更されることができるため、受聴者Lが受聴する仮想空間での第2音も、受聴者Lが受聴する現実空間での第2音に似た音となり、より具体的には、算出された距離Dに応じて、第1音と第2音との音量バランスが現実空間で生じる音量バランスのように変動する。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感をより与えることができる。
 本実施の形態に係る音響信号処理方法では、第2処理手段は、音量が、距離Dのx乗(x≠1)で減衰するように第1音データを処理する処理手段である。つまり、第2処理手段は、音量が、距離Dのx乗(x≠1)に従って減衰するように第1音データを処理する処理手段であり、さらに言えば、音量が、距離Dの増加に従って距離Dのx乗(x≠1)で減衰するように第1音データを処理する処理手段である。
 これにより、第1処理ステップでは、音量が距離Dのx乗で減衰するように第1音データを処理する第2処理手段を用いることができる。
 本実施の形態に係る音響信号処理方法では、第1識別情報は、第1音データに対する処理手段が第2処理手段であること、及び、xの値を示す。
 これにより、第1識別情報は処理手段が第2処理手段であることを示すことができ、第1処理ステップでは第1識別情報が示すxの値にしたがって、第1音データを処理することができる。
 本実施の形態に係る音響信号処理方法では、第1音が、オブジェクトの移動にともない生じる空力音である場合には、第1識別情報は、第1音データに対する処理手段が第2処理手段であること、及び、xがαでありαが実数でありαが下記式を満たすことを示す。
 α>1
 これにより、第1処理ステップでは、第1音が空力音(第1空力音)である場合に、第1識別情報が示すxの値であるαにしたがって、第1音データを処理することができる。
 実施の形態の変形例2に係る音響信号処理方法では、第1音がオブジェクトから放射された風が受聴者Lの耳に到達することで生じる空力音である場合には、第1識別情報は、第1音データに対する処理手段が第2処理手段であること、及び、xがβでありβが実数でありβが下記式を満たすことを示す。
 β>2
 これにより、第1処理ステップでは、第1音がオブジェクトから放射された風Wが受聴者Lの耳に到達することで生じる空力音(第2空力音)である場合に、第1識別情報が示すxの値であるβにしたがって、第1音データを処理することができる。
 実施の形態の変形例2に係る音響信号処理方法では、α及びβは、下記式を満たす。
 α<β
 これにより、第1処理ステップでは、α<βを満たすα又はβを用いて第1音データを処理することができる。
 本実施の形態に係る音響信号処理方法は、ユーザからα又はβの値を指定する操作を受付ける第1受付ステップを含む。
 これにより、第1処理ステップでは、ユーザに指定されたα又はβの値を用いて第1音データを処理することができる。
 実施の形態の変形例1に係る音響信号処理方法では、第1識別情報は、第1処理手段を実行するか否かを示す情報であり、決定ステップでは、取得された第1識別情報に基づいて、第1処理手段を実行するか否かを決定し、かつ、第1処理手段が実行されるか否かに関わらず、第2処理手段を実行することを決定し、第2処理手段は、算出された距離Dが所定の閾値以内である場合に、音量が、所定の値となるように第1音データを処理する処理手段である。
 これにより、第1処理ステップでは、距離Dが所定の閾値以内である場合にだけ、音量が所定の値となることで、非現実的な効果を演出することができ、かつ、現実的に生じる自然な距離減衰効果も付与することができるように第1音データを処理する第2処理手段を用いることができる。
 実施の形態の変形例1に係る音響信号処理方法では、所定の閾値は、パーソナルスペースに応じた値である。
 これにより、第1処理ステップでは、パーソナルスペースに応じた値である所定の閾値を用いて、第1音データを処理することができるので、物理的な距離による距離減衰効果では表現できない心理的な距離感を演出することができる。
 実施の形態の変形例1に係る音響信号処理方法は、ユーザから所定の閾値が第1指定値であることを指定する操作を受付ける第1受付ステップを含む。
 これにより、第1処理ステップでは、ユーザに指定された第1指定値を用いて第1音データを処理することができる。
 実施の形態の変形例3に係る情報生成方法は、仮想空間における受聴者Lの位置に関連する位置で生じる第1音を示す第1音データと、仮想空間におけるオブジェクトの位置を示す第1位置情報とを取得する第2取得ステップと、取得された第1音データと取得された第1位置情報とから、オブジェクトに起因して受聴者Lの位置に関連する位置で第1音を再生させるオブジェクトに関する情報と第1位置情報とを含む第1オブジェクトオーディオ情報を生成する第1生成ステップと、を含む。
 これにより、オブジェクトの位置に、オブジェクトに起因して受聴者Lの位置に関連する位置で生じる第1音を示す第1音データが関連付けられた第1オブジェクトオーディオ情報を生成することができる。この第1オブジェクトオーディオ情報が音響信号処理方法で用いられた場合には、オブジェクトと受聴者Lとの距離Dが増加するほど第1音の音量が減衰するように第1音データが処理されることで、受聴者Lが受聴する仮想空間での第1音は、受聴者Lが受聴する現実空間での第1音に似た音となり、より具体的には、現実空間での第1音が再現された音となる。このため、受聴者Lは違和感を覚え難く、受聴者Lは臨場感を得ることができる。つまりは、情報生成方法は、受聴者Lに臨場感を与えることができる。
 実施の形態の変形例3に係る情報生成方法では、オブジェクトは、風Wを放射し、受聴者Lは、放射された風Wを浴び、第1音は、オブジェクトから放射された風Wが受聴者Lの耳に到達することで生じる空力音である。
 これにより、第1音を、オブジェクトから放射された風Wが受聴者Lの耳に到達することで生じる空力音(第2空力音)とすることができる情報生成方法が実現される。
 実施の形態の変形例3に係る情報生成方法では、第1生成ステップでは、さらに単位距離情報を含む第1オブジェクトオーディオ情報を生成し、単位距離情報は、基準となる距離である単位距離と、オブジェクトの位置から単位距離離れた位置における空力音を示す空力音データとを含む情報である。
 これにより、単位距離情報を含む第1オブジェクトオーディオ情報を生成することができる。この第1オブジェクトオーディオ情報が音響信号処理方法で用いられた場合には、受聴者Lが受聴する仮想空間での第1音(第2空力音)は、単位距離及び空力音データに基づいて、受聴者Lが受聴する現実空間での第1音(第2空力音)により似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。つまりは、情報生成方法は、受聴者Lに臨場感をより与えることができる。
 実施の形態の変形例3に係る情報生成方法では、第1生成ステップでは、さらに指向性情報を含む第1オブジェクトオーディオ情報を生成し、指向性情報は、放射された風の方向に応じた特性を示す情報であり、単位距離情報に示される空力音データは、指向性情報に示されるオブジェクトが風を放射する正面方向に、オブジェクトの位置から単位距離離れた位置における空力音を示すデータである。
 これにより、指向性情報を含む第1オブジェクトオーディオ情報を生成することができる。この第1オブジェクトオーディオ情報が音響信号処理方法で用いられた場合には、受聴者Lが受聴する仮想空間での第1音(第2空力音)は、単位距離、空力音データ及び指向性情報に基づいて、受聴者Lが受聴する現実空間での第1音(第2空力音)により似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。つまりは、情報生成方法は、受聴者Lに臨場感をより与えることができる。
 実施の形態の変形例3に係る情報生成方法では、第1生成ステップでは、第1音の再生時において、オブジェクトから生じた第1音を示す第1音データに基づく第1音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理を行うか否かを示すフラグ情報をさらに含む第1オブジェクトオーディオ情報を生成する。
 これにより、フラグ情報を含む第1オブジェクトオーディオ情報を生成することができる。この第1オブジェクトオーディオ情報が音響信号処理方法で用いられた場合には、受聴者Lが受聴する仮想空間での第1音は、第1音データに基づく第1音信号に頭部伝達関数が畳み込まれる場合があるため、受聴者Lが受聴する現実空間での第1音により似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。つまりは、情報生成方法は、受聴者Lに臨場感をより与えることができる。
 実施の形態の変形例3に係る音響信号処理方法は、上記情報生成方法によって生成された第1オブジェクトオーディオ情報、取得された第1音データ、及び、第1音の受聴者Lの位置を示す第2位置情報を取得する第3取得ステップと、取得された第1オブジェクトオーディオ情報が含む第1位置情報、及び、取得された第2位置情報に基づいて、オブジェクトと受聴者Lとの距離Dを算出する第2算出ステップと、算出された距離Dが増加するほど、第1音の音量が減衰するように第1音データを処理する第2処理ステップと、処理された第1音データを出力する第2出力ステップとを含む。
 これにより、第3取得ステップでは、オブジェクトの位置に、オブジェクトに起因して受聴者Lの位置に関連する位置で生じる第1音を示す第1音データが関連付けられた第1オブジェクトオーディオ情報を取得することができる。したがって、オブジェクトと受聴者Lとの距離Dが増加するほど第1音の音量が減衰するように第1音データが処理されることで、受聴者Lが受聴する仮想空間での第1音は、受聴者Lが受聴する現実空間での第1音に似た音となり、より具体的には、現実空間での第1音が再現された音となる。このため、受聴者Lは違和感を覚え難く、受聴者Lは臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感を与えることができる。
 実施の形態の変形例3に係る音響信号処理方法は、上記情報生成方法によって生成された第1オブジェクトオーディオ情報、取得された第1音データ、及び、第1音の受聴者Lの位置を示す第2位置情報を取得する第3取得ステップと、取得された第1オブジェクトオーディオ情報が含む第1位置情報、及び、取得された第2位置情報に基づいて、風Wを放射するオブジェクトと受聴者Lとの距離Dを算出する第2算出ステップと、算出された距離Dが増加するほど、第1音の音量が減衰するように第1音データを処理する第2処理ステップと、処理された第1音データを出力する第2出力ステップとを含む。
 これにより、第1音を、オブジェクトから放射された風Wが受聴者Lの耳に到達することで生じる空力音(第2空力音)とすることができる音響信号処理方法が実現される。
 実施の形態の変形例3に係る音響信号処理方法は、上記情報生成方法によって生成された第1オブジェクトオーディオ情報、取得された第1音データ、及び、第1音の受聴者Lの位置を示す第2位置情報を取得する第3取得ステップと、取得された第1オブジェクトオーディオ情報が含む第1位置情報、及び、取得された第2位置情報に基づいて、風Wを放射するオブジェクトと受聴者Lとの距離Dを算出する第2算出ステップと、取得された第1オブジェクトオーディオ情報が含む単位距離情報が示す単位距離よりも算出された距離Dが大きい場合に、算出された距離Dと単位距離とに応じて、第1音の音量が減衰するように第1音データを処理する第2処理ステップと、処理された第1音データを出力する第2出力ステップとを含む。
 これにより、第3取得ステップでは、単位距離情報を含む第1オブジェクトオーディオ情報を取得することができる。したがって、受聴者Lが受聴する仮想空間での第1音(第2空力音)は、単位距離及び空力音データに基づいて、受聴者Lが受聴する現実空間での第1音(第2空力音)により似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感をより与えることができる。
 実施の形態の変形例3に係る音響信号処理方法は、上記情報生成方法によって生成された第1オブジェクトオーディオ情報、取得された第1音データ、及び、第1音の受聴者Lの位置を示す第2位置情報を取得する第3取得ステップと、取得された第1オブジェクトオーディオ情報が含む第1位置情報、及び、取得された第2位置情報に基づいて、風Wを放射するオブジェクトと受聴者Lとの距離D、及び、オブジェクトと受聴者Lとを結ぶ二点間方向を算出する第2算出ステップと、正面方向と算出された二点間方向とがなす角度及び指向性情報が示す特性に基づいて第1音の音量を制御するように、かつ、取得された第1オブジェクトオーディオ情報が含む単位距離情報が示す単位距離よりも算出された距離Dが大きい場合に算出された距離Dと単位距離とに応じて第1音の音量が減衰するように、第1音データを処理する第2処理ステップと、処理された第1音データを出力する第2出力ステップとを含む。
 これにより、第3取得ステップでは、指向性情報を含む第1オブジェクトオーディオ情報を取得することができる。したがって、受聴者Lが受聴する仮想空間での第1音(第2空力音)は、単位距離、空力音データ及び指向性情報に基づいて、受聴者Lが受聴する現実空間での第1音(第2空力音)により似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感をより与えることができる。
 実施の形態の変形例4に係る音響信号処理方法は、上記情報生成方法で生成された第1オブジェクトオーディオ情報、取得された第1音データ、及び、第1位置情報とオブジェクトに起因する第2音を示す第2音データとが関連付けられた第2オブジェクトオーディオ情報を取得する第3取得ステップと、取得された第1音データに基づく第1音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をせず、かつ、取得された第2オブジェクトオーディオ情報が示す第2音データに基づく第2音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をする第2処理ステップと、処理されていない第1音信号、及び、処理された第2音信号を出力する第2出力ステップとを含む。
 これにより、受聴者Lが受聴する仮想空間での第2音は、第2音データに基づく第2音信号に頭部伝達関数が畳み込まれるため、受聴者Lが受聴する現実空間での第2音に似た音となり、より具体的には、現実空間での第2音が再現された音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感をより与えることができる。
 実施の形態の変形例4に係る音響信号処理方法は、上記情報生成方法で生成された第1オブジェクトオーディオ情報、取得された第1音データ、及び、第1位置情報とオブジェクトに起因する第2音を示す第2音データとが関連付けられた第2オブジェクトオーディオ情報を取得する第3取得ステップと、取得された第1音データに基づく第1音信号に風Wが到来する方向に依存した処理をし、かつ、取得された第2オブジェクトオーディオ情報が示す第2音データに基づく第2音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をする第2処理ステップと、処理された第1音信号、及び、処理された第2音信号を出力する第2出力ステップとを含む。
 これにより、受聴者Lが受聴する仮想空間での第1音(第2空力音)は、第1音データに基づく第1音信号に風Wが到来する方向に依存した処理が行われるため、受聴者Lが受聴する現実空間での第1音(第2空力音)に似た音となり、より具体的には、現実空間での第1音(第2空力音)が再現された音となる。さらに、受聴者Lが受聴する仮想空間での第2音は、第2音データに基づく第2音信号に頭部伝達関数が畳み込まれるため、受聴者Lが受聴する現実空間での第2音に似た音となり、より具体的には、現実空間での第2音が再現された音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感をより与えることができる。
 実施の形態の変形例5に係る音響信号処理方法は、上記情報生成方法で生成された第1オブジェクトオーディオ情報、取得された第1音データ、及び、オブジェクトとは異なるオブジェクトであって仮想空間における他のオブジェクトの位置を示す第3位置情報と他のオブジェクトの位置で発生する第3音を示す第3音データとが関連付けられた第3オブジェクトオーディオ情報を取得する第3取得ステップと、取得された第1音データに基づく第1音信号に風Wが到来する方向に依存した処理をし、かつ、取得された第3オブジェクトオーディオ情報が示す第3音データに基づく第3音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をする第2処理ステップと、処理された第1音信号、及び、処理された第3音信号を出力する第2出力ステップとを含む。
 これにより、仮想空間にオブジェクト及び他のオブジェクトを含む複数のオブジェクトが設けられた場合に、受聴者Lが受聴する仮想空間での第1音(第2空力音)及び第3音は、それぞれ受聴者Lが受聴する現実空間での第1音(第2空力音)及び第3音に似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感をより与えることができる。
 実施の形態の変形例6に係る情報生成方法は、仮想空間で吹く第1風の発生位置と、第1風の第1風向と、第1風の風速である第1想定風速とを取得する第4取得ステップと、取得された発生位置と、第1風向と、第1想定風速とが関連付けられた第4オブジェクトオーディオ情報を生成する第2生成ステップと、代表風速と、代表風速の風が仮想空間における受聴者Lの耳に到達することで生じる空力音を示す空力音データとを含む空力音コア情報を記憶する記憶ステップと、生成された第4オブジェクトオーディオ情報と、記憶されている空力音コア情報とを出力する第3出力ステップとを含む。
 これにより、発生位置、第1風向及び第1想定風速が関連付けられた第4オブジェクトオーディオ情報を生成することができる。この第4オブジェクトオーディオ情報が音響信号処理方法で用いられた場合には、オブジェクトと受聴者Lとの距離Dが増加するほど空力音(第2空力音)の音量が減衰するように空力音データが処理されることで、受聴者Lが受聴する仮想空間での空力音(第2空力音)は、受聴者Lが受聴する現実空間での空力音(第2空力音)に似た音となり、より具体的には、現実空間での空力音(第2空力音)が再現された音となる。このため、受聴者Lは違和感を覚え難く、受聴者Lは臨場感を得ることができる。つまりは、情報生成方法は、受聴者Lに臨場感を与えることができる。
 実施の形態の変形例6に係る情報生成方法では、第1想定風速は、第1風向の方向に発生位置から基準となる距離である単位距離離れた位置での第1風の風速である。
 これにより、第1想定風速として、単位距離離れた位置での第1風の風速を用いることができる。
 実施の形態の変形例6に係る情報生成方法は、ユーザから単位距離が第2指定値であることを指定する操作を受付ける第2受付ステップを含む。
 これにより、ユーザに指定された第2指定値である単位距離を用いて第4オブジェクトオーディオ情報を生成することができる。
 実施の形態の変形例6に係る情報生成方法は、ユーザから第1風の方向に応じた特性を示す指向性情報を指定する操作を受付ける第2受付ステップを含み、第2生成ステップでは、取得された発生位置、第1風向及び第1想定風速と、受付けられた操作が示す指向性情報とが関連付けられた第4オブジェクトオーディオ情報を生成する。
 これにより、発生位置、第1風向、第1想定風速及びユーザに指定された指向性情報が関連付けられた第4オブジェクトオーディオ情報を生成することができる。
 実施の形態の変形例6に係る音響信号処理方法は、上記情報生成方法で出力された第4オブジェクトオーディオ情報及び空力音コア情報と、仮想空間における受聴者Lの位置を示す第2位置情報とを取得する第5取得ステップと、取得された第4オブジェクトオーディオ情報が含む発生位置、及び、取得された第2位置情報に基づいて、発生位置と受聴者Lとの距離Dを算出する第3算出ステップと、算出された距離Dが増加するほど、空力音の音量が減衰するように空力音データを処理する第3処理ステップと、処理された空力音データを出力する第4出力ステップとを含む。
 これにより、第5取得ステップでは、発生位置、第1風向及び第1想定風速が関連付けられた第4オブジェクトオーディオ情報を取得することができる。したがって、オブジェクトと受聴者Lとの距離Dが増加するほど空力音(第2空力音)の音量が減衰するように空力音データが処理されることで、受聴者Lが受聴する仮想空間での空力音(第2空力音)は、受聴者Lが受聴する現実空間での空力音(第2空力音)に似た音となり、より具体的には、現実空間での空力音(第2空力音)が再現された音となる。このため、受聴者Lは違和感を覚え難く、受聴者Lは臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感を与えることができる。
 実施の形態の変形例6に係る音響信号処理方法では、第3処理ステップでは、受聴者Lの耳に到達したときの第1風の風速である耳到達風速に基づいて、空力音データを処理し、耳到達風速は、算出された距離Dが増加するほど、風速が減速する。
 これにより、耳到達風速に基づいて、空力音データが処理されるため、受聴者Lが受聴する仮想空間での空力音(第2空力音)は、受聴者Lが受聴する現実空間での空力音(第2空力音)により似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感をより与えることができる。
 実施の形態の変形例6に係る音響信号処理方法では、耳到達風速は、算出された距離Dを単位距離で割った値のz乗で減衰する値である。
 これにより、より正確な耳到達風速が算出されるため、受聴者Lが受聴する仮想空間での空力音(第2空力音)は、受聴者Lが受聴する現実空間での空力音(第2空力音)により似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感をより与えることができる。
 実施の形態の変形例6に係る音響信号処理方法では、zは、下記式を満たす。
 z=1
 これにより、より正確な耳到達風速が算出されるため、受聴者Lが受聴する仮想空間での空力音(第2空力音)は、受聴者Lが受聴する現実空間での空力音(第2空力音)により似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感をより与えることができる。
 実施の形態の変形例6に係る音響信号処理方法では、第3処理ステップでは、空力音の音量が、代表風速を耳到達風速で割った値のγ乗で減衰するように、空力音データを処理する。
 これにより、空力音(第2空力音)の音量がより正確な音量となるように空力音データが処理されるため、受聴者Lが受聴する仮想空間での空力音(第2空力音)は、受聴者Lが受聴する現実空間での空力音(第2空力音)により似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感をより与えることができる。
 実施の形態の変形例6に係る音響信号処理方法では、γ及びzは、下記式を満たす。
 γ×z<4
 これにより、より正確な耳到達風速が算出されるため、受聴者Lが受聴する仮想空間での空力音(第2空力音)は、受聴者Lが受聴する現実空間での空力音(第2空力音)により似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感をより与えることができる。
 実施の形態の変形例6に係る音響信号処理方法は、上記情報生成方法で出力された第4オブジェクトオーディオ情報、及び、空力音の周波数成分の分布を示すデータを含む空力音コア情報と、仮想空間における受聴者Lの位置を示す第2位置情報とを取得する第5取得ステップと、取得された第4オブジェクトオーディオ情報が含む発生位置、及び、取得された第2位置情報に基づいて、発生位置と受聴者Lとの距離Dを算出する第3算出ステップと、算出された距離Dが増加するほど、空力音の周波数成分の分布を低周波数側にシフトするように空力音データを処理する第3処理ステップと、処理された空力音データを出力する第4出力ステップとを含む。
 これにより、第5取得ステップでは、発生位置、第1風向及び第1想定風速が関連付けられた第4オブジェクトオーディオ情報を取得することができる。したがって、オブジェクトと受聴者Lとの距離Dが増加するほど空力音(第2空力音)の周波数成分の分布が低周波数側にシフトされるように空力音データが処理されることで、受聴者Lが受聴する仮想空間での空力音(第2空力音)は、受聴者Lが受聴する現実空間での空力音(第2空力音)に似た音となり、より具体的には、現実空間での空力音(第2空力音)が再現された音となる。このため、受聴者Lは違和感を覚え難く、受聴者Lは臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感を与えることができる。
 実施の形態の変形例6に係る音響信号処理方法では、第3処理ステップでは、受聴者Lの耳に到達したときの第1風の風速である耳到達風速に基づいて、空力音データを処理し、耳到達風速は、算出された距離Dが増加するほど、風速が減速する。
 これにより、耳到達風速に基づいて、空力音データが処理されるため、受聴者Lが受聴する仮想空間での空力音(第2空力音)は、受聴者Lが受聴する現実空間での空力音(第2空力音)により似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感をより与えることができる。
 実施の形態の変形例6に係る音響信号処理方法では、耳到達風速は、算出された距離Dを単位距離で割った値のz乗で減衰する値である。
 これにより、より正確な耳到達風速が算出されるため、受聴者Lが受聴する仮想空間での空力音(第2空力音)は、受聴者Lが受聴する現実空間での空力音(第2空力音)により似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感をより与えることができる。
 実施の形態の変形例6に係る音響信号処理方法では、zは、下記式を満たす。
 z=1
 これにより、より正確な耳到達風速が算出されるため、受聴者Lが受聴する仮想空間での空力音(第2空力音)は、受聴者Lが受聴する現実空間での空力音(第2空力音)により似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感をより与えることができる。
 実施の形態の変形例6に係る音響信号処理方法では、第3処理ステップでは、空力音の周波数成分の分布を、代表風速を耳到達風速で割った値の逆数倍の周波数にシフトさせるように、空力音データを処理する。
 これにより、より正確な耳到達風速が算出されるため、受聴者Lが受聴する仮想空間での空力音(第2空力音)は、受聴者Lが受聴する現実空間での空力音(第2空力音)により似た音となる。このため、受聴者Lは違和感をより覚え難く、受聴者Lは臨場感をより得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感をより与えることができる。
 実施の形態の変形例8に係る情報生成方法は、仮想空間で吹く第2風の第2風向と、第2風の風速である第2想定風速とを取得する第6取得ステップと、取得された第2風向と、第2想定風速とが関連付けられた第5オブジェクトオーディオ情報を生成する第3生成ステップと、代表風速と、代表風速の風が仮想空間における受聴者Lの耳に到達することで生じる空力音を示す空力音データとを含む空力音コア情報を記憶する記憶ステップと、生成された第5オブジェクトオーディオ情報と、記憶されている空力音コア情報とを出力する第5出力ステップとを含む。
 これにより、第2風向と第2想定風速とが関連付けられた第5オブジェクトオーディオ情報を生成することができる。この第5オブジェクトオーディオ情報が音響信号処理方法で用いられた場合には、風Wの発生源が定まらない風W(屋外に吹く自然な風)を再現することができ、空力音データが第2位置情報が示す位置に基づかずに処理されることで、受聴者Lが受聴する仮想空間での第2風による空力音(第2空力音)は、受聴者Lが受聴する現実空間での第2風による空力音(第2空力音)に似た音となり、より具体的には、現実空間での第2風による空力音(第2空力音)が再現された音となる。このため、受聴者Lは違和感を覚え難く、受聴者Lは臨場感を得ることができる。つまりは、情報生成方法は、受聴者Lに臨場感を与えることができる。
 実施の形態の変形例7に係る情報生成方法は、仮想空間で吹く第1風の発生位置と、第1風の第1風向と、第1風の風速である第1想定風速と、仮想空間で吹く第2風の第2風向と、第2風の風速である第2想定風速とを取得する第7取得ステップと、取得された発生位置と第1風向と第1想定風速とが関連付けられた第4オブジェクトオーディオ情報を生成し、かつ、取得された第2風向と第2想定風速とが関連付けられた第5オブジェクトオーディオ情報を生成する第4生成ステップと、生成された第4オブジェクトオーディオ情報と生成された第5オブジェクトオーディオ情報とを出力する第6出力ステップとを含む。
 これにより、発生位置と第1風向と第1想定風速とが関連付けられた第4オブジェクトオーディオ情報、及び、第2風向と第2想定風速とが関連付けられた第5オブジェクトオーディオ情報を生成することができるので、同一の仮想空間に、2種類の風、すなわち、風Wの発生源が特定できる風W(扇風機F、排気孔、風穴など)と風Wの発生源が特定できない風W(自然に生じているそよ風、暴風など)とが生成されることができる。さらに、この第4オブジェクトオーディオ情報が音響信号処理方法で用いられた場合には、空力音データが第2位置情報が示す位置に基づいて処理されることで、受聴者Lが受聴する仮想空間での第1風による空力音(第2空力音)は、受聴者Lが受聴する現実空間での第1風による空力音(第2空力音)に似た音となり、より具体的には、現実空間での第1風による空力音(第2空力音)が再現された音となる。さらに、この第5オブジェクトオーディオ情報が音響信号処理方法で用いられた場合には、空力音データが第2位置情報が示す位置に基づかずに処理されることで、受聴者Lが受聴する仮想空間での第2風による空力音(第2空力音)は、受聴者Lが受聴する現実空間での第2風による空力音(第2空力音)に似た音となり、より具体的には、現実空間での第2風による空力音(第2空力音)が再現された音となる。このため、受聴者Lは違和感を覚え難く、受聴者Lは臨場感を得ることができる。つまりは、情報生成方法は、受聴者Lに臨場感を与えることができる。
 実施の形態の変形例7に係る情報生成方法では、第6出力ステップは、第1風の発生位置が仮想空間にある場合、生成された第4オブジェクトオーディオ情報を出力する。
 これにより、情報生成方法は、発生位置に応じて第4オブジェクトオーディオ情報の出力の可否を判断することができる。
 実施の形態の変形例7に係る情報生成方法では、第6出力ステップは、第1風の発生位置が仮想空間にない場合、生成された第5オブジェクトオーディオ情報を出力する。
 これにより、情報生成方法は、発生位置に応じて第5オブジェクトオーディオ情報の出力の可否を判断することができる。
 実施の形態の変形例7に係る情報生成方法は、代表風速と、代表風速の風が仮想空間における受聴者Lの耳に到達することで生じる空力音を示す空力音データとを含む空力音コア情報を記憶する記憶ステップを含み、第6出力ステップでは、記憶されている空力音コア情報を出力する。
 これにより、出力された空力音コア情報が含む空力音データが音響信号処理方法で用いられた場合には、空力音コア情報を第1風、第2風に共通に適用できるので、空力音コア情報を格納するメモリ領域を少なくすることができ、しかも、受聴者Lが受聴する仮想空間での第1風による空力音(第2空力音)は受聴者Lが受聴する現実空間での第1風による空力音(第2空力音)に似た音となり、受聴者Lが受聴する仮想空間での第2風による空力音(第2空力音)は受聴者Lが受聴する現実空間での第2風による空力音(第2空力音)に似た音となる。このため、受聴者Lは違和感を覚え難く、受聴者Lは臨場感を得ることができる。つまりは、情報生成方法は、受聴者Lに臨場感を与えることができる。
 実施の形態の変形例7に係る情報生成方法は、風速と風速を表現する言葉とが紐づけられた画像を表示する表示ステップと、第1想定風速として表示された画像が示す風速を指定する第1操作を受付け、第2想定風速として表示された画像が示す風速を指定する第2操作を受付ける第3受付ステップとを含み。
 これにより、ユーザに指定された風速を第1想定風速として、かつ、ユーザに指定された風速を第2想定風速として利用することができる。
 実施の形態の変形例7に係る音響信号処理方法は、仮想空間における受聴者Lの位置を示す第2位置情報と、上記情報生成方法により出力された第4オブジェクトオーディオ情報又は第5オブジェクトオーディオ情報を取得する第8取得ステップと、第4オブジェクトオーディオ情報が取得された場合には、空力音コア情報が含む空力音データを取得された第2位置情報が示す位置に基づいて処理し、第5オブジェクトオーディオ情報が取得された場合には、空力音コア情報が含む空力音データを取得された第2位置情報が示す位置に基づかずに処理する第4処理ステップと、処理された空力音データを出力する第7出力ステップとを含む。
 これにより、第8取得ステップでは、第4オブジェクトオーディオ情報又は第5オブジェクトオーディオ情報を取得することができる。従って、空力音データが第2位置情報が示す位置に基づいて処理されることで、受聴者Lが受聴する仮想空間での第1風による空力音(第2空力音)は、受聴者Lが受聴する現実空間での第1風による空力音(第2空力音)に似た音となり、より具体的には、現実空間での第1風による空力音(第2空力音)が再現された音となる。さらに、空力音データが第2位置情報が示す位置に基づかずに処理されることで、受聴者Lが受聴する仮想空間での第2風による空力音(第2空力音)は、受聴者Lが受聴する現実空間での第2風による空力音(第2空力音)に似た音となり、より具体的には、現実空間での第2風による空力音(第2空力音)が再現された音となる。このため、受聴者Lは違和感を覚え難く、受聴者Lは臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感を与えることができる。
 また、本実施の形態及び変形例1~8に係るコンピュータプログラムは、上記記載の音響信号処理方法をコンピュータに実行させるためのコンピュータプログラムである。
 これにより、コンピュータが、コンピュータプログラムに従って、上記の音響信号処理方法を実行することができる。
 また、本実施の形態及び変形例1~8に係るコンピュータプログラムは、上記記載の情報生成方法をコンピュータに実行させるためのコンピュータプログラムである。
 これにより、コンピュータが、コンピュータプログラムに従って、上記の情報生成方法を実行することができる。
 本実施の形態に係る音響信号処理装置100は、仮想空間におけるオブジェクトの位置を示す第1位置情報とオブジェクトに起因する第1音を示す第1音データと第1音データに対する処理手段を示す第1識別情報とを含むオブジェクト情報、及び、仮想空間における第1音の受聴者Lの位置を示す第2位置情報を取得する第1取得部110と、取得されたオブジェクト情報が含む第1位置情報、及び、取得された第2位置情報に基づいて、オブジェクトと受聴者Lとの距離Dを算出する第1算出部120と、取得されたオブジェクト情報が含む第1識別情報に基づいて、算出された距離Dに応じた音量の処理をする第1処理手段、及び、第1処理手段とは異なる態様で算出された距離Dに応じた音量の処理をする第2処理手段のうち、第1音データを処理する処理手段を決定する決定部130と、決定された処理手段で第1音データを処理する第1処理部140と、処理された第1音データを出力する第1出力部150と、を備える。
 これにより、第1識別情報に応じて第1音の音量の処理手段が変更されることができるため、受聴者Lが受聴する仮想空間での第1音は、受聴者Lが受聴する現実空間での第1音に似た音となり、より具体的には、現実空間での第1音が再現された音となる。このため、受聴者Lは違和感を覚え難く、受聴者Lは臨場感を得ることができる。つまりは、音響信号処理装置100は、受聴者Lに臨場感を与えることができる。
 (その他の実施の形態)
 以上、本開示の態様に係る音響信号処理方法、音響信号処理装置、情報生成方法及び情報生成装置について、実施の形態及び変形例に基づいて説明したが、本開示は、この実施の形態及び変形例に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態及び変形例に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。
 また、本開示の第50態様に係る情報生成方法は、仮想空間で吹く第1風の発生位置と、前記第1風の第1風向と、前記第1風の風速である第1想定風速と、前記仮想空間で吹く第2風の第2風向と、前記第2風の風速である第2想定風速とを取得する第7取得ステップと、取得された前記発生位置と前記第1風向と前記第1想定風速とが関連付けられた第4オブジェクトオーディオ情報を生成し、かつ、取得された前記第2風向と前記第2想定風速とが関連付けられた第5オブジェクトオーディオ情報を生成する第4生成ステップと、前記第7取得ステップで取得された前記発生位置と、前記第1風向と、前記第1想定風速と、前記第2風向と、前記第2想定風速とのうち少なくとも1つに基づいて、前記第4生成ステップで生成された前記第4オブジェクトオーディオ情報及び前記第5オブジェクトオーディオ情報のうちいずれのオブジェクトオーディオ情報を出力するかを決定する決定ステップを含む。
 また、例えば、本開示の第51態様に係る情報生成方法は、前記決定ステップは、前記第1風の前記発生位置に応じて、生成された第4オブジェクトオーディオ情報又は第5オブジェクトオーディオ情報のいずれのオブジェクトオーディオ情報を出力するかを決定し、前記情報生成方法は、決定された前記オブジェクトオーディオ情報を出力する第6出力ステップをさらに含む、第50態様に係る情報生成方法である。
 また、例えば、本開示の第52態様に係る情報生成方法は、前記決定ステップは、前記第1風の前記発生位置が前記仮想空間にある場合、生成された前記第4オブジェクトオーディオ情報を出力することを決定し、前記第6出力ステップは、前記第4オブジェクトオーディオ情報を出力する、第51態様に係る情報生成方法である。
 また、例えば、本開示の第53態様に係る情報生成方法は、前記決定ステップは、前記第1風の前記発生位置が前記仮想空間にない場合、生成された前記第4オブジェクトオーディオ情報を出力しないことを決定する、第50態様に係る情報生成方法である。
 また、例えば、本開示の第54態様に係る情報生成方法は、前記決定ステップは、前記第1風の前記発生位置が前記仮想空間にない場合、前記第4生成ステップで生成された前記第4オブジェクトオーディオ情報及び前記第5オブジェクトオーディオ情報のうちいずれのオブジェクトオーディオ情報も出力しないことを決定する、第50態様に係る情報生成方法である。
 また、例えば、本開示の第55態様に係る情報生成方法は、前記決定ステップは、前記第1風の前記発生位置が前記仮想空間にない場合、生成された前記第5オブジェクトオーディオ情報を出力することを決定し、前記第6出力ステップは、前記第5オブジェクトオーディオ情報を出力する、第51態様に係る情報生成方法である。
 また、以下に示す形態も、本開示の一つ又は複数の態様の範囲内に含まれてもよい。
 (1)上記の音響信号処理装置及び情報生成装置を構成する構成要素の一部は、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムであってもよい。前記RAM又はハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
 (2)上記の音響信号処理装置及び情報生成装置を構成する構成要素の一部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
 (3)上記の音響信号処理装置及び情報生成装置を構成する構成要素の一部は、各装置に脱着可能なICカード又は単体のモジュールから構成されているとしてもよい。前記ICカード又は前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカード又は前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカード又は前記モジュールは、その機能を達成する。このICカード又はこのモジュールは、耐タンパ性を有するとしてもよい。
 (4)また、上記の音響信号処理装置及び情報生成装置を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(登録商標) Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されているデジタル信号であるとしてもよい。
 また、上記の音響信号処理装置及び情報生成装置を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
 (5)本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
 (6)また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
 (7)また、前記プログラム又は前記デジタル信号を前記記録媒体に記録して移送することにより、又は前記プログラム又は前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
 本開示は、音響信号処理方法、音響信号処理装置、情報生成方法及び情報生成装置に利用可能であり、特に、音響システムなどに適用可能である。
10 サーバ装置
20 ヘッドフォン
21 頭部センサ部
22、44 出力部
30、66 表示部
40、50、60、70 情報生成装置
41 受付部
42 第2取得部
43 第1生成部
45、55、65、75 記憶部
51 第2受付部
52 第4取得部
53 第2生成部
54 第3出力部
61 第3受付部
62 第7取得部
63 第4生成部
64 第6出力部
72 第6取得部
73 第3生成部
74 第5出力部
100、100a、100b、200、200c、200d、400、500、A0001 音響信号処理装置
110 第1取得部
120 第1算出部
130 決定部
140、140a、140b 第1処理部
150 第1出力部
160 第1受付部
170、270、470、570 記憶部
210 第3取得部
220 第2算出部
240、240c、240d 第2処理部
250 第2出力部
410 第5取得部
420 第3算出部
440 第3処理部
450 第4出力部
510 第8取得部
540 第4処理部
550 第7出力部
901 残響処理部
902 初期反射処理部
903 距離減衰処理部
904 選択部
905 バイノーラル処理部
906 算出部
907 生成部
A 救急車
A1、B1、C1、D1 他人
A0000 立体音響再生システム
A0002 音声提示装置
A0100 符号化装置
A0101、A0113 入力データ
A0102 エンコーダ
A0103 符号化データ
A0104、A0114 メモリ
A0110、A0130 復号装置
A0111 音声信号
A0112 デコーダ
A0120 符号化装置
A0121 送信部
A0122 送信信号
A0131 受信部
A0132 受信信号
A0200、A0210 デコーダ
A0201、A0211 空間情報管理部
A0202 音声データデコーダ
A0203、A0213、900 レンダリング部
B バット
D31 方向
D32 方向
Df 方向
DF 方向
F 扇風機
L 受聴者
W 風
Z ゾンビ

Claims (49)

  1.  仮想空間におけるオブジェクトの位置を示す第1位置情報と前記オブジェクトに起因する第1音を示す第1音データと前記第1音データに対する処理手段を示す第1識別情報とを含むオブジェクト情報、及び、前記仮想空間における前記第1音の受聴者の位置を示す第2位置情報を取得する第1取得ステップと、
     取得された前記オブジェクト情報が含む前記第1位置情報、及び、取得された前記第2位置情報に基づいて、前記オブジェクトと前記受聴者との距離を算出する第1算出ステップと、
     取得された前記オブジェクト情報が含む前記第1識別情報に基づいて、算出された前記距離に応じた音量の処理をする第1処理手段、及び、前記第1処理手段とは異なる態様で算出された前記距離に応じた音量の処理をする第2処理手段のうち、前記第1音データを処理する処理手段を決定する決定ステップと、
     決定された前記処理手段で前記第1音データを処理する第1処理ステップと、
     処理された前記第1音データを出力する第1出力ステップと、を含む
     音響信号処理方法。
  2.  前記第1処理手段は、音量が、算出された前記距離が増加するに従って反比例して減衰するように前記第1音データを処理する処理手段であり、
     前記第2処理手段は、音量が、算出された前記距離が増加するに従って前記第1処理手段とは異なる態様で増減するように前記第1音データを処理する処理手段である
     請求項1に記載の音響信号処理方法。
  3.  取得された前記オブジェクト情報は、
      前記第1音とは異なる音であって前記オブジェクトに起因する第2音を示す第2音データと、
      前記第2音データに対する処理手段を示す第2識別情報とを含み、
     前記決定ステップでは、取得された前記オブジェクト情報が含む前記第2識別情報に基づいて、前記第1処理手段及び前記第2処理手段のうち、前記第2音データを処理する処理手段を決定し、
     前記第1処理ステップでは、決定された前記処理手段で前記第2音データを処理し、
     前記第1出力ステップでは、処理された前記第2音データを出力し、
     前記オブジェクトは、前記第1音データ及び前記第2音データを含む複数の音データと関連付けられるオブジェクトである
     請求項2に記載の音響信号処理方法。
  4.  前記第2処理手段は、音量が、前記距離のx乗(x≠1)で減衰するように前記第1音データを処理する処理手段である
     請求項2に記載の音響信号処理方法。
  5.  前記第1識別情報は、前記第1音データに対する前記処理手段が前記第2処理手段であること、及び、前記xの値を示す
     請求項4に記載の音響信号処理方法。
  6.  前記第1音が、前記オブジェクトの移動にともない生じる空力音である場合には、
     前記第1識別情報は、前記第1音データに対する処理手段が前記第2処理手段であること、及び、前記xがαであり前記αが実数であり前記αが下記式を満たすことを示す
     α>1
     請求項4に記載の音響信号処理方法。
  7.  前記第1音が前記オブジェクトから放射された風が前記受聴者の耳に到達することで生じる空力音である場合には、
     前記第1識別情報は、前記第1音データに対する処理手段が前記第2処理手段であること、及び、前記xがβであり前記βが実数であり前記βが下記式を満たすことを示す
     β>2
     請求項6に記載の音響信号処理方法。
  8.  前記α及び前記βは、下記式を満たす
     α<β
     請求項7に記載の音響信号処理方法。
  9.  ユーザから前記α又は前記βの値を指定する操作を受付ける第1受付ステップを含む、
     請求項7に記載の音響信号処理方法。
  10.  前記第1識別情報は、前記第1処理手段を実行するか否かを示す情報であり、
     前記決定ステップでは、
      取得された前記第1識別情報に基づいて、前記第1処理手段を実行するか否かを決定し、かつ、
      前記第1処理手段が実行されるか否かに関わらず、前記第2処理手段を実行することを決定し、
     前記第2処理手段は、算出された前記距離が所定の閾値以内である場合に、音量が、所定の値となるように前記第1音データを処理する処理手段である
     請求項2に記載の音響信号処理方法。
  11.  前記所定の閾値は、パーソナルスペースに応じた値である
     請求項10に記載の音響信号処理方法。
  12.  ユーザから前記所定の閾値が第1指定値であることを指定する操作を受付ける第1受付ステップを含む、
     請求項10に記載の音響信号処理方法。
  13.  仮想空間における受聴者の位置に関連する位置で生じる第1音を示す第1音データと、前記仮想空間におけるオブジェクトの位置を示す第1位置情報とを取得する第2取得ステップと、
     取得された前記第1音データと取得された前記第1位置情報とから、前記オブジェクトに起因して前記受聴者の位置に関連する位置で前記第1音を再生させる前記オブジェクトに関する情報と前記第1位置情報とを含む第1オブジェクトオーディオ情報を生成する第1生成ステップと、を含む
     情報生成方法。
  14.  前記オブジェクトは、風を放射し、
     前記受聴者は、放射された前記風を浴び、
     前記第1音は、前記オブジェクトから放射された前記風が前記受聴者の耳に到達することで生じる空力音である
     請求項13に記載の情報生成方法。
  15.  前記第1生成ステップでは、さらに単位距離情報を含む前記第1オブジェクトオーディオ情報を生成し、
     前記単位距離情報は、基準となる距離である単位距離と、前記オブジェクトの前記位置から前記単位距離離れた位置における前記空力音を示す空力音データとを含む情報である
     請求項14に記載の情報生成方法。
  16.  前記第1生成ステップでは、さらに指向性情報を含む前記第1オブジェクトオーディオ情報を生成し、
     前記指向性情報は、放射された前記風の方向に応じた特性を示す情報であり、
     前記単位距離情報に示される前記空力音データは、前記指向性情報に示される前記オブジェクトが前記風を放射する正面方向に、前記オブジェクトの前記位置から前記単位距離離れた位置における前記空力音を示すデータである
     請求項15に記載の情報生成方法。
  17.  前記第1生成ステップでは、前記第1音の再生時において、前記オブジェクトから生じた前記第1音を示す前記第1音データに基づく第1音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理を行うか否かを示すフラグ情報をさらに含む前記第1オブジェクトオーディオ情報を生成する
     請求項13に記載の情報生成方法。
  18.  請求項13に記載の情報生成方法によって生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記第1音の前記受聴者の前記位置を示す第2位置情報を取得する第3取得ステップと、
     取得された前記第1オブジェクトオーディオ情報が含む前記第1位置情報、及び、取得された前記第2位置情報に基づいて、前記オブジェクトと前記受聴者との距離を算出する第2算出ステップと、
     算出された前記距離が増加するほど、前記第1音の音量が減衰するように前記第1音データを処理する第2処理ステップと、
     処理された前記第1音データを出力する第2出力ステップとを含む
     音響信号処理方法。
  19.  請求項14に記載の情報生成方法によって生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記第1音の前記受聴者の前記位置を示す第2位置情報を取得する第3取得ステップと、
     取得された前記第1オブジェクトオーディオ情報が含む前記第1位置情報、及び、取得された前記第2位置情報に基づいて、前記風を放射する前記オブジェクトと前記受聴者との距離を算出する第2算出ステップと、
     算出された前記距離が増加するほど、前記第1音の音量が減衰するように前記第1音データを処理する第2処理ステップと、
     処理された前記第1音データを出力する第2出力ステップとを含む
     音響信号処理方法。
  20.  請求項15に記載の情報生成方法によって生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記第1音の前記受聴者の前記位置を示す第2位置情報を取得する第3取得ステップと、
     取得された前記第1オブジェクトオーディオ情報が含む前記第1位置情報、及び、取得された前記第2位置情報に基づいて、前記風を放射する前記オブジェクトと前記受聴者との距離を算出する第2算出ステップと、
     取得された前記第1オブジェクトオーディオ情報が含む前記単位距離情報が示す前記単位距離よりも算出された前記距離が大きい場合に、算出された前記距離と前記単位距離とに応じて、前記第1音の音量が減衰するように前記第1音データを処理する第2処理ステップと、
     処理された前記第1音データを出力する第2出力ステップとを含む
     音響信号処理方法。
  21.  請求項16に記載の情報生成方法によって生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記第1音の前記受聴者の前記位置を示す第2位置情報を取得する第3取得ステップと、
     取得された前記第1オブジェクトオーディオ情報が含む前記第1位置情報、及び、取得された前記第2位置情報に基づいて、前記風を放射する前記オブジェクトと前記受聴者との距離、及び、前記オブジェクトと前記受聴者とを結ぶ二点間方向を算出する第2算出ステップと、
     前記正面方向と算出された二点間方向とがなす角度及び前記指向性情報が示す前記特性に基づいて前記第1音の音量を制御するように、かつ、取得された前記第1オブジェクトオーディオ情報が含む前記単位距離情報が示す前記単位距離よりも算出された前記距離が大きい場合に算出された前記距離と前記単位距離とに応じて前記第1音の音量が減衰するように、前記第1音データを処理する第2処理ステップと、
     処理された前記第1音データを出力する第2出力ステップとを含む
     音響信号処理方法。
  22.  請求項13~16のいずれか1項に記載の情報生成方法で生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記第1位置情報と前記オブジェクトに起因する第2音を示す第2音データとが関連付けられた第2オブジェクトオーディオ情報を取得する第3取得ステップと、
     取得された前記第1音データに基づく第1音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をせず、かつ、取得された前記第2オブジェクトオーディオ情報が示す前記第2音データに基づく第2音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をする第2処理ステップと、
     処理されていない前記第1音信号、及び、処理された前記第2音信号を出力する第2出力ステップとを含む
     音響信号処理方法。
  23.  請求項14~16のいずれか1項に記載の情報生成方法で生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記第1位置情報と前記オブジェクトに起因する第2音を示す第2音データとが関連付けられた第2オブジェクトオーディオ情報を取得する第3取得ステップと、
     取得された前記第1音データに基づく第1音信号に風が到来する方向に依存した処理をし、かつ、取得された前記第2オブジェクトオーディオ情報が示す前記第2音データに基づく第2音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をする第2処理ステップと、
     処理された前記第1音信号、及び、処理された前記第2音信号を出力する第2出力ステップとを含む
     音響信号処理方法。
  24.  請求項14~16のいずれか1項に記載の情報生成方法で生成された前記第1オブジェクトオーディオ情報、取得された前記第1音データ、及び、前記オブジェクトとは異なるオブジェクトであって前記仮想空間における他のオブジェクトの位置を示す第3位置情報と前記他のオブジェクトの前記位置で発生する第3音を示す第3音データとが関連付けられた第3オブジェクトオーディオ情報を取得する第3取得ステップと、
     取得された前記第1音データに基づく第1音信号に風が到来する方向に依存した処理をし、かつ、取得された前記第3オブジェクトオーディオ情報が示す前記第3音データに基づく第3音信号に、音が到来する方向に依存する頭部伝達関数を畳み込む処理をする第2処理ステップと、
     処理された前記第1音信号、及び、処理された前記第3音信号を出力する第2出力ステップとを含む
     音響信号処理方法。
  25.  仮想空間で吹く第1風の発生位置と、前記第1風の第1風向と、前記第1風の風速である第1想定風速とを取得する第4取得ステップと、
     取得された前記発生位置と、前記第1風向と、前記第1想定風速とが関連付けられた第4オブジェクトオーディオ情報を生成する第2生成ステップと、
     代表風速と、前記代表風速の風が前記仮想空間における受聴者の耳に到達することで生じる空力音を示す空力音データとを含む空力音コア情報を記憶する記憶ステップと、
     生成された前記第4オブジェクトオーディオ情報と、記憶されている前記空力音コア情報とを出力する第3出力ステップとを含む
     情報生成方法。
  26.  前記第1想定風速は、前記第1風向の方向に前記発生位置から基準となる距離である単位距離離れた位置での前記第1風の風速である
     請求項25記載の情報生成方法。
  27.  ユーザから前記単位距離が第2指定値であることを指定する操作を受付ける第2受付ステップを含む、
     請求項26に記載の情報生成方法。
  28.  ユーザから前記第1風の方向に応じた特性を示す指向性情報を指定する操作を受付ける第2受付ステップを含み、
     前記第2生成ステップでは、取得された前記発生位置、前記第1風向及び前記第1想定風速と、受付けられた前記操作が示す前記指向性情報とが関連付けられた前記第4オブジェクトオーディオ情報を生成する
     請求項26に記載の情報生成方法。
  29.  請求項26~28のいずれか1項に記載の情報生成方法で出力された前記第4オブジェクトオーディオ情報及び前記空力音コア情報と、前記仮想空間における前記受聴者の位置を示す第2位置情報とを取得する第5取得ステップと、
     取得された前記第4オブジェクトオーディオ情報が含む前記発生位置、及び、取得された前記第2位置情報に基づいて、前記発生位置と前記受聴者との距離を算出する第3算出ステップと、
     算出された前記距離が増加するほど、前記空力音の音量が減衰するように前記空力音データを処理する第3処理ステップと、
     処理された前記空力音データを出力する第4出力ステップとを含む
     音響信号処理方法。
  30.  前記第3処理ステップでは、前記受聴者の耳に到達したときの前記第1風の風速である耳到達風速に基づいて、前記空力音データを処理し、
     前記耳到達風速は、算出された前記距離が増加するほど、前記風速が減速する
     請求項29に記載の音響信号処理方法。
  31.  前記耳到達風速は、算出された前記距離を前記単位距離で割った値のz乗で減衰する値である
     請求項30に記載の音響信号処理方法。
  32.  前記zは、下記式を満たす
     z=1
     請求項31に記載の音響信号処理方法。
  33.  前記第3処理ステップでは、前記空力音の音量が、前記代表風速を前記耳到達風速で割った値のγ乗で減衰するように、前記空力音データを処理する
     請求項31に記載の音響信号処理方法。
  34.  前記γ及び前記zは、下記式を満たす
     γ×z<4
     請求項33に記載の音響信号処理方法。
  35.  請求項26~28のいずれか1項に記載の情報生成方法で出力された前記第4オブジェクトオーディオ情報、及び、前記空力音の周波数成分の分布を示すデータを含む前記空力音コア情報と、前記仮想空間における前記受聴者の位置を示す第2位置情報とを取得する第5取得ステップと、
     取得された前記第4オブジェクトオーディオ情報が含む前記発生位置、及び、取得された前記第2位置情報に基づいて、前記発生位置と前記受聴者との距離を算出する第3算出ステップと、
     算出された前記距離が増加するほど、前記空力音の前記周波数成分の分布を低周波数側にシフトするように前記空力音データを処理する第3処理ステップと、
     処理された前記空力音データを出力する第4出力ステップとを含む
     音響信号処理方法。
  36.  前記第3処理ステップでは、前記受聴者の耳に到達したときの前記第1風の風速である耳到達風速に基づいて、前記空力音データを処理し、
     前記耳到達風速は、算出された前記距離が増加するほど、前記風速が減速する
     請求項35に記載の音響信号処理方法。
  37.  前記耳到達風速は、算出された前記距離を前記単位距離で割った値のz乗で減衰する値である
     請求項36に記載の音響信号処理方法。
  38.  前記zは、下記式を満たす
     z=1
     請求項37に記載の音響信号処理方法。
  39.  前記第3処理ステップでは、前記空力音の前記周波数成分の分布を、前記代表風速を前記耳到達風速で割った値の逆数倍の周波数にシフトさせるように、前記空力音データを処理する
     請求項36に記載の音響信号処理方法。
  40.  仮想空間で吹く第2風の第2風向と、前記第2風の風速である第2想定風速とを取得する第6取得ステップと、
     取得された前記第2風向と、前記第2想定風速とが関連付けられた第5オブジェクトオーディオ情報を生成する第3生成ステップと、
     代表風速と、前記代表風速の風が前記仮想空間における受聴者の耳に到達することで生じる空力音を示す空力音データとを含む空力音コア情報を記憶する記憶ステップと、
     生成された前記第5オブジェクトオーディオ情報と、記憶されている前記空力音コア情報とを出力する第5出力ステップとを含む
     情報生成方法。
  41.  仮想空間で吹く第1風の発生位置と、前記第1風の第1風向と、前記第1風の風速である第1想定風速と、前記仮想空間で吹く第2風の第2風向と、前記第2風の風速である第2想定風速とを取得する第7取得ステップと、
     取得された前記発生位置と前記第1風向と前記第1想定風速とが関連付けられた第4オブジェクトオーディオ情報を生成し、かつ、取得された前記第2風向と前記第2想定風速とが関連付けられた第5オブジェクトオーディオ情報を生成する第4生成ステップと、
     生成された前記第4オブジェクトオーディオ情報と生成された前記第5オブジェクトオーディオ情報とを出力する第6出力ステップを含む
     情報生成方法。
  42.  前記第6出力ステップは、前記第1風の前記発生位置が前記仮想空間にある場合、生成された前記第4オブジェクトオーディオ情報を出力する
     請求項41に記載の情報生成方法。
  43.  前記第6出力ステップは、前記第1風の前記発生位置が前記仮想空間にない場合、生成された前記第5オブジェクトオーディオ情報を出力する
     請求項42に記載の情報生成方法。
  44.  代表風速と、前記代表風速の風が前記仮想空間における受聴者の耳に到達することで生じる空力音を示す空力音データとを含む空力音コア情報を記憶する記憶ステップを含み、
     前記第6出力ステップでは、記憶されている前記空力音コア情報を出力する
     請求項41に記載の情報生成方法。
  45.  風速と前記風速を表現する言葉とが紐づけられた画像を表示する表示ステップと、
     前記第1想定風速として表示された前記画像が示す前記風速を指定する第1操作を受付け、前記第2想定風速として表示された前記画像が示す前記風速を指定する第2操作を受付ける第3受付ステップとを含み、
     請求項44に記載の情報生成方法。
  46.  前記仮想空間における前記受聴者の位置を示す第2位置情報と、請求項44に記載の情報生成方法により出力された前記第4オブジェクトオーディオ情報又は前記第5オブジェクトオーディオ情報を取得する第8取得ステップと、
     前記第4オブジェクトオーディオ情報が取得された場合には、前記空力音コア情報が含む前記空力音データを取得された前記第2位置情報が示す前記位置に基づいて処理し、前記第5オブジェクトオーディオ情報が取得された場合には、前記空力音コア情報が含む前記空力音データを取得された前記第2位置情報が示す前記位置に基づかずに処理する第4処理ステップと、
     処理された前記空力音データを出力する第7出力ステップとを含む
     音響信号処理方法。
  47.  請求項1~12、18~21及び46のいずれか1項に記載の音響信号処理方法をコンピュータに実行させるためのコンピュータプログラム。
  48.  請求項13~17、25~28及び40~45のいずれか1項に記載の情報生成方法をコンピュータに実行させるためのコンピュータプログラム。
  49.  仮想空間におけるオブジェクトの位置を示す第1位置情報と前記オブジェクトに起因する第1音を示す第1音データと前記第1音データに対する処理手段を示す第1識別情報とを含むオブジェクト情報、及び、前記仮想空間における前記第1音の受聴者の位置を示す第2位置情報を取得する第1取得部と、
     取得された前記オブジェクト情報が含む前記第1位置情報、及び、取得された前記第2位置情報に基づいて、前記オブジェクトと前記受聴者との距離を算出する第1算出部と、
     取得された前記オブジェクト情報が含む前記第1識別情報に基づいて、算出された前記距離に応じた音量の処理をする第1処理手段、及び、前記第1処理手段とは異なる態様で算出された前記距離に応じた音量の処理をする第2処理手段のうち、前記第1音データを処理する処理手段を決定する決定部と、
     決定された前記処理手段で前記第1音データを処理する第1処理部と、
     処理された前記第1音データを出力する第1出力部と、を備える
     音響信号処理装置。
PCT/JP2023/025120 2022-07-13 2023-07-06 音響信号処理方法、情報生成方法、コンピュータプログラム、及び、音響信号処理装置 WO2024014390A1 (ja)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
US202263388740P 2022-07-13 2022-07-13
US63/388,740 2022-07-13
US202263417389P 2022-10-19 2022-10-19
US202263417397P 2022-10-19 2022-10-19
US63/417,397 2022-10-19
US63/417,389 2022-10-19
US202363457495P 2023-04-06 2023-04-06
US63/457,495 2023-04-06
US202363459335P 2023-04-14 2023-04-14
US63/459,335 2023-04-14

Publications (1)

Publication Number Publication Date
WO2024014390A1 true WO2024014390A1 (ja) 2024-01-18

Family

ID=89536705

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/025120 WO2024014390A1 (ja) 2022-07-13 2023-07-06 音響信号処理方法、情報生成方法、コンピュータプログラム、及び、音響信号処理装置

Country Status (1)

Country Link
WO (1) WO2024014390A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014199536A1 (ja) * 2013-06-10 2014-12-18 パナソニック株式会社 オーディオ再生装置及びその方法
US20200029164A1 (en) * 2018-07-18 2020-01-23 Qualcomm Incorporated Interpolating audio streams
WO2020255810A1 (ja) * 2019-06-21 2020-12-24 ソニー株式会社 信号処理装置および方法、並びにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014199536A1 (ja) * 2013-06-10 2014-12-18 パナソニック株式会社 オーディオ再生装置及びその方法
US20200029164A1 (en) * 2018-07-18 2020-01-23 Qualcomm Incorporated Interpolating audio streams
WO2020255810A1 (ja) * 2019-06-21 2020-12-24 ソニー株式会社 信号処理装置および方法、並びにプログラム

Similar Documents

Publication Publication Date Title
US11792598B2 (en) Spatial audio for interactive audio environments
Serafin et al. Sonic interactions in virtual reality: State of the art, current challenges, and future directions
KR102609668B1 (ko) 가상, 증강, 및 혼합 현실
US11109177B2 (en) Methods and systems for simulating acoustics of an extended reality world
CN112602053B (zh) 音频装置和音频处理的方法
Murphy et al. Spatial sound for computer games and virtual reality
WO2022170716A1 (zh) 音频处理方法、装置、设备、介质及程序产品
WO2020189263A1 (ja) 音響処理装置、音響処理方法、および音響処理プログラム
WO2024014390A1 (ja) 音響信号処理方法、情報生成方法、コンピュータプログラム、及び、音響信号処理装置
WO2024014389A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024084949A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024084950A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
JP7267096B2 (ja) オーディオエフェクト制御システム、オーディオエフェクト制御装置、受信装置、オーディオエフェクト制御方法、受信装置の制御方法及びプログラム
WO2024084920A1 (ja) 音響処理方法、音響処理装置、及び、プログラム
WO2024084997A1 (ja) 音響処理装置及び音響処理方法
WO2023199815A1 (ja) 音響処理方法、プログラム、及び音響処理システム
WO2024084999A1 (ja) 音響処理装置及び音響処理方法
WO2023199778A1 (ja) 音響信号処理方法、プログラム、音響信号処理装置、および、音響信号再生システム
WO2024084998A1 (ja) 音響処理装置及び音響処理方法
WO2023199818A1 (ja) 音響信号処理装置、音響信号処理方法、及び、プログラム
WO2023199813A1 (ja) 音響処理方法、プログラム、及び音響処理システム
RU2798414C2 (ru) Аудиоустройство и способ обработки аудио
WO2023199817A1 (ja) 情報処理方法、情報処理装置、音響再生システム、及び、プログラム
JP2022128177A (ja) 音声生成装置、音声再生装置、音声再生方法、及び音声信号処理プログラム
Gutiérrez A et al. Audition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23839562

Country of ref document: EP

Kind code of ref document: A1