WO2024014389A1 - 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置 - Google Patents

音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置 Download PDF

Info

Publication number
WO2024014389A1
WO2024014389A1 PCT/JP2023/025118 JP2023025118W WO2024014389A1 WO 2024014389 A1 WO2024014389 A1 WO 2024014389A1 JP 2023025118 W JP2023025118 W JP 2023025118W WO 2024014389 A1 WO2024014389 A1 WO 2024014389A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
listener
information
aerodynamic sound
signal processing
Prior art date
Application number
PCT/JP2023/025118
Other languages
English (en)
French (fr)
Inventor
陽 宇佐見
智一 石川
成悟 榎本
康太 中橋
宏幸 江原
摩里子 山田
修二 宮阪
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Publication of WO2024014389A1 publication Critical patent/WO2024014389A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present disclosure relates to an acoustic signal processing method and the like.
  • Patent Document 1 discloses a technology related to a three-dimensional sound field space reproduction device that is an acoustic signal processing device, and this acoustic signal processing device adds the movement speed of the listener and the sound source to the convolution-operated acoustic signal. It is equipped with Doppler calculation means that performs Doppler effect processing based on the moving speed.
  • an object of the present disclosure is to provide an acoustic signal processing method that can give a listener a sense of presence.
  • An acoustic signal processing method includes acquiring first position information indicating the position of a moving object in a virtual space and second position information indicating the position of a listener in the virtual space. a first calculation step of calculating a moving speed of the object based on the acquired first position information, and based on the acquired first position information and the acquired second position information, a second calculation step of calculating a distance between the object and the listener, and wind generated by the movement of the object reaches the ears of the listener based on the calculated moving speed and the calculated distance; and an output step of outputting the generated aerodynamic sound signal.
  • a noise signal is processed by each of a plurality of band emphasis filters, and the plurality of processed noise signals are synthesized and processed, thereby creating a virtual space.
  • a program according to one aspect of the present disclosure causes a computer to execute the above acoustic signal processing method.
  • the acoustic signal processing device acquires first position information indicating the position of a moving object in the virtual space and second position information indicating the position of the listener in the virtual space. a first calculation unit that calculates a moving speed of the object based on the acquired first position information; and a first calculation unit that calculates the moving speed of the object based on the acquired first position information and the acquired second position information.
  • a second calculation unit that calculates the distance between the object and the listener; and a second calculation unit that calculates the distance between the object and the listener, and a second calculation unit that calculates a distance between the object and the listener, and a second calculation unit that calculates a distance between the object and the listener, and a second calculation unit that calculates a distance between the object and the listener, and a second calculation unit that calculates a distance between the object and the listener. It includes a generation unit that generates an aerodynamic sound signal indicating aerodynamic sound caused by the arrival of the vehicle, and an output unit that outputs the generated aerodynamic sound signal.
  • the acoustic signal processing method it is possible to provide a listener with a sense of presence.
  • FIG. 1 is an example of a diagram illustrating aerodynamic sound generated when it reaches the head or ears of a listener.
  • FIG. 2A is another example of a diagram illustrating aerodynamic sound generated by reaching the listener's head or ears.
  • FIG. 2B is a diagram showing an immersive audio playback system that is an example of a system to which the audio processing or decoding processing of the present disclosure can be applied.
  • FIG. 2C is a functional block diagram showing the configuration of an encoding device that is an example of the encoding device of the present disclosure.
  • FIG. 2D is a functional block diagram showing the configuration of a decoding device that is an example of the decoding device of the present disclosure.
  • FIG. 1 is an example of a diagram illustrating aerodynamic sound generated when it reaches the head or ears of a listener.
  • FIG. 2A is another example of a diagram illustrating aerodynamic sound generated by reaching the listener's head or ears.
  • FIG. 2B is a diagram showing an immersive audio playback system that is
  • FIG. 2E is a functional block diagram showing the configuration of an encoding device that is another example of the encoding device of the present disclosure.
  • FIG. 2F is a functional block diagram showing the configuration of a decoding device that is another example of the decoding device of the present disclosure.
  • FIG. 2G is a functional block diagram showing the configuration of a decoder that is an example of the decoder in FIG. 2D or 2F.
  • FIG. 2H is a functional block diagram showing the configuration of a decoder that is another example of the decoder in FIG. 2D or 2F.
  • FIG. 2I is a diagram illustrating an example of the physical configuration of an acoustic signal processing device.
  • FIG. 2J is a diagram illustrating an example of the physical configuration of an encoding device.
  • FIG. 3A is a block diagram showing the functional configuration of the acoustic signal processing device according to the embodiment.
  • FIG. 3B is a flowchart of an example of the operation of the selection unit according to the embodiment.
  • FIG. 4 is a flowchart of operation example 1 of the acoustic signal processing device according to the embodiment.
  • FIG. 5 is a flowchart showing a first example method in which the generation unit generates the aerodynamic sound signal in step S50 shown in FIG.
  • FIG. 6 is a flowchart showing a first example method in which the generation unit generates an aerodynamic sound signal in step S50 shown in FIG.
  • FIG. 7 is a schematic diagram showing a dummy head microphone for collecting aerodynamic sound data according to the first example method in operation example 1.
  • FIG. 1 is a block diagram showing the functional configuration of the acoustic signal processing device according to the embodiment.
  • FIG. 3B is a flowchart of an example of the operation of the selection unit according to the embodiment.
  • FIG. 4
  • FIG. 8 is a schematic diagram showing another dummy head microphone for collecting aerodynamic sound data according to the method of the first example in operation example 1.
  • FIG. 9 is a flowchart showing a second example method in which the generation unit generates the aerodynamic sound signal in step S50 shown in FIG.
  • FIG. 10A is a diagram illustrating a process in which a generation unit generates an aerodynamic sound signal according to a second example method in operation example 1.
  • FIG. 10B is another diagram illustrating the process in which the generation unit generates the aerodynamic sound signal according to the method of the second example in Operation Example 1.
  • FIG. 11 is a diagram illustrating an example of four bandpass filters and their processing according to the second example method in operation example 1.
  • FIG. 12 is another diagram illustrating a process in which the generation unit generates a processed signal according to the method of the second example in Operation Example 1.
  • FIG. 13 is another diagram illustrating a process in which the generation unit generates a processed signal according to the method of the second example in Operation Example 1.
  • FIG. 14 is a flowchart of operation example 2 of the acoustic signal processing device according to the embodiment.
  • FIG. 15 is a flowchart of operation example 3 of the acoustic signal processing device according to the embodiment.
  • FIG. 16 is a flowchart of operation example 4 of the acoustic signal processing device according to the embodiment.
  • FIG. 17 is a diagram showing an aircraft that is an object according to operation example 4 of the acoustic signal processing device according to the embodiment.
  • FIG. 18 is a diagram showing a fan, which is an object according to operation example 5 of the acoustic signal processing device according to the embodiment.
  • FIG. 19 is a flowchart of operation example 5 of the acoustic signal processing device according to the embodiment.
  • FIG. 20 is a diagram showing an example of a functional block diagram and steps for explaining a case where the rendering unit in FIGS. 2G and 2H performs pipeline processing.
  • acoustic signal processing devices that process acoustic signals (that is, sound signals) in order to exhibit the Doppler effect in a virtual space.
  • Patent Document 1 discloses a technology related to a three-dimensional sound field reproduction device that is an acoustic signal processing device.
  • This acoustic signal processing device includes a Doppler calculation means that performs Doppler effect processing on the convoluted acoustic signal based on the moving speed of the listener and the moving speed of the sound source that emits the sound (that is, the object that emits the sound).
  • the listener listens to the sound processed by the Doppler effect, the listener can recognize that the object that emits the sound (for example, an ambulance that emits a siren) is moving.
  • Patent Document 1 even if an object does not emit a sound, if the object moves and generates wind noise, the listener will hear the wind noise. This allows the listener to more strongly recognize that the object is moving. For example, when the object is a bat used in baseball, wind noise is generated when the object (bat) moves (changes in position), that is, when the bat is swung. By listening to this wind noise, the listener can recognize that the bat has been swung.
  • Audio Sound and wind noises that have been subjected to Doppler effect processing can be used in virtual reality (VR) or augmented reality (AR), etc. , is used in applications for reproducing three-dimensional sound in a space where a user is present.
  • VR virtual reality
  • AR augmented reality
  • Aerodynamic sound is generated when the wind reaches, for example, the listener's head or ears. Aerodynamic sound is a sound caused by wind reaching a listener's ears in a virtual space, and also a sound caused by the shape of the listener's ears or head. By listening to the aerodynamic sound, the listener perceives that the object is moving. This example will be explained using FIGS. 1 and 2A.
  • FIG. 1 is an example of a diagram illustrating aerodynamic sound generated by reaching the head or ears of the listener L.
  • the vehicle 400 shown in FIG. 1 does not emit any sound, such as a siren, and is not moving so fast that wind noise is generated.
  • wind W occurs as the vehicle 400 moves.
  • this wind W reaches the listener L, for example, an aerodynamic sound corresponding to the shape of the ear of the listener L is generated, and the listener L hears the aerodynamic sound. Therefore, the listener L can auditorily perceive that the vehicle 400 is moving.
  • FIG. 2A is another example of a diagram illustrating aerodynamic sound generated by reaching the head or ears of the listener L.
  • the electric fan 600 shown in FIG. 2A has a plurality of large blades 601, and the blades 601 are rotating.
  • the listener L can perceive that the object (vehicle 400 or blade 601) is moving due to such aerodynamic sound, the listener L can obtain a more realistic feeling.
  • the acoustic signal processing method includes first position information indicating the position of a moving object in the virtual space, and second position information indicating the position of the listener in the virtual space. a first calculation step of calculating a moving speed of the object based on the acquired first position information; and a first calculation step of calculating the moving speed of the object based on the acquired first position information and the acquired second position information. a second calculation step of calculating the distance between the object and the listener based on the calculated moving speed and the calculated distance; and an output step of outputting the generated aerodynamic sound signal.
  • the acoustic signal processing method generates an aerodynamic sound signal indicating the aerodynamic sound caused by the wind generated by the movement of the object reaching the listener's ears, based on the position of the object in the virtual space and the position of the listener. and can output the generated aerodynamic sound signal.
  • the listener can listen to the aerodynamic sound. Therefore, the listener can perceive that the object is moving, and can obtain a sense of realism.
  • the acoustic signal processing method can provide a listener with a sense of presence.
  • the aerodynamic sound signal is generated such that the smaller the volume of the aerodynamic sound, the greater the volume of the aerodynamic sound.
  • the aerodynamic sound heard by the listener can be controlled according to the moving speed of the object and the distance between the object and the listener, so the listener can obtain a more realistic feeling.
  • the acoustic signal processing method can provide listeners with a more realistic feeling.
  • the acoustic signal processing method in the acquisition step, information indicating whether or not the object generates the aerodynamic sound is acquired, and in the generation step, information on whether or not the object generates the aerodynamic sound is acquired.
  • the acoustic signal processing method according to the first or second aspect generates the aerodynamic sound signal when the availability information indicates that the object generates the aerodynamic sound.
  • an aerodynamic sound signal is generated only when the availability information indicates that the object generates an aerodynamic sound.
  • the availability information does not indicate that the object generates aerodynamic sound, there is no need to generate an aerodynamic sound signal.
  • the processing load can be suppressed.
  • the acoustic signal processing method in the acquisition step, shape information indicating the shape of the object is acquired, and in the generation step, the shape indicated by the acquired shape information, the acoustic signal processing method according to the first or second aspect generates the aerodynamic sound signal based on the calculated moving speed and the calculated distance.
  • the aerodynamic sound signal is generated according to the shape of the object, the speed of movement of the object, and the distance between the object and the listener, allowing the listener to hear aerodynamic sound with a more realistic feeling.
  • the acoustic signal processing method can provide listeners with a more realistic feeling.
  • the aerodynamic sound heard by the listener can be controlled according to the moving speed of the object, the distance between the object and the listener, and the volume of the object, giving the listener a more realistic feeling. I can do it.
  • the acoustic signal processing method can provide listeners with a more realistic feeling.
  • the acoustic signal processing method calculates an air volume per unit time that occurs when the object moves based on the calculated moving speed and the acquired shape information.
  • the aerodynamic sound signal is generated according to the moving speed of the object, the distance between the object and the listener, and the air volume, so the listener can listen to a more realistic aerodynamic sound.
  • the acoustic signal processing method can provide listeners with a more realistic feeling.
  • the aerodynamic sound signal is generated so that the volume of the aerodynamic sound increases as the volume decreases, and the volume of the aerodynamic sound increases as the calculated air volume increases. It is.
  • the aerodynamic sound that the listener hears can be controlled according to the moving speed of the object, the distance between the object and the listener, and the above-mentioned air volume, so the listener can get a more realistic feeling.
  • the acoustic signal processing method can provide listeners with a more realistic feeling.
  • the aerodynamic sound signal is generated based on the calculated moving speed, the calculated distance, and the shape of a human ear.
  • the aerodynamic sound signal is generated according to the sound generation model based on the shape of the human ear, so that the listener can hear aerodynamic sound with a more realistic feeling.
  • the acoustic signal processing method can provide listeners with a more realistic feeling.
  • aerodynamic sound data is data in which the sound generated when wind reaches a human ear or a model imitating a human ear is collected.
  • the storing step and the generating step generate the aerodynamic sound signal based on the stored aerodynamic sound data, the calculated moving speed, and the calculated distance.
  • the aerodynamic sound signal is generated according to the data of the actually generated sound, so that the listener can listen to the aerodynamic sound with a more realistic feeling.
  • the acoustic signal processing method can provide listeners with a more realistic feeling.
  • the air volume is calculated based on the moving speed determined.
  • the air volume is calculated based on the area of the object viewed from the direction of movement of the object indicated by the shape information and the movement speed. Since the aerodynamic sound signal is generated according to the air volume, the moving speed of the object, and the distance between the object and the listener, the listener can hear the aerodynamic sound with a more realistic feeling. . In other words, the acoustic signal processing method can provide listeners with a more realistic feeling.
  • the moving speed and moving direction of the object are calculated based on the acquired first position information
  • the acoustic signal processing according to the sixth or seventh aspect calculates the air volume based on the acquired shape information, the calculated movement direction, and the calculated movement speed. It's a method.
  • the air volume is calculated based on the shape information, the moving direction, and the moving speed. Since the aerodynamic sound signal is generated according to the air volume, the moving speed of the object, and the distance between the object and the listener, the listener can hear the aerodynamic sound with a more realistic feeling. . In other words, the acoustic signal processing method can provide listeners with a more realistic feeling.
  • the acoustic signal processing method is such that a noise signal is processed by each of a plurality of band emphasis filters, and a plurality of processed noise signals are synthesized and processed.
  • Each of the filters is a filter for simulating the aerodynamic sound caused by the shape of the ear or head of the listener.
  • the acoustic signal processing method generates, for the listener in the virtual space, an aerodynamic sound signal indicating the aerodynamic sound caused by wind reaching the ears of the listener in the virtual space, and outputs the generated aerodynamic sound signal. be able to.
  • the listener can listen to the aerodynamic sound. Therefore, the listener can perceive that the wind is blowing in the virtual space, and can obtain a sense of realism.
  • the acoustic signal processing method can provide a listener with a sense of presence.
  • the plurality of band emphasis filters may correspond to the noise signal processed by the band emphasis filter among the plurality of processed noise signals.
  • the multiplication by a predetermined coefficient is performed, and in the generation step, the synthesis is performed after the multiplication.
  • the aerodynamic sound generated by the acoustic signal processing method becomes more similar to the aerodynamic sound that the listener hears in real space. Therefore, the listener can obtain a more realistic feeling.
  • the acoustic signal processing method according to one aspect of the present disclosure can provide a listener with a more realistic feeling.
  • each of the plurality of band emphasis filters has characteristics that vary depending on the wind speed of the wind reaching the ear. This is an acoustic signal processing method.
  • the aerodynamic sound generated by the acoustic signal processing method becomes more similar to the aerodynamic sound that the listener hears in real space. Therefore, the listener can obtain a more realistic feeling.
  • the acoustic signal processing method according to one aspect of the present disclosure can provide a listener with a more realistic feeling.
  • each of the plurality of band emphasis filters may be one of the twelfth to fourteenth band emphasizing filters whose characteristics vary depending on the direction of the wind reaching the ear.
  • 1 is an acoustic signal processing method according to one aspect.
  • the aerodynamic sound generated by the acoustic signal processing method becomes more similar to the aerodynamic sound that the listener hears in real space. Therefore, the listener can obtain a more realistic feeling.
  • the acoustic signal processing method according to one aspect of the present disclosure can provide a listener with a more realistic feeling.
  • a computer program according to a sixteenth aspect of the present disclosure is a program for causing a computer to execute an acoustic signal processing method according to any one of the first to sixteenth aspects.
  • the computer can execute the above acoustic signal processing method according to the computer program.
  • the acoustic signal processing device provides first position information indicating the position of a moving object in the virtual space, and second position information indicating the position of the listener in the virtual space.
  • an acquisition unit that calculates a moving speed of the object based on the acquired first position information
  • a first calculation unit that calculates the moving speed of the object based on the acquired first position information and the acquired second position information.
  • a second calculation unit that calculates the distance between the object and the listener based on the calculated moving speed and the calculated distance;
  • the present invention includes a generation unit that generates an aerodynamic sound signal representing an aerodynamic sound caused by reaching the aerodynamic sound signal, and an output unit that outputs the generated aerodynamic sound signal.
  • the acoustic signal processing device generates an aerodynamic sound signal indicating the aerodynamic sound caused by the wind generated by the movement of the object reaching the listener's ears, based on the position of the object in the virtual space and the position of the listener. and can output the generated aerodynamic sound signal.
  • the listener can listen to the aerodynamic sound. Therefore, the listener can perceive that the object is moving, and can obtain a sense of realism.
  • the acoustic signal processing device can provide a listener with a sense of presence.
  • ordinal numbers such as first and second are sometimes attached to elements. These ordinal numbers are attached to elements to identify them and do not necessarily correspond to any meaningful order. These ordinal numbers may be replaced, newly added, or removed as appropriate.
  • each figure is a schematic diagram and is not necessarily strictly illustrated. Therefore, the scale etc. of each figure do not necessarily match.
  • substantially the same configurations are denoted by the same reference numerals, and overlapping explanations will be omitted or simplified.
  • FIG. 2B is a diagram showing an immersive audio playback system A0000, which is an example of a system to which the audio processing or decoding processing of the present disclosure can be applied.
  • the stereophonic sound reproduction system A0000 includes an audio signal processing device A0001 and an audio presentation device A0002.
  • the audio signal processing device A0001 performs audio processing on the audio signal emitted by the virtual sound source, and generates an audio signal after the audio processing that is presented to the listener (that is, the listener).
  • the audio signal is not limited to voices, but may be any audible sound.
  • Acoustic processing is, for example, a signal applied to an audio signal in order to reproduce one or more sound-related effects that a sound generated from a sound source undergoes from the time the sound is emitted until the listener hears it. It is processing.
  • the acoustic signal processing device A0001 performs acoustic processing based on information describing factors that cause the above-mentioned sound-related effects.
  • the spatial information includes, for example, information indicating the positions of sound sources, listeners, and surrounding objects, information indicating the shape of the space, parameters related to sound propagation, and the like.
  • the acoustic signal processing device A0001 is, for example, a PC (Personal Computer), a smartphone, a tablet, or a game console.
  • the signal after the acoustic processing is presented to the listener (user) from the audio presentation device A0002.
  • the audio presentation device A0002 is connected to the audio signal processing device A0001 via wireless or wired communication.
  • the acoustically processed audio signal generated by the audio signal processing device A0001 is transmitted to the audio presentation device A0002 via wireless or wired communication.
  • the audio presentation device A0002 is configured with a plurality of devices such as a right ear device and a left ear device
  • the acoustic signal processing device A0001 communicates between the plurality of devices or with each of the plurality of devices. Now, multiple devices can synchronize and present sound.
  • the audio presentation device A0002 is, for example, a headphone, an earphone, a head-mounted display that is worn on the listener's head, or a surround speaker configured with a plurality of fixed speakers.
  • stereophonic sound reproduction system A0000 may be used in combination with an image presentation device or a stereoscopic video presentation device that visually provides an ER (Extended Reality) experience including AR/VR.
  • FIG. 2B shows an example of a system configuration in which the acoustic signal processing device A0001 and the audio presentation device A0002 are separate devices
  • a stereophonic sound reproduction system to which the acoustic signal processing method or decoding method of the present disclosure is applicable is not limited to the configuration of FIG. 2B.
  • the audio signal processing device A0001 may be included in the audio presentation device A0002, and the audio presentation device A0002 may perform both audio processing and sound presentation.
  • the acoustic signal processing device A0001 and the audio presentation device A0002 may share the audio processing described in this disclosure, or may be connected to the audio signal processing device A0001 or the audio presentation device A0002 via a network.
  • a server may perform some or all of the audio processing described in this disclosure.
  • the audio signal processing device A0001 is referred to as the audio signal processing device A0001, but the audio signal processing device A0001 decodes a bit stream generated by encoding at least a part of data of the audio signal or spatial information used for audio processing.
  • the audio signal processing device A0001 may be called a decoding device.
  • FIG. 2C is a functional block diagram showing the configuration of encoding device A0100, which is an example of the encoding device of the present disclosure.
  • Input data A0101 is data to be encoded that includes spatial information and/or audio signals that are input to encoder A0102. Details of the spatial information will be explained later.
  • Encoder A0102 encodes input data A0101 to generate encoded data A0103.
  • the encoded data A0103 is, for example, a bitstream generated by encoding processing.
  • Memory A0104 stores encoded data A0103.
  • the memory A0104 may be, for example, a hard disk, an SSD (Solid-State Drive), or other memory.
  • the encoding device A0100 may store converted data generated by converting a bitstream into a predetermined data format in the memory A0104.
  • the converted data may be, for example, a file containing one or more bitstreams or a multiplexed stream.
  • the file is a file having a file format such as ISOBMFF (ISO Base Media File Format).
  • the encoded data A0103 is in the format of multiple packets generated by dividing the above bitstream or file.
  • the encoding device A0100 may include a conversion unit (not shown) or a CPU (Central Processing The conversion process may be performed by Unit.
  • FIG. 2D is a functional block diagram showing the configuration of decoding device A0110, which is an example of the decoding device of the present disclosure.
  • the memory A0114 stores, for example, the same data as the encoded data A0103 generated by the encoding device A0100. Memory A0114 reads the stored data and inputs it as input data A0113 to decoder A0112. Input data A0113 is, for example, a bitstream to be decoded.
  • the memory A0114 may be, for example, a hard disk or SSD, or other memory.
  • the decoding device A0110 may not directly use the data stored in the memory A0114 as the input data A0113, but may use converted data generated by converting the read data as the input data A0113.
  • the data before conversion may be, for example, multiplexed data storing one or more bitstreams.
  • the multiplexed data may be a file having a file format such as ISOBMFF, for example.
  • the data before conversion may be in the form of a plurality of packets generated by dividing the above bitstream or file.
  • the decoding device A0110 may include a conversion unit (not shown) or may perform the conversion process using a CPU.
  • Decoder A0112 decodes input data A0113 to generate audio signal A0111 to be presented to the listener.
  • FIG. 2E is a functional block diagram showing the configuration of encoding device A0120, which is another example of the encoding device of the present disclosure.
  • FIG. 2E components having the same functions as those in FIG. 2C are given the same reference numerals as those in FIG. 2C, and descriptions of these components will be omitted.
  • the encoding device A0100 stores the encoded data A0103 in the memory A0104, whereas the encoding device A0120 differs from the encoding device A0100 in that it includes a transmitter A0121 that transmits the encoded data A0103 to the outside. .
  • the transmitter A0121 transmits a transmission signal A0122 to another device or server based on the encoded data A0103 or data in another data format generated by converting the encoded data A0103.
  • the data used to generate the transmission signal A0122 is, for example, the bit stream, multiplexed data, file, or packet described in connection with the encoding device A0100.
  • FIG. 2F is a functional block diagram showing the configuration of a decoding device A0130, which is another example of the decoding device of the present disclosure.
  • FIG. 2F components having the same functions as those in FIG. 2D are given the same reference numerals as those in FIG. 2D, and descriptions of these components will be omitted.
  • the decoding device A0110 reads the input data A0113 from the memory A0114, whereas the decoding device A0130 differs from the decoding device A0110 in that it includes a receiving section A0131 that receives the input data A0113 from the outside.
  • the receiving unit A0131 receives the received signal A0132, acquires received data, and outputs input data A0113 that is input to the decoder A0112.
  • the received data may be the same as the input data A0113 input to the decoder A0112, or may be data in a data format different from the input data A0113. If the received data is in a data format different from the input data A0113, the receiving unit A0131 may convert the received data into the input data A0113, or the converting unit (not shown) included in the decoding device A0130 or the CPU converts the received data. may be converted into input data A0113.
  • the received data is, for example, the bit stream, multiplexed data, file, or packet described in connection with the encoding device A0120.
  • FIG. 2G is a functional block diagram showing the configuration of decoder A0200, which is an example of decoder A0112 in FIG. 2D or 2F.
  • the input data A0113 is a coded bitstream and includes coded audio data, which is a coded audio signal, and metadata used for audio processing.
  • the spatial information management unit A0201 acquires the metadata included in the input data A0113 and analyzes the metadata.
  • the metadata includes information describing elements that act on sounds that are placed in the sound space.
  • the spatial information management unit A0201 manages spatial information necessary for audio processing obtained by analyzing metadata, and provides the spatial information to the rendering unit A0203.
  • the information used for acoustic processing is called spatial information in this disclosure, it may be called by other names.
  • the information used for the acoustic processing may be called, for example, sound space information or scene information.
  • the spatial information input to the rendering unit A0203 may be called a spatial state, a sound spatial state, a scene state, or the like.
  • spatial information may be managed for each sound space or for each scene. For example, when expressing different rooms as virtual spaces, each room may be managed as a scene with a different sound space, or even if the space is the same, spatial information may be managed as different scenes depending on the scene to be expressed. Good too.
  • an identifier for identifying each piece of spatial information may be assigned.
  • the spatial information data may be included in a bitstream that is a form of input data, or the bitstream may include a spatial information identifier and the spatial information data may be obtained from a source other than the bitstream. If the bitstream includes only a spatial information identifier, the spatial information identifier is used during rendering, even if the spatial information data stored in the memory of the acoustic signal processing device A0001 or an external server is acquired as input data. good.
  • the information managed by the spatial information management unit A0201 is not limited to the information included in the bitstream.
  • the input data A0113 may include data that is not included in the bitstream and indicates the characteristics or structure of the space obtained from a software application or server that provides VR or AR.
  • the input data A0113 may include data indicating the characteristics or position of the listener or object, as data not included in the bitstream.
  • the input data A0113 includes information indicating the position of the listener acquired by a sensor included in the terminal including the decoding device, or information indicating the position of the terminal estimated based on the information acquired by the sensor. It's okay to stay.
  • the spatial information management unit A0201 may communicate with an external system or server to acquire spatial information and the position of the listener.
  • the spatial information management unit A0201 may acquire clock synchronization information from an external system and perform processing to synchronize with the clock of the rendering unit A0203.
  • the space in the above description may be a virtually created space, that is, a VR space, or may be a real space (real space) or a virtual space corresponding to the real space, that is, an AR space or MR (Mixed Reality). ) may be space.
  • the virtual space may be called a sound field or a sound space.
  • the information indicating the position in the above explanation may be information such as coordinate values indicating the position in space, information indicating the relative position with respect to a predetermined reference position, or information indicating the position in space.
  • the information may also be information indicating positional movement or acceleration.
  • the audio data decoder A0202 decodes the encoded audio data included in the input data A0113 to obtain an audio signal.
  • the encoded audio data acquired by the stereophonic sound reproduction system A0000 is, for example, a bitstream encoded in a predetermined format such as MPEG-H 3D Audio (ISO/IEC 23008-3).
  • MPEG-H 3D Audio is only an example of an encoding method that can be used to generate encoded audio data included in a bitstream, and bitstreams and encoded audio encoded with other encoding methods can be used. It may be included as data.
  • the encoding methods used are MP3 (MPEG-1 Audio Layer-3), AAC (Advanced Audio Coding), WMA (Windows Media Audio), AC3 (Audio Codec-3), Vorb If you use a lossy codec such as Alternatively, a reversible codec such as ALAC (Apple Lossless Audio Codec) or FLAC (Free Lossless Audio Codec) may be used, or any encoding method other than the above may be used.
  • PCM pulse code modulation
  • data may be a type of encoded audio data.
  • the decoding process may also be a process of converting an N-bit binary number into a number format (e.g., floating point format) that can be processed by the rendering unit A0203. good.
  • a number format e.g., floating point format
  • the rendering unit A0203 receives the audio signal and the spatial information, performs acoustic processing on the audio signal using the spatial information, and outputs the audio signal A0111 after the acoustic processing.
  • the spatial information management unit A0201 Before starting rendering, the spatial information management unit A0201 reads the metadata of the input signal, detects rendering items such as objects or sounds defined by the spatial information, and sends them to the rendering unit A0203. After the rendering starts, the spatial information management unit A0201 grasps temporal changes in the spatial information and the position of the listener, updates and manages the spatial information. Then, the spatial information management unit A0201 transmits the updated spatial information to the rendering unit A0203. The rendering unit A0203 generates and outputs an audio signal to which acoustic processing has been added based on the audio signal included in the input data and the spatial information received from the spatial information management unit A0201.
  • the spatial information update process and the audio signal output process with added acoustic processing may be executed in the same thread, or the spatial information management unit A0201 and the rendering unit A0203 may be allocated to separate threads. . If spatial information update processing and audio signal output processing with acoustic processing are processed in different threads, the startup frequency of the threads may be set individually, or the processing may be executed in parallel. good.
  • the spatial information may be updated periodically at preset times or periods, or may be updated when preset conditions are met. Furthermore, the spatial information may be updated manually by the listener or the administrator of the sound space, or may be triggered by a change in the external system. For example, a listener can operate a controller to instantaneously warp the standing position of their avatar, instantaneously advance or reverse the time, or the administrator of a virtual space can suddenly change the environment of the place. In such a case, the thread in which the spatial information management unit A0201 is arranged may be activated as a one-time interrupt process in addition to regular activation.
  • the role of the information update thread that executes spatial information update processing is, for example, to update the position or orientation of the listener's avatar placed in the virtual space based on the position or orientation of the VR goggles worn by the listener. , and the position of an object moving in the virtual space, which are performed within a processing thread that is started at a relatively low frequency of about several tens of Hz. Processing that reflects the nature of the direct sound may be performed in such a processing thread that occurs less frequently. This is because the nature of direct sound changes less frequently than the frequency of occurrence of audio processing frames for audio output. Rather, by doing so, the computational load of the process can be relatively reduced, and if information is updated unnecessarily quickly, there is a risk of generating pulseive noise, so this risk can also be avoided. can.
  • FIG. 2H is a functional block diagram showing the configuration of a decoder A0210, which is another example of the decoder A0112 in FIG. 2D or 2F.
  • FIG. 2H differs from FIG. 2G in that the input data A0113 includes an unencoded audio signal instead of encoded audio data.
  • Input data A0113 includes a bitstream including metadata and an audio signal.
  • the spatial information management unit A0211 is the same as the spatial information management unit A0201 in FIG. 2G, so a description thereof will be omitted.
  • the rendering unit A0213 is the same as the rendering unit A0203 in FIG. 2G, so a description thereof will be omitted.
  • the configuration in FIG. 2H is called a decoder, but it may also be called an audio processing unit that performs audio processing.
  • a device including the audio processing unit may be called an audio processing device instead of a decoding device.
  • the acoustic signal processing device A0001 may be called an acoustic processing device.
  • FIG. 2I is a diagram illustrating an example of the physical configuration of an acoustic signal processing device. Note that the acoustic signal processing device in FIG. 2I may be a decoding device. Further, a part of the configuration described here may be included in the audio presentation device A0002. Further, the acoustic signal processing device shown in FIG. 2I is an example of the above-mentioned acoustic signal processing device A0001.
  • the acoustic signal processing device in FIG. 2I includes a processor, a memory, a communication IF, a sensor, and a speaker.
  • the processor is, for example, a CPU (Central Processing Unit), a DSP (Digital Signal Processor), or a GPU (Graphics Processing Unit), and the CPU, DSP, or GPU stores information in a memory.
  • the sound processing of the present disclosure or Decoding processing may also be performed.
  • the processor may be a dedicated circuit that performs signal processing on audio signals, including the acoustic processing of the present disclosure.
  • the memory is composed of, for example, RAM (Random Access Memory) or ROM (Read Only Memory).
  • the memory may include a magnetic storage medium such as a hard disk or a semiconductor memory such as a solid state drive (SSD).
  • SSD solid state drive
  • the term "memory” may include an internal memory built into a CPU or GPU.
  • the communication IF Inter Face
  • the acoustic signal processing device shown in FIG. 2I has a function of communicating with other communication devices via a communication IF, and acquires a bitstream to be decoded.
  • the obtained bitstream is stored in a memory, for example.
  • the communication module is composed of, for example, a signal processing circuit and an antenna compatible with the communication method.
  • Bluetooth registered trademark
  • WIGIG registered trademark
  • LTE Long Term Evolution
  • NR New Radio
  • Wi-Fi registered trademark
  • the communication IF is not a wireless communication method as described above, but a wired communication method such as Ethernet (registered trademark), USB (Universal Serial Bus), or HDMI (registered trademark) (High-Definition Multimedia Interface). Good too.
  • the sensor performs sensing to estimate the position or orientation of the listener. Specifically, the sensor detects the position of the listener based on the detection result of one or more of the position, orientation, movement, velocity, angular velocity, acceleration, etc. of a part or the entire body such as the listener's head. and/or estimating the orientation and generating position information indicating the position and/or orientation of the listener.
  • the position information may be information indicating the position and/or orientation of the listener in real space, or may be information indicating the position and/or orientation of the listener based on the position and/or orientation of the listener at a predetermined point in time. It may also be information that indicates.
  • the position information may be information indicating a relative position and/or orientation with respect to a stereophonic sound reproduction system or an external device including a sensor.
  • the sensor may be, for example, an imaging device such as a camera, or a distance measuring device such as LiDAR (Light Detection and Ranging), and captures the movement of the listener's head and processes the captured image to detect the listener. Head movement may also be detected. Further, as a sensor, a device that performs position estimation using radio in an arbitrary frequency band such as millimeter waves may be used.
  • an imaging device such as a camera
  • a distance measuring device such as LiDAR (Light Detection and Ranging)
  • LiDAR Light Detection and Ranging
  • the acoustic signal processing device shown in FIG. 2I may acquire position information from an external device including a sensor via a communication IF.
  • the acoustic signal processing device may not include a sensor.
  • the external device is, for example, the audio presentation device A0002 described in FIG. 2B or the stereoscopic video playback device worn on the listener's head.
  • the sensor is configured by combining various sensors such as a gyro sensor and an acceleration sensor.
  • the senor may detect, as the speed of movement of the listener's head, the angular velocity of rotation around at least one of the three axes orthogonal to each other in the sound space, or The acceleration of displacement with one direction of displacement may be detected.
  • the senor may detect, as the amount of movement of the listener's head, the amount of rotation about at least one of three axes orthogonal to each other in the sound space, or the amount of rotation about at least one of the three axes orthogonal to each other in the sound space. It is also possible to detect the amount of displacement in which the direction of displacement is . Specifically, the sensor detects 6DoF (position (x, y, z) and angle (yaw, pitch, roll) as the position of the listener.
  • the sensor is a sensor used to detect movement, such as a gyro sensor and an acceleration sensor. It is composed of a combination of various sensors.
  • the senor only needs to be able to detect the position of the listener, and may be realized by a camera, a GPS (Global Positioning System) receiver, or the like. Position information obtained by performing self-position estimation using LiDAR (Laser Imaging Detection and Ranging) or the like may be used.
  • the sensor is built into the smartphone when the audio signal reproduction system is implemented by the smartphone.
  • the senor includes a temperature sensor such as a thermocouple that detects the temperature of the acoustic signal processing device shown in FIG. It may also include a sensor for detection.
  • a temperature sensor such as a thermocouple that detects the temperature of the acoustic signal processing device shown in FIG. It may also include a sensor for detection.
  • a speaker includes, for example, a diaphragm, a drive mechanism such as a magnet or a voice coil, and an amplifier, and presents an audio signal after acoustic processing to a listener as sound.
  • the speaker operates a drive mechanism in response to an audio signal (more specifically, a waveform signal representing a sound waveform) amplified via an amplifier, and causes the drive mechanism to vibrate a diaphragm.
  • an audio signal more specifically, a waveform signal representing a sound waveform
  • the diaphragm vibrating in response to the audio signal generates sound waves that propagate through the air and are transmitted to the listener's ears, where the listener perceives the sound.
  • the audio signal presentation means is the same as described above. Not limited to configuration.
  • the audio signal after acoustic processing may be output to an external audio presentation device A0002 connected via a communication module. Communication performed by the communication module may be wired or wireless.
  • the acoustic signal processing device shown in FIG. 2I may include a terminal for outputting an audio analog signal, and a cable such as an earphone may be connected to the terminal to present the audio signal from the earphone.
  • the audio presentation device A0002 is headphones, earphones, head-mounted display, neck speaker, wearable speaker, or surround speaker composed of a plurality of fixed speakers attached to the listener's head or part of the body. etc. play the audio signal.
  • FIG. 2J is a diagram illustrating an example of the physical configuration of an encoding device. Further, the encoding device shown in FIG. 2J is an example of the aforementioned encoding devices A0100 and A0120.
  • the encoding device in FIG. 2J includes a processor, a memory, and a communication IF.
  • the processor is, for example, a CPU (Central Processing Unit) or a DSP (Digital Signal Processor), and the encoding process of the present disclosure may be implemented by the CPU or GPU executing a program stored in a memory.
  • the processor may be a dedicated circuit that performs signal processing on audio signals, including the encoding process of the present disclosure.
  • the memory is composed of, for example, RAM (Random Access Memory) or ROM (Read Only Memory).
  • the memory may include a magnetic storage medium such as a hard disk or a semiconductor memory such as a solid state drive (SSD).
  • SSD solid state drive
  • the term "memory” may include an internal memory built into a CPU or GPU.
  • the communication IF (Inter Face) is, for example, a communication module compatible with a communication method such as Bluetooth (registered trademark) or WIGIG (registered trademark).
  • the encoding device has a function of communicating with other communication devices via a communication IF, and transmits an encoded bitstream.
  • the communication module is composed of, for example, a signal processing circuit and an antenna compatible with the communication method.
  • Bluetooth registered trademark
  • WIGIG registered trademark
  • LTE Long Term Evolution
  • NR New Radio
  • Wi-Fi registered trademark
  • the communication IF is not a wireless communication method as described above, but a wired communication method such as Ethernet (registered trademark), USB (Universal Serial Bus), or HDMI (registered trademark) (High-Definition Multimedia Interface). Good too.
  • FIG. 3A is a block diagram showing the functional configuration of acoustic signal processing device 100 according to this embodiment.
  • the acoustic signal processing device 100 generates an aerodynamic sound signal indicating the aerodynamic sound generated when the wind W generated by the movement of an object in the virtual space (sound reproduction space) reaches the ears of the listener L. This is a device for outputting.
  • the aerodynamic sound is a sound caused by the wind W reaching the ears of the listener L in the virtual space, and also a sound caused by the shape of the listener L's ears or head.
  • the acoustic signal processing device 100 according to the present embodiment is a device that is applied to various applications in a virtual space such as virtual reality or augmented reality (VR/AR), for example.
  • VR/AR augmented reality
  • the object in the virtual space is not particularly limited as long as it is included in the content displayed on the display unit 300 that displays the content (video as an example here) executed in the virtual space.
  • the object is a moving body, and includes, for example, an object representing an animal or plant, an artificial object, a natural object, or the like.
  • objects representing man-made objects include vehicles, bicycles, and airplanes.
  • examples of objects representing man-made objects include sports equipment such as baseball bats and tennis rackets, furniture such as desks, chairs, electric fans, and wall clocks, and buildings such as apartment complexes and commercial facilities. Examples include.
  • the object may be at least one of an object that can be moved and an object that can be moved within the content, but is not limited thereto.
  • the electric fan 600 shown in FIG. 2A is installed on the ceiling, and even if the electric fan 600 itself does not move, the blades 601 of the electric fan 600 move. Such an electric fan 600 is also included in the object.
  • the aerodynamic sound according to the present embodiment is a sound generated when the wind W generated by the movement of the object reaches the ear of the listener L in the virtual space. More specifically, aerodynamic sound is sound caused by wind W caused by movement of air due to movement of the object.
  • the ear means at least one of the pinna and the external ear.
  • the acoustic signal processing device 100 generates an aerodynamic sound signal indicating aerodynamic sound in the virtual space and outputs it to the headphones 200.
  • the headphones 200 are a device that reproduces aerodynamic sounds and are an audio output device. More specifically, headphones 200 reproduce aerodynamic sound based on the aerodynamic sound signal output by acoustic signal processing device 100. Thereby, the listener L can hear the aerodynamic sound. Note that instead of the headphones 200, other output channels such as a speaker may be used.
  • the headphones 200 include a head sensor section 201 and an output section 202.
  • the head sensor unit 201 senses the position of the listener L defined by the coordinates of the horizontal plane and the height in the vertical direction in the virtual space, and processes second position information indicating the position of the listener L in the virtual space by acoustic signal processing. Output to the device 100.
  • the head sensor unit 201 senses information on 6 DoF (Degrees of Freedom) of the head of the listener L.
  • the head sensor section 201 may be an inertial measurement unit (IMU), an accelerometer, a gyroscope, a magnetic sensor, or a combination thereof.
  • the output unit 202 is a device that reproduces the sound that reaches the listener L in the sound reproduction space. More specifically, the output unit 202 reproduces the aerodynamic sound based on the aerodynamic sound signal indicating the aerodynamic sound that has been processed by the acoustic signal processing device 100 and output from the acoustic signal processing device 100.
  • the display unit 300 is a display device that displays content (video) including objects in a virtual space. Processing for the display unit 300 to display content will be described later.
  • the display unit 300 is realized by, for example, a display panel such as a liquid crystal panel or an organic EL (Electro Luminescence) panel.
  • the acoustic signal processing device 100 includes an acquisition section 110, a calculation section 120, a generation section 130, an output section 140, and a storage section 150.
  • the acquisition unit 110 acquires first position information and second position information from an input signal, for example.
  • the input signals will be explained below.
  • the first position information is information indicating the position of the object in the virtual space.
  • the second position information is information indicating the position of the listener L in the virtual space. Note that the acquisition unit 110 may acquire the first position information and the second position information from sources other than the input signal.
  • the acquisition unit 110 may further acquire availability information or shape information.
  • the availability information is information indicating whether or not the object generates aerodynamic sound.
  • Shape information is information indicating the shape of an object.
  • the acquisition unit 110 acquires the first position information, availability information, and shape information from a device other than the acoustic signal processing device 100 (here, for example, a server device 500 such as a cloud server). Not limited. Further, the acquisition unit 110 acquires the second position information from the headphones 200 (more specifically, the head sensor unit 201), but is not limited thereto.
  • the input signal is composed of, for example, spatial information, sensor information, and sound data (audio signal). Further, the above information and sound data may be included in one input signal, or the above information and sound data may be included in a plurality of separate signals.
  • the input signal may include a bitstream composed of sound data and metadata (control information), and in this case, the metadata may include spatial information and information that identifies the sound data.
  • the first position information, second position information, shape information, and availability information described above may be included in the input signal or may be included in other items. More specifically, the first information, shape information, and availability information may be included in the spatial information, and the second information may be generated based on information acquired from sensor information.
  • the sensor information may be acquired from the head sensor unit 201 or from another external device.
  • Spatial information is information about the sound space (three-dimensional sound field) created by the three-dimensional sound reproduction system, and is composed of information about objects included in the sound space and information about listeners.
  • the objects there are sound source objects that emit sounds and serve as sound sources, and non-sound objects that do not emit sounds.
  • a non-sounding object functions as an obstacle object that reflects the sound emitted by a sound source object, but a sound source object may also function as an obstacle object that reflects the sound emitted by another sound source object. Obstacle objects may also be referred to as reflective objects.
  • Information commonly given to sound source objects and non-sounding objects includes position information, shape information, and a volume attenuation rate when an object reflects sound.
  • the positional information is expressed by coordinate values of three axes, for example, the X-axis, Y-axis, and Z-axis, in Euclidean space, but does not necessarily have to be three-dimensional information.
  • the position information may be, for example, two-dimensional information expressed by coordinate values of two axes, an X axis and a Y axis.
  • the position information of an object is determined by a representative position of a shape expressed by a mesh or voxels.
  • the shape information may include information regarding the material of the surface.
  • the attenuation rate may be expressed as a real number less than or equal to 1 or greater than or equal to 0, or may be expressed as a negative decibel value.
  • the volume is not amplified by reflections, so the attenuation rate is set to a negative decibel value, but for example, in order to create the eerie feeling of an unreal space, the attenuation rate is set to a value of 1 or higher, that is, A positive decibel value may be set.
  • the attenuation factor may be set to a different value for each frequency band that constitutes a plurality of frequency bands, or may be set independently for each frequency band.
  • a corresponding attenuation rate value may be used based on information regarding the surface material.
  • the information commonly assigned to the sound source object and the non-sound object may include information indicating whether the object belongs to a living thing or information indicating whether the object is a moving body. . If the object is a moving body, the position information may move over time, and the changed position information or the amount of change is transmitted to the rendering units A0203 and A0213.
  • the information regarding the sound source object includes, in addition to the information commonly given to the above-mentioned sound source object and non-sounding object, sound data and information necessary to radiate the sound data into the sound space.
  • the sound data is data that expresses the sound perceived by the listener, indicating information regarding the frequency and intensity of the sound.
  • the sound data is typically a PCM signal, but may also be data compressed using an encoding method such as MP3. In that case, since at least the signal needs to be decoded before reaching the generation unit 130, the rendering units A0203 and A0213 may include a decoding unit (not shown). Alternatively, the signal may be decoded by the audio data decoder A0202.
  • At least one sound data may be set for one sound source object, and multiple sound data may be set. Further, identification information for identifying each piece of sound data may be added, and the identification information of the sound data may be held as metadata as information regarding the sound source object.
  • Information necessary to radiate sound data into a sound space includes, for example, information on a reference volume that is used as a reference when playing sound data, information on the position of a sound source object, information on the orientation of a sound source object, and information on the sound source. Information regarding the directionality of the sound emitted by the object may also be included.
  • the reference volume information is, for example, the effective value of the amplitude value of the sound data at the sound source position when the sound data is radiated into the sound space, and may be expressed as a decibel (db) value in a floating point number.
  • db decibel
  • the reference volume information indicates that the sound is radiated into the sound space from the position indicated by the position information at the same volume without increasing or decreasing the volume of the signal level indicated by the sound data. It may be shown.
  • the reference volume information may indicate that the volume of the signal level indicated by the sound data is approximately halved and the sound is radiated into the sound space from the position indicated by the above position information.
  • the reference volume information may be provided to one piece of sound data or to a plurality of pieces of sound data all at once.
  • the volume information included in the information necessary to radiate sound data into the sound space may include, for example, information indicating time-series fluctuations in the volume of the sound source. For example, if the sound space is a virtual conference room and the sound source is a speaker, the volume changes intermittently over a short period of time. Expressing this more simply, it can be said that sound parts and silent parts occur alternately. Furthermore, when the sound space is a concert hall and the sound source is a performer, the volume is maintained for a certain period of time. Further, when the sound space is a battlefield and the sound source is an explosive, the volume of the explosion sound becomes loud for a moment and remains silent thereafter. In this way, the information on the volume of the sound source includes not only information on the volume of the sound but also information on the transition of the volume of the sound, and such information may be used as information indicating the nature of the sound data.
  • the information on the transition in sound volume may be data showing frequency characteristics in time series.
  • the information on the change in sound volume may be data indicating the duration of a sound section.
  • the information on the transition in sound volume may be data indicating a time series of the duration of a sound section and the time length of a silent section.
  • Information on the transition of sound volume is a time series listing of multiple sets of duration times during which the amplitude of the sound signal can be considered to be stationary (can be considered to be approximately constant) and data on the amplitude value of the signal during that time. It may also be data.
  • the information on the transition in sound volume may be data on a duration that allows the frequency characteristics of the sound signal to be considered to be stationary.
  • the information on the transition in sound volume may be data that lists, in chronological order, a plurality of sets of durations during which the frequency characteristics of the sound signal can be considered to be stationary, and data on the frequency characteristics during that period.
  • the information on the change in sound volume may be in a data format, for example, data indicating the outline of a spectrogram. Further, the volume serving as a reference for the frequency characteristics may be used as the reference volume.
  • the information indicating the reference volume and the nature of the sound data may be used not only to calculate the volume of the direct sound or reflected sound that the listener perceives, but also in the selection process for selecting whether or not to make the listener perceive it. good.
  • Information regarding the direction is typically expressed as yaw, pitch, and roll.
  • the rotation may be omitted and expressed using azimuth (yaw) and elevation (pitch).
  • the orientation information may change over time, and if it changes, it is transmitted to the rendering units A0203 and A0213.
  • the information regarding the listener is information regarding the position and orientation of the listener in the sound space.
  • the position information is expressed as a position on the XYZ axes of Euclidean space, it does not necessarily have to be three-dimensional information, and may be two-dimensional information.
  • Information regarding orientation is typically expressed as yaw, pitch, and roll. Alternatively, the information regarding the direction may be expressed by azimuth (yaw) and elevation (pitch), omitting the rotation of roll.
  • the position information and orientation information may change over time, and when they change, they are transmitted to the rendering units A0203 and A0213.
  • the sensor information is information that includes the amount of rotation or displacement detected by a sensor worn by the listener, and the position and orientation of the listener.
  • the sensor information is transmitted to the rendering units A0203 and A0213, and the rendering units A0203 and A0213 update information on the position and orientation of the listener based on the sensor information.
  • position information obtained by a mobile terminal estimating its own position using, for example, GPS, a camera, or LiDAR (Laser Imaging Detection and Ranging) may be used. Further, information acquired from outside through a communication module other than the sensor may be detected as sensor information.
  • Information indicating the temperature of the acoustic signal processing device 100 and information indicating the remaining amount of the battery may be acquired from the sensor as the sensor information.
  • Information indicating the computational resources (CPU capacity, memory resources, PC performance) of the acoustic signal processing device 100 or the audio presentation device A0002 may be acquired in real time as sensor information.
  • first position information second position information
  • availability information third position information
  • shape information third position information
  • an object in the virtual space is included in the content (video) displayed on the display unit 300, and is at least one of the following: an object that can be moved within the content, and an object that can be moved. good.
  • the object in the virtual space is the vehicle 400 shown in FIG.
  • the first position information is information indicating where the vehicle 400 in the virtual space is located in the virtual space at a certain point in time. Note that in the virtual space, the vehicle 400 may move due to the driver driving the vehicle. Therefore, the acquisition unit 110 continuously acquires the first position information. For example, the acquisition unit 110 acquires the first position information every time the spatial information is updated by the spatial information management units A0201 and A0211.
  • the listener L can move in the virtual space.
  • the second position information is information indicating where the listener L in the virtual space is at a certain point in time. Note that since the listener L can move in the virtual space, the acquisition unit 110 continuously acquires the second position information. For example, the acquisition unit 110 acquires the second position information every time the spatial information is updated by the spatial information management units A0201 and A0211.
  • Shape information is information indicating the shape of an object (for example, vehicle 400) in the virtual space.
  • the shape information indicates the shape of the object, and more specifically indicates the three-dimensional shape of the object as a rigid body.
  • the shape of the object is represented by, for example, a sphere, a rectangular parallelepiped, a cube, a polyhedron, a cone, a pyramid, a cylinder, a prism, or a combination thereof.
  • the shape information may be expressed, for example, as mesh data, or as a set of a plurality of surfaces consisting of, for example, voxels, a three-dimensional point group, or vertices having three-dimensional coordinates.
  • the availability information is information indicating whether or not the object (for example, the vehicle 400) generates aerodynamic sound.
  • the availability information indicates that the aerodynamic sound will be generated or that the aerodynamic sound will not be generated.
  • a flag of "1" is shown, and when the availability information indicates that the aerodynamic sound is not generated, a flag of "0" is indicated.
  • the availability information can be said to be flag information, and is an example of metadata related to an object.
  • the availability information whether or not the object generates aerodynamic sound is determined in advance depending on the object indicated by the availability information. For example, whether the availability information indicates true or false may be determined in advance by the administrator of the content (video) shown on the display unit 300 or the like. Further, a selection unit not shown in FIG. 3A may be included in the acoustic signal processing device 100, and the selection unit performs selection (selection processing) of whether or not the object generates aerodynamic sound based on the availability information. may be done. Further, the selection process may be performed in consideration of the calculation load of the entire acoustic signal processing device 100 related to the generation of other sounds other than aerodynamic sounds.
  • a priority order may be set in advance for aerodynamic sounds, and information on the priority order may be included in the availability information. For example, it may be selected not to generate an aerodynamic sound with a low priority in consideration of the processing capacity of the acoustic signal processing device 100 or the overall calculation load related to sound space generation. Furthermore, by comparing the processing capacity of the acoustic signal processing device 100 and the overall calculation load, if the processing capacity of the acoustic signal processing device 100 does not have enough margin, no aerodynamic sound is generated even if the availability information is true. You may choose to do so.
  • FIG. 3B is a flowchart of an example of the operation of the selection unit according to this embodiment.
  • the selection unit analyzes the input signal and determines whether the input signal includes availability information (S100). If the processing capacity or calculation load of the acoustic signal processing device 100 is taken into consideration when selecting whether to generate aerodynamic sound, such information may be acquired in step S100.
  • the selection unit determines whether to select to generate an aerodynamic sound (selection of an aerodynamic sound) based on the availability information or the processing capacity or calculation load of the acoustic signal processing device (S110).
  • the selection unit may perform not only selection processing of aerodynamic sounds but also selection processing of other sounds.
  • the first position information includes identification information for identifying the object
  • the availability information also includes identification information for identifying the object
  • the shape information also includes identification information for identifying the object. It is.
  • the acquisition unit 110 separately acquires the first location information, availability information, and shape information
  • the identification information included in each of the first location information, availability information, and shape information is referenced, and the first location information, availability information, and shape information are referenced. 1.
  • Objects indicated by each of the position information, availability information, and shape information are identified. For example, here, it can be easily identified that the objects indicated by the first position information, availability information, and shape information are the same vehicle 400.
  • the first position information, the availability information, and the shape information acquired by the acquisition unit 110 are each related to the vehicle 400 by referring to the three pieces of identification information. It becomes clear that it is information. Therefore, the first position information, the availability information, and the shape information are linked as information indicating the vehicle 400.
  • the above first position information, availability information, shape information, etc. may be included in metadata, control information, or header information included in the input signal. That is, the audio signal processing device 100 (more specifically, the acquisition unit 110) acquires metadata, control information, or header information included in the input signal, and performs audio processing based on the metadata, control information, or header information. You may do so. Note that the acoustic signal processing device 100 (more specifically, the acquisition unit 110) only needs to acquire the first position information, availability information, and shape information, and the acquisition source is not limited to the input signal.
  • the audio content information (sound signal) included in the input signal is subjected to encoding processing such as MPEG-H 3D Audio (ISO/IEC 23008-3) (hereinafter referred to as MPEG-H 3D Audio).
  • MPEG-H 3D Audio MPEG-H 3D Audio
  • the technology used for encoding processing is not limited to MPEG-H 3D Audio, and other known technologies may be used.
  • information other than the audio signal such as first position information, availability information, and shape information, may be subjected to encoding processing. That is, the audio signal processing device 100 acquires the audio signal and metadata included in the encoded bitstream. In the audio signal processing device 100, audio content information is acquired and decoded.
  • the acoustic signal processing device 100 functions as a decoder included in a decoding device, and more specifically, functions as rendering units A0203 and A0213 included in the decoder.
  • audio content information or sound data in the present disclosure shall be read and interpreted as information including the audio signal itself, shape information, or availability information, depending on the technical content.
  • the second position information is also subjected to encoding processing. That is, the acquisition unit 110 acquires and decodes the second position information.
  • the acquisition unit 110 outputs the acquired first position information and second position information to the calculation unit 120. Further, when the acquisition unit 110 acquires the availability information, the acquisition unit 110 outputs the acquired availability information to the generation unit 130 or the selection unit (not shown). Further, when the acquisition unit 110 acquires shape information, the acquisition unit 110 outputs the acquired shape information to the calculation unit 120 and the generation unit 130.
  • the calculation unit 120 calculates the moving speed of the object, the distance between the object and the listener L, and the air volume per unit time that occurs when the object moves.
  • the calculation unit 120 includes a first calculation unit 121, a second calculation unit 122, and a third calculation unit 123.
  • the first calculation unit 121 calculates the moving speed of the object in the virtual space based on the first position information acquired by the acquisition unit 110. As described above, the acquisition unit 110 acquires the first position information indicating the position of the object in the virtual space every time the spatial information is updated by the spatial information management units A0201 and A0211. The first calculation unit 121 calculates a virtual By differentiating the position of the object in space with respect to time, the moving speed of the object in virtual space is calculated. The first calculation unit 121 outputs the calculated moving speed to the generation unit 130.
  • the second calculation unit 122 calculates the distance between the object and the listener L based on the first position information and the second position information acquired by the acquisition unit 110.
  • the acquisition unit 110 acquires the first position information and second position information in the virtual space each time the spatial information is updated by the spatial information management units A0201 and A0211.
  • the second calculation unit 122 determines whether the object is recognized in the virtual space based on the plurality of first position information and the plurality of second position information acquired each time the spatial information is updated by the spatial information management units A0201 and A0211.
  • the distance to the listener L is calculated.
  • the second calculation unit 122 outputs the calculated distance between the object and the listener L to the generation unit 130.
  • the third calculation unit 123 calculates the shape of the object based on the moving speed calculated by the first calculation unit 121 and the shape information acquired by the acquisition unit Calculate the air volume per unit time that occurs when the
  • the generation unit 130 determines whether the wind W caused by the movement of the object will reach the ear of the listener L based on the moving speed calculated by the first calculation unit 121 and the distance calculated by the second calculation unit 122. generates an aerodynamic sound signal indicating the aerodynamic sound generated by the The generation unit 130 outputs the generated aerodynamic sound signal to the output unit 140.
  • the output unit 140 outputs the aerodynamic sound signal generated by the generation unit 130.
  • the output unit 140 outputs the aerodynamic sound signal to the headphones 200.
  • the headphones 200 can reproduce the aerodynamic sound indicated by the output aerodynamic sound signal.
  • the storage unit 150 is a storage device that stores computer programs executed by the acquisition unit 110, the calculation unit 120, the generation unit 130, and the output unit 140.
  • the shape information is information used to generate an image of the object in the virtual space, and is also information indicating the shape of the object (vehicle 400).
  • the shape information is information that is also used to generate content (video) displayed on the display unit 300.
  • the acquisition unit 110 also outputs the acquired shape information to the display unit 300.
  • the display unit 300 acquires the shape information output by the acquisition unit 110.
  • the display unit 300 further acquires attribute information indicating attributes (such as color) other than the shape of the object (vehicle 400) in the virtual space.
  • the display unit 300 may directly acquire the attribute information from a device (server device 500) other than the acoustic signal processing device 100, or may acquire the attribute information from the acoustic signal processing device 100.
  • the display unit 300 generates and displays content (video) based on the acquired shape information and attribute information.
  • FIG. 4 is a flowchart of operation example 1 of the acoustic signal processing device 100 according to the present embodiment.
  • the acquisition unit 110 acquires first position information indicating the position of a moving object in the virtual space, second position information indicating the position of the listener L in the virtual space, and whether or not the object generates aerodynamic sound. Obtains availability information indicating whether or not (S10). Note that this step S10 corresponds to an acquisition step.
  • step S10 shape information is not used, so the acquisition unit 110 does not acquire shape information in step S10.
  • the acquisition unit 110 continuously acquires the first location information and the second location information, more specifically, each time the spatial information is updated by the spatial information management units A0201 and A0211. That is, the process in which the acquisition unit 110 acquires the first position information and the second position information is repeated every time the spatial information is updated by the spatial information management units A0201 and A0211.
  • the acquisition unit 110 outputs the first position information and the second position information to the calculation unit 120 each time it acquires the first position information and the second position information, or outputs a certain number of first position information and second position information. After acquiring the information, the certain number of first position information and the certain number of second position information are collectively output to the calculation unit 120. That is, the acquisition unit 110 outputs the plurality of first position information and the plurality of second position information to the calculation unit 120. Further, the acquisition unit 110 outputs the acquired availability information to the generation unit 130 or a selection unit (not shown).
  • the calculation unit 120 calculates the moving speed of the object in the virtual space based on the first position information acquired by the acquisition unit 110 (S20). Note that this step S20 corresponds to the first calculation step.
  • the first calculation unit 121 outputs the calculated moving speed to the generation unit 130.
  • the calculation unit 120 calculates the relationship between the object and the listener L based on the first position information acquired by the acquisition unit 110 and the second position information acquired.
  • the distance is calculated (S30).
  • the second calculation unit 122 in which this step S30 corresponds to a second calculation step, outputs the calculated moving speed to the generation unit 130.
  • the generation unit 130 determines whether the availability information acquired by the acquisition unit 110 indicates that the object generates aerodynamic sound (S40).
  • the acoustic signal processing device 100 ends the operation. Further, when the availability information indicates that the object generates an aerodynamic sound (Yes in step S40), the generation unit 130 generates an aerodynamic sound signal (S50). More specifically, the generation unit 130 determines that the wind W caused by the movement of the object is transmitted to the listener L based on the moving speed calculated by the first calculation unit 121 and the distance calculated by the second calculation unit 122. generates an aerodynamic sound signal indicating the aerodynamic sound produced by reaching the ear of the vehicle. Note that this step S50 corresponds to a generation step.
  • step S60 corresponds to an output step.
  • the output unit 140 outputs the aerodynamic sound signal to the headphones 200.
  • the headphones 200 can reproduce the aerodynamic sound indicated by the output aerodynamic sound signal.
  • the generation unit 130 generates an aerodynamic sound signal based on aerodynamic sound data in addition to the moving speed and distance.
  • 5 and 6 are flowcharts showing a first example method in which the generation unit 130 generates an aerodynamic sound signal in step S50 shown in FIG. 4.
  • the generation unit 130 when the generation unit 130 generates the aerodynamic sound signal using the method of the first example, the aerodynamic sound data is stored in the storage unit 150 before step S10 (S70). After steps S10 to S40 are performed as described above, as shown in FIG. An aerodynamic sound signal is generated based on the distance calculated by the second calculation unit 122 (S51).
  • step S51 the generation unit 130 first obtains aerodynamic sound data stored in the storage unit 150 (S511).
  • Aerodynamic sound data is data in which the sound generated when the wind W reaches the human ear or a model imitating the human ear is collected.
  • the aerodynamic sound data is data in which the sound generated when the wind W reaches a model imitating the human ear is collected.
  • FIG. 7 is a schematic diagram showing a dummy head microphone 10 for collecting aerodynamic sound data according to the method of the first example in operation example 1.
  • FIG. 8 is a schematic diagram showing a dummy head microphone 20 for collecting aerodynamic sound data according to the first example method in operation example 1.
  • the dummy head microphone 10 shown in FIG. 7 includes a dummy head 11 and microphones 12 and 13 provided in each of the ears of the dummy head 11. Further, the dummy head microphone 20 shown in FIG. 8 is a simple dummy head microphone, and a microphone is provided in a model imitating a human ear.
  • the dummy head microphones 10 and 20 can collect aerodynamic sound generated when the wind W reaches the ears of the listener L. It can make a sound.
  • the aerodynamic sound data is data (sound signal) indicating the collected aerodynamic sound.
  • the generation unit 130 generates the aerodynamic sound signal so that the higher the calculated moving speed is, the more the frequency component is shifted to the higher frequency side, and the smaller the calculated distance is, the louder the volume of the aerodynamic sound is. S512).
  • the generated aerodynamic sound signal is a signal in which the frequency component is shifted to a higher frequency side as the calculated moving speed is larger, and the aerodynamic sound volume is increased as the calculated distance is smaller. .
  • the generation unit 130 generates an aerodynamic sound signal based on the aerodynamic sound data, with the frequency component shifted toward a higher frequency as the moving speed calculated by the first calculation unit 121 is higher.
  • the generation unit 130 generates an aerodynamic sound signal in which the frequency of the frequency component included in the aerodynamic sound data is shifted toward a higher frequency side as the moving speed is higher.
  • the generation unit 130 shifts the frequency to a higher frequency side by multiplying the frequency of a certain frequency component by a value according to the moving speed.
  • the generation unit 130 generates an aerodynamic sound signal based on the aerodynamic sound data so that the smaller the distance calculated by the second calculation unit 122, the greater the volume of the aerodynamic sound.
  • a predetermined distance is stored in the storage unit 150, and the generation unit 130 generates a distance calculated from the predetermined distance such that the smaller the distance calculated from the predetermined distance, the louder the volume of the aerodynamic sound.
  • the aerodynamic sound signal is generated such that the larger the aerodynamic sound, the lower the volume of the aerodynamic sound.
  • the generation unit 130 generates the aerodynamic sound signal so that the volume of the aerodynamic sound is attenuated by the distance a (a is a constant).
  • the generation unit 130 performs both the above processing of shifting the frequency component to the high frequency side and the above processing of increasing the volume of the aerodynamic sound, but may perform at least one of them.
  • the aerodynamic sound data was data in which the sound generated by the wind W reaching a model imitating the human ear was collected, but when the wind W reaches the human ear,
  • the data may be obtained by collecting the sound generated by the above.
  • a microphone is provided in each of the ears of the person, and when the wind W is radiated from the electric fan 50, for example, the microphone collects the aerodynamic sound generated when the wind W reaches the ears of the listener L. It's good to make a sound.
  • the aerodynamic sound data is data (sound signal) indicating the collected aerodynamic sound.
  • FIG. 9 is a flowchart showing a second example method in which the generation unit 130 generates the aerodynamic sound signal in step S50 shown in FIG.
  • step S40 the generation unit 130 generates an aerodynamic sound signal (S52).
  • the generation unit 130 generates an aerodynamic sound signal based on the moving speed calculated by the first calculation unit 121, the distance calculated by the second calculation unit 122, and the shape of the human ear.
  • step S52 the generation unit 130 first generates a processed signal based on the moving speed and the shape of the human ear calculated by the first calculation unit 121 (S521).
  • the generation unit 130 processes the noise signal with each of the plurality of band emphasis filters, and assigns a predetermined coefficient corresponding to the band emphasis filter to the noise signal processed by the band emphasis filter among the plurality of processed noise signals. Multiply (S521a). Then, the generation unit 130 generates a processed signal by synthesizing the plurality of noise signals multiplied by a predetermined coefficient (S521b).
  • FIG. 10A is a diagram illustrating a process in which the generation unit 130 generates an aerodynamic sound signal according to the second example method in Operation Example 1.
  • the wind W is generated by the movement of the object in the virtual space.
  • aerodynamic noise is generated when the generated wind W reaches human ears. More specifically, when the generated wind W reaches the human ear, an air vortex (Karman vortex) is generated, and this Karman vortex generates aerodynamic sound.
  • the cavity sound generation model is applied by assuming that the human ear is a collection of recesses having multiple widths (for example, a first width d1, a second width d2, a third width d3, and a fourth width d4). Then, the generation unit 130 generates an aerodynamic sound signal. Further, the Karman vortex frequency at a location corresponding to, for example, the first width d1 of the human ear is represented by f1, and satisfies equation (1).
  • the Karman vortex frequencies at locations corresponding to the second width d2, third width d3, and fourth width d4 of the human ear are represented by f2, f3, and f4, respectively, and are expressed by equations (2) and (3). ) and formula (4) are satisfied.
  • f2 (St ⁇ v) ⁇ d2 Formula (2)
  • f3 (St ⁇ v) ⁇ d3 Formula (3)
  • f4 (St ⁇ v) ⁇ d4 Formula (4)
  • the size of an average human ear may be used, and for example, a value of 0 cm or more and 3 cm or less may be used. That is, the human ear shown in FIG. 10A is also modeled after the average human ear. Note that the moving speed of the object calculated by the first calculation unit 121 can be regarded as v (m/s), which is the wind speed of the wind W generated by the movement of the object.
  • St is the Strouhal number, which is approximately 0.4 in the cavity sound generation model, as an example.
  • the Karman vortex frequency corresponds to the frequency of aerodynamic sound.
  • the generation unit 130 calculates Karman vortex frequencies f1 to f4 according to equations (1) to (4).
  • the generation unit 130 generates a processed signal by processing the noise signal using four bandpass filters having center frequencies f1 to f4.
  • first to fourth widths d1 to d4 shown in FIG. 10A indicate the widths when the wind W arrives from the front of the listener L.
  • FIG. 10B a case where the wind W arrives from a direction other than the front of the listener L will be described using FIG. 10B.
  • FIG. 10B is another diagram illustrating the process in which the generation unit generates the aerodynamic sound signal according to the second example method in Operation Example 1. More specifically, FIG. 10B shows a case where the wind W comes from 45 degrees diagonally above the listener L. In this case, since the width apparently changes depending on the angle as shown in FIG. 10B, it is obvious that the frequency characteristics change accordingly.
  • FIG. 11 is a diagram showing an example of four bandpass filters and their processing according to the second example method in Operation Example 1.
  • the four bandpass filters are filters that pass frequency components having center frequencies f1 to f4, respectively, and are band-emphasizing filters for simulating aerodynamic sound caused by the shape of the listener L's ears. This is an example.
  • the generation unit 130 extracts frequency components of the four bandpass filters shown in FIG. 11 from the noise signal and synthesizes them to generate a processed signal.
  • the center frequency is also the frequency at which the gain of the bandpass filter has a peak.
  • a white noise signal, a pink noise signal, or the like may be used as the noise signal input to each of the four bandpass filters.
  • the output signals output from the four bandpass filters may be multiplied by a predetermined coefficient according to the center frequency.
  • the output signal means a processed noise signal.
  • the predetermined multiplier may have a larger value as the center frequency becomes lower. This is because in a typical aerodynamic sound frequency band (for example, about 5 kHz or less), the lower the frequency, the lower the loudness perceived by the listener L.
  • the predetermined multiplier is a value determined for each of a plurality of bandpass filters (a plurality of band emphasis filters), and is multiplied by the noise signal processed by the bandpass filter.
  • each of the four bandpass filters may vary depending on the wind speed of the wind W reaching the ears of the listener L. The characteristics may vary depending on the wind direction of W.
  • the generation unit 130 shifts the frequency component toward a higher frequency side as the calculated moving speed increases, and increases the volume of the aerodynamic sound as the calculated distance decreases.
  • An aerodynamic sound signal is generated (S512).
  • the generation unit 130 generates an aerodynamic sound signal in which the frequency of the frequency component included in the synthesized processed signal is shifted to the higher frequency side as the moving speed is higher. Furthermore, the generation unit 130 generates the aerodynamic sound signal such that the smaller the distance calculated by the second calculation unit 122, the greater the volume of the aerodynamic sound. That is, instead of the aerodynamic sound data shown in the first example, processing is performed using the processed signal in the second example. In the second example, the generation unit 130 performs both the above processing of shifting the frequency component to the higher frequency side and the above processing of increasing the volume of the aerodynamic sound, but may perform at least one of them.
  • FIGS. 12 and 13 are other diagrams illustrating the process in which the generation unit 130 generates a processed signal according to the second example method in Operation Example 1.
  • the generation unit 130 may generate the processed signal by assuming that the human ear has a cylinder shape, as shown in FIG. 12.
  • the frequency of the Karman vortex generated by the ear (Karman vortex frequency) having a size d5 is denoted by f5 and satisfies equation (5).
  • the Strouhal number St is approximately 0.2, as an example. Then, in the same manner as described above, the generation unit 130 generates a processed signal by processing the noise signal with a bandpass filter having a center frequency of f5.
  • the generation unit 130 may generate the processed signal by assuming that the human head has a cylinder shape, as shown in FIG. 13.
  • the frequency of the Karman vortex (Karman vortex frequency) generated by the head having a size d6 is denoted by f6 and satisfies equation (6).
  • the Strouhal number St is approximately 0.2, as an example.
  • the generation unit 130 generates a processed signal by processing the noise signal with a bandpass filter having a center frequency of f6.
  • the bandpass filter is a filter for simulating aerodynamic sound caused by the shape of the listener's L head.
  • the generation unit 130 generates the aerodynamic sound signal using the methods of the first example and the second example, and outputs it to the output unit 140.
  • step S60 is performed.
  • FIG. 14 is a flowchart of operation example 2 of the acoustic signal processing device 100 according to the present embodiment.
  • differences from Operation Example 1 will be mainly explained, and explanations of common points will be omitted or simplified.
  • the acquisition unit 110 acquires first position information indicating the position of a moving object in the virtual space, second position information indicating the position of the listener L in the virtual space, and shape information indicating the shape of the object. (S10a).
  • the availability information is not used, so the acquisition unit 110 does not acquire the availability information in step S10a.
  • the acquisition unit 110 continuously acquires the first position information and the second position information, more specifically, each time the spatial information is updated by the spatial information management units A0201 and A0211. get.
  • the generation unit 130 generates an aerodynamic sound signal based on the shape indicated by the shape information acquired by the acquisition unit 110, the moving speed calculated by the first calculation unit 121, and the distance calculated by the second calculation unit 122. (50a).
  • step S50a the generation unit 130 first obtains aerodynamic sound data stored in the storage unit 150 (S511).
  • the generation unit 130 shifts the frequency component to a higher frequency side as the moving speed increases, increases the volume of the aerodynamic sound as the distance decreases, and increases the aerodynamic sound as the volume of the object increases.
  • An aerodynamic sound signal is generated to increase the volume (S512a).
  • the generated aerodynamic sound signal is a signal in which the frequency component is shifted to a higher frequency side as the calculated travel speed increases, and the volume of the aerodynamic sound increases as the calculated distance decreases. This is a signal that increases the volume of the aerodynamic sound as the volume of the object increases. Note that the volume of the object is calculated based on the shape indicated by the shape information.
  • the generation unit 130 performs the above process of shifting the frequency component to a higher frequency side, the above process of increasing the volume of the aerodynamic sound according to the distance, and the above process of increasing the volume of the aerodynamic sound according to the volume of the object. Although all of the above-mentioned processes for increasing the size are performed, at least one of them may be performed. Note that the above process of increasing the volume of the aerodynamic sound according to the volume of the object may be performed as follows. For example, a predetermined volume is stored in the storage unit 150, and the generation unit 130 generates a predetermined volume when the volume of the object is smaller than the predetermined volume so that the volume of the aerodynamic sound becomes larger as the volume of the object is larger than the predetermined volume. The aerodynamic sound signal is generated so that the volume of the aerodynamic sound becomes smaller as the aerodynamic sound increases.
  • the output unit 140 outputs the aerodynamic sound signal generated by the generation unit 130 (S60).
  • the aerodynamic sound data of the method of the first example shown in the first example of operation was used to generate the aerodynamic sound signal, but the present invention is not limited to this.
  • the processed signal of the second example method shown in operation example 1 may be used to generate an aerodynamic sound signal.
  • FIG. 15 is a flowchart of operation example 3 of the acoustic signal processing device 100 according to the present embodiment.
  • differences from Operation Example 2 will be mainly explained, and explanations of common points will be omitted or simplified.
  • steps S10a, S20, and S30 are performed as in operation example 2.
  • the calculation unit 120 determines whether the object moves based on the moving speed calculated by the first calculation unit 121 and the shape information acquired by the acquisition unit 110.
  • the air volume per unit time that occurs in this case is calculated (S35).
  • the air volume refers to the amount of air that moves due to the movement of the object.
  • the storage unit 150 stores air volume data indicating the moving speed of an object, the shape of the object, and the air volume associated with the moving speed and the shape.
  • the third calculation unit 123 preferably calculates the air volume by referring to the air volume data stored in the storage unit 150 based on the moving speed and shape.
  • the generation unit 130 generates an aerodynamic sound signal based on the moving speed calculated by the first calculation unit 121, the distance calculated by the second calculation unit 122, and the air volume calculated by the third calculation unit 123. (50b).
  • step S50b the generation unit 130 first obtains aerodynamic sound data stored in the storage unit 150 (S511).
  • the generation unit 130 shifts the frequency component to a higher frequency side as the moving speed is higher, increases the volume of the aerodynamic sound as the distance decreases, and increases the volume of the aerodynamic sound as the air volume increases.
  • An aerodynamic sound signal is generated so as to do so (S512b).
  • the generated aerodynamic sound signal is a signal in which the frequency component is shifted to a higher frequency side as the calculated travel speed increases, and the volume of the aerodynamic sound increases as the calculated distance decreases. This is a signal that increases the volume of aerodynamic sound as the air volume increases.
  • the generation unit 130 performs the above process of shifting the frequency component to a higher frequency side, the above process of increasing the volume of the aerodynamic sound according to the distance, and the above process of increasing the volume of the aerodynamic sound according to the air volume. Although all of the above processes are performed, at least one may be performed. Note that the above process of increasing the volume of the aerodynamic sound according to the air volume may be performed as follows. For example, a predetermined air volume is stored in the storage unit 150, and the generation unit 130 generates the air volume calculated from the predetermined air volume so that the larger the air volume calculated from the predetermined air volume, the greater the volume of the aerodynamic sound. The aerodynamic sound signal is generated such that the smaller the aerodynamic sound volume, the lower the aerodynamic sound volume.
  • the output unit 140 outputs the aerodynamic sound signal generated by the generation unit 130 (S60).
  • step S35 the air volume data is used to calculate the air volume per unit time that occurs when the object moves, but the calculation is not limited to this.
  • FIG. 16 is a flowchart of operation example 4 of the acoustic signal processing device 100 according to the present embodiment.
  • differences from Operation Example 3 will be mainly explained, and explanations of common points will be omitted or simplified.
  • steps S10a, S20, and S30 are performed similarly to operation example 3.
  • step S35 is performed. The process performed in step S35 will be described in more detail below.
  • FIG. 17 is a diagram showing an aircraft 700, which is an object according to the fourth operation example of the acoustic signal processing device according to the present embodiment.
  • the shape information indicates the moving direction of the object.
  • the moving direction (progressing direction) of the object (aircraft 700) is toward the front of the page.
  • step S35 the following process is performed as more detailed processing. That is, the third calculation unit 123 calculates the air volume based on the area of the object as seen from the moving direction of the object indicated by the shape information acquired by the acquisition unit 110 and the moving speed calculated by the first calculation unit 121. is calculated (S35c).
  • the area is the area surrounded by the outline of the object when the object is viewed from the moving direction (advancing direction) of the aircraft 700, which is the object.
  • the area is, for example, the range occupied by the aircraft 700 shown in FIG. 17.
  • step S35c the third calculation unit 123 calculates the air volume by multiplying the area of the object and the moving speed. More specifically, the third calculation unit 123 may calculate the air volume by multiplying the area of the object, the moving speed, and a predetermined constant.
  • steps S50b and S60 are performed.
  • the aircraft 700 is used as the object, but the object is not limited to this.
  • the process of this operation example is applicable.
  • FIG. 18 is a diagram showing a fan 800, which is an object according to operation example 5 of the acoustic signal processing device according to the present embodiment.
  • the moving direction of the fan 800 is not obvious, and the moving direction of the fan 800 is, for example, at least one of the vertical direction of the page, the left-right direction of the page, and the front-rear direction of the page in FIG. be.
  • FIG. 19 is a flowchart of operation example 5 of the acoustic signal processing device 100 according to the present embodiment.
  • differences from Operation Example 3 will be mainly explained, and explanations of common points will be omitted or simplified.
  • step S10a is performed as in operation example 3.
  • the first calculating unit 121 calculates the moving speed and moving direction of the object based on the first position information acquired by the acquiring unit 110 (S20e).
  • the acquisition unit 110 acquires the first position information indicating the position of the object in the virtual space every time the spatial information is updated by the spatial information management units A0201 and A0211.
  • the first calculation unit 121 calculates the difference between one piece of first position information and one piece of first position information obtained after updating the spatial information executed by the spatial information management units A0201 and A0211 to determine whether the object exists in the virtual space. Calculate the direction of movement.
  • step S30 is performed.
  • the third calculation unit 123 calculates the shape information that occurs when the object moves based on the shape information acquired by the acquisition unit 110, the movement direction calculated by the first calculation unit 121, and the calculated movement speed.
  • the air volume per unit time is calculated (S35e).
  • the third calculation unit 123 first calculates the area of the object as seen from the object's moving direction based on the shape information and the moving direction.
  • the fan 800 which is an object, has a handle 801 and a fan surface 802.
  • a case will be considered in which the fan 800 moves in the up-down direction (hereinafter referred to as the first direction), the left-right direction (hereinafter referred to as the second direction), and the direction toward the front and back of the paper (hereinafter referred to as the third direction).
  • the first direction is a direction horizontal to the fan surface 802 and a direction in which the handle 801 extends.
  • the second direction is a direction horizontal to the fan surface 802 and perpendicular to the first direction.
  • the third direction is a direction perpendicular to the fan surface 802. As shown in FIG. 18, this fan 800 is a fan that is thinner in the third direction.
  • the moving direction of the fan 800 When the moving direction of the fan 800 is the first direction, the area of the object viewed from the moving direction will hereinafter be referred to as the first area.
  • the moving direction of the fan 800 When the moving direction of the fan 800 is the second direction, the area of the object viewed from the moving direction will hereinafter be referred to as a second area.
  • the moving direction of the fan 800 When the moving direction of the fan 800 is the third direction, the area of the object viewed from the moving direction will hereinafter be referred to as a third area. Since the fan 800 is thinner in the third direction, the first area and the second area have much smaller values than the third area.
  • the third calculation unit 123 calculates the air volume based on the area of the object viewed from the direction of movement of the object and the movement speed. For example, as in step S35 of Operation Example 4, the third calculation unit 123 may calculate the air volume by multiplying the area of the object, the moving speed, and a predetermined constant.
  • the first area and the second area have much smaller values than the third area, so compared to the case where the moving direction of the fan 800 is the first direction and the second direction. , the air volume increases when the moving direction of the fan 800 is the third direction.
  • steps S50b and S60 are performed.
  • FIG. 20 is a diagram showing an example of a functional block diagram and steps for explaining a case where the rendering units A0203 and A0213 in FIGS. 2G and 2H perform pipeline processing.
  • the rendering unit 900 which is an example of the rendering units A0203 and A0213 in FIGS. 2G and 2H, will be used.
  • Pipeline processing refers to dividing the process for adding sound effects into multiple processes and executing each process one by one in sequence. In each of the divided processes, for example, signal processing of an audio signal or generation of parameters used for signal processing is executed.
  • the rendering unit 900 in this embodiment includes processing that performs, for example, a reverberation effect, early reflected sound, distance attenuation effect, binaural processing, etc. as pipeline processing.
  • the above processing is an example, and other processing may be included, or some processing may not be included.
  • the rendering unit 900 may include diffraction processing or occlusion processing as pipeline processing, or may omit reverberation processing, for example, if it is unnecessary.
  • each process may be expressed as a stage, and an audio signal such as a reflected sound generated as a result of each process may be expressed as a rendering item.
  • the order of each stage in pipeline processing and the stages included in pipeline processing are not limited to the example shown in FIG. 20.
  • the rendering unit 900 does not need to include all the stages shown in FIG. 20, some stages may be omitted, or other stages may exist in addition to the rendering unit 900.
  • Each process analyzes the metadata included in the input signal and calculates the parameters necessary to generate reflected sound.
  • the rendering unit 900 includes a reverberation processing unit 901, an early reflection processing unit 902, a distance attenuation processing unit 903, a selection unit 904, a calculation unit 120, a generation unit 130, and a binaural processing unit 905.
  • the reverberation processing section 901 performs the reverberation processing step
  • the early reflection processing section 902 performs the initial reflection processing step
  • the distance attenuation processing section 903 performs the distance attenuation processing step
  • the selection section 904 performs the selection processing step
  • the binaural processing section 905 performs the selection processing step.
  • An example in which a binaural processing step is performed will be described.
  • the reverberation processing unit 901 In the reverberation processing step, the reverberation processing unit 901 generates an audio signal indicating reverberant sound or parameters necessary for generating the audio signal.
  • Reverberant sound is sound that includes reverberant sound that reaches the listener as reverberation after the direct sound.
  • reverberant sound occurs relatively late after the early reflected sound (described later) reaches the listener (for example, about 100-odd milliseconds from the arrival of the direct sound), and occurs more times than the early reflected sound ( For example, it is reverberant sound that reaches the listener after being reflected several dozen times.
  • the reverberation processing unit 901 refers to the audio signal and spatial information included in the input signal, and performs calculations using a predetermined function prepared in advance for generating reverberant sound.
  • the reverberation processing unit 901 may generate reverberation by applying a known reverberation generation method to the sound signal.
  • a known reverberation generation method is, for example, the Schroeder method, but is not limited thereto.
  • the reverberation processing unit 901 uses the shape and acoustic characteristics of the sound reproduction space indicated by the spatial information when applying known reverberation generation processing. Thereby, the reverberation processing unit 901 can calculate parameters for generating an audio signal indicating reverberation.
  • the early reflection processing unit 902 calculates parameters for generating early reflection sound based on spatial information.
  • Early reflected sound is a reflection that reaches the listener through one or more reflections relatively early after the direct sound reaches the listener from the sound source object (for example, about several tens of milliseconds after the direct sound arrives). It's a sound.
  • the early reflection processing unit 902 refers to the sound signal and metadata, and uses the shape and size of the three-dimensional sound field (space), the position of objects such as structures, and the reflectance of the object to determine the sound source object. Calculate the path of the reflected sound that reflects from the object and reaches the listener. Further, the early reflection processing unit 902 may also calculate the route of the direct sound. The information on the route is used as a parameter for generating the early reflected sound, and may also be used as a parameter for the selection process of the reflected sound in the selection unit 904.
  • the distance attenuation processing unit 903 calculates the volume that reaches the listener based on the difference between the length of the direct sound path and the length of the reflected sound path calculated by the early reflection processing unit 902.
  • the volume of direct sound that reaches the listener is attenuated in proportion to the distance to the listener (inversely proportional to the distance) relative to the volume of the sound source, so the volume of direct sound is calculated by dividing the volume of the sound source by the length of the direct sound path.
  • the volume of the reflected sound can be calculated by dividing the volume of the sound source by the length of the path of the reflected sound.
  • the selection unit 904 selects the aerodynamic sound or reflected sound to be generated.
  • the selection process may be performed based on the parameters calculated in the previous step.
  • reflected sounds that are not selected in the selection process do not need to be subjected to the processes subsequent to the selection process in the pipeline process.
  • the calculation load on the acoustic signal processing device 100 is reduced compared to the case where it is decided not to perform only the binaural processing on the unselected reflected sounds. becomes possible.
  • the selection process described in this embodiment is executed as part of the pipeline process
  • the selection process is executed in the order that is earlier among the multiple processes in the pipeline process. If set, more processes subsequent to the selection process can be omitted, and the amount of calculations can be further reduced. For example, if the selection process is executed before the calculation unit 120 and the generation unit 130 process, it is possible to omit the process for the aerodynamic sound related to the object that is determined not to be selected, and the acoustic signal processing device 100 can be reduced.
  • parameters calculated in part of the pipeline processing that generates rendering items may be used by the selection unit 904 or the calculation unit 120.
  • the binaural processing unit 905 performs signal processing on the direct sound audio signal so that it is perceived as sound reaching the listener from the direction of the sound source object. Further, the binaural processing unit 905 performs signal processing so that the reflected sound is perceived as sound reaching the listener from the obstacle object involved in the reflection.
  • the HRIRHead-Related Impulse Responses) DB Data base
  • the position and direction of the listening point may be changed according to the movement of the listener's head, for example. Additionally, information indicating the position of the listener may be obtained from a sensor.
  • HRIR Head-Related Impulse Responses
  • HRIR head-Related Impulse Responses
  • HRIR transforms the head-related transfer function, which expresses changes in sound caused by surrounding objects including the ear shell, head, and shoulders, as a transfer function, from the expression in the frequency domain to the expression in the time domain. This is the response characteristic converted to .
  • HRIR DB is a database containing such information.
  • the rendering unit 900 may include a processing unit that is not shown.
  • it may include a diffraction processing section or an occlusion processing section.
  • the diffraction processing unit executes processing to generate an audio signal representing a sound including diffracted sound caused by an obstacle between a listener and a sound source object in a three-dimensional sound field (space).
  • Diffraction sound is sound that, when there is an obstacle between the sound source object and the listener, reaches the listener from the sound source object by going around the obstacle.
  • the diffraction processing unit refers to the sound signal and metadata, and uses the position of the sound source object in the three-dimensional sound field (space), the position of the listener, and the position, shape, and size of obstacles to generate the sound source object.
  • a route is calculated to reach the listener by bypassing obstacles, and diffraction sound is generated based on the route.
  • the occlusion processing unit generates an audio signal that can be heard when there is a sound source object on the other side of the obstacle object, based on the spatial information acquired in any step and information such as the material of the obstacle object.
  • the position information given to the sound source object is defined as a "point" in the virtual space, and the details of the invention have been described assuming that the sound source object is a so-called "point sound source.”
  • a spatially extended sound source that is not a point sound source may be defined as an object having a length, size, shape, etc. In such a case, the distance between the listener and the sound source or the direction of arrival of the sound is not determined, so the reflected sound caused by it does not need to be analyzed, or the selection unit 904 may not be able to analyze it regardless of the analysis result.
  • the processing may be limited to "select" processing.
  • the processing of the present disclosure may be applied assuming that a representative point such as the center of gravity of the object is determined and the sound is generated from that representative point, but in that case, the processing of the present disclosure may be applied to the spatial expansion information of the sound source.
  • the processing of the present disclosure may be applied after adjusting the threshold value accordingly.
  • the bitstream includes, for example, an audio signal and metadata.
  • the audio signal is sound data representing a sound, indicating information regarding the frequency and intensity of the sound.
  • the spatial information included in the metadata is information regarding the space in which the listener who listens to the sound based on the audio signal is located. Specifically, spatial information is used to localize the sound image of the sound to a predetermined position in a sound space (for example, within a three-dimensional sound field), that is, to make the listener perceive it as a sound arriving from a predetermined direction. This is information regarding the predetermined position (localization position).
  • the spatial information includes, for example, sound source object information and position information indicating the position of the listener.
  • Sound source object information is information about an object that generates a sound based on an audio signal, that is, represents an object that reproduces an audio signal, and is a sound space that is a virtual space that corresponds to the real space in which the object is placed. This is information regarding a virtual object (sound source object) placed in the .
  • the sound source object information includes, for example, information indicating the position of the sound source object placed in the sound space, information regarding the direction of the sound source object, information regarding the directionality of the sound emitted by the sound source object, and information indicating whether the sound source object belongs to a living creature. information, and information indicating whether the sound source object is a moving object.
  • the audio signal corresponds to one or more sound source objects indicated by the sound source object information.
  • a bitstream is composed of, for example, metadata (control information) and an audio signal.
  • the audio signal and metadata may be stored in one bitstream or separately in multiple bitstreams. Similarly, the audio signal and metadata may be stored in one file, or may be stored separately in multiple files.
  • a bitstream may exist for each sound source or for each playback time.
  • a bitstream exists for each playback time, a plurality of bitstreams may be processed in parallel at the same time.
  • Metadata may be provided for each bitstream, or may be provided all at once as information for controlling multiple bitstreams. Further, metadata may be provided for each playback time.
  • Audio signals and metadata when stored separately in multiple bitstreams or files, include information indicating which bitstreams or files are associated with one or some bitstreams or files.
  • Each bitstream or file may include information indicating other bitstreams or files associated with it.
  • the related bitstreams or files are, for example, bitstreams or files that may be used simultaneously during audio processing.
  • the related bitstream or file may include a bitstream or file that collectively describes information indicating other related bitstreams or files.
  • the information indicating the other related bitstream or file is, for example, an identifier indicating the other bitstream, a file name indicating the other file, a URL (Uniform Resource Locator), or a URI (Uniform Resource Identifier). be.
  • the acquisition unit 110 identifies or acquires the bitstream or file based on information indicating other related bitstreams or files.
  • the bitstream may include information indicating another related bitstream
  • the bitstream may include information indicating a bitstream or file related to another bitstream or file.
  • the file containing information indicating a related bitstream or file may be a control file such as a manifest file used for content distribution, for example.
  • the metadata may be obtained from sources other than the bitstream of the audio signal.
  • the metadata that controls audio or the metadata that controls video may be obtained from sources other than the bitstream, or both metadata may be obtained from sources other than the bitstream.
  • the audio signal playback system transfers the metadata that can be used to control the video to a display device that displays the image, or It may also have a function of outputting to a stereoscopic video playback device that plays back stereoscopic video.
  • Metadata may be information used to describe a scene expressed in a sound space.
  • the term "scene” refers to a collection of all elements representing three-dimensional images and audio events in a sound space, which are modeled by an audio signal reproduction system using metadata. That is, the metadata here may include not only information that controls audio processing but also information that controls video processing. Of course, the metadata may include information for controlling only one of the audio processing and the video processing, or may include information used for controlling both.
  • the audio signal playback system generates virtual sound effects by performing acoustic processing on the audio signal using metadata included in the bitstream and additionally acquired interactive listener position information.
  • acoustic processing is performed among the acoustic effects, but other acoustic processing will be performed using metadata.
  • an audio signal reproduction system may add acoustic effects such as distance attenuation effects, localization, and Doppler effects.
  • information for switching on/off of all or part of the sound effects and priority information may be added as metadata.
  • the encoded metadata includes information regarding the sound space including the sound source object and the obstacle object, and how to localize the sound image of the sound to a predetermined position in the sound space (that is, a sound arriving from a predetermined direction). information regarding the localization position at the time of perception).
  • an obstacle object is an object that can affect the sound perceived by the listener by, for example, blocking or reflecting the sound until the sound emitted by the sound source object reaches the listener. be.
  • Obstacle objects may include animals such as people, or moving objects such as machines, in addition to stationary objects.
  • other sound source objects can become obstacle objects for any sound source object.
  • Obstacle objects can include non-sounding objects that do not emit sounds, such as building materials or inanimate objects, and sound source objects that emit sounds.
  • the metadata includes the shape of the sound space, shape information and position information of obstacle objects existing in the sound space, shape information and position information of sound source objects existing in the sound space, and the position and orientation of the listener in the sound space. Contains all or part of the information represented.
  • the sound space may be either a closed space or an open space.
  • the metadata also includes information representing the reflectance of structures that can reflect sound in the sound space, such as floors, walls, or ceilings, and the reflectance of obstacle objects that exist in the sound space.
  • the reflectance is a ratio of energy between reflected sound and incident sound, and is set for each frequency band of sound. Of course, the reflectance may be set uniformly regardless of the frequency band of the sound.
  • parameters such as a uniformly set attenuation rate, diffracted sound, early reflected sound, etc. may be used, for example.
  • reflectance was mentioned as a parameter related to the obstacle object or sound source object included in the metadata, but information other than reflectance may be included.
  • the information other than the reflectance may include information regarding the material of the object as metadata related to both the sound source object and the non-sound object.
  • information other than reflectance may include parameters such as diffusivity, transmittance, and sound absorption coefficient.
  • Information regarding the sound source object may include volume, radiation characteristics (directivity), playback conditions, number and type of sound sources emitted from one object, information specifying the sound source area in the object, and the like.
  • the playback conditions may determine whether the sound is a continuous sound or a sound triggered by an event.
  • the sound source area in an object may be determined based on the relative relationship between the position of the listener and the position of the object, or may be determined using the object as a reference. When the sound source area of an object is determined by the relative relationship between the listener's position and the object's position, the surface where the listener is viewing the object is used as a reference, and sound A comes from the right side of the object as seen from the listener, and sound A from the left side.
  • the listener can be made to perceive sound B as being emitted.
  • the sound source region of an object is defined with the object as a reference, which sound is emitted from which region of the object can be fixed regardless of the direction in which the listener is viewing. For example, when looking at an object from the front, a listener can be made to perceive that high sounds are coming from the right side and low sounds are coming from the left side. In this case, when the listener goes behind the object, the listener can be made to perceive that low sounds are coming from the right side and high sounds are coming from the left side when viewed from the back side.
  • Metadata regarding the space can include time to early reflections, reverberation time, ratio of direct sound to diffuse sound, etc. When the ratio of direct sound to diffused sound is zero, only direct sound can be perceived by the listener.
  • the acoustic signal processing method includes an acquisition step of acquiring first position information indicating the position of a moving object in the virtual space and second position information indicating the position of the listener L in the virtual space. a first calculation step of calculating the moving speed of the object based on the acquired first position information; and a first calculation step of calculating the moving speed of the object based on the acquired first position information and the acquired second position information. a second calculation step of calculating the distance between The method includes a generation step of generating a sound signal, and an output step of outputting the generated aerodynamic sound signal.
  • the acoustic signal processing method generates an aerodynamic sound indicating the aerodynamic sound caused by the wind W generated by the movement of the object reaching the ears of the listener L, based on the position of the object in the virtual space and the position of the listener L.
  • a signal can be generated and the generated aerodynamic sound signal can be output.
  • the listener L can listen to the aerodynamic sound. Therefore, the listener L can perceive that the object is moving, and can obtain a sense of realism.
  • the acoustic signal processing method according to one aspect of the present disclosure can provide the listener L with a sense of realism.
  • the aerodynamic sound heard by the listener L can be controlled according to the moving speed of the object and the distance between the object and the listener L, so the listener L can obtain a more realistic feeling. can.
  • the acoustic signal processing method can give the listener L a more realistic feeling.
  • the possibility information indicating whether or not the object generates aerodynamic sound is acquired, and in the generation step, the acquired possibility information indicates that the object generates aerodynamic sound. generates an aerodynamic sound signal.
  • an aerodynamic sound signal is generated only when the availability information indicates that the object generates an aerodynamic sound.
  • the availability information does not indicate that the object generates aerodynamic sound, there is no need to generate an aerodynamic sound signal.
  • the processing load can be suppressed.
  • an aerodynamic sound signal can be generated based on the first position information, the second position information, and the availability information.
  • an aerodynamic sound signal can be generated even without information other than the first position information, second position information, and availability information.
  • the acquisition step shape information indicating the shape of the object is acquired
  • the generation step the shape indicated by the acquired shape information, the calculated moving speed, and the calculated Generate an aerodynamic sound signal based on the distance.
  • the aerodynamic sound signal is generated according to the shape of the object, the moving speed of the object, and the distance between the object and the listener L, so that the listener L can hear the aerodynamic sound with a more realistic feeling. I can do it.
  • the acoustic signal processing method can give the listener L a more realistic feeling.
  • an aerodynamic sound signal can be generated using the first position information, the second position information, and the shape information.
  • an aerodynamic sound signal can be generated without information other than the first position information, second position information, and shape information.
  • the aerodynamic sound signal is generated such that the volume of the aerodynamic sound increases as the volume of the object increases.
  • the aerodynamic sound heard by the listener L can be controlled according to the moving speed of the object, the distance between the object and the listener L, and the volume of the object, so the listener L can feel more realistic. can be obtained.
  • the acoustic signal processing method can give the listener L a more realistic feeling.
  • the acoustic signal processing method includes a third calculation step of calculating the air volume per unit time that occurs when the object moves, based on the calculated moving speed and the acquired shape information, In the generation step, an aerodynamic sound signal is generated based on the calculated moving speed, the calculated distance, and the calculated air volume.
  • the aerodynamic sound signal is generated according to the moving speed of the object, the distance between the object and the listener L, and the above-mentioned air volume, so that the listener L can hear the aerodynamic sound with a more realistic feeling.
  • the acoustic signal processing method can give the listener L a more realistic feeling.
  • the aerodynamic sound signal is generated so as to increase the volume of the aerodynamic sound as the calculated air volume increases.
  • the aerodynamic sound heard by the listener L can be controlled according to the moving speed of the object, the distance between the object and the listener L, and the above-mentioned air volume, so the listener L can enjoy a more realistic feeling.
  • the acoustic signal processing method can give the listener L a more realistic feeling.
  • an aerodynamic sound signal is generated based on the calculated moving speed, the calculated distance, and the shape of the human ear.
  • the aerodynamic sound signal is generated according to the sound generation model based on the shape of the human ear, so that the listener L can hear aerodynamic sound with a more realistic feeling.
  • the acoustic signal processing method can give the listener L a more realistic feeling.
  • the user of the virtual space (for example, the provider of content executed in the virtual space) can prepare data indicating aerodynamic sound for the content. The need is eliminated.
  • the memory stores aerodynamic sound data, which is data in which the sound generated when the wind W reaches the human ear or a model imitating the human ear is collected.
  • aerodynamic sound data which is data in which the sound generated when the wind W reaches the human ear or a model imitating the human ear is collected.
  • an aerodynamic sound signal is generated based on the stored aerodynamic sound data, the calculated moving speed, and the calculated distance.
  • the aerodynamic sound signal is generated according to the data of the actually generated sound, so that the listener L can listen to the aerodynamic sound with a more realistic feeling.
  • the acoustic signal processing method can give the listener L a more realistic feeling.
  • the air volume is Calculate.
  • the air volume is calculated based on the area of the object viewed from the direction of movement of the object indicated by the shape information and the speed of movement. Since the aerodynamic sound signal is generated according to the air volume, the moving speed of the object, and the distance between the object and the listener L, the listener L can hear the aerodynamic sound with a more realistic feeling. I can do it. In other words, the acoustic signal processing method can give the listener L a more realistic feeling.
  • the moving speed and moving direction of the object are calculated based on the obtained first position information
  • the moving speed and moving direction of the object are calculated based on the obtained first position information.
  • the air volume is calculated based on the shape information, the calculated moving direction, and the calculated moving speed.
  • the air volume is calculated based on the shape information, the moving direction, and the moving speed. Since the aerodynamic sound signal is generated according to the air volume, the moving speed of the object, and the distance between the object and the listener L, the listener L can hear the aerodynamic sound with a more realistic feeling. I can do it. In other words, the acoustic signal processing method can give the listener L a more realistic feeling.
  • a noise signal is processed by each of a plurality of band emphasis filters, and the plurality of processed noise signals are synthesized and processed.
  • Each of the plurality of band emphasis filters includes a generation step of generating an aerodynamic sound signal representing aerodynamic sound caused by the wind W reaching L's ears, and an output step of outputting the generated aerodynamic sound signal.
  • the acoustic signal processing method generates, for the listener L in the virtual space, an aerodynamic sound signal indicating the aerodynamic sound caused by the wind W reaching the ears of the listener L in the virtual space, and the generated aerodynamic sound signal. can be output.
  • the listener L can listen to the aerodynamic sound. Therefore, the listener L can perceive that the wind W is blowing in the virtual space, and can obtain a sense of realism.
  • the acoustic signal processing method can give the listener L a sense of realism.
  • the wind W blowing in the virtual space is different from the wind W caused by the movement of an object, and may be a breeze blowing naturally in the real space or a wind imitating a storm. good.
  • the position of the source of the wind W is not specified, nor is the positional relationship between the position and the listener. Even in this case, the listener L can perceive that the wind W is blowing in the virtual space, and can obtain a sense of realism.
  • the plurality of band emphasis filters apply a predetermined coefficient corresponding to the band emphasis filter to the noise signal processed by the band emphasis filter among the plurality of processed noise signals. Multiplication is performed, and in the generation step, after the multiplication is performed, composition is performed.
  • the aerodynamic sound generated by the acoustic signal processing method becomes a sound more similar to the aerodynamic sound that the listener L hears in real space. Therefore, the listener L can obtain a more realistic feeling. In other words, the acoustic signal processing method can give the listener L a more realistic feeling.
  • the characteristics of each of the plurality of band emphasis filters vary depending on the speed of the wind W reaching the ear.
  • the aerodynamic sound generated by the acoustic signal processing method becomes a sound more similar to the aerodynamic sound that the listener L hears in real space. Therefore, the listener L can obtain a more realistic feeling. In other words, the acoustic signal processing method can give the listener L a more realistic feeling.
  • the characteristics of each of the plurality of band emphasis filters vary depending on the direction of the wind W reaching the ear.
  • the aerodynamic sound generated by the acoustic signal processing method becomes a sound more similar to the aerodynamic sound that the listener L hears in real space. Therefore, the listener L can obtain a more realistic feeling. In other words, the acoustic signal processing method can give the listener L a more realistic feeling.
  • the computer program according to this embodiment is a computer program for causing a computer to execute the acoustic signal processing method described above.
  • the computer can execute the above acoustic signal processing method according to the computer program.
  • the acoustic signal processing device 100 acquires first position information indicating the position of a moving object in the virtual space and second position information indicating the position of the listener L in the virtual space.
  • unit 110 a first calculation unit 121 that calculates the moving speed of the object based on the acquired first position information, and a first calculation unit 121 that calculates the moving speed of the object based on the acquired first position information and the acquired second position information.
  • a second calculation unit 122 that calculates the distance to the listener L, and an aerodynamic force generated when the wind W generated by the movement of the object reaches the ears of the listener L based on the calculated moving speed and the calculated distance. It includes a generation unit 130 that generates an aerodynamic sound signal representing a sound, and an output unit 140 that outputs the generated aerodynamic sound signal.
  • the acoustic signal processing device generates an aerodynamic sound indicating the aerodynamic sound generated when the wind W generated by the movement of the object reaches the ears of the listener L, based on the position of the object in the virtual space and the position of the listener L.
  • a signal can be generated and the generated aerodynamic sound signal can be output.
  • the listener L can listen to the aerodynamic sound. Therefore, the listener L can perceive that the object is moving, and can obtain a sense of realism.
  • the acoustic signal processing device can provide the listener L with a sense of presence.
  • the present disclosure is not limited to these embodiments.
  • other embodiments of the present disclosure may be implemented by arbitrarily combining the components described in this specification or by excluding some of the components.
  • the present disclosure also includes modifications obtained by making various modifications to the above-described embodiments that a person skilled in the art can think of without departing from the gist of the present disclosure, that is, the meaning indicated by the words described in the claims. It will be done.
  • Some of the components constituting the above acoustic signal processing device 100 may be a computer system composed of a microprocessor, ROM, RAM, hard disk unit, display unit, keyboard, mouse, etc.
  • a computer program is stored in the RAM or hard disk unit.
  • the microprocessor achieves its functions by operating according to the computer program.
  • a computer program is configured by combining a plurality of instruction codes indicating instructions to a computer in order to achieve a predetermined function.
  • a system LSI is a super-multifunctional LSI manufactured by integrating multiple components onto a single chip, and specifically, it is a computer system that includes a microprocessor, ROM, RAM, etc. .
  • a computer program is stored in the RAM. The system LSI achieves its functions by the microprocessor operating according to the computer program.
  • Some of the components constituting the acoustic signal processing device 100 described above may be configured from an IC card or a single module that is removable from each device.
  • the IC card or the module is a computer system composed of a microprocessor, ROM, RAM, etc.
  • the IC card or the module may include the above-mentioned super multifunctional LSI.
  • the IC card or the module achieves its functions by the microprocessor operating according to a computer program. This IC card or this module may be tamper resistant.
  • some of the components constituting the above acoustic signal processing device 100 may store the computer program or the digital signal on a computer-readable recording medium, such as a flexible disk, a hard disk, a CD-ROM, or an MO. , DVD, DVD-ROM, DVD-RAM, BD (Blu-ray (registered trademark) Disc), semiconductor memory, or the like. Further, it may be a digital signal recorded on these recording media.
  • a computer-readable recording medium such as a flexible disk, a hard disk, a CD-ROM, or an MO.
  • semiconductor memory or the like.
  • it may be a digital signal recorded on these recording media.
  • some of the components constituting the acoustic signal processing device 100 described above transmit the computer program or the digital signal via a telecommunication line, a wireless or wired communication line, a network typified by the Internet, data broadcasting, etc. It may also be transmitted as
  • the present disclosure may be the method described above. Moreover, it may be a computer program that implements these methods by a computer, or it may be a digital signal composed of the computer program.
  • the present disclosure also provides a computer system including a microprocessor and a memory, wherein the memory stores the computer program, and the microprocessor may operate according to the computer program. .
  • the present disclosure can be used in an acoustic signal processing method and an acoustic signal processing device, and is particularly applicable to an acoustic system.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

音響信号処理方法は、仮想空間における移動体であるオブジェクトの位置を示す第1位置情報、及び、仮想空間における受聴者の位置を示す第2位置情報を取得する取得ステップと、取得された第1位置情報に基づいて、オブジェクトの移動速度を算出する第1算出ステップと、取得された第1位置情報及び取得された第2位置情報に基づいて、オブジェクトと受聴者との距離を算出する第2算出ステップと、算出された移動速度及び算出された距離に基づいて、オブジェクトの移動により生じる風が受聴者の耳に到達することで生じる空力音を示す空力音信号を生成する生成ステップと、生成された空力音信号を出力する出力ステップと、を含む。

Description

音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
 本開示は、音響信号処理方法などに関する。
 特許文献1では、音響信号処理装置である三次元音場空間再生装置に係る技術が開示されており、この音響信号処理装置は、畳み込み演算された音響信号に、受聴者の移動速度及び音源の移動速度に基づきドップラー効果の処理を施すドップラー演算手段を備える。
特開平07-312800号公報 国際公開第2021/180938号
 ところで、特許文献1が示す技術では、受聴者に臨場感を与えることが困難な場合がある。
 そこで、本開示は、受聴者に臨場感を与えることができる音響信号処理方法などを提供することを目的とする。
 本開示の一態様に係る音響信号処理方法は、仮想空間における移動体であるオブジェクトの位置を示す第1位置情報、及び、前記仮想空間における受聴者の位置を示す第2位置情報を取得する取得ステップと、取得された前記第1位置情報に基づいて、前記オブジェクトの移動速度を算出する第1算出ステップと、取得された前記第1位置情報及び取得された前記第2位置情報に基づいて、前記オブジェクトと前記受聴者との距離を算出する第2算出ステップと、算出された前記移動速度及び算出された前記距離に基づいて、前記オブジェクトの移動により生じる風が前記受聴者の耳に到達することで生じる空力音を示す空力音信号を生成する生成ステップと、生成された前記空力音信号を出力する出力ステップと、を含む。
 また、本開示の一態様に係る音響信号処理方法は、雑音信号を複数の帯域強調フィルタのそれぞれで処理して、処理された複数の前記雑音信号の合成を行って処理することで、仮想空間における受聴者の耳に風が到達することで生じる空力音を示す空力音信号を生成する生成ステップと、生成された前記空力音信号を出力する出力ステップと、を含み、前記複数の帯域強調フィルタのそれぞれは、前記受聴者の耳又は頭部の形状に起因して生じる前記空力音を模擬するためのフィルタである。
 また、本開示の一態様に係るプログラムは、上記の音響信号処理方法をコンピュータに実行させる。
 また、本開示の一態様に係る音響信号処理装置は、仮想空間における移動体であるオブジェクトの位置を示す第1位置情報、及び、前記仮想空間における受聴者の位置を示す第2位置情報を取得する取得部と、取得された前記第1位置情報に基づいて、前記オブジェクトの移動速度を算出する第1算出部と、取得された前記第1位置情報及び取得された前記第2位置情報に基づいて、前記オブジェクトと前記受聴者との距離を算出する第2算出部と、算出された前記移動速度及び算出された前記距離に基づいて、前記オブジェクトの移動により生じる風が前記受聴者の耳に到達することで生じる空力音を示す空力音信号を生成する生成部と、生成された前記空力音信号を出力する出力部と、を備える。
 なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
 本開示の一態様に係る音響信号処理方法によれば、受聴者に臨場感を与えることができる。
図1は、受聴者の頭部又は耳に達することで発生する空力音を説明する図の一例である。 図2Aは、受聴者の頭部又は耳に達することで発生する空力音を説明する図の他の一例である。 図2Bは、本開示の音響処理又は復号処理が適用可能なシステムの一例である立体音響(Immersive Audio)再生システムを示す図である。 図2Cは、本開示の符号化装置の一例である符号化装置の構成を示す機能ブロック図である。 図2Dは、本開示の復号装置の一例である復号装置の構成を示す機能ブロック図である。 図2Eは、本開示の符号化装置の別の一例である符号化装置の構成を示す機能ブロック図である。 図2Fは、本開示の復号装置の別の一例である復号装置の構成を示す機能ブロック図である。 図2Gは、図2D又は図2Fにおけるデコーダの一例であるデコーダの構成を示す機能ブロック図である。 図2Hは、図2D又は図2Fにおけるデコーダの別の一例であるデコーダの構成を示す機能ブロック図である。 図2Iは、音響信号処理装置の物理的構成の一例を示す図である。 図2Jは、符号化装置の物理的構成の一例を示す図である。 図3Aは、実施の形態に係る音響信号処理装置の機能構成を示すブロック図である。 図3Bは、実施の形態に係る選択部の動作例のフローチャートである。 図4は、実施の形態に係る音響信号処理装置の動作例1のフローチャートである。 図5は、図4が示すステップS50において生成部が空力音信号を生成する第1例の方法を示すフローチャートである。 図6は、図4が示すステップS50において生成部が空力音信号を生成する第1例の方法を示すフローチャートである。 図7は、動作例1における第1例の方法に係る空力音データを収音するためのダミーヘッドマイクを示す模式図である。 図8は、動作例1における第1例の方法に係る空力音データを収音するための他のダミーヘッドマイクを示す模式図である。 図9は、図4が示すステップS50において生成部が空力音信号を生成する第2例の方法を示すフローチャートである。 図10Aは、動作例1における第2例の方法に係る生成部が空力音信号を生成する処理を説明する図である。 図10Bは、動作例1における第2例の方法に係る生成部が空力音信号を生成する処理を説明する他の図である。 図11は、動作例1における第2例の方法に係る4つのバンドパスフィルタの一例とその処理を示す図である。 図12は、動作例1における第2例の方法に係る生成部が処理信号を生成する処理を説明する他の図である。 図13は、動作例1における第2例の方法に係る生成部が処理信号を生成する処理を説明する他の図である。 図14は、実施の形態に係る音響信号処理装置の動作例2のフローチャートである。 図15は、実施の形態に係る音響信号処理装置の動作例3のフローチャートである。 図16は、実施の形態に係る音響信号処理装置の動作例4のフローチャートである。 図17は、実施の形態に係る音響信号処理装置の動作例4に係るオブジェクトである航空機を示す図である。 図18は、実施の形態に係る音響信号処理装置の動作例5に係るオブジェクトであるうちわを示す図である。 図19は、実施の形態に係る音響信号処理装置の動作例5のフローチャートである。 図20は、図2G及び図2Hのレンダリング部がパイプライン処理を行う場合を説明するための機能ブロック図及びステップの一例を示す図である。
 (本開示の基礎となった知見)
 従来、仮想空間において、ドップラー効果を発揮させるために音響信号(つまりは音信号)を処理する音響信号処理装置が知られている。
 特許文献1では、音響信号処理装置である三次元音場空間再生装置に係る技術が開示されている。この音響信号処理装置は、畳み込み演算された音響信号に、受聴者の移動速度及び音を発する音源(つまりは音を発するオブジェクト)の移動速度に基づきドップラー効果の処理を施すドップラー演算手段を備える。これにより、受聴者がドップラー効果の処理が施された音を受聴することで、受聴者は、音を発するオブジェクト(例えばサイレンを発する救急車)が移動していることを認識することができる。
 また、特許文献1には開示はないが、音を発さないオブジェクトであっても当該オブジェクトが移動することで風切り音を生じている場合、受聴者が当該風切り音を受聴することとなる。これにより、受聴者は、当該オブジェクトが移動していることをより強く認識することができる。例えば、オブジェクトが野球で用いられるバットである場合に、このオブジェクト(バット)が移動(位置の変化)したとき、つまりはバットがスイングされたときに、風切り音が生じる。受聴者は、この風切り音を受聴することで、バットがスイングされたことを認識することができる。
 このようなドップラー効果の処理が施された音及び風切り音は、仮想現実(バーチャル・リアリティ:VR(Virtual Reality))、又は、拡張現実(オーグメンテッド・リアリティ:AR(Augmented Reality))などの、ユーザが存在する空間において立体的な音を再生するためのアプリケーションにおいて、利用されている。
 ここで、音を発さず、かつ、風切り音が生じるほど高速に移動していないオブジェクトについて検討を行う。
 このようなオブジェクトであっても、空気中を移動することによって風を発生させ、当該風が受聴者に達する場合がある。この場合に、当該風が、例えば受聴者の頭部又は耳に達することで、空力音が発生する。空力音とは、仮想空間における受聴者の耳に風が到達することで生じる音でもあり、受聴者の耳又は頭部の形状に起因して生じる音でもある。受聴者が、当該空力音を受聴することによって、当該オブジェクトが移動していることを知覚する。この例について、図1及び図2Aを用いて説明する。
 図1は、受聴者Lの頭部又は耳に達することで発生する空力音を説明する図の一例である。図1が示す車両400は、例えばサイレンなどの音を発せず、かつ、風切り音が生じるほど高速に移動していない。
 このような車両400であっても、車両400が移動することによって、風Wが起こる。この風Wが受聴者Lに達した場合、例えば受聴者Lの耳の形状に応じた空力音が生じ、受聴者Lが、当該空力音を受聴することとなる。このため、受聴者Lは、車両400が移動していることを聴覚によって知覚することができる。
 図2Aは、受聴者Lの頭部又は耳に達することで発生する空力音を説明する図の他の一例である。図2Aが示す扇風機600は複数の大きな羽根601を有し、羽根601が回転している。
 この羽根601が回転しており、かつ、風切り音が生じるほど高速に回転していない場合であっても、風Wが起こる。この風Wが受聴者Lに達した場合、例えば受聴者Lの耳の形状に応じた空力音が生じ、受聴者Lが、当該空力音を受聴することとなる。このため、受聴者Lは、羽根601が回転(移動)していることを聴覚によって知覚することができる。
 このような空力音によって、受聴者Lがオブジェクト(車両400又は羽根601)が移動していることを知覚できれば、受聴者Lは、より臨場感を得ることができる。
 このように、上記風Wが、受聴者Lの頭部又は耳などに達することで発生する空力音は、特許文献1に開示される技術では、受聴者Lに出力されることは明らかになっていない。すなわち、当該空力音を出力することができない従来技術(特許文献1が示す技術)では、受聴者Lに臨場感を与えることが困難な場合がある。
 そのため、受聴者Lに臨場感を与えることができる音響信号処理方法などが求められている。
 そこで、本開示の第1態様に係る音響信号処理方法は、仮想空間における移動体であるオブジェクトの位置を示す第1位置情報、及び、前記仮想空間における受聴者の位置を示す第2位置情報を取得する取得ステップと、取得された前記第1位置情報に基づいて、前記オブジェクトの移動速度を算出する第1算出ステップと、取得された前記第1位置情報及び取得された前記第2位置情報に基づいて、前記オブジェクトと前記受聴者との距離を算出する第2算出ステップと、算出された前記移動速度及び算出された前記距離に基づいて、前記オブジェクトの移動により生じる風が前記受聴者の耳に到達することで生じる空力音を示す空力音信号を生成する生成ステップと、生成された前記空力音信号を出力する出力ステップと、を含む。
 これにより、音響信号処理方法は、仮想空間におけるオブジェクトの位置及び受聴者の位置に基づいて、オブジェクトの移動により生じる風が受聴者の耳に到達することで生じる空力音を示す空力音信号を生成し、生成された空力音信号を出力することができる。この空力音信号などがヘッドフォン又はスピーカなどに出力されることで、受聴者は当該空力音を受聴することができる。このため、受聴者は、当該オブジェクトが移動していることを知覚することができ、臨場感を得ることができる。つまりは、本開示の一態様に係る音響信号処理方法は、受聴者に臨場感を与えることができる。
 また、例えば、本開示の第2態様に係る音響信号処理方法は、前記生成ステップでは、算出された前記移動速度が大きいほど周波数成分を高周波数側にシフトさせ、かつ、算出された前記距離が小さいほど前記空力音の音量を大きくするように前記空力音信号を生成する、第1態様に係る音響信号処理方法である。
 これにより、オブジェクトの移動速度、及び、オブジェクトと受聴者との距離に応じて、受聴者が受聴する空力音を制御することができるため、受聴者は、より臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者により臨場感を与えることができる。
 また、例えば、本開示の第3態様に係る音響信号処理方法は、前記取得ステップでは、前記オブジェクトが前記空力音を生成するか否かを示す可否情報を取得し、前記生成ステップでは、取得された前記可否情報が、前記オブジェクトが前記空力音を生成することを示す場合に、前記空力音信号を生成する、第1又は第2態様に係る音響信号処理方法である。
 これにより、可否情報が、オブジェクトが空力音を生成することを示す場合のみに空力音信号が生成される。つまりは、音響信号処理方法は、可否情報が、オブジェクトが空力音を生成することを示さない場合には空力音信号を生成する必要がないため、音響信号処理方法において、空力音を発生させるための処理負荷を抑制することができる。
 また、例えば、本開示の第4態様に係る音響信号処理方法は、前記取得ステップでは、前記オブジェクトの形状を示す形状情報を取得し、前記生成ステップでは、取得された形状情報が示す前記形状、算出された前記移動速度及び算出された前記距離に基づいて、前記空力音信号を生成する、第1又は第2態様に係る音響信号処理方法である。
 これにより、空力音信号が、オブジェクトの形状、オブジェクトの移動速度、及び、オブジェクトと受聴者との距離に応じて生成されるため、より臨場感のある空力音を受聴者が受聴することができる。つまりは、音響信号処理方法は、受聴者により臨場感を与えることができる。
 また、例えば、本開示の第5態様に係る音響信号処理方法は、前記生成ステップでは、算出された前記移動速度が大きいほど周波数成分を高周波数側にシフトさせ、かつ、算出された前記距離が小さいほど前記空力音の音量を大きくするように、かつ、取得された前記形状情報に基づいて前記オブジェクトの体積が大きいほど前記空力音の音量を大きくするように前記空力音信号を生成する、第4態様に係る音響信号処理方法である。
 これにより、オブジェクトの移動速度、オブジェクトと受聴者との距離、及び、オブジェクトの体積に応じて、受聴者が受聴する空力音を制御することができるため、受聴者は、より臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者により臨場感を与えることができる。
 また、例えば、本開示の第6態様に係る音響信号処理方法は、算出された前記移動速度及び取得された前記形状情報に基づいて、前記オブジェクトが移動する場合に生じる単位時間当たりの風量を算出する第3算出ステップを含み、前記生成ステップでは、算出された前記移動速度、算出された前記距離及び算出された前記風量に基づいて、前記空力音信号を生成する、第4態様に係る音響信号処理方法である。
 これにより、空力音信号が、オブジェクトの移動速度、オブジェクトと受聴者との距離、及び、上記風量に応じて生成されるため、より臨場感のある空力音を受聴者が受聴することができる。つまりは、音響信号処理方法は、受聴者により臨場感を与えることができる。
 また、例えば、本開示の第7態様に係る音響信号処理方法は、前記生成ステップでは、算出された前記移動速度が大きいほど周波数成分を高周波数側にシフトさせ、かつ、算出された前記距離が小さいほど前記空力音の音量を大きくするように、かつ、算出された前記風量が大きいほど前記空力音の音量を大きくするように前記空力音信号を生成する、第6態様に係る音響信号処理方法である。
 これにより、オブジェクトの移動速度、オブジェクトと受聴者との距離、及び、上記風量に応じて、受聴者が受聴する空力音を制御することができるため、受聴者は、より臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者により臨場感を与えることができる。
 また、例えば、本開示の第8態様に係る音響信号処理方法は、前記生成ステップでは、算出された前記移動速度、算出された前記距離及び人の耳の形状に基づいて、前記空力音信号を生成する、第1~第7態様のいずれか1つの態様に係る音響信号処理方法である。
 これにより、空力音信号が、人の耳の形状に基づく音生成モデルに応じて生成されるため、より臨場感のある空力音を受聴者が受聴することができる。つまりは、音響信号処理方法は、受聴者により臨場感を与えることができる。
 また、例えば、本開示の第9態様に係る音響信号処理方法は、人の耳又は人の耳を模したモデルに風が到達することで生じる音が収音されたデータである空力音データが記憶される記憶ステップと、前記生成ステップでは、記憶された前記空力音データ、算出された前記移動速度及び算出された前記距離に基づいて、前記空力音信号を生成する、第1~第7態様のいずれか1つの態様に係る音響信号処理方法である。
 これにより、空力音信号が、実際に生じた音が収音されたデータに応じて生成されるため、より臨場感のある空力音を受聴者が受聴することができる。つまりは、音響信号処理方法は、受聴者により臨場感を与えることができる。
 また、例えば、本開示の第10態様に係る音響信号処理方法は、前記第3算出ステップでは、取得された前記形状情報に示される前記オブジェクトの移動方向から見た前記オブジェクトの面積、及び、算出された前記移動速度に基づいて、前記風量を算出する、第6又は第7態様に係る音響信号処理方法である。
 これにより、上記風量が、形状情報に示されるオブジェクトの移動方向から見たオブジェクトの面積、及び、移動速度に基づいて算出される。そして、空力音信号が、このような風量、オブジェクトの移動速度、及び、オブジェクトと受聴者との距離に応じて生成されるため、より臨場感のある空力音を受聴者が受聴することができる。つまりは、音響信号処理方法は、受聴者により臨場感を与えることができる。
 また、例えば、本開示の第11態様に係る音響信号処理方法は、前記第1算出ステップでは、取得された前記第1位置情報に基づいて、前記オブジェクトの前記移動速度及び移動方向を算出し、前記第3算出ステップでは、取得された前記形状情報、算出された前記移動方向、及び、算出された前記移動速度に基づいて、前記風量を算出する、第6又は第7態様に係る音響信号処理方法である。
 これにより、上記風量が、形状情報、移動方向及び移動速度に基づいて算出される。そして、空力音信号が、このような風量、オブジェクトの移動速度、及び、オブジェクトと受聴者との距離に応じて生成されるため、より臨場感のある空力音を受聴者が受聴することができる。つまりは、音響信号処理方法は、受聴者により臨場感を与えることができる。
 また、本開示の第12態様に係る音響信号処理方法は、雑音信号を複数の帯域強調フィルタのそれぞれで処理して、処理された複数の前記雑音信号の合成を行って処理することで、仮想空間における受聴者の耳に風が到達することで生じる空力音を示す空力音信号を生成する生成ステップと、生成された前記空力音信号を出力する出力ステップと、を含み、前記複数の帯域強調フィルタのそれぞれは、前記受聴者の耳又は頭部の形状に起因して生じる前記空力音を模擬するためのフィルタである。
 これにより、音響信号処理方法は、仮想空間における受聴者に、仮想空間における受聴者の耳に風が到達することで生じる空力音を示す空力音信号を生成し、生成した空力音信号を出力することができる。この空力音信号などがヘッドフォン又はスピーカなどに出力されることで、受聴者は当該空力音を受聴することができる。このため、受聴者は、仮想空間において風が吹いていることを知覚することができ、臨場感を得ることができる。つまりは、本開示の一態様に係る音響信号処理方法は、受聴者に臨場感を与えることができる。
 また、本開示の第13態様に係る音響信号処理方法は、前記複数の帯域強調フィルタは、処理された前記複数の雑音信号のうち当該帯域強調フィルタが処理した雑音信号に当該帯域強調フィルタに対応する所定の係数の乗算を行い、前記生成ステップでは、前記乗算が行われた後に、前記合成を行う、第12態様に係る音響信号処理方法である。
 これにより、音響信号処理方法により生成される空力音が、現実空間で受聴者が受聴する空力音により似た音となる。そのため、受聴者は、より臨場感を得ることができる。つまりは、本開示の一態様に係る音響信号処理方法は、受聴者により臨場感を与えることができる。
 また、本開示の第14態様に係る音響信号処理方法は、前記複数の帯域強調フィルタのそれぞれは、前記耳に到達する前記風の風速に応じて特性が変動する、第12又は第13態様に係る音響信号処理方法である。
 これにより、音響信号処理方法により生成される空力音が、現実空間で受聴者が受聴する空力音により似た音となる。そのため、受聴者は、より臨場感を得ることができる。つまりは、本開示の一態様に係る音響信号処理方法は、受聴者により臨場感を与えることができる。
 また、本開示の第15態様に係る音響信号処理方法は、前記複数の帯域強調フィルタのそれぞれは、前記耳に到達する前記風の風向に応じて特性が変動する、第12~第14のいずれか1つの態様に係る音響信号処理方法である。
 これにより、音響信号処理方法により生成される空力音が、現実空間で受聴者が受聴する空力音により似た音となる。そのため、受聴者は、より臨場感を得ることができる。つまりは、本開示の一態様に係る音響信号処理方法は、受聴者により臨場感を与えることができる。
 また、本開示の第16態様に係るコンピュータプログラムは、第1~第16のいずれか1つの態様に係る音響信号処理方法をコンピュータに実行させるためのプログラムである。
 これにより、コンピュータが、コンピュータプログラムに従って、上記の音響信号処理方法を実行することができる。
 また、本開示の第17態様に係る音響信号処理装置は、仮想空間における移動体であるオブジェクトの位置を示す第1位置情報、及び、前記仮想空間における受聴者の位置を示す第2位置情報を取得する取得部と、取得された前記第1位置情報に基づいて、前記オブジェクトの移動速度を算出する第1算出部と、取得された前記第1位置情報及び取得された前記第2位置情報に基づいて、前記オブジェクトと前記受聴者との距離を算出する第2算出部と、算出された前記移動速度及び算出された前記距離に基づいて、前記オブジェクトの移動により生じる風が前記受聴者の耳に到達することで生じる空力音を示す空力音信号を生成する生成部と、生成された前記空力音信号を出力する出力部と、を備える。
 これにより、音響信号処理装置は、仮想空間におけるオブジェクトの位置及び受聴者の位置に基づいて、オブジェクトの移動により生じる風が受聴者の耳に到達することで生じる空力音を示す空力音信号を生成し、生成された空力音信号を出力することができる。この空力音信号などがヘッドフォン又はスピーカなどに出力されることで、受聴者は当該空力音を受聴することができる。このため、受聴者は、当該オブジェクトが移動していることを知覚することができ、臨場感を得ることができる。つまりは、本開示の一態様に係る音響信号処理装置は、受聴者に臨場感を与えることができる。
 さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
 以下、実施の形態について図面を参照しながら具体的に説明する。
 なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。
 また、以下の説明において、第1及び第2等の序数が要素に付けられている場合がある。これらの序数は、要素を識別するため、要素に付けられており、意味のある順序に必ずしも対応しない。これらの序数は、適宜、入れ替えられてもよいし、新たに付与されてもよいし、取り除かれてもよい。
 また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、各図において縮尺などは必ずしも一致していない。各図において、実質的に同一の構成に対しては同一の符号を付しており、重複する説明は省略又は簡略化する。
 本明細書において、垂直などの要素間の関係性を示す用語、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数%程度の差異をも含むことを意味する表現である。
 (実施の形態)
 [本開示の音響処理技術又は符号化/復号技術を適用可能な装置例]
 (立体音響再生システム)
 図2Bは、本開示の音響処理又は復号処理が適用可能なシステムの一例である立体音響(Immersive Audio)再生システムA0000を示す図である。立体音響再生システムA0000は、音響信号処理装置A0001と音声提示装置A0002とを含む。
 音響信号処理装置A0001は、仮想音源が発した音声信号に対して音響処理を施して、リスナ(つまりは受聴者)に対して提示される音響処理後の音声信号を生成する。音声信号は声に限らず可聴音であればよい。音響処理とは、例えば、音源から発生した音が、当該音が発せられてからリスナが聴くまでの間に受ける一又は複数の音に関する作用を再現するために音声信号に対して施される信号処理である。音響信号処理装置A0001は、上述した音に関する作用を引き起こす要因を記述した情報に基づいて音響処理を実施する。空間情報は、例えば、音源、リスナ、周囲のオブジェクトの位置を示す情報、空間の形状を示す情報、音の伝搬に関するパラメータなどを含む。音響信号処理装置A0001は、例えば、PC(Personal Computer)、スマートフォン、タブレット、またはゲームコンソールなどである。
 音響処理後の信号は、音声提示装置A0002からリスナ(ユーザ)に提示される。音声提示装置A0002は、無線又は有線の通信を介して音響信号処理装置A0001と接続されている。音響信号処理装置A0001で生成された音響処理後の音声信号は、無線または有線の通信を介して音声提示装置A0002に伝送される。音声提示装置A0002が、例えば、右耳用のデバイスと左耳用のデバイスなど複数のデバイスで構成されている場合、複数のデバイス間または複数のデバイスのそれぞれと音響信号処理装置A0001が通信することで、複数のデバイスは同期して音を提示する。音声提示装置A0002は、例えば、リスナの頭部に装着されるヘッドフォン、イヤホン、ヘッドマウントディスプレイ、または固定された複数のスピーカで構成されたサラウンドスピーカーなどである。
 なお、立体音響再生システムA0000は、視覚的にAR/VRを含むER(Extended Reality)体験を提供する画像提示装置又は立体映像提示装置と組み合わせて用いられてもよい。
 なお、図2Bは、音響信号処理装置A0001と音声提示装置A0002とが別々の装置であるシステム構成例を示しているが、本開示の音響信号処理方法または復号方法が適用可能な立体音響再生システムは図2Bの構成に限定されない。例えば、音響信号処理装置A0001が音声提示装置A0002に含まれ、音声提示装置A0002が音響処理と音の提示との両方を行ってもよい。また、音響信号処理装置A0001と音声提示装置A0002とが本開示で説明する音響処理を分担して実施してもよいし、音響信号処理装置A0001又は音声提示装置A0002とネットワークを介して接続されたサーバが本開示で説明する音響処理の一部又は全体を実施してもよい。
 なお、上記説明では、音響信号処理装置A0001と呼んでいるが、音響信号処理装置A0001が音声信号又は音響処理に用いる空間情報の少なくとも一部のデータを符号化して生成されたビットストリームを復号して音響処理を実施する場合、音響信号処理装置A0001は復号装置と呼ばれてもよい。
 (符号化装置の例)
 図2Cは、本開示の符号化装置の一例である符号化装置A0100の構成を示す機能ブロック図である。
 入力データA0101はエンコーダA0102に入力される空間情報及び/又は音声信号を含む符号化対象となるデータである。空間情報の詳細については後で説明する。
 エンコーダA0102は、入力データA0101を符号化して、符号化データA0103を生成する。符号化データA0103は、例えば、符号化処理によって生成されたビットストリームである。
 メモリA0104は、符号化データA0103を格納する。メモリA0104は、例えば、ハードディスク又はSSD(Solid-State Drive)であってもよいし、その他のメモリであってもよい。
 なお、上記説明ではメモリA0104に記憶される符号化データA0103の一例として符号化処理によって生成されたビットストリームを挙げたが、ビットストリーム以外のデータであってもよい。例えば、符号化装置A0100は、ビットストリームを所定のデータフォーマットに変換して生成された変換後のデータをメモリA0104に記憶してもよい。変換後のデータは、例えば、一又は複数のビットストリームを格納したファイル又は多重化ストリームであってもよい。ここで、ファイルは、例えばISOBMFF(ISO Base Media File Formatなどのファイルフォーマットを有するファイルである。また、符号化データA0103は、上記のビットストリーム又はファイルを分割して生成された複数のパケットの形式であってもよい。エンコーダA0102で生成されたビットストリームをビットストリームとは異なるデータに変換する場合、符号化装置A0100は、図示されていない変換部を備えていてもよいし、CPU(Central Processing Unitで変換処理を行ってもよい。
 (復号装置の例)
 図2Dは、本開示の復号装置の一例である復号装置A0110の構成を示す機能ブロック図である。
 メモリA0114は、例えば、符号化装置A0100で生成された符号化データA0103と同じデータを格納している。メモリA0114は、保存されているデータを読み出し、デコーダA0112の入力データA0113として入力する。入力データA0113は、例えば、復号対象となるビットストリームである。メモリA0114は、例えば、ハードディスク又はSSDであってもよいし、その他のメモリであってもよい。
 なお、復号装置A0110は、メモリA0114が記憶しているデータをそのまま入力データA0113とするのではなく、読み出したデータを変換して生成された変換後のデータを入力データA0113としてもよい。変換前のデータは、例えば、一又は複数のビットストリームを格納した多重化データであってもよい。ここで、多重化データは、例えばISOBMFFなどのファイルフォーマットを有するファイルであってもよい。また、変換前のデータは、上記のビットストリーム又はファイルを分割して生成された複数のパケットの形式であってもよい。メモリA0114から読み出したビットストリームとは異なるデータをビットストリームに変換する場合、復号装置A0110は、図示されていない変換部を備えていてもよいし、CPUで変換処理を行ってもよい。
 デコーダA0112は、入力データA0113を復号して、リスナに提示される音声信号A0111を生成する。
 (符号化装置の別の例)
 図2Eは、本開示の符号化装置の別の一例である符号化装置A0120の構成を示す機能ブロック図である。図2Eでは、図2Cの構成と同じ機能を有する構成に図2Cの構成と同じ符号を付しており、これらの構成については説明を省略する。
 符号化装置A0100は符号化データA0103をメモリA0104に記憶していたのに対し、符号化装置A0120は符号化データA0103を外部に対して送信する送信部A0121を備える点で符号化装置A0100と異なる。
 送信部A0121は、符号化データA0103又は符号化データA0103を変換して生成した別のデータ形式のデータに基づいて送信信号A0122を別の装置又はサーバに対して送信する。送信信号A0122の生成に用いられるデータは、例えば、符号化装置A0100で説明したビットストリーム、多重化データ、ファイル、又はパケットである。
 (復号装置の別の例)
 図2Fは、本開示の復号装置の別の一例である復号装置A0130の構成を示す機能ブロック図である。図2Fでは、図2Dの構成と同じ機能を有する構成に図2Dの構成と同じ符号を付しており、これらの構成については説明を省略する。
 復号装置A0110は入力データA0113をメモリA0114から読み出していたのに対し、復号装置A0130は入力データA0113を外部から受信する受信部A0131を備える点で復号装置A0110と異なる。
 受信部A0131は、受信信号A0132を受信して受信データを取得し、デコーダA0112に入力される入力データA0113を出力する。受信データは、デコーダA0112に入力される入力データA0113と同じであってもよいし、入力データA0113とは異なるデータ形式のデータであってもよい。受信データが、入力データA0113と異なるデータ形式のデータの場合、受信部A0131が受信データを入力データA0113に変換してもよいし、復号装置A0130が備える図示されていない変換部又はCPUが受信データを入力データA0113に変換してもよい。受信データは、例えば、符号化装置A0120で説明したビットストリーム、多重化データ、ファイル、又はパケットである。
 (デコーダの機能説明)
 図2Gは、図2D又は図2FにおけるデコーダA0112の一例であるデコーダA0200の構成を示す機能ブロック図である。
 入力データA0113は符号化されたビットストリームであり、符号化された音声信号である符号化音声データと音響処理に用いるメタデータとを含んでいる。
 空間情報管理部A0201は、入力データA0113に含まれるメタデータを取得して、メタデータを解析する。メタデータは、音空間に配置された音に作用する要素を記述した情報を含む。空間情報管理部A0201は、メタデータを解析して得られた音響処理に必要な空間情報を管理し、レンダリング部A0203に対して空間情報を提供する。なお、本開示では音響処理に用いる情報が空間情報と呼ばれているが、それ以外の呼び方であってもよい。当該音響処理に用いる情報は、例えば、音響処理に用いる情報を音空間情報と呼ばれてもよいし、シーン情報と呼ばれてもよい。また、音響処理に用いる情報が経時的に変化する場合、レンダリング部A0203に入力される空間情報は、空間状態、音空間状態、シーン状態などと呼ばれてもよい。
 また、空間情報は音空間ごと又はシーンごとに管理されていてもよい。例えば、異なる部屋を仮想空間として表現する場合、それぞれの部屋が異なる音空間のシーンとして管理されてもよいし、同じ空間であっても表現する場面に応じて異なるシーンとして空間情報が管理されてもよい。空間情報の管理において、それぞれの空間情報を識別する識別子が付与されておいてもよい。空間情報のデータは、入力データの一形態であるビットストリームに含まれていてもよいし、ビットストリームが空間情報の識別子を含み、空間情報のデータはビットストリーム以外から取得してもよい。ビットストリームに空間情報の識別子のみが含まれる場合、レンダリング時に空間情報の識別子を用いて、音響信号処理装置A0001のメモリ又は外部のサーバに記憶された空間情報のデータが入力データとして取得されてもよい。
 なお、空間情報管理部A0201が管理する情報は、ビットストリームに含まれる情報に限定されない。例えば、入力データA0113は、ビットストリームには含まれないデータとして、VR又はARを提供するソフトウェアアプリケーション又はサーバから取得された空間の特性又は構造を示すデータを含んでいてもよい。また、例えば、入力データA0113は、ビットストリームには含まれないデータとして、リスナ又はオブジェクトの特性又は位置などを示すデータを含んでいてもよい。また、入力データA0113は、リスナの位置を示す情報として復号装置を含む端末が備えるセンサで取得された情報、又は、センサで取得された情報に基づいて推定された端末の位置を示す情報を含んでいてもよい。つまり、空間情報管理部A0201は外部のシステム又はサーバと通信し、空間情報及びリスナの位置を取得してもよい。また、空間情報管理部A0201が外部のシステムからクロック同期情報を取得し、レンダリング部A0203のクロックと同期する処理を実行してもよい。なお、上記の説明における空間は、仮想的に形成された空間、つまりVR空間であってもよいし、実空間(現実空間)又は実空間に対応する仮想空間、つまりAR空間又はMR(Mixed Reality)空間であってもよい。また、仮想空間は音場又は音空間と呼ばれてもよい。また、上記の説明における位置を示す情報は、空間内における位置を示す座標値などの情報であってもよいし、所定の基準位置に対する相対位置を示す情報であってもよいし、空間内の位置の動き又は加速度を示す情報であってもよい。
 音声データデコーダA0202は、入力データA0113に含まれる符号化音声データを復号して、音声信号を取得する。
 立体音響再生システムA0000が取得する符号化音声データは、例えば、MPEG-H 3D Audio(ISO/IEC 23008-3)等の所定の形式で符号化されたビットストリームである。なお、MPEG-H 3D Audioはあくまでビットストリームに含まれる符号化音声データを生成する際に利用可能な符号化方式の一例であり、他の符号化方式で符号化されたビットストリームと符号化音声データとして含んでいてもよい。例えば、用いられる符号化方式は、MP3(MPEG-1 Audio Layer-3)、AAC(Advanced Audio Coding)、WMA(Windows Media Audio)、AC3(Audio Codec―3)、Vorbisなどの非可逆コーデックであってもよいし、ALAC(Apple Lossless Audio Codec)、FLAC(Free Lossless Audio Codec)などの可逆コーデックであってもよいし、上記以外の任意の符号化方式が用いられてもよい。例えば、PCM(pulse code modulation)データが符号化音声データの一種であるとしてもよい。この場合、復号処理は、例えば、当該PCMデータの量子化ビット数がNである場合、Nビットの二進数を、レンダリング部A0203が処理できる数形式(例えば浮動小数点形式)に変換する処理としてもよい。
 レンダリング部A0203は、音声信号と空間情報とを入力とし、空間情報を用いて音声信号に音響処理を施して、音響処理後の音声信号A0111を出力する。
 空間情報管理部A0201は、レンダリングを開始する前に、入力信号のメタデータを読み込み、空間情報で規定されたオブジェクト又は音などのレンダリングアイテムを検出し、レンダリング部A0203に送信する。レンダリング開始後、空間情報管理部A0201は、空間情報及びリスナの位置の経時的な変化を把握し、空間情報を更新して管理する。そして、空間情報管理部A0201は、更新された空間情報をレンダリング部A0203に送信する。レンダリング部A0203は入力データに含まれる音声信号と、空間情報管理部A0201から受信した空間情報とに基づいて音響処理を付加した音声信号を生成し出力する。
 空間情報の更新処理と、音響処理を付加した音声信号の出力処理とが同じスレッドで実行されてもよいし、空間情報管理部A0201とレンダリング部A0203とはそれぞれ独立したスレッドに配分してもよい。空間情報の更新処理と、音響処理を付加した音声信号の出力処理とが異なるスレッドで処理される場合、スレッドの起動頻度が個々に設定されてもよいし、平行して処理が実行されてもよい。
 空間情報管理部A0201とレンダリング部A0203とが異なる独立したスレッドで処理を実行することで、レンダリング部A0203に優先的に演算資源を割り当てることができるので、僅かな遅延も許容できないような出音処理の場合、例えば、1サンプル(0.02msec)でも遅延した場合にプチっというノイズが発生するような出音処理であっても安全に実施することができる。その際、空間情報管理部A0201には演算資源の割り当てが制限される。しかし、空間情報の更新は、音声信号の出力処理と比較して、低頻度の処理(例えば、受聴者の顔の向きの更新のような処理)である。このため、音声信号の出力処理のように必ずしも瞬間的に応答しなければならないというものではないので、演算資源の割り当てを制限しても受聴者の与える音響的な品質に大きな影響はない。
 空間情報の更新は、予め設定された時間又は期間ごとに定期的に実行されてもよいし、予め設定された条件が満たされた場合に実行されてもよい。また、空間情報の更新は、リスナ又は音空間の管理者によって手動で実行されてもよいし、外部システムの変化をトリガとして実行されてもよい。例えば、受聴者がコントローラーを操作して、自身のアバターの立ち位置を瞬間的にワープしたり、時刻を瞬時に進めたり戻したり、或いは、仮想空間の管理者が、突如、場の環境を変更するような演出を施したりした場合、空間情報管理部A0201が配置されたスレッドは、定期的な起動に加えて、単発的な割り込み処理として起動されてもよい。
 空間情報の更新処理を実行する情報更新スレッドが担う役割は、例えば、受聴者が装着しているVRゴーグルの位置又は向きに基づいて、仮想空間内に配置された受聴者のアバターの位置又は向きを更新する処理、及び、仮想空間内を移動している物体の位置の更新などであり、数10Hz程度の比較的低頻度で起動する処理スレッド内で賄われるものである。そのような、発生頻度の低い処理スレッドで直接音の性質を反映させる処理が行われるようにしてもよい。それは、オーディオ出力のためのオーディオ処理フレームの発生頻度より直接音の性質が変動する頻度が低いためである。むしろそうすることで、当該処理の演算負荷を相対的に小さくすることができるし、不必要に速い頻度で情報を更新するとパルシブなノイズが発生するリスクが生じるので、そのリスクを回避することもできる。
 図2Hは、図2D又は図2FにおけるデコーダA0112の別の一例であるデコーダA0210の構成を示す機能ブロック図である。
 図2Hは、入力データA0113が、符号化音声データではなく符号化されていない音声信号を含んでいる点で図2Gと異なる。入力データA0113は、メタデータを含むビットストリームと音声信号を含む。
 空間情報管理部A0211は、図2Gの空間情報管理部A0201と同じであるため説明を省略する。
 レンダリング部A0213は、図2Gのレンダリング部A0203と同じであるため説明を省略する。
 なお、上記説明では図2Hの構成がデコーダと呼ばれているが、音響処理を実施する音響処理部と呼ばれてもよい。また、音響処理部を含む装置が復号装置ではなく音響処理装置と呼ばれてもよい。また、音響信号処理装置A0001が音響処理装置と呼ばれてもよい。
 (音響信号処理装置の物理的構成)
 図2Iは、音響信号処理装置の物理的構成の一例を示す図である。なお、図2Iの音響信号処理装置は、復号装置であってもよい。また、ここで説明する構成の一部は音声提示装置A0002に備えられていてもよい。また、図2Iに示される音響信号処理装置は、上記の音響信号処理装置A0001の一例である。
 図2Iの音響信号処理装置は、プロセッサと、メモリと、通信IFと、センサと、スピーカとを備える。
 プロセッサは、例えば、CPU(Central Processing Unit又はDSP(Digital Signal Processor)又はGPU(Graphics Processing Unit)であり、当該CPU又はDSP又はGPUがメモリに記憶されたプログラム実行することで本開示の音響処理又はデコード処理を実施してもよい。また、プロセッサは、本開示の音響処理を含む音声信号に対する信号処理を行う専用回路であってもよい。
 メモリは、例えば、RAM(Random Access Memory)又はROM(Read Only Memory)で構成される。メモリは、ハードディスクなどの磁気記憶媒体又はSSD(Solid State Drive)などの半導体メモリなどを含んでいてもよい。また、CPU又はGPUに組み込まれた内部メモリを含めてメモリと呼ばれてもよい。
 通信IF(Inter Face)は、例えば、Bluetooth(登録商標)又はWIGIG(登録商標)などの通信方式に対応した通信モジュールである。図2Iに示される音響信号処理装置は、通信IFを介して他の通信装置と通信を行う機能を有し、復号対象のビットストリームを取得する。取得したビットストリームは、例えば、メモリに格納される。
 通信モジュールは、例えば、通信方式に対応した信号処理回路とアンテナとで構成される。上記の例では、通信方式としてBluetooth(登録商標)又はWIGIG(登録商標)を例に挙げたが、LTE(Long Term Evolution)、NR(New Radio)、又はWi-Fi(登録商標)などの通信方式に対応していてもよい。また、通信IFは、上記のような無線通信方式ではなく、Ethernet(登録商標)、USB(Universal Serial Bus)、HDMI(登録商標)(High-Definition Multimedia Interface)などの有線の通信方式であってもよい。
 センサは、リスナの位置又は向きを推定するためのセンシングを行う。具体的には、センサは、リスナの頭部など身体の一部又は全体の位置、向き、動き、速度、角速度、又は加速度などのうちいずれか一つ又は複数の検出結果に基づいてリスナの位置及び/又は向きを推定し、リスナの位置及び/又は向きを示す位置情報を生成する。なお、位置情報は実空間におけるリスナの位置及び/又は向きを示す情報であってもよいし、所定の時点におけるリスナの位置及び/又は向きを基準としたリスナの位置及び/又は向きの変位を示す情報であってもよい。また、位置情報は、立体音響再生システム又はセンサを備える外部装置との相対的な位置及び/又は向きを示す情報であってもよい。
 センサは、例えば、カメラなどの撮像装置又はLiDAR(Light Detection And Ranging)などの測距装置であってもよく、リスナの頭部の動きを撮像し、撮像された画像を処理することでリスナの頭部の動きを検知してもよい。また、センサとして例えばミリ波などの任意の周波数帯域の無線を用いて位置推定を行う装置を用いてもよい。
 なお、図2Iに示される音響信号処理装置は、センサを備える外部の機器から通信IFを介して位置情報を取得してもよい。この場合、音響信号処理装置はセンサを含んでいなくてもよい。ここで、外部の機器とは、例えば図2Bで説明した音声提示装置A0002又は、リスナの頭部に装着される立体映像再生装置などである。このときセンサは、例えば、ジャイロセンサ及び加速度センサなど各種のセンサを組み合わせて構成される。
 センサは、例えば、リスナの頭部の動きの速度として、音空間内で互いに直交する3軸の少なくとも1つを回転軸とする回転の角速度を検知してもよいし、上記3軸の少なくとも1つを変位方向とする変位の加速度を検知してもよい。
 センサは、例えば、リスナの頭部の動きの量として、音空間内で互いに直交する3軸の少なくとも1つを回転軸とする回転量を検知してもよいし、上記3軸の少なくとも1つを変位方向とする変位量を検知してもよい。具体的には、センサは、リスナの位置として6DoF(位置(x、y、z)及び角度(yaw、pitch、roll)を検知する。センサは、ジャイロセンサ及び加速度センサなど動きの検知に使用される各種のセンサを組み合わせて構成される。
 なお、センサは、リスナの位置を検出できればよく、カメラ又はGPS(Global Positioning System)受信機などにより実現されてもよい。LiDAR(Laser Imaging Detection and Ranging)等を用いて自己位置推定を実施して得られた位置情報を用いてもよい。例えば、センサは、音声信号再生システムがスマートフォンにより実現される場合には、スマートフォンに内蔵される。
 また、センサには、図2Iに示される音響信号処理装置の温度を検出する熱電対などの温度センサ、及び、音響信号処理装置が備える、又は音響信号処理装置と接続されたバッテリの残量を検出するセンサなどが含まれていてもよい。
 スピーカは、例えば、振動板と、マグネット又はボイスコイル等の駆動機構とアンプとを有し、音響処理後の音声信号を音としてリスナに提示する。スピーカは、アンプを介して増幅させた音声信号(より具体的には、音の波形を示す波形信号)に応じて駆動機構を動作させ、駆動機構によって振動板を振動させる。このようにして、音声信号に応じて振動する振動板は、音波を発生させ、音波が空気を伝搬してリスナの耳に伝達し、リスナが音を知覚する。
 なお、ここでは図2Iに示される音響信号処理装置がスピーカを備え、当該スピーカを介して音響処理後の音声信号を提示する場合を例に挙げて説明したが、音声信号の提示手段は上記の構成に限定されない。例えば、通信モジュールで接続された外部の音声提示装置A0002に音響処理後の音声信号が出力されてもよい。通信モジュールで行う通信は有線でも無線でもよい。また別の例として、図2Iに示される音響信号処理装置が音声のアナログ信号を出力する端子を備え、端子にイヤホンなどのケーブルを接続してイヤホンなどから音声信号を提示してもよい。上記の場合、音声提示装置A0002であるリスナの頭部又は体の一部に装着されるヘッドフォン、イヤホン、ヘッドマウントディスプレイ、ネックスピーカー、ウェアラブルスピーカー、又は固定された複数のスピーカで構成されたサラウンドスピーカーなどが音声信号を再生する。
 (符号化装置の物理的構成)
 図2Jは、符号化装置の物理的構成の一例を示す図である。また、図2Jに示される符号化装置は、上記の符号化装置A0100及びA0120などの一例である。
 図2Jの符号化装置は、プロセッサと、メモリと、通信IFとを備える。
 プロセッサは、例えば、CPU(Central Processing Unit又はDSP(Digital Signal Processor)であり、当該CPU又はGPUがメモリに記憶されたプログラム実行することで本開示の符号化処理を実施してもよい。また、プロセッサは、本開示の符号化処理を含む音声信号に対する信号処理を行う専用回路であってもよい。
 メモリは、例えば、RAM(Random Access Memory)又はROM(Read Only Memory)で構成される。メモリは、ハードディスクなどの磁気記憶媒体又はSSD(Solid State Drive)などの半導体メモリなどを含んでいてもよい。また、CPU又はGPUに組み込まれた内部メモリを含めてメモリと呼ばれてもよい。
 通信IF(Inter Face)は、例えば、Bluetooth(登録商標)又はWIGIG(登録商標)などの通信方式に対応した通信モジュールである。符号化装置は、通信IFを介して他の通信装置と通信を行う機能を有し、符号化されたビットストリームを送信する。
 通信モジュールは、例えば、通信方式に対応した信号処理回路とアンテナとで構成される。上記の例では、通信方式としてBluetooth(登録商標)又はWIGIG(登録商標)を例に挙げたが、LTE(Long Term Evolution)、NR(New Radio)、又はWi-Fi(登録商標)などの通信方式に対応していてもよい。また、通信IFは、上記のような無線通信方式ではなく、Ethernet(登録商標)、USB(Universal Serial Bus)、HDMI(登録商標)(High-Definition Multimedia Interface)などの有線の通信方式であってもよい。
 [構成]
 そして、実施の形態に係る音響信号処理装置100の構成について説明する。図3Aは、本実施の形態に係る音響信号処理装置100の機能構成を示すブロック図である。
 本実施の形態に係る音響信号処理装置100は、仮想空間(音再生空間)におけるオブジェクトの移動により生じる風Wが受聴者Lの耳に到達することで生じる空力音を示す空力音信号を生成して出力するための装置である。なお、空力音とは、仮想空間における受聴者Lの耳に風Wが到達することで生じる音でもあり、受聴者Lの耳又は頭部の形状に起因して生じる音でもある。本実施の形態に係る音響信号処理装置100は、一例として仮想現実又は拡張現実(VR/AR)などの仮想空間における様々なアプリケーションに応用される装置である。
 仮想空間におけるオブジェクトは、当該仮想空間内で実行されるコンテンツ(ここでは一例として映像)を表示する表示部300に表示される当該コンテンツに含まれるものであれば、特に限定されない。当該オブジェクトは、移動体であり、例えば、動植物、人工物又は自然物などを示すオブジェクトを含む。人工物を示すオブジェクトの例として、車両、自転車及び航空機などが挙げられる。また、人工物を示すオブジェクトの例として、野球用のバット及びテニス用のラケットなどのスポーツ用品と、机、椅子、扇風機及び柱時計などの家具と、集合住宅及び商業施設などの建築物と、などが挙げられる。なお、オブジェクトは、一例としては、当該コンテンツ内にて移動し得るもの、及び、移動され得るもののうち少なくとも一方であるとよいがこれに限られない。なお、図2Aが示す扇風機600は、天井に設置され扇風機600自体が移動しなくても、扇風機600の羽根601が移動する。このような扇風機600も、当該オブジェクトに含まれる。
 また、本実施の形態に係る空力音とは、仮想空間内において、当該オブジェクトの移動により生じる風Wが受聴者Lの耳に到達することで生じる音である。より具体的には、空力音とは、当該オブジェクトの移動による空気の移動によって生じる風Wに起因する音である。また、耳とは、耳介及び外耳の少なくとも一方を意味する。
 音響信号処理装置100は、仮想空間における空力音を示す空力音信号を生成して、ヘッドフォン200に出力する。
 次に、ヘッドフォン200について説明する。
 ヘッドフォン200は、空力音を再生する装置であり、音声出力装置である。より具体的には、ヘッドフォン200は、音響信号処理装置100によって出力された空力音信号に基づいて、空力音を再生する。これにより受聴者Lは、空力音を受聴することができる。なお、ヘッドフォン200にかえて、スピーカなど他の出力チャンネルが用いられてもよい。
 図3Aが示すように、ヘッドフォン200は、頭部センサ部201と、出力部202とを備える。
 頭部センサ部201は、仮想空間における水平面の座標及び垂直方向の高さで定められる受聴者Lの位置をセンシングして、仮想空間における受聴者Lの位置を示す第2位置情報を音響信号処理装置100に出力する。
 頭部センサ部201は、受聴者Lの頭部の6DoF(Degrees of Freedom)の情報をセンシングするとよい。例えば、頭部センサ部201は、慣性測定ユニット(IMU:Inertial Measurement Unit)、加速度計、ジャイロスコープ、磁気センサ又はこれらの組合せであるとよい。
 出力部202は、音再生空間において受聴者Lに到達する音を再生する装置である。より具体的には、出力部202は、音響信号処理装置100によって処理されかつ音響信号処理装置100から出力された上記空力音を示す空力音信号に基づいて、上記空力音を再生する。
 続いて、表示部300について説明する。
 表示部300は、仮想空間におけるオブジェクトを含むコンテンツ(映像)を表示する表示装置である。表示部300がコンテンツを表示するための処理については、後述する。表示部300は、例えば、液晶パネル又は有機EL(Electro Luminescence)パネルなどの表示パネルによって実現される。
 さらに、図3Aが示す音響信号処理装置100について説明する。
 図3Aが示すように、音響信号処理装置100は、取得部110と、算出部120と、生成部130と、出力部140と、記憶部150とを備える。
 取得部110は、例えば入力信号から第1位置情報及び第2位置情報を取得する。入力信号については、下記にて説明する。第1位置情報とは、仮想空間におけるオブジェクトの位置を示す情報である。第2位置情報とは、上記の通り、仮想空間における受聴者Lの位置を示す情報である。なお、取得部110は入力信号以外から第1位置情報及び第2位置情報を取得してもよい。
 また、取得部110は、さらに、可否情報を取得してもよく、形状情報を取得してもよい。可否情報とは、オブジェクトが空力音を生成するか否かを示す情報である。形状情報とは、オブジェクトの形状を示す情報である。
 本実施の形態においては、取得部110は、第1位置情報、可否情報及び形状情報を音響信号処理装置100以外の装置(ここでは、例えばクラウドサーバなどのサーバ装置500)から取得するがこれに限られない。また、取得部110は、第2位置情報をヘッドフォン200(より具体的には、頭部センサ部201)から取得するがこれに限られない。
 入力信号は、例えば、空間情報とセンサ情報と音データ(音声信号)とで構成される。また、上記の情報と音データとは1つの入力信号に含まれていてもよいし、複数の別々の信号に上述の情報と音データとが含まれていてもよい。入力信号は、音データとメタデータ(制御情報)とで構成されるビットストリームを含んでいてもよく、その場合メタデータに空間情報及び音データを識別する情報が含まれていてもよい。
 上記で説明した、第1位置情報、第2位置情報、形状情報、可否情報は入力信号に含まれていてもよく、それ以外に含まれていてもよい。より具体的には、第1情報、形状情報、可否情報は空間情報に含まれていてもよく、第2情報はセンサ情報から取得される情報に基づいて生成されてもよい。センサ情報は、頭部センサ部201から取得されてもよく、他の外部装置から取得されてもよい。
 空間情報は、立体音響再生システムが作り出す音空間(三次元音場)に関する情報であって、音空間に含まれるオブジェクトに関する情報とリスナに関する情報とで構成される。オブジェクトには、音を発し音源となる音源オブジェクトと、音を発しない非発音オブジェクトとが存在する。非発音オブジェクトは、音源オブジェクトが発した音を反射する障害物オブジェクトとして機能するが、音源オブジェクトが別の音源オブジェクトが発した音を反射する障害物オブジェクトとして機能する場合もある。障害物オブジェクトは反射オブジェクトと呼ばれてもよい。
 音源オブジェクトと非発音オブジェクトとに共通して付与される情報として、位置情報、形状情報、及び、オブジェクトが音を反射する際の音量の減衰率などがある。
 位置情報は、ユークリッド空間の例えばX軸、Y軸、Z軸の3軸の座標値で表されるが、必ずしも三次元情報でなくてもよい。位置情報は、例えば、X軸、Y軸の2軸の座標値で表される二次元情報であってもよい。オブジェクトの位置情報は、メッシュ又はボクセルで表現される形状の代表位置で定められる。
 形状情報は、表面の素材に関する情報を含んでいてもよい。
 減衰率は、1以下又は0以上の実数で表現してもよいし、マイナスのデシベル値で表現してもよい。実空間では反射によって音量が増幅することはないため、減衰率はマイナスのデシベル値が設定されるが、例えば、非現実空間の不気味さを演出するために、あえて1以上の減衰率、すなわち、プラスのデシベル値が設定されてもよい。また、減衰率は、複数の周波数帯域を構成する周波数帯域毎に異なる値が設定されてもよいし、周波数帯域毎に独立に値が設定されてもよい。また、減衰率がオブジェクト表面の素材の種類ごとに設定されている場合、表面の素材に関する情報に基づいて対応する減衰率の値が用いられてもよい。
 また、音源オブジェクトと非発音オブジェクトとに共通して付与される情報は、オブジェクトが生物に属するか否かを示す情報又は、オブジェクトが動体であるか否かを示す情報などを含んでいてもよい。オブジェクトが動体である場合、位置情報は時間とともに移動してもよく、変化した位置情報又は変化量がレンダリング部A0203及びA0213に伝送される。
 音源オブジェクトに関する情報は、上述した音源オブジェクトと非発音オブジェクトとに共通して付与される情報に加えて、音データと音データを音空間内に放射するために必要な情報とを含む。音データは、音の周波数及び強弱に関する情報などを示す、リスナに知覚される音が表現されたデータである。音データは、典型的にはPCM信号であるが、MP3等の符号化方式を用いて圧縮されたデータであってもよい。その場合は、少なくとも当該信号が生成部130に到達するまでに復号化される必要があるため、レンダリング部A0203及びA0213に図示しない復号部を含んでいてもよい。或いは、当該信号は、音声データデコーダA0202で復号化してもよい。
 1つの音源オブジェクトに対して少なくとも1つの音データが設定されていればよく、複数の音データが設定されていてもよい。また、それぞれの音データを識別する識別情報が付与され、音源オブジェクトに関する情報として、音データの識別情報がメタデータとして保持されてもよい。
 音データを音空間内に放射するために必要な情報として、例えば、音データを再生する際に基準となる基準音量の情報、音源オブジェクトの位置に関する情報、音源オブジェクトの向きに関する情報、及び、音源オブジェクトが発する音の指向性に関する情報などが含まれていてもよい。
 基準音量の情報は、例えば、音データを音空間に放射する際の音源位置における音データの振幅値の実効値であって、デシベル(db)値として浮動小数点で表されてもよい。例えば基準音量が0dbの場合、基準音量の情報は、音データが示す信号レベルの音量を増減させることなくそのままの音量で上記位置に関する情報が指し示す位置から音空間に対して音を放射することを示しているものとしてもよい。基準音量の情報は、-6dbの場合、音データが示す信号レベルの音量を約半分にして上記位置に関する情報が指し示す位置から音空間に対して音を放射することを示しているものとしてもよい。基準音量の情報は、1つの音データに対して又は複数の音データに対してまとめて付与されてもよい。
 音データを音空間内に放射するために必要な情報に含まれる音量の情報として、例えば、音源の音量の時系列的な変動を示す情報が含まれていてもよい。例えば、音空間が仮想会議室であり、音源が話者である場合、音量は短い時間で断続的に遷移する。それをさらに単純に表現すれば、有音部分と無音部分とが交互に発生する、とも言える。また、音空間がコンサートホールであり、音源が演奏者である場合、音量は一定の時間長維持される。また、音空間が戦場であり、音源が爆発物である場合、爆発音の音量は一瞬だけ大となり以降は無音であり続ける。このように音源の音量の情報は、音の大きさの情報のみならず、音の大きさの遷移の情報を含むものであり、そのような情報を音データの性質を示す情報としてもよい。
 ここで、音の大きさの遷移の情報は、周波数特性を時系列に示したデータであってもよい。音の大きさの遷移の情報は、有音である区間の継続時間長を示したデータであってもよい。音の大きさの遷移の情報は、有音である区間の継続時間長と無音である区間の時間長との時系列を示したデータであってもよい。音の大きさの遷移の情報は、音信号の振幅が定常的であるとみなせる(概ね一定であるとみなせる)継続時間とその間の当該信号の振幅値のデータとを複数組時系列で列挙したデータなどであってもよい。音の大きさの遷移の情報は、音信号の周波数特性が定常的であるとみなせる継続時間のデータであってもよい。音の大きさの遷移の情報は、音信号の周波数特性が定常的であるとみなせる継続時間とその間の当該周波数特性のデータとを複数組時系列で列挙したデータなどであってもよい。音の大きさの遷移の情報は、データの形式として例えば、スペクトログラムの概形を示すデータであってもよい。また、上記周波数特性の基準となる音量を上記基準音量としてもよい。基準音量の情報と音データの性質とを示す情報は、リスナに知覚させる直接音又は反射音の音量を算出する他、リスナに知覚させるか否か選択をするための選択処理に用いられてもよい。
 向きに関する情報は、典型的には、yaw、pitch、rollで表現される。または、rollの回転を省略し、アジマス(yaw)、エレベーション(pitch)で表現してもよい。向き情報は時間とともに変化してもよく、変化した場合、レンダリング部A0203及びA0213に伝送される。
 リスナに関する情報は、音空間におけるリスナの位置情報と向きとに関する情報である。位置情報はユークリッド空間のXYZ軸の位置で表されるが、必ずしも三次元情報でなくてもよく、二次元情報であってもよい。向きに関する情報は、典型的には、yaw、pitch、rollで表現される。または、向きに関する情報は、rollの回転を省略し、アジマス(yaw)、エレベーション(pitch)で表現してもよい。位置情報と向き情報とは時間とともに変化してもよく、変化した場合、レンダリング部A0203及びA0213に伝送される。
 センサ情報は、リスナが装着するセンサで検知された回転量又は変位量等とリスナの位置及び向きとを含む情報である。センサ情報はレンダリング部A0203及びA0213に伝送され、レンダリング部A0203及びA0213はセンサ情報に基づいてリスナの位置及び向きの情報を更新する。センサ情報は、例えば携帯端末がGPS、カメラ、又はLiDAR(Laser Imaging Detection and Ranging)等を用いて自己位置推定を実施して得られた位置情報が用いられてもよい。またセンサ以外から、通信モジュールを通じて外部から取得した情報がセンサ情報として検出されてもよい。センサから、音響信号処理装置100の温度を示す情報、及び、バッテリの残量を示す情報が、センサ情報として、取得されてもよい。音響信号処理装置100又は音声提示装置A0002の演算資源(CPU能力、メモリ資源、PC性能)を示す情報などがセンサ情報として、リアルタイムで取得されてもよい。
 ここで、第1位置情報、第2位置情報、可否情報及び形状情報についてさらに具体的に説明する。
 まずは、第1位置情報について説明する。
 上記の通り、仮想空間におけるオブジェクトは、表示部300に表示されるコンテンツ(映像)に含まれるものであり、当該コンテンツ内にて移動し得るもの、及び、移動され得るもののうち少なくとも一方であるとよい。例えば、仮想空間におけるオブジェクトは、図1が示す車両400である。
 第1位置情報は、仮想空間における車両400が、ある時点において、仮想空間内のどの位置にあるのかを示す情報である。なお、仮想空間においては、運転手が運転することで車両400は移動する可能性がある。このため、取得部110は、継続的に第1位置情報を取得する。取得部110は、例えば、空間情報管理部A0201及びA0211で実行される空間情報の更新ごとに第1位置情報を取得する。
 続いて、第2位置情報について説明する。
 受聴者Lは、仮想空間において移動し得る。第2位置情報は、仮想空間における受聴者Lが、ある時点において、仮想空間内のどの位置に居るのかを示す情報である。なお、受聴者Lは仮想空間において移動することができるため、取得部110は継続的に第2位置情報を取得する。取得部110は、例えば、空間情報管理部A0201及びA0211で実行される空間情報の更新ごとに第2位置情報を取得する。
 次に、形状情報について説明する。
 形状情報は、仮想空間におけるオブジェクト(例えば車両400)の形状を示す情報である。形状情報は、オブジェクトの形状を示し、より具体的には、オブジェクトの剛体として三次元形状を示す。オブジェクトの形状は、例えば、球体、直方体、立方体、多面体、円錐、角錐、円柱、角柱など、またこれらの組み合わせなどにより示される。なお、形状情報は、例えばメッシュデータ、又は、例えばボクセル、三次元点群もしくは三次元座標を持つ頂点からなる複数の面の集合として表現されてもよい。
 さらに可否情報について説明する。
 可否情報は、オブジェクト(例えば車両400)が空力音を生成するか否かを示す情報である。つまり、可否情報には、当該空力音を生成すること、又は、当該空力音を生成しないことが示されている。例えば、可否情報が当該空力音を生成することを示す場合にはフラグとして「1」が示され、可否情報が当該空力音を生成しないことを示す場合にはフラグとして「0」が示される。可否情報は、フラグ情報であるとも言え、オブジェクトに係るメタデータの一例である。
 可否情報は、オブジェクトが空力音を生成するか否かについては、可否情報が示すオブジェクトに応じて、予め決定されている。例えば、可否情報が真を示すか偽を示すかについては、表示部300に示されるコンテンツ(映像)の管理者などによって、予め定められていてもよい。また、図3Aで図示しない選択部が音響信号処理装置100に含まれていてもよく、可否情報に基づいてオブジェクトが空力音を生成するか否かの選択(選択処理)が、選択部で実行されてもよい。また、空力音以外の、他の音の生成に係る音響信号処理装置100全体の演算負荷を考慮して選択処理が実行されてもよい。また、空力音に予め優先順位を設定しておき優先順位の情報が可否情報に含まれてもよい。例えば、音響信号処理装置100の処理能力又は音空間の生成に係る全体の演算負荷を考慮して優先順位が低い空力音を生成しないことが選択されてもよい。また、音響信号処理装置100の処理能力と全体の演算負荷を比較して、音響信号処理装置100の処理能力に余裕がない場合には、可否情報が真となっていても空力音を生成しないことを選択してもよい。また、オブジェクトに、空力音以外の音源情報と、真を示す可否情報との両方が付与されている場合、処理能力に余裕がないときは、音源の生成を優先し、空力音を生成することが選択されないようにしてもよいし、音源の生成と空力音の生成とのいずれを優先させるかを予め設定した情報が可否情報に含まれていてもよい。
 ここで選択部の処理の流れの例示(動作例)を図3Bに示す。図3Bは、本実施の形態に係る選択部の動作例のフローチャートである。まず、選択部は入力信号を解析し、入力信号に可否情報が含まれるか否かを特定する(S100)。空力音を生成するか否かの選択に音響信号処理装置100の処理能力又は演算負荷を考慮する場合、このステップS100で、それらの情報を取得してもよい。次に、選択部は、可否情報又は音響信号処理装置の処理能力又は演算負荷に基づいて、空力音を生成する選択(空力音の選択)をするか否かを決定する(S110)。
 なお、選択部において、空力音の選択処理だけでなく、他の音の選択処理を実行してもよい。
 なお、第1位置情報にはオブジェクトを識別するための識別情報が含まれ、可否情報にもオブジェクトを識別するための識別情報が含まれ、形状情報にもオブジェクトを識別するための識別情報が含まれている。
 このため、取得部110が第1位置情報、可否情報及び形状情報を別個で取得したとしても、第1位置情報、可否情報及び形状情報のそれぞれに含まれる識別情報が参照されることで、第1位置情報、可否情報及び形状情報のそれぞれが示すオブジェクトが識別される。例えばここでは、第1位置情報、可否情報及び形状情報のそれぞれが示すオブジェクトが、同一の車両400であることが容易に識別することができる。つまり、取得部110が取得した第1位置情報、可否情報及び形状情報のそれぞれは、3つの識別情報が参照されることで当該第1位置情報、当該可否情報及び当該形状情報が車両400に係る情報であることが明らかになる。従って、当該第1位置情報、当該可否情報及び当該形状情報は車両400について示す情報として紐づけられる。
 なお、上記の第1位置情報、可否情報及び形状情報などは、入力信号に含まれるメタデータ、制御情報又はヘッダ情報に含まれていてもよい。つまり、音響信号処理装置100(より具体的には、取得部110)は、入力信号に含まれるメタデータ、制御情報又はヘッダ情報を取得し、メタデータ、制御情報又はヘッダ情報に基づいて音響処理を行ってもよい。なお、音響信号処理装置100(より具体的には、取得部110)は、上記の第1位置情報、可否情報及び形状情報を取得すればよく、取得先は入力信号に限定されない。
 また、入力信号に含まれるオーディオコンテンツ情報(音声信号)は、MPEG-H 3D Audio(ISO/IEC 23008-3)(以下、MPEG-H 3D Audioと記載)などの符号化処理が施されているとよい。また、符号化処理に用いる技術はMPEG-H 3D Audioに限られず、公知の他の技術が用いられてもよい。また、音声信号以外の第1位置情報、可否情報及び形状情報などの情報を符号化処理対象としてもよい。つまり、音響信号処理装置100は、符号化されたビットストリームに含まれる音声信号及びメタデータを取得する。音響信号処理装置100においては、オーディオコンテンツ情報が取得されて復号される。本実施の形態においては、音響信号処理装置100は、復号装置が備えるデコーダとして機能し、より具体的には、当該デコーダが有するレンダリング部A0203及びA0213として機能する。なお、本開示におけるオーディオコンテンツ情報又は音データという用語は、技術内容に即して、音声信号そのものや、形状情報又は可否情報を含む情報として読み替えて解釈するものとする。
 また、第2位置情報も符号化処理が施されているとよい。つまり、取得部110は、第2位置情報を取得して復号する。
 取得部110は、取得した第1位置情報及び第2位置情報を算出部120に出力する。また、取得部110が可否情報を取得した場合には、取得部110は、取得した可否情報を生成部130又は図示しない選択部に出力する。また、取得部110が形状情報を取得した場合には、取得部110は、取得した形状情報を算出部120及び生成部130に出力する。
 算出部120は、オブジェクトの移動速度、オブジェクトと受聴者Lとの距離、及び、オブジェクトが移動する場合に生じる単位時間当たりの風量などを算出する。算出部120は、第1算出部121、第2算出部122及び第3算出部123を有する。
 第1算出部121は、取得部110によって取得された第1位置情報に基づいて、オブジェクトの仮想空間における移動速度を算出する。上記の通り、取得部110は、仮想空間におけるオブジェクトの位置を示す第1位置情報を空間情報管理部A0201及びA0211で実行される空間情報の更新ごとに取得している。第1算出部121は、空間情報管理部A0201及びA0211で実行される空間情報の更新ごとに取得された第1位置情報(より具体的には、複数の第1位置情報)に基づいて、仮想空間においてオブジェクトの位置を時間で微分することにより、オブジェクトの仮想空間における移動速度を算出する。第1算出部121は、算出された移動速度を、生成部130に出力する。
 また、第2算出部122は、取得部110によって取得された第1位置情報及び第2位置情報に基づいて、オブジェクトと受聴者Lとの距離を算出する。上記の通り、取得部110は仮想空間における第1位置情報及び第2位置情報を空間情報管理部A0201及びA0211で実行される空間情報の更新ごとに取得している。第2算出部122は、空間情報管理部A0201及びA0211で実行される空間情報の更新ごとに取得された複数の第1位置情報及び複数の第2位置情報に基づいて、仮想空間においてオブジェクトと受聴者Lとの距離を算出する。第2算出部122は、算出されたオブジェクトと受聴者Lとの距離を、生成部130に出力する。
 また、取得部110が形状情報を取得している場合には、第3算出部123は、第1算出部121によって算出された移動速度及び取得部110によって取得された形状情報に基づいて、オブジェクトが移動する場合に生じる単位時間当たりの風量を算出する。
 生成部130は、第1算出部121によって算出された移動速度、及び、第2算出部122によって算出された距離に基づいて、オブジェクトの移動により生じる風Wが受聴者Lの耳に到達することで生じる空力音を示す空力音信号を生成する。生成部130は、生成した空力音信号を出力部140に出力する。
 出力部140は、生成部130によって生成された空力音信号を出力する。ここでは、出力部140は、空力音信号をヘッドフォン200に出力する。これにより、ヘッドフォン200は、出力された空力音信号が示す空力音を再生することができる。
 記憶部150は、取得部110、算出部120、生成部130及び出力部140が実行するコンピュータプログラムなどが記憶される記憶装置である。
 ここで、本実施の形態に係る形状情報について再度説明する。形状情報は、仮想空間におけるオブジェクトの映像の生成のために用いられる情報であってオブジェクト(車両400)の形状を示す情報でもある。つまり、形状情報は、表示部300に表示されるコンテンツ(映像)を生成するためにも用いられる情報である。
 取得部110は、取得した形状情報を表示部300にも出力する。表示部300は、取得部110によって出力された形状情報を取得する。表示部300は、さらに、オブジェクト(車両400)の仮想空間における形状以外の属性(色彩など)を示す属性情報を取得する。表示部300は、属性情報を、音響信号処理装置100以外の装置(サーバ装置500)から直接取得してもよく、音響信号処理装置100から取得してもよい。表示部300は、取得した形状情報及び属性情報に基づいて、コンテンツ(映像)を生成して、表示する。
 以下、音響信号処理装置100によって行われる音響信号処理方法の動作例1~動作例5について説明する。
 [動作例1]
 図4は、本実施の形態に係る音響信号処理装置100の動作例1のフローチャートである。
 はじめに、取得部110は、仮想空間における移動体であるオブジェクトの位置を示す第1位置情報、仮想空間における受聴者Lの位置を示す第2位置情報、及び、オブジェクトが空力音を生成するか否かを示す可否情報を取得する(S10)。なお、このステップS10が取得ステップに相当する。
 また、動作例1においては、形状情報が用いられないため、ステップS10において取得部110は、形状情報を取得しない。
 また、取得部110は、継続的に、より具体的には空間情報管理部A0201及びA0211で実行される空間情報の更新ごとに第1位置情報及び第2位置情報を取得する。つまり、空間情報管理部A0201及びA0211で実行される空間情報の更新ごとに取得部110が第1位置情報及び第2位置情報を取得する処理が繰り返される。取得部110は、第1位置情報及び第2位置情報を取得するごとに当該第1位置情報及び当該第2位置情報を算出部120に出力、又は、一定数の第1位置情報及び第2位置情報を取得したのちに当該一定数の第1位置情報及び当該一定数の第2位置情報をまとめて算出部120に出力する。つまり、取得部110は、複数の第1位置情報及び複数の第2位置情報を算出部120に出力する。また、取得部110は、取得した可否情報を生成部130又は図示しない選択部に出力する。
 次に、算出部120(より具体的には、第1算出部121)は、取得部110によって取得された第1位置情報に基づいて、オブジェクトの仮想空間における移動速度を算出する(S20)。なお、このステップS20が第1算出ステップに相当する。第1算出部121は、算出された移動速度を生成部130に出力する。
 次に、算出部120(より具体的には、第2算出部122)は、取得部110によって取得された第1位置情報及び取得された第2位置情報に基づいて、オブジェクトと受聴者Lとの距離を算出する(S30)。なお、このステップS30が第2算出ステップに相当する第2算出部122は、算出された移動速度を生成部130に出力する。
 続いて、生成部130は、取得部110によって取得された可否情報が、オブジェクトが空力音を生成することを示すか否かを判断する(S40)。
 可否情報が、オブジェクトが空力音を生成しないことを示す場合に(ステップS40でNo)、音響信号処理装置100は、動作を終了する。また、可否情報が、オブジェクトが空力音を生成することを示す場合に(ステップS40でYes)、生成部130は、空力音信号を生成する(S50)。より具体的には、生成部130は、第1算出部121によって算出された移動速度、及び、第2算出部122によって算出された距離に基づいて、オブジェクトの移動により生じる風Wが受聴者Lの耳に到達することで生じる空力音を示す空力音信号を生成する。なお、このステップS50が生成ステップに相当する。
 そして、出力部140は、生成部130によって生成された空力音信号を出力する(S60)。なお、ステップS60が出力ステップに相当する。ここでは、出力部140は、空力音信号をヘッドフォン200に出力する。これにより、ヘッドフォン200は、出力された空力音信号が示す空力音を再生することができる。
 ここで、ステップS50において、生成部130が空力音信号を生成する方法として、以下の第1例及び第2例について説明する。
 <第1例>
 まずは、第1例について説明する。第1例においては、生成部130は、移動速度、及び、距離に加えて、空力音データに基づいて、空力音信号を生成する。
 図5及び図6は、図4が示すステップS50において生成部130が空力音信号を生成する第1例の方法を示すフローチャートである。
 図5が示すように、生成部130が第1例の方法で空力音信号を生成する場合には、ステップS10の前に、空力音データが記憶部150に記憶される(S70)。そして、上記の通りステップS10~S40が行われた後、図6が示すように、生成部130は、記憶部150に記憶された空力音データ、第1算出部121によって算出された移動速度及び第2算出部122によって算出された距離に基づいて、空力音信号を生成する(S51)。
 より具体的には、ステップS51において、生成部130は、まず、記憶部150に記憶されている空力音データを取得する(S511)。
 空力音データとは、人の耳又は人の耳を模したモデルに風Wが到達することで生じる音が収音されたデータである。本動作例では、空力音データは、人の耳を模したモデルに風Wが到達することで生じる音が収音されたデータである。
 ここで空力音データについて図7及び図8を用いて説明する。図7は、動作例1における第1例の方法に係る空力音データを収音するためのダミーヘッドマイク10を示す模式図である。図8は、動作例1における第1例の方法に係る空力音データを収音するためのダミーヘッドマイク20を示す模式図である。
 図7が示すダミーヘッドマイク10は、ダミーヘッド11と、ダミーヘッド11の両耳のそれぞれに設けられたマイクロフォン12及び13とを備えている。また、図8が示すダミーヘッドマイク20は、簡易型のダミーヘッドマイクであり、人体の耳を模した模型にマイクロフォンが設けられている。このようなダミーヘッドマイク10及び20に、例えば扇風機50から風Wが放射されることで、ダミーヘッドマイク10及び20は、風Wが受聴者Lの耳に到達することで生じる空力音を収音することができる。空力音データとは、この収音された空力音を示すデータ(音信号)である。
 そして、生成部130は、算出された移動速度が大きいほど周波数成分を高周波数側にシフトさせ、かつ、算出された距離が小さいほど空力音の音量を大きくするように空力音信号を生成する(S512)。つまり生成された空力音信号は、算出された移動速度が大きいほど周波数成分を高周波数側にシフトさせられた信号であって、算出された距離が小さいほど空力音の音量を大きくする信号である。
 より具体的には、生成部130は、空力音データに基づいて、第1算出部121によって算出された移動速度が大きいほど周波数成分を高周波数側にシフトさせた空力音信号を生成する。ここでは、生成部130は、移動速度が大きいほど、空力音データが含む周波数成分の周波数を高周波数側にシフトさせた空力音信号を生成する。例えば、生成部130は、ある周波数成分の周波数に、移動速度に応じた値を乗算することで、周波数を高周波数側にシフトさせる。
 また、さらに生成部130は、空力音データに基づいて、第2算出部122によって算出された距離が小さいほど空力音の音量を大きくするように空力音信号を生成する。例えば所定の距離が記憶部150に記憶されており、生成部130は、当該所定の距離より算出された距離が小さいほど空力音の音量が大きくなるように、当該所定の距離より算出された距離が大きいほど空力音の音量が小さくなるように、空力音信号を生成する。また例えば、生成部130は、空力音の音量が、当該距離のa(aは定数)乗で減衰するように空力音信号を生成する。
 第1例においては、生成部130は、周波数成分を高周波数側にシフトする上記処理と、空力音の音量を大きくする上記処理との両方を行うが、少なくとも一方を行ってもよい。
 また、第1例においては、空力音データは、人の耳を模したモデルに風Wが到達することで生じる音が収音されたデータであったが、人の耳に風Wが到達することで生じる音が収音されたデータであってもよい。この場合、人の両耳のそれぞれにマイクロフォンが設けられ、例えば扇風機50から風Wが放射されることで、当該マイクロフォンが、風Wが受聴者Lの耳に到達することで生じる空力音を収音するとよい。空力音データとは、この収音された空力音を示すデータ(音信号)である。
 <第2例>
 続いて、生成部130が空力音信号を生成する第2例の方法について、説明する。
 図9は、図4が示すステップS50において生成部130が空力音信号を生成する第2例の方法を示すフローチャートである。
 上記の通りステップS40が行われた後、図9が示すように、生成部130は、空力音信号を生成する(S52)。ここでは、生成部130は、第1算出部121によって算出された移動速度、第2算出部122によって算出された距離及び人の耳の形状に基づいて、空力音信号を生成する。
 より、具体的には、ステップS52において、まず、生成部130は、第1算出部121によって算出された移動速度及び人の耳の形状に基づいて、処理信号を生成する(S521)。
 このステップS521では、以下の処理が行われる。生成部130は、雑音信号を複数の帯域強調フィルタのそれぞれで処理して、処理された複数の雑音信号のうち当該帯域強調フィルタが処理した雑音信号に当該帯域強調フィルタに対応する所定の係数を乗算する(S521a)。そして、生成部130は、所定の係数が乗算された複数の雑音信号を合成して処理信号を生成する(S521b)。
 図10Aは、動作例1における第2例の方法に係る生成部130が空力音信号を生成する処理を説明する図である。
 上記の通り、仮想空間においてオブジェクトが移動することで、風Wが生じる。図10Aが示すように、生じた風Wが人の耳に到達することで、空力音が生じる。より具体的には、生じた風Wが人の耳に到達することで、空気の渦(カルマン渦)が発生し、このカルマン渦により空力音が生じる。ここでは、人の耳が、複数の幅(例えば第1幅d1、第2幅d2、第3幅d3及び第4幅d4)を有する窪みの集合体とみなして、キャビティ音生成モデルを当てはめることで、生成部130は、空力音信号を生成する。また、人の耳の例えば第1幅d1に相当する箇所におけるカルマン渦周波数は、f1で示され、式(1)を満たす。
 f1 =(St×v)÷d1 式(1)
 同様に、人の耳の第2幅d2、第3幅d3及び第4幅d4に相当する箇所におけるカルマン渦周波数は、それぞれ、f2、f3及びf4で示され、式(2)、式(3)及び式(4)を満たす。
 f2 =(St×v)÷d2 式(2)
 f3 =(St×v)÷d3 式(3)
 f4 =(St×v)÷d4 式(4)
 例えば、第1~第4幅d1~d4のそれぞれは、平均的な人の耳の大きさが用いられるとよく、例えば0cm以上3cm以下の値が用いられるとよい。つまり、図10Aに示される人の耳は、また、平均的な人の耳がモデルとされている。なお、第1算出部121によって算出されたオブジェクトの移動速度は、オブジェクトの移動により生じた風Wの風速であるv(m/s)とみなすことができる。
 さらに、Stは、ストローハル数であり、キャビティ音生成モデルにおいては、一例として約0.4となる。また、カルマン渦周波数は、空力音の周波数に相当する。生成部130はカルマン渦周波数であるf1~f4を式(1)~式(4)に従って算出する。生成部130は、このf1~f4をそれぞれの中心周波数とする4つのバンドパスフィルタで雑音信号を処理することで、処理信号を生成する。
 また、図10Aに示した第1~第4幅d1~d4は、風Wが受聴者Lの正面から到来する場合の幅を示している。ここで、図10Bを用いて、風Wが受聴者Lの正面以外から到来する場合について説明する。
 図10Bは、動作例1における第2例の方法に係る生成部が空力音信号を生成する処理を説明する他の図である。より具体的には、図10Bにおいては、風Wが受聴者Lの斜め上方45度から到来する場合が示されている。この場合、図10Bのように幅はその角度に応じて見かけ上変動するので、それに応じて周波数特性が変動することは自明である。
 図11は、動作例1における第2例の方法に係る4つのバンドパスフィルタの一例とその処理を示す図である。4つのバンドパスフィルタは、それぞれf1~f4を中心周波数とする周波数成分を通過させるフィルタであり、つまりは、受聴者Lの耳の形状に起因して生じる空力音を模擬するための帯域強調フィルタの一例である。
 生成部130は、雑音信号のうち図11が示す4つのバンドパスフィルタの周波数成分を取り出して、合成することで、処理信号とする。なお中心周波数とは、当該バンドパスフィルタのゲインのピークとなる周波数でもある。なお、第2例においては、4つのバンドパスフィルタのそれぞれに入力される雑音信号として、白色雑音信号又はピンク雑音信号などが用いられるとよい。
 また、ここでは、4つのバンドパスフィルタから出力された出力信号に、当該中心周波数に応じた所定の係数を乗じてもよい。なお、出力信号とは、処理された雑音信号を意味する。当該所定の乗数は、中心周波数が低いほど大きな値であってもよい。典型的な空力音の周波数帯域(例えば5kHz程度以下)では、周波数が低いほど受聴者Lによって知覚されるラウドネスが小さいためである。当該所定の乗数は、複数のバンドパスフィルタ(複数の帯域強調フィルタ)ごとに対応して定められた値であり、当該バンドパスフィルタによって処理された雑音信号に乗算される。
 また、4つのバンドパスフィルタ(複数の帯域強調フィルタ)のそれぞれは、受聴者Lの耳に到達する風Wの風速に応じて特性が変動してもよく、受聴者Lの耳に到達する風Wの風向に応じて特性が変動してもよい。
 さらに、図9が示すように、生成部130は、算出された移動速度が大きいほど周波数成分を高周波数側にシフトさせ、かつ、算出された距離が小さいほど空力音の音量を大きくするように空力音信号を生成する(S512)。
 第2例においても、生成部130は、移動速度が大きいほど、合成された処理信号が含む周波数成分の周波数を高周波数側にシフトさせた空力音信号を生成する。さらに生成部130は、第2算出部122によって算出された距離が小さいほど空力音の音量を大きくするように空力音信号を生成する。つまりは、第1例で示した空力音データにかえて第2例では処理信号が用いられて処理が行われる。第2例においては、生成部130は、周波数成分を高周波数側にシフトする上記処理と、空力音の音量を大きくする上記処理との両方を行うが、少なくとも一方を行ってもよい。
 また、上記説明においては、人の耳についてキャビティ音生成モデルを当てはめる例について説明したが、これに限られない。図12及び図13は、動作例1における第2例の方法に係る生成部130が処理信号を生成する処理を説明する他の図である。
 生成部130は、図12が示すように人の耳が1つのシリンダー形状であるとみなして、処理信号を生成してもよい。この場合、大きさd5である耳によって生じるカルマン渦の周波数(カルマン渦周波数)は、f5で示され、式(5)を満たす。
 f5 =(St×v)÷d5 式(5)
 ストローハル数であるStは、このモデルにおいては、一例として約0.2となる。そして、生成部130は上記と同様に、f5を中心周波数とするバンドパスフィルタで雑音信号を処理することで、処理信号を生成する。
 また、生成部130は、図13が示すように人の頭部が1つのシリンダー形状であるとみなして、処理信号を生成してもよい。この場合、大きさd6である頭部によって生じるカルマン渦の周波数(カルマン渦周波数)は、f6で示され、式(6)を満たす。
 f6 =(St×v)÷d6 式(6)
 ストローハル数であるStは、このモデルにおいては、一例として約0.2となる。そして、生成部130は上記と同様に、f6を中心周波数とするバンドパスフィルタで雑音信号を処理することで、処理信号を生成する。なお、当該バンドパスフィルタは、受聴者Lの頭部の形状に起因して生じる空力音を模擬するためのフィルタである。
 このように、生成部130は、第1例及び第2例の方法で空力音信号を生成し、出力部140に出力する。
 そして、ステップS60の処理が行われる。
 [動作例2]
 続いて、動作例2について説明する。
 図14は、本実施の形態に係る音響信号処理装置100の動作例2のフローチャートである。以下では、動作例1との相違点を中心に説明し、共通点の説明を省略又は簡略化する。
 はじめに、取得部110は、仮想空間における移動体であるオブジェクトの位置を示す第1位置情報、仮想空間における受聴者Lの位置を示す第2位置情報、及び、オブジェクトの形状を示す形状情報を取得する(S10a)。
 また、動作例2においては、可否情報が用いられないため、ステップS10aにおいて取得部110は、可否情報を取得しない。
 なお、動作例1と同様に、取得部110は、継続的に、より具体的には空間情報管理部A0201及びA0211で実行される空間情報の更新ごとに第1位置情報及び第2位置情報を取得する。
 次に、ステップS20及びS30が行われる。
 続いて、生成部130は、取得部110によって取得された形状情報が示す形状、第1算出部121によって算出された移動速度及び第2算出部122によって算出された距離に基づいて、空力音信号を生成する(50a)。
 ステップS50aにおいて、生成部130は、まず、記憶部150に記憶されている空力音データを取得する(S511)。
 次に、生成部130は、移動速度が大きいほど周波数成分を高周波数側にシフトさせ、かつ、距離が小さいほど空力音の音量を大きくするように、かつ、オブジェクトの体積が大きいほど空力音の音量を大きくするように空力音信号を生成する(S512a)。つまり生成された空力音信号は、算出された移動速度が大きいほど周波数成分を高周波数側にシフトさせられた信号であって、算出された距離が小さいほど空力音の音量を大きくする信号であって、オブジェクトの体積が大きいほど空力音の音量を大きくする信号である。なお、オブジェクトの体積は、形状情報が示す形状に基づいて、算出される。
 動作例2においては、生成部130は、周波数成分を高周波数側にシフトする上記処理と、距離に応じて空力音の音量を大きくする上記処理と、オブジェクトの体積に応じて空力音の音量を大きくする上記処理とを全て行うが、少なくとも1つを行ってもよい。なお、オブジェクトの体積に応じて空力音の音量を大きくする上記処理は、以下のように行われるとよい。例えば所定の体積が記憶部150に記憶されており、生成部130は、当該所定の体積よりオブジェクトの体積が大きいほど空力音の音量が大きくなるように、当該所定の体積よりオブジェクトの体積が小さいほど空力音の音量が小さくなるように、空力音信号を生成する。
 さらに、出力部140は、生成部130によって生成された空力音信号を出力する(S60)。
 なお、図14が示す動作例2においては、動作例1で示した第1例の方法の空力音データが用いられて、空力音信号が生成されたが、これに限られない。動作例2においては、動作例1で示した第2例の方法の処理信号が用いられて、空力音信号が生成されてもよい。
 [動作例3]
 続いて、動作例3について説明する。
 図15は、本実施の形態に係る音響信号処理装置100の動作例3のフローチャートである。以下では、動作例2との相違点を中心に説明し、共通点の説明を省略又は簡略化する。
 動作例3においては、動作例2と同じくステップS10a、S20及びS30が行われる。
 次に、算出部120(より具体的には、第3算出部123)は、第1算出部121によって算出された移動速度及び取得部110によって取得された形状情報に基づいて、オブジェクトが移動する場合に生じる単位時間当たりの風量を算出する(S35)。
 ここで当該風量とは、オブジェクトが移動することによって、移動する空気の量を意味する。例えば記憶部150には、オブジェクトの移動速度とオブジェクトの形状と当該移動速度及び当該形状に対応付けられた風量とを示す風量データが記憶されている。第3算出部123は、移動速度及び形状に基づいて、記憶部150に記憶されている風量データを参照することで、風量を算出するとよい。
 続いて、生成部130は、第1算出部121によって算出された移動速度、第2算出部122によって算出された距離及び第3算出部123によって算出された風量に基づいて、空力音信号を生成する(50b)。
 ステップS50bにおいて、生成部130は、まず、記憶部150に記憶されている空力音データを取得する(S511)。
 次に、生成部130は、移動速度が大きいほど周波数成分を高周波数側にシフトさせ、かつ距離が小さいほど空力音の音量を大きくするように、かつ、風量が大きいほど空力音の音量を大きくするように空力音信号を生成する(S512b)。つまり生成された空力音信号は、算出された移動速度が大きいほど周波数成分を高周波数側にシフトさせられた信号であって、算出された距離が小さいほど空力音の音量を大きくする信号であって、風量が大きいほど空力音の音量を大きくする信号である。
 動作例3においては、生成部130は、周波数成分を高周波数側にシフトする上記処理と、距離に応じて空力音の音量を大きくする上記処理と、風量に応じて空力音の音量を大きくする上記処理とを全て行うが、少なくとも1つを行ってもよい。なお、風量に応じて空力音の音量を大きくする上記処理は、以下のように行われるとよい。例えば所定の風量が記憶部150に記憶されており、生成部130は、当該所定の風量より算出された風量が大きいほど空力音の音量が大きくなるように、当該所定の風量より算出された風量が小さいほど空力音の音量が小さくなるように、空力音信号を生成する。
 さらに、出力部140は、生成部130によって生成された空力音信号を出力する(S60)。
 [動作例4]
 続いて、動作例4について説明する。
 動作例3においては、ステップS35では、風量データが用いられて、オブジェクトが移動する場合に生じる単位時間当たりの風量が算出されたがこれに限られない。
 動作例4では、仮想空間におけるオブジェクトの移動方向(進行方向)に応じた処理が行われる例について説明する。
 図16は、本実施の形態に係る音響信号処理装置100の動作例4のフローチャートである。以下では、動作例3との相違点を中心に説明し、共通点の説明を省略又は簡略化する。
 動作例4においては、動作例3と同じくステップS10a、S20及びS30が行われる。
 次に、ステップS35が行われる。このステップS35で行われる処理について、以下より詳細に説明する。
 本動作例においては、オブジェクトは、航空機700である。図17は、本実施の形態に係る音響信号処理装置の動作例4に係るオブジェクトである航空機700を示す図である。このように、オブジェクトが航空機700である場合には、形状情報には、オブジェクトの移動方向が示されている。図17においては、オブジェクト(航空機700)の移動方向(進行方向)は、紙面手前方向である。
 この場合、ステップS35において、より詳細な処理として、以下の処理が行われる。すなわち、第3算出部123は、取得部110によって取得された形状情報に示されるオブジェクトの移動方向から見たオブジェクトの面積、及び、第1算出部121によって算出された移動速度に基づいて、風量を算出する(S35c)。
 当該面積とは、オブジェクトである航空機700の移動方向(進行方向)から、当該オブジェクトを見たときに、当該オブジェクトの輪郭で囲まれる面積である。当該面積とは、例えば、図17が示す航空機700が占める範囲である。
 ステップS35cでは、第3算出部123は、オブジェクトの面積と、移動速度との乗算により風量を算出する。より具体的には、第3算出部123は、オブジェクトの面積と、移動速度と、所定の定数との乗算により風量を算出するとよい。
 そして、図16が示すように、ステップS50b及びS60が行われる。
 なお、本動作例においては、オブジェクトとして航空機700が用いられたがこれに限られない。移動方向(進行方向)が自明であるオブジェクト、又は、形状情報に移動方向(進行方向)が示されているオブジェクトが用いられた場合には、本動作例の処理が適用可能である。
 [動作例5]
 続いて、動作例5について説明する。
 まずは、動作例5におけるオブジェクトについて説明する。
 図18は、本実施の形態に係る音響信号処理装置の動作例5に係るオブジェクトであるうちわ800を示す図である。うちわ800は、動作例4に係る航空機700とは異なり移動方向が自明ではなく、うちわ800の移動方向は、例えば、図18の紙面上下方向、紙面左右方向及び紙面手前奥方向の少なくとも1つである。
 このように、移動方向が自明でないオブジェクトが用いられる場合には、動作例4の処理を行うことは困難である。動作例5では、このような場合においても、オブジェクトが移動する場合に生じる単位時間当たりの風量を算出する例を説明する。
 図19は、本実施の形態に係る音響信号処理装置100の動作例5のフローチャートである。以下では、動作例3との相違点を中心に説明し、共通点の説明を省略又は簡略化する。
 動作例5においては、動作例3と同じくステップS10aが行われる。
 次に、第1算出部121は、取得部110によって取得された第1位置情報に基づいて、オブジェクトの移動速度及び移動方向を算出する(S20e)。上記の通り、取得部110は仮想空間におけるオブジェクトの位置を示す第1位置情報を空間情報管理部A0201及びA0211で実行される空間情報の更新ごとに取得している。第1算出部121は、1つの第1位置情報と、空間情報管理部A0201及びA0211で実行される空間情報の更新後に取得された1つの第1位置情報との差分から、オブジェクトの仮想空間における移動方向を算出する。
 続いて、ステップS30が行われる。
 次に、第3算出部123は、取得部110によって取得された形状情報、第1算出部121によって算出された移動方向、及び、算出された移動速度に基づいて、オブジェクトが移動する場合に生じる単位時間当たりの風量を算出する(S35e)。
 ステップS35eでは、まず、第3算出部123は、形状情報及び移動方向に基づいて、オブジェクトの移動方向から見たオブジェクトの面積を算出する。なお、オブジェクトであるうちわ800は、持ち手801と扇面802とを有する。うちわ800が、上下方向(以下第1方向)、左右方向(以下第2方向)及び紙面手前奥方向(以下第3方向)に移動した場合を検討する。なお、第1方向は、扇面802に水平な方向であって持ち手801が延びる方向である。第2方向は、扇面802に水平な方向であって第1方向に垂直な方向である。第3方向は、扇面802に垂直な方向である。図18が示すように、このうちわ800は、第3方向に厚みの薄いうちわである。
 うちわ800の移動方向が第1方向である場合に、移動方向から見たオブジェクトの面積を以下第1面積とする。うちわ800の移動方向が第2方向である場合に、移動方向から見たオブジェクトの面積を以下第2面積とする。うちわ800の移動方向が第3方向である場合に、移動方向から見たオブジェクトの面積を以下第3面積とする。うちわ800は第3方向に厚みが薄いため、第1面積及び第2面積は、第3面積に比べて非常に小さい値となる。
 さらに、ステップS35eでは、第3算出部123は、オブジェクトの移動方向から見たオブジェクトの面積、及び、移動速度に基づいて風量を算出する。例えば、動作例4のステップS35と同じく、第3算出部123は、オブジェクトの面積と、移動速度と、所定の定数との乗算により風量を算出するとよい。
 例えば本動作例においては、第1面積及び第2面積は、第3面積に比べて非常に小さい値となることから、うちわ800の移動方向が第1方向及び第2方向である場合に比べて、うちわ800の移動方向が第3方向である場合の風量が大きくなる。
 そして、図19が示すように、ステップS50b及びS60が行われる。
 続いて、パイプライン処理について説明する。
 上述の算出部120、生成部130、及び、選択部で行われる処理は、例えば特許文献2で説明されているようなパイプライン処理の一部として行われてもよい。図20は、図2G及び図2Hのレンダリング部A0203及びA0213がパイプライン処理を行う場合を説明するための機能ブロック図及びステップの一例を示す図である。図20での説明においては、図2G及び図2Hのレンダリング部A0203及びA0213の一例であるレンダリング部900を用いて説明する。
 パイプライン処理とは、音響効果を付与するための処理を複数の処理に分割し、各処理を1つずつ順番に実行することを指す。分割された処理のそれぞれでは、例えば、音声信号に対する信号処理、又は信号処理に用いるパラメータの生成などが実行される。
 本実施の形態におけるレンダリング部900は、パイプライン処理として、例えば残響効果、初期反射音、距離減衰効果、バイノーラル処理などを施す処理を含む。ただし、上記の処理は一例であり、それ以外の処理を含んでいてもよいし、一部の処理を含んでいなくてもよい。例えば、レンダリング部900がパイプライン処理として、回折処理又はオクルージョン処理を含んでいてもよいし、例えば残響処理が不要な場合は省略されてもよい。また、それぞれの処理をステージと表現し、それぞれの処理の結果生成される反射音などの音声信号をレンダリングアイテムと表現してもよい。パイプライン処理における各ステージの順番と、パイプライン処理に含まれるステージとは図20に示した例に限られない。
 なお、図20で示すすべてのステージがレンダリング部900に備わっていなくてもよく、一部のステージが省略されたり、レンダリング部900以外に他のステージが存在したりしてもよい。
 パイプライン処理の一例として、残響処理、初期反射処理、距離減衰処理、選択処理、生成処理、バイノーラル処理のそれぞれで行われる処理について説明する。それぞれの処理では入力信号に含まれるメタデータを解析して、反射音の生成に必要なパラメータを算出する。
 なお、図20においては、レンダリング部900は、残響処理部901、初期反射処理部902、距離減衰処理部903、選択部904、算出部120、生成部130及びバイノーラル処理部905を備える。ここでは、残響処理部901が残響処理ステップを、初期反射処理部902が初期反射処理ステップを、距離減衰処理部903が距離減衰処理ステップを、選択部904が選択処理ステップを、バイノーラル処理部905がバイノーラル処理ステップを行う例について説明する。
 残響処理ステップでは、残響処理部901が残響音を示す音声信号又は音声信号の生成に必要なパラメータを生成する。残響音とは、直接音の後に残響としてリスナに到達する残響音を含む音である。一例として、残響音は、後述する初期反射音がリスナへ到達した後の比較的後期(例えば、直接音の到達時から百数十ms程度)の段階で、初期反射音よりも多くの回数(例えば、数十回)の反射を経てリスナへ到達する残響音である。残響処理部901は、入力信号に含まれる音声信号及び空間情報を参照し、事前に準備してある残響音を生成するための所定の関数を用いて計算する。
 残響処理部901は、当該音信号に、公知の残響生成方法を適用して、残響を生成してもよい。公知の残響生成方法とは、一例として、シュレーダー法であるが、これに限られない。また、残響処理部901は、公知の残響生成処理を適用する際に、空間情報が示す音再生空間の形状及び音響特性を用いる。これにより、残響処理部901は、残響を示す音声信号を生成するためのパラメータを算出することができる。
 初期反射処理ステップでは、初期反射処理部902が、空間情報に基づいて、初期反射音を生成するためのパラメータを算出する。初期反射音は、音源オブジェクトから直接音がリスナへ到達した後の比較的初期(例えば、直接音の到達時から数十ms程度)の段階で、1回以上の反射を経てリスナへ到達する反射音である。初期反射処理部902は、例えば音信号及びメタデータを参照し、三次元音場(空間)の形状、大きさ、構造物等のオブジェクトの位置、及びオブジェクトの反射率等を用いて、音源オブジェクトからオブジェクトで反射してリスナに到達する反射音の経路を計算する。また、初期反射処理部902が直接音の経路も算出してもよい。当該経路の情報が初期反射音を生成するためのパラメータとして用いられるとともに、選択部904における反射音の選択処理のためのパラメータとして用いられてもよい。
 距離減衰処理ステップでは、距離減衰処理部903が、初期反射処理部902が算出した直接音の経路の長さと反射音の経路の長さとの差に基づいて、リスナに到達する音量を算出する。リスナに到達する音量は、音源の音量に対して、リスナまでの距離に比例して減衰(距離に反比例)するので、直接音の音量は、音源の音量を直接音の経路の長さで除して得ることができ、反射音の音量は、音源の音量を反射音のパスの長さで除して算出することができる。
 選択処理ステップでは、選択部904が、生成する空力音又は反射音を選択する。それ以前のステップで算出されたパラメータに基づいて、選択処理が実行されてもよい。
 選択処理がパイプライン処理の一部で実行される場合、選択処理において選択されなかった反射音については、パイプライン処理における選択処理以降の処理を実行する対象としなくてもよい。選択されなかった反射音について選択処理以降の処理を実行しないことで、選択されなかった反射音についてバイノーラル処理のみを実行しないことを決定する場合よりも、音響信号処理装置100の演算負荷を低減することが可能になる。
 また、本実施の形態で説明した選択処理がパイプライン処理の一部で実行される場合、選択処理の順番が、パイプライン処理における複数の処理の順番のうちより早い順番で実行されるように設定すると、より多くの選択処理以降の処理を省略できるため、より多くの演算量を削減することができる。例えば算出部120及び生成部130が処理より前の順番で選択処理が実行されると、選択しないことが決定されたオブジェクトに係る空力音についての処理を省略することができ、より音響信号処理装置100における演算量を削減することが出来る。
 また、レンダリングアイテムを生成するパイプライン処理の一部で算出されたパラメータが、選択部904又は算出部120で用いられてもよい。
 バイノーラル処理ステップでは、バイノーラル処理部905が、直接音の音声信号に対して音源オブジェクトの方向からリスナに到達する音として知覚されるように、信号処理を実行する。さらにバイノーラル処理部905は、反射音が反射に関わる障害物オブジェクトからリスナに到達する音として知覚されるように、信号処理を実行する。音空間におけるリスナの座標及び向き(つまり、受聴点の位置及び向き)に基づいて、音源オブジェクトの位置又は障害物オブジェクトの位置から音がリスナに到達するように、HRIRHead―Related Impulse Responses) DB(Data base)を適用する処理を実行する。なお、受聴点は、例えば、リスナの頭部の動きに合わせてその位置及び方向が変化されてもよい。また、リスナの位置を示す情報がセンサから取得されてもよい。
 パイプライン処理及びバイノーラル処理に用いるプログラム、音響処理に必要な空間情報、HRIR DB、及び、閾値データなどその他のパラメータは、音響信号処理装置100に備わるメモリ又は外部から取得する。HRIR(Head―Related Impulse Responses)とは、1個のインパルスを発生させたときの応答特性である。言い換えれば、HRIRとは、耳殻、人頭及び肩まで含めた周辺物によって生じる音の変化を伝達関数として表現した頭部伝達関数をフーリエ変換することで、周波数領域における表現から時間領域における表現に変換された応答特性である。HRIR DBは、このような情報を含むデータベースである。
 また、パイプライン処理の一例として、レンダリング部900は図示していない処理部を含んでいてもよい。例えば、回折処理部又はオクルージョン処理部を含んでいてもよい。
 回折処理部は、三次元音場(空間)におけるリスナと音源オブジェクトとの間にある障害物に起因する回折音を含む音を示す音声信号を生成する処理を実行する。回折音は、音源オブジェクトとリスナとの間に障害物がある場合に、当該障害物を回り込むようにして音源オブジェクトからリスナへ到達する音である。
 回折処理部は、例えば音信号及びメタデータを参照し、三次元音場(空間)における音源オブジェクトの位置、リスナの位置、並びに障害物の位置、形状、及び大きさ等を用いて、音源オブジェクトから障害物を迂回してリスナへと到達する経路を計算し、当該経路に基づいて回折音を生成する。
 オクルージョン処理部は、いずれかのステップで取得した空間情報及び障害物オブジェクトの材質などの情報に基づいて、障害物オブジェクトの向こう側に音源オブジェクトがある場合に漏れ聞こえる音声信号を生成する。
 なお、上記実施の形態では、音源オブジェクトに付与する位置情報は、仮想空間内における「点」として定義したものであり、所謂「点音源」であるとして発明の詳細を説明した。一方で、仮想空間における音源を定義する方法として、長さ、大きさ又は形状などを有する物体として、点音源でない、空間的に拡張された音源を定義する場合もある。そのような場合は、リスナと音源との距離又は音の到来方向が確定しないので、それに起因する反射音は解析が行われるまでもなく、或いは解析結果の如何にかかわらず、上記選択部904で「選択する」方の処理に限定してもよい。そうすることによって、反射音を選択しないことによって生じるかもしれない音質の劣化を避けることができるからである。又は、当該物体の重心など代表点が定められて、その代表点から音が発生しているとして本開示の処理を適用してもよいが、その場合は、音源の空間的な拡張の情報に応じて閾値を調整した上で本開示の処理を適用してもよい。
 続いて、ビットストリームの構造例について説明する。
 ビットストリームには、例えば、音声信号と、メタデータと、が含まれる。音声信号は、音の周波数及び強弱に関する情報などを示す、音が表現された音データである。メタデータに含まれる空間情報は、音声信号に基づく音を聞くリスナが位置する空間に関する情報である。具体的には、空間情報は、当該音の音像を、音空間(例えば、三次元音場内)における所定の位置に定位させる際の、つまり、リスナに所定方向から到達する音として知覚させる際の当該所定の位置(定位位置)に関する情報である。空間情報には、例えば、音源オブジェクト情報と、リスナの位置を示す位置情報と、が含まれる。
 音源オブジェクト情報は、音声信号に基づく音を発生させる、つまり、音声信号を再生する物体を示すオブジェクトの情報であって、当該物体が配置される実空間に対応する仮想的な空間である音空間に配置される仮想的なオブジェクト(音源オブジェクト)に関する情報である。音源オブジェクト情報は、例えば、音空間に配置される音源オブジェクトの位置を示す情報、音源オブジェクトの向きに関する情報、音源オブジェクトが発する音の指向性に関する情報、音源オブジェクトが生物に属するか否かを示す情報、及び、音源オブジェクトが動体であるか否かを示す情報などを含む。例えば、音声信号は、音源オブジェクト情報が示す1以上の音源オブジェクトに対応している。
 ビットストリームのデータ構造の一例として、ビットストリームは、例えばメタデータ(制御情報)と音声信号とで構成される。
 音声信号とメタデータとは一つのビットストリームに格納されていてもよいし、複数のビットストリームに別々に格納されていてもよい。同様に音声信号とメタデータとは一つのファイルに格納されていてもよいし、複数のファイルに別々に格納されていてもよい。
 ビットストリームは音源ごとに存在してもよいし、再生時間ごとに存在してもよい。再生時間ごとにビットストリームが存在する場合、同時に複数のビットストリームが並列で処理されてもよい。
 メタデータは、ビットストリームごとに付与されてもよく、複数のビットストリームを制御する情報としてまとめて付与されてもよい。また、メタデータは、再生時間ごとに付与されてもよい。
 音声信号とメタデータとは、複数のビットストリーム又は複数のファイルに別々に格納されている場合、一つ又は一部のビットストリーム又はファイルに関連する他のビットストリーム又はファイルを示す情報が含まれていてもよいし、全てのビットストリーム又はファイルのそれぞれに関連する他のビットストリーム又はファイルを示す情報が含まれていてもよい。ここで、関連するビットストリーム又はファイルとは、例えば、音響処理の際に同時に用いられる可能性のあるビットストリーム又はファイルである。また、関連するビットストリーム又はファイルには、関連する他のビットストリーム又はファイルを示す情報をまとめて記述したビットストリーム又はファイルが含まれていてもよい。ここで、関連する他のビットストリーム又はファイルを示す情報とは、例えば当該他のビットストリームを示す識別子又は他のファイルを示すファイル名又はURL(Uniform Resource Locator)又はURI(Uniform Resource Identifier)などである。この場合、取得部110は、関連する他のビットストリーム又はファイルを示す情報に基づいてビットストリーム又はファイルを特定又は取得する。また、ビットストリーム内に関連する他のビットストリームを示す情報が含まれていると共に、ビットストリーム内に別のビットストリーム又はファイルに関連するビットストリーム又はファイルを示す情報を含めていてもよい。ここで、関連するビットストリーム又はファイルを示す情報を含むファイルとは、例えばコンテンツの配信に用いられるマニフェストファイルなどの制御ファイルであってもよい。
 なお、全てのメタデータ又は一部のメタデータは音声信号のビットストリーム以外から取得されてもよい。例えば、音響を制御するメタデータと映像を制御するメタデータとのいずれかがビットストリーム以外から取得されてもよいし、両方のメタデータがビットストリーム以外から取得されてもよい。また、映像を制御するメタデータが音声信号再生システムで取得されるビットストリームに含まれる場合は、音声信号再生システムは映像の制御に用いることができるメタデータを、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置に対して出力する機能を備えていてもよい。
 さらに、メタデータに含まれる情報の例について説明する。
 メタデータは、音空間で表現されるシーンを記述するために用いられる情報であってもよい。ここでシーンとは、メタデータを用いて、音声信号再生システムでモデリングされる、音空間における三次元映像及び音響イベントを表すすべての要素の集合体を指す用語である。つまり、ここでいうメタデータとは、音響処理を制御する情報だけでなく、映像処理を制御する情報も含んでいてもよい。勿論、メタデータには、音響処理と映像処理とのいずれか一方だけを制御する情報が含まれていてもよいし、両方の制御に用いられる情報が含まれていてもよい。
 音声信号再生システムは、ビットストリームに含まれるメタデータ及び、追加で取得されるインタラクティブなリスナの位置情報などを用いて、音声信号に音響処理を行うことで、仮想的な音響効果を生成する。本実施の形態では、音響効果のうち、初期反射処理と、障害物処理と、回折処理と、遮断処理と、残響処理とを行う場合を説明するが、メタデータを用いてほかの音響処理を行ってもよい。例えば、音声信号再生システムは、距離減衰効果、ローカリゼーション、ドップラー効果などの音響効果を付加することが考えられる。また、音響効果の全て又は一部のオンオフを切り替える情報、優先度情報をメタデータとして付加してもよい。
 また、一例として、符号化されたメタデータは、音源オブジェクト及び障害物オブジェクトを含む音空間に関する情報と、当該音の音像を音空間内において所定位置に定位させる(つまり、所定方向から到達する音として知覚させる)際の定位位置に関する情報とを含む。ここで、障害物オブジェクトは、音源オブジェクトが発する音がリスナへと到達するまでの間において、例えば音を遮ったり、音を反射したりして、リスナが知覚する音に影響を及ぼし得るオブジェクトである。障害物オブジェクトは、静止物体の他に、人等の動物、又は機械等の動体を含み得る。また、音空間に複数の音源オブジェクトが存在する場合、任意の音源オブジェクトにとっては、他の音源オブジェクトは障害物オブジェクトとなり得る。建材又は無生物などの音を発しないオブジェクトである非発音オブジェクトも、音を発する音源オブジェクトも障害物オブジェクトとなり得る。
 メタデータには、音空間の形状、音空間に存在する障害物オブジェクトの形状情報及び位置情報、音空間に存在する音源オブジェクトの形状情報及び位置情報、並びに音空間におけるリスナの位置及び向きをそれぞれ表す情報のすべて又は一部が含まれる。
 音空間は、閉空間又は開空間のいずれであってもよい。また、メタデータには、例えば床、壁、又は天井等の音空間において音を反射し得る構造物の反射率、及び音空間に存在する障害物オブジェクトの反射率を表す情報が含まれる。ここで、反射率は、反射音と入射音とのエネルギーの比であって、音の周波数帯域ごとに設定されている。勿論、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。音空間が開空間の場合は、例えば一律で設定された減衰率、回折音、初期反射音などのパラメータが用いられてもよい。
 上記説明では、メタデータに含まれる障害物オブジェクト又は音源オブジェクトに関するパラメータとして、反射率を挙げたが反射率以外の情報を含んでいてもよい。例えば、反射率以外の情報は、音源オブジェクト及び非発音オブジェクトの両方に関わるメタデータとして、オブジェクトの素材に関する情報を含んでいてもよい。具体的には、反射率以外の情報は、拡散率、透過率、吸音率などのパラメータを含んでいてもよい。
 音源オブジェクトに関する情報として、音量、放射特性(指向性)、再生条件、ひとつのオブジェクトから発せられる音源の数及び種類、並びに、オブジェクトにおける音源領域を指定する情報などを含めてもよい。再生条件では例えば、継続的に流れ続ける音なのかイベント発動する音なのかが定められてもよい。オブジェクトにおける音源領域は、リスナの位置とオブジェクトの位置との相対的な関係で定めてもよいし、オブジェクトを基準として定めてもよい。オブジェクトにおける音源領域がリスナの位置とオブジェクトの位置との相対的な関係で定められる場合、リスナがオブジェクトを見ている面を基準とし、リスナから見てオブジェクトの右側からは音A、左側からは音Bが発せられているようにリスナに知覚させることができる。オブジェクトにおける音源領域がオブジェクトを基準として定められる場合、リスナの見ている方向に関わらず、オブジェクトのどの領域からどの音を出すかは固定にすることができる。例えばオブジェクトを正面から見たときの右側からは高い音、左側からは低い音が流れているようにリスナに知覚させることができる。この場合、リスナがオブジェクトの背面に回り込んだ場合、背面から見て右側からは低い音、左側からは高い音が流れているようにリスナに知覚させることができる。
 空間に関するメタデータとして、初期反射音までの時間、残響時間、直接音と拡散音との比率などを含めることができる。直接音と拡散音との比率がゼロの場合、直接音のみをリスナに知覚させることができる。
 本実施の形態をまとめると以下の通りである。
 本実施の形態に係る音響信号処理方法は、仮想空間における移動体であるオブジェクトの位置を示す第1位置情報、及び、仮想空間における受聴者Lの位置を示す第2位置情報を取得する取得ステップと、取得された第1位置情報に基づいて、オブジェクトの移動速度を算出する第1算出ステップと、取得された第1位置情報及び取得された第2位置情報に基づいて、オブジェクトと受聴者Lとの距離を算出する第2算出ステップと、算出された移動速度及び算出された距離に基づいて、オブジェクトの移動により生じる風Wが受聴者Lの耳に到達することで生じる空力音を示す空力音信号を生成する生成ステップと、生成された空力音信号を出力する出力ステップと、を含む。
 これにより、音響信号処理方法は、仮想空間におけるオブジェクトの位置及び受聴者Lの位置に基づいて、オブジェクトの移動により生じる風Wが受聴者Lの耳に到達することで生じる空力音を示す空力音信号を生成し、生成された空力音信号を出力することができる。この空力音信号などがヘッドフォン200又はスピーカなどに出力されることで、受聴者Lは当該空力音を受聴することができる。このため、受聴者Lは、当該オブジェクトが移動していることを知覚することができ、臨場感を得ることができる。つまりは、本開示の一態様に係る音響信号処理方法は、受聴者Lに臨場感を与えることができる。
 本実施の形態に係る音響信号処理方法においては、生成ステップでは、算出された移動速度が大きいほど周波数成分を高周波数側にシフトさせ、かつ、算出された距離が小さいほど空力音の音量を大きくするように空力音信号を生成する。
 これにより、オブジェクトの移動速度、及び、オブジェクトと受聴者Lとの距離に応じて、受聴者Lが受聴する空力音を制御することができるため、受聴者Lは、より臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者Lにより臨場感を与えることができる。
 本実施の形態に係る音響信号処理方法においては、取得ステップでは、オブジェクトが空力音を生成するか否かを示す可否情報を取得し、生成ステップでは、取得された可否情報が、オブジェクトが空力音を生成することを示す場合に、空力音信号を生成する。
 これにより、可否情報が、オブジェクトが空力音を生成することを示す場合のみに空力音信号が生成される。つまりは、音響信号処理方法は、可否情報が、オブジェクトが空力音を生成することを示さない場合には空力音信号を生成する必要がないため、音響信号処理方法において、空力音を発生させるための処理負荷を抑制することができる。
 さらに、第1位置情報、第2位置情報及び可否情報によって空力音信号が生成されることができる。つまりは、本実施の形態に係る音響信号処理方法においては、第1位置情報、第2位置情報及び可否情報以外の他の情報がなくても、空力音信号が生成されることができる。
 本実施の形態に係る音響信号処理方法においては、取得ステップでは、オブジェクトの形状を示す形状情報を取得し、生成ステップでは、取得された形状情報が示す形状、算出された移動速度及び算出された距離に基づいて、空力音信号を生成する。
 これにより、空力音信号が、オブジェクトの形状、オブジェクトの移動速度、及び、オブジェクトと受聴者Lとの距離に応じて生成されるため、より臨場感のある空力音を受聴者Lが受聴することができる。つまりは、音響信号処理方法は、受聴者Lにより臨場感を与えることができる。
 さらに、第1位置情報、第2位置情報及び形状情報によって空力音信号が生成されることができる。つまりは、本実施の形態に係る音響信号処理方法においては、第1位置情報、第2位置情報及び形状情報以外の他の情報がなくても、空力音信号が生成されることができる。
 本実施の形態に係る音響信号処理方法においては、生成ステップでは、算出された移動速度が大きいほど周波数成分を高周波数側にシフトさせ、かつ、算出された距離が小さいほど空力音の音量を大きくするように、かつ、取得された形状情報に基づいてオブジェクトの体積が大きいほど空力音の音量を大きくするように空力音信号を生成する。
 これにより、オブジェクトの移動速度、オブジェクトと受聴者Lとの距離、及び、オブジェクトの体積に応じて、受聴者Lが受聴する空力音を制御することができるため、受聴者Lは、より臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者Lにより臨場感を与えることができる。
 本実施の形態に係る音響信号処理方法においては、算出された移動速度及び取得された形状情報に基づいて、オブジェクトが移動する場合に生じる単位時間当たりの風量を算出する第3算出ステップを含み、生成ステップでは、算出された移動速度、算出された距離及び算出された風量に基づいて、空力音信号を生成する。
 これにより、空力音信号が、オブジェクトの移動速度、オブジェクトと受聴者Lとの距離、及び、上記風量に応じて生成されるため、より臨場感のある空力音を受聴者Lが受聴することができる。つまりは、音響信号処理方法は、受聴者Lにより臨場感を与えることができる。
 本実施の形態に係る音響信号処理方法においては、生成ステップでは、算出された移動速度が大きいほど周波数成分を高周波数側にシフトさせ、かつ、算出された距離が小さいほど空力音の音量を大きくするように、かつ、算出された風量が大きいほど空力音の音量を大きくするように空力音信号を生成する。
 これにより、オブジェクトの移動速度、オブジェクトと受聴者Lとの距離、及び、上記風量に応じて、受聴者Lが受聴する空力音を制御することができるため、受聴者Lは、より臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者Lにより臨場感を与えることができる。
 本実施の形態に係る音響信号処理方法においては、生成ステップでは、算出された移動速度、算出された距離及び人の耳の形状に基づいて、空力音信号を生成する。
 これにより、空力音信号が、人の耳の形状に基づく音生成モデルに応じて生成されるため、より臨場感のある空力音を受聴者Lが受聴することができる。つまりは、音響信号処理方法は、受聴者Lにより臨場感を与えることができる。
 また、平均的な人の耳をモデルとすることで、仮想空間のユーザ(例えば仮想空間内で実行されるコンテンツの提供者)が空力音を示すデータを、当該コンテンツのために準備しておく必要が省かれる。
 本実施の形態に係る音響信号処理方法においては、人の耳又は人の耳を模したモデルに風Wが到達することで生じる音が収音されたデータである空力音データが記憶される記憶ステップと、生成ステップでは、記憶された空力音データ、算出された移動速度及び算出された距離に基づいて、空力音信号を生成する。
 これにより、空力音信号が、実際に生じた音が収音されたデータに応じて生成されるため、より臨場感のある空力音を受聴者Lが受聴することができる。つまりは、音響信号処理方法は、受聴者Lにより臨場感を与えることができる。
 本実施の形態に係る音響信号処理方法においては、第3算出ステップでは、取得された形状情報に示されるオブジェクトの移動方向から見たオブジェクトの面積、及び、算出された移動速度に基づいて、風量を算出する。
 これにより、上記風量が、形状情報に示されるオブジェクトの移動方向から見たオブジェクトの面積、及び、移動速度に基づいて算出される。そして、空力音信号が、このような風量、オブジェクトの移動速度、及び、オブジェクトと受聴者Lとの距離に応じて生成されるため、より臨場感のある空力音を受聴者Lが受聴することができる。つまりは、音響信号処理方法は、受聴者Lにより臨場感を与えることができる。
 本実施の形態に係る音響信号処理方法においては、第1算出ステップでは、取得された第1位置情報に基づいて、オブジェクトの移動速度及び移動方向を算出し、第3算出ステップでは、取得された形状情報、算出された移動方向、及び、算出された移動速度に基づいて、風量を算出する。
 これにより、上記風量が、形状情報、移動方向及び移動速度に基づいて算出される。そして、空力音信号が、このような風量、オブジェクトの移動速度、及び、オブジェクトと受聴者Lとの距離に応じて生成されるため、より臨場感のある空力音を受聴者Lが受聴することができる。つまりは、音響信号処理方法は、受聴者Lにより臨場感を与えることができる。
 本実施の形態に係る音響信号処理方法においては、雑音信号を複数の帯域強調フィルタのそれぞれで処理して、処理された複数の雑音信号の合成を行って処理することで、仮想空間における受聴者Lの耳に風Wが到達することで生じる空力音を示す空力音信号を生成する生成ステップと、生成された空力音信号を出力する出力ステップと、を含み、複数の帯域強調フィルタのそれぞれは、受聴者Lの耳又は頭部の形状に起因して生じる空力音を模擬するためのフィルタである。
 これにより、音響信号処理方法は、仮想空間における受聴者Lに、仮想空間における受聴者Lの耳に風Wが到達することで生じる空力音を示す空力音信号を生成し、生成した空力音信号を出力することができる。この空力音信号などがヘッドフォン又はスピーカなどに出力されることで、受聴者Lは当該空力音を受聴することができる。このため、受聴者Lは、仮想空間において風Wが吹いていることを知覚することができ、臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者Lに臨場感を与えることができる。
 さらに、仮想空間において吹いている風Wは、上記のように、オブジェクトの移動により生じる風Wとは異なり、現実空間で自然に吹いているそよ風、又は、暴風などを模した風であってもよい。当然この場合は、風Wの発生源の位置は特定されないし、当該位置と受聴者との位置関係も特定されない。この場合でも、受聴者Lは、仮想空間において風Wが吹いていることを知覚することができ、臨場感を得ることができる。
 本実施の形態に係る音響信号処理方法においては、複数の帯域強調フィルタは、処理された複数の雑音信号のうち当該帯域強調フィルタが処理した雑音信号に当該帯域強調フィルタに対応する所定の係数の乗算を行い、生成ステップでは、乗算が行われた後に、合成を行う。
 これにより、音響信号処理方法により生成される空力音が、現実空間で受聴者Lが受聴する空力音により似た音となる。そのため、受聴者Lは、より臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者Lにより臨場感を与えることができる。
 本実施の形態に係る音響信号処理方法においては、複数の帯域強調フィルタのそれぞれは、耳に到達する風Wの風速に応じて特性が変動する。
 これにより、音響信号処理方法により生成される空力音が、現実空間で受聴者Lが受聴する空力音により似た音となる。そのため、受聴者Lは、より臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者Lにより臨場感を与えることができる。
 本実施の形態に係る音響信号処理方法においては、複数の帯域強調フィルタのそれぞれは、耳に到達する風Wの風向に応じて特性が変動する。
 これにより、音響信号処理方法により生成される空力音が、現実空間で受聴者Lが受聴する空力音により似た音となる。そのため、受聴者Lは、より臨場感を得ることができる。つまりは、音響信号処理方法は、受聴者Lにより臨場感を与えることができる。
 本実施の形態に係るコンピュータプログラムは、上記記載の音響信号処理方法をコンピュータに実行させるためのコンピュータプログラムである。
 これにより、コンピュータが、コンピュータプログラムに従って、上記の音響信号処理方法を実行することができる。
 本実施の形態に係る音響信号処理装置100は、仮想空間における移動体であるオブジェクトの位置を示す第1位置情報、及び、仮想空間における受聴者Lの位置を示す第2位置情報を取得する取得部110と、取得された第1位置情報に基づいて、オブジェクトの移動速度を算出する第1算出部121と、取得された第1位置情報及び取得された第2位置情報に基づいて、オブジェクトと受聴者Lとの距離を算出する第2算出部122と、算出された移動速度及び算出された距離に基づいて、オブジェクトの移動により生じる風Wが受聴者Lの耳に到達することで生じる空力音を示す空力音信号を生成する生成部130と、生成された空力音信号を出力する出力部140と、を備える。
 これにより、音響信号処理装置は、仮想空間におけるオブジェクトの位置及び受聴者Lの位置に基づいて、オブジェクトの移動により生じる風Wが受聴者Lの耳に到達することで生じる空力音を示す空力音信号を生成し、生成された空力音信号を出力することができる。この空力音信号などがヘッドフォン200又はスピーカなどに出力されることで、受聴者Lは当該空力音を受聴することができる。このため、受聴者Lは、当該オブジェクトが移動していることを知覚することができ、臨場感を得ることができる。つまりは、本開示の一態様に係る音響信号処理装置は、受聴者Lに臨場感を与えることができる。
 (その他の実施の形態)
 以上、本開示の態様に係る音響信号処理方法及び音響信号処理装置100について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。
 また、以下に示す形態も、本開示の一つ又は複数の態様の範囲内に含まれてもよい。
 (1)上記の音響信号処理装置100を構成する構成要素の一部は、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムであってもよい。前記RAM又はハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
 (2)上記の音響信号処理装置100を構成する構成要素の一部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
 (3)上記の音響信号処理装置100を構成する構成要素の一部は、各装置に脱着可能なICカード又は単体のモジュールから構成されているとしてもよい。前記ICカード又は前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカード又は前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカード又は前記モジュールは、その機能を達成する。このICカード又はこのモジュールは、耐タンパ性を有するとしてもよい。
 (4)また、上記の音響信号処理装置100を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(登録商標) Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されているデジタル信号であるとしてもよい。
 また、上記の音響信号処理装置100を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
 (5)本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
 (6)また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
 (7)また、前記プログラム又は前記デジタル信号を前記記録媒体に記録して移送することにより、又は前記プログラム又は前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
 本開示は、音響信号処理方法及び音響信号処理装置に利用可能であり、特に、音響システムなどに適用可能である。
10、20 ダミーヘッドマイク
11 ダミーヘッド
12、13 マイクロフォン
50、600 扇風機
100、A0001 音響信号処理装置
110 取得部
120 算出部
121 第1算出部
122 第2算出部
123 第3算出部
130 生成部
140 出力部
150 記憶部
200 ヘッドフォン
201 頭部センサ部
202 出力部
300 表示部
400 車両
500 サーバ装置
601 羽根
700 航空機
800 うちわ
L 受聴者
W 風
A0000 立体音響再生システム
A0002 音声提示装置
A0100 符号化装置
A0101、A0113 入力データ
A0102 エンコーダ
A0103 符号化データ
A0104、A0114 メモリ
A0110、A0130 復号装置
A0111 音声信号
A0112 デコーダ
A0120 符号化装置
A0121 送信部
A0122 送信信号
A0131 受信部
A0132 受信信号
A0200、A0210 デコーダ
A0201、A0211 空間情報管理部
A0202 音声データデコーダ
A0203、A0213、900 レンダリング部
901 残響処理部
902 初期反射処理部
903 距離減衰処理部
904 選択部
905 バイノーラル処理部

Claims (17)

  1.  仮想空間における移動体であるオブジェクトの位置を示す第1位置情報、及び、前記仮想空間における受聴者の位置を示す第2位置情報を取得する取得ステップと、
     取得された前記第1位置情報に基づいて、前記オブジェクトの移動速度を算出する第1算出ステップと、
     取得された前記第1位置情報及び取得された前記第2位置情報に基づいて、前記オブジェクトと前記受聴者との距離を算出する第2算出ステップと、
     算出された前記移動速度及び算出された前記距離に基づいて、前記オブジェクトの移動により生じる風が前記受聴者の耳に到達することで生じる空力音を示す空力音信号を生成する生成ステップと、
     生成された前記空力音信号を出力する出力ステップと、を含む
     音響信号処理方法。
  2.  前記生成ステップでは、
      算出された前記移動速度が大きいほど周波数成分を高周波数側にシフトさせ、かつ、
      算出された前記距離が小さいほど前記空力音の音量を大きくするように前記空力音信号を生成する
     請求項1に記載の音響信号処理方法。
  3.  前記取得ステップでは、前記オブジェクトが前記空力音を生成するか否かを示す可否情報を取得し、
     前記生成ステップでは、取得された前記可否情報が、前記オブジェクトが前記空力音を生成することを示す場合に、前記空力音信号を生成する
     請求項1に記載の音響信号処理方法。
  4.  前記取得ステップでは、前記オブジェクトの形状を示す形状情報を取得し、
     前記生成ステップでは、取得された形状情報が示す前記形状、算出された前記移動速度及び算出された前記距離に基づいて、前記空力音信号を生成する
     請求項1に記載の音響信号処理方法。
  5.  前記生成ステップでは、
      算出された前記移動速度が大きいほど周波数成分を高周波数側にシフトさせ、かつ、
      算出された前記距離が小さいほど前記空力音の音量を大きくするように、かつ、
      取得された前記形状情報に基づいて前記オブジェクトの体積が大きいほど前記空力音の音量を大きくするように前記空力音信号を生成する
     請求項4に記載の音響信号処理方法。
  6.  算出された前記移動速度及び取得された前記形状情報に基づいて、前記オブジェクトが移動する場合に生じる単位時間当たりの風量を算出する第3算出ステップを含み、
     前記生成ステップでは、算出された前記移動速度、算出された前記距離及び算出された前記風量に基づいて、前記空力音信号を生成する
     請求項4に記載の音響信号処理方法。
  7.  前記生成ステップでは、
      算出された前記移動速度が大きいほど周波数成分を高周波数側にシフトさせ、かつ、
      算出された前記距離が小さいほど前記空力音の音量を大きくするように、かつ、
      算出された前記風量が大きいほど前記空力音の音量を大きくするように前記空力音信号を生成する
     請求項6に記載の音響信号処理方法。
  8.  前記生成ステップでは、算出された前記移動速度、算出された前記距離及び人の耳の形状に基づいて、前記空力音信号を生成する
     請求項1に記載の音響信号処理方法。
  9.  人の耳又は人の耳を模したモデルに風が到達することで生じる音が収音されたデータである空力音データが記憶される記憶ステップと、
     前記生成ステップでは、記憶された前記空力音データ、算出された前記移動速度及び算出された前記距離に基づいて、前記空力音信号を生成する
     請求項1に記載の音響信号処理方法。
  10.  前記第3算出ステップでは、取得された前記形状情報に示される前記オブジェクトの移動方向から見た前記オブジェクトの面積、及び、算出された前記移動速度に基づいて、前記風量を算出する
     請求項6に記載の音響信号処理方法。
  11.  前記第1算出ステップでは、取得された前記第1位置情報に基づいて、前記オブジェクトの前記移動速度及び移動方向を算出し、
     前記第3算出ステップでは、取得された前記形状情報、算出された前記移動方向、及び、算出された前記移動速度に基づいて、前記風量を算出する
     請求項6に記載の音響信号処理方法。
  12.  雑音信号を複数の帯域強調フィルタのそれぞれで処理して、処理された複数の前記雑音信号の合成を行って処理することで、仮想空間における受聴者の耳に風が到達することで生じる空力音を示す空力音信号を生成する生成ステップと、
     生成された前記空力音信号を出力する出力ステップと、を含み、
     前記複数の帯域強調フィルタのそれぞれは、前記受聴者の耳又は頭部の形状に起因して生じる前記空力音を模擬するためのフィルタである
     音響信号処理方法。
  13.  前記複数の帯域強調フィルタは、処理された前記複数の雑音信号のうち当該帯域強調フィルタが処理した雑音信号に当該帯域強調フィルタに対応する所定の係数の乗算を行い、
     前記生成ステップでは、前記乗算が行われた後に、前記合成を行う
     請求項12に記載の音響信号処理方法。
  14.  前記複数の帯域強調フィルタのそれぞれは、前記耳に到達する前記風の風速に応じて特性が変動する
     請求項12に記載の音響信号処理方法。
  15.  前記複数の帯域強調フィルタのそれぞれは、前記耳に到達する前記風の風向に応じて特性が変動する
     請求項12に記載の音響信号処理方法。
  16.  請求項1~15のいずれか1項に記載の音響信号処理方法をコンピュータに実行させるためのコンピュータプログラム。
  17.  仮想空間における移動体であるオブジェクトの位置を示す第1位置情報、及び、前記仮想空間における受聴者の位置を示す第2位置情報を取得する取得部と、
     取得された前記第1位置情報に基づいて、前記オブジェクトの移動速度を算出する第1算出部と、
     取得された前記第1位置情報及び取得された前記第2位置情報に基づいて、前記オブジェクトと前記受聴者との距離を算出する第2算出部と、
     算出された前記移動速度及び算出された前記距離に基づいて、前記オブジェクトの移動により生じる風が前記受聴者の耳に到達することで生じる空力音を示す空力音信号を生成する生成部と、
     生成された前記空力音信号を出力する出力部と、を備える
     音響信号処理装置。
PCT/JP2023/025118 2022-07-13 2023-07-06 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置 WO2024014389A1 (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US202263388740P 2022-07-13 2022-07-13
US63/388,740 2022-07-13
US202263417397P 2022-10-19 2022-10-19
US63/417,397 2022-10-19
US202363457495P 2023-04-06 2023-04-06
US63/457,495 2023-04-06

Publications (1)

Publication Number Publication Date
WO2024014389A1 true WO2024014389A1 (ja) 2024-01-18

Family

ID=89536703

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/025118 WO2024014389A1 (ja) 2022-07-13 2023-07-06 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置

Country Status (1)

Country Link
WO (1) WO2024014389A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200029164A1 (en) * 2018-07-18 2020-01-23 Qualcomm Incorporated Interpolating audio streams
WO2020255810A1 (ja) * 2019-06-21 2020-12-24 ソニー株式会社 信号処理装置および方法、並びにプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200029164A1 (en) * 2018-07-18 2020-01-23 Qualcomm Incorporated Interpolating audio streams
WO2020255810A1 (ja) * 2019-06-21 2020-12-24 ソニー株式会社 信号処理装置および方法、並びにプログラム

Similar Documents

Publication Publication Date Title
KR102502383B1 (ko) 오디오 신호 처리 방법 및 장치
CN108141696B (zh) 用于空间音频调节的系统和方法
JP2021528001A (ja) 双方向オーディオ環境のための空間オーディオ
CN112602053B (zh) 音频装置和音频处理的方法
US11109177B2 (en) Methods and systems for simulating acoustics of an extended reality world
JP7453248B2 (ja) オーディオ装置およびその処理の方法
Murphy et al. Spatial sound for computer games and virtual reality
EP3506080B1 (en) Audio scene processing
WO2022170716A1 (zh) 音频处理方法、装置、设备、介质及程序产品
US11417347B2 (en) Binaural room impulse response for spatial audio reproduction
KR20140129654A (ko) 헤드 마운트 디스플레이 및 이를 이용한 오디오 콘텐츠 제공 방법
WO2020189263A1 (ja) 音響処理装置、音響処理方法、および音響処理プログラム
WO2024014389A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024014390A1 (ja) 音響信号処理方法、情報生成方法、コンピュータプログラム、及び、音響信号処理装置
WO2024084949A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024084950A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024084920A1 (ja) 音響処理方法、音響処理装置、及び、プログラム
WO2024084997A1 (ja) 音響処理装置及び音響処理方法
JP7267096B2 (ja) オーディオエフェクト制御システム、オーディオエフェクト制御装置、受信装置、オーディオエフェクト制御方法、受信装置の制御方法及びプログラム
WO2024084999A1 (ja) 音響処理装置及び音響処理方法
WO2023199778A1 (ja) 音響信号処理方法、プログラム、音響信号処理装置、および、音響信号再生システム
WO2023199815A1 (ja) 音響処理方法、プログラム、及び音響処理システム
WO2024084998A1 (ja) 音響処理装置及び音響処理方法
WO2023199813A1 (ja) 音響処理方法、プログラム、及び音響処理システム
WO2023199818A1 (ja) 音響信号処理装置、音響信号処理方法、及び、プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23839561

Country of ref document: EP

Kind code of ref document: A1